Combining Text Mining and Multivariate Time Series Modelling

结合文本挖掘和多元时间序列建模

基本信息

项目摘要

Collections of texts are considered as a valuable source of information for applied economic analysis. Recent developments in the access to large sets of documents, e.g., scientific abstracts, articles, news items, social media messages or statements of different institutions, and in the methods developed for extracting information from texts increase the interest in this type of data. However, the knowledge about the performance of these methods, in particular when combined with the usual econometric methods is still rather limited. Therefore, the objective of the TEXTMOD project is to contribute to the development of methods and to improve the understanding of how the information obtained from text mining can be incorporated in econometric models. Thereby, the focus is on multivariate time series models. The indicators are constructed using models which try to identify relevant themes in large collections of documents without human intervention. An example of text-based time series, which can be of interest in economic research and can add information content to classical real economic indicators, is a topic trend describing how the importance of a given topic (e.g. related to inflation) changed over time. While a substantial number of methods have been proposed over the last few years for identifying topics and their trends over time, there is little evidence on the statistical properties of these procedures, their relative performance and their interaction with more traditional modelling approaches. Consequently, a central aim of the project is to investigate sensitivity to parameter settings, robustness to variations of the textual sample and uncertainty associated with these algorithms. In the project, additional methods for comparing the results of topic modelling across samples or resulting from different methods will be proposed. In a further important step, different methods for deriving trends in topics will be considered and finally the consequences of including them in time series models, e.g., the widely used vector autoregressive model, will be studied. Special emphasis will be put on the appropriate interpretation of results, evaluation of additional insights from using text-based data and rigorous measurement of the estimation uncertainty which will be captured by means of joint confidence bands. The methods will be applied to study the relationships between real economic indicators and trends in topics found for scientific corpora in economics from Poland and Germany.
文本集被认为是应用经济分析的宝贵信息来源。最近在获取大量文件(例如科学摘要、文章、新闻、社交媒体信息或不同机构的声明)以及从文本中提取信息的方法方面的发展,增加了对这类数据的兴趣。然而,关于这些方法的性能的知识,特别是当与通常的计量经济学方法相结合时,仍然相当有限。因此,TEXTMOD项目的目标是促进方法的发展,并提高对如何将从文本挖掘中获得的信息纳入计量经济模型的理解。因此,重点是多变量时间序列模型。这些指标是使用模型构建的,这些模型试图在没有人为干预的情况下识别大量文件中的相关主题。基于文本的时间序列的一个例子是描述给定主题(例如与通货膨胀相关)的重要性如何随时间变化的主题趋势,它可以在经济研究中引起兴趣,并可以为经典的实体经济指标添加信息内容。虽然在过去几年中提出了大量的方法来确定主题及其随时间的趋势,但关于这些程序的统计特性、它们的相对性能以及它们与更传统的建模方法的相互作用的证据很少。因此,该项目的中心目标是研究对参数设置的敏感性,对文本样本变化的鲁棒性以及与这些算法相关的不确定性。在该项目中,将提出其他方法来比较跨样本或不同方法产生的主题建模结果。在另一个重要的步骤中,将考虑得出主题趋势的不同方法,最后将研究将它们包括在时间序列模型中的后果,例如广泛使用的向量自回归模型。将特别强调对结果的适当解释、对使用基于文本的数据的额外见解的评价以及将通过联合置信带获得的估计不确定性的严格测量。这些方法将用于研究波兰和德国经济学科学语料库中发现的主题中实际经济指标与趋势之间的关系。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Professor Dr. Peter Winker其他文献

Professor Dr. Peter Winker的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Professor Dr. Peter Winker', 18)}}的其他基金

Ökonometrische Schätzung Agenten basierter Modelle und Vergleich unterschiedlicher Modelle mit geschätzten Parametern für Wechselkursdaten
基于代理的模型的计量经济学估计以及不同模型与汇率数据估计参数的比较
  • 批准号:
    5428455
  • 财政年份:
    2004
  • 资助金额:
    --
  • 项目类别:
    Research Grants

相似国自然基金

J-TEXT托卡马克上边界湍流与撕裂模相互作用的实验研究
  • 批准号:
    12375223
  • 批准年份:
    2023
  • 资助金额:
    54 万元
  • 项目类别:
    面上项目
J-TEXT装置外加三维磁场主动调控偏滤器脱靶的实验研究
  • 批准号:
    12305243
  • 批准年份:
    2023
  • 资助金额:
    20 万元
  • 项目类别:
    青年科学基金项目
J-TEXT托卡马克装置上多模式磁扰动对逃逸电流影响研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
J-TEXT托卡马克上边界湍流特性对高密度运行影响的实验研究
  • 批准号:
    11905080
  • 批准年份:
    2019
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
关于J-TEXT托卡马克上微撕裂模电磁湍流及其输运的实验研究
  • 批准号:
    11605067
  • 批准年份:
    2016
  • 资助金额:
    19.0 万元
  • 项目类别:
    青年科学基金项目
基于J-TEXT远红外偏振干涉仪的相干散射与密度扰动的实验研究
  • 批准号:
    11575067
  • 批准年份:
    2015
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目
J-TEXT上外加磁扰动抑制等离子体破裂下逃逸电子产生的实验研究
  • 批准号:
    11275079
  • 批准年份:
    2012
  • 资助金额:
    80.0 万元
  • 项目类别:
    面上项目
J-TEXT托卡马克等离子体粒子输运的密度调制实验研究
  • 批准号:
    11105056
  • 批准年份:
    2011
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Development of social attention indicators of emerging technologies and science policies with network analysis and text mining
利用网络分析和文本挖掘开发新兴技术和科学政策的社会关注指标
  • 批准号:
    24K16438
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
CAREER: Mining Hints from Text Documents to Guide Automated Database Performance Tuning
职业:从文本文档中挖掘提示来指导自动数据库性能调优
  • 批准号:
    2239326
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
Research on Gender Differences in Entrepreneurship Using Text Mining
基于文本挖掘的创业性别差异研究
  • 批准号:
    23K01607
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Next generation Text Mining in Drug Discovery
药物发现中的下一代文本挖掘
  • 批准号:
    BB/X511833/1
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Training Grant
Semantic Representations for Interactive Text Mining
交互式文本挖掘的语义表示
  • 批准号:
    RGPIN-2020-04834
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Next generation Text Mining in Drug Discovery
药物发现中的下一代文本挖掘
  • 批准号:
    2760490
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Studentship
Harmonizing String and Unification-based Methodology with Machine Learning for Text Mining and Processing
将基于字符串和统一的方法与用于文本挖掘和处理的机器学习相协调
  • 批准号:
    RGPIN-2019-05683
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
The Use of Computational Text-Mining Methods to Understand and Detect Intimate Partner Abuse
使用计算文本挖掘方法来理解和检测亲密伴侣虐待行为
  • 批准号:
    2575944
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Studentship
Semantic Representations for Interactive Text Mining
交互式文本挖掘的语义表示
  • 批准号:
    RGPIN-2020-04834
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Discovery Grants Program - Individual
Development of SaaS Software for Talent Acquisition Using Natural Language Processing and Text Mining Algorithms
使用自然语言处理和文本挖掘算法开发人才招聘 SaaS 软件
  • 批准号:
    566995-2021
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Applied Research and Development Grants - Level 1
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了