CRII: III: Real-World Machine Learning: Adaptation Methods for Addressing Temporal, Geographic, and Demographic Confounds in User-Generated Content
CRII:III:现实世界的机器学习:解决用户生成内容中的时间、地理和人口统计混乱的适应方法
基本信息
- 批准号:1657338
- 负责人:
- 金额:$ 17.41万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2017
- 资助国家:美国
- 起止时间:2017-09-01 至 2020-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
There is a rapidly growing body of research that uses user-generated content from the web, e.g., social media messages, to draw conclusions about the world. Using machine learning and natural language processing methods, it is possible to estimate public opinion, consumer sentiment, and population health based on what people are publicly sharing about their thoughts and actions online. For example, if someone writes that they have a fever, we might infer that they have the flu; if we aggregate all messages like this, we can track the prevalence and spread of the flu at a population level. However, a challenge with applying machine learning to user-generated content is that the characteristics of the content are highly dependent on the Who, When, and Where of the users. Online discussions evolve rapidly; a system built in one year might not work well in the next, and a system built for one community of users might not work for another. The proposed project seeks to create machine learning methods that are robust to variations in time, geography, and demographics of content and content creators. Related to domain adaptation techniques in machine learning, the PI proposes methods that learn to generalize across these various content attributes. The general goal is to create robust, open source tools that can be easily adopted by other researchers. One particular outcome of the project will be to improve the machine learning classifiers used in prior work on social media-based disease surveillance. The output of the PI's health analysis systems will be integrated into HealthTweets.org, a publicly accessible website that shares daily estimates of disease prevalence for other researchers and health officials. The project will create hierarchical Bayesian models for training classifiers that can be adapted across different content attributes. The specific attributes of interest include time, geography, and demographic group of the author, but the proposed models do not depend on the specific attributes, and can be broadly applied to other machine learning settings. As a starting point, a predictive model (classification or regression) will be constructed that can be adapted across one attribute at a time. The PI will then create novel extensions to the model that can adapt across conjunctions of multiple attributes, such as time AND location. These extensions are related to the PI's prior work on building structured topic models that learn relationships between different features of content. Finally, in addition to creating predictive models, the PI will also build models of content that can be used to infer missing attributes (e.g., the location of a user if it is unknown), which can be combined with the predictive models to jointly perform inference and classification. Classification performance in new settings on a variety of datasets and exploration of the effects of, and sensitivity to, different parameters will be tested. Specific deliverables include the improvement a classifier for detecting influenza infection on Twitter, and integrating the classifier into the website, HealthTweets.org.
有一个快速增长的研究机构,使用用户生成的内容从网络上,例如,社交媒体上的信息,来得出关于这个世界的结论。 使用机器学习和自然语言处理方法,可以根据人们在网上公开分享的想法和行动来估计公众舆论,消费者情绪和人口健康。 例如,如果有人写道他们发烧了,我们可能会推断他们感染了流感;如果我们汇总所有这样的消息,我们就可以在人群水平上跟踪流感的流行和传播。 然而,将机器学习应用于用户生成内容的挑战在于,内容的特征高度依赖于用户的身份、时间和地点。 在线讨论发展迅速;一年内建立的系统可能在下一年就不能很好地工作,为一个用户群体建立的系统可能不适用于另一个用户群体。 拟议的项目旨在创建机器学习方法,这些方法对内容和内容创建者的时间,地理和人口统计数据的变化具有鲁棒性。 与机器学习中的领域自适应技术相关,PI提出了学习在这些不同的内容属性之间进行泛化的方法。 总体目标是创建强大的开源工具,可以很容易地被其他研究人员采用。 该项目的一个特别成果将是改进先前基于社交媒体的疾病监测工作中使用的机器学习分类器。 PI的健康分析系统的输出将被整合到HealthTweets.org,这是一个可公开访问的网站,为其他研究人员和卫生官员分享疾病流行率的每日估计。该项目将创建分层贝叶斯模型,用于训练分类器,这些分类器可以适应不同的内容属性。 感兴趣的特定属性包括作者的时间,地理和人口统计组,但所提出的模型不依赖于特定属性,并且可以广泛应用于其他机器学习设置。 作为起点,将构建一个预测模型(分类或回归),该模型可以一次在一个属性上进行调整。 然后PI将为模型创建新的扩展,这些扩展可以适应多个属性的连接,例如时间和位置。 这些扩展与PI先前构建结构化主题模型的工作有关,该模型可以学习内容的不同特征之间的关系。 最后,除了创建预测模型之外,PI还将构建可用于推断缺失属性的内容模型(例如,用户的位置(如果其是未知的),其可以与预测模型组合以联合执行推断和分类。将测试在新设置下对各种数据集的分类性能,以及对不同参数的影响和敏感性的探索。 具体的交付成果包括改进一个用于在Twitter上检测流感感染的分类器,并将该分类器集成到网站HealthTweets.org中。
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Neural User Factor Adaptation for Text Classification: Learning to Generalize Across Author Demographics
- DOI:10.18653/v1/s19-1015
- 发表时间:2019-06
- 期刊:
- 影响因子:0
- 作者:Xiaolei Huang;Michael J. Paul
- 通讯作者:Xiaolei Huang;Michael J. Paul
Examining Temporality in Document Classification
检查文档分类中的临时性
- DOI:
- 发表时间:2018
- 期刊:
- 影响因子:0
- 作者:Huang, Xiaolei;Paul, Michael J.
- 通讯作者:Paul, Michael J.
Neural Temporality Adaptation for Document Classification: Diachronic Word Embeddings and Domain Adaptation Models
- DOI:10.18653/v1/p19-1403
- 发表时间:2019-07
- 期刊:
- 影响因子:0
- 作者:Xiaolei Huang;Michael J. Paul
- 通讯作者:Xiaolei Huang;Michael J. Paul
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Michael Paul其他文献
Customer Experience: Conceptualization, Measurement, and Application in Omnichannel Environments
客户体验:全渠道环境中的概念化、测量和应用
- DOI:
10.1177/10946705221126590 - 发表时间:
2022 - 期刊:
- 影响因子:12.4
- 作者:
Markus Gahler;Jan F. Klein;Michael Paul - 通讯作者:
Michael Paul
High power accelerator-based boron neutron capture with a liquid lithium target and new applications to treatment of infectious diseases.
基于高功率加速器的硼中子捕获与液态锂靶以及治疗传染病的新应用。
- DOI:
10.1016/j.apradiso.2009.03.075 - 发表时间:
2009 - 期刊:
- 影响因子:0
- 作者:
S. Halfon;Michael Paul;Doron Steinberg;A. Nagler;A. Arenshtam;D. Kijel;Itzhak Polacheck;Morris Srebnik - 通讯作者:
Morris Srebnik
A-STAR: Toward translating Asian spoken languages
A-STAR:致力于翻译亚洲口语
- DOI:
10.1016/j.csl.2011.07.001 - 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
S. Sakti;Michael Paul;A. Finch;S. Sakai;T. Vu;Noriyuki Kimura;Chiori Hori;E. Sumita;Satoshi Nakamura;Jun Park;C. Wutiwiwatchai;Bo Xu;Hammam Riza;K. Arora;C. Luong;Haizhou Li - 通讯作者:
Haizhou Li
Subtle but spotted? Influencing factors of customer-perceived weight discrimination
微妙但被发现?
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:3.9
- 作者:
S. Kralj;Andreas T. Lechner;Michael Paul - 通讯作者:
Michael Paul
Efficient Preparation of Incensole and Incensole Acetate, and Quantification of These Bioactive Diterpenes in Boswellia papyrifera by a RP-DAD-HPLC Method
高效制备香香和香香乙酸酯,并通过 RP-DAD-HPLC 方法定量乳香中这些生物活性二萜
- DOI:
10.1177/1934578x1200700303 - 发表时间:
2012 - 期刊:
- 影响因子:1.8
- 作者:
Michael Paul;J. Jauch - 通讯作者:
J. Jauch
Michael Paul的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似国自然基金
全钒液流电池负极V(II)/V(III)电化学氧化还原的催化机理研究
- 批准号:2025JJ50094
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
吡咯烷生物碱所致肝窦阻塞综合征III区肝损伤的新机制——局部氨代谢紊乱
- 批准号:JCZRYB202500652
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
硅基III-V族亚微米线激光器的光场模式调控与耦合机理研究
- 批准号:JCZRQN202501004
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
MXene/nZVI@FH材料微域层界面调控水中砷(III)氧化迁移机制
- 批准号:2025JJ50319
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
HOXC8/OPN/CD44/EGFR轴介导的奥沙利铂耐药性在III期右半结肠癌耐药进展中的研究
- 批准号:2025JJ50694
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
AI结合超声原始射频信号评估Bethesda III/IV类甲状腺肿瘤包膜和血管侵犯研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
硫化砷靶向VPS4B-ESCRT-III调控自噬溶酶体通路逆转三阴性乳腺癌顺铂耐药性的研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
ASPGR与MRC2双受体介导铱(III)配合物
脂质体抗肝肿瘤研究
- 批准号:
- 批准年份:2025
- 资助金额:10.0 万元
- 项目类别:省市级项目
Ap-Exo III 联合模式识别构建降尿酸药
物筛选新方法的研究
- 批准号:
- 批准年份:2025
- 资助金额:10.0 万元
- 项目类别:省市级项目
经关节突截骨矫治III期Kummell病临床有效性分析
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
相似海外基金
III: Small: Multiple Device Collaborative Learning in Real Heterogeneous and Dynamic Environments
III:小:真实异构动态环境中的多设备协作学习
- 批准号:
2311990 - 财政年份:2023
- 资助金额:
$ 17.41万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: Resilience Analysis for Core Decomposition in Real-World Networks
III:小:协作研究:现实世界网络中核心分解的弹性分析
- 批准号:
1910063 - 财政年份:2019
- 资助金额:
$ 17.41万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: Resilience Analysis for Core Decomposition in Real-World Networks
III:小:协作研究:现实世界网络中核心分解的弹性分析
- 批准号:
1908048 - 财政年份:2019
- 资助金额:
$ 17.41万 - 项目类别:
Standard Grant
CRII: III: Generative Models for Robust Real-Time Analysis of Complex Dynamic Networks
CRII:III:复杂动态网络鲁棒实时分析的生成模型
- 批准号:
1755824 - 财政年份:2018
- 资助金额:
$ 17.41万 - 项目类别:
Standard Grant
III: Small: Non-Invasive Real-Time Analytics in Database Systems using Holistic Query Compilation
III:小型:使用整体查询编译在数据库系统中进行非侵入式实时分析
- 批准号:
1718582 - 财政年份:2017
- 资助金额:
$ 17.41万 - 项目类别:
Continuing Grant
III: Large: Collaborative Research: Moving Objects Databases for Exploration of Virtual and Real Environments
III:大型:协作研究:用于探索虚拟和现实环境的移动对象数据库
- 批准号:
1823267 - 财政年份:2017
- 资助金额:
$ 17.41万 - 项目类别:
Standard Grant
Fluorescent reporters for real-time single-cell Pol III transcription measurement
用于实时单细胞 Pol III 转录测量的荧光报告基因
- 批准号:
9254931 - 财政年份:2017
- 资助金额:
$ 17.41万 - 项目类别:
III: Small: Real-Time Detection of Structures from a Massive Graph Stream
III:小:从海量图流中实时检测结构
- 批准号:
1527541 - 财政年份:2015
- 资助金额:
$ 17.41万 - 项目类别:
Standard Grant
III: Small: From Real-Time Sensor Data Streams to Continuous Data Fields Models: Formal Foundations and Computational Challenges
III:小:从实时传感器数据流到连续数据字段模型:形式基础和计算挑战
- 批准号:
1527504 - 财政年份:2015
- 资助金额:
$ 17.41万 - 项目类别:
Standard Grant
MRI: Acquisition of an IVIS Lumina K Series III real-time in vivo-in vitro fluorescent and bioluminescent fast imaging system
MRI:购买 IVIS Lumina K Series III 实时体内体外荧光和生物发光快速成像系统
- 批准号:
1530953 - 财政年份:2015
- 资助金额:
$ 17.41万 - 项目类别:
Standard Grant