RI: Small: Robust Models for Sequence Labelling in Social Media Data

RI:小型:社交媒体数据中序列标记的稳健模型

基本信息

  • 批准号:
    1910192
  • 负责人:
  • 金额:
    $ 30.79万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2019
  • 资助国家:
    美国
  • 起止时间:
    2019-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

In the last decade social media platforms have increased their impact on the way people communicate; these platforms are now considered an essential communication tool that people use broadly to share information, but also to get informed about the latest events on any topic. Consequently, the information running through those platforms, generated by users, companies, the media, and political entities, is extremely relevant to understand current events, behaviors, and more, and the automated distillation of this data is of great practical value. Current technology for text processing fails to perform information extraction accurately on social media data since these sophisticated algorithms have been trained on highly edited English text with a narrow set of topics, such as that in newswire data. In contrast, social media data has a fluid grammar, a very large vocabulary, unlimited topics, and includes multiple languages that are often mixed in the same text. This project addresses the many challenges involved in the automated processing from social media sources. Additionally, the research team will develop and release new annotated data that will enable new research in this direction. Furthermore, this project will address broadening participation in computer science by supporting graduate and undergraduate students, several of them from underrepresented groups in Computer Science.The underlying premise of this project is that a tighter coupling of representation learning with linguistic and domain knowledge will allow the models to learn the tasks by distilling all relevant linguistic abstractions in each single text, without requiring prohibitively large amounts of labeled data, as is typically the case in end-to-end deep-learning models. This award will design robust approaches for sequence labeling tasks that can analyze social media data with a two-pronged approach. First, the research team will study the challenges imposed by social media data and their correlation to prediction performance. Then the investigators will design new model architectures for sequence labeling tasks where domain and linguistic knowledge supervise the learning process. The evaluation of the proposed models will include data from different social media sources.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
在过去的十年中,社交媒体平台对人们沟通方式的影响越来越大;这些平台现在被认为是人们广泛使用的重要沟通工具,用于分享信息,也用于了解任何主题的最新事件。因此,由用户、公司、媒体和政治实体产生的信息在这些平台上运行,与了解当前事件、行为等非常相关,这些数据的自动化提炼具有很大的实用价值。目前的文本处理技术无法在社交媒体数据上准确地执行信息提取,因为这些复杂的算法已经在高度编辑的英语文本上进行了训练,主题范围很窄,例如新闻通讯数据。相比之下,社交媒体数据具有流畅的语法,非常大的词汇量,无限的主题,并且包括经常混合在同一文本中的多种语言。该项目解决了来自社交媒体来源的自动化处理所涉及的许多挑战。此外,研究团队将开发和发布新的注释数据,以实现这一方向的新研究。此外,该项目将通过支持研究生和本科生来扩大计算机科学的参与,其中一些学生来自计算机科学中代表性不足的群体。该项目的基本前提是,表征学习与语言和领域知识的更紧密耦合将允许模型通过提取每个文本中所有相关的语言抽象来学习任务,而不需要像端到端深度学习模型中的典型情况那样大量的标记数据。该奖项将为序列标记任务设计强大的方法,这些任务可以通过双管齐下的方法分析社交媒体数据。首先,研究团队将研究社交媒体数据带来的挑战及其与预测性能的相关性。然后,研究人员将为序列标记任务设计新的模型架构,其中领域和语言知识监督学习过程。该奖项反映了NSF的法定使命,并被认为值得通过使用基金会的知识价值和更广泛的影响审查标准进行评估来支持。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Mitigating Temporal-Drift: A Simple Approach to Keep NER Models Crisp
  • DOI:
    10.18653/v1/2021.socialnlp-1.14
  • 发表时间:
    2021-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shuguang Chen;Leonardo Neves;T. Solorio
  • 通讯作者:
    Shuguang Chen;Leonardo Neves;T. Solorio
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Thamar Solorio其他文献

Thamar Solorio的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Thamar Solorio', 18)}}的其他基金

IRES Track I: US-Mexico Collaboration on Multimodal Detection of Objectionable Content in Online Videos in Spanish and English
IRES 轨道 I:美国-墨西哥合作对西班牙语和英语在线视频中的不良内容进行多模式检测
  • 批准号:
    2106892
  • 财政年份:
    2021
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
Workshop on desiderata for a multimodal dataset for objectionable content detection
用于不良内容检测的多模式数据集需求研讨会
  • 批准号:
    2036368
  • 财政年份:
    2020
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
CAREER: Authorship Analysis in Cross-Domain Settings
职业:跨域设置中的作者分析
  • 批准号:
    1462141
  • 财政年份:
    2014
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Continuing Grant
CAREER: Authorship Analysis in Cross-Domain Settings
职业:跨域设置中的作者分析
  • 批准号:
    1350360
  • 财政年份:
    2014
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Continuing Grant
HCC: Small: Collaborative Research: Analysis of Language Samples for Detecting Language Impairment in Monolingual and Bilingual Children
HCC:小型:合作研究:分析语言样本以检测单语和双语儿童的语言障碍
  • 批准号:
    1462143
  • 财政年份:
    2014
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1462142
  • 财政年份:
    2014
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1205475
  • 财政年份:
    2012
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
ACL-HLT 2011 Student Session
ACL-HLT 2011 学生会议
  • 批准号:
    1102435
  • 财政年份:
    2011
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
Collaborative Research:CI-P: Creation of an annotated repository of multilingual and multigenre code switched data for several language pairs
合作研究:CI-P:创建多个语言对的多语言和多流派代码交换数据的带注释存储库
  • 批准号:
    0958088
  • 财政年份:
    2010
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
HCC: Small: Collaborative Research: Analysis of Language Samples for Detecting Language Impairment in Monolingual and Bilingual Children
HCC:小型:合作研究:分析语言样本以检测单语和双语儿童的语言障碍
  • 批准号:
    1018124
  • 财政年份:
    2010
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

RI: Small: Toward Efficient and Robust Dynamic Scene Understanding Based on Visual Correspondences
RI:小:基于视觉对应的高效、鲁棒的动态场景理解
  • 批准号:
    2310254
  • 财政年份:
    2023
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: Robust Deep Learning with Big Imbalanced Data
合作研究:RI:小型:具有大不平衡数据的鲁棒深度学习
  • 批准号:
    2246756
  • 财政年份:
    2022
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Robust Deep Learning with Big Imbalanced Data
合作研究:RI:小型:具有大不平衡数据的鲁棒深度学习
  • 批准号:
    2110546
  • 财政年份:
    2021
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Robust Deep Learning with Big Imbalanced Data
合作研究:RI:小型:具有大不平衡数据的鲁棒深度学习
  • 批准号:
    2110545
  • 财政年份:
    2021
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Continuing Grant
RI: Small: Speech-Centered Robust and Generalizable Measurements of "In the Wild" Behavior for Mental Health Symptom Severity Tracking
RI:小:以语音为中心的稳健且可概括的“野外”行为测量,用于心理健康症状严重程度跟踪
  • 批准号:
    2006618
  • 财政年份:
    2020
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
RI: Small: Robust Autonomy for Uncertain Systems using Randomized Trees
RI:小型:使用随机树实现不确定系统的鲁棒自治
  • 批准号:
    2008686
  • 财政年份:
    2020
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Continuing Grant
RI: Small: Neural Sequences as a Robust Dynamic Regime for Spatiotemporal Time Invariant Computations.
RI:小:神经序列作为时空时不变计算的鲁棒动态机制。
  • 批准号:
    2008741
  • 财政年份:
    2020
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
RI: Small: Domain-robust object detection through shape and context
RI:小:通过形状和上下文进行领域稳健的对象检测
  • 批准号:
    2006885
  • 财政年份:
    2020
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
RI: SMALL: Robust Inference and Influence in Dynamic Environments
RI:小:动态环境中的鲁棒推理和影响
  • 批准号:
    1907907
  • 财政年份:
    2019
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
AF: RI: Small: Barriers in Adversarially Robust Learning
AF:RI:小:对抗性鲁棒学习的障碍
  • 批准号:
    1910681
  • 财政年份:
    2019
  • 资助金额:
    $ 30.79万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了