CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data

CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库

基本信息

  • 批准号:
    1205475
  • 负责人:
  • 金额:
    $ 36.43万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2012
  • 资助国家:
    美国
  • 起止时间:
    2012-09-01 至 2014-11-30
  • 项目状态:
    已结题

项目摘要

Linguistic code switching (LCS) is the practice of switching back and forth between the shared languages of bilingual or multilingual speakers. This phenomenon is particularly prevalent in geographic regions with linguistic boundaries or where there are large immigrant groups. Various levels of language (phonological, morphological, syntactic, semantic and discourse-pragmatic) may be implicated in LCS in different language pairs and/or genres. Computational algorithms trained for a single language quickly break down when the input includes LCS. A major barrier to research on LCS in computational linguistics (CL) has been the lack of large, accurately annotated corpora of LCS data. In this project, a large repository of LCS data is collected and a large annotation infrastructure is developed. It is consistently annotated in different modalities (speech and text), at various levels of linguistic granularity, and across different language pairs reflecting different linguistic typologies (Standard Arabic and Dialectal Arabic, Arabic-English, Spanish-English, Chinese-English, Hindi-English). The focus of the effort is on intra-sentential LCS.This infrastructure and unified large LCS data resource is eagerly awaited by the CL research community, since annotated LCS data provides a natural test-bed for adaptive learning algorithms and the handling of diverse data sources, as well as a framework for genuine multilingual processing. It will also be of benefit to sociolinguistic and theoretical linguistic researchers, and provide a platform for collaborative interdisciplinary research. Finally, research on LCS helps overcome biases against multilingual speakers by demonstrating the creativity of such speakers in exploiting their verbal repertoires. Such a result is particularly important for K-12 education and testing policies in the USA with its diverse immigrant population.
语言代码切换(LCS)是在双语或多语言使用者的共享语言之间来回切换的实践。这种现象在有语言界限的地理区域或有大量移民群体的地区尤为普遍。不同的语言对和/或体裁中,语言的各个层面(语音、形态、句法、语义和话语语用)都可能涉及到语言交际。当输入包括LCS时,为单一语言训练的计算算法很快就会崩溃。在计算语言学(CL)研究LCS的一个主要障碍是缺乏大型的,准确注释的LCS数据语料库。在这个项目中,收集了一个大型的LCS数据库,并开发了一个大型的注释基础设施。它始终以不同的形式(语音和文本),在不同的语言粒度级别,并在不同的语言对反映不同的语言类型(标准阿拉伯语和方言阿拉伯语,阿拉伯语-英语,西班牙语-英语,中文-英语,印地语-英语)进行注释。这一基础设施和统一的大型LCS数据资源是CL研究社区热切期待的,因为带注释的LCS数据为自适应学习算法和处理不同的数据源提供了一个自然的测试平台,以及真正的多语言处理框架。它也将有利于社会语言学和理论语言学研究者,并提供一个跨学科合作研究的平台。最后,LCS的研究有助于克服偏见,对多语言的发言者,展示了创造性的发言者在利用他们的口头剧目。这一结果对于移民人口多样化的美国的K-12教育和考试政策尤为重要。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Thamar Solorio其他文献

Thamar Solorio的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Thamar Solorio', 18)}}的其他基金

IRES Track I: US-Mexico Collaboration on Multimodal Detection of Objectionable Content in Online Videos in Spanish and English
IRES 轨道 I:美国-墨西哥合作对西班牙语和英语在线视频中的不良内容进行多模式检测
  • 批准号:
    2106892
  • 财政年份:
    2021
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
Workshop on desiderata for a multimodal dataset for objectionable content detection
用于不良内容检测的多模式数据集需求研讨会
  • 批准号:
    2036368
  • 财政年份:
    2020
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
RI: Small: Robust Models for Sequence Labelling in Social Media Data
RI:小型:社交媒体数据中序列标记的稳健模型
  • 批准号:
    1910192
  • 财政年份:
    2019
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CAREER: Authorship Analysis in Cross-Domain Settings
职业:跨域设置中的作者分析
  • 批准号:
    1462141
  • 财政年份:
    2014
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Continuing Grant
CAREER: Authorship Analysis in Cross-Domain Settings
职业:跨域设置中的作者分析
  • 批准号:
    1350360
  • 财政年份:
    2014
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Continuing Grant
HCC: Small: Collaborative Research: Analysis of Language Samples for Detecting Language Impairment in Monolingual and Bilingual Children
HCC:小型:合作研究:分析语言样本以检测单语和双语儿童的语言障碍
  • 批准号:
    1462143
  • 财政年份:
    2014
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1462142
  • 财政年份:
    2014
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
ACL-HLT 2011 Student Session
ACL-HLT 2011 学生会议
  • 批准号:
    1102435
  • 财政年份:
    2011
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
Collaborative Research:CI-P: Creation of an annotated repository of multilingual and multigenre code switched data for several language pairs
合作研究:CI-P:创建多个语言对的多语言和多流派代码交换数据的带注释存储库
  • 批准号:
    0958088
  • 财政年份:
    2010
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
Young Investigators in the Americas Workshop
美洲青年研究者研讨会
  • 批准号:
    1008711
  • 财政年份:
    2010
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant

相似海外基金

CI-ADDO-NEW: Collaborative Research: Development of DARwIn Humanoid Robots for Research, Education and Outreach
CI-ADDO-NEW:协作研究:开发用于研究、教育和推广的 DARwIn 人形机器人
  • 批准号:
    1564417
  • 财政年份:
    2015
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Continuing Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1462142
  • 财政年份:
    2014
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: A Repository for Annotating Multilingual Code Switched Data
CI-ADDO-NEW:协作研究:用于注释多语言代码交换数据的存储库
  • 批准号:
    1343530
  • 财政年份:
    2013
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: The Speech Recognition Virtual Kitchen
CI-ADDO-NEW:协作研究:语音识别虚拟厨房
  • 批准号:
    1305215
  • 财政年份:
    2013
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: ASTERIX: A Community Software Platform for Big Data Research, Analysis, and Management
CI-ADDO-NEW:ASTERIX:用于大数据研究、分析和管理的社区软件平台
  • 批准号:
    1305253
  • 财政年份:
    2013
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: The Speech Recognition Virtual Kitchen
CI-ADDO-NEW:协作研究:语音识别虚拟厨房
  • 批准号:
    1305319
  • 财政年份:
    2013
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: OCCAM: Open Curation for Computer Architecture Modeling
CI-ADDO-NEW:OCCAM:计算机架构建模的开放式管理
  • 批准号:
    1305220
  • 财政年份:
    2013
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: WiSER Dynamic Spectrum Access Platform and Infrastructure
CI-ADDO-NEW:合作研究:WiSER 动态频谱接入平台和基础设施
  • 批准号:
    1305405
  • 财政年份:
    2013
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: The Speech Recognition Virtual Kitchen
CI-ADDO-NEW:协作研究:语音识别虚拟厨房
  • 批准号:
    1305365
  • 财政年份:
    2013
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
CI-ADDO-NEW: Collaborative Research: WiSER Dynamic Spectrum Access Platform and Infrastructure
CI-ADDO-NEW:合作研究:WiSER 动态频谱接入平台和基础设施
  • 批准号:
    1305171
  • 财政年份:
    2013
  • 资助金额:
    $ 36.43万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了