RI: Small: Modeling Lexical Borrowing to Bridge the "Linguistic Divide" in Natural Language Processing
RI:小:建模词汇借用以弥合自然语言处理中的“语言鸿沟”
基本信息
- 批准号:1526745
- 负责人:
- 金额:$ 45万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2015
- 资助国家:美国
- 起止时间:2015-09-01 至 2018-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
The rich ecosystem of intelligent, language-aware technologies (e.g., personal assistants, content recommendation, spam detection, etc.) that users of English and other high-resource languages have access to depends on the existence of language-specific data resources. Developing the resources that enable these technologies has usually required a substantial investment -- both monetarily and in terms of trained native speakers -- meaning that without new strategies, most of the 7,000+ languages in the world would likely remain resource-poor and their speakers underserved. This project addresses the problem of bootstrapping linguistic resources required for language technologies in low-resource languages more economically by identifying cross-linguistic correspondences between high- and low-resource languages and projecting resources (e.g., translations, lexical ontologies, and syntactic annotations) accordingly. To identify these correspondences, this work develops computational models of linguistic borrowing, which is the process by which words from a donor language are adapted by speakers of a recipient language as a result of language contact and bilingualism. In addition to enabling the transfer of resources from high- to low-resource languages, being able to identify borrowing enables corpus-based studies of the social factors (power differences between countries, public opinion, and personal attributes such as geographic location, gender, and race/ethnicity) that have been identified as correlates with which words are borrowed. Thus, by observing language change, this work enables changes in social relations to be quantified.Words are not left unchanged by the process of borrowing, and modeling this process is the central challenge to identifying instances of borrowing. Fortunately, the adaptation processes are generally regular and amenable to computational modeling, and this work uses weighted finite-state transducers parameterized with features derived from Optimality Theory (OT). OT-derived features not only provide increased statistical efficiency relative to conventional linguistically naive statistical models but they also provide a new kind of corpus-based verification of some of the central claims of phonological theory. The borrowing model identifies lexical correspondences across dozens of typologically representative language pairs (primary text data is obtained from open resources such as Wikipedia, Twitter, blogs, and online news), enabling projection of resources and development of core natural language processing technologies. Finally, the borrowing model enables instances of borrowed words to be identified in text as it is generated over time, enabling corpus-based sociolinguistic studies.
丰富的智能、语言感知技术生态系统(例如,个人助理、内容推荐、垃圾邮件检测等)英语和其他高资源语言的用户能够访问的数据取决于特定语言数据资源的存在。开发使这些技术成为可能的资源通常需要大量投资-无论是在资金上还是在训练有素的母语使用者方面-这意味着如果没有新的战略,世界上7,000多种语言中的大多数可能仍然缺乏资源,其使用者也得不到充分的服务。 该项目通过识别高资源和低资源语言之间的跨语言对应关系和投影资源(例如,翻译、词汇本体和句法注释)。为了识别这些对应关系,这项工作开发了语言借用的计算模型,这是一个过程,通过这个过程,来自捐赠语言的单词被接受语言的说话者改编为语言接触和双语的结果。除了能够将资源从高资源语言转移到低资源语言之外,能够识别借用还可以基于语料库研究社会因素(国家之间的权力差异,公众舆论和个人属性,如地理位置,性别和种族/民族),这些因素已被确定为与哪些词被借用相关。因此,通过观察语言的变化,这项工作可以量化社会关系的变化。词汇在借用过程中不会保持不变,而对这一过程进行建模是识别借用实例的核心挑战。幸运的是,自适应过程一般是定期的,并服从计算建模,这项工作使用加权有限状态传感器参数化的功能来自最优理论(OT)。OT衍生的功能不仅提供了增加的统计效率相对于传统的语言幼稚的统计模型,但他们也提供了一种新的基于语料库的验证的一些核心主张的音系理论。借用模型识别了数十种类型上具有代表性的语言对之间的词汇对应关系(主要文本数据来自维基百科、Twitter、博客和在线新闻等开放资源),从而实现了资源的投影和核心自然语言处理技术的开发。最后,借用模型使借入词的实例在文本中被识别,因为它是随着时间的推移产生的,使基于语料库的社会语言学研究。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Alan Black其他文献
Introducing Supplemental Context for Word Sense Disambiguation
引入补充上下文进行词义消歧
- DOI:
10.1109/ictai.2016.0164 - 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
Alan Black;Rosina O. Weber - 通讯作者:
Rosina O. Weber
Experience with day stay surgery
- DOI:
10.1016/s0022-3468(80)80396-4 - 发表时间:
1980-02-01 - 期刊:
- 影响因子:
- 作者:
Douglas Cohen;John Keneally;Alan Black;Sandra Gaffney;Andra Johnson - 通讯作者:
Andra Johnson
Tweet recall: examining real-time civic discourse on twitter
推文回忆:检查推特上的实时公民话语
- DOI:
10.1145/2389176.2389233 - 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
C. Mascaro;Alan Black;S. Goggins - 通讯作者:
S. Goggins
Inhibition of microsomal aldrin epoxidation by diquat and several related bipyridvlium compounds
敌草快和几种相关联吡啶化合物对微粒体艾氏剂环氧化的抑制作用
- DOI:
- 发表时间:
1973 - 期刊:
- 影响因子:2.7
- 作者:
R. Krieger;Philip W. Lee;Alan Black;T. Fukuto - 通讯作者:
T. Fukuto
Rethinking the smart closet as an opportunity to enhance the social currency of clothing
重新思考智能衣柜作为增强服装社交货币的机会
- DOI:
10.1145/2370216.2370245 - 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
J. Rode;Rachel M. Magee;Melinda Sebastian;Alan Black;Rachel Yudell;Aly Gibran;Nora Mcdonald;J. Zimmerman - 通讯作者:
J. Zimmerman
Alan Black的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Alan Black', 18)}}的其他基金
TRANSFORM: flexible voice synthesis through articulatory voice transformation
TRANSFORM:通过发音转换实现灵活的语音合成
- 批准号:
0414675 - 财政年份:2005
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
ITR: Evaluation and Personalization of Synthetic Voices
ITR:合成语音的评估和个性化
- 批准号:
0219687 - 财政年份:2002
- 资助金额:
$ 45万 - 项目类别:
Continuing Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
Collaborative Research: RI: Small: Modeling and Learning Ethical Principles for Embedding into Group Decision Support Systems
协作研究:RI:小型:建模和学习嵌入群体决策支持系统的道德原则
- 批准号:
2007994 - 财政年份:2021
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
Collaborative Research: RI: Small: Modeling and Learning Ethical Principles for Embedding into Group Decision Support Systems
协作研究:RI:小型:建模和学习嵌入群体决策支持系统的道德原则
- 批准号:
2007955 - 财政年份:2021
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
Collaborative Research: RI: Small: Modeling and Learning Ethical Principles for Embedding into Group Decision Support Systems
协作研究:RI:小型:建模和学习嵌入群体决策支持系统的道德原则
- 批准号:
2008011 - 财政年份:2021
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
RI: Small: Modeling Co-Decisions: A Computational Framework Using Language and Metadata
RI:小型:共同决策建模:使用语言和元数据的计算框架
- 批准号:
2008761 - 财政年份:2020
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
RI: Small: Collaborative Research: Extracting Dynamics from Limited Data for Modeling and Control of Unmanned Autonomous Systems
RI:小型:协作研究:从有限数据中提取动力学,用于无人自主系统的建模和控制
- 批准号:
1910308 - 财政年份:2019
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
RI: Small: Collaborative Research: Extracting Dynamics from Limited Data for Modeling and Control of Unmanned Autonomous Systems
RI:小型:协作研究:从有限数据中提取动力学,用于无人自主系统的建模和控制
- 批准号:
1910087 - 财政年份:2019
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
NSF-BSF: RI: Small: Collaborative Research: Modeling Crosslinguistic Influences Between Language Varieties
NSF-BSF:RI:小型:协作研究:模拟语言品种之间的跨语言影响
- 批准号:
1812778 - 财政年份:2018
- 资助金额:
$ 45万 - 项目类别:
Continuing Grant
NSF-BSF: RI: Small: Collaborative Research: Modeling Crosslinguistic Influences Between Language Varieties
NSF-BSF:RI:小型:协作研究:模拟语言品种之间的跨语言影响
- 批准号:
1812327 - 财政年份:2018
- 资助金额:
$ 45万 - 项目类别:
Continuing Grant
RI: Small: Modeling Multiple Modalities for Knowledge-Base Construction
RI:小型:知识库构建的多种模式建模
- 批准号:
1817183 - 财政年份:2018
- 资助金额:
$ 45万 - 项目类别:
Standard Grant
NSF-BSF: RI: Small: Collaborative Research: Modeling Crosslinguistic Influences Between Language Varieties
NSF-BSF:RI:小型:协作研究:模拟语言品种之间的跨语言影响
- 批准号:
1813153 - 财政年份:2018
- 资助金额:
$ 45万 - 项目类别:
Continuing Grant