CAREER: Resolving Lexical Ambiguities in Natural Language Processing

职业:解决自然语言处理中的词汇歧义

基本信息

  • 批准号:
    9985033
  • 负责人:
  • 金额:
    $ 33万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2000
  • 资助国家:
    美国
  • 起止时间:
    2000-07-01 至 2006-06-30
  • 项目状态:
    已结题

项目摘要

This is the first year of funding of a 4 year, continuing award. One of the major roadblocks in theefficient and accurate communication between humans and machines is the resolution of theambiguity inherent in natural languages. A major bottleneck in developing solutions is the severeshortage of training data that distinguishes word senses, and the high cost of inputting thisinformation manually. A focus of this project is the development of unsupervised and minimallysupervised algorithms for acquiring such skills without costly hand-tagged training data. Suchmethods will exploit the distribution properties observed in very large text corpora (over 10 billionwords); the PI will also investigate richer representations of feature space, class models,smoothing methods and learning algorithms specialized for classification in very high-dimensionalfeaturespaces. In addition to the problem of word-sense disambiguation, this project will exploreshared solutions to a closely related set of lexical-ambiguity tasks including spelling correction,propername classification, capitalization restoration, accent and diacritic restoration for, diverselanguages, vowel restoration in Hebrew and Arabic, speech synthesis on homographs, lexicalchoice in machine translation, and certain aspects of choosing among phonetically confusablecandidates in speech recognition. These diverse problems are not normally recognized as beingmembers of the same class, and this project seeks to exploit the synergies present by developingmethods and training data on one member of the class and utilizing the methods and data on other.problems in the class. Thus this unified approach offers the potential for rapid parallel progress onkey problems in human-computer interaction and information extraction.
这是一个为期4年的连续奖励的第一年。人类和机器之间高效准确沟通的主要障碍之一是解决自然语言中固有的歧义。开发解决方案的一个主要瓶颈是区分词义的训练数据的短缺,以及手动输入这些信息的高昂成本。该项目的重点是开发无监督和最小监督算法,用于在没有昂贵的手工标记训练数据的情况下获得这些技能。这些方法将利用在非常大的文本语料库(超过100亿字)中观察到的分布特性; PI还将研究更丰富的特征空间表示、类模型、平滑方法和专门用于非常高维特征空间分类的学习算法。除了词义消歧的问题之外,该项目还将探索一系列密切相关的词汇歧义任务的共享解决方案,包括拼写纠正,专有名称分类,大写恢复,口音和变音符号恢复,多种语言,希伯来语和阿拉伯语的元音恢复,同形异义词的语音合成,机器翻译中的词汇选择,以及在语音识别中从语音易混淆的候选者中进行选择的某些方面。这些不同的问题通常不被认为是同一类的成员,这个项目试图通过开发类中一个成员的方法和训练数据,并利用类中其他问题的方法和数据来利用协同效应。因此,这种统一的方法提供了潜在的快速并行进展的关键问题,在人机交互和信息提取。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

David Yarowsky其他文献

Measuring the Similarity of Grammatical Gender Systems by Comparing Partitions
通过比较分区来衡量语法性别系统的相似性
  • DOI:
    10.18653/v1/2020.emnlp-main.456
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Arya D. McCarthy;Adina Williams;Shijia Liu;David Yarowsky;Ryan Cotterell
  • 通讯作者:
    Ryan Cotterell
Very-large Scale Parsing and Normalization of Wiktionary Morphological Paradigms
维基词典形态范式的超大规模解析和规范化
A two-level syntax-based approach to Arabic-English statistical machine translation
基于两级语法的阿拉伯语-英语统计机器翻译方法
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    C. Schafer;David Yarowsky
  • 通讯作者:
    David Yarowsky
Disambiguation of Standardized Personal Name Variants
标准化个人姓名变体的歧义消除
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Patricia Driscoll;David Yarowsky
  • 通讯作者:
    David Yarowsky
Language Independent, Minimally Supervised Induction of Lexical Probabilities
独立于语言的、最小监督的词汇概率归纳
  • DOI:
    10.3115/1075218.1075253
  • 发表时间:
    2000
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Silviu Cucerzan;David Yarowsky
  • 通讯作者:
    David Yarowsky

David Yarowsky的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('David Yarowsky', 18)}}的其他基金

Scientific Community On-Site Assessment Workshop for Robust Intelligence
科学界鲁棒智能现场评估研讨会
  • 批准号:
    0839056
  • 财政年份:
    2008
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
RI: Multi-Level Modeling of Language and Translation
RI:语言和翻译的多级建模
  • 批准号:
    0713448
  • 财政年份:
    2007
  • 资助金额:
    $ 33万
  • 项目类别:
    Continuing Grant

相似海外基金

Resolving deep animal phylogeny with irreversible and unrepeatable genomic changes
通过不可逆和不可重复的基因组变化解决深层动物系统发育
  • 批准号:
    EP/Y023668/1
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    Fellowship
CAREER: RACING -- Resolving the Activity Cycle In the Nearest Galaxies
职业:赛车——解决最近星系的活动周期问题
  • 批准号:
    2339670
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    Continuing Grant
Collaborative Research: Resolving the LGM ventilation age conundrum: New radiocarbon records from high sedimentation rate sites in the deep western Pacific
合作研究:解决LGM通风年龄难题:西太平洋深部高沉降率地点的新放射性碳记录
  • 批准号:
    2341426
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    Continuing Grant
Collaborative Research: Resolving the LGM ventilation age conundrum: New radiocarbon records from high sedimentation rate sites in the deep western Pacific
合作研究:解决LGM通风年龄难题:西太平洋深部高沉降率地点的新放射性碳记录
  • 批准号:
    2341424
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    Continuing Grant
EAGER: Generalizing Monin-Obukhov Similarity Theory (MOST)-based Surface Layer Parameterizations for Turbulence Resolving Earth System Models (ESMs)
EAGER:将基于 Monin-Obukhov 相似理论 (MOST) 的表面层参数化推广到湍流解析地球系统模型 (ESM)
  • 批准号:
    2414424
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
Scale Resolving Simulations for Innovations in Turbomachinery Design (SciFi Turbo)
涡轮机械设计创新的尺度解析模拟 (SciFi Turbo)
  • 批准号:
    10111062
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    EU-Funded
Resolving the Role of Brain Lymphatic Endothelial Cells in Sleep Dependent Brain Clearance
解决脑淋巴内皮细胞在睡眠依赖性脑清除中的作用
  • 批准号:
    BB/Y001206/1
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    Research Grant
Collaborative Research: MRA: Resolving and scaling litter decomposition controls from leaf to landscape in North American drylands
合作研究:MRA:解决和扩展北美旱地从树叶到景观的垃圾分解控制
  • 批准号:
    2307195
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    Continuing Grant
Thermospheric Circulation Using Mesoscale-Resolving Whole Atmosphere Model and Satellite Observations
使用中尺度解析整个大气模型和卫星观测的热层环流
  • 批准号:
    2409172
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    Standard Grant
CAREER: Turbulence-Resolving Integral Simulations for Boundary Layer Flows
职业:边界层流的湍流求解积分模拟
  • 批准号:
    2340121
  • 财政年份:
    2024
  • 资助金额:
    $ 33万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了