Word form similarity computation and application in natural language processing

词形相似度​​计算及其在自然语言处理中的应用

基本信息

  • 批准号:
    261284-2007
  • 负责人:
  • 金额:
    $ 1.46万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2009
  • 资助国家:
    加拿大
  • 起止时间:
    2009-01-01 至 2010-12-31
  • 项目状态:
    已结题

项目摘要

In natural language processing, words are often treated as abstract entities divorced from their actual form. However, the actual orthographic or phonetic form of words is an important feature that can be utilized in various tasks. The algorithms that I previously developed for computing word similarity have proven to be effective in a variety of applications, including identification of confusable drug names, and matching person names across different scripts. In the current proposal, I describe how I plan to achieve my two principal research goals: continue developing new measures of similarity, and improve the state-of-the-art in several areas involving sequential processing. With respect to the first goal, my specific objectives are: to propose data-driven learning schemes that integrate many-to-many correspondences and sensitivity to context and to design methods that incorporate linguistic knowledge and require no training data. With respect to the second goal, the areas in which I plan to make an impact are: letter-to-phoneme conversion, machine transliteration, statistical machine translation, and cognate identification. The development and application of word similarity methods leads to a number of challenging research problems, and promises to bring a unifying perspective on several distinct tasks that have so far been perceived as unrelated. Based on the experience of the last few years, I am convinced that this line of research will continue to have an impact beyond the areas of its original application.
在自然语言处理中,单词通常被视为与其实际形式分离的抽象实体。然而,单词的实际拼写或语音形式是一个重要的特征,可以在各种任务中使用。我之前开发的用于计算单词相似性的算法已被证明在各种应用中是有效的,包括识别易混淆的药物名称,以及在不同脚本中匹配人名。在目前的提案中,我描述了我计划如何实现我的两个主要研究目标:继续开发新的相似性措施,并提高国家的最先进的几个领域,涉及顺序处理。关于第一个目标,我的具体目标是:提出数据驱动的学习方案,整合多对多的对应关系和对上下文的敏感性,并设计包含语言知识且不需要训练数据的方法。关于第二个目标,我计划影响的领域是:字母到音素转换,机器音译,统计机器翻译和同源识别。词相似度方法的发展和应用导致了一些具有挑战性的研究问题,并有望为迄今为止被认为是无关的几个不同的任务带来统一的观点。根据过去几年的经验,我相信这一研究领域将继续产生超出其最初应用领域的影响。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Kondrak, Grzegorz其他文献

Kondrak, Grzegorz的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Kondrak, Grzegorz', 18)}}的其他基金

Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
  • 批准号:
    RGPIN-2017-05875
  • 财政年份:
    2021
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
  • 批准号:
    RGPIN-2017-05875
  • 财政年份:
    2020
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
  • 批准号:
    RGPIN-2017-05875
  • 财政年份:
    2019
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
  • 批准号:
    RGPIN-2017-05875
  • 财政年份:
    2018
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
  • 批准号:
    RGPIN-2017-05875
  • 财政年份:
    2017
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
  • 批准号:
    261284-2012
  • 财政年份:
    2016
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
  • 批准号:
    261284-2012
  • 财政年份:
    2015
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
  • 批准号:
    261284-2012
  • 财政年份:
    2014
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
  • 批准号:
    261284-2012
  • 财政年份:
    2013
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
  • 批准号:
    261284-2012
  • 财政年份:
    2012
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual

相似国自然基金

基于Free-form机床的弧齿锥齿轮定摆角全工序法主动设计制造理论
  • 批准号:
    51805405
  • 批准年份:
    2018
  • 资助金额:
    29.0 万元
  • 项目类别:
    青年科学基金项目
人机闭环系统非线性失稳与非线性PIO机理研究
  • 批准号:
    61074007
  • 批准年份:
    2010
  • 资助金额:
    33.0 万元
  • 项目类别:
    面上项目
无穷维哈密顿系统的KAM理论
  • 批准号:
    10771098
  • 批准年份:
    2007
  • 资助金额:
    21.0 万元
  • 项目类别:
    面上项目
基于“免形状(Form-free)”测量原理的复杂形状测量仪研制
  • 批准号:
    50627501
  • 批准年份:
    2006
  • 资助金额:
    100.0 万元
  • 项目类别:
    专项基金项目
交织序列设计及其密码特性分析
  • 批准号:
    60302015
  • 批准年份:
    2003
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Word form similarity computation and application in natural language processing
词形相似度​​计算及其在自然语言处理中的应用
  • 批准号:
    261284-2007
  • 财政年份:
    2011
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Word form similarity computation and application in natural language processing
词形相似度​​计算及其在自然语言处理中的应用
  • 批准号:
    261284-2007
  • 财政年份:
    2010
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Word form similarity computation and application in natural language processing
词形相似度​​计算及其在自然语言处理中的应用
  • 批准号:
    261284-2007
  • 财政年份:
    2008
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Word form similarity computation and application in natural language processing
词形相似度​​计算及其在自然语言处理中的应用
  • 批准号:
    261284-2007
  • 财政年份:
    2007
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Discovery Grants Program - Individual
Development of methods of determining shape similarities for plane curves and surfaces using geometrical information
开发利用几何信息确定平面曲线和曲面形状相似性的方法
  • 批准号:
    16500065
  • 财政年份:
    2004
  • 资助金额:
    $ 1.46万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Neuroimaging of shape similarity in object recognition
物体识别中形状相似性的神经成像
  • 批准号:
    6610178
  • 财政年份:
    2003
  • 资助金额:
    $ 1.46万
  • 项目类别:
Neuroimaging of shape similarity in object recognition
物体识别中形状相似性的神经成像
  • 批准号:
    6861091
  • 财政年份:
    2003
  • 资助金额:
    $ 1.46万
  • 项目类别:
Neuroimaging of shape similarity in object recognition
物体识别中形状相似性的神经成像
  • 批准号:
    7057360
  • 财政年份:
    2003
  • 资助金额:
    $ 1.46万
  • 项目类别:
Neuroimaging of shape similarity in object recognition
物体识别中形状相似性的神经成像
  • 批准号:
    6723794
  • 财政年份:
    2003
  • 资助金额:
    $ 1.46万
  • 项目类别:
The Auditory Lexicon: Similarity, Learning & Processing
听觉词典:相似性、学习
  • 批准号:
    6793676
  • 财政年份:
    2002
  • 资助金额:
    $ 1.46万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了