Word form similarity computation and application in natural language processing
词形相似度计算及其在自然语言处理中的应用
基本信息
- 批准号:261284-2007
- 负责人:
- 金额:$ 1.46万
- 依托单位:
- 依托单位国家:加拿大
- 项目类别:Discovery Grants Program - Individual
- 财政年份:2009
- 资助国家:加拿大
- 起止时间:2009-01-01 至 2010-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
In natural language processing, words are often treated as abstract entities divorced from their actual form. However, the actual orthographic or phonetic form of words is an important feature that can be utilized in various tasks. The algorithms that I previously developed for computing word similarity have proven to be effective in a variety of applications, including identification of confusable drug names, and matching person names across different scripts. In the current proposal, I describe how I plan to achieve my two principal research goals: continue developing new measures of similarity, and improve the state-of-the-art in several areas involving sequential processing. With respect to the first goal, my specific objectives are: to propose data-driven learning schemes that integrate many-to-many correspondences and sensitivity to context and to design methods that incorporate linguistic knowledge and require no training data. With respect to the second goal, the areas in which I plan to make an impact are: letter-to-phoneme conversion, machine transliteration, statistical machine translation, and cognate identification. The development and application of word similarity methods leads to a number of challenging research problems, and promises to bring a unifying perspective on several distinct tasks that have so far been perceived as unrelated. Based on the experience of the last few years, I am convinced that this line of research will continue to have an impact beyond the areas of its original application.
在自然语言处理中,单词通常被视为与其实际形式分离的抽象实体。然而,单词的实际拼写或语音形式是一个可以在各种任务中利用的重要特征。我之前开发的用于计算单词相似度的算法已被证明在各种应用中都有效,包括识别易混淆的药物名称以及跨不同文字匹配人名。在当前的提案中,我描述了我计划如何实现我的两个主要研究目标:继续开发新的相似性度量,并提高涉及顺序处理的几个领域的最新技术。关于第一个目标,我的具体目标是:提出集成多对多对应性和对上下文的敏感性的数据驱动学习方案,并设计结合语言知识且不需要训练数据的方法。关于第二个目标,我计划产生影响的领域是:字母到音素的转换、机器音译、统计机器翻译和同源识别。单词相似性方法的开发和应用导致了许多具有挑战性的研究问题,并有望为迄今为止被认为不相关的几个不同任务带来统一的视角。根据过去几年的经验,我相信这一领域的研究将继续产生超出其原始应用领域的影响。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
                item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi }} 
- 发表时间:{{ item.publish_year }} 
- 期刊:
- 影响因子:{{ item.factor }}
- 作者:{{ item.authors }} 
- 通讯作者:{{ item.author }} 
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.author }} 
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.author }} 
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.author }} 
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.author }} 
数据更新时间:{{ patent.updateTime }}
Kondrak, Grzegorz其他文献
Kondrak, Grzegorz的其他文献
{{
              item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi }} 
- 发表时间:{{ item.publish_year }} 
- 期刊:
- 影响因子:{{ item.factor }}
- 作者:{{ item.authors }} 
- 通讯作者:{{ item.author }} 
{{ truncateString('Kondrak, Grzegorz', 18)}}的其他基金
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
- 批准号:RGPIN-2017-05875 
- 财政年份:2021
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
- 批准号:RGPIN-2017-05875 
- 财政年份:2020
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
- 批准号:RGPIN-2017-05875 
- 财政年份:2019
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
- 批准号:RGPIN-2017-05875 
- 财政年份:2018
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
- 批准号:RGPIN-2017-05875 
- 财政年份:2017
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
- 批准号:261284-2012 
- 财政年份:2016
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
- 批准号:261284-2012 
- 财政年份:2015
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
- 批准号:261284-2012 
- 财政年份:2014
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
- 批准号:261284-2012 
- 财政年份:2013
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
- 批准号:261284-2012 
- 财政年份:2012
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
相似国自然基金
基于Free-form机床的弧齿锥齿轮定摆角全工序法主动设计制造理论
- 批准号:51805405
- 批准年份:2018
- 资助金额:29.0 万元
- 项目类别:青年科学基金项目
人机闭环系统非线性失稳与非线性PIO机理研究
- 批准号:61074007
- 批准年份:2010
- 资助金额:33.0 万元
- 项目类别:面上项目
无穷维哈密顿系统的KAM理论
- 批准号:10771098
- 批准年份:2007
- 资助金额:21.0 万元
- 项目类别:面上项目
基于“免形状(Form-free)”测量原理的复杂形状测量仪研制
- 批准号:50627501
- 批准年份:2006
- 资助金额:100.0 万元
- 项目类别:专项基金项目
交织序列设计及其密码特性分析
- 批准号:60302015
- 批准年份:2003
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Word form similarity computation and application in natural language processing
词形相似度计算及其在自然语言处理中的应用
- 批准号:261284-2007 
- 财政年份:2011
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Word form similarity computation and application in natural language processing
词形相似度计算及其在自然语言处理中的应用
- 批准号:261284-2007 
- 财政年份:2010
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Word form similarity computation and application in natural language processing
词形相似度计算及其在自然语言处理中的应用
- 批准号:261284-2007 
- 财政年份:2008
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Word form similarity computation and application in natural language processing
词形相似度计算及其在自然语言处理中的应用
- 批准号:261284-2007 
- 财政年份:2007
- 资助金额:$ 1.46万 
- 项目类别:Discovery Grants Program - Individual 
Development of methods of determining shape similarities for plane curves and surfaces using geometrical information
开发利用几何信息确定平面曲线和曲面形状相似性的方法
- 批准号:16500065 
- 财政年份:2004
- 资助金额:$ 1.46万 
- 项目类别:Grant-in-Aid for Scientific Research (C) 
Neuroimaging of shape similarity in object recognition
物体识别中形状相似性的神经成像
- 批准号:6610178 
- 财政年份:2003
- 资助金额:$ 1.46万 
- 项目类别:
Neuroimaging of shape similarity in object recognition
物体识别中形状相似性的神经成像
- 批准号:6861091 
- 财政年份:2003
- 资助金额:$ 1.46万 
- 项目类别:
Neuroimaging of shape similarity in object recognition
物体识别中形状相似性的神经成像
- 批准号:7057360 
- 财政年份:2003
- 资助金额:$ 1.46万 
- 项目类别:
Neuroimaging of shape similarity in object recognition
物体识别中形状相似性的神经成像
- 批准号:6723794 
- 财政年份:2003
- 资助金额:$ 1.46万 
- 项目类别:
The Auditory Lexicon: Similarity, Learning & Processing
听觉词典:相似性、学习
- 批准号:6793676 
- 财政年份:2002
- 资助金额:$ 1.46万 
- 项目类别:

 刷新
              刷新
            
















 {{item.name}}会员
              {{item.name}}会员
            



