Natural Language Processing at the Sub-Word Level

子词级别的自然语言处理

基本信息

  • 批准号:
    261284-2012
  • 负责人:
  • 金额:
    $ 1.24万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2015
  • 资助国家:
    加拿大
  • 起止时间:
    2015-01-01 至 2016-12-31
  • 项目状态:
    已结题

项目摘要

Processing language involves processing words. However, words are not indivisible abstract atoms - they are made of smaller units, such as morphemes, syllables, letters, and phonemes. In computational linguistics, words are analyzed on distinct levels: phonetic, phonological, orthographic, morphological, etc. These levels of representation underlie such important tasks as morphological parsing, speech synthesis and recognition, spell-checking, and stemming. Since different levels are strongly inter-related, the understanding of the interactions between them is crucial to advancing the state of the art in word-oriented applications. My objective is to investigate such interactions, and develop algorithms for alignment and conversion between levels. In particular, I will focus on the tasks of grapheme-to-phoneme conversion and transliteration. My general approach to the problem will be to incorporate linguistic knowledge into advanced machine-learning techniques, which, given sufficient training data, substantially outperform rule-based approaches. However, the latter often achieve impressive accuracy without any need for training data. They also tend to perform well across different domains. I will explore the ways of combining the two paradigms, by exploiting linguistic understanding for guiding and informing machine learning approaches, as well as for pre- and post-processing their training data. The long term goals of this research programme are acquiring deeper understanding of the dependencies between various representations, and leveraging the novel insights in order to advance the state of the art in natural language processing. I am confident that the implementation of the planned projects will result in successful applications in other areas of natural language processing.
处理语言涉及处理单词。但是,单词不是不可分割的抽象原子 - 它们由较小的单元制成,例如词素,音节,字母和音素。在计算中 语言学,单词在不同的层面上进行分析:语音,语音,拼字法, 形态学等。这些级别的代表性是形态学等重要任务的基础 解析,语音综合和识别,拼写检查和茎。由于不同的级别是 密切相关的,对它们之间的相互作用的理解对于推进 以单词为导向的应用中的最新技术。我的目标是调查此类互动,并 开发算法以在级别之间对齐和转换。特别是,我将专注于 字符到音量转换和音译的任务。 我对问题的一般方法是将语言知识纳入高级 机器学习技术,获得足够的培训数据,其表现要优于 基于规则的方法。但是,后者通常可以实现令人印象深刻的准确性而无需 培训数据。它们还倾向于在不同的领域表现良好。我将探索 通过利用语言理解来指导和告知机器,将两个范式组合起来 学习方法,以及预处理和后期处理的培训数据。 该研究计划的长期目标是对依赖关系有更深入的了解 在各种代表之间,并利用新颖的见解,以提高状态 自然语言处理的艺术。我相信实施计划项目 将在自然语言处理的其他领域成功应用。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Kondrak, Grzegorz其他文献

Kondrak, Grzegorz的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Kondrak, Grzegorz', 18)}}的其他基金

Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
  • 批准号:
    RGPIN-2017-05875
  • 财政年份:
    2021
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Discovery Grants Program - Individual
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
  • 批准号:
    RGPIN-2017-05875
  • 财政年份:
    2020
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Discovery Grants Program - Individual
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
  • 批准号:
    RGPIN-2017-05875
  • 财政年份:
    2019
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Discovery Grants Program - Individual
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
  • 批准号:
    RGPIN-2017-05875
  • 财政年份:
    2018
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Discovery Grants Program - Individual
Overcoming Data Sparsity in Machine Translation
克服机器翻译中的数据稀疏性
  • 批准号:
    RGPIN-2017-05875
  • 财政年份:
    2017
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Discovery Grants Program - Individual
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
  • 批准号:
    261284-2012
  • 财政年份:
    2016
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Discovery Grants Program - Individual
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
  • 批准号:
    261284-2012
  • 财政年份:
    2014
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Discovery Grants Program - Individual
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
  • 批准号:
    261284-2012
  • 财政年份:
    2013
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Discovery Grants Program - Individual
Natural Language Processing at the Sub-Word Level
子词级别的自然语言处理
  • 批准号:
    261284-2012
  • 财政年份:
    2012
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Discovery Grants Program - Individual
Word form similarity computation and application in natural language processing
词形相似度​​计算及其在自然语言处理中的应用
  • 批准号:
    261284-2007
  • 财政年份:
    2011
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Discovery Grants Program - Individual

相似国自然基金

感音神经性听力损失对鸡尾酒会情境下高级语言加工机制影响的研究
  • 批准号:
    82301300
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
执行功能促进卒中后运动性失语症患者语言加工过程的脑网络及神经心理机制研究
  • 批准号:
    82372555
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
人类嗓音中语言和非语言信息加工的认知神经机制及其模式识别
  • 批准号:
    32371114
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
学龄前自闭症儿童语言加工的神经机制
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
学龄前自闭症儿童语言加工的神经机制
  • 批准号:
    32200808
  • 批准年份:
    2022
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Navigating Chemical Space with Natural Language Processing and Deep Learning
利用自然语言处理和深度学习驾驭化学空间
  • 批准号:
    EP/Y004167/1
  • 财政年份:
    2024
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Research Grant
REU Site: Recent Advances in Natural Language Processing
REU 网站:自然语言处理的最新进展
  • 批准号:
    2349452
  • 财政年份:
    2024
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Standard Grant
Naturalistic Social Communication in Autistic Females: Identification of Speech Prosody Markers
自闭症女性的自然社交沟通:语音韵律标记的识别
  • 批准号:
    10823000
  • 财政年份:
    2024
  • 资助金额:
    $ 1.24万
  • 项目类别:
The Socio-economic Impact of the Post-COVID-19 Condition in the Canadian Context
COVID-19 后疫情对加拿大的社会经济影响
  • 批准号:
    494280
  • 财政年份:
    2023
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Operating Grants
Studies of speech, image and natural language processing for multimodal spoken document retrieval
多模态语音文档检索的语音、图像和自然语言处理研究
  • 批准号:
    23K11216
  • 财政年份:
    2023
  • 资助金额:
    $ 1.24万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了