Unsupervised Learning of Morphology

形态学的无监督学习

基本信息

  • 批准号:
    0415138
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2005
  • 资助国家:
    美国
  • 起止时间:
    2005-06-01 至 2010-05-31
  • 项目状态:
    已结题

项目摘要

This project is working to develop a new system that simultaneously discovers the patterns of word morphology and parts of speech for a wide range of the world's languages from unannotated text. Given a quantity of training text, such a system will yield a transducer, which segments the words in new texts into stems and affixes and determine the part of speech of each word as a whole. Through unsupervised learning, an iterative bootstrapping procedure will combine several different linguistic knowledge sources to gradually build up a representation of the language in the form of paradigms. From these paradigms, symbolic part of speech rules and morphophonological rewrite rules will be extracted, which will then be compiled into a probabilistic finite-state transducer, which can label new texts with morphology and part of speech.Despite the widespread application of machine learning techniques to natural language processing, developing morphological analyzers still involves much human effort. While the morphology of English is very simple, the automatic analysis by computer of texts or speech in the majority of the world's languages depend on the availability of appropriate morphological analyzers. It is also important for the important problem of automatic information extraction in the biomedical domain, where it is necessary to analyze the complex structure of technical terms, even in English. Such analyzers are useful in most applications in natural language processing, including parsing, information retrieval, machine translation, text summarization, correct pronunciation in speech synthesis, language models in speech recognition, language generation, and named entity recognition.
这个项目致力于开发一种新系统,可以同时发现世界上各种语言的词法和词性模式,这些模式来自于没有注释的文本。给定一定数量的训练文本,这样的系统将产生一个换能器,它将新文本中的单词分割成词干和词缀,并确定每个单词作为一个整体的词性。通过无监督学习,迭代的自举过程将几种不同的语言知识来源结合起来,以范式的形式逐渐建立语言的表征。从这些范式中提取符号词性规则和词性重写规则,然后将其编译成概率有限状态换能器,该换能器可以用词性和词性标记新文本。尽管机器学习技术在自然语言处理中得到了广泛的应用,但开发形态学分析仪仍然需要大量的人力。虽然英语的词法非常简单,但计算机对世界上大多数语言的文本或语音的自动分析依赖于适当的词法分析器。它对于生物医学领域的自动信息提取这一重要问题也很重要,因为在生物医学领域中,需要分析技术术语的复杂结构,甚至是英语术语。这种分析器在自然语言处理的大多数应用中都很有用,包括解析、信息检索、机器翻译、文本摘要、语音合成中的正确发音、语音识别中的语言模型、语言生成和命名实体识别。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Mitchell Marcus其他文献

Annotating Chinese Word Senses with English WordNet: A Practice on OntoNotes Chinese Sense Inventories
用英语WordNet标注中文词义:OntoNotes中文词义量表的实践
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hongzhi Xu;Jingxia Lin;Sameer Pradhan;Mitchell Marcus;Ming Liu
  • 通讯作者:
    Ming Liu
Building A Large Annotated Corpus of English : The Penn Treebank MS-CIS-93-87 LINC LAB 260
构建大型英语注释语料库:Penn Treebank MS-CIS-93-87 LINC LAB 260
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Mitchell Marcus
  • 通讯作者:
    Mitchell Marcus

Mitchell Marcus的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Mitchell Marcus', 18)}}的其他基金

Doctoral Consortium at Human Language Technology Conference - North American Chapter of the Association for Computational Linguistics Annual Meeting (HLT-NAACL) 2006
人类语言技术会议博士联盟 - 计算语言学协会北美分会年会 (HLT-NAACL) 2006
  • 批准号:
    0619050
  • 财政年份:
    2006
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
SGER: Generating Animations of American Sign Language Classifier Predicates
SGER:生成美国手语分类谓词的动画
  • 批准号:
    0520798
  • 财政年份:
    2005
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Human Language Technology 2002: Special Focus on Language Modeling of Biological Data
Human Language Technology 2002:特别关注生物数据的语言建模
  • 批准号:
    0132968
  • 财政年份:
    2002
  • 资助金额:
    --
  • 项目类别:
    Standard Grant

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Understanding structural evolution of galaxies with machine learning
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
  • 批准号:
    62003314
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
集成上下文张量分解的e-learning资源推荐方法研究
  • 批准号:
    61902016
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
具有时序迁移能力的Spiking-Transfer learning (脉冲-迁移学习)方法研究
  • 批准号:
    61806040
  • 批准年份:
    2018
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
  • 批准号:
    51769027
  • 批准年份:
    2017
  • 资助金额:
    38.0 万元
  • 项目类别:
    地区科学基金项目
具有时序处理能力的Spiking-Deep Learning(脉冲深度学习)方法研究
  • 批准号:
    61573081
  • 批准年份:
    2015
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目
基于有向超图的大型个性化e-learning学习过程模型的自动生成与优化
  • 批准号:
    61572533
  • 批准年份:
    2015
  • 资助金额:
    66.0 万元
  • 项目类别:
    面上项目
E-Learning中学习者情感补偿方法的研究
  • 批准号:
    61402392
  • 批准年份:
    2014
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Doctoral Dissertation Research: Understanding how minority dialect-speaking children use inflectional verb morphology in sentence processing and word learning.
博士论文研究:了解少数民族方言儿童如何在句子处理和单词学习中使用屈折动词形态。
  • 批准号:
    2234811
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Development of tooth morphology identification method: collaboration between deep learning and geometric morphometrics
牙齿形态识别方法的发展:深度学习与几何形态测量学的协作
  • 批准号:
    22K06415
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Linking single-neuron morphology and gene expression using deep learning
使用深度学习将单神经元形态与基因表达联系起来
  • 批准号:
    10534571
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
Deep Weak Learning for Morphology Analysis of Micro and Nanoscale Images
用于微纳米级图像形态分析的深度弱学习
  • 批准号:
    FT190100197
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
    ARC Future Fellowships
Deep-Learning for Galaxy Morphology in the Big Data Era
大数据时代的星系形态深度学习
  • 批准号:
    1816330
  • 财政年份:
    2018
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Large scale characterisation of galaxy morphology: a deep learning approach
星系形态的大规模表征:深度学习方法
  • 批准号:
    2028725
  • 财政年份:
    2017
  • 资助金额:
    --
  • 项目类别:
    Studentship
Matches and mismatches in nominal morphology and agreement: Learning from the acquisition of Eegimaa
名义形态和一致性的匹配和不匹配:从获取 Eegimaa 中学习
  • 批准号:
    ES/P000304/1
  • 财政年份:
    2017
  • 资助金额:
    --
  • 项目类别:
    Research Grant
Doctoral Dissertation Research: L1 Biases in Learning Root-and-Pattern Morphology
博士论文研究:学习根与模式形态学中的 L1 偏差
  • 批准号:
    1732190
  • 财政年份:
    2017
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Neural and behavioural evidence for children’s learning of grammatical morphology
儿童学习语法形态学的神经和行为证据
  • 批准号:
    FL130100014
  • 财政年份:
    2014
  • 资助金额:
    --
  • 项目类别:
    Australian Laureate Fellowships
The effect of estradiol treatment in juvenile rats on spatial learning and hippocampal morphology
雌二醇治疗对幼年大鼠空间学习和海马形态的影响
  • 批准号:
    394512-2010
  • 财政年份:
    2010
  • 资助金额:
    --
  • 项目类别:
    Postgraduate Scholarships - Master's
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了