RI: Small: RUI: AIR: Automatic Idiom Recognition

RI:小:RUI:AIR:自动成语识别

基本信息

  • 批准号:
    1319846
  • 负责人:
  • 金额:
    $ 17.65万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2013
  • 资助国家:
    美国
  • 起止时间:
    2013-08-01 至 2018-01-31
  • 项目状态:
    已结题

项目摘要

The main goal of this research project is to develop a language independent method for automatic idiom recognition. Idiomatic expressions, such as 'a blessing in disguise' and 'kick the bucket' are plentiful in everyday language, though they remain mysterious, as it is not clear exactly how people learn and understand them. There is no single agreed-upon definition of idiom that covers all members of this class, but idioms tend to be relatively fixed in grammatical form and meaning, but with relatively little predictability in the relation between form and meaning. Also, many idiomatic expressions can appear with both literal, i.e. fully predictable, interpretations given their form -- compare 'The little girl made a face at her mother.' (idiomatic) vs. 'The little girl made a face on the snowman using a carrot and two buttons.' (literal) As a result, idioms present great challenges for a variety of natural language processing applications, including machine translation systems, which often do not detect idiomatic language. To address these challenges, an algorithm is proposed that neither relies on target idiom types, lexicons, or large manually annotated corpora, nor limits the search space by a particular type of linguistic construction. The starting point is that idioms are semantic outliers that violate cohesive structure, especially in local contexts. The following properties are quantified and are incorporated into the outlier detection algorithm: 1) lack of compositionality comparing to literal expressions or other types of collocations; 2) violation of local cohesive ties, so that they tend to be semantically distant from the local topics; 3) while not all semantic outliers are idioms, non-compositional semantic outliers are likely to be idiomatic; 4) idiomaticity is not a binary property; rather, idioms fall on the continuum from being compositional to being partly unanalyzable to completely non-compositional.This research contributes to the better understanding of idiomatic language, to the computational treatment of such phenomena and, with the creation of high quality, publicly available linguistic resources annotated for idioms, to the facilitation of machine learning research and big data science. Additional benefits include efficient algorithms for computing compositionality and topicality from large corpora, interesting new generalizations about the nature of figurative language, and the training of a cadre of undergraduate and graduate students in highly practical work on a difficult interdisciplinary problem.
本课题的主要目标是开发一种独立于语言的成语自动识别方法。“塞翁失马,焉知非福”(a blessing in disguise)和“kick the bucket”(一命百岁)等习语在日常语言中大量存在,尽管它们仍然很神秘,因为人们究竟是如何学习和理解它们的尚不清楚。没有一个统一的成语定义涵盖这一类的所有成员,但成语往往在语法形式和意义上相对固定,但在形式和意义之间的关系上相对缺乏可预测性。此外,许多习惯用语可以有两种字面意思,即完全可预测的解释,比如“小女孩对她妈妈做了个鬼脸”。(习惯用语)vs。小女孩用一根胡萝卜和两个纽扣在雪人身上做了一个脸。因此,习语给各种自然语言处理应用带来了巨大的挑战,包括机器翻译系统,因为机器翻译系统通常无法检测到习语。为了解决这些挑战,提出了一种既不依赖于目标成语类型、词典或大型人工注释语料库的算法,也不受特定类型语言结构的搜索空间限制。首先,习语是违背衔接结构的语义异常值,特别是在局部上下文中。以下属性被量化并纳入离群值检测算法:1)与文字表达式或其他类型的搭配相比缺乏组合性;2)局部衔接关系的破坏,使其在语义上趋向于远离局部话题;3)虽然不是所有的语义异常值都是习语,但非组成语义异常值很可能是习语;4)习惯性不是二元属性;相反,习语属于连续统一体,从构成到部分不可分析,再到完全不可构成。这项研究有助于更好地理解习惯语言,对这类现象进行计算处理,并通过创建高质量、公开可用的语言资源来注释习惯语言,促进机器学习研究和大数据科学。其他好处包括从大型语料库中计算组合性和话题性的有效算法,关于比喻语言性质的有趣的新概括,以及在解决困难的跨学科问题的高度实际工作中训练本科生和研究生骨干。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Anna Feldman其他文献

WordPrep: Word-based Preposition Prediction Tool
WordPrep:基于单词的介词预测工具
Experiments in Cross-Language Morphological Annotation Transfer
跨语言形态注释迁移实验
  • DOI:
    10.1007/11671299_4
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Anna Feldman;Jirka Hana;Chris Brew
  • 通讯作者:
    Chris Brew
Legend at ArAIEval Shared Task: Persuasion Technique Detection using a Language-Agnostic Text Representation Model
ArAIEval 共享任务的传奇:使用与语言无关的文本表示模型进行说服技术检测
  • DOI:
    10.48550/arxiv.2310.09661
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    O. E. Ojo;O. O. Adebanji;Hiram Calvo;Damian O. Dieke;Olumuyiwa E. Ojo;S.E. Akinsanya;Tolulope O. Abiola;Anna Feldman
  • 通讯作者:
    Anna Feldman
Evaluating and automating the annotation of a learner corpus
评估和自动化学习者语料库的注释
  • DOI:
    10.1007/s10579-013-9226-3
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    2.7
  • 作者:
    Alexandr Rosen;Jirka Hana;Barbora Stindlová;Anna Feldman
  • 通讯作者:
    Anna Feldman
Evaluating Embeddings for One-Shot Classification of Doctor-AI Consultations
评估人工智能医生咨询一次性分类的嵌入
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    O. E. Ojo;O. O. Adebanji;Alexander Gelbukh;Hiram Calvo;Anna Feldman
  • 通讯作者:
    Anna Feldman

Anna Feldman的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Anna Feldman', 18)}}的其他基金

RI: Small: DaRE: Detection and Recognition of Euphemisms
RI:小:DaRE:委婉语的检测和识别
  • 批准号:
    2226006
  • 财政年份:
    2023
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Workshop on Natural Language Processing for Internet Freedom
自然语言处理促进互联网自由研讨会
  • 批准号:
    1828199
  • 财政年份:
    2018
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Student Support at the North American Association for Computational Linguistics Workshop on Computational Methods for Analysis of Narrative
北美计算语言学协会叙事分析计算方法研讨会的学生支持
  • 批准号:
    1523285
  • 财政年份:
    2015
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Undergraduate Research: Cross-Lingual Approaches to Morphosyntactic Tagging
本科生研究:形态句法标记的跨语言方法
  • 批准号:
    1033275
  • 财政年份:
    2010
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Continuing Grant
RI:EAGER: A Montclair Group in Cognitive and Computational Aspects of Language and Speech Processing: An Exploration
RI:EAGER:蒙特克莱尔小组在语言和语音处理的认知和计算方面:探索
  • 批准号:
    1048406
  • 财政年份:
    2010
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Resource-light Morphosyntactic Tagging of Morphologically Complex Languages
RI:小:RUI:形态复杂语言的轻资源形态句法标记
  • 批准号:
    0916280
  • 财政年份:
    2009
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
Workshop on Computational Approaches to Linguistic Creativity - Element 7495
语言创造力计算方法研讨会 - 元素 7495
  • 批准号:
    0906244
  • 财政年份:
    2009
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

RI: Small: Collaborative Research: RUI: Influence Games: A Game-Theoretic Approach to Strategic Behavior in Networks
RI:小型:协作研究:RUI:影响游戏:网络中战略行为的博弈论方法
  • 批准号:
    1910203
  • 财政年份:
    2019
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Automated Reasoning about Time -- Methods and Analysis
RI:小:RUI:关于时间的自动推理——方法与分析
  • 批准号:
    1909739
  • 财政年份:
    2019
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: Collaborative Research: RUI: Scalable Decentralized Planning in Open Multiagent Environments
RI:小型:协作研究:RUI:开放多代理环境中的可扩展去中心化规划
  • 批准号:
    1909513
  • 财政年份:
    2019
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Benchmarks and Algorithms for Mobile Image Matching
RI:小型:RUI:移动图像匹配的基准和算法
  • 批准号:
    1718376
  • 财政年份:
    2017
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Synthesis of Robust Artificial Systems by Adaptive Genetic Programming
RI:小型:RUI:通过自适应遗传编程合成稳健的人工系统
  • 批准号:
    1617087
  • 财政年份:
    2016
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Fission-Fusion Multi-Robot Systems
RI:小型:RUI:裂变融合多机器人系统
  • 批准号:
    1617838
  • 财政年份:
    2016
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: Collaborative Research: RUI: Batch Learning from Logged Bandit Feedback
RI:小型:协作研究:RUI:从记录的强盗反馈中批量学习
  • 批准号:
    1615679
  • 财政年份:
    2016
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Multi-Robot Systems for Tracking, Monitoring, and Modeling of Periodic Migratory Populations
RI:小型:RUI:用于定期迁徙种群跟踪、监控和建模的多机器人系统
  • 批准号:
    1423620
  • 财政年份:
    2014
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Continuing Grant
RI: Small: RUI: Image Matching in the Wild
RI:小:RUI:野外图像匹配
  • 批准号:
    1320715
  • 财政年份:
    2013
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Shark Tracking with Multiple Autonomous Underwater Vehicles
RI:小型:RUI:使用多个自主水下航行器跟踪鲨鱼
  • 批准号:
    1245813
  • 财政年份:
    2012
  • 资助金额:
    $ 17.65万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了