Collaborative Research: CRI: CRD: A Multi-Representational and Multi-Layered Treebank for Hindi/Urdu
合作研究:CRI:CRD:印地语/乌尔都语的多表征和多层树库
基本信息
- 批准号:0751202
- 负责人:
- 金额:$ 61.49万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2008
- 资助国家:美国
- 起止时间:2008-05-01 至 2014-04-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Treebanks are corpora of naturally occurring text that have been annotated with morphological and syntactic (structural) information. In the last 15 years they have led to significant advances in natural language processing (NLP) results by providing training data for supervised machine learning algorithms. These algorithms can now automatically perform useful part-of-speech tagging, parsing and semantic interpretation. This project is creating a new-generation, multi-representational Treebank. The languages being annotated are Hindi (400K words) and Urdu (200K words). The texts are being annotated in dependency structure (trees in which all nodes are labeled with words of the sentence), enriched with additional semantic role labels. The dependency representation is also being automatically mapped to a phrase-structure representation (in which the words are at the leaves of the tree and internal nodes are labeled with phrase markers). After applying standard quality-control both versions will be released to the public, providing an immediate boost to the performance of Hindi/Urdu NLP. A tool will also be released that will allow a researcher to produce alternative formatting of the phrase structure representation. This supports a view of the treebank as a more general, abstract representation of the morphology and syntax of the language rather than merely as data for a particular style of machine learning experiment. Research into parsing and other NLP tasks has recently recognized the benefits of reformatting syntactic representations in order to improve the machine learning process; this treebank will make that step much easier for all NLP researchers interested in Hindi or Urdu in particular and in language in general. OISE is co-funding the University of Colorado student exchange with the IIIT in Hyderabad, India where 400K words of Hindi and 200K words of Urdu will be annotated with dependency parses. This will enable an international research experience for U.S.students.
树库是自然发生的文本的语料库,已经用形态和句法(结构)信息进行了注释。 在过去的15年里,他们通过为监督机器学习算法提供训练数据,在自然语言处理(NLP)结果方面取得了重大进展。 这些算法现在可以自动执行有用的词性标注、解析和语义解释。 该项目正在创建新一代的多代表性树库。 被注释的语言是印地语(40万字)和乌尔都语(20万字)。 文本在依赖结构(树,其中所有节点都标记有句子的单词)中进行注释,并使用额外的语义角色标签进行丰富。 依赖关系表示也被自动映射到短语结构表示(其中单词位于树的叶子上,内部节点用短语标记标记)。 在应用标准质量控制后,两个版本将向公众发布,立即提升印地语/乌尔都语NLP的性能。 还将发布一个工具,允许研究人员生成短语结构表示的替代格式。 这支持了树库作为语言的形态和语法的更一般、抽象的表示的观点,而不仅仅是作为特定风格的机器学习实验的数据。 对解析和其他NLP任务的研究最近已经认识到重新格式化句法表示以改进机器学习过程的好处;这个树库将使所有对印地语或乌尔都语感兴趣的NLP研究人员更容易完成这一步。 OISE正在与印度海得拉巴的IIIT共同资助科罗拉多大学的学生交换,在那里,40万个印地语单词和20万个乌尔都语单词将使用依赖关系解析进行注释。 这将为美国学生提供国际研究经验。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Martha Palmer其他文献
A Case for Rule-Driven Semantic Processing
规则驱动的语义处理案例
- DOI:
10.3115/981923.981958 - 发表时间:
1981 - 期刊:
- 影响因子:0
- 作者:
Martha Palmer - 通讯作者:
Martha Palmer
A Large-Scale Extension of VerbNet with Novel Verb Classes
VerbNet 的大规模扩展与新颖的动词类
- DOI:
- 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
K. Kipper;A. Korhonen;Neville Ryant;Martha Palmer - 通讯作者:
Martha Palmer
VerbNet Representations: Subevent Semantics for Transfer Verbs
VerbNet 表示:转移动词的子事件语义
- DOI:
10.18653/v1/w19-3318 - 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
S. Brown;Julia Bonn;James Gung;A. Zaenen;J. Pustejovsky;Martha Palmer - 通讯作者:
Martha Palmer
Good Seed Makes a Good Crop: Accelerating Active Learning Using Language Modeling
好种子结出好庄稼:使用语言建模加速主动学习
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
Dmitriy Dligach;Martha Palmer - 通讯作者:
Martha Palmer
SCI 3.0: A Web-based Schema Curation Interface for Graphical Event Representations
SCI 3.0:用于图形事件表示的基于 Web 的模式管理界面
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Reece Suchocki;Mary Martin;Martha Palmer;S. Brown - 通讯作者:
S. Brown
Martha Palmer的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Martha Palmer', 18)}}的其他基金
RI:Medium:Collaborative Research: Developing a Uniform Meaning Representation for Natural Language Processing
RI:中:协作研究:为自然语言处理开发统一的含义表示
- 批准号:
1764048 - 财政年份:2018
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
CI-P: Collaborative Research: LexLink: Aligning WordNet, FrameNet, PropBank and VerbNet
CI-P:协作研究:LexLink:对齐 WordNet、FrameNet、PropBank 和 VerbNet
- 批准号:
1205484 - 财政年份:2012
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
RI: Small: A Bayesian Approach to Dynamic Lexical Resources for Flexible Language Processing
RI:小:用于灵活语言处理的动态词汇资源的贝叶斯方法
- 批准号:
1116782 - 财政年份:2011
- 资助金额:
$ 61.49万 - 项目类别:
Continuing Grant
RI: Large: Collaborative Research: Richer Representations for Machine Translation
RI:大型:协作研究:更丰富的机器翻译表示
- 批准号:
0910992 - 财政年份:2009
- 资助金额:
$ 61.49万 - 项目类别:
Continuing Grant
CRI:CRD Collaborative Research: General Techniques for Creating Treebanks with Multiple Representations: A Large-Scale Russian Application
CRI:CRD 协作研究:创建具有多种表示的树库的通用技术:俄罗斯的大规模应用
- 批准号:
0709167 - 财政年份:2007
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
Advancing the Performance of Word Sense Disambiguation by Finding Consistent Criteria for Sense Distinctions
通过寻找语义区分的一致标准来提高词义消歧的性能
- 批准号:
0715078 - 财政年份:2006
- 资助金额:
$ 61.49万 - 项目类别:
Continuing Grant
Advancing the Performance of Word Sense Disambiguation by Finding Consistent Criteria for Sense Distinctions
通过寻找语义区分的一致标准来提高词义消歧的性能
- 批准号:
0415923 - 财政年份:2004
- 资助金额:
$ 61.49万 - 项目类别:
Continuing Grant
MLIAM: ISLE-International Standards for Language Engineering
MLIAM:ISLE-语言工程国际标准
- 批准号:
9910603 - 财政年份:2000
- 资助金额:
$ 61.49万 - 项目类别:
Continuing Grant
Associating Semantic features with Intersective Levin classes
将语义特征与 Intersective Levin 类关联
- 批准号:
9800658 - 财政年份:1998
- 资助金额:
$ 61.49万 - 项目类别:
Continuing Grant
Experimenting with Different Control Structures for Text Analysis
尝试不同的控制结构进行文本分析
- 批准号:
9412898 - 财政年份:1995
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
相似国自然基金
Research on Quantum Field Theory without a Lagrangian Description
- 批准号:24ZR1403900
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
Cell Research
- 批准号:31224802
- 批准年份:2012
- 资助金额:24.0 万元
- 项目类别:专项基金项目
Cell Research
- 批准号:31024804
- 批准年份:2010
- 资助金额:24.0 万元
- 项目类别:专项基金项目
Cell Research (细胞研究)
- 批准号:30824808
- 批准年份:2008
- 资助金额:24.0 万元
- 项目类别:专项基金项目
Research on the Rapid Growth Mechanism of KDP Crystal
- 批准号:10774081
- 批准年份:2007
- 资助金额:45.0 万元
- 项目类别:面上项目
相似海外基金
CRI: CI-EN: Collaborative Research: mResearch: A platform for Reproducible and Extensible Mobile Sensor Big Data Research
CRI:CI-EN:协作研究:mResearch:可复制和可扩展的移动传感器大数据研究平台
- 批准号:
1822935 - 财政年份:2018
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
CRI: CI-New: Collaborative Research: Extensible, Software Enabled Unmanned Aerial Vehicles
CRI:CI-New:协作研究:可扩展、软件支持的无人机
- 批准号:
1823230 - 财政年份:2018
- 资助金额:
$ 61.49万 - 项目类别:
Continuing Grant
CRI: CI-EN: Collaborative Research: OpenNetVM: A Software Platform Enabling Network Function Virtualization Research
CRI:CI-EN:协作研究:OpenNetVM:支持网络功能虚拟化研究的软件平台
- 批准号:
1823236 - 财政年份:2018
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
CRI: CI-EN: Collaborative Research: An Experimental Infrastructure and a Database of Real Faults to Foster Reproducibility in Software Engineering Research
CRI:CI-EN:协作研究:实验基础设施和真实故障数据库,以促进软件工程研究的可重复性
- 批准号:
1929215 - 财政年份:2018
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: Sustaining Lemur Project Resources for the Long-Term
CRI:CI-SUSTAIN:合作研究:长期维持狐猴项目资源
- 批准号:
1822986 - 财政年份:2018
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
CRI: CI-EN: Collaborative Research: An Experimental Infrastructure and a Database of Real Faults to Foster Reproducibility in Software Engineering Research
CRI:CI-EN:协作研究:实验基础设施和真实故障数据库,以促进软件工程研究的可重复性
- 批准号:
1823172 - 财政年份:2018
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
CRI: CI-New: Collaborative Research: NJR: A Normalized Java Resource
CRI:CI-New:协作研究:NJR:标准化 Java 资源
- 批准号:
1823227 - 财政年份:2018
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
CRI: CI-EN: Collaborative Research: mResearch: A platform for Reproducible and Extensible Mobile Sensor Big Data Research
CRI:CI-EN:协作研究:mResearch:可复制和可扩展的移动传感器大数据研究平台
- 批准号:
1823221 - 财政年份:2018
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
- 批准号:
1823288 - 财政年份:2018
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
- 批准号:
1853919 - 财政年份:2018
- 资助金额:
$ 61.49万 - 项目类别:
Standard Grant