Collaborative Research: CRI: CRD: A Multi-Representational and Multi-Layered Treebank for Hindi/Urdu
合作研究:CRI:CRD:印地语/乌尔都语的多表征和多层树库
基本信息
- 批准号:0751089
- 负责人:
- 金额:$ 12.3万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2008
- 资助国家:美国
- 起止时间:2008-05-01 至 2014-04-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Treebanks are corpora of naturally occurring text that have been annotated with morphological and syntactic (structural) information. In the last 15 years they have led to significant advances in natural language processing (NLP) results by providing training data for supervised machine learning algorithms. These algorithms can now automatically perform useful part-of-speech tagging, parsing and semantic interpretation. This project is creating a new-generation, multi-representational Treebank. The languages being annotated are Hindi (400K words) and Urdu (200K words). The texts are being annotated in dependency structure (trees in which all nodes are labeled with words of the sentence), enriched with additional semantic role labels. The dependency representation is also being automatically mapped to a phrase-structure representation (in which the words are at the leaves of the tree and internal nodes are labeled with phrase markers). After applying standard quality-control both versions will be released to the public, providing an immediate boost to the performance of Hindi/Urdu NLP. A tool will also be released that will allow a researcher to produce alternative formatting of the phrase structure representation. This supports a view of the treebank as a more general, abstract representation of the morphology and syntax of the language rather than merely as data for a particular style of machine learning experiment. Research into parsing and other NLP tasks has recently recognized the benefits of reformatting syntactic representations in order to improve the machine learning process; this treebank will make that step much easier for all NLP researchers interested in Hindi or Urdu in particular and in language in general.
树库是自然发生的文本的语料库,这些文本已经用形态和句法(结构)信息进行了注释。在过去的15年里,他们通过为监督机器学习算法提供训练数据,在自然语言处理(NLP)结果方面取得了重大进展。这些算法现在可以自动执行有用的词性标注、解析和语义解释。这个项目正在创建一个新一代的、多代表性的树库。被注释的语言是印地语(40万字)和乌尔都语(20万字)。文本在依赖关系结构(所有节点都用句子的单词标记的树)中进行注释,并使用附加的语义角色标签进行丰富。依赖关系表示也被自动映射到短语结构表示(其中单词位于树的叶子,内部节点用短语标记)。在应用标准的质量控制之后,这两个版本将向公众发布,从而立即提高印地语/乌尔都语NLP的性能。还将发布一个工具,允许研究人员生成短语结构表示的替代格式。这支持将树库视为语言的形态学和语法的更一般、抽象的表示,而不仅仅是特定风格的机器学习实验的数据。对解析和其他NLP任务的研究最近已经认识到重新格式化语法表示以改进机器学习过程的好处;这个树库将使所有对印地语或乌尔都语以及一般语言感兴趣的NLP研究人员更容易迈出这一步。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Owen Rambow其他文献
From Stance to Concern: Adaptation of Propositional Analysis to New Tasks and Domains
从立场到关注:命题分析对新任务和领域的适应
- DOI:
10.48550/arxiv.2203.10659 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
Brodie Mather;B. Dorr;Adam Dalton;William de Beaumont;Owen Rambow;S. Schmer - 通讯作者:
S. Schmer
Parallel Syntactic Annotation of Multiple Languages
多语言并行句法标注
- DOI:
- 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
Owen Rambow;B. Dorr;D. Farwell;R. Green;Nizar Habash;Stephen Helmreich;E. Hovy;Lori S. Levin;Keith J. Miller;T. Mitamura;F. Reeder;Advaith Siddharthan - 通讯作者:
Advaith Siddharthan
Interlingua Development and Testing through Semantic Annotation of Multilingual Text Corpora
通过多语言文本语料库语义标注进行国际语开发和测试
- DOI:
- 发表时间:
2004 - 期刊:
- 影响因子:0
- 作者:
B. Dorr;D. Farwell;R. Green;Nizar Habash;Stephen Helmreich;E. Hovy;Lori S. Levin;Keith J. Miller;T. Mitamura;Owen Rambow;F. Reeder;Advaith Siddharthan - 通讯作者:
Advaith Siddharthan
Arabic Morphological Tagging, Diacritization, and Lemmatization Using Lexeme Models and Feature Ranking
使用词位模型和特征排序进行阿拉伯语形态标记、变音和词形还原
- DOI:
10.3115/1557690.1557721 - 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
Ryan Roth;Owen Rambow;Nizar Habash;Mona T. Diab;C. Rudin - 通讯作者:
C. Rudin
Tree adjoining grammars : formalisms, linguistic analysis, and processing
树邻接语法:形式主义、语言分析和处理
- DOI:
- 发表时间:
2000 - 期刊:
- 影响因子:0
- 作者:
Abeillé;Owen Rambow - 通讯作者:
Owen Rambow
Owen Rambow的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Owen Rambow', 18)}}的其他基金
RI: Email, Social Networks, and Organizations: Investigating How We Use Language to Create and Navigate Social and Organizational Relations
RI:电子邮件、社交网络和组织:调查我们如何使用语言来创建和引导社会和组织关系
- 批准号:
0713548 - 财政年份:2007
- 资助金额:
$ 12.3万 - 项目类别:
Continuing Grant
CRI: CRD Collaborative Research: General Techniques for Creating Treebanks with Multiple Representations: A Large-Scale Russian Application
CRI:CRD 协作研究:创建具有多重表示的树库的通用技术:俄罗斯的大规模应用
- 批准号:
0708183 - 财政年份:2007
- 资助金额:
$ 12.3万 - 项目类别:
Standard Grant
Arabic Dialect Modeling for Speech and Natural Language Processing
用于语音和自然语言处理的阿拉伯方言建模
- 批准号:
0329163 - 财政年份:2003
- 资助金额:
$ 12.3万 - 项目类别:
Continuing Grant
相似国自然基金
Research on Quantum Field Theory without a Lagrangian Description
- 批准号:24ZR1403900
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
Cell Research
- 批准号:31224802
- 批准年份:2012
- 资助金额:24.0 万元
- 项目类别:专项基金项目
Cell Research
- 批准号:31024804
- 批准年份:2010
- 资助金额:24.0 万元
- 项目类别:专项基金项目
Cell Research (细胞研究)
- 批准号:30824808
- 批准年份:2008
- 资助金额:24.0 万元
- 项目类别:专项基金项目
Research on the Rapid Growth Mechanism of KDP Crystal
- 批准号:10774081
- 批准年份:2007
- 资助金额:45.0 万元
- 项目类别:面上项目
相似海外基金
CRI: CI-EN: Collaborative Research: mResearch: A platform for Reproducible and Extensible Mobile Sensor Big Data Research
CRI:CI-EN:协作研究:mResearch:可复制和可扩展的移动传感器大数据研究平台
- 批准号:
1822935 - 财政年份:2018
- 资助金额:
$ 12.3万 - 项目类别:
Standard Grant
CRI: CI-New: Collaborative Research: Extensible, Software Enabled Unmanned Aerial Vehicles
CRI:CI-New:协作研究:可扩展、软件支持的无人机
- 批准号:
1823230 - 财政年份:2018
- 资助金额:
$ 12.3万 - 项目类别:
Continuing Grant
CRI: CI-EN: Collaborative Research: OpenNetVM: A Software Platform Enabling Network Function Virtualization Research
CRI:CI-EN:协作研究:OpenNetVM:支持网络功能虚拟化研究的软件平台
- 批准号:
1823236 - 财政年份:2018
- 资助金额:
$ 12.3万 - 项目类别:
Standard Grant
CRI: CI-EN: Collaborative Research: An Experimental Infrastructure and a Database of Real Faults to Foster Reproducibility in Software Engineering Research
CRI:CI-EN:协作研究:实验基础设施和真实故障数据库,以促进软件工程研究的可重复性
- 批准号:
1929215 - 财政年份:2018
- 资助金额:
$ 12.3万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: Sustaining Lemur Project Resources for the Long-Term
CRI:CI-SUSTAIN:合作研究:长期维持狐猴项目资源
- 批准号:
1822986 - 财政年份:2018
- 资助金额:
$ 12.3万 - 项目类别:
Standard Grant
CRI: CI-EN: Collaborative Research: An Experimental Infrastructure and a Database of Real Faults to Foster Reproducibility in Software Engineering Research
CRI:CI-EN:协作研究:实验基础设施和真实故障数据库,以促进软件工程研究的可重复性
- 批准号:
1823172 - 财政年份:2018
- 资助金额:
$ 12.3万 - 项目类别:
Standard Grant
CRI: CI-New: Collaborative Research: NJR: A Normalized Java Resource
CRI:CI-New:协作研究:NJR:标准化 Java 资源
- 批准号:
1823227 - 财政年份:2018
- 资助金额:
$ 12.3万 - 项目类别:
Standard Grant
CRI: CI-EN: Collaborative Research: mResearch: A platform for Reproducible and Extensible Mobile Sensor Big Data Research
CRI:CI-EN:协作研究:mResearch:可复制和可扩展的移动传感器大数据研究平台
- 批准号:
1823221 - 财政年份:2018
- 资助金额:
$ 12.3万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
- 批准号:
1823288 - 财政年份:2018
- 资助金额:
$ 12.3万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
- 批准号:
1853919 - 财政年份:2018
- 资助金额:
$ 12.3万 - 项目类别:
Standard Grant