Collaborative Research: CRI: CRD: A Multi-Representational and Multi-Layered Treebank for Hindi/Urdu
合作研究:CRI:CRD:印地语/乌尔都语的多表征和多层树库
基本信息
- 批准号:0751213
- 负责人:
- 金额:$ 19.6万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2008
- 资助国家:美国
- 起止时间:2008-05-01 至 2014-04-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Treebanks are corpora of naturally occurring text that have been annotated with morphological and syntactic (structural) information. In the last 15 years they have led to significant advances in natural language processing (NLP) results by providing training data for supervised machine learning algorithms. These algorithms can now automatically perform useful part-of-speech tagging, parsing and semantic interpretation. This project is creating a new-generation, multi-representational Treebank. The languages being annotated are Hindi (400K words) and Urdu (200K words). The texts are being annotated in dependency structure (trees in which all nodes are labeled with words of the sentence), enriched with additional semantic role labels. The dependency representation is also being automatically mapped to a phrase-structure representation (in which the words are at the leaves of the tree and internal nodes are labeled with phrase markers). After applying standard quality-control both versions will be released to the public, providing an immediate boost to the performance of Hindi/Urdu NLP. A tool will also be released that will allow a researcher to produce alternative formatting of the phrase structure representation. This supports a view of the treebank as a more general, abstract representation of the morphology and syntax of the language rather than merely as data for a particular style of machine learning experiment. Research into parsing and other NLP tasks has recently recognized the benefits of reformatting syntactic representations in order to improve the machine learning process; this treebank will make that step much easier for all NLP researchers interested in Hindi or Urdu in particular and in language in general.
树库是自然发生的文本的语料库,已用形态和句法(结构)信息进行注释。 在过去 15 年中,他们通过为监督机器学习算法提供训练数据,在自然语言处理 (NLP) 结果方面取得了重大进展。 这些算法现在可以自动执行有用的词性标记、解析和语义解释。 该项目正在创建一个新一代的、具有多重代表性的树库。 被注释的语言是印地语(400K 单词)和乌尔都语(200K 单词)。 文本以依赖结构(其中所有节点都用句子的单词标记的树)进行注释,并通过附加语义角色标签进行丰富。 依存关系表示也被自动映射到短语结构表示(其中单词位于树的叶子,内部节点用短语标记进行标记)。 在应用标准质量控制后,这两个版本都将向公众发布,从而立即提升印地语/乌尔都语 NLP 的性能。 还将发布一个工具,允许研究人员生成短语结构表示的替代格式。 这支持了树库作为语言形态和语法的更一般、抽象的表示的观点,而不仅仅是作为特定类型的机器学习实验的数据。 最近,对解析和其他 NLP 任务的研究已经认识到重新格式化句法表示以改进机器学习过程的好处;对于所有对印地语或乌尔都语以及一般语言感兴趣的 NLP 研究人员来说,这个树库将使这一步变得更加容易。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Fei Xia其他文献
Two allergens from Scylla paramamosain share common epitopes showed different allergenic potential in Balb/c mice
拟青青蟹的两种过敏原具有共同的表位,在 Balb/c 小鼠中表现出不同的致敏潜力
- DOI:
10.1016/j.foodchem.2021.131132 - 发表时间:
2022 - 期刊:
- 影响因子:8.8
- 作者:
Yang Yang;Xin-Rong He;Shao-Gui He;Meng Liu;Yong-Xia Zhang;Fei Xia;Min-Jie Cao;Wen-Jin Su;Guang-Ming Liu - 通讯作者:
Guang-Ming Liu
Discovery of Novel Phosphoinositide-3-Kinase α Inhibitors with High Selectivity, Excellent Bioavailability, and Long-Acting Efficacy for Gastric Cancer
发现新型磷酸肌醇-3-激酶α抑制剂,具有高选择性、优异的生物利用度和长效作用,用于治疗胃癌
- DOI:
10.1021/acs.jmedchem.2c00549 - 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
Yi Hou;Fang Zhang;Wenjian Min;Kai Yuan;Wenjian Min;Xiao Wang;Yasheng Zhu;Chengliang Sun;Fei Xia;Yanyin Wang;Haolin Zhang;Liping Wang;Peng Yang - 通讯作者:
Peng Yang
Combined liquid hot water with sodium carbonate-oxygen pretreatment to improve enzymatic saccharification of reed.
液体热水与碳酸钠-氧气预处理相结合提高芦苇酶解糖化效果。
- DOI:
10.1016/j.biortech.2019.122498 - 发表时间:
2020 - 期刊:
- 影响因子:11.4
- 作者:
Fei Xia;Jingwei Gong;Jie Lu;Yi Cheng;Shangru Zhai;Qingda An;Haisong Wang - 通讯作者:
Haisong Wang
Environmental and provenance change since MIS 2 recorded by two sediment cores in the central North Jiangsu Plain, East China
苏北平原中部两个沉积岩芯记录的 MIS 2 以来的环境和物源变化
- DOI:
10.3389/feart.2022.1077484 - 发表时间:
2023-01 - 期刊:
- 影响因子:2.9
- 作者:
Yingying Chen;Fei Xia;Zhenke Zhang;Qinmian Xu;Feng Gui - 通讯作者:
Feng Gui
Effect of inducible nitric oxide synthase and neuropeptide Y in plasma and placentas from intrahepatic cholestasis of pregnancy
妊娠期肝内胆汁淤积症血浆和胎盘中诱导型一氧化氮合酶和神经肽Y的影响
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Yongfei Yue;Duo Xu;Yun Wang;Xiaoyan Wang;Fei Xia - 通讯作者:
Fei Xia
Fei Xia的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Fei Xia', 18)}}的其他基金
Workshop on NLP and Linguistics: finding the common ground
NLP 和语言学研讨会:寻找共同点
- 批准号:
1027289 - 财政年份:2010
- 资助金额:
$ 19.6万 - 项目类别:
Standard Grant
CAREER: Information Engineering and Synthesis for Resource-poor Languages
职业:资源匮乏语言的信息工程和综合
- 批准号:
0748919 - 财政年份:2008
- 资助金额:
$ 19.6万 - 项目类别:
Continuing Grant
CRI:CRD Collaborative Research: General Techniques for Creating Treebanks with Multiple Representations: A Large-Scale Russian
CRI:CRD 协作研究:创建具有多重表示的树库的通用技术:大型俄罗斯树库
- 批准号:
0708719 - 财政年份:2007
- 资助金额:
$ 19.6万 - 项目类别:
Standard Grant
相似国自然基金
Research on Quantum Field Theory without a Lagrangian Description
- 批准号:24ZR1403900
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
Cell Research
- 批准号:31224802
- 批准年份:2012
- 资助金额:24.0 万元
- 项目类别:专项基金项目
Cell Research
- 批准号:31024804
- 批准年份:2010
- 资助金额:24.0 万元
- 项目类别:专项基金项目
Cell Research (细胞研究)
- 批准号:30824808
- 批准年份:2008
- 资助金额:24.0 万元
- 项目类别:专项基金项目
Research on the Rapid Growth Mechanism of KDP Crystal
- 批准号:10774081
- 批准年份:2007
- 资助金额:45.0 万元
- 项目类别:面上项目
相似海外基金
CRI: CI-EN: Collaborative Research: mResearch: A platform for Reproducible and Extensible Mobile Sensor Big Data Research
CRI:CI-EN:协作研究:mResearch:可复制和可扩展的移动传感器大数据研究平台
- 批准号:
1822935 - 财政年份:2018
- 资助金额:
$ 19.6万 - 项目类别:
Standard Grant
CRI: CI-New: Collaborative Research: Extensible, Software Enabled Unmanned Aerial Vehicles
CRI:CI-New:协作研究:可扩展、软件支持的无人机
- 批准号:
1823230 - 财政年份:2018
- 资助金额:
$ 19.6万 - 项目类别:
Continuing Grant
CRI: CI-EN: Collaborative Research: OpenNetVM: A Software Platform Enabling Network Function Virtualization Research
CRI:CI-EN:协作研究:OpenNetVM:支持网络功能虚拟化研究的软件平台
- 批准号:
1823236 - 财政年份:2018
- 资助金额:
$ 19.6万 - 项目类别:
Standard Grant
CRI: CI-EN: Collaborative Research: An Experimental Infrastructure and a Database of Real Faults to Foster Reproducibility in Software Engineering Research
CRI:CI-EN:协作研究:实验基础设施和真实故障数据库,以促进软件工程研究的可重复性
- 批准号:
1929215 - 财政年份:2018
- 资助金额:
$ 19.6万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: Sustaining Lemur Project Resources for the Long-Term
CRI:CI-SUSTAIN:合作研究:长期维持狐猴项目资源
- 批准号:
1822986 - 财政年份:2018
- 资助金额:
$ 19.6万 - 项目类别:
Standard Grant
CRI: CI-EN: Collaborative Research: An Experimental Infrastructure and a Database of Real Faults to Foster Reproducibility in Software Engineering Research
CRI:CI-EN:协作研究:实验基础设施和真实故障数据库,以促进软件工程研究的可重复性
- 批准号:
1823172 - 财政年份:2018
- 资助金额:
$ 19.6万 - 项目类别:
Standard Grant
CRI: CI-New: Collaborative Research: NJR: A Normalized Java Resource
CRI:CI-New:协作研究:NJR:标准化 Java 资源
- 批准号:
1823227 - 财政年份:2018
- 资助金额:
$ 19.6万 - 项目类别:
Standard Grant
CRI: CI-EN: Collaborative Research: mResearch: A platform for Reproducible and Extensible Mobile Sensor Big Data Research
CRI:CI-EN:协作研究:mResearch:可复制和可扩展的移动传感器大数据研究平台
- 批准号:
1823221 - 财政年份:2018
- 资助金额:
$ 19.6万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
- 批准号:
1823288 - 财政年份:2018
- 资助金额:
$ 19.6万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
- 批准号:
1853919 - 财政年份:2018
- 资助金额:
$ 19.6万 - 项目类别:
Standard Grant














{{item.name}}会员




