SBIR Phase I: Geographic Information Retrieval for Arabic

SBIR 第一阶段:阿拉伯语地理信息检索

基本信息

  • 批准号:
    0611116
  • 负责人:
  • 金额:
    $ 9.99万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2006
  • 资助国家:
    美国
  • 起止时间:
    2006-07-01 至 2006-12-31
  • 项目状态:
    已结题

项目摘要

This SBIR Phase I research project by MetaCarta proposes to introduce a novel annotation technique, parallel bootstrapping, to take advantage of the existing data sets in creating high quality training material for toponym extraction and resolution. Information Retrieval (IR) systems that can deal with Arabic already exist, but perform no Geographic Information Retrieval (GIR). As the experience of MetaCarta's users shows, it is practically impossible to retrofit standard keyword-based IR systems to perform GIR at a high level, so the only way to achieve Arabic GIR capability is to start with a GIR system. The availability of a high quality English GIR system makes it possible to address the greatest bottleneck of machine learning projects, the lack of manually truthed training data, by an innovative parallel bootstrap technique. Much of disambiguation, and in general, the extraction of semantic content from text, is still performed by rule-based systems that summarize expert knowledge of a domain. In contrast, MetaCarta employs machine-learning techniques that combine Hidden Markov and Maximum Entropy methods. For Arabic, we propose to restrict the rule-based component to morphological analysis, with later stages, in particular the extraction and disambiguation of toponyms to be performed by systems trained on truthed Arabic text. While plain (untruthed) Arabic text is now available in large quantities, see in particular the Arabic Gigaword corpus produced by the Linguistic Data Consortium (LDC), the amount of tagged material is considerably less, and the detail truth values required for toponym extraction and disambiguation are extremely labor-intensive to create by manual annotation. MetaCarta will use as input the LDC 2004T17 and T18 parallel corpora, running the English side through the existing MetaCarta system to produce the in-depth toponym annotation, and projecting back this annotation on the Arabic side.This technology has broad appeal to customers that have an interest in extending GIR to Arabic documents. Representative customers are highly interested in activities restricted to narrow geographic confines, and many of the documents providing information about Middle Eastern areas of key strategic importance are available only in Arabic. Deploying Arabic GIR would also enable the analysts to more rapidly focus on the relevant documents.
MetaCarta的SBIR第一阶段研究项目建议引入一种新的注释技术,即并行自举,以利用现有数据集为地名提取和解析创建高质量的训练材料。信息检索(IR)系统,可以处理阿拉伯语已经存在,但没有执行地理信息检索(GIR)。正如MetaCarta用户的经验所表明的那样,实际上不可能改造标准的基于关键字的IR系统来执行高级别的GIR,因此实现阿拉伯语GIR功能的唯一方法是从GIR系统开始。一个高质量的英语GIR系统的可用性使得有可能解决机器学习项目的最大瓶颈,即缺乏手动真实的训练数据,通过创新的并行引导技术。大部分的消歧,以及一般来说,从文本中提取语义内容,仍然是由基于规则的系统来执行的,这些系统总结了领域的专家知识。相比之下,MetaCarta采用结合了联合收割机隐马尔可夫和最大熵方法的机器学习技术。对于阿拉伯语,我们建议限制基于规则的组成部分形态分析,与后期阶段,特别是提取和消除歧义的地名进行系统训练的truthed阿拉伯语文本。虽然现在有大量的纯阿拉伯文本,特别是语言数据联合会制作的阿拉伯语千兆字语料库,但有标记的材料数量少得多,而且提取地名和消除歧义所需的细节真值是手工注释的劳动密集型工作。MetaCarta将使用LDC 2004 T17和T18平行语料库作为输入,通过现有的MetaCarta系统运行英文部分,以产生深入的地名注释,并将这一注释投射到阿拉伯文部分,这项技术对有兴趣将GIR扩展到阿拉伯文文件的客户具有广泛的吸引力。有代表性的客户对局限于狭窄地理范围内的活动非常感兴趣,许多提供有关具有重要战略意义的中东地区信息的文件只有阿拉伯文。部署阿拉伯文全球信息检索系统还将使分析人员能够更迅速地集中精力处理相关文件。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Andras Kornai其他文献

Andras Kornai的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

Baryogenesis, Dark Matter and Nanohertz Gravitational Waves from a Dark Supercooled Phase Transition
  • 批准号:
    24ZR1429700
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
ATLAS实验探测器Phase 2升级
  • 批准号:
    11961141014
  • 批准年份:
    2019
  • 资助金额:
    3350 万元
  • 项目类别:
    国际(地区)合作与交流项目
地幔含水相Phase E的温度压力稳定区域与晶体结构研究
  • 批准号:
    41802035
  • 批准年份:
    2018
  • 资助金额:
    12.0 万元
  • 项目类别:
    青年科学基金项目
基于数字增强干涉的Phase-OTDR高灵敏度定量测量技术研究
  • 批准号:
    61675216
  • 批准年份:
    2016
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于Phase-type分布的多状态系统可靠性模型研究
  • 批准号:
    71501183
  • 批准年份:
    2015
  • 资助金额:
    17.4 万元
  • 项目类别:
    青年科学基金项目
纳米(I-Phase+α-Mg)准共晶的临界半固态形成条件及生长机制
  • 批准号:
    51201142
  • 批准年份:
    2012
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目
连续Phase-Type分布数据拟合方法及其应用研究
  • 批准号:
    11101428
  • 批准年份:
    2011
  • 资助金额:
    23.0 万元
  • 项目类别:
    青年科学基金项目
D-Phase准晶体的电子行为各向异性的研究
  • 批准号:
    19374069
  • 批准年份:
    1993
  • 资助金额:
    6.4 万元
  • 项目类别:
    面上项目

相似海外基金

A Phase 2a clinical trial of ALK-001 in geographic atrophy
ALK-001 治疗地理萎缩的 2a 期临床试验
  • 批准号:
    9267153
  • 财政年份:
    2012
  • 资助金额:
    $ 9.99万
  • 项目类别:
A Phase 2a clinical trial of ALK-001 in geographic atrophy
ALK-001 治疗地理萎缩的 2a 期临床试验
  • 批准号:
    9048898
  • 财政年份:
    2012
  • 资助金额:
    $ 9.99万
  • 项目类别:
SBIR Phase II: Algorithms and Visualization Techniques for the Detection of Geographic Aberrations in Crime (GIS)
SBIR 第二阶段:犯罪地理畸变检测算法和可视化技术 (GIS)
  • 批准号:
    0750507
  • 财政年份:
    2008
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
SBIR Phase I: Algorithms and Visualization Techniques for the Detection of Geographic Aberrations in Crime (GIS)
SBIR 第一阶段:犯罪地理畸变检测算法和可视化技术 (GIS)
  • 批准号:
    0637589
  • 财政年份:
    2007
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
SBIR Phase I: iPointer - A Device for Directly Querying Geographic Objects in the Field
SBIR 第一阶段:iPointer - 直接查询野外地理对象的设备
  • 批准号:
    0340041
  • 财政年份:
    2004
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
SBIR Phase I: Temporal Extensions to a Commercial Geographic Information System
SBIR 第一阶段:商业地理信息系统的时间扩展
  • 批准号:
    0232188
  • 财政年份:
    2003
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
SBIR Phase I: Geographic Information Systems (GIS)-Based Decision Support Management Application to Optimize Site-Specific Environmental Stewardship
SBIR 第一阶段:基于地理信息系统 (GIS) 的决策支持管理应用程序,以优化特定地点的环境管理
  • 批准号:
    0060575
  • 财政年份:
    2001
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
SBIR Phase II: Rock Art Data Recording, Management and Analysis: An Integrated System Incorporating 3-D Laser and Digitizing, Geographic Information Systems, & Photogramm
SBIR 第二阶段:岩石艺术数据记录、管理和分析:集成 3D 激光和数字化、地理信息系统、
  • 批准号:
    9801160
  • 财政年份:
    1998
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
SBIR Phase I: A Geographic Information System (GIS) Based Community Transit Information System (CTIS)
SBIR 第一阶段:基于地理信息系统 (GIS) 的社区交通信息系统 (CTIS)
  • 批准号:
    9661397
  • 财政年份:
    1997
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
SBIR Phase II: Fisheries Geographic Information Systems
SBIR 第二阶段:渔业地理信息系统
  • 批准号:
    9530617
  • 财政年份:
    1996
  • 资助金额:
    $ 9.99万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了