Development of an Integrated Tool System for Technical Term Auto-Extraction and Knowledge Acquisition from Corpora

语料库技术术语自动提取和知识获取集成工具系统的开发

基本信息

  • 批准号:
    08558027
  • 负责人:
  • 金额:
    $ 8.45万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
  • 财政年份:
    1996
  • 资助国家:
    日本
  • 起止时间:
    1996 至 1998
  • 项目状态:
    已结题

项目摘要

The goal of this project was to provide the systems that can acquire knowledge on terminology from texts in a semi-automatic manner. In order to accomplish the goal, we have developed the following three systems.1. Central Database for Terminology : We have created a database system for terminology by integrating the text/lexicon database developed by EDR and the programming language LiLFeS, which was developed at University of Tokyo for easy and flexible treatment linguistic entities By this system, we can perform a systematic maintenance of the knowledge acquired by the following two systems.2. Systems for term recognition : The research group in the NACSIS introduced a statistical metric to identify technical terminology in texts, and built the programs that can recognize terms using this metric. The group in University of Tokyo attacked the same problem in a different perspective, and succeeded in providing a term recognition method based on character n-grams. Those programs are integrated so that they can work as a front end of the database system described in 1.3. Systems for acquiring ontological knowledge on terms : The research group in University of Tokyo developed the programs for obtaining semantic classifications of words according to surface clues appearing in texts. The Matsushita research group developed a similar technique using deeper syntactic structures of texts. Those systems were applied to the documents in Genome texts, the news articles about stock markets and so on.
该项目的目标是提供能够以半自动方式从文本中获取术语知识的系统。为了实现这一目标,我们开发了以下三个系统:1.术语中央数据库:将EDR开发的文本/词汇数据库与东京大学开发的程序设计语言LiLFeS相结合,创建了一个术语数据库系统,方便灵活地处理语言实体通过该系统,我们可以对以下两个系统获得的知识进行系统维护。2.术语识别系统:NACSIS的研究小组引入了一种统计指标来识别文本中的技术术语,并构建了可以使用该指标识别术语的程序。东京大学的研究小组从不同的角度解决了同样的问题,并成功地提供了一种基于字符n-gram的术语识别方法。这些程序是集成的,因此它们可以作为1.3中描述的数据库系统的前端工作。获取术语本体知识的系统:东京大学的研究小组开发了根据文本中出现的表面线索获取单词语义分类的程序。松下研究小组开发了一种类似的技术,使用更深层次的句法结构的文本。这些系统被应用于基因组文本中的文档,有关股票市场的新闻文章等。

项目成果

期刊论文数量(29)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Tsuyoshi Sekimizu, H. S. Park, Junichi Tsujii: "Identifying the Interaction between Genes and Gene Products Based on Frequently Seen Verbs In Medline Abstracts"Proceedings of Genome Informatics. Vol.9. 62-71 (1998)
Tsuyoshi Sekimizu、H. S. Park、Junichi Tsujii:“根据 Medline 摘要中常见的动词识别基因和基因产物之间的相互作用”基因组信息学论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
緒方典裕: "Dynamic Canstructive Thesaurus" 第5回国立国語研究所国際シンポジウム第1専門部会論文集. 182-189 (1997)
Norihiro Ogata:“动态建构词库”第五届日本语言研究所国际研讨会第一小组委员会会议记录182-189(1997)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.Kageura: "Methods of Automatic Term Recognition-A Review" Terminology. 3・2(to appear).
K.Kageura:“自动术语识别方法-回顾”术语3・2(即将出现)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.Kageura: "Some Statistical Characterizations of Terminological and Non-Terminological Elements Evaluation and Examination in Tepanese Technical Abstiacts"TKE'96. 131-138 (1996)
K.Kageura:“Tepanese 技术抽象中术语和非术语元素评估和检查的一些统计特征”TKE96。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

TSUJI Junichi其他文献

TSUJI Junichi的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

A Novel Approach to Video Database Indexing via Semantic Classification
通过语义分类进行视频数据库索引的新方法
  • 批准号:
    0208539
  • 财政年份:
    2002
  • 资助金额:
    $ 8.45万
  • 项目类别:
    Continuing Grant
SEMANTIC CLASSIFICATION OF PICTURES & WORDS: FMRI OF REPETITION PRIMING: MEMORY
图片语义分类
  • 批准号:
    6123031
  • 财政年份:
    1999
  • 资助金额:
    $ 8.45万
  • 项目类别:
SEMANTIC CLASSIFICATION OF PICTURES & WORDS: REPETITION PRIMING FMRI: BILINGUAL
图片语义分类
  • 批准号:
    6123032
  • 财政年份:
    1999
  • 资助金额:
    $ 8.45万
  • 项目类别:
A STUDY OF JAPANESE CLASSICAL WORDS ON SEMANTIC CLASSIFICATION
日语古典词语的语义分类研究
  • 批准号:
    09610433
  • 财政年份:
    1997
  • 资助金额:
    $ 8.45万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Semantic Classification System based on a Contemporary Japanese Noun Thesaurus
基于当代日语名词词库的语义分类系统
  • 批准号:
    05610414
  • 财政年份:
    1993
  • 资助金额:
    $ 8.45万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
Semantic Classification of Vocabulary thru Japanese Noun Thesaurus
通过日语名词词库对词汇进行语义分类
  • 批准号:
    02610196
  • 财政年份:
    1990
  • 资助金额:
    $ 8.45万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了