多言語Webテキストからの知識マイニングに関する研究

多语言网络文本知识挖掘研究

基本信息

  • 批准号:
    18049011
  • 负责人:
  • 金额:
    $ 3.78万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
  • 财政年份:
    2006
  • 资助国家:
    日本
  • 起止时间:
    2006 至 无数据
  • 项目状态:
    已结题

项目摘要

表記の研究テーマを推進するにあたっては,大量ないし多様なテキストを処理する必要がある.本年度は,このような目的に沿って,以下の基本的テキスト処理技術の探求,Webテキスト処理ツールの開発を行った.(1)大量のWebテキストから比較的軽い処理で知識の候補となるイベントを網羅的に抽出する半構造マイニングの手法を考案して,実装した.知識抽出にあたって、文の係り受け構造を,文節をラベルとする節点を保持する木構造で表したのでは,助詞や表記上のぶれにより,節点数の少ない部分木が抽出されてしまう.そこで係り受け構造を表現する新しいデータ構造を提案し,そのデータ構造に対するマイニング手法を提案することで,上記の問題を解決した.(2)将来必要となる精密な知識をテキストから抽出するためのインフラストラクチャーとなるHPSG文法による構文解析システムの研究を行った.従来のモデルに比べ,提案した極語彙化モデルはほぼ同じ精度を達成しながら,4〜5倍程度の高速化に成功している.もうひとつの提案である合成モデルでは,従来のモデルにくらべ3〜4倍程度の高速化を達成しつつ,適合率および再現率がおよそ2ポイント向上している.(3)HTMLで書かれたHTML文書であるが,その構造であるレイアウト情報を教師なし学習で自動的に抽出するシステムを検討した.(4)既存のサーチエンジンを越える使い勝手を実現するために,Webテキストと伝統的な情報の宝庫である図書館を連携させる目的で,Web上の百科事典Wikipediaを仲介とする方法を考案した.具体的にはWebの世界と図書館の世界をWikipediaを介してつなぐことによって,両者の世界の利点を生かした情報探索を実現するための試作システムを構築した.
A lot of research is needed. This year, the goal is to explore the following basic technologies for Web site processing, and to develop web site processing technologies. (1)A large number of Web sites are available for comparison, knowledge processing, candidate information, network extraction, semi-structural information processing, and implementation. Knowledge extraction, text system, structure, text section, node, structure, table, auxiliary word, table, record, number of nodes, part of tree extraction. The problem is solved by a new structure proposal. (2)In the future, it is necessary to study the structure of HPSG. In the past, the speed of the system has been increased by 4 to 5 times, and the accuracy of the system has been improved by 4 to 5 times. In addition, the speed increase of 3 ~ 4 times is achieved, and the fit rate and the reproduction rate are increased by 2 times. (3)HTML is the structure of HTML documents. It is the automatic extraction of HTML documents. (4)The existing Web site is a repository of traditional information. The Wikipedia site is a reference site. The concrete world of the Web, the world of the library, Wikipedia, the world of the web, the world of the web, the web, the world of the

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A Domain Ontology Production Tool Kit Based on Automatically Constructed Case Frames
基于自动构建案例框架的领域本体生成工具包
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Youji Kiyota;Hiroshi Nakagawa
  • 通讯作者:
    Hiroshi Nakagawa
Fast and scalable HPSG parsing.
快速且可扩展的 HPSG 解析。
Browsing System for Weblog Articles based on Automated Folksonomy
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tsutomu Ohkura;Yoji Kiyota;Hiroshi Nakagawa
  • 通讯作者:
    Tsutomu Ohkura;Yoji Kiyota;Hiroshi Nakagawa
Extremely Lexicalized Models for Accurate and Fast HPSG Parsing
用于准确快速 HPSG 解析的高度词汇化模型
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Takashi Ninomiya;et al.
  • 通讯作者:
    et al.
係り受け関係を考慮したテキストマイニングのための半構造マイニング手法の提案
考虑依赖关系的文本挖掘半结构化挖掘方法的提出
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

中川 裕志其他文献

裏側から視るAI
从后面看到的人工智能
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    土屋俊監修;大谷卓史編著;中川 裕志
  • 通讯作者:
    中川 裕志
Dynamic Scheduling for Multiprocessor Systems with Static Priority lists
具有静态优先级列表的多处理器系统的动态调度
機械学習工学
机器学习工程
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石川 冬樹;丸山 宏;柿沼 太一;竹内 広宜;土橋 昌;中川 裕志;原 聡;堀内 新吾;鷲崎 弘宜
  • 通讯作者:
    鷲崎 弘宜
個人データの利用に対する許容度に関する社会調査
关于个人数据使用容忍度的社会调查
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中川 裕志;菊池 浩明
  • 通讯作者:
    菊池 浩明
A Study about Cybernetic Avatar after the Death of the Master Person
大师死后的控制论化身研究
  • DOI:
    10.7210/jrsj.41.9
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Atsuko Kanematsu;Ryota Ando;Shun Hirano;Mamoru Endo;Takatoshi Naka;Masashi Yamada;Shinya Miyazaki;安藤亮太,平野隼,兼松篤子,遠藤守,中貴俊,山田雅之,宮崎慎也;中川 裕志;Nakagawa Hiroshi
  • 通讯作者:
    Nakagawa Hiroshi

中川 裕志的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('中川 裕志', 18)}}的其他基金

多言語Webテキストからの知識マイニング関する研究
多语言网络文本知识挖掘研究
  • 批准号:
    19024014
  • 财政年份:
    2007
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
分かり易さ向上のためのテキストコンテンツ変換に関する研究
文本内容转换以提高可理解性的研究
  • 批准号:
    16016215
  • 财政年份:
    2004
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
分かり易さ向上のためのテキストコンテンツ変換に関する研究
文本内容转换以提高可理解性的研究
  • 批准号:
    15017217
  • 财政年份:
    2003
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
モバイル環境における理解容易なテキスト生成のための自然言語処理に関する研究
移动环境中易于理解的文本生成的自然语言处理研究
  • 批准号:
    14019017
  • 财政年份:
    2002
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
モバイル環境向けコンテンツ開発のための自然言語処理に関する研究
移动环境内容开发的自然语言处理研究
  • 批准号:
    13224019
  • 财政年份:
    2001
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)
述語の意味による日本語談話理解システム
基于谓语意义的日语语篇理解系统
  • 批准号:
    08837008
  • 财政年份:
    1996
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
接続助詞の関係的意味に基づく日本語談話理解システムに関する研究
基于连词关系意义的日语语篇理解系统研究
  • 批准号:
    07221206
  • 财政年份:
    1995
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
接続助詞の関係的意味に基づく日本語談話理解システムに関する研究
基于连词关系意义的日语语篇理解系统研究
  • 批准号:
    06232207
  • 财政年份:
    1994
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
助動詞・助詞の関係的意味に基づく日本語談話理解システムに関する研究
基于助动词和助词关系意义的日语语篇理解系统研究
  • 批准号:
    05241205
  • 财政年份:
    1993
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
確定節で表された知識ベースの無矛盾性維持に関する研究
定语从句表达的知识库一致性维护研究
  • 批准号:
    63633508
  • 财政年份:
    1988
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas

相似国自然基金

WWW多媒体内容安全模型与算法研究
  • 批准号:
    60472082
  • 批准年份:
    2004
  • 资助金额:
    24.0 万元
  • 项目类别:
    面上项目
基于页-对象视图的WWW上信息集成技术的研究
  • 批准号:
    69803004
  • 批准年份:
    1998
  • 资助金额:
    12.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

https://www-kofu.jsps.go.jp/kofu1/shinsei/shoriKanri/kadaiKanriList.do
https://www-kofu.jsps.go.jp/kofu1/shinsei/shoriKanri/kadaiKanriList.do
  • 批准号:
    22K08059
  • 财政年份:
    2022
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
NUM - efficient, privacy-focused alternative to WWW for storing & retrieving structured data
NUM - 高效、注重隐私的 WWW 存储替代方案
  • 批准号:
    54162
  • 财政年份:
    2020
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Study
Analysis of lifestyle and health texts on the WWW consisting of text and numeric data.
对 WWW 上由文本和数字数据组成的生活方式和健康文本的分析。
  • 批准号:
    18K11549
  • 财政年份:
    2018
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A development of an innohttps://www-kofu.jsps.go.jp/kofu1/shinsei/shoriKanri/kadaiKanriList.dovative technology to identify key odorants from complex volatile mixtures
开发了一种 innohttps://www-kofu.jsps.go.jp/kofu1/shinsei/shoriKanri/kadaiKanriList.dovative 技术,用于从复杂的挥发性混合物中识别关键气味剂
  • 批准号:
    17K19215
  • 财政年份:
    2017
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
Integrated Media Analysis for Medical/Health Information Matching on WWW
WWW 医疗/健康信息匹配的综合媒体分析
  • 批准号:
    15K00425
  • 财政年份:
    2015
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Integrated Development of Japanese linguistics by WWW searching
WWW检索的日语语言学综合发展
  • 批准号:
    26370551
  • 财政年份:
    2014
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Research and Development about Support for Safe and Secure by Visualization of WWW information using Augmented Reality
通过使用增强现实技术可视化 WWW 信息来支持安全可靠的研究和开发
  • 批准号:
    25870576
  • 财政年份:
    2013
  • 资助金额:
    $ 3.78万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Groupware Performance Library for the WWW
WWW 的群件性能库
  • 批准号:
    449403-2013
  • 财政年份:
    2013
  • 资助金额:
    $ 3.78万
  • 项目类别:
    University Undergraduate Student Research Awards
RepServer: Antigen Receptor Repertoire Analysis Pipelines via the WWW
RepServer:通过 WWW 的抗原受体库分析管道
  • 批准号:
    8822801
  • 财政年份:
    2012
  • 资助金额:
    $ 3.78万
  • 项目类别:
RepServer: Antigen Receptor Repertoire Analysis Pipelines via the WWW
RepServer:通过 WWW 的抗原受体库分析管道
  • 批准号:
    8636990
  • 财政年份:
    2012
  • 资助金额:
    $ 3.78万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了