機械学習手法による半構造データマイニングと情報抽出

使用机器学习技术进行半结构化数据挖掘和信息提取

基本信息

  • 批准号:
    16016275
  • 负责人:
  • 金额:
    $ 3.52万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2005
  • 项目状态:
    已结题

项目摘要

本研究課題では,機械学習手法による半構造データマイニングと情報抽出について研究を行い,本年度は次の成果を得た.Web空間の爆発的な発展に伴い,インターネット上の大規模分散コンテンツを流通・提供・活用するための手法やシステムの研究開発が求められている.機械学習技術を適用することは,人に優しい情報通信技術やフレンドリーな情報処理システムの開発に有効である.本研究課題では,HTML/XMLファイルなどのWeb文書が半構造性を持つことに注目し,機械学習技術を活用して,半構造データからのデータマイニング技術を発展させ,Webデータから有用なコンテンツを発見する手法,すなわち情報抽出技術を確立することを目的とする.均質でない半構造文書からの情報抽出に応用するため,半構造文書に共通する構造的特徴を表現する木構造パターンである,高さ制約変数付きの極大頻出タグ木パターンを発見するアルゴリズムを与えた.電気図面などTTSPグラフでモデル化できる半構造データに共通する構造パターンを表現するTTSP項グラフを多項式時間で帰納推論する学習アルゴリズムを与えた.半構造データを効率よく比較・照合するための様々な手法を統一的に記述できる一般的なフレームワークを与え,従来知られていなかった編集距離に基づく木の近似照合クラス間の関係を明らかにした.複数の半構造データを統合するため,近似照合から2つの木を結合する効率的なアルゴリズムを提案した.半構造データのフィルタリングやクラスタリングを行うために,半構造データからの局所位相情報に基づく距離を考案し,これを高速に計算する手法を開発した.
This research topic is about the research of machine learning techniques, semi-structure and information extraction, and the second achievement of this year is obtained. The development of Web space explosion, large-scale distributed information technology on the Internet, circulation, provision, utilization and techniques for research and development. Machine learning technology is applicable to human beings, and information communication technology is applicable to the development of information processing systems. This research topic focuses on the semi-structural development of HTML/XML documents, the application of machine learning technology, the development of semi-structural documents, the development of useful documents, and the establishment of information extraction technology. Homogeneous semi-structural documents are used to extract information, semi-structural documents are used to express common structural characteristics, such as structural structure, high restriction number and maximum frequency. The electric field is divided into two parts: the TTSP term and the polynomial term. The relationship between semi-structural elements and their compilation distances is clearly defined by the comparison and approximation of the elements. A plurality of semi-structural elements are integrated into one another, approximately corresponding to one another. Semi-structure information structure structure

项目成果

期刊论文数量(28)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Tractable and Intractable Second-Order Matching Problems
易处理和难处理的二阶匹配问题
On Finding Acyclis Subhypergrahs
关于寻找 Acyclis 子超图
Extracting Disjunctive Closed Rules from MRSA Data
从 MRSA 数据中提取析取闭合规则
Extracting Multiple Layers from Data Having Graph Structures
从具有图结构的数据中提取多层
The q-Gram Distance for Ordered Unlabeled Tree
有序未标记树的 q-Gram 距离
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

宮原 哲浩其他文献

Enumeration of Maximally Frequent Ordered Tree Patterns with Height-Constrained Variables for Trees
具有树高度约束变量的最大频繁有序树模式的枚举
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鈴木 祐介;宮原 哲浩;正代 隆義;内田 智之;松本 哲志;久保山 哲二
  • 通讯作者:
    久保山 哲二
1変数項木パターンに対する多項式時間マッチングアルゴリズム
一变量词树模式的多项式时间匹配算法
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    舛井 里帆;池森 千尋;鈴木 祐介;内田 智之;宮原 哲浩
  • 通讯作者:
    宮原 哲浩
Polynomial Time Inductive Inference of Ordered Term Trees with Contractible Variables from Positive Data (計算機科学基礎理論の新展開 研究集会報告集)
正数据可收缩变量的有序项树的多项式时间归纳推理(计算机科学研究基础理论研究会议报告新进展)
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鈴木 祐介;正代 隆義;松本 哲志;内田 智之;宮原 哲浩
  • 通讯作者:
    宮原 哲浩
進化的学習によるブロック内ワイルドカード付きブロック保存型外平面的グラフパターンの獲得
通过进化学习获得具有块内通配符的块守恒块外平面图模式
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宮原 哲浩;鈴木 祐介;久保山 哲二;内田 智之;田中知希,鈴木祐介,内田智之,宮原哲浩;松本哲志,鈴木祐介,内田智之,正代隆義,宮原哲浩;門田大輝,鈴木祐介,内田智之,宮原哲浩;山本啓太,宮原哲浩,鈴木祐介,内田智之,久保山哲二
  • 通讯作者:
    山本啓太,宮原哲浩,鈴木祐介,内田智之,久保山哲二
遺伝的プログラミングによる複合的なブロック保存型外平面的グラフパターンの獲得
通过遗传编程获取复杂的块守恒平面外图模式
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    徳原 史也;宮原 哲浩;久保山 哲二;鈴木 祐介;内田 智之
  • 通讯作者:
    内田 智之

宮原 哲浩的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('宮原 哲浩', 18)}}的其他基金

グラフ構造パターンにより可視化された説明可能なグラフ構造化知識の獲得システム
通过图结构模式可视化的可解释的图结构知识获取系统
  • 批准号:
    22K12172
  • 财政年份:
    2022
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
科学的法則を発見する機械学習アルゴリズムの研究
研究机器学习算法发现科学规律
  • 批准号:
    08780369
  • 财政年份:
    1996
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
科学的法則を発見する機械学習アルゴリズムの研究
研究机器学习算法发现科学规律
  • 批准号:
    07780335
  • 财政年份:
    1995
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
状況を領域知識として利用する学習アルゴリズムの研究
以情境为领域知识的学习算法研究
  • 批准号:
    06780328
  • 财政年份:
    1994
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
状況を領域知識として利用する学習アルゴリズムの研究
以情境为领域知识的学习算法研究
  • 批准号:
    05780296
  • 财政年份:
    1993
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
状況を領域知識として利用する学習アルゴリズムの研究
以情境为领域知识的学习算法研究
  • 批准号:
    04780038
  • 财政年份:
    1992
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
テキスト構造の帰納推論とその応用
文本结构归纳推理及其应用
  • 批准号:
    02780034
  • 财政年份:
    1990
  • 资助金额:
    $ 3.52万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了