半構造テキストデータの一般構造を推論する高度情報抽出アルゴリズムの構築

构建推断半结构化文本数据一般结构的高级信息提取算法

基本信息

  • 批准号:
    15700136
  • 负责人:
  • 金额:
    $ 2.18万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2003
  • 资助国家:
    日本
  • 起止时间:
    2003 至 2004
  • 项目状态:
    已结题

项目摘要

XMLを中心とする半構造データの登場により,情報抽出は次の新しい局面を迎えている.本研究の目的は,半構造データからの情報抽出問題を木構造へ一般化し,複雑な抽出を効率的に行うための枠組みを提案することである.これまでの枠組みでは半構造データからデータの場所を推論してテキストのみを取り出していた.これに対して本研究では『構造化テキスト』すなわち半構造データの部分木に相当する部分を学習によって抽出する.学習アルゴリズムの目標は与えられたデータから一般構造を取り出してラッパー(抽出規則)を構築することであり,抽出アルゴリズムはラッパーと未知のデータをマッチングさせて適切なデータを取り出す.これらのアルゴリズムを実現するために研究計画として以下の3つの課題を設けているが,最終年度はそのうち3.について成果をあげた.1.多様な論理構造を持つデータを表現できる木構造ラッパーを定式化する.一般の文字列は変数や関数記号を導入することでより一般的な表現になる.この考えを応用して正規表現の概念を木構造へ導入する.2.半構造データを一般化する手続きを確立し,木構造ラッパーを学習するアルゴリズムを構築する.この枠組みでは複数の木構造を同時に一般化するため,ダイナミックプログラミングを応用してメモリーを圧迫しない学習アルゴリズムの実現を目指す.3.高速な抽出アルゴリズムを実装し,実験によって有効性を示す.素朴な手法によって抽出アルゴリズムを実装する場合,未知のデータを一度構文解析する必要があり,このままでは高速化は難しい.そこで従来の文字列照合問題を木構造データのマッチングへ拡張し,構文解析を必要としない手法を確立する.本研究における一般化によって,データの構造を学習し複雑な抽出を行うことができる.
The XMLを center とする semi-structure デ タ タ <s:1> makes its appearance によ, and the intelligence is drawn とする. The new <s:1> situation を welcomes えて る る る. は の purpose, this study half structure デ ー タ か ら の information extraction problem へ generalization し を wood construction, complex 雑 な spare を に line of the working rate う た め の 枠 group み を proposal す る こ と で あ る. こ れ ま で の 枠 group み で は half structure デ ー タ か ら デ ー タ の places を inference し て テ キ ス ト の み を take り out し て い た. こ れ に し seaborne て in this study で は "structure The テ キ ス ト す "な わ ち half structure デ ー タ の part wood に quite す る part を learning に よ っ て spare す る. Learning ア ル ゴ リ ズ ム の goal は and え ら れ た デ ー タ か ら general construction を take り out し て ラ ッ パ ー (extraction rules) を build す る こ と で あ り, drew ア ル ゴ リ ズ ム は ラ ッ パ ー と unknown の デ ー タ を マ ッ チ ン グ さ せ て appropriate な デ ー タ を take り す. こ れ ら の ア ル ゴ リ ズ ム を be presently す る た め に research projects と し て in For the next section 3 を を project を, set けて るが るが るが, and the final year そ そ うち3. Youdaoplaceholder5 て て achievements をあげた.1. Many others な logical structure を hold つ デ ー タ を performance で き る wooden structure ラ ッ パ ー を demean す る. General の text columns は - several や masato number mark を import す る こ と で よ り general な performance に な る. こ の exam え を 応 with し て formal performance の concept を wooden structure へ import す る. 2. Half structure デ ー タ を generalization す る hand 続 き を し, wood structure ラ ッ パ ー を learning す る ア ル ゴ リ ズ ム を build す る. こ の 枠 group み で は plural の を wooden structure at the same time に generalization す る た め, ダ イ ナ ミ ッ ク プ ロ グ ラ ミ ン グ を 応 with し て メ モ リ ー を 圧 forced し な い learning ア ル ゴ リ ズ ム の be presently を refers す. 3. High-speed な spare ア ル ゴ リ ズ ム を be し, be 験 に よ っ て have sharper sex を す. The naive な gimmick に よ っ て spare ア ル ゴ リ ズ ム を be loaded す る occasions, unknown の デ ー タ を once compose text parsing す る necessary が あ り, こ の ま ま で high speed は は difficult し い. そ こ で 従 problem を の text columns according to the wooden structure デ ー タ の マ ッ チ ン グ へ company, zhang し, Text construction analysis を necessary と な な を technique を establish する. This study に お け る generalization に よ っ て, デ ー タ を の structure learning し complex 雑 な spare line を う こ と が で き る.

项目成果

期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Hiroshi Sakamoto, Kouichi Hirata, Hiroki Arimura: "Learning Elementary Formal Systems with Queries"Theoretical Computer Science. 298. 21-50 (2003)
Hiroshi Sakamoto、Kouichi Hirata、Hiroki Arimura:“通过查询学习基本形式系统”理论计算机科学。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
A simple extension of queriable compression for XML data
Hiroshi Sakamoto: "最適データ圧縮のための省スペースな近似アルゴリズム"情報技術レターズ(情報科学技術フォーラム講演論文集). 29-30 (2003)
Hiroshi Sakamoto:“最佳数据压缩的节省空间近似算法”信息技术快报(信息科学与技术论坛论文集)29-30(2003)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
A Space-Saving Linear-Time Algorithm for Grammar-Based Compression
一种基于语法的压缩的节省空间的线性时间算法
Efficient Substructure Discovery from Large Semi-Structured Data
  • DOI:
    10.1137/1.9781611972726.10
  • 发表时间:
    2001-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tatsuya Asai;K. Abe;Shinji Kawasoe;H. Sakamoto;Hiroki Arimura;S. Arikawa
  • 通讯作者:
    Tatsuya Asai;K. Abe;Shinji Kawasoe;H. Sakamoto;Hiroki Arimura;S. Arikawa
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

坂本 比呂志其他文献

In vivo and in vitro constant expression of GATA-4 in mouse postnata Sertoli cells.
小鼠产后支持细胞中 GATA-4 的体内和体外恒定表达。
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hashi;Y.et al.;谷口英樹;Kanatsu-Shinohara M.et al.;坂本 比呂志;Kanatsu-Shinohara M.et al.;谷口英樹;戴 国友;Kanatsu-Shinohara M.et al.;Imai T.et al.
  • 通讯作者:
    Imai T.et al.
非可逆圧縮データからの高速な画像生成
从有损压缩数据快速生成图像
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    管谷 克彦;高畠 嘉将;井 智弘;申 吉浩;坂本 比呂志
  • 通讯作者:
    坂本 比呂志
血管内皮細胞の形態制御に関与する転写因子Foxo1の標的因子の探索
寻找转录因子Foxo1参与血管内皮细胞形态调控的靶因子
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田村-辻 潔美;坂本 比呂志;小川 峰太郎
  • 通讯作者:
    小川 峰太郎
Hemogenic and non-hemogenic endothelium can be distinguished by the activity of fetal liver kinase (FlK)-l promoter/enhancer during mouse embryogenesis.
造血内皮和非造血内皮可以通过小鼠胚胎发生期间胎儿肝激酶(FlK)-1启动子/增强子的活性来区分。
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hashi;Y.et al.;谷口英樹;Kanatsu-Shinohara M.et al.;坂本 比呂志;Kanatsu-Shinohara M.et al.;谷口英樹;戴 国友;Kanatsu-Shinohara M.et al.;Imai T.et al.;中島 光業;谷口英樹;久恒 洋;谷口英樹;Furuyama T.et al.;坂本 比呂志;谷口英樹;Iseki M.et al.;坂本比呂志;Nakayama N.et al.;谷口英樹;平位 秀世
  • 通讯作者:
    平位 秀世
造血発生の発生分化におけるc-Myb発現レベルの意義
c-Myb表达水平在造血发育分化中的意义
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    坂本比呂志;小川峰太郎;坂本 比呂志
  • 通讯作者:
    坂本 比呂志

坂本 比呂志的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('坂本 比呂志', 18)}}的其他基金

Compressed learning: theory and application of data compression technique that allows direct learning from optimally encoded data
压缩学习:数据压缩技术的理论和应用,允许从最佳编码数据中直接学习
  • 批准号:
    23K11233
  • 财政年份:
    2023
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
c-Myb reporterマウスを用いた造血幹細胞のシングルセル解析
使用 c-Myb 报告小鼠对造血干细胞进行单细胞分析
  • 批准号:
    16K09830
  • 财政年份:
    2016
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築
从半结构化数据构建信息提取算法,该算法对数据更新具有鲁棒性和快速性
  • 批准号:
    18700154
  • 财政年份:
    2006
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
成体型造血の多分化能獲得のための血管内皮細胞の機能解析
血管内皮细胞在成人造血中获得多能性的功能分析
  • 批准号:
    17790652
  • 财政年份:
    2005
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
超高速データストリームのためのオンライン型半構造情報変換システムの開発
超高速数据流在线半结构化信息转换系统开发
  • 批准号:
    16650021
  • 财政年份:
    2004
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
ES細胞の試験管内発生モデルを用いた造血幹細胞の多分化能獲得機構の研究
利用ES细胞体外发育模型研究造血干细胞获得多能性的机制
  • 批准号:
    15790495
  • 财政年份:
    2003
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
造血幹細胞・血管新生のシグナル伝達をふくむ分子論的研究
造血干细胞信号转导和血管生成等分子研究
  • 批准号:
    01J00388
  • 财政年份:
    2001
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究
网络半结构化文本数据转换规则知识获取系统研究
  • 批准号:
    12780233
  • 财政年份:
    2000
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
JABによるJAK型チロシンキナーゼの制御機構と生理機能の解明
JAB阐明JAK型酪氨酸激酶的调节机制和生理功能
  • 批准号:
    99J02692
  • 财政年份:
    1999
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
例と質問に基づく概念の機械学習
基于示例和问题的概念机器学习
  • 批准号:
    96J00788
  • 财政年份:
    1998
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発
开发成本敏感的纸张元信息提取器和网络物理纸张浏览器
  • 批准号:
    23K25158
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
新開発「RIKEN-LMS」で挑む南極深層アイスコアからの天文情報抽出
使用新开发的“RIKEN-LMS”从南极洲深层冰芯提取天文信息
  • 批准号:
    24H00255
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
多様性・被覆性等を考慮した代表解集合を求める情報抽出機構に関する研究
考虑多样性、覆盖度等因素获取代表性解集的信息提取机制研究
  • 批准号:
    23K11115
  • 财政年份:
    2023
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
進化情報と塩基エディターによる酵素大規模ライブラリーの作製と活性機能情報抽出
使用进化信息和碱基编辑器创建大规模酶库并提取活性功能信息
  • 批准号:
    23KK0269
  • 财政年份:
    2023
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Fund for the Promotion of Joint International Research (Fostering Joint International Research)
人と計算機との対話による情報抽出ノウハウの学習支援システム
通过人与计算机对话进行信息提取技术的学习支持系统
  • 批准号:
    22K18010
  • 财政年份:
    2022
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発
开发成本敏感的纸张元信息提取器和网络物理纸张浏览器
  • 批准号:
    22H03904
  • 财政年份:
    2022
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
情報量規準を用いた核融合プラズマデータの情報抽出とプラズマ物理との相補性
利用信息准则和等离子体物理学的互补性对聚变等离子体数据进行信息提取
  • 批准号:
    22K03582
  • 财政年份:
    2022
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
新たな医療知識の獲得に向けた医学系論文の文脈構造の解析と情報抽出への応用
医学论文上下文结构分析及其在信息提取中获取新医学知识的应用
  • 批准号:
    21K17815
  • 财政年份:
    2021
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
情報抽出イメージングによる繊毛輸送メカニズムの理解
通过信息提取成像了解睫状体运输机制
  • 批准号:
    21K06163
  • 财政年份:
    2021
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
観測点1点だけからの地震波動伝播の情報抽出:地震動即時予測の高度化に向けて
仅从一个观测点提取地震波传播信息:迈向实时地震运动预测的进步
  • 批准号:
    21K03689
  • 财政年份:
    2021
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了