データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築

从半结构化数据构建信息提取算法,该算法对数据更新具有鲁棒性和快速性

基本信息

  • 批准号:
    18700154
  • 负责人:
  • 金额:
    $ 1.79万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2006
  • 资助国家:
    日本
  • 起止时间:
    2006 至 2007
  • 项目状态:
    已结题

项目摘要

本研究の目的は、ウェブページやXMLデータが無制限にネットワーク上を流れる大規模半構造データストリームから,有用な情報を効率よく獲得するオンライン型半構造情報抽出アルゴリズムの開発を行うことである.特に,本研究では,申請者らのこれまでの先行研究によってもたらされた,機械学習による情報抽出,パターン発見アルゴリズム,データ圧縮等の技術を援用することで,動的に変化する大規模半構造データに対して,限定された計算機資源のもとで高速かつ頑健なデータ抽出処理を実現するアルゴリズムの構築を目指す.従来の機械学習による情報抽出の枠組みでは,アルゴリズムは与えられたデータから一般構造を発見して,ラッパー(抽出規則)を構築する.また,抽出アルゴリズムがラッパーと未知のデータをマッチングさせて適切なデータを取り出す.この方法では,データがHTMLのように単純な根付き木(Rooted Tree)で表現できる場合には,それほど多くの訓練例を必要とせず,また抽出規則も簡単な場合が多く,学習が容易である.しかしながら,この方法では,訓練例が動的に変化する場合には学習をもう一度最初からやり直さなければならず,また,XMLデータのように,より複雑なデータ構造(DAG:Directed Acyclic Graph)が対象となると,学習そのものが困難となる.今年度は,前年度までに得られた基本的なアルゴリズムをより大規模なデータに対して実現し,その性能を他のアルゴリズムと比較を行った.その結果,本研究のアルゴリズムは,多種法よりも数十から数百倍の高速化を達成した.この成果によって,本研究は第18回データ工学ワークショップにおいて優秀論文賞を受賞した.
The purpose of this study is to extract XML data from a large scale semi-structured database without restriction, and to obtain useful information at a high rate. In particular, this study is aimed at the application of technologies such as advanced research, mechanical learning, information extraction, discovery, and data compression to limit computer resources to large scale semi-structured applications. In the past, mechanical learning has been used to extract information from a group of objects. Please select the appropriate file to be retrieved. This method is simple, simple and easy to learn in many situations, such as HTML, Rooted Tree, performance, etc. In this method, training examples are changed from dynamic to dynamic. In this case, it is difficult to learn from dynamic to dynamic. In the first place, it is difficult to learn from dynamic to dynamic. This year, the previous year, we have been able to achieve the basic goal of large-scale development, and we have been able to compare the performance of other projects. As a result, this study has achieved several tens or hundreds of times higher speed by multiple methods. This research is the 18th chapter of the project.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
有向グラフ上の到達可能性判定のための索引構造と大規模XMLデータへの応用
有向图可达性判断的索引结构及其在大规模XML数据中的应用
参照構造を持つXML上の高速な到達可能性判定
使用参考结构快速确定 XML 的可达性
有向グラフ上の最短距離の効率的な計算
有向图上最短距离的高效计算
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    原口新平;他2名
  • 通讯作者:
    他2名
DAG上の2HOPラベリングの効率的なメンテナンス,第66回SIG-FPAI研究会
DAG 上 2HOP 标记的高效维护,第 66 届 SIG-FPAI 研究组
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    原口新平;中村有作;坂本比呂志
  • 通讯作者:
    坂本比呂志
Efficient Reachability Test on Directed Graphs and Its Application to Large XML Data
有向图的高效可达性测试及其在大XML数据中的应用
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

坂本 比呂志其他文献

In vivo and in vitro constant expression of GATA-4 in mouse postnata Sertoli cells.
小鼠产后支持细胞中 GATA-4 的体内和体外恒定表达。
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hashi;Y.et al.;谷口英樹;Kanatsu-Shinohara M.et al.;坂本 比呂志;Kanatsu-Shinohara M.et al.;谷口英樹;戴 国友;Kanatsu-Shinohara M.et al.;Imai T.et al.
  • 通讯作者:
    Imai T.et al.
非可逆圧縮データからの高速な画像生成
从有损压缩数据快速生成图像
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    管谷 克彦;高畠 嘉将;井 智弘;申 吉浩;坂本 比呂志
  • 通讯作者:
    坂本 比呂志
血管内皮細胞の形態制御に関与する転写因子Foxo1の標的因子の探索
寻找转录因子Foxo1参与血管内皮细胞形态调控的靶因子
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田村-辻 潔美;坂本 比呂志;小川 峰太郎
  • 通讯作者:
    小川 峰太郎
Hemogenic and non-hemogenic endothelium can be distinguished by the activity of fetal liver kinase (FlK)-l promoter/enhancer during mouse embryogenesis.
造血内皮和非造血内皮可以通过小鼠胚胎发生期间胎儿肝激酶(FlK)-1启动子/增强子的活性来区分。
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hashi;Y.et al.;谷口英樹;Kanatsu-Shinohara M.et al.;坂本 比呂志;Kanatsu-Shinohara M.et al.;谷口英樹;戴 国友;Kanatsu-Shinohara M.et al.;Imai T.et al.;中島 光業;谷口英樹;久恒 洋;谷口英樹;Furuyama T.et al.;坂本 比呂志;谷口英樹;Iseki M.et al.;坂本比呂志;Nakayama N.et al.;谷口英樹;平位 秀世
  • 通讯作者:
    平位 秀世
造血発生の発生分化におけるc-Myb発現レベルの意義
c-Myb表达水平在造血发育分化中的意义
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    坂本比呂志;小川峰太郎;坂本 比呂志
  • 通讯作者:
    坂本 比呂志

坂本 比呂志的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('坂本 比呂志', 18)}}的其他基金

Compressed learning: theory and application of data compression technique that allows direct learning from optimally encoded data
压缩学习:数据压缩技术的理论和应用,允许从最佳编码数据中直接学习
  • 批准号:
    23K11233
  • 财政年份:
    2023
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
c-Myb reporterマウスを用いた造血幹細胞のシングルセル解析
使用 c-Myb 报告小鼠对造血干细胞进行单细胞分析
  • 批准号:
    16K09830
  • 财政年份:
    2016
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
成体型造血の多分化能獲得のための血管内皮細胞の機能解析
血管内皮细胞在成人造血中获得多能性的功能分析
  • 批准号:
    17790652
  • 财政年份:
    2005
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
超高速データストリームのためのオンライン型半構造情報変換システムの開発
超高速数据流在线半结构化信息转换系统开发
  • 批准号:
    16650021
  • 财政年份:
    2004
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
ES細胞の試験管内発生モデルを用いた造血幹細胞の多分化能獲得機構の研究
利用ES细胞体外发育模型研究造血干细胞获得多能性的机制
  • 批准号:
    15790495
  • 财政年份:
    2003
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
半構造テキストデータの一般構造を推論する高度情報抽出アルゴリズムの構築
构建推断半结构化文本数据一般结构的高级信息提取算法
  • 批准号:
    15700136
  • 财政年份:
    2003
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
造血幹細胞・血管新生のシグナル伝達をふくむ分子論的研究
造血干细胞信号转导和血管生成等分子研究
  • 批准号:
    01J00388
  • 财政年份:
    2001
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究
网络半结构化文本数据转换规则知识获取系统研究
  • 批准号:
    12780233
  • 财政年份:
    2000
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
JABによるJAK型チロシンキナーゼの制御機構と生理機能の解明
JAB阐明JAK型酪氨酸激酶的调节机制和生理功能
  • 批准号:
    99J02692
  • 财政年份:
    1999
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
例と質問に基づく概念の機械学習
基于示例和问题的概念机器学习
  • 批准号:
    96J00788
  • 财政年份:
    1998
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

新開発「RIKEN-LMS」で挑む南極深層アイスコアからの天文情報抽出
使用新开发的“RIKEN-LMS”从南极洲深层冰芯提取天文信息
  • 批准号:
    24H00255
  • 财政年份:
    2024
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発
开发成本敏感的纸张元信息提取器和网络物理纸张浏览器
  • 批准号:
    23K25158
  • 财政年份:
    2024
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
多様性・被覆性等を考慮した代表解集合を求める情報抽出機構に関する研究
考虑多样性、覆盖度等因素获取代表性解集的信息提取机制研究
  • 批准号:
    23K11115
  • 财政年份:
    2023
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
進化情報と塩基エディターによる酵素大規模ライブラリーの作製と活性機能情報抽出
使用进化信息和碱基编辑器创建大规模酶库并提取活性功能信息
  • 批准号:
    23KK0269
  • 财政年份:
    2023
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Fund for the Promotion of Joint International Research (Fostering Joint International Research)
人と計算機との対話による情報抽出ノウハウの学習支援システム
通过人与计算机对话进行信息提取技术的学习支持系统
  • 批准号:
    22K18010
  • 财政年份:
    2022
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発
开发成本敏感的纸张元信息提取器和网络物理纸张浏览器
  • 批准号:
    22H03904
  • 财政年份:
    2022
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
情報量規準を用いた核融合プラズマデータの情報抽出とプラズマ物理との相補性
利用信息准则和等离子体物理学的互补性对聚变等离子体数据进行信息提取
  • 批准号:
    22K03582
  • 财政年份:
    2022
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
情報抽出イメージングによる繊毛輸送メカニズムの理解
通过信息提取成像了解睫状体运输机制
  • 批准号:
    21K06163
  • 财政年份:
    2021
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
新たな医療知識の獲得に向けた医学系論文の文脈構造の解析と情報抽出への応用
医学论文上下文结构分析及其在信息提取中获取新医学知识的应用
  • 批准号:
    21K17815
  • 财政年份:
    2021
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
観測点1点だけからの地震波動伝播の情報抽出:地震動即時予測の高度化に向けて
仅从一个观测点提取地震波传播信息:迈向实时地震运动预测的进步
  • 批准号:
    21K03689
  • 财政年份:
    2021
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了