データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築

从半结构化数据构建信息提取算法,该算法对数据更新具有鲁棒性和快速性

基本信息

  • 批准号:
    18700154
  • 负责人:
  • 金额:
    $ 1.79万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2006
  • 资助国家:
    日本
  • 起止时间:
    2006 至 2007
  • 项目状态:
    已结题

项目摘要

本研究の目的は、ウェブページやXMLデータが無制限にネットワーク上を流れる大規模半構造データストリームから,有用な情報を効率よく獲得するオンライン型半構造情報抽出アルゴリズムの開発を行うことである.特に,本研究では,申請者らのこれまでの先行研究によってもたらされた,機械学習による情報抽出,パターン発見アルゴリズム,データ圧縮等の技術を援用することで,動的に変化する大規模半構造データに対して,限定された計算機資源のもとで高速かつ頑健なデータ抽出処理を実現するアルゴリズムの構築を目指す.従来の機械学習による情報抽出の枠組みでは,アルゴリズムは与えられたデータから一般構造を発見して,ラッパー(抽出規則)を構築する.また,抽出アルゴリズムがラッパーと未知のデータをマッチングさせて適切なデータを取り出す.この方法では,データがHTMLのように単純な根付き木(Rooted Tree)で表現できる場合には,それほど多くの訓練例を必要とせず,また抽出規則も簡単な場合が多く,学習が容易である.しかしながら,この方法では,訓練例が動的に変化する場合には学習をもう一度最初からやり直さなければならず,また,XMLデータのように,より複雑なデータ構造(DAG:Directed Acyclic Graph)が対象となると,学習そのものが困難となる.今年度は,前年度までに得られた基本的なアルゴリズムをより大規模なデータに対して実現し,その性能を他のアルゴリズムと比較を行った.その結果,本研究のアルゴリズムは,多種法よりも数十から数百倍の高速化を達成した.この成果によって,本研究は第18回データ工学ワークショップにおいて優秀論文賞を受賞した.
In this study, the purpose of this study is to improve the accuracy of the system. In this study, the purpose of this study is to establish a large-scale model for the purpose of this study. in this study, the purpose and the purpose of this study is to establish a large-scale model for the purpose of this study. in this study, the purpose and the purpose of this study is to establish a large-scale model for the purpose of this study. in this study, the purpose and the purpose of this study is to establish a large-scale model for the purpose of this study. In this study, the applicant was invited to study the situation in the first place, the mechanical science was drawn out, and the technology was used in this study. in this study, the applicant was invited to study the situation in the first place, the mechanical science was drawn out, and the technology was used in this study. in this study, the applicant and the applicant were involved in the study. Limit the availability of computer resources to high-speed health care systems to manage the target number of health care stations. In recent years, mechanical mechanics has been used to extract the information of the group, the information and the information in general, and the rules (rules for extraction). Don't know what to do. Don't know what to do. If you want to know how to use the method, you can learn that it is easy to learn that it is easy to learn that it is necessary to use the method, HTML, and Rooted Tree to show that it is necessary to do so. In the first place, it was necessary to make a copy of the computer system (DAG:Directed Acyclic Graph). In the first place, it was necessary to make a copy of the system (DAG:Directed Acyclic Graph). In the first place, it was necessary to make a copy of the system. This year, in the previous year, the performance of the previous year is better than that of the previous year, and the performance of this year is better than that of the previous year. The results of this study show that the results of this study show that the speed of multi-method is tens of times higher than that of hundreds of times. The results show that the 18th chapter of this study is related to engineering and engineering.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
有向グラフ上の到達可能性判定のための索引構造と大規模XMLデータへの応用
有向图可达性判断的索引结构及其在大规模XML数据中的应用
参照構造を持つXML上の高速な到達可能性判定
使用参考结构快速确定 XML 的可达性
有向グラフ上の最短距離の効率的な計算
有向图上最短距离的高效计算
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    原口新平;他2名
  • 通讯作者:
    他2名
DAG上の2HOPラベリングの効率的なメンテナンス,第66回SIG-FPAI研究会
DAG 上 2HOP 标记的高效维护,第 66 届 SIG-FPAI 研究组
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    原口新平;中村有作;坂本比呂志
  • 通讯作者:
    坂本比呂志
Improving Time and Space Complexity for Compressed Pattern Matching
提高压缩模式匹配的时间和空间复杂度
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

坂本 比呂志其他文献

In vivo and in vitro constant expression of GATA-4 in mouse postnata Sertoli cells.
小鼠产后支持细胞中 GATA-4 的体内和体外恒定表达。
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hashi;Y.et al.;谷口英樹;Kanatsu-Shinohara M.et al.;坂本 比呂志;Kanatsu-Shinohara M.et al.;谷口英樹;戴 国友;Kanatsu-Shinohara M.et al.;Imai T.et al.
  • 通讯作者:
    Imai T.et al.
非可逆圧縮データからの高速な画像生成
从有损压缩数据快速生成图像
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    管谷 克彦;高畠 嘉将;井 智弘;申 吉浩;坂本 比呂志
  • 通讯作者:
    坂本 比呂志
血管内皮細胞の形態制御に関与する転写因子Foxo1の標的因子の探索
寻找转录因子Foxo1参与血管内皮细胞形态调控的靶因子
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田村-辻 潔美;坂本 比呂志;小川 峰太郎
  • 通讯作者:
    小川 峰太郎
造血発生の発生分化におけるc-Myb発現レベルの意義
c-Myb表达水平在造血发育分化中的意义
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    坂本比呂志;小川峰太郎;坂本 比呂志
  • 通讯作者:
    坂本 比呂志
Hemogenic and non-hemogenic endothelium can be distinguished by the activity of fetal liver kinase (FlK)-l promoter/enhancer during mouse embryogenesis.
造血内皮和非造血内皮可以通过小鼠胚胎发生期间胎儿肝激酶(FlK)-1启动子/增强子的活性来区分。
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hashi;Y.et al.;谷口英樹;Kanatsu-Shinohara M.et al.;坂本 比呂志;Kanatsu-Shinohara M.et al.;谷口英樹;戴 国友;Kanatsu-Shinohara M.et al.;Imai T.et al.;中島 光業;谷口英樹;久恒 洋;谷口英樹;Furuyama T.et al.;坂本 比呂志;谷口英樹;Iseki M.et al.;坂本比呂志;Nakayama N.et al.;谷口英樹;平位 秀世
  • 通讯作者:
    平位 秀世

坂本 比呂志的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('坂本 比呂志', 18)}}的其他基金

Compressed learning: theory and application of data compression technique that allows direct learning from optimally encoded data
压缩学习:数据压缩技术的理论和应用,允许从最佳编码数据中直接学习
  • 批准号:
    23K11233
  • 财政年份:
    2023
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
c-Myb reporterマウスを用いた造血幹細胞のシングルセル解析
使用 c-Myb 报告小鼠对造血干细胞进行单细胞分析
  • 批准号:
    16K09830
  • 财政年份:
    2016
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
成体型造血の多分化能獲得のための血管内皮細胞の機能解析
血管内皮细胞在成人造血中获得多能性的功能分析
  • 批准号:
    17790652
  • 财政年份:
    2005
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
超高速データストリームのためのオンライン型半構造情報変換システムの開発
超高速数据流在线半结构化信息转换系统开发
  • 批准号:
    16650021
  • 财政年份:
    2004
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
ES細胞の試験管内発生モデルを用いた造血幹細胞の多分化能獲得機構の研究
利用ES细胞体外发育模型研究造血干细胞获得多能性的机制
  • 批准号:
    15790495
  • 财政年份:
    2003
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
半構造テキストデータの一般構造を推論する高度情報抽出アルゴリズムの構築
构建推断半结构化文本数据一般结构的高级信息提取算法
  • 批准号:
    15700136
  • 财政年份:
    2003
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
造血幹細胞・血管新生のシグナル伝達をふくむ分子論的研究
造血干细胞信号转导和血管生成等分子研究
  • 批准号:
    01J00388
  • 财政年份:
    2001
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究
网络半结构化文本数据转换规则知识获取系统研究
  • 批准号:
    12780233
  • 财政年份:
    2000
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
JABによるJAK型チロシンキナーゼの制御機構と生理機能の解明
JAB阐明JAK型酪氨酸激酶的调节机制和生理功能
  • 批准号:
    99J02692
  • 财政年份:
    1999
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
例と質問に基づく概念の機械学習
基于示例和问题的概念机器学习
  • 批准号:
    96J00788
  • 财政年份:
    1998
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発
开发成本敏感的纸张元信息提取器和网络物理纸张浏览器
  • 批准号:
    23K25158
  • 财政年份:
    2024
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
新開発「RIKEN-LMS」で挑む南極深層アイスコアからの天文情報抽出
使用新开发的“RIKEN-LMS”从南极洲深层冰芯提取天文信息
  • 批准号:
    24H00255
  • 财政年份:
    2024
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
SIEPH: Safe Information Extraction from Patient Histories
SIEPH:从患者病史中安全提取信息
  • 批准号:
    EP/X018237/1
  • 财政年份:
    2023
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Research Grant
多様性・被覆性等を考慮した代表解集合を求める情報抽出機構に関する研究
考虑多样性、覆盖度等因素获取代表性解集的信息提取机制研究
  • 批准号:
    23K11115
  • 财政年份:
    2023
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
CAREER: Achieving Quality Information Extraction from Scientific Documents with Heterogeneous Weak Supervisions
职业:通过异构弱监督实现科学文档中的质量信息提取
  • 批准号:
    2237831
  • 财政年份:
    2023
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Standard Grant
進化情報と塩基エディターによる酵素大規模ライブラリーの作製と活性機能情報抽出
使用进化信息和碱基编辑器创建大规模酶库并提取活性功能信息
  • 批准号:
    23KK0269
  • 财政年份:
    2023
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Fund for the Promotion of Joint International Research (Fostering Joint International Research)
Speaking Webspeak: Maximising Information Extraction From Online Language Use, for Better Interpretation and Responses in Creative Systems
说网络语言:最大限度地从在线语言使用中提取信息,以更好地解释和响应创意系统
  • 批准号:
    2872640
  • 财政年份:
    2023
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Studentship
Information extraction accumulating graph-formed knowledge with deep learning
通过深度学习积累图形化知识的信息提取
  • 批准号:
    22KJ2983
  • 财政年份:
    2023
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
人と計算機との対話による情報抽出ノウハウの学習支援システム
通过人与计算机对话进行信息提取技术的学习支持系统
  • 批准号:
    22K18010
  • 财政年份:
    2022
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
CAREER: Information Extraction and Integration with Applications to Healthcare Question Answering
职业:信息提取和与医疗保健问答应用程序的集成
  • 批准号:
    2145202
  • 财政年份:
    2022
  • 资助金额:
    $ 1.79万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了