半構造テキストデータの一般構造を推論する高度情報抽出アルゴリズムの構築
构建推断半结构化文本数据一般结构的高级信息提取算法
基本信息
- 批准号:15700136
- 负责人:
- 金额:$ 2.18万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2003
- 资助国家:日本
- 起止时间:2003 至 2004
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
XMLを中心とする半構造データの登場により,情報抽出は次の新しい局面を迎えている.本研究の目的は,半構造データからの情報抽出問題を木構造へ一般化し,複雑な抽出を効率的に行うための枠組みを提案することである.これまでの枠組みでは半構造データからデータの場所を推論してテキストのみを取り出していた.これに対して本研究では『構造化テキスト』すなわち半構造データの部分木に相当する部分を学習によって抽出する.学習アルゴリズムの目標は与えられたデータから一般構造を取り出してラッパー(抽出規則)を構築することであり,抽出アルゴリズムはラッパーと未知のデータをマッチングさせて適切なデータを取り出す.これらのアルゴリズムを実現するために研究計画として以下の3つの課題を設けているが,最終年度はそのうち3.について成果をあげた.1.多様な論理構造を持つデータを表現できる木構造ラッパーを定式化する.一般の文字列は変数や関数記号を導入することでより一般的な表現になる.この考えを応用して正規表現の概念を木構造へ導入する.2.半構造データを一般化する手続きを確立し,木構造ラッパーを学習するアルゴリズムを構築する.この枠組みでは複数の木構造を同時に一般化するため,ダイナミックプログラミングを応用してメモリーを圧迫しない学習アルゴリズムの実現を目指す.3.高速な抽出アルゴリズムを実装し,実験によって有効性を示す.素朴な手法によって抽出アルゴリズムを実装する場合,未知のデータを一度構文解析する必要があり,このままでは高速化は難しい.そこで従来の文字列照合問題を木構造データのマッチングへ拡張し,構文解析を必要としない手法を確立する.本研究における一般化によって,データの構造を学習し複雑な抽出を行うことができる.
The XML center has created a new situation to meet the needs of the market. The purpose of this study is to create a general structure for the extraction of problems, and to make a copy of the accuracy rate of the system. In the system, we need to make a comparison between the two parts of the system. In this study, the structure of this study is due to the fact that some of the wood parts are quite different from each other in this study. In general, you need to know how to extract the data (extraction rule). Do not know how to extract the data from the computer.
项目成果
期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Hiroshi Sakamoto, Kouichi Hirata, Hiroki Arimura: "Learning Elementary Formal Systems with Queries"Theoretical Computer Science. 298. 21-50 (2003)
Hiroshi Sakamoto、Kouichi Hirata、Hiroki Arimura:“通过查询学习基本形式系统”理论计算机科学。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
A simple extension of queriable compression for XML data
- DOI:10.1109/amt.2005.1505276
- 发表时间:2005-05
- 期刊:
- 影响因子:0
- 作者:T. Maita;H. Sakamoto
- 通讯作者:T. Maita;H. Sakamoto
Hiroshi Sakamoto: "最適データ圧縮のための省スペースな近似アルゴリズム"情報技術レターズ(情報科学技術フォーラム講演論文集). 29-30 (2003)
Hiroshi Sakamoto:“最佳数据压缩的节省空间近似算法”信息技术快报(信息科学与技术论坛论文集)29-30(2003)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
A Space-Saving Linear-Time Algorithm for Grammar-Based Compression
一种基于语法的压缩的节省空间的线性时间算法
- DOI:
- 发表时间:2004
- 期刊:
- 影响因子:0
- 作者:H.Sakarnoto;T.Kida;S.Shimozono
- 通讯作者:S.Shimozono
Efficient Substructure Discovery from Large Semi-Structured Data
- DOI:10.1137/1.9781611972726.10
- 发表时间:2001-10
- 期刊:
- 影响因子:0
- 作者:Tatsuya Asai;K. Abe;Shinji Kawasoe;H. Sakamoto;Hiroki Arimura;S. Arikawa
- 通讯作者:Tatsuya Asai;K. Abe;Shinji Kawasoe;H. Sakamoto;Hiroki Arimura;S. Arikawa
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
坂本 比呂志其他文献
In vivo and in vitro constant expression of GATA-4 in mouse postnata Sertoli cells.
小鼠产后支持细胞中 GATA-4 的体内和体外恒定表达。
- DOI:
- 发表时间:
2004 - 期刊:
- 影响因子:0
- 作者:
Hashi;Y.et al.;谷口英樹;Kanatsu-Shinohara M.et al.;坂本 比呂志;Kanatsu-Shinohara M.et al.;谷口英樹;戴 国友;Kanatsu-Shinohara M.et al.;Imai T.et al. - 通讯作者:
Imai T.et al.
血管内皮細胞の形態制御に関与する転写因子Foxo1の標的因子の探索
寻找转录因子Foxo1参与血管内皮细胞形态调控的靶因子
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
田村-辻 潔美;坂本 比呂志;小川 峰太郎 - 通讯作者:
小川 峰太郎
Hemogenic and non-hemogenic endothelium can be distinguished by the activity of fetal liver kinase (FlK)-l promoter/enhancer during mouse embryogenesis.
造血内皮和非造血内皮可以通过小鼠胚胎发生期间胎儿肝激酶(FlK)-1启动子/增强子的活性来区分。
- DOI:
- 发表时间:
2003 - 期刊:
- 影响因子:0
- 作者:
Hashi;Y.et al.;谷口英樹;Kanatsu-Shinohara M.et al.;坂本 比呂志;Kanatsu-Shinohara M.et al.;谷口英樹;戴 国友;Kanatsu-Shinohara M.et al.;Imai T.et al.;中島 光業;谷口英樹;久恒 洋;谷口英樹;Furuyama T.et al.;坂本 比呂志;谷口英樹;Iseki M.et al.;坂本比呂志;Nakayama N.et al.;谷口英樹;平位 秀世 - 通讯作者:
平位 秀世
造血発生の発生分化におけるc-Myb発現レベルの意義
c-Myb表达水平在造血发育分化中的意义
- DOI:
- 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
坂本比呂志;小川峰太郎;坂本 比呂志 - 通讯作者:
坂本 比呂志
坂本 比呂志的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('坂本 比呂志', 18)}}的其他基金
Compressed learning: theory and application of data compression technique that allows direct learning from optimally encoded data
压缩学习:数据压缩技术的理论和应用,允许从最佳编码数据中直接学习
- 批准号:
23K11233 - 财政年份:2023
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
c-Myb reporterマウスを用いた造血幹細胞のシングルセル解析
使用 c-Myb 报告小鼠对造血干细胞进行单细胞分析
- 批准号:
16K09830 - 财政年份:2016
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築
从半结构化数据构建信息提取算法,该算法对数据更新具有鲁棒性和快速性
- 批准号:
18700154 - 财政年份:2006
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
成体型造血の多分化能獲得のための血管内皮細胞の機能解析
血管内皮细胞在成人造血中获得多能性的功能分析
- 批准号:
17790652 - 财政年份:2005
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
超高速データストリームのためのオンライン型半構造情報変換システムの開発
超高速数据流在线半结构化信息转换系统开发
- 批准号:
16650021 - 财政年份:2004
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Exploratory Research
ES細胞の試験管内発生モデルを用いた造血幹細胞の多分化能獲得機構の研究
利用ES细胞体外发育模型研究造血干细胞获得多能性的机制
- 批准号:
15790495 - 财政年份:2003
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
造血幹細胞・血管新生のシグナル伝達をふくむ分子論的研究
造血干细胞信号转导和血管生成等分子研究
- 批准号:
01J00388 - 财政年份:2001
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for JSPS Fellows
ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究
网络半结构化文本数据转换规则知识获取系统研究
- 批准号:
12780233 - 财政年份:2000
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
JABによるJAK型チロシンキナーゼの制御機構と生理機能の解明
JAB阐明JAK型酪氨酸激酶的调节机制和生理功能
- 批准号:
99J02692 - 财政年份:1999
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
新開発「RIKEN-LMS」で挑む南極深層アイスコアからの天文情報抽出
使用新开发的“RIKEN-LMS”从南极洲深层冰芯提取天文信息
- 批准号:
24H00255 - 财政年份:2024
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発
开发成本敏感的纸张元信息提取器和网络物理纸张浏览器
- 批准号:
23K25158 - 财政年份:2024
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
SIEPH: Safe Information Extraction from Patient Histories
SIEPH:从患者病史中安全提取信息
- 批准号:
EP/X018237/1 - 财政年份:2023
- 资助金额:
$ 2.18万 - 项目类别:
Research Grant
多様性・被覆性等を考慮した代表解集合を求める情報抽出機構に関する研究
考虑多样性、覆盖度等因素获取代表性解集的信息提取机制研究
- 批准号:
23K11115 - 财政年份:2023
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
進化情報と塩基エディターによる酵素大規模ライブラリーの作製と活性機能情報抽出
使用进化信息和碱基编辑器创建大规模酶库并提取活性功能信息
- 批准号:
23KK0269 - 财政年份:2023
- 资助金额:
$ 2.18万 - 项目类别:
Fund for the Promotion of Joint International Research (Fostering Joint International Research)
CAREER: Achieving Quality Information Extraction from Scientific Documents with Heterogeneous Weak Supervisions
职业:通过异构弱监督实现科学文档中的质量信息提取
- 批准号:
2237831 - 财政年份:2023
- 资助金额:
$ 2.18万 - 项目类别:
Standard Grant
Speaking Webspeak: Maximising Information Extraction From Online Language Use, for Better Interpretation and Responses in Creative Systems
说网络语言:最大限度地从在线语言使用中提取信息,以更好地解释和响应创意系统
- 批准号:
2872640 - 财政年份:2023
- 资助金额:
$ 2.18万 - 项目类别:
Studentship
Information extraction accumulating graph-formed knowledge with deep learning
通过深度学习积累图形化知识的信息提取
- 批准号:
22KJ2983 - 财政年份:2023
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for JSPS Fellows
人と計算機との対話による情報抽出ノウハウの学習支援システム
通过人与计算机对话进行信息提取技术的学习支持系统
- 批准号:
22K18010 - 财政年份:2022
- 资助金额:
$ 2.18万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
CAREER: Information Extraction and Integration with Applications to Healthcare Question Answering
职业:信息提取和与医疗保健问答应用程序的集成
- 批准号:
2145202 - 财政年份:2022
- 资助金额:
$ 2.18万 - 项目类别:
Continuing Grant