ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究

网络半结构化文本数据转换规则知识获取系统研究

基本信息

  • 批准号:
    12780233
  • 负责人:
  • 金额:
    $ 1.47万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    2000
  • 资助国家:
    日本
  • 起止时间:
    2000 至 2001
  • 项目状态:
    已结题

项目摘要

与えられたHTMLデータから目的のテキストを切り出すプログラムをHTMLラッパーと呼び、そのようなラッパーを機械的に学習する枠組みをラッパー帰納という。本研究ではHTMLデータの木構造に着目し、初年度はツリーラツパーとその学習の枠組みを提案した。ここでの目標はいくつかのテキストに共通してマッチする1本のパスをHTML上に発見することである。このパスを抽出パスと呼び、ツリーラッパーはこのような抽出パスの集まりである。学習アルゴリズムの目標は、与えられたHTMLとテキストからそのテキストだけにマッチするできるだけよい抽出パスを発見することである。このツリーラッパーの枠組みでは学習に非常に時間がかかるということと、あたえられたHTMLデータの構造があらかじめ決まっていなければならないという欠点があった。そこで本年度ではうツパーの概念を拡張し、高速で大規模な実装を行った。ここで新たにパス表現という概念を導入し、学習例に依存しないアルゴリズムを提案した。その結果、大部分のHTMLデータに対してこのアルゴリズムが有効であることを示した。以上のような初年度及び本年度の研究成果は国内外の学会・論文誌において発表済みである。
With え ら れ た HTML デ ー タ か ら purpose の テ キ ス ト を り cutting out す プ ロ グ ラ ム を HTML ラ ッ パ ー と び, そ の よ う な ラ ッ パ ー を mechanical に learning す る 枠 group み を ラ ッ パ ー 帰 na と い う. This study で は HTML デ ー タ の に wooden structure with mesh し, at the beginning of year は ツ リ ー ラ ツ パ ー と そ の learning の 枠 group み を proposal し た. こ こ で の target は い く つ か の テ キ ス ト に common し て マ ッ チ す る this の パ ス を HTML on に 発 see す る こ と で あ る. こ の パ ス を spare パ ス と び, ツ リ ー ラ ッ パ ー は こ の よ う な spare パ ス の set ま り で あ る. Learning ア ル ゴ リ ズ ム の target は, with え ら れ た HTML と テ キ ス ト か ら そ の テ キ ス ト だ け に マ ッ チ す る で き る だ け よ い spare パ ス を 発 see す る こ と で あ る. こ の ツ リ ー ラ ッ パ ー の 枠 group み で は learning に very に time が か か る と い う こ と と, あ た え ら れ た HTML デ ー タ の tectonic が あ ら か じ め definitely ま っ て い な け れ ば な ら な い と い う points less が あ っ た. そ こ で this year で は う ツ パ ー の concept を company, zhang し, high-speed mass な で line be loaded を っ た. こ こ で new た に パ ス performance と い う concept を import し, learning example に dependent し な い ア ル ゴ リ ズ ム を proposal し た. そ の results, most の HTML デ ー タ に し seaborne て こ の ア ル ゴ リ ズ ム が have sharper で あ る こ と を shown し た. The above research achievements of <s:1> ような in the first year and び in the current year are listed in domestic and foreign <s:1> societies, papers and journals にお ような て て and their publication list みである.

项目成果

期刊论文数量(22)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Hiroki Arimura: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)
Hiroki Arimura:“从查询中有效学习半结构化数据”人工智能讲座笔记。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
H.Sakamoto, et al.: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Proc.2000 Kyoto International Conference on Digital Libraries. (IEEEから出版予定).
H. Sakamoto 等人:“文本数据挖掘:网络空间中重要关键字的发现”Proc.2000 京都国际数字图书馆会议(由 IEEE 出版)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
坂本比呂志: "Webマイニング"人工知能学会誌. 16:2. 233-238 (2001)
Hiroshi Sakamoto:“网络挖掘”人工智能学会杂志 16:2 (2001)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
H.Sakamoto,D Ikeda: "Intractability of decision problems for finite-memory automata"Theoretical Computer Science. 231. 297-308 (2000)
H.Sakamoto,D Ikeda:“有限内存自动机决策问题的难处理性”理论计算机科学。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
H.Sakamoto, et al: "Extracting partial structures from HTML documents"Proc.14th International FLAIRS Conference. (AAAIから出版予定).
H.Sakamoto 等人:“从 HTML 文档中提取部分结构”Proc.14th International FLAIRS Conference(由 AAAI 出版)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

坂本 比呂志其他文献

In vivo and in vitro constant expression of GATA-4 in mouse postnata Sertoli cells.
小鼠产后支持细胞中 GATA-4 的体内和体外恒定表达。
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hashi;Y.et al.;谷口英樹;Kanatsu-Shinohara M.et al.;坂本 比呂志;Kanatsu-Shinohara M.et al.;谷口英樹;戴 国友;Kanatsu-Shinohara M.et al.;Imai T.et al.
  • 通讯作者:
    Imai T.et al.
非可逆圧縮データからの高速な画像生成
从有损压缩数据快速生成图像
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    管谷 克彦;高畠 嘉将;井 智弘;申 吉浩;坂本 比呂志
  • 通讯作者:
    坂本 比呂志
血管内皮細胞の形態制御に関与する転写因子Foxo1の標的因子の探索
寻找转录因子Foxo1参与血管内皮细胞形态调控的靶因子
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田村-辻 潔美;坂本 比呂志;小川 峰太郎
  • 通讯作者:
    小川 峰太郎
造血発生の発生分化におけるc-Myb発現レベルの意義
c-Myb表达水平在造血发育分化中的意义
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    坂本比呂志;小川峰太郎;坂本 比呂志
  • 通讯作者:
    坂本 比呂志
Hemogenic and non-hemogenic endothelium can be distinguished by the activity of fetal liver kinase (FlK)-l promoter/enhancer during mouse embryogenesis.
造血内皮和非造血内皮可以通过小鼠胚胎发生期间胎儿肝激酶(FlK)-1启动子/增强子的活性来区分。
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hashi;Y.et al.;谷口英樹;Kanatsu-Shinohara M.et al.;坂本 比呂志;Kanatsu-Shinohara M.et al.;谷口英樹;戴 国友;Kanatsu-Shinohara M.et al.;Imai T.et al.;中島 光業;谷口英樹;久恒 洋;谷口英樹;Furuyama T.et al.;坂本 比呂志;谷口英樹;Iseki M.et al.;坂本比呂志;Nakayama N.et al.;谷口英樹;平位 秀世
  • 通讯作者:
    平位 秀世

坂本 比呂志的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('坂本 比呂志', 18)}}的其他基金

Compressed learning: theory and application of data compression technique that allows direct learning from optimally encoded data
压缩学习:数据压缩技术的理论和应用,允许从最佳编码数据中直接学习
  • 批准号:
    23K11233
  • 财政年份:
    2023
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
c-Myb reporterマウスを用いた造血幹細胞のシングルセル解析
使用 c-Myb 报告小鼠对造血干细胞进行单细胞分析
  • 批准号:
    16K09830
  • 财政年份:
    2016
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築
从半结构化数据构建信息提取算法,该算法对数据更新具有鲁棒性和快速性
  • 批准号:
    18700154
  • 财政年份:
    2006
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
成体型造血の多分化能獲得のための血管内皮細胞の機能解析
血管内皮细胞在成人造血中获得多能性的功能分析
  • 批准号:
    17790652
  • 财政年份:
    2005
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
超高速データストリームのためのオンライン型半構造情報変換システムの開発
超高速数据流在线半结构化信息转换系统开发
  • 批准号:
    16650021
  • 财政年份:
    2004
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
ES細胞の試験管内発生モデルを用いた造血幹細胞の多分化能獲得機構の研究
利用ES细胞体外发育模型研究造血干细胞获得多能性的机制
  • 批准号:
    15790495
  • 财政年份:
    2003
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
半構造テキストデータの一般構造を推論する高度情報抽出アルゴリズムの構築
构建推断半结构化文本数据一般结构的高级信息提取算法
  • 批准号:
    15700136
  • 财政年份:
    2003
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
造血幹細胞・血管新生のシグナル伝達をふくむ分子論的研究
造血干细胞信号转导和血管生成等分子研究
  • 批准号:
    01J00388
  • 财政年份:
    2001
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
JABによるJAK型チロシンキナーゼの制御機構と生理機能の解明
JAB阐明JAK型酪氨酸激酶的调节机制和生理功能
  • 批准号:
    99J02692
  • 财政年份:
    1999
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
例と質問に基づく概念の機械学習
基于示例和问题的概念机器学习
  • 批准号:
    96J00788
  • 财政年份:
    1998
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

眼球運動とウェブマイニングによるコンテンツデザイン評価法の確立と設計指針の導出
利用眼动和网络挖掘建立内容设计评估方法并推导设计指南
  • 批准号:
    21K12563
  • 财政年份:
    2021
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
情報受信者の特徴・反応に基づくSNS上コンテンツに対する質の測定に関する研究
基于信息接收者特征和反应的SNS内容质量测量研究
  • 批准号:
    21K17859
  • 财政年份:
    2021
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Research on modeling of information diffusion on social media based on post groups and user groups
基于帖子群体和用户群体的社交媒体信息传播建模研究
  • 批准号:
    19K20413
  • 财政年份:
    2019
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Building a Practical Cyber Crime Prevention Support System Using AI through Government-Academia Collaboration
通过政学合作,利用人工智能构建实用的网络犯罪预防支持系统
  • 批准号:
    19K14160
  • 财政年份:
    2019
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
ソーシャルメディアにおける将来のトレンドを予測する時系列モデルの開発
开发时间序列模型来预测社交媒体的未来趋势
  • 批准号:
    18K11560
  • 财政年份:
    2018
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of collective memory model with recall effect
具有回忆效应的集体记忆模型的开发
  • 批准号:
    17K12783
  • 财政年份:
    2017
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Identification of privacy risk in an Open Data society
识别开放数据社会中的隐私风险
  • 批准号:
    17H04705
  • 财政年份:
    2017
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Young Scientists (A)
Searching for Information That Can Change People's Opinions and Behaviors
搜索可以改变人们的观点和行为的信息
  • 批准号:
    17K12787
  • 财政年份:
    2017
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Research on the factors of attitude polarization and fragmentation in SNS
SNS态度两极分化和碎片化影响因素研究
  • 批准号:
    16K16157
  • 财政年份:
    2016
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
大規模複雑グラフ上の発火グループ情報活用のための高速高精度アルゴリズムの開発
开发利用大规模复杂图上的发射群信息的高速、高精度算法
  • 批准号:
    15H06828
  • 财政年份:
    2015
  • 资助金额:
    $ 1.47万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了