超高速データストリームのためのオンライン型半構造情報変換システムの開発

超高速数据流在线半结构化信息转换系统开发

基本信息

项目摘要

本研究では,半構造データに対する高速なXPath処理法を提案した.これまでに,データを効率的に圧縮する手法として知られている算術符号化を半構造データの検索に応用した,逆算術符号化が提案されている.これは,木構造データ上のパスの依存関係を,データを圧縮したまま復号化することなく検査できる手法であり,この関係性を利用することで,パスによる問い合わせを高速に処理できる.しかしながら,この問い合わせで利用可能なパスの形式は限定されているため,一般のXPathの問い合わせは処理が困難である.そこで本研究では,このような逆算術符号化にノード間の先祖子孫関係を判定可能な範囲ラベルを導入することにより,より複雑な問い合わせ処理を高速に実現するための手法を提案する.評価実験の結果,300MB程度のXMLデータに対してテキストを直接処理する既存の手法と比較し,数十から百倍の高速化を達成した.また,本研究では,畳み込みカーネルのアイディアに基づいた,ラベル付き順序木に対するこれまでにない新しいカーネル関数を提案した.まず,畳み込みカーネルの枠組みにおいてラベル付き順序木に対して任意の部分グラフを部分構造として用いた場合の,効率の良いカーネル計算のアルゴリズムを提案し,曖昧なラベルや構造を取り込むような拡張を行った.さらに,より一般的な木構造として,順序のないラベル付き根付き木に対するカーネルを考えた場合には,カーネルの計算が#P-完全問題であることを示した.
在这项研究中,我们提出了一种用于半结构数据的高速XPATH处理方法。已经提出了一种用于有效压缩数据的方法的逆算术编码,该方法应用了算术编码,以搜索半结构化数据。这是一种允许路径对树结构化数据的依赖性,而无需在压缩时解码数据,并且通过使用这种关系,可以高速处理路径的查询。但是,由于此查询可用的路径的格式有限,因此很难处理一般的Xpath查询。因此,在这项研究中,通过引入可以确定这种反算术编码中节点之间祖先关系的范围标签,可以高速进行更复杂的查询。我们提出了一种使之成为可能的方法。作为评估实验的结果,我们的速度比直接处理300MB XML数据的文本的现有方法快几十至百倍。此外,在这项研究中,我们根据卷积核的概念提出了一个前所未有的新内核功能,用于标记的订单树。首先,当将任意子图用作卷积内核框架中标记的订单树的部分结构时,我们提出了有效的内核计算算法,并已扩展以结合模棱两可的标签和结构。此外,我们表明,当考虑标记的生根树作为更通用的树结构的内核时,内核计算是一个#P-Complete问题。

项目成果

期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
WWWからの情報抽出-ウェブラッパーの自動構築-
从 WWW 中提取信息 - 自动构建 Web 包装器 -
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    有村博紀;坂本比呂志他2名
  • 通讯作者:
    坂本比呂志他2名
A Space-Saving Linear-Time Algorithm for Grammar-Based Compression
一种基于语法的压缩的节省空间的线性时间算法
Efficient Substructure Discovery from Large Semi-Structured Data
  • DOI:
    10.1137/1.9781611972726.10
  • 发表时间:
    2001-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tatsuya Asai;K. Abe;Shinji Kawasoe;H. Sakamoto;Hiroki Arimura;S. Arikawa
  • 通讯作者:
    Tatsuya Asai;K. Abe;Shinji Kawasoe;H. Sakamoto;Hiroki Arimura;S. Arikawa
A Fully Linear-Time Approximation Algorithm for Grammar-Based Compression
基于语法的压缩的完全线性时间近似算法
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鹿島 久嗣;他2名;Shunsuke Inenaga 他1名;Takuya Kida;石野 明(他1名);大谷 壽一(他3名);Hiroshi Sakamoto
  • 通讯作者:
    Hiroshi Sakamoto
算術符号化を利用したXMLデータへの高速な問い合わせ処理の改良
使用算术编码改进 XML 数据的高速查询处理
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

坂本 比呂志其他文献

In vivo and in vitro constant expression of GATA-4 in mouse postnata Sertoli cells.
小鼠产后支持细胞中 GATA-4 的体内和体外恒定表达。
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hashi;Y.et al.;谷口英樹;Kanatsu-Shinohara M.et al.;坂本 比呂志;Kanatsu-Shinohara M.et al.;谷口英樹;戴 国友;Kanatsu-Shinohara M.et al.;Imai T.et al.
  • 通讯作者:
    Imai T.et al.
血管内皮細胞の形態制御に関与する転写因子Foxo1の標的因子の探索
寻找转录因子Foxo1参与血管内皮细胞形态调控的靶因子
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田村-辻 潔美;坂本 比呂志;小川 峰太郎
  • 通讯作者:
    小川 峰太郎
非可逆圧縮データからの高速な画像生成
从有损压缩数据快速生成图像
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    管谷 克彦;高畠 嘉将;井 智弘;申 吉浩;坂本 比呂志
  • 通讯作者:
    坂本 比呂志
転写因子Foxo1による血管内皮細胞の形態制御メカニズムの解析
转录因子Foxo1对血管内皮细胞形态调控的机制分析
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田村-辻 潔美;坂本 比呂志;小川 峰太郎
  • 通讯作者:
    小川 峰太郎
血管内皮細胞の形態制御に関与する転写因子Foxo1の標的因子の探索
寻找转录因子Foxo1参与血管内皮细胞形态调控的靶因子
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田村-辻 潔美;坂本 比呂志;小川 峰太郎
  • 通讯作者:
    小川 峰太郎

坂本 比呂志的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('坂本 比呂志', 18)}}的其他基金

Compressed learning: theory and application of data compression technique that allows direct learning from optimally encoded data
压缩学习:数据压缩技术的理论和应用,允许从最佳编码数据中直接学习
  • 批准号:
    23K11233
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
c-Myb reporterマウスを用いた造血幹細胞のシングルセル解析
使用 c-Myb 报告小鼠对造血干细胞进行单细胞分析
  • 批准号:
    16K09830
  • 财政年份:
    2016
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
データの更新に対して頑健・高速な半構造データからの情報抽出アルゴリズムの構築
从半结构化数据构建信息提取算法,该算法对数据更新具有鲁棒性和快速性
  • 批准号:
    18700154
  • 财政年份:
    2006
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
成体型造血の多分化能獲得のための血管内皮細胞の機能解析
血管内皮细胞在成人造血中获得多能性的功能分析
  • 批准号:
    17790652
  • 财政年份:
    2005
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
ES細胞の試験管内発生モデルを用いた造血幹細胞の多分化能獲得機構の研究
利用ES细胞体外发育模型研究造血干细胞获得多能性的机制
  • 批准号:
    15790495
  • 财政年份:
    2003
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
半構造テキストデータの一般構造を推論する高度情報抽出アルゴリズムの構築
构建推断半结构化文本数据一般结构的高级信息提取算法
  • 批准号:
    15700136
  • 财政年份:
    2003
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
造血幹細胞・血管新生のシグナル伝達をふくむ分子論的研究
造血干细胞信号转导和血管生成等分子研究
  • 批准号:
    01J00388
  • 财政年份:
    2001
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究
网络半结构化文本数据转换规则知识获取系统研究
  • 批准号:
    12780233
  • 财政年份:
    2000
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
JABによるJAK型チロシンキナーゼの制御機構と生理機能の解明
JAB阐明JAK型酪氨酸激酶的调节机制和生理功能
  • 批准号:
    99J02692
  • 财政年份:
    1999
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
例と質問に基づく概念の機械学習
基于示例和问题的概念机器学习
  • 批准号:
    96J00788
  • 财政年份:
    1998
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

FRR: Semi-Structured, Under-Specified, Partially-Observable Robotic Rearrangement
FRR:半结构化、未指定、部分可观察的机器人重排
  • 批准号:
    2309866
  • 财政年份:
    2023
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Standard Grant
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
  • 批准号:
    RGPIN-2019-04068
  • 财政年份:
    2022
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Discovery Grants Program - Individual
Elucidating patient and healthcare practitioner decision-making about chemotherapy-induced peripheral neuropathy-related treatment changes
阐明患者和医疗保健从业者对化疗引起的周围神经病变相关治疗变化的决策
  • 批准号:
    468581
  • 财政年份:
    2022
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Operating Grants
Understanding why clinical investigators launch early phase clinical trials
了解临床研究人员为何开展早期临床试验
  • 批准号:
    486069
  • 财政年份:
    2022
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Studentship Programs
Understanding Barriers and Facilitators to the Treatment of Sleep-Disordered Breathing in Pregnancy and Postpartum
了解治疗妊娠期和产后睡眠呼吸障碍的障碍和促进因素
  • 批准号:
    468545
  • 财政年份:
    2022
  • 资助金额:
    $ 1.6万
  • 项目类别:
    Operating Grants
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了