半構造データからのスキーマ情報抽出アルゴリズムの開発

半结构化数据模式信息提取算法的开发

基本信息

  • 批准号:
    12780317
  • 负责人:
  • 金额:
    $ 1.54万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    2000
  • 资助国家:
    日本
  • 起止时间:
    2000 至 2001
  • 项目状态:
    已结题

项目摘要

本研究では,半構造データから「各クラスの密度が与えられた閾値以上,かつ,クラス数が最小である」という条件を満たすデータベーススキーマ(以下,スキーマ)を抽出する最適化問題について考察している.ここで,クラス密度とはクラスの型とそれに属する各オブジェクトの型の類似度を表す尺度であり,クラス密度が大きいほどその類似度が高いことを表す.本年度の主な研究実績は以下の通りである.1.スキーマ抽出問題の計算量申請者らは,これまでに上記最適化問題が強NP困難であることを示している.本年度は,同最適化問題に関して,「各抽出クラスの型が最適である(型を表す属性系列が最短である)」という条件を加えた場合の計算量について考察した.そして,この場合,同問題が強NP困難でありかつΔ_2Pに属することを示した.2.スキーマ抽出アルゴリズムの改良上記の結果から,厳密な最適解(スキーマ)を効率良く抽出することは困難である.そこで,昨年度,申請者らは根付クラス(rooted class)というクラスを提案し,それを用いてスキーマを効率良く抽出する多項式時間アルゴリズムを構成した.本年度は,この根付クラスをより一般的な構造をもつクラス(bounded class)に拡張することにより,よりサイズ(クラス数)の小さいスキーマが抽出できるようにアルゴリズムの改良を行った.具体的には,根付クラスは「そのクラスに属するどの基本クラスも,一つのクラス(そのクラスの根)の下位クラスである」という制限をもつが,今回拡張されたクラスではそのような根に相当するクラスを複数もつことが許されている.そのような拡張を行った場合でも,スキーマ抽出アルゴリズムが多項式時間で実行時間可能であることを示した.
This study で は, half structure デ ー タ か ら "each ク ラ ス の density が え ら れ た threshold numerical above, か つ, ク ラ ス minimum number が で あ る" と い を う conditions against た す デ ー タ ベ ー ス ス キ ー マ (below, ス キ ー マ) を spare す る optimization problem に つ い て investigation し て い る. こ こ で, ク ラ ス density と は ク ラ ス の type と そ れ に genus す る each Type オ ブ ジ ェ ク ト の の similar degrees を table で す scale あ り, ク ラ ス density が big き い ほ ど そ の similar degree high が い こ と す を table. This year の main な research be performance under は の tong り で あ る. 1. ス キ ー マ extraction problem の computation applicants ら は, こ れ ま で に written optimization problem が strongly np-hard で あ る こ と を shown し て い る. は this year, with the problem of optimization に masato し て, "each spare ク ラ ス の type が optimum で あ る type (を table series が shortest で す attribute あ る)" と い う condition を え た occasions の computation に つ い て investigation し た. そ し て, こ の occasions, with strong problem が np-hard で あ り か つ Δ _2P に genus す る こ と を shown し た. 2. ス キ ー マ spare ア ル Modified written ゴ リ ズ ム の の results か ら, 厳 dense な optimal solution (ス キ ー マ) を sharper rate good く spare す る こ と は difficult で あ る. そ こ で, last year, the applicant ら は root pay ク ラ ス (rooted Class) と い う ク ラ ス を proposal し, そ れ を with い て ス キ ー マ を sharper rate good く spare す る polynomial time ア ル ゴ リ ズ ム を constitute し た. This year は こ の root pay ク ラ ス を よ り general な tectonic を も つ ク ラ ス (bounded class) に company, zhang す る こ と に よ り, よ り サ イ ズ (ク ラ ス) の small さ い ス キ ー マ が spare で き る よ う に ア ル ゴ リ ズ ム の improved line を っ た. Specific に は, root pay ク ラ ス は "そ の ク ラ ス に genus す る ど の basic ク ラ ス も, a つ の ク ラ ス (そ の ク ラ ス の root) の lower ク ラ ス で あ る" と い limitations う を も つ が, today back to the company, zhang さ れ た ク ラ ス で は そ の よ う な root に quite す る ク ラ ス を plural も つ こ と が xu さ れ て い る. そ の よ う な line company, zhang を っ た occasion The で で,スキ で, and スキ extract the ア, ゴリズムが, and ゴリズムが polynomial time. The で running time may である, とを, and とを show the た.

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Nobutaka Suzuki: "Complexity and a Method of Extracting a Database Schema over Semistructured Documents"IEICE Transactions on Information and Systems. (採録決定). (2002)
Nobutaka Suzuki:“半结构化文档的复杂性和提取数据库模式的方法”IEICE Transactions on Information and Systems(已接受)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Nobutaka Suzuki: "On Extracting a Database Schema from Semistructured Documents"Proceedings of the 5th World Multi-Conference on Systemics, Cybernetics and Informatics (SCI2001). IXV. 220-225 (2001)
Nobutaka Suzuki:“论从半结构化文档中提取数据库模式”第五届系统学、控制论和信息学世界多方会议论文集(SCI2001)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Nobutaka Suzuki: "Complexity of Extracting Database Schema from Semistructured Documents"Technical Report of IEICE (COMP). 100・705. 89-96 (2001)
Nobutaka Suzuki:“从半结构化文档中提取数据库模式的复杂性”IEICE 100・705 (2001) 的技术报告。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Nobutaka Suzuki: "On Extracting a Database Schema from Semistructured Documents(採録決定)"Proceedings of the 5th World Multi-Conference on Systemics, Cybernetics and Informatics. (2001)
Nobutaka Suzuki:“从半结构化文档中提取数据库模式(已接受)”第五届系统学、控制论和信息学世界多方会议论文集(2001 年)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

鈴木 伸崇其他文献

鈴木 伸崇的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('鈴木 伸崇', 18)}}的其他基金

安定マッチングの拡張およびクラウドソーシングのタスク割り当て問題への適用
扩展稳定匹配并将其应用于众包任务分配问题
  • 批准号:
    24K14960
  • 财政年份:
    2024
  • 资助金额:
    $ 1.54万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
グラフデータにおける問合せ式充足可能性問題の計算複雑さおよび判定アルゴリズム
图数据查询可满足性问题的计算复杂度与决策算法
  • 批准号:
    21K11900
  • 财政年份:
    2021
  • 资助金额:
    $ 1.54万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
XMLデータと正規木文法との間のK最適編集操作列を求めるアルゴリズムの開発
开发一种算法来查找 XML 数据和常规树语法之间的 K 最优编辑操作
  • 批准号:
    18700019
  • 财政年份:
    2006
  • 资助金额:
    $ 1.54万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
半構造XMLデータからのスキーマ抽出及び変換アルゴリズムの開発
开发半结构化 XML 数据的模式提取和转换算法
  • 批准号:
    14780330
  • 财政年份:
    2002
  • 资助金额:
    $ 1.54万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了