リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

结合链接信息和半结构化网络数据的高质量内容挖掘

基本信息

  • 批准号:
    14019069
  • 负责人:
  • 金额:
    $ 2.75万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
  • 财政年份:
    2002
  • 资助国家:
    日本
  • 起止时间:
    2002 至 无数据
  • 项目状态:
    已结题

项目摘要

本研究では,WWW空間の特性である「リンク情報」と半構造性」を融合し活用することにより高品質コンテンツを効率良く収集する方式の開発を目指す.本年度は,具体的な対象として国内大学等で公開されているWebシラバスの収集のための研究を行なった.収集するデータの精度を向上するために,シラバスページの特性を調査した結果,シラバスサイトには,「科目を一覧するリンク集ページ」と「個々の科目を説明するページ」が存在することが判明した.前者をA型,後者をB型と定義した.既に収集している基礎データを基に,決定木と重回帰分析を用いてそれぞれのA型あるいはB型のページの判定方式を開発した.さらに,シラバス・ページに現れる特徴的キーワードと,それらの間のリンク情報の特徴を用いることにより,効率的にシラバス・ページ群を収集するクローラーの方式を考案し,実装した.実験的に収集した8万ページのWEBページ空間に限定し,収集率(Harvest Ration)の観点から,この手法とランダム収集,幅優先収集の比較を行なった.また,昨年考案したNグラム交代数を用いた方式を発展させたラッパー生成方式を開発し,4種類の自然言語(英語,日本語,ドイツ語,中国語),HTML,XMLの2種類のマークアップ言語で記述されている半構造化文書について実験を行ない,非常に高い抽出率を得ることができた.また,従来の研究で取り扱うことができなかったWebデータの意味的な処理として,新たに「同系統単語」を収集する方式を考案した.
This study aims to explore the development of a new approach to the integration and utilization of the characteristics of WWW space, such as "free information" and "semi-structural information." This year, the specific target is to open up to the public the research of Web site collection and collection in domestic universities. The accuracy of the collection is up. The characteristics of the collection are investigated. The results of the investigation are as follows: "List of subjects" and "Description of subjects". The former is type A and the latter is type B. Based on the basic data set, the method of determining the type A and type B is developed. In this paper, the classification of the characteristics of the classification, including the use of occasional information characteristics, the efficiency of the classification of the classification group to collect the classification of the way to consider, complete the installation. The collection of 80,000 pieces of WEB pages is limited in space, the collection rate (Harvest Ration) points, the method and collection, amplitude priority collection comparison. In addition, in the past year, four types of natural language (English, Japanese, German, China),HTML,XML, and two types of semi-structured language descriptions were developed, and the extraction rate was very high. In this paper, the author discusses the ways to integrate the "same system language" into the Web.

项目成果

期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
山田信太郎, 伊東栄典, 廣川佐千男: "Webシラバス情報収集エージェントの試作"電子情報通信学会論文. (採録決定). (2003)
Shintaro Yamada、Einori Ito、Sachio Hirokawa:“Web 教学大纲信息收集代理的原型”IEICE 论文(已接受)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Miyahara, Y.Suzuki, T.Shoudai, T.Uchida, S.Hirokawa, K.Takahashi, H.Ueda: "Extraction of Tag Tree Patterns with Contractible Variables from Irregular Semistructured data"Proc. PAKDD. (採録決定). (2003)
T.Miyahara、Y.Suzuki、T.Shoudai、T.Uchida、S.Hirokawa、K.Takahashi、H.Ueda:“从不规则半结构化数据中提取具有可收缩变量的标签树模式”Proc。 2003)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Nakatoh, Y.Koga, A.Uhl, S.Hirokawa: "Automatic Estimation of Query Syntax for Search Sites"Proc. PYIWIT'02. 329-332 (2002)
T.Nakatoh、Y.Koga、A.Uhl、S.Hirokawa:“搜索站点查询语法的自动估计”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Y.Yamada, D.Ikeda, S.Hirokawa: "Automatic Wrapper Generation for Multilingual Web Resources"Proc. Discovery Science 2002. 332-339 (2002)
Y.Yamada、D.Ikeda、S.Hirokawa:“多语言 Web 资源的自动包装生成”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
山田信太郎, 伊東栄典, 廣川佐千男: "Web上に公開されたシラバス情報の自動収集"DICOMOシンポジウム論文集. 137-140 (2002)
Shintaro Yamada、Einori Ito、Sachio Hirokawa:“自动收集网络上发布的教学大纲信息”DICOMO 研讨会论文集 137-140 (2002)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

廣川 佐千男其他文献

Parallel Reduction in Type Free lambda/mu-Calculus
无类型 lambda/mu 微积分的并行归约
A Feedback System on Institutional Repository
机构知识库反馈系统
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    K. Baba;M. Mori;E. Ito;S. Hirokawa;馬場 謙介;森 雅生;伊東 栄典;廣川 佐千男
  • 通讯作者:
    廣川 佐千男
Trend Report of Search Sites with Complex Search
复杂搜索的搜索网站趋势报告
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大森 敬介;K. Ohmori;中藤 哲也;Yasuhiro Nakatoh;山田 泰寛;Yasuhiro Yamada;原 由加里;Yukari Hara;廣川 佐千男;S. Hirokawa
  • 通讯作者:
    S. Hirokawa
Cities and biological dynamics: spatial efficiency of land use
城市与生物动力学:土地利用的空间效率
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Brendan Flanagan;廣川 佐千男;金子恵美子;和泉絵美;井奥陽子;吉田惇;Jun Yoshida
  • 通讯作者:
    Jun Yoshida
バウムガルテン『形而上学』(第四版)「経験的心理学」訳注――その1――
鲍姆加滕《形而上学》(第4版)《经验心理学》翻译笔记-第1部分-
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Brendan Flanagan;廣川 佐千男;樋笠勝士・井奥陽子・津田栞里
  • 通讯作者:
    樋笠勝士・井奥陽子・津田栞里

廣川 佐千男的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('廣川 佐千男', 18)}}的其他基金

Web空間における自然な分布からの乖離現象解明
阐明网络空间中自然分布的偏差
  • 批准号:
    16650030
  • 财政年份:
    2004
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量内容挖掘
  • 批准号:
    16016267
  • 财政年份:
    2004
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量内容挖掘
  • 批准号:
    15017269
  • 财政年份:
    2003
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
リンク情報とWebデータの半構造性を融合した高品質広域コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量广域内容挖掘
  • 批准号:
    13224072
  • 财政年份:
    2001
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)
WWWリンク動的ナビゲーションの研究
WWW链接动态导航研究
  • 批准号:
    10878047
  • 财政年份:
    1998
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
リンク情報からの知識網構成に関する研究
基于链接信息的知识网络构建研究
  • 批准号:
    11130217
  • 财政年份:
    1998
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (A)
リンク情報からの知識網構成に関する研究
基于链接信息的知识网络构建研究
  • 批准号:
    10143215
  • 财政年份:
    1998
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (A)

相似海外基金

可変形態移動機構のコンプライアンス制御に関する研究
变形运动机构柔顺控制研究
  • 批准号:
    16650036
  • 财政年份:
    2004
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量内容挖掘
  • 批准号:
    16016267
  • 财政年份:
    2004
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了