リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量内容挖掘
基本信息
- 批准号:16016267
- 负责人:
- 金额:$ 6.98万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research on Priority Areas
- 财政年份:2004
- 资助国家:日本
- 起止时间:2004 至 2005
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Webには膨大な数のページが存在し、各ページは様々な記述形式で記述されている。多量な同系統文書群は高品質であるというヒューリスティックに基づき、Web上の高品質文書群を効率良く発見・統合するための研究を行なった。本研究では、発見、選集、抽出、統合、の四段階に分けて研究を進めた。「発見」については、トピックに関するページを広大なWeb空間から発見する研究と、特定トピックに関する同系統文書群の持つ、文書の構造を発見する研究を行なった。前者については、自己学習型トピッククローラー、後者については、与えられた文書群に頻出する文字列を発見する「頻出パタン発見問題」とアルゴリズム開発の研究を行なった。「選集」については、トピッククローラーの実装を行なった。実装の中で、トピックに関するキーワードを自己学習するアルゴリズム、トピックページへ早く辿り着くためのリンク選定戦略についての研究を行なった。実装したクローラーは、与えられたトピックキーワードを用いて、そのトピックに関するページを効果的に収集することができる。抽出については、収集したWebページ群から「レコード」となる部分を抽出する手法について研究してきた。まず、集めた同系統文書群から、レコードの「属性名」と「属性値」となる部分を特定する手法について開発した。ここでは、頻出パタンの発見手法を援用している。なお、対象とする同系統文書群は、シリーズ型Web文書群としている。シリーズ型Web文書群とは、Webブラウザで表示させた際の見た目が類似している文書群のことである。統合については、Webから発見・選出・抽出したデータを、統合する手法についての研究を行なった。
The number of pages in the Web is described in the form of a description. High quality documents on the web and high quality documents on the Web This study is divided into four stages: reverse, discovery, collection, extraction, integration and research. "Discovery" is a research on discovery of large Web spaces, specific web services, and the structure of documents. The former refers to "frequent occurrence of problems" and "self-learning", while the latter refers to "frequent occurrence of problems" and "development of problems". "Collection" In the middle of the installation, there is no need to study on your own. There is no need to study on your own. In addition to the above, it is also possible to use the following methods: Select the appropriate method to collect the Web page. "Property name""Property value""Part of the same system document group","set","set" and "set" are specified. The method of discovery is often used. The same system document group, the same type of Web document group. The Web page is similar to the Web page. Integration, Web discovery, extraction, integration, research
项目成果
期刊论文数量(14)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Testbed for information extraction from deep web
- DOI:10.1145/1013367.1013468
- 发表时间:2004-05
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
Towards Multilingual Syllabus Integration
迈向多语言教学大纲整合
- DOI:
- 发表时间:2005
- 期刊:
- 影响因子:0
- 作者:Toshiro Minami;Sachio Hirokawa
- 通讯作者:Sachio Hirokawa
An Approach to Analyzing Correlation between Songs/Artists Using iTMS Playlists
使用 iTMS 播放列表分析歌曲/艺术家之间相关性的方法
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:Yufen Dou;Eisuke Itoh;Sachio Hirokawa;Daisuke Ikeda
- 通讯作者:Daisuke Ikeda
Automatic Generation of Deep Web Wrappers based on Discovery of Repetition
基于重复发现的深网包装器自动生成
- DOI:
- 发表时间:2004
- 期刊:
- 影响因子:0
- 作者:Tetsuya Nakatoh;Yasuhiro Yamada;Sachio Hirokawa
- 通讯作者:Sachio Hirokawa
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
廣川 佐千男其他文献
Parallel Reduction in Type Free lambda/mu-Calculus
无类型 lambda/mu 微积分的并行归约
- DOI:
10.1016/s1571-0661(04)80878-8 - 发表时间:
2000 - 期刊:
- 影响因子:0
- 作者:
K. Baba;馬場 謙介;S. Hirokawa;廣川 佐千男;Ken;藤田 憲悦 - 通讯作者:
藤田 憲悦
A Feedback System on Institutional Repository
机构知识库反馈系统
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
K. Baba;M. Mori;E. Ito;S. Hirokawa;馬場 謙介;森 雅生;伊東 栄典;廣川 佐千男 - 通讯作者:
廣川 佐千男
Trend Report of Search Sites with Complex Search
复杂搜索的搜索网站趋势报告
- DOI:
- 发表时间:
2004 - 期刊:
- 影响因子:0
- 作者:
大森 敬介;K. Ohmori;中藤 哲也;Yasuhiro Nakatoh;山田 泰寛;Yasuhiro Yamada;原 由加里;Yukari Hara;廣川 佐千男;S. Hirokawa - 通讯作者:
S. Hirokawa
Cities and biological dynamics: spatial efficiency of land use
城市与生物动力学:土地利用的空间效率
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
Brendan Flanagan;廣川 佐千男;金子恵美子;和泉絵美;井奥陽子;吉田惇;Jun Yoshida - 通讯作者:
Jun Yoshida
バウムガルテン『形而上学』(第四版)「経験的心理学」訳注――その1――
鲍姆加滕《形而上学》(第4版)《经验心理学》翻译笔记-第1部分-
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Brendan Flanagan;廣川 佐千男;樋笠勝士・井奥陽子・津田栞里 - 通讯作者:
樋笠勝士・井奥陽子・津田栞里
廣川 佐千男的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('廣川 佐千男', 18)}}的其他基金
Web空間における自然な分布からの乖離現象解明
阐明网络空间中自然分布的偏差
- 批准号:
16650030 - 财政年份:2004
- 资助金额:
$ 6.98万 - 项目类别:
Grant-in-Aid for Exploratory Research
リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量内容挖掘
- 批准号:
15017269 - 财政年份:2003
- 资助金额:
$ 6.98万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量内容挖掘
- 批准号:
14019069 - 财政年份:2002
- 资助金额:
$ 6.98万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
リンク情報とWebデータの半構造性を融合した高品質広域コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量广域内容挖掘
- 批准号:
13224072 - 财政年份:2001
- 资助金额:
$ 6.98万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas (C)
WWWリンク動的ナビゲーションの研究
WWW链接动态导航研究
- 批准号:
10878047 - 财政年份:1998
- 资助金额:
$ 6.98万 - 项目类别:
Grant-in-Aid for Exploratory Research
リンク情報からの知識網構成に関する研究
基于链接信息的知识网络构建研究
- 批准号:
11130217 - 财政年份:1998
- 资助金额:
$ 6.98万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas (A)
リンク情報からの知識網構成に関する研究
基于链接信息的知识网络构建研究
- 批准号:
10143215 - 财政年份:1998
- 资助金额:
$ 6.98万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas (A)