リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量内容挖掘
基本信息
- 批准号:15017269
- 负责人:
- 金额:$ 2.94万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research on Priority Areas
- 财政年份:2003
- 资助国家:日本
- 起止时间:2003 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
多量な同系統文書群は高品質であるというヒューリスティックに基づき,Web上の高品質文書群を効率良く発見するための研究を行なっている.本年度は,リンク構造と構造類似性で特徴付けられる「シリーズ型文書群」という概念を提案し,そのような文書群を効率的に発見収集するWebロボットの実装を行ない,その収集効率を定量的に評価した.また,シリーズ型文書群に対するメタデータを自動的に構成する手法を開発した.これとは別に,同系統文書群の発見について,部分文字列の出現頻度に着目した「部分文字列増幅法」を開発した.このアルゴリズムは,入力サイズの線形時間で動作し,類似構造を持つ文書群を網羅的に検出すると同時にクラスタリングも行なうものである.本年度は,Web上半構造化データからの高品質同系統データ抽出について,HTMLファイルに繰り返し現われる特徴的なタグ・パターンの抽出法の開発と,コンテンツ収集を動的に制御できる目的指向Webロボット開発に重点を置き研究を進めた.前者については,部分文字列の出現頻度だけで重要パターンを高精度で抽出する部分文字列増幅法という新しい手法が開発できた.後者については,従来ターゲットとしてきた大学のシラバスについては1万件以上の収集が達成できた.さらにシラバス以外の一般的な「シリーズ型Web文書群」についてのWebロボット開発の目処がたち,その文書群に対するメタデータの自動生成手法を構築できた.
A large number of homologous documents, high-quality articles, high-quality articles, high- This year, we have made a proposal for the concept of the text group. This year, we are responsible for the creation of the type of text group. This year, we are responsible for the introduction of the concept proposal, the proposal of the concept, the concept proposal, the concept proposal, the concept proposal, The text group of this type of text is in full swing. The automatic communication method is open to the public. In comparison with each other, the same system of documents is widely used, and some of the text columns show that the "partial text series frame method" is widely used. If you want to do something about it, you can use it to create a message that supports the text group network. At the same time, you need to do the same thing. This year, the first half of the Web system is responsible for the extraction of high-quality products from the same system, and the HTML system is responsible for the introduction of the extraction method for high-quality products. This year, the first half of the year, the first half of this year, the construction of high-quality products in the same system has been implemented in the same system, and the system has been introduced in the first half of this year. In the former, some text columns show high accuracy, high precision extraction, partial text column format method, new reading techniques, and so on. After that, I told you that I would like to know that there are more than 10,000 pieces in the collection of more than 10,000 pieces. In addition to the general Web text group, which is related to the information, the Web text group is open to the public, and the text group is responsible for the automatic generation of the information system.
项目成果
期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Y.Matsunaga, S.Yamada, E.Ito, S.Hirokawa: "A Web Syllabus Crawler and its Efficiency Evaluation"Proc.International Symposium on Information Science and Electrical Engineering. 565-568 (2003)
Y.Matsunaga、S.Yamada、E.Ito、S.Hirokawa:“网络教学大纲爬虫及其效率评估”Proc.国际信息科学与电气工程研讨会。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
T.Nakatoh, K.Baba, D.Ikeda, Y.Yamada, S.Hirokawa: "An Efficient Mapping for scores of String Matching"Proc.Prague Stringology Conference. 127-136 (2003)
T.Nakatoh、K.Baba、D.Ikeda、Y.Yamada、S.Hirokawa:“弦乐匹配分数的高效映射”Proc.布拉格弦乐学会议。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
M.Noguchi, S.Hirokawa: "A Prototype of Search Engine for Tables on the Web"Proc.International Symposium on Information Science and Electrical Engineering. 561-564 (2003)
M.Noguchi、S.Hirokawa:“网络表格搜索引擎的原型”Proc.国际信息科学与电气工程研讨会。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
S.Hirokawa, E.Itoh, T.Miyahara: "Semi-Automatic Construction of Metadata from A Series of Web Documents"Springer Lecture Notes in Computer Science. 2903. 942-953 (2003)
S.Hirokawa、E.Itoh、T.Miyahara:“从一系列网络文档中半自动构建元数据”施普林格计算机科学讲座笔记。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
山田信太郎, 松永吉広, 伊東栄典, 廣川佐千男: "Webシラバス情報収集エージェントの試作"電子情報通信学会論文誌D. J86-D-I. 566-574 (2003)
Shintaro Yamada、Yoshihiro Matsunaga、Einori Ito、Sachio Hirokawa:“网络教学大纲信息收集代理的原型” IEICE Transactions D. J86-D-I 566-574 (2003)
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
廣川 佐千男其他文献
Parallel Reduction in Type Free lambda/mu-Calculus
无类型 lambda/mu 微积分的并行归约
- DOI:
10.1016/s1571-0661(04)80878-8 - 发表时间:
2000 - 期刊:
- 影响因子:0
- 作者:
K. Baba;馬場 謙介;S. Hirokawa;廣川 佐千男;Ken;藤田 憲悦 - 通讯作者:
藤田 憲悦
A Feedback System on Institutional Repository
机构知识库反馈系统
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
K. Baba;M. Mori;E. Ito;S. Hirokawa;馬場 謙介;森 雅生;伊東 栄典;廣川 佐千男 - 通讯作者:
廣川 佐千男
Trend Report of Search Sites with Complex Search
复杂搜索的搜索网站趋势报告
- DOI:
- 发表时间:
2004 - 期刊:
- 影响因子:0
- 作者:
大森 敬介;K. Ohmori;中藤 哲也;Yasuhiro Nakatoh;山田 泰寛;Yasuhiro Yamada;原 由加里;Yukari Hara;廣川 佐千男;S. Hirokawa - 通讯作者:
S. Hirokawa
Cities and biological dynamics: spatial efficiency of land use
城市与生物动力学:土地利用的空间效率
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
Brendan Flanagan;廣川 佐千男;金子恵美子;和泉絵美;井奥陽子;吉田惇;Jun Yoshida - 通讯作者:
Jun Yoshida
バウムガルテン『形而上学』(第四版)「経験的心理学」訳注――その1――
鲍姆加滕《形而上学》(第4版)《经验心理学》翻译笔记-第1部分-
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Brendan Flanagan;廣川 佐千男;樋笠勝士・井奥陽子・津田栞里 - 通讯作者:
樋笠勝士・井奥陽子・津田栞里
廣川 佐千男的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('廣川 佐千男', 18)}}的其他基金
Web空間における自然な分布からの乖離現象解明
阐明网络空间中自然分布的偏差
- 批准号:
16650030 - 财政年份:2004
- 资助金额:
$ 2.94万 - 项目类别:
Grant-in-Aid for Exploratory Research
リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量内容挖掘
- 批准号:
16016267 - 财政年份:2004
- 资助金额:
$ 2.94万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量内容挖掘
- 批准号:
14019069 - 财政年份:2002
- 资助金额:
$ 2.94万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
リンク情報とWebデータの半構造性を融合した高品質広域コンテンツ・マイニング
结合链接信息和半结构化网络数据的高质量广域内容挖掘
- 批准号:
13224072 - 财政年份:2001
- 资助金额:
$ 2.94万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas (C)
WWWリンク動的ナビゲーションの研究
WWW链接动态导航研究
- 批准号:
10878047 - 财政年份:1998
- 资助金额:
$ 2.94万 - 项目类别:
Grant-in-Aid for Exploratory Research
リンク情報からの知識網構成に関する研究
基于链接信息的知识网络构建研究
- 批准号:
11130217 - 财政年份:1998
- 资助金额:
$ 2.94万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas (A)
リンク情報からの知識網構成に関する研究
基于链接信息的知识网络构建研究
- 批准号:
10143215 - 财政年份:1998
- 资助金额:
$ 2.94万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas (A)
相似海外基金
頻度と交代数によるテキスト・マイニングの研究
基于频率和转数的文本挖掘研究
- 批准号:
04J06552 - 财政年份:2004
- 资助金额:
$ 2.94万 - 项目类别:
Grant-in-Aid for JSPS Fellows
半構造テキストデータの一般構造を推論する高度情報抽出アルゴリズムの構築
构建推断半结构化文本数据一般结构的高级信息提取算法
- 批准号:
15700136 - 财政年份:2003
- 资助金额:
$ 2.94万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
大規模WEBコンテンツの分類及びXMLへの変換と高機能XML文書管理システム
大规模Web内容分类、转换为XML、高性能XML文档管理系统
- 批准号:
15017242 - 财政年份:2003
- 资助金额:
$ 2.94万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
エージェント協調に基づく分散DTP支援方式に関する研究
基于Agent协作的分布式排版支持方法研究
- 批准号:
10780193 - 财政年份:1998
- 资助金额:
$ 2.94万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)