悪質スパムページを自動除去可能な高品位ウェブ情報検索手法の構築

构建可自动清除恶意垃圾页面的高质量网页信息搜索方法

基本信息

项目摘要

本研究では,Web上のコミュニティ(関連するページの集合)を求める情報検索手法として代表的なFlakeらの最小カット法の問題点を調べることによって,スパムリンクに関する様々な知見を得た.これをもとに,スパムリンクを自動的に除去することで,悪質なスパムページが情報検索の結果から除かれるような高精度の手法を提案した.具体的には,Webページの重要度を計算する著名なアルゴリズムであるHITSを改良した.HITSアルゴリズムは,Kleinbergによって提案された当時は高い精度を持っていたが,現在のWebにおいてはスパムページの増加により精度が低くなっていた.本研究では,スパムリンクを自動的に除去してHITSの精度を高めるために,2つの手法を提案した.1つは,Webページが属するホストが利用しているDNSサーバーの名前を用いてスパムリンクの集合である「リンクファーム」を発見し除去する手法である.もう1つは,ページの信頼度を計る手法としてGyongiらによって提案されたTrustRankと呼ばれる手法のアイディアをHITSに適合するように工夫して,ページがスパムでない確率を評価することができるようにした「トラストスコア」である.これら2つの手法をHITSに組み込むことで,その精度を大幅に高めることができた.本研究の成果は,"Improvements of HITS Algorithm for Spam Links"という表題で,APWeb/WAIM国際会議にregular paperとして採録された.なお,本会議のregular paperの採択率は9%以下であった.また、この成果はIEICEの論文誌にも採録された.
The purpose of this study is to find out the information on the Web, which is the minimum method of Flake, which is represented by the collection of information on the Web. In order to improve the accuracy of the information system, the information system is used to automatically remove the information, and the information is requested. The results show that the precision of the system is improved. For specific information, Web is important to calculate the importance of HITS. Hits has improved the accuracy of the system. Kleinberg has proposed to improve the accuracy of the system at the same time, and now it is necessary to improve the accuracy of the system. Now, the Web system can improve the accuracy of the system. In this study, the results show that the automatic removal of the HITS precision is sensitive to the accuracy of the device, and that the proposal of the Web is effective. The Web is the one that uses the name of the device to remove the error in the collection of information. In the first half of the year, we need to know that we need to know how to use Gyongi information. We need to know how to do this. We need to know how to do it. We need to know how to do it. We need to know how to make sure that the accuracy rate is very high, and the accuracy is very low. The accuracy rate is very high. In this paper, we use the HITS technique to improve the accuracy and precision of the system. The results of this study are summarized, "Improvements of HITS Algorithm for Spam Links" issues are listed, and regular paper international conferences of APWeb/WAIM are discussed. It is recommended that the rate of regular paper infection should be below 9%. You know, you know

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

浅野 泰仁其他文献

情報ネットワークにおける関係の抽出のための減衰流の計算の高速化
信息网络中关系提取的衰减流计算加速
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    野島 裕輔;浅野 泰仁;吉川 正俊
  • 通讯作者:
    吉川 正俊
A new framework for link-based information retrieval from the Web
一种基于链接的网络信息检索新框架
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    浅野 泰仁
  • 通讯作者:
    浅野 泰仁
エンティティ間の類似関係取得のためのWikipedia 事象モデル構築手法に関する考察
获取实体间相似关系的维基百科事件模型构建方法的思考
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    内藤 稔;浅野 泰仁;吉川 正俊
  • 通讯作者:
    吉川 正俊

浅野 泰仁的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('浅野 泰仁', 18)}}的其他基金

時系列ネットワークにおけるランキング変動要因推定と炎症進行分析への応用
时间序列网络中排序变异因素的估计及其在炎症进展分析中的应用
  • 批准号:
    22K12043
  • 财政年份:
    2022
  • 资助金额:
    $ 1.73万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)

相似海外基金

The Language of Japanese Spam Mails
日本垃圾邮件的语言
  • 批准号:
    25770162
  • 财政年份:
    2013
  • 资助金额:
    $ 1.73万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
多言語Webテキストからの知識マイニング関する研究
多语言网络文本知识挖掘研究
  • 批准号:
    19024014
  • 财政年份:
    2007
  • 资助金额:
    $ 1.73万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
A Counter-Spam Architecture Based on Internet Immunology
基于互联网免疫学的反垃圾邮件体系结构
  • 批准号:
    19700107
  • 财政年份:
    2007
  • 资助金额:
    $ 1.73万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Pattern Discovery from Large Text Data Based on the Property of Languages Being Scale-Free
基于语言无标度特性的大文本数据模式发现
  • 批准号:
    19700150
  • 财政年份:
    2007
  • 资助金额:
    $ 1.73万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
頻度と交代数によるテキスト・マイニングの研究
基于频率和转数的文本挖掘研究
  • 批准号:
    04J06552
  • 财政年份:
    2004
  • 资助金额:
    $ 1.73万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Research on One-to-One Marketing through Ubiquitous Network
泛在网络一对一营销研究
  • 批准号:
    15500030
  • 财政年份:
    2003
  • 资助金额:
    $ 1.73万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了