基于特征建模优化与判别学习的Web spam识别技术研究
批准号:
61170145
项目类别:
面上项目
资助金额:
57.0 万元
负责人:
张化祥
依托单位:
学科分类:
F0605.模式识别与数据挖掘
结题年份:
2015
批准年份:
2011
项目状态:
已结题
项目参与者:
计华、刘丽、宋信敏、丁艳辉、王至超、孙晓燕、刘一鸣、曹林林
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
Web spam已成为Web信息检索面临的重要问题,开展该研究有利于spam识别,其理论成果也可用于识别敏感页面。目前研究大多通过定义启发式函数实现spam页面识别,精度不高、泛化能力差。课题拟从spam页面特征建模及优化,不平衡数据的过取样处理及基于问题相关的判别学习算法几方面对该问题进行系统研究,提出spam特征识别模型及优化策略,构建引入spam页面局部及全局一致性特点的识别函数,同时研究使用迁移学习技术,充分利用相关问题辅助训练样例,建立Web spam识别的系统化理论模型及算法,提高spam识别效果及算法泛化能力。
英文摘要
(1) 项目背景.一般地,在搜索结果中越是排在前面的网站,就意味着它的重要程度越高,也就能吸引到更多的用户访问它,因此给它带来的商业利润也越大。因此,垃圾网页制作者出于经济或商业利益,采用各种各样的不正当手段欺骗搜索引擎,达到在搜索结果中排序靠前,从而获取较高点击率的目的。近些年来,Web spamming已逐渐成为困扰搜索引擎的严重问题,它使垃圾网页排在某些正常网页前面,骗取用户点击,严重干扰用户获取信息。这在很大程度上破坏搜索质量,降低用户对搜索引擎的信任度。.(2) 主要研究内容.按照课题研究计划,我们搜集、阅读了大量相关科技文献,及时跟踪学术前沿,并组织了专家讨论会,制定了详细的研制计划,针对web页面特征选择、web页面与spam页面不平衡问题以及针对判别学习技术在spam页面识别方面存在的问题,我们做了大量的工作,并取得了一系列研究成果。.项目组深入全面地研究了网页特征,提出把网页特征作为垃圾网页识别的辅助手段;建立内容特征和链接特征的协同模型用于检测垃圾网页;基于嵌套旋转森林对垃圾网页的不平衡数据集分类;利用自标记技术结合多分类器模型,对垃圾网页的不平衡数据集分类;利用网页排分检测垃圾网页;基于网络链接结构利用双向趋势信息反馈进行垃圾网页检测;基于拟合特征分布的垃圾网页检测方法;基于结合内容特征的TrustRank算法改进;基于独立成分分析和协同训练的垃圾网页检测;基于多视图典型相关分析的垃圾网页检测;基于SMOTE和随机森林的Web spam检测,等等。.(3) 重要结果、关键数据及其科学意义等 .特征选择及优化方面。分析正常页面与Spam页面间判别能力大的特征,选择相关特征,同时利用典型分析技术,将多视图特征加以融合,,提高页面识别的准确率,取得了很好的效果;.过采样方面。提出了基于同分布假设,生成少数类样本的技术。只有保持数据分布不变的情况下,实现少数类样例过采样,才能学习到无偏的分类器。丰富的实验结果表明,该方法有利于提高少数类的分类精度;.识别算法方面。依据spam问题特点,充分考虑页面间的局部及全局一致性,定义适用问题的目标优化函数,提出了改进的SVM分类算法。.其他成果研究表明,针对特征层面、数据层面及算法层面的研究可以有益结合,提高spam页面的识别效率。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2013
期刊:计算机工程与应用
影响因子:--
作者:邱继钊;计华;张化祥
通讯作者:张化祥
A locality correlation preserving support vector machine
一种保持局部相关性的支持向量机
DOI:10.1016/j.patcog.2014.04.004
发表时间:2014-09
期刊:PATTERN RECOGNITION
影响因子:8
作者:Zhang Huaxiang;Cao Linlin;Gao Shuang
通讯作者:Gao Shuang
Facial Expression Recognition by Updating the Label Matrix in the Feature Space
通过更新特征空间中的标签矩阵进行面部表情识别
DOI:--
发表时间:2012
期刊:Journal of Computational Information Systems
影响因子:--
作者:Linlin Cao;Huaxiang Zhang;Shun Zhang
通讯作者:Shun Zhang
DOI:--
发表时间:2015
期刊:ICIC Express Letters
影响因子:--
作者:Xiaonan Fang;Huaxiang Zhang;Shuang Gao;Yanyan Tan
通讯作者:Yanyan Tan
DOI:--
发表时间:2013
期刊:山东大学学报(工学版)
影响因子:--
作者:高 爽;张化祥;房晓南
通讯作者:房晓南
基于语义增强的半监督多模态哈希技术
- 批准号:--
- 项目类别:面上项目
- 资助金额:59万元
- 批准年份:2021
- 负责人:张化祥
- 依托单位:
基于信息融合的精准身份识别方法
- 批准号:U1836216
- 项目类别:联合基金项目
- 资助金额:245.0万元
- 批准年份:2018
- 负责人:张化祥
- 依托单位:
基于局部语义关联及判别分析的跨模态数据检索
- 批准号:61772322
- 项目类别:面上项目
- 资助金额:66.0万元
- 批准年份:2017
- 负责人:张化祥
- 依托单位:
检索引导的多模态数据稀疏化降维及哈希技术
- 批准号:61572298
- 项目类别:面上项目
- 资助金额:67.0万元
- 批准年份:2015
- 负责人:张化祥
- 依托单位:
异构媒体数据建模、融合及识别关键技术
- 批准号:61373081
- 项目类别:面上项目
- 资助金额:78.0万元
- 批准年份:2013
- 负责人:张化祥
- 依托单位:
国内基金
海外基金















{{item.name}}会员


