课题基金基金详情
WEB搜索与挖掘的新理论与方法
结题报告
批准号:
60933004
项目类别:
重点项目
资助金额:
200.0 万元
负责人:
李晓明
依托单位:
学科分类:
F0210.计算机图像视频处理与多媒体技术
结题年份:
2013
批准年份:
2009
项目状态:
已结题
项目参与者:
何清、崔斌、胡宏、闫宏飞、彭波、黄连恩、邸楠、庄福振、赵卫中
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
瞄准Web 3.0的智能搜索引擎,深入研究Web搜索与挖掘的新理论和方法:(1)研究Web的性质与演化规律,探索Web信息的基本特征,提出Web信息搜集的新模式和方法;(2)研究Web信息的语义表示与推理,探索异构Web信息关联、集成与重构的逻辑基础,提出Web异构信息的语义模型;(3)研究Web数据的挖掘与组织,从结构、内容和用户行为诸方面探索Web信息的模式,针对Web信息的异构性和时态性,建立支持高效访问的数据组织方式;(4)针对Web信息海量性的特点,研究分布并行挖掘理论与方法,为潜在的实际应用提供高性能算法和支持环境;(5)研究图像视频的语义自动标注,综合利用概念语义与关联信息,提高对Web图像视频理解的能力,提出Web多模态检索的新方法。 在上述理论研究成果的基础上,研制Web智能搜索引擎原型系统,验证本项目研究中提出的新理论和新方法。
英文摘要
能够从海量Web信息中挖掘出有用的知识,不仅有学术上的重要意义(证明我们对Web信息的形式、结构、时态等有深刻的理解),而且还有潜在巨大的社会经济价值。其研究难点在于Web信息的多样性、随机性、随意性、非结构化,而搜索与挖掘的应用常常追求的是相对比较具体明确的结果,从而使得发现一般且有用的规律十分困难。基于深度学习技术,利用云计算环境,结合众包机制,是Web搜索与挖掘理论与方法发展的一个新趋势。本项目主要成果包括以下五个方面。. 1.提出了一种对微博和在线短评论进行局部化主题建模方法。该方法以局部文档为单位代替以词为单位打标签的方法,同时引入了背景信息消除词汇噪音,对微博商品评论的情感分析效果很好,论文被Google引用170次。. 2.提出利用多种特征关联信息的融合和动态交互构建对象之间的相似关系和时序关系,设计多种数据对象模型,索引检索Web数据对象,能有效支持热点探测、分类、检索等Web应用,论文发表在SIGMOD、SIGIR、AAAI、ICDE等CCF A类国际会议,被Google引用50次。. 3. 提出了一种演进式新闻文档摘要的生成方法,在摘要迭代过程中综合考虑了全局信息和局部信息,在纯文本摘要,文本和图像混合摘要,诗词生成等方面效果很好。在SIGIR、IJCAI、JCDL(最佳学生论文提名)、CIKM上发表了长文,博士生严睿获得了2012北京大学五四奖章。. 4.提出了基于一致性正则化的多源跨领域迁移学习框架,能利用源领域上的局部数据,而且考虑了子分类器在目标领域上的预测的一致性。还提出挖掘领域间共性与特性的协同PLSA模型,从生成模型角度解决了从多领域间挖掘共享概念的学习问题,上述工作在IEEETKDE发表两篇论文,Google他引70次,庄福振博士获得2013年人工智能学会优秀博士论文。. 5.开发了“天网搜索-中国事件检索与发现”系统。该系统整合了1000多万篇网页、文本、视频、微博数据,体现了多源大跨度建模等多项技术。同时也开发了Web数据并行挖掘云服务平台,提供从数据采集到数据预处理再到文本挖掘的一站式服务,并推广到并推广到电信、信息安全等领域。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:--
期刊:计算机辅助设计与图形学学报
影响因子:--
作者:施智平;李清勇;赵晓东;何清;史忠植
通讯作者:史忠植
An improved FCMBP fuzzy clustering method based on evolutionary programming
基于进化规划的改进FCMBP模糊聚类方法
DOI:10.1016/j.camwa.2010.12.063
发表时间:2011-02
期刊:Computers & Mathematics with Applications
影响因子:--
作者:Tan, Qing;He, Qing;Zhao, Weizhong;Shi, Zhongzhi;Lee, E. S.
通讯作者:Lee, E. S.
DOI:10.1145/2180868.2180869
发表时间:2012-05
期刊:ACM Transactions on Information Systems
影响因子:5.6
作者:Cao, Xin;Cong, Gao;Cong, Gao;Cui, Bin;Cui, Bin;Jensen, Christian S.;Jensen, Christian S.;Yuan, Quan;Yuan, Quan
通讯作者:Yuan, Quan
DOI:10.1109/tkde.2009.205
发表时间:2010-12
期刊:IEEE Transactions on Knowledge and Data Engineering
影响因子:8.9
作者:Fuzhen Zhuang;Ping Luo;Hui Xiong;Yuhong Xiong;Qing He;Zhongzhi Shi
通讯作者:Fuzhen Zhuang;Ping Luo;Hui Xiong;Yuhong Xiong;Qing He;Zhongzhi Shi
DOI:10.1002/sam.10099
发表时间:2011-02
期刊:Statistical Analysis and Data Mining: The ASA Data Science Journal
影响因子:--
作者:Fuzhen Zhuang;Ping Luo;Hui Xiong;Qing He;Yuhong Xiong;Zhongzhi Shi
通讯作者:Fuzhen Zhuang;Ping Luo;Hui Xiong;Qing He;Yuhong Xiong;Zhongzhi Shi
MOOC数据模型及其对课程与学习评价的效用研究
  • 批准号:
    61472013
  • 项目类别:
    面上项目
  • 资助金额:
    80.0万元
  • 批准年份:
    2014
  • 负责人:
    李晓明
  • 依托单位:
基于网络社交媒体的层次化用户兴趣建模
  • 批准号:
    61272340
  • 项目类别:
    面上项目
  • 资助金额:
    80.0万元
  • 批准年份:
    2012
  • 负责人:
    李晓明
  • 依托单位:
国家基础研究数据资源的开发及其在项目管理中的应用研究
  • 批准号:
    61050009
  • 项目类别:
    专项基金项目
  • 资助金额:
    50.0万元
  • 批准年份:
    2010
  • 负责人:
    李晓明
  • 依托单位:
海量Web数据中命名实体及相互关系提取与分析的模型和算法研究
  • 批准号:
    60773162
  • 项目类别:
    面上项目
  • 资助金额:
    30.0万元
  • 批准年份:
    2007
  • 负责人:
    李晓明
  • 依托单位:
Web结构和社会信息相关性模型及其计算实验方法研究
  • 批准号:
    60573166
  • 项目类别:
    面上项目
  • 资助金额:
    24.0万元
  • 批准年份:
    2005
  • 负责人:
    李晓明
  • 依托单位:
基于IPv6的anycast路由的研究
  • 批准号:
    60273002
  • 项目类别:
    面上项目
  • 资助金额:
    20.0万元
  • 批准年份:
    2002
  • 负责人:
    李晓明
  • 依托单位:
SPMD程序设计模型——从Fortran到Java
  • 批准号:
    69873004
  • 项目类别:
    面上项目
  • 资助金额:
    12.0万元
  • 批准年份:
    1998
  • 负责人:
    李晓明
  • 依托单位:
国内基金
海外基金