课题基金基金详情
基于概率图的文本检索模型及算法研究
结题报告
批准号:
61462043
项目类别:
地区科学基金项目
资助金额:
46.0 万元
负责人:
左家莉
依托单位:
学科分类:
F0211.信息检索与社会计算
结题年份:
2018
批准年份:
2014
项目状态:
已结题
项目参与者:
叶浩、王晓庆、万中英、罗文兵、吴福英、洪欢、黄传飞、王千千、潘绍华
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
信息检索是应对海量信息最有效的手段,但检索结果仍难以满足用户要求的快捷、准确的信息需求。为方便信息检索建模,在文档预处理阶段丢弃了大量相关信息;在检索阶段,用户信息需求表达为查询,表现形式为3-5个索引项,难以有效表达用户真实查询意图,这是造成检索精确度降低的主要原因。由于大量相关信息难以建模,因而难以构建良好的文档表示模型,当前的信息检索模型大多蕴含独立性假设。查询重构模型虽在一定程度上解决了查询太短的问题,但也会因为加入查询的信息不相关或太多,导致查询"主题漂移",降低检索精度。本项目试图为文档表示模型和文本检索模型构建统一框架,借助概率图理论构造文档表示模型和文本检索模型,在图模型中研究节点(索引项节点、文档节点)重要性模型,进而对查询重构模型进行研究。项目所构造的模型可实现概念层上的文本检索模型和查询重构模型,可有效提高检索性能。
英文摘要
Although Information retrieval has been the most effective means to deal with mass information, the search results are still difficult to meet the user's needs of fast and accurate information. In order to simplify information retrieval modeling, preprocessing discards a lot of relevant information of the document. In the retrieval phase, the user information needs expressed as queries containing only 3-5 terms make it difficult to effectively express user's real information needs. All these reasons cause poor retrieval accuracy. As it is too difficult to model lots of relevant information, building a good document representation model turns to be difficult, which makes most of the current information retrieval models take independence assumption. Query reformulation model can solve the problem of short queries to some extent. However, it may result in the query topic drift and make retrieval performance poor when add too much irrelevant information to query. The project attempts to construct a unified framework for document representation model and text retrieval model. By means of probability graph theory, the project construct document representation model and text retrieval model model, and explore node importance model in the graph model, then study query reformulation model. The model constructed by the project can realize text retrieval and query reformulation in the level of concept and then improve retrieval performance.
项目组通过将概率图引入至文本检索中,对文本检索中所蕴含的相关性信息和文档结构信息进行整体建模,为文档表示模型和文本检索模型构建统一的框架,基于此,构建了结合句子级别检索的信息检索模型、基于多层Markov网络的信息检索模型和基于词重要性的信息检索图模型。课题组成员共发表相关论文8篇,成功承办了第四届自然语言处理与中文计算国际会议(NLP&CC 2015)、中国计算机学会学科前沿讲习班第五十九期(CCF ADL 59)、第五届全国社会媒体处理大会(SMP2016)和第十四届全国自然语言处理青年学者研讨会(YSSNLP2017),培养了4名硕士,邀请了蒙特利尔大学聂建云教授、伊利诺伊大学香槟分校韩家炜教授和清华大学黄昌宁教授等知名学者来校讲学和交流。主要研究工作有:.结合句子级别检索的信息检索模型将文档分为若干个窗口,通过计算句子和查询的相关度考察查询词在给定窗口中的共现性,该方法可增大那些查询词彼此靠近的文档的相关度,从而使得检索模型可返回更为相关的文档。.基于多层Markov网络的信息检索模型,通过分别构造查询网络、词网络和文档网络,以融合词间关系、文档间关系和查询间关系。.基于词重要性的信息检索图模型,通过采用基于词项图的文档表示形式来捕获词项间的依赖关系,根据文档词项图采用马尔科夫链计算方法度量词项在文档中的重要性。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2016
期刊:山东大学学报(理学版)
影响因子:--
作者:万中英;王明文;左家莉;万剑怡
通讯作者:万剑怡
DOI:--
发表时间:2016
期刊:中文信息学报
影响因子:--
作者:左家莉;王明文;吴水秀;万剑怡
通讯作者:万剑怡
DOI:10.16182/j.issn1004731x.joss.201807042
发表时间:2018
期刊:系统仿真学报
影响因子:--
作者:王仕民;叶继华;王明文;左家莉;刘长红
通讯作者:刘长红
DOI:--
发表时间:2016
期刊:中文信息学报
影响因子:--
作者:廖亚男;王明文;左家莉
通讯作者:左家莉
DOI:--
发表时间:2016
期刊:计算机工程与应用
影响因子:--
作者:罗文兵;付翠琴;左家莉
通讯作者:左家莉
结合外部资源的地方志文本挖掘模型研究
  • 批准号:
    61866018
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    38.0万元
  • 批准年份:
    2018
  • 负责人:
    左家莉
  • 依托单位:
国内基金
海外基金