III: Small: Modeling and Predicting Term Mismatch for Full-Text Retrieval
III:小:全文检索的术语不匹配建模和预测
基本信息
- 批准号:1018317
- 负责人:
- 金额:$ 49.55万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2010
- 资助国家:美国
- 起止时间:2010-09-01 至 2014-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Many text search engines use probabilistic reasoning to determine how well a word represents a person?s information need. The probability that a term appears in relevant documents ? documents that satisfy the information need ? is a fundamental quantity in the theory of probabilistic information retrieval, however prior research provided few clues about how to estimate it reliably. This project uses exploratory data analysis to identify common reasons that user-specified query terms fail to match relevant documents, develops features correlated with each reason, and integrates them into a model that can be trained from data. The resulting term necessity predictions can be used in state-of-the-art retrieval models to improve retrieval accuracy substantially.Term necessity predictions are based on a two-stage approach to text retrieval. A feature-based analysis of an initial retrieval develops evidence that can be linked to a variety of common reasons that a term might not match relevant documents, for example, centrality, synonymy, and abstractness. This model-based approach can be trained from available data, making it easy to incorporate new features that test new hypotheses, or to train a corpus-specific predictive model. It also has the advantage that probability predictions are query-specific, and linked to features that can guide automatic term weighting as well as interactive or automatic query refinement. The project develops several focused interventions for interactive, automatic query expansion, and relevance feedback refinement of queries.This project makes an impact on the scientific community by providing new approaches to a central problem that affects probabilistic retrieval models, and the diagnosis and correction of problems in query formation. Improvements in search engine accuracy also affect a broad population of everyday users. The proposed research improves search accuracy for ?ordinary people? using unstructured keyword queries, as well as professional searchers who often use sophisticated structured queries to search structured documents.Research results will be disseminated in research papers and via project web site (http://www.cs.cmu.edu/~callan/Projects/IIS-1018317/). New techniques will be implemented and disseminated in periodic releases of the Lemur Project?s Indri search engine (http://www.lemurproject.org/indri/). Indri is used by a broad international research community, thus this form of dissemination makes it more likely that other researchers will study and extend the proposed research.
许多文本搜索引擎使用概率推理来确定一个词代表一个人的程度。的信息需求。 一个术语出现在相关文档中的概率?满足信息需求的文件?是概率信息检索理论中的一个基本量,然而先前的研究提供了一些关于如何可靠地估计它的线索。 该项目使用探索性数据分析来识别用户指定的查询词无法匹配相关文档的常见原因,开发与每个原因相关的功能,并将其集成到可以从数据中训练的模型中。 所得到的术语必要性预测可以用于最先进的检索模型,以提高检索精度显着。术语必要性预测是基于一个两阶段的方法来文本检索。 对初始检索的基于特征的分析开发了证据,这些证据可以与术语可能与相关文档不匹配的各种常见原因相关联,例如中心性,同义性和抽象性。 这种基于模型的方法可以从可用的数据中进行训练,从而可以轻松地整合测试新假设的新功能,或者训练特定于语料库的预测模型。 它还有一个优点,即概率预测是特定于查询的,并且与可以指导自动术语加权以及交互式或自动查询细化的功能相关联。 该项目为交互式、自动查询扩展和查询的相关反馈细化开发了几种重点干预措施,该项目通过提供新的方法来解决影响概率检索模型的核心问题,以及诊断和纠正查询形成中的问题,从而对科学界产生影响。 搜索引擎准确性的提高也会影响到广大的日常用户。 建议的研究提高搜索精度?普通人吗研究结果将以研究论文的形式和通过项目网站(http://www.cs.cmu.edu/projects/IIS-1018317/)传播。 新技术将在狐猴项目的定期发布中实施和传播?的Indri搜索引擎(http://www.lemurproject.org/indri/)。 Indri被广泛的国际研究界使用,因此这种传播形式使其他研究人员更有可能研究和扩展拟议的研究。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Jamie Callan其他文献
Pruning long documents for distributed information retrieval
修剪长文档以进行分布式信息检索
- DOI:
10.1145/584792.584847 - 发表时间:
2002 - 期刊:
- 影响因子:0
- 作者:
Jie Lu;Jamie Callan - 通讯作者:
Jamie Callan
Language processing technologies for electronic rulemaking: a project highlight
用于电子规则制定的语言处理技术:项目亮点
- DOI:
- 发表时间:
2005 - 期刊:
- 影响因子:0
- 作者:
Stuart W. Shulman;E. Hovy;Jamie Callan;S. Zavestoski - 通讯作者:
S. Zavestoski
Passage-retrieval evidence in document retrieval
- DOI:
- 发表时间:
1994 - 期刊:
- 影响因子:0
- 作者:
Jamie Callan - 通讯作者:
Jamie Callan
Metric-based ontology learning
基于度量的本体学习
- DOI:
10.1145/1458484.1458486 - 发表时间:
2008 - 期刊:
- 影响因子:3
- 作者:
G. Yang;Jamie Callan - 通讯作者:
Jamie Callan
An effective and efficient results merging strategy for multilingual information retrieval in federated search environments
联合搜索环境中多语言信息检索的有效且高效的结果合并策略
- DOI:
10.1007/s10791-007-9036-6 - 发表时间:
2007-11 - 期刊:
- 影响因子:2.8
- 作者:
Jamie Callan;Luo Si - 通讯作者:
Luo Si
Jamie Callan的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Jamie Callan', 18)}}的其他基金
III: Small: Reliable and Generalizable Neural Search Engine Architectures
III:小:可靠且可推广的神经搜索引擎架构
- 批准号:
1815528 - 财政年份:2018
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: Sustaining Lemur Project Resources for the Long-Term
CRI:CI-SUSTAIN:合作研究:长期维持狐猴项目资源
- 批准号:
1822975 - 财政年份:2018
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
III: Small: Using Knowledge Resources to Improve Information Retrieval
III:小:利用知识资源改进信息检索
- 批准号:
1422676 - 财政年份:2014
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
CI-EN-Collaborative Research: Supporting Research and Teaching for Next-Generation Search Engines in Lemur
CI-EN-协作研究:支持狐猴下一代搜索引擎的研究和教学
- 批准号:
1405045 - 财政年份:2014
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
III: Medium: Selective Search of Large-Scale Text Collections
III:媒介:大规模文本集合的选择性搜索
- 批准号:
1302206 - 财政年份:2013
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
III: Medium: Collaborative Research: Connecting the Ephemeral and Archival Information Networks
III:媒介:协作研究:连接临时和档案信息网络
- 批准号:
1160862 - 财政年份:2012
- 资助金额:
$ 49.55万 - 项目类别:
Continuing Grant
CI-ADDO-EN: Collaborative Proposal: Supporting Web-Scale Experimentation Using the Lemur Toolkit
CI-ADDO-EN:协作提案:使用 Lemur 工具包支持网络规模实验
- 批准号:
0934358 - 财政年份:2010
- 资助金额:
$ 49.55万 - 项目类别:
Continuing Grant
DC: Small: An Integrated Architecture for Federated Search
DC:小型:联合搜索的集成架构
- 批准号:
0916553 - 财政年份:2009
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
Preservation and Access for ClueWeb09 Image Data
ClueWeb09 图像数据的保存和访问
- 批准号:
0948856 - 财政年份:2009
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
SGER: Multi-Tier Indexing for Web Search Engines
SGER:网络搜索引擎的多层索引
- 批准号:
0841275 - 财政年份:2008
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
Collaborative Research: III: Small: Physics Guided Graph Networks for Modeling Water Dynamics in Freshwater Ecosystems
合作研究:III:小型:用于模拟淡水生态系统中水动力学的物理引导图网络
- 批准号:
2316306 - 财政年份:2023
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
Collaborative Research: III: Small: Physics Guided Graph Networks for Modeling Water Dynamics in Freshwater Ecosystems
合作研究:III:小型:用于模拟淡水生态系统中水动力学的物理引导图网络
- 批准号:
2316305 - 财政年份:2023
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
III: Small: Predictive Modeling from High-Dimensional, Sparsely and Irregularly Sampled, Longitudinal Data
III:小:根据高维、稀疏和不规则采样的纵向数据进行预测建模
- 批准号:
2226025 - 财政年份:2022
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
III: Small: RUI: Collaborative Research: Modeling Pre- and Post- Conditions for Understanding Events
III:小:RUI:协作研究:为理解事件建模前后条件
- 批准号:
2007128 - 财政年份:2020
- 资助金额:
$ 49.55万 - 项目类别:
Interagency Agreement
III: Small: Collaborative Research: Modeling Pre- and Post- Conditions for Understanding Events
III:小:协作研究:为理解事件建模前置条件和后置条件
- 批准号:
2007290 - 财政年份:2020
- 资助金额:
$ 49.55万 - 项目类别:
Continuing Grant
III: Small: Collaborative Research: Social Media Based Analysis of Adverse Drug Events: User Modeling, Signal Reliability, and Signal Validation
III:小:协作研究:基于社交媒体的药物不良事件分析:用户建模、信号可靠性和信号验证
- 批准号:
2039915 - 财政年份:2020
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: Modeling and Managing Extremist Group Influence in Massive Social Media Networks
III:小型:协作研究:在大规模社交媒体网络中建模和管理极端主义团体的影响力
- 批准号:
1909252 - 财政年份:2019
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: Modeling and Managing Extremist Group Influence in Massive Social Media Networks
III:小型:协作研究:在大规模社交媒体网络中建模和管理极端主义团体的影响力
- 批准号:
1909255 - 财政年份:2019
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
III: Small: Modeling Multi-Level Connectivity of Brain Dynamics
III:小:模拟大脑动力学的多级连接
- 批准号:
1908299 - 财政年份:2019
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: Building Subjective Knowledge Bases by Modeling Viewpoints
III:小:协作研究:通过建模观点构建主观知识库
- 批准号:
1814955 - 财政年份:2018
- 资助金额:
$ 49.55万 - 项目类别:
Standard Grant