RIA: A Testbed for the Application of Corpus Linguistics to Information Retrieval
RIA:语料库语言学在信息检索中应用的测试平台
基本信息
- 批准号:9409263
- 负责人:
- 金额:$ 10.49万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:1994
- 资助国家:美国
- 起止时间:1994-08-15 至 1998-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Rapidly increasing storage media capabilities and spreading interconnectivity have heralded the arrival of the information age. Unfortunately, accessing online information remains an inexact science. While valuable information can be found, typically many irrelevant documents are also retrieved and many relevant ones are missed. Terminology mismatches between the user's query and document contents are one cause of retrieval failures. Expanding a user's query with related words can improve search performance, but the problem of identifying related words remains. This research uses corpus linguistics techniques to automatically discover word similarities directly from the contents of an untagged textual database and to incorporate that information in an information retrieval system. These similarities are calculated based on the contexts in which the words appear. Using these similarities, user queries are automatically expanded, resulting in conceptual retrieval rather than requiring exact word matches between queries and documents. The effects of using different algorithms to calculate the similarities and the effects of expanding different sets of query words is evaluated. In addition, the search performance of the retrieval engine serves as a task-based method for comparing the quality of word-word similarities calculated using different corpus linguistics techniques.
快速增长的存储介质容量和不断扩展的互连性预示着信息时代的到来。 不幸的是,获取在线信息仍然是一门不精确的科学。 虽然可以找到有价值的信息,但通常也会检索到许多不相关的文档,并且会遗漏许多相关的文档。 用户查询和文档内容之间的术语不匹配是检索失败的原因之一。 使用相关词扩展用户查询可以提高搜索性能,但识别相关词的问题仍然存在。 本研究使用语料库语言学技术,自动发现词的相似性直接从一个未标记的文本数据库的内容,并将该信息在信息检索系统。 这些相似性是根据单词出现的上下文计算的。 使用这些相似性,用户查询自动扩展,导致概念检索,而不是要求查询和文档之间的精确单词匹配。 评估了使用不同算法计算相似度的效果以及扩展不同查询词集的效果。 此外,检索引擎的搜索性能作为一种基于任务的方法,用于比较使用不同语料库语言学技术计算的词-词相似度的质量。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Susan Gauch其他文献
An Anatomical Ontology for Amphibians
两栖动物的解剖本体论
- DOI:
10.1142/9789812772435_0035 - 发表时间:
2006 - 期刊:
- 影响因子:0
- 作者:
A. Maglia;Jennifer L. Leopold;L. A. Pugener;Susan Gauch - 通讯作者:
Susan Gauch
VIDSEEK: Dynamic Multi-dimensional Browsing of Video Archives
VIDSEEK:视频档案的动态多维浏览
- DOI:
- 发表时间:
2003 - 期刊:
- 影响因子:0
- 作者:
Kok Meng Pua;Susan Gauch;J. Gauch - 通讯作者:
J. Gauch
Associated biological information retrieval from distributed databases
从分布式数据库检索相关生物信息
- DOI:
- 发表时间:
1998 - 期刊:
- 影响因子:0
- 作者:
Mousheng Xu;Susan Gauch - 通讯作者:
Susan Gauch
Intelligent Information Agents for the World Wide Web
万维网的智能信息代理
- DOI:
- 发表时间:
2003 - 期刊:
- 影响因子:0
- 作者:
E. Casasola;Susan Gauch - 通讯作者:
Susan Gauch
An Intelligent Information Retrieval System using Automatic Word Sense Disambiguation
一种自动词义消歧的智能信息检索系统
- DOI:
10.1515/jisys.2007.16.2.135 - 发表时间:
2007 - 期刊:
- 影响因子:3
- 作者:
P. Ramasubramanian;A. Agah;Susan Gauch - 通讯作者:
Susan Gauch
Susan Gauch的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Susan Gauch', 18)}}的其他基金
Collaborative Research: CI-ADDO-EN: Semantic CiteseerX
合作研究:CI-ADDO-EN:语义 CiteseerX
- 批准号:
0958123 - 财政年份:2010
- 资助金额:
$ 10.49万 - 项目类别:
Continuing Grant
III: EAGER: Mapping Three-Dimensional Virtual Worlds
III:EAGER:绘制三维虚拟世界
- 批准号:
1050801 - 财政年份:2010
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
Supporting Students Attending the 2008 Adaptive Hypermedia Doctoral Consortium
支持参加 2008 年自适应超媒体博士联盟的学生
- 批准号:
0824712 - 财政年份:2008
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
CRI: Collaborative: Next Generation CiteSeer
CRI:协作:下一代 CiteSeer
- 批准号:
0800562 - 财政年份:2007
- 资助金额:
$ 10.49万 - 项目类别:
Continuing Grant
CRI: Collaborative: Next Generation CiteSeer
CRI:协作:下一代 CiteSeer
- 批准号:
0454121 - 财政年份:2005
- 资助金额:
$ 10.49万 - 项目类别:
Continuing Grant
Biodiversity and Ecosystem Informatics (BDEI): Biodiversity Information Organization Using Taxonomy [BIOT]
生物多样性和生态系统信息学 (BDEI):使用分类法的生物多样性信息组织 [BIOT]
- 批准号:
0131835 - 财政年份:2002
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
CAREER/EPSCoR: Cooperative Agents for Conceptual Search and Browsing of World Wide Web Resources
CAREER/EPSCoR:万维网资源概念搜索和浏览的合作代理
- 批准号:
9703307 - 财政年份:1997
- 资助金额:
$ 10.49万 - 项目类别:
Continuing Grant
相似海外基金
CC*Integration-Large: Programmable Network Testbed for 400 Gbps Science DMZ
CC*Integration-Large:400 Gbps Science DMZ 的可编程网络测试台
- 批准号:
2346605 - 财政年份:2024
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
Collaborative Research: SWIFT-SAT: INtegrated Testbed Ensuring Resilient Active/Passive CoexisTence (INTERACT): End-to-End Learning-Based Interference Mitigation for Radiometers
合作研究:SWIFT-SAT:确保弹性主动/被动共存的集成测试台 (INTERACT):基于端到端学习的辐射计干扰缓解
- 批准号:
2332661 - 财政年份:2024
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
Automated Testbed for Building Systems Components
建筑系统组件自动化测试台
- 批准号:
530641094 - 财政年份:2024
- 资助金额:
$ 10.49万 - 项目类别:
Major Research Instrumentation
Collaborative Research: SWIFT-SAT: INtegrated Testbed Ensuring Resilient Active/Passive CoexisTence (INTERACT): End-to-End Learning-Based Interference Mitigation for Radiometers
合作研究:SWIFT-SAT:确保弹性主动/被动共存的集成测试台 (INTERACT):基于端到端学习的辐射计干扰缓解
- 批准号:
2332662 - 财政年份:2024
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
ExCALIBUR HES: Exascale Data Testbed for Simulation, Data Analysis & Visualisation
ExCALIBUR HES:用于仿真、数据分析的百亿亿次数据测试台
- 批准号:
EP/Y004051/1 - 财政年份:2023
- 资助金额:
$ 10.49万 - 项目类别:
Research Grant
Enhancing cellulase activity through single-molecule imaging and protein engineering as a testbed for understanding and improving enzymatic deconstruction of insoluble substrates
通过单分子成像和蛋白质工程增强纤维素酶活性,作为理解和改进不溶性底物酶解构的测试平台
- 批准号:
2301377 - 财政年份:2023
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
How well can we predict future changes in biodiversity using machine learning? Experiments in an eco-evolutionary testbed.
我们如何利用机器学习来预测生物多样性的未来变化?
- 批准号:
2890191 - 财政年份:2023
- 资助金额:
$ 10.49万 - 项目类别:
Studentship
A National-Scale Testbed Supporting Artificial Intelligence Research Spanning the Computing Continuum
支持跨越计算连续体的人工智能研究的国家级测试平台
- 批准号:
2331263 - 财政年份:2023
- 资助金额:
$ 10.49万 - 项目类别:
Continuing Grant
ExCALIBUR H&ES: Intel Xeon GPU Max Pre-Exascale Testbed
神剑H
- 批准号:
EP/Y028082/1 - 财政年份:2023
- 资助金额:
$ 10.49万 - 项目类别:
Research Grant
6G Sub-Terahertz Software Defined Radio Testbed
6G 亚太赫兹软件定义无线电测试台
- 批准号:
EP/X030016/1 - 财政年份:2023
- 资助金额:
$ 10.49万 - 项目类别:
Research Grant