III-COR-Small: Beyond Keyword Search: Enabling Diverse Structured Query Paradigms over Text Databases
III-COR-Small:超越关键字搜索:在文本数据库上启用多样化的结构化查询范式
基本信息
- 批准号:0811038
- 负责人:
- 金额:$ 44.9万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2008
- 资助国家:美国
- 起止时间:2008-09-01 至 2013-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
The text available on the Web and beyond embeds unprecedented volumesof valuable structured data, "hidden" in natural language. Forexample, a news article might discuss an outbreak of an infectiousdisease, reporting the name of the disease, the number of peopleaffected, and the geographical regions involved. Keyword search, theprevalent query paradigm for text, is often insufficiently expressivefor complex information needs that require structured data embedded intext. For such needs, users (e.g., an epidemiologist compilingstatistics, as reported in the media, on recent foodborne diseaseoutbreaks in a remote country) are forced to embark in labor-intensivecycles of keyword-based document retrieval and manual documentfiltering, until they locate the appropriate (structured) information.To move beyond keyword search, this project exploits informationextraction technology, which identifies structured data in text, toenable structured querying. To capture diverse user information needsand depart from a "one-size-fits-all" querying approach, which isinappropriate for this extraction-based scenario, this projectexplores a wealth of structured query paradigms: sometimes users(e.g., a high-school student in need of some quick examples andstatistics for a report on recent salmonella outbreaks in developingcountries) are after a few exploratory results, which should bereturned fast; some other times, users (e.g., the above epidemiologistinvestigating foodborne diseases) are after comprehensive results, forwhich waiting a longer time is acceptable. The project developsspecialized cost-based query optimizers for each query paradigm,accounting for the efficiency and, critically, the result quality ofthe query execution plans. The technology produced will assist a vastrange of users and information needs, by enabling efficient, diverseinteractions with text databases -- for sophisticated searching anddata mining -- that are cumbersome or impossible with today'stechnology. The research and educational components of the projectwill rely on -- and encourage -- a tight integration of threecomplementary Computer Science disciplines, namely, natural languageprocessing, information retrieval, and databases. The project willalso provide data sets and source code, for experimentation andevaluation, to the community at large over the Web (http://extraction.cs.columbia.edu/).
网络上的文本和其他文本都嵌入了前所未有的大量有价值的结构化数据,这些数据“隐藏”在自然语言中。例如,一篇新闻文章可能会讨论一种传染病的爆发,报道疾病的名称、受影响的人数和涉及的地理区域。 关键字搜索是文本的普遍查询范式,但对于需要结构化数据嵌入文本的复杂信息需求来说,它往往表现力不足。对于这些需求,用户(例如,正如媒体报道的那样,一位流行病学家正在编制有关最近偏远国家食源性疾病爆发的统计数据)被迫进入基于关键字的文档检索和手动文档过滤的劳动密集型周期,直到找到适当的(结构化)信息。为了超越关键字搜索,该项目利用信息提取技术,识别文本中的结构化数据,以实现结构化查询。为了捕获不同的用户信息需求,并摆脱“一刀切”的查询方法,这是不适合这种基于提取的场景,该项目探索了丰富的结构化查询范例:有时用户(例如,一名高中生需要一些快速的例子和统计数据来报告最近在发展中国家爆发的沙门氏菌)是在一些探索性的结果之后,这些结果应该被快速返回;其他时候,用户(例如,上述流行病学家(负责调查食源性疾病的专家)正在等待全面的结果,因此等待较长时间是可以接受的。 该项目为每个查询范例开发了专门的基于成本的查询优化器,考虑了查询执行计划的效率和关键的结果质量。 所产生的技术将有助于大量的用户和信息需求,通过实现与文本数据库的有效,多样化的交互-用于复杂的搜索和数据挖掘-这在今天的技术中是繁琐或不可能的。 该项目的研究和教育部分依赖于-并鼓励-三个互补的计算机科学学科,即自然语言处理,信息检索和数据库的紧密结合。该项目还将通过网络(http://extraction.cs.columbia.edu/)向整个社区提供数据集和源代码,用于实验和评估。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Luis Gravano其他文献
The Stanford Digital Library metadata architecture
- DOI:
10.1007/s007990050008 - 发表时间:
1997-09-01 - 期刊:
- 影响因子:1.700
- 作者:
Michelle Baldonado;Chen-Chuan K. Chang;Luis Gravano;Andreas Paepcke - 通讯作者:
Andreas Paepcke
Luis Gravano的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Luis Gravano', 18)}}的其他基金
III: Medium: Adaptive Information Extraction from Social Media for Actionable Inferences in Public Health
III:媒介:从社交媒体中自适应信息提取,用于公共卫生领域的可行推论
- 批准号:
1563785 - 财政年份:2016
- 资助金额:
$ 44.9万 - 项目类别:
Continuing Grant
III: Small: Collaborative Research: Detection and Presentation of Community and Global Event Content from Social Media Sources
III:小型:协作研究:从社交媒体源检测和呈现社区和全球活动内容
- 批准号:
1017389 - 财政年份:2010
- 资助金额:
$ 44.9万 - 项目类别:
Standard Grant
CAREER: Querying Information Sources Across The Internet
职业:通过互联网查询信息源
- 批准号:
9733880 - 财政年份:1998
- 资助金额:
$ 44.9万 - 项目类别:
Continuing Grant
相似国自然基金
新型载 COR 磁性 PLGA 纳米粒联合超声辐照
保护糖尿病肾病足细胞的研究
- 批准号:HDMY24H280025
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
棉花冷调控基因COR27(GhCOR27)响应低温胁迫的调控机理研究
- 批准号:32260449
- 批准年份:2022
- 资助金额:33 万元
- 项目类别:地区科学基金项目
白菜花粉响应低温胁迫的lncRNA-BrCBF4-COR基因调控通路研究
- 批准号:31972418
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
白桦冷驯化过程中转录因子BpERF98调控COR基因的研究
- 批准号:31870659
- 批准年份:2018
- 资助金额:60.0 万元
- 项目类别:面上项目
CMA通过N-CoR/UPR通路对胶质母细胞瘤凋亡的调控作用及其机制研究
- 批准号:81502139
- 批准年份:2015
- 资助金额:18.0 万元
- 项目类别:青年科学基金项目
十字花科COR15基因独立重复后重复基因的功能进化
- 批准号:31070208
- 批准年份:2010
- 资助金额:30.0 万元
- 项目类别:面上项目
播娘蒿CBF和COR抗寒基因网络在油菜中的重构
- 批准号:30971817
- 批准年份:2009
- 资助金额:32.0 万元
- 项目类别:面上项目
播娘蒿CBF和COR抗寒基因结构及表达与其抗寒性
- 批准号:30771312
- 批准年份:2007
- 资助金额:28.0 万元
- 项目类别:面上项目
X-cor增强泡沫芯复合材料夹层板的刚度和损伤演化分析
- 批准号:10572116
- 批准年份:2005
- 资助金额:36.0 万元
- 项目类别:面上项目
相似海外基金
III-COR-Small: Relational Data Community Discovery and Learning
III-COR-Small:关系数据社区发现和学习
- 批准号:
0812114 - 财政年份:2009
- 资助金额:
$ 44.9万 - 项目类别:
Standard Grant
III-COR-Small: Towards More Flexible, Expressive and Robust Stream Systems
III-COR-Small:迈向更灵活、更具表现力和稳健的流系统
- 批准号:
0917349 - 财政年份:2009
- 资助金额:
$ 44.9万 - 项目类别:
Standard Grant
III-COR-Small: Collaborative Research: Time Series Subsequence Matching for Content-based Access in Very Large Multimedia Databases
III-COR-Small:协作研究:超大型多媒体数据库中基于内容的访问的时间序列子序列匹配
- 批准号:
0812309 - 财政年份:2008
- 资助金额:
$ 44.9万 - 项目类别:
Continuing Grant
III-COR-Small: Bootstrapping Adaptive Personalized Music Search with Game-based Collaborative Tagging
III-COR-Small:通过基于游戏的协作标记引导自适应个性化音乐搜索
- 批准号:
0812314 - 财政年份:2008
- 资助金额:
$ 44.9万 - 项目类别:
Standard Grant
III-COR - Small: Searchable and Shareable Visually Observed Knowledge Base
III-COR - 小:可搜索和可共享的视觉观察知识库
- 批准号:
0812515 - 财政年份:2008
- 资助金额:
$ 44.9万 - 项目类别:
Continuing Grant
III-Small-COR: Automatic Construction of Artifact-based Workflows
III-Small-COR:基于工件的工作流程的自动构建
- 批准号:
0812578 - 财政年份:2008
- 资助金额:
$ 44.9万 - 项目类别:
Standard Grant
III-COR-Small: Collaborative Research: Time Series Subsequence Matching for Content-based Access in Very Large Multimedia Databases
III-COR-Small:协作研究:超大型多媒体数据库中基于内容的访问的时间序列子序列匹配
- 批准号:
0812601 - 财政年份:2008
- 资助金额:
$ 44.9万 - 项目类别:
Continuing Grant
III-COR-small: Harvesting Concept Hierarchies from Social Data
III-COR-small:从社交数据中收获概念层次结构
- 批准号:
0812677 - 财政年份:2008
- 资助金额:
$ 44.9万 - 项目类别:
Standard Grant
III-COR-Small: Managing Discoveries in Visual Analytics
III-COR-Small:管理可视化分析中的发现
- 批准号:
0812027 - 财政年份:2008
- 资助金额:
$ 44.9万 - 项目类别:
Continuing Grant
III-COR-Small: Social Integration of Semantic Annotation Networks for Web Applications
III-COR-Small:Web 应用程序语义注释网络的社交集成
- 批准号:
0811994 - 财政年份:2008
- 资助金额:
$ 44.9万 - 项目类别:
Standard Grant