CAREER: Web Information Extraction: Integration and Scaling

职业:Web 信息提取:集成和扩展

基本信息

  • 批准号:
    1351029
  • 负责人:
  • 金额:
    $ 55万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2014
  • 资助国家:
    美国
  • 起止时间:
    2014-09-01 至 2020-08-31
  • 项目状态:
    已结题

项目摘要

This project studies Web Information Extraction (WIE), the task of automatically extracting computer-understandable knowledge bases (KBs) from the World Wide Web. The project addresses two key challenges in WIE. First, many different teams in academia and industry are pursuing WIE, but they lack methods for combining their KBs into a more powerful whole. This project explores how to integrate knowledge automatically across WIE systems and approaches. Secondly, a long-standing goal for WIE is to construct systems that can scale to billions of facts, by continually improving themselves over time. This project is investigating new methods that continually optimize a WIE system with limited human intervention. The project's goal of scaling and integrating WIE systems promises to address needs in the research community, the computing industry, and the public. Methods that allow different WIE systems to seamlessly exchange knowledge could dramatically hasten the progress of Web extraction efforts currently underway in academia and industry. For the public, advances in Web extraction promise to enable improved search engines that can assist users with tasks and answer complex questions. Further, through application prototypes, the project will provide public-facing information retrieval tools that promise to help users retrieve, understand, and analyze the Web's knowledge more rapidly. The project's research is also integrated with an education plan that includes outreach to underrepresented groups.The technical solutions pursued in the project utilize probability distributions over natural language. For the integration challenge, the project is developing new Application Programming Interfaces (APIs) that leverage the expressiveness of natural language to automatically integrate current and future WIE systems, even when the systems extract from different types of corpora and represent knowledge in different ways. For the scaling challenge, the project is developing ways to continually optimize new Statistical Language Models (SLMs) over text on the Web. The project investigates the SLM approach for WIE theoretically, asking what types of knowledge different SLMs can encode, and how much text is required to obtain the knowledge. Further, the project introduces new SLM capabilities, including methods for scaling to larger corpora and more semantic classes, and novel models that incorporate collocations, quantitative attributes, sense disambiguation, and actively-selected human input. The project web site (http://websail.eecs.northwestern.edu/wie/) provides additional information and access to results, including software, corpora, and evaluation data sets.
本项目研究Web信息抽取(WIE),即从万维网中自动抽取计算机可理解的知识库(KBS)的任务。该项目解决了WIE面临的两个关键挑战。首先,学术界和工业界的许多不同团队都在追求WIE,但他们缺乏将他们的KBS组合成一个更强大的整体的方法。该项目探索如何跨WIE系统和方法自动集成知识。其次,WIE的一个长期目标是通过随着时间的推移不断改进自己,构建能够扩展到数十亿事实的系统。该项目正在研究在有限人工干预的情况下持续优化WIE系统的新方法。该项目的目标是扩展和集成WIE系统,承诺满足研究社区、计算行业和公众的需求。允许不同WIE系统无缝交换知识的方法可以极大地加快目前学术界和工业界正在进行的Web提取工作的进展。对于公众来说,网络提取的进步有望实现更好的搜索引擎,帮助用户完成任务并回答复杂的问题。此外,通过应用程序原型,该项目将提供面向公众的信息检索工具,承诺帮助用户更快地检索、理解和分析Web知识。该项目的研究还与一项教育计划相结合,该计划包括对代表人数不足的群体进行推广。该项目所追求的技术解决方案利用自然语言的概率分布。对于集成挑战,该项目正在开发新的应用程序编程接口(API),该接口利用自然语言的表达能力来自动集成当前和未来的WIE系统,即使这些系统从不同类型的语料库中提取并以不同的方式表示知识。对于可伸缩性的挑战,该项目正在开发方法,以不断优化新的统计语言模型(SLM),而不是Web上的文本。该项目从理论上研究了WIE的SLM方法,询问不同的SLM可以编码哪些类型的知识,以及需要多少文本才能获得这些知识。此外,该项目引入了新的SLM能力,包括扩展到更大语料库和更多语义类别的方法,以及纳入搭配、量化属性、意义消除歧义和主动选择的人类输入的新模型。项目网站(http://websail.eecs.northwestern.edu/wie/))提供更多信息,并提供对结果的访问,包括软件、语料库和评价数据集。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Douglas Downey其他文献

Douglas Downey的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Douglas Downey', 18)}}的其他基金

RI: Small: Extracting and Representing Commonsense Knowledge Using Language Models
RI:小:使用语言模型提取和表示常识知识
  • 批准号:
    2006851
  • 财政年份:
    2020
  • 资助金额:
    $ 55万
  • 项目类别:
    Standard Grant
RI: Medium: Collaborative Research: Learning Representations of Language for Domain Adaptation
RI:媒介:协作研究:学习领域适应的语言表示
  • 批准号:
    1065270
  • 财政年份:
    2011
  • 资助金额:
    $ 55万
  • 项目类别:
    Continuing Grant
III: Small: Active Learning of Language Models for Information Extraction
三:小:用于信息提取的语言模型的主动学习
  • 批准号:
    1016754
  • 财政年份:
    2010
  • 资助金额:
    $ 55万
  • 项目类别:
    Standard Grant

相似国自然基金

面向Web3D虚拟学习空间的教育智能体系统构建与应用
  • 批准号:
    2025JJ80330
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于Web3D元宇宙的实时渲染关键技术研究和应用
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于语义理解的多轮多约束Web服务推荐技术
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
Web大数据环境下基于迁移学习的跨领域推荐研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
数据智能驱动的泛在Web应用服务质量优化方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于侧信道分析的Web站点指纹识别技术研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于时间意图的地表覆盖Web 信息发现方法研究
  • 批准号:
    2021JJ40721
  • 批准年份:
    2021
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
恶劣条件下Web服务QoS预测与QoS确保的服务组合卸载方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    58 万元
  • 项目类别:
    面上项目
多模态Web信息检索排序学习方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
基于行为图谱的大规模web流量群体识别算法研究与应用
  • 批准号:
    2020JJ7015
  • 批准年份:
    2020
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目

相似海外基金

Construction of Future-oriented Curriculum Bridging Information Education System with Web-based Experiential Information Heritage Exhibition
以网络体验式信息遗产展构建面向未来的课程桥接信息教育体系
  • 批准号:
    23H00972
  • 财政年份:
    2023
  • 资助金额:
    $ 55万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Methods for Bias-Free Information Gathering from Web and Crowds
从网络和人群中无偏见信息收集的方法
  • 批准号:
    23H03405
  • 财政年份:
    2023
  • 资助金额:
    $ 55万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
An all-in-one web server for RNA structure prediction using evolutionary information
一种使用进化信息预测 RNA 结构的一体化网络服务器
  • 批准号:
    10574944
  • 财政年份:
    2023
  • 资助金额:
    $ 55万
  • 项目类别:
Development of Information Provision System Using Web-AR Technology for Sustainable Natural Resource Management
利用Web-AR技术开发可持续自然资源管理信息提供系统
  • 批准号:
    22K12623
  • 财政年份:
    2022
  • 资助金额:
    $ 55万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Information interaction to promote critical web information seeking
信息交互促进关键网络信息搜索
  • 批准号:
    21H03554
  • 财政年份:
    2021
  • 资助金额:
    $ 55万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Diverse Information Mining and Search Interaction for Critical Web Search
关键网络搜索的多样化信息挖掘和搜索交互
  • 批准号:
    21H03774
  • 财政年份:
    2021
  • 资助金额:
    $ 55万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Three-dimensional modeling and web-sharing of subsurface geological information in urban areas using borehole data
利用钻孔数据对城市地区地下地质信息进行三维建模和网络共享
  • 批准号:
    19K04004
  • 财政年份:
    2019
  • 资助金额:
    $ 55万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Applying semantic web technology to information of trait data in plant varieties.
将语义网络技术应用于植物品种性状数据信息中。
  • 批准号:
    19K06315
  • 财政年份:
    2019
  • 资助金额:
    $ 55万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Task-based Code Completion Using API (Application Programming Interface) Information On the Web
使用 Web 上的 API(应用程序编程接口)信息完成基于任务的代码
  • 批准号:
    503095-2017
  • 财政年份:
    2019
  • 资助金额:
    $ 55万
  • 项目类别:
    Postdoctoral Fellowships
Deep Learning Approaches to Extract Information from Web data
从网络数据中提取信息的深度学习方法
  • 批准号:
    539690-2019
  • 财政年份:
    2019
  • 资助金额:
    $ 55万
  • 项目类别:
    University Undergraduate Student Research Awards
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了