Lodie,Web Scale Information Extraction via Linked Open Data

Lodie,通过链接开放数据提取网络规模信息

基本信息

  • 批准号:
    EP/J019488/1
  • 负责人:
  • 金额:
    $ 68.87万
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Research Grant
  • 财政年份:
    2012
  • 资助国家:
    英国
  • 起止时间:
    2012 至 无数据
  • 项目状态:
    已结题

项目摘要

The World Wide Web provides access to tens of billions of pages. These pages contain information that is largely unstructured and only intended for human readability, however we are reliant on computers "reading" these pages in order to find the information we need. The proposed research intends to develop technologies to radically improve the billions of searches which are performed every day by fulfilling the initial vision, by Tim Berners-Lee, for a Web where the webpage content is readable by both humans and machines. Such a vision, disregarded during the initial development of the Web, has now come back in the form of the Web of Data, or Linked Open Data (LOD), where billions of pieces of information are linked together and made available for automated processing. There is however a lack of interconnection between the information in the webpages and that in LOD. A number of initiatives, like RDFa (supported by W3C) or Microformats (used by schema.org and supported by major search engines) are trying to enable machines to make sense of the information contained in human readable pages by providing the ability to annotate webpage content with links into LOD.While the current state of the art in Web Information Extraction (IE) relies on domain specific training data or generic extraction patterns, by leveraging LOD the proposed research aims to develop IE methodologies and technologies providing pervasive, user-driven, Web-scale information extraction where the target of the IE is defined by the user information needs and aimed at the billions of available Web documents covering an unlimited number of domains.In this research we aim to develop models and algorithms to create a continuum between LOD and the human readable Web. The approach will utilise wealth of facts available from LOD and the limited number of pages annotated with RDFa/Microformats to learn to connect unannotated webpage content to the LOD cloud. This will provide the reciprocal advantages of: (i) enabling the search of Web pages via the unambiguous LOD instances and concepts, and (ii) the extension of the LOD with the wealth of information available from webpage content.The key challenge is the development of efficient, Web-scale, semi-supervised, iterative learning methods able to use the initial "seed" data and annotations, by generating models which exploit: (i) the local and global information regularities (e.g. structured information in tables, as well as pages and site-wide regularities); (ii) the redundancy (or repetition) of information; (iii) any ontological restrictions available in LOD. As the learning methods iterate from known interconnections to infer new connections they must cope with the massive amount of noise generated by the number and variety of documents, domains and facts available.In addition to publishing the research and its findings the IE methods developed will be tested on the task of extracting information relevant to schema.org (a task currently promoted by large search engines companies such as Google and Bing) as well as in international public evaluations. As part of such evaluations the project will generate at least one publicly available, Web-scale IE task (inclusive of corpora, linked resources, etc.) to enable comparison of research results by other researchers.The project aims to impact the fields of Natural Language Processing, Machine Learning, Information Retrieval and Web and Semantic Technologies by exploring the extraction of information in Web-scale, user-driven tasks. Success in the project will enable new ways of both creating/using the LOD and providing a paradigm shift in the way information can be retrieved from the Web; away from a reliance on keywords and towards the search and exploration of the concepts and meaning (semantics) embedded in those words.
万维网提供对数百亿个页面的访问。这些页面包含的信息基本上是非结构化的,只适合人类阅读,但我们依赖于计算机“阅读”这些页面,以找到我们需要的信息。拟议的研究旨在开发技术,从根本上改善每天执行的数十亿次搜索,实现Tim Berners-Lee的最初愿景,即网页内容可由人类和机器读取的Web。这种愿景在Web的最初发展过程中被忽视,现在以数据网络或链接开放数据(LOD)的形式回归,其中数十亿条信息被链接在一起并可用于自动化处理。然而,网页中的信息与LOD中的信息之间缺乏相互联系。许多倡议,如RDFa(由W3C支持)或Microformats(由www.example.com使用schema.org,并由主要搜索引擎支持)正在尝试通过提供注释网页内容的能力来理解人类可读页面中包含的信息。虽然Web信息提取(IE)的当前技术水平依赖于特定于域的训练数据或通用提取模式,通过利用LOD,拟议的研究旨在开发IE方法和技术,提供普遍的,用户驱动的,网络-规模信息抽取,其中IE的目标由用户信息需求定义,并且针对覆盖无限数量域的数十亿可用Web文档。在本研究中,旨在开发模型和算法,以创建LOD和人类可读Web之间的连续体。该方法将利用LOD提供的大量事实和RDFa/Microformats注释的有限数量的页面来学习将未注释的网页内容连接到LOD云。这将提供以下互惠优势:(i)通过明确的LOD实例和概念实现网页搜索,以及(ii)通过网页内容中的丰富信息扩展LOD。关键挑战是开发高效的、Web规模的、半监督的、迭代学习方法,该方法能够使用初始“种子”数据和注释,通过生成模型,该模型利用:(i)局部和全局信息库(例如,表格中的结构化信息,以及页面和站点范围内的结构化信息);(ii)信息的冗余(或重复);(iii)LOD中可用的任何本体论限制。当学习方法从已知的互连迭代到推断新的连接时,它们必须科普可用文档、域和事实的数量和种类所产生的大量噪音。除了发布研究及其发现之外,开发的IE方法将在提取与schema.org相关的信息的任务(该任务目前由Google和Bing等大型搜索引擎公司推广)以及国际公共评估中进行测试。作为此类评估的一部分,该项目将产生至少一个公开的、网络规模的IE任务(包括语料库、链接资源等)。该项目旨在通过探索Web规模的用户驱动任务中的信息提取来影响自然语言处理,机器学习,信息检索以及Web和语义技术等领域。该项目的成功将使创建/使用LOD的新方法成为可能,并提供从Web检索信息的方式的范式转变;远离对关键字的依赖,并转向搜索和探索嵌入在这些单词中的概念和含义(语义)。

项目成果

期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
LODIE: Linked Open Data for Web-scale Information Extraction
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    F. Ciravegna;Anna Lisa Gentile;Ziqi Zhang
  • 通讯作者:
    F. Ciravegna;Anna Lisa Gentile;Ziqi Zhang
Unsupervised wrapper induction using linked data
Distantly supervised Web relation extraction for knowledge base population
  • DOI:
    10.3233/sw-150180
  • 发表时间:
    2016-01-01
  • 期刊:
  • 影响因子:
    3
  • 作者:
    Augenstein, Isabelle;Maynard, Diana;Ciravegna, Fabio
  • 通讯作者:
    Ciravegna, Fabio
Seed Selection for Distantly Supervised Web-Based Relation Extraction
  • DOI:
    10.3115/v1/w14-6203
  • 发表时间:
    2014-08
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Isabelle Augenstein
  • 通讯作者:
    Isabelle Augenstein
Joint Information Extraction from the Web Using Linked Data
  • DOI:
    10.1007/978-3-319-11915-1_32
  • 发表时间:
    2014-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Isabelle Augenstein
  • 通讯作者:
    Isabelle Augenstein
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Fabio Ciravegna其他文献

Fabio Ciravegna的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Fabio Ciravegna', 18)}}的其他基金

RAnDMS (Real time Analysis of Digital Media Streams)
RAnDMS(数字媒体流实时分析)
  • 批准号:
    EP/J020583/1
  • 财政年份:
    2012
  • 资助金额:
    $ 68.87万
  • 项目类别:
    Research Grant

相似国自然基金

面向Web3D虚拟学习空间的教育智能体系统构建与应用
  • 批准号:
    2025JJ80330
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于Web3D元宇宙的实时渲染关键技术研究和应用
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于语义理解的多轮多约束Web服务推荐技术
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
Web大数据环境下基于迁移学习的跨领域推荐研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
数据智能驱动的泛在Web应用服务质量优化方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于侧信道分析的Web站点指纹识别技术研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于时间意图的地表覆盖Web 信息发现方法研究
  • 批准号:
    2021JJ40721
  • 批准年份:
    2021
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
恶劣条件下Web服务QoS预测与QoS确保的服务组合卸载方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    58 万元
  • 项目类别:
    面上项目
多模态Web信息检索排序学习方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
基于行为图谱的大规模web流量群体识别算法研究与应用
  • 批准号:
    2020JJ7015
  • 批准年份:
    2020
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目

相似海外基金

Web Scale Trustworthy Data for Machine Learning
用于机器学习的网络规模可信数据
  • 批准号:
    10065617
  • 财政年份:
    2023
  • 资助金额:
    $ 68.87万
  • 项目类别:
    Collaborative R&D
Web-Scale Semantic Image and Video Understanding
网络规模的语义图像和视频理解
  • 批准号:
    RGPIN-2018-04657
  • 财政年份:
    2022
  • 资助金额:
    $ 68.87万
  • 项目类别:
    Discovery Grants Program - Individual
TOPIC 408: TOOLS AND TECHNOLOGIES FOR VISUALIZING MULTI-SCALE DATAPROJECT TITLE: SIMBIOSYS PHENOSCOPE: A CLOUD-ENABLED, WEB-BASED PORTAL FOR RAW AND
主题 408:用于可视化多尺度数据的工具和技术项目名称:SIMBIOSYS PHENOSCOPE:支持云的、基于 Web 的原始和数据门户
  • 批准号:
    10700371
  • 财政年份:
    2022
  • 资助金额:
    $ 68.87万
  • 项目类别:
Negative Knowledge at Web Scale
网络规模的负面知识
  • 批准号:
    453095897
  • 财政年份:
    2021
  • 资助金额:
    $ 68.87万
  • 项目类别:
    Research Grants
Cognitive mechanisms underlying synesthetic metaphors and synesthesia :A large-scale web experiment
联觉隐喻和联觉背后的认知机制:大规模网络实验
  • 批准号:
    21H00960
  • 财政年份:
    2021
  • 资助金额:
    $ 68.87万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Web-Scale Semantic Image and Video Understanding
网络规模的语义图像和视频理解
  • 批准号:
    RGPIN-2018-04657
  • 财政年份:
    2021
  • 资助金额:
    $ 68.87万
  • 项目类别:
    Discovery Grants Program - Individual
Web-Scale Semantic Image and Video Understanding
网络规模的语义图像和视频理解
  • 批准号:
    RGPIN-2018-04657
  • 财政年份:
    2020
  • 资助金额:
    $ 68.87万
  • 项目类别:
    Discovery Grants Program - Individual
Looking at People and Web-Scale Image Analysis
观察人物和网络规模的图像分析
  • 批准号:
    RGPIN-2015-05630
  • 财政年份:
    2019
  • 资助金额:
    $ 68.87万
  • 项目类别:
    Discovery Grants Program - Individual
Web-Scale Semantic Image and Video Understanding
网络规模的语义图像和视频理解
  • 批准号:
    RGPIN-2018-04657
  • 财政年份:
    2019
  • 资助金额:
    $ 68.87万
  • 项目类别:
    Discovery Grants Program - Individual
Web-Scale Semantic Image and Video Understanding
网络规模的语义图像和视频理解
  • 批准号:
    522579-2018
  • 财政年份:
    2019
  • 资助金额:
    $ 68.87万
  • 项目类别:
    Discovery Grants Program - Accelerator Supplements
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了