Visual AI: An Open World Interpretable Visual Transformer

视觉人工智能:开放世界的可解释视觉转换器

基本信息

  • 批准号:
    EP/T028572/1
  • 负责人:
  • 金额:
    $ 753.32万
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Research Grant
  • 财政年份:
    2020
  • 资助国家:
    英国
  • 起止时间:
    2020 至 无数据
  • 项目状态:
    未结题

项目摘要

With the advent of deep learning and the availability of big data, it is now possible to train machine learning algorithms for a multitude of visual tasks, such as tagging personal image collections in the cloud, recognizing faces, and 3D shape scanning with phones. However, each of these tasks currently requires training a neural network on a very large image dataset specifically collected and labelled for that task. The resulting networks are good experts for the target task, but they only understand the 'closed world' experienced during training and can 'say' nothing useful about other content, nor can they be applied to other tasks without retraining, nor do they have an ability to explain their decisions or to recognise their limitations. Furthermore, current visual algorithms are usually 'single modal', they 'close their ears' to the other modalities (audio, text) that may be readily available.The core objective of the Programme is to develop the next generation of audio-visual algorithms that does not have these limitations. We will carry out fundamental research to develop a Visual Transformer capable of visual analysis with the flexibility and interpretability of a human visual system, and aided by the other 'senses' - audio and text. It will be able to continually learn from raw data streams without requiring the traditional 'strong supervision' of a new dataset for each new task, and deliver and distill semantic and geometric information over a multitude of data types (for example, videos with audio, very large scale image and video datasets, and medical images with text records).The Visual Transformer will be a key component of next generation AI, able to address multiple downstream audio-visual tasks, significantly superseding the current limitations of computer vision systems, and enabling new and far reaching applications.A second objective addresses transfer and translation. We seek impact in a variety of other academic disciplines and industry which today greatly under-utilise the power of the latest computer vision ideas. We will target these disciplines to enable them to leapfrog the divide between what they use (or do not use) today which is dominated by manual review and highly interactive analysis frame-by-frame, to a new era where automated visual analytics of very large datasets becomes the norm. In short, our goal is to ensure that the newly developed methods are used by industry and academic researchers in other areas, and turned into products for societal and economic benefit. To this end open source software, datasets, and demonstrators will be disseminated on the project website.The ubiquity of digital images and videos means that every UK citizen may potentially benefit from the Programme research in different ways. One example is smart audio-visual glasses, that can pay attention to a person talking by using their lip movements to mask out other ambient sounds. A second is an app that can answer visual questions (or retrieve matches) for text-queries over large scale audio-visual collections, such as a person's entire personal videos. A third is AI-guided medical screening, that can aid a minimally trained healthcare professional to perform medical scans.
随着深度学习的出现和大数据的可用性,现在可以训练机器学习算法来完成大量的视觉任务,例如在云中标记个人图像集合、识别人脸和用手机进行3D形状扫描。然而,目前这些任务中的每一个都需要在一个非常大的图像数据集上训练神经网络,该数据集是专门为该任务收集和标记的。由此产生的网络是目标任务的优秀专家,但它们只理解训练期间经历的“封闭世界”,不能“说”任何有用的其他内容,也不能在没有重新训练的情况下应用于其他任务,也没有能力解释自己的决定或认识到自己的局限性。此外,目前的视觉算法通常是“单模态”的,它们对可能随时可用的其他模态(音频、文本)“充耳不闻”。该方案的核心目标是开发没有这些限制的下一代视听算法。我们将进行基础研究,以开发一种视觉转换器,该转换器能够进行视觉分析,具有人类视觉系统的灵活性和可解释性,并辅以其他“感官”-音频和文本。它将能够不断地从原始数据流中学习,而不需要为每个新任务对新数据集进行传统的“强监督”,并在多种数据类型(例如,带有音频的视频,非常大规模的图像和视频数据集,以及带有文本记录的医学图像)上传递和提取语义和几何信息。视觉转换器将成为下一代人工智能的关键组成部分,能够解决多个下游视听任务,显著取代当前计算机视觉系统的局限性,并实现新的和深远的应用。第二个目标涉及迁移和翻译。我们寻求对其他学科和行业的影响,这些学科和行业目前还没有充分利用最新计算机视觉思想的力量。我们将以这些学科为目标,使他们能够跨越他们今天使用(或不使用)的鸿沟,这些鸿沟主要是手工审查和高度交互的逐帧分析,进入一个新的时代,对非常大的数据集进行自动可视化分析成为常态。简而言之,我们的目标是确保新开发的方法被工业和学术研究人员在其他领域使用,并转化为具有社会和经济效益的产品。为此,开源软件、数据集和演示将在项目网站上发布。无处不在的数字图像和视频意味着每个英国公民都可能以不同的方式从该计划的研究中受益。智能视听眼镜就是一个例子,它可以通过一个人的嘴唇运动来掩盖其他环境声音,从而注意到一个人在说话。第二个是一个应用程序,它可以回答视觉问题(或检索匹配),用于大规模视听集合的文本查询,比如一个人的整个个人视频。第三种是人工智能引导的医疗筛查,它可以帮助受过最低限度训练的医疗保健专业人员进行医疗扫描。

项目成果

期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval
WhisperX: Time-Accurate Speech Transcription of Long-Form Audio
WhisperX:长格式音频的时间精确语音转录
  • DOI:
    10.21437/interspeech.2023-78
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Bain M
  • 通讯作者:
    Bain M
Gaze-assisted automatic captioning of fetal ultrasound videos using three-way multi-modal deep neural networks
  • DOI:
    10.1016/j.media.2022.102630
  • 发表时间:
    2022-10-09
  • 期刊:
  • 影响因子:
    10.9
  • 作者:
    Alsharid, Mohammad;Cai, Yifan;Noble, J. Alison
  • 通讯作者:
    Noble, J. Alison
PASS: An ImageNet replacement for self-supervised pretraining without human
PASS:ImageNet 替代自监督预训练,无需人工干预
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Asano, Y
  • 通讯作者:
    Asano, Y
RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Andrew Zisserman其他文献

Visual vocabulary with a semantic twist : Supplementary material
具有语义扭曲的视觉词汇:补充材料
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Relja Arandjelović;Andrew Zisserman
  • 通讯作者:
    Andrew Zisserman
Weakly-supervised Fingerspelling Recognition in British Sign Language Videos
英国手语视频中的弱监督手指拼写识别
  • DOI:
    10.48550/arxiv.2211.08954
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Prajwal K R;Hannah Bull;Liliane Momeni;Samuel Albanie;Gül Varol;Andrew Zisserman
  • 通讯作者:
    Andrew Zisserman
Sampling Methods for Unsupervised Learning
无监督学习的采样方法
A Sparse Object Category Model for Efficient Learning and Complete Recognition
用于高效学习和完整识别的稀疏对象类别模型
  • DOI:
    10.1007/11957959_23
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    R. Fergus;P. Perona;Andrew Zisserman
  • 通讯作者:
    Andrew Zisserman
Learning epipolar geometry from image sequences
从图像序列学习极线几何

Andrew Zisserman的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Andrew Zisserman', 18)}}的其他基金

Seebibyte: Visual Search for the Era of Big Data
Seebibyte:大数据时代的视觉搜索
  • 批准号:
    EP/M013774/1
  • 财政年份:
    2015
  • 资助金额:
    $ 753.32万
  • 项目类别:
    Research Grant
Learning to Recognise Dynamic Visual Content from Broadcast Footage
学习识别广播镜头中的动态视觉内容
  • 批准号:
    EP/I012001/1
  • 财政年份:
    2011
  • 资助金额:
    $ 753.32万
  • 项目类别:
    Research Grant

相似国自然基金

AI心理服务机器人的应用模式构建及推广研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于人工智能(AI)的骨科个性化康复方案设计
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于多参数AI算法和高时空分辨成像技术的难治脑疾病药物筛选方法开发
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
AI驱动的全球城市动物源性病毒溢出风险量化及基线数据库构建研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
面向多模态AI模型的自适应张量计算架构关键技术研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
AI驱动的工业微生物合成元件挖掘与产品智造
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于“治未病”理论构建AI赋能下的肥胖伴焦虑状态针灸数智化防治体系
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
AI 辅助药物设计姜黄素化合物的靶向结构修饰及其防治肝衰竭的成药性研究
  • 批准号:
    JCZRLH202500512
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
应用于AI芯片的先进封装TSV关键技术研发
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
AI代理对消费决策影响的认知神经机制研究:“人-行为-大脑”多模态数据与模型
  • 批准号:
    QN25G020009
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目

相似海外基金

Enhanced AI-driven risk-engine for world’s first open-banking credit-builder debit card
增强型人工智能驱动的风险引擎,用于全球首张开放银行信用建设借记卡
  • 批准号:
    10097739
  • 财政年份:
    2024
  • 资助金额:
    $ 753.32万
  • 项目类别:
    Collaborative R&D
Development of Open-Finance enabled AI Algorithm
开发开放金融AI算法
  • 批准号:
    10057584
  • 财政年份:
    2023
  • 资助金额:
    $ 753.32万
  • 项目类别:
    Collaborative R&D
Elements: MVP: Open-Source AI-Powered MicroVessel Processor for Next-Generation Vascular Imaging Data
要素:MVP:用于下一代血管成像数据的开源人工智能微血管处理器
  • 批准号:
    2311245
  • 财政年份:
    2023
  • 资助金额:
    $ 753.32万
  • 项目类别:
    Standard Grant
POSE: Phase I: Wildbook: Building an Open Source Community for AI-Enabled Wildlife Science and Computer Science Education
POSE:第一阶段:Wildbook:为人工智能野生动物科学和计算机科学教育构建开源社区
  • 批准号:
    2229782
  • 财政年份:
    2023
  • 资助金额:
    $ 753.32万
  • 项目类别:
    Standard Grant
POSE: Phase II: An Open Source Ecosystem for Collaborative Rapid Design of Edge AI Hardware Accelerators for Integrated Data Analysis and Discovery
POSE:第二阶段:用于协作快速设计边缘人工智能硬件加速器以进行集成数据分析和发现的开源生态系统
  • 批准号:
    2303700
  • 财政年份:
    2023
  • 资助金额:
    $ 753.32万
  • 项目类别:
    Standard Grant
Conference: Pushing Towards Open-Source AI
会议:推动开源人工智能
  • 批准号:
    2335774
  • 财政年份:
    2023
  • 资助金额:
    $ 753.32万
  • 项目类别:
    Standard Grant
NeuroWellbeing Immersive Tech: AI-enabled, Augmented-Reality, 3D open world, immersive educational mobile games
NeuroWellbeing沉浸式技术:人工智能、增强现实、3D开放世界、沉浸式教育手机游戏
  • 批准号:
    10054612
  • 财政年份:
    2023
  • 资助金额:
    $ 753.32万
  • 项目类别:
    Collaborative R&D
AI-powered eVolution towards opEn and secuRe edGe architEctures
人工智能驱动的向开放和安全边缘架构的演进
  • 批准号:
    10071211
  • 财政年份:
    2023
  • 资助金额:
    $ 753.32万
  • 项目类别:
    EU-Funded
SBIR Phase I: Scaling Up Open Innovation with Crowd Wisdom and Artificial Intelligence (AI) for Smarter and More Sustainable Fashion
SBIR 第一阶段:利用群体智慧和人工智能 (AI) 扩大开放创新,打造更智能、更可持续的时尚
  • 批准号:
    2223164
  • 财政年份:
    2023
  • 资助金额:
    $ 753.32万
  • 项目类别:
    Standard Grant
Collaborative Research: CCRI: New: An Open Source Simulation Platform for AI Research on Autonomous Driving
合作研究:CCRI:新:自动驾驶人工智能研究的开源仿真平台
  • 批准号:
    2235012
  • 财政年份:
    2023
  • 资助金额:
    $ 753.32万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了