RI: Small: Visual Reasoning and Self-questioning for Explainable Visual Question Answering
RI:小:视觉推理和自我质疑以实现可解释的视觉问答
基本信息
- 批准号:2007613
- 负责人:
- 金额:$ 46.92万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2020
- 资助国家:美国
- 起止时间:2020-10-01 至 2024-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Visual question answering (VQA), aiming to answer a question in natural language related to a given image, is still in its infancy. Current approaches lack flexibility and generalizability to handling diverse questions without training. It is therefore desirable to explorep explainable VQA (or X-VQA) that can provide explanations of its reasoning in natural language in addition to answers. This requires integrating computer vision, natural language, and knowledge representation, and it is an incredibly challenging task. By exploring X-VQA this project advances and enriches the fundamental computer vision, image understanding, visual semantic analysis, machine learning, and knowledge representation. And it also greatly facilitates a wide range of applications including visual chatbots, visual retrieval and recommendation, and human-computer interaction. This research also contributes to education through curriculum development, student training, and knowledge dissemination. It includes interactions with K-12 students for participation and research opportunities. The major goal of this research is to develop a novel computational model with solid theoretical foundation and effective methods, to facilitate X-VQA that provides explanations of its visual reasoning. This challenging task involves many fundamental aspects and needs to integrate vision, language, learning and knowledge. This project focuses on: (1) A unified computational model of X-VQA and its theoretical foundation. This model integrates domain knowledge and visual observations for reasoning: what and how hidden facts can be inferred from incomplete and inaccurate visual observations; how visual observation, hidden facts, and domain knowledge can be represented for efficient question answering; and how the question answering can be scalable. The study of these critical issues creates the foundation for X-VQA; (2) A new model for question-driven task-oriented visual observation. It is inefficient to collect all visual observations before answering a question. Vision needs to be question-driven and task-oriented. This project pursues a new model for the interaction of questions, visual reasoning and visual observation, so as to automatically steer attention to the question-related aspects of an image; (3) An innovative approach to self-questioning for training X-VQA agents. Training simply based on question-answer data is not viable for X-VQA, as it is unable to provide explanations for and insights into the answer. This project pursues a novel approach to self-questioning, in which the VQA agents can also generate and ask questions. It investigates how self-questioning can be combined with reinforcement learning, and how it can deal with versatile questions to improve the scalability of X-VQA; and (4) A solid case study on X-VQA.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
视觉问答(VQA),旨在回答与给定图像相关的自然语言问题,仍处于起步阶段。 目前的方法缺乏灵活性和通用性,在没有培训的情况下处理不同的问题。因此,希望探索可解释的VQA(或X-VQA),除了答案之外,还可以用自然语言解释其推理。这需要集成计算机视觉、自然语言和知识表示,这是一项极具挑战性的任务。通过探索X-VQA,该项目推进和丰富了基础计算机视觉,图像理解,视觉语义分析,机器学习和知识表示。它也极大地促进了广泛的应用,包括视觉聊天机器人,视觉检索和推荐以及人机交互。这项研究也有助于通过课程开发,学生培训和知识传播的教育。它包括与K-12学生的参与和研究机会的互动。 本研究的主要目标是建立一个新的计算模型,具有坚实的理论基础和有效的方法,以促进X-VQA,提供其视觉推理的解释。这项具有挑战性的任务涉及许多基本方面,需要将视觉,语言,学习和知识结合起来。本课题主要研究内容如下:(1)X-VQA统一计算模型及其理论基础。该模型集成了领域知识和视觉观察的推理:什么以及如何隐藏的事实可以推断出不完整和不准确的视觉观察;视觉观察,隐藏的事实和领域知识可以表示为有效的问题回答;以及问题回答如何可扩展。这些关键问题的研究为X-VQA的研究奠定了基础;(2)提出了一种新的问题驱动的任务导向视觉观察模型。在回答问题之前收集所有视觉观察结果是低效的。愿景需要以问题为驱动,以任务为导向。该项目追求一种新的模型的互动问题,视觉推理和视觉观察,从而自动引导注意力的问题相关的方面的图像;(3)一种创新的方法来自我提问的训练X-VQA代理。简单地基于问答数据的训练对于X-VQA来说是不可行的,因为它无法为答案提供解释和见解。该项目追求一种新颖的自我提问方法,其中VQA代理也可以生成和提问。它研究了自我提问如何与强化学习相结合,以及如何处理多功能问题以提高X-VQA的可扩展性;(4)X-VQA的坚实案例研究。该奖项反映了NSF的法定使命,并被认为值得通过使用基金会的智力价值和更广泛的影响审查标准进行评估来支持。
项目成果
期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Unsupervised Depth Completion and Denoising for RGB-D Sensors
RGB-D 传感器的无监督深度补全和去噪
- DOI:10.1109/icra46639.2022.9812392
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Fan, Lei;Li, Yunxuan;Jiang, Chen;Wu, Ying
- 通讯作者:Wu, Ying
Morphable Detector for Object Detection on Demand
- DOI:10.1109/iccv48922.2021.00473
- 发表时间:2021-10
- 期刊:
- 影响因子:0
- 作者:Xiangyun Zhao;Xu Zou;Ying Wu
- 通讯作者:Xiangyun Zhao;Xu Zou;Ying Wu
Avoiding Lingering in Learning Active Recognition by Adversarial Disturbance
- DOI:10.1109/wacv56688.2023.00459
- 发表时间:2023-01
- 期刊:
- 影响因子:0
- 作者:Lei Fan;Ying Wu
- 通讯作者:Lei Fan;Ying Wu
Contrastive Learning for Label Efficient Semantic Segmentation
- DOI:10.1109/iccv48922.2021.01045
- 发表时间:2020-12
- 期刊:
- 影响因子:0
- 作者:Xiangyu Zhao;Raviteja Vemulapalli;P. A. Mansfield;Boqing Gong;Bradley Green;Lior Shapira;Ying Wu
- 通讯作者:Xiangyu Zhao;Raviteja Vemulapalli;P. A. Mansfield;Boqing Gong;Bradley Green;Lior Shapira;Ying Wu
Temporal Feature Enhancement Dilated Convolution Network for Weakly-supervised Temporal Action Localization
- DOI:10.1109/wacv56688.2023.00597
- 发表时间:2023-01
- 期刊:
- 影响因子:0
- 作者:Jianxiong Zhou;Ying Wu
- 通讯作者:Jianxiong Zhou;Ying Wu
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Ying Wu其他文献
Highly nonclassical phonon emission statistics through two-phonon loss of van der Pol oscillator
通过范德波尔振荡器的双声子损失进行高度非经典声子发射统计
- DOI:
10.1063/5.0026286 - 发表时间:
2020 - 期刊:
- 影响因子:3.2
- 作者:
Jiahua Li;Chunling Ding;Ying Wu - 通讯作者:
Ying Wu
Joint Spatiotemporal Multipath Mitigation in Large-Scale Array Localization
大规模阵列定位中的联合时空多径缓解
- DOI:
10.1109/tsp.2018.2879625 - 发表时间:
2019-02 - 期刊:
- 影响因子:5.4
- 作者:
Yunlong Wang;Ying Wu;Yuan Shen - 通讯作者:
Yuan Shen
Highly Efficient Inverted Perovskite Solar Cells With Sulfonated Lignin Doped PEDOT as Hole Extract Layer
以磺化木质素掺杂 PEDOT 作为空穴提取层的高效倒置钙钛矿太阳能电池
- DOI:
10.1021/acsami.6b00084 - 发表时间:
2016 - 期刊:
- 影响因子:9.5
- 作者:
Ying Wu;Junyi Wang;Xueqing Qiu;Renqiang Yang;Hongming Lou;Xichang Bao;Yuan Li - 通讯作者:
Yuan Li
Improving photon antibunching with two dipole-coupled atoms in whispering-gallery-mode microresonators
利用回音壁模式微谐振器中的两个偶极耦合原子改善光子反聚束
- DOI:
10.1103/physreva.101.023810 - 发表时间:
2020-02 - 期刊:
- 影响因子:2.9
- 作者:
Ye Qu;Shuting Shen;Jiahua Li;Ying Wu - 通讯作者:
Ying Wu
Expression of recombinant human butyrylcholinesterase in the milk of transgenic mice
重组人丁酰胆碱酯酶在转基因小鼠乳汁中的表达
- DOI:
10.15302/j-fase-2014020 - 发表时间:
2014 - 期刊:
- 影响因子:3.7
- 作者:
D. Lu;Shengzhe Shang;Shen Liu;Ying Wu;Fangfang Wu;T. Tan;Qiuyan Li;Yunping Dai;Xiaoxiang Hu;Yaofeng Zhao;Ning Li - 通讯作者:
Ning Li
Ying Wu的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Ying Wu', 18)}}的其他基金
RI: Small: A Unified Compositional Model for Explainable Video-based Human Activity Parsing
RI:小型:用于可解释的基于视频的人类活动解析的统一组合模型
- 批准号:
1815561 - 财政年份:2018
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: Modeling and Learning Visual Similarities Under Adverse Visual Conditions
RI:小:在不利视觉条件下建模和学习视觉相似性
- 批准号:
1619078 - 财政年份:2016
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: Mining and Learning Visual Contexts for Video Scene Understanding
RI:小:挖掘和学习视频场景理解的视觉上下文
- 批准号:
1217302 - 财政年份:2012
- 资助金额:
$ 46.92万 - 项目类别:
Continuing Grant
Collaborative Research: Sino-USA Summer School in Vision, Learning, Pattern Recognition VLPR 2010
合作研究:中美视觉、学习、模式识别暑期学校 VLPR 2010
- 批准号:
1037944 - 财政年份:2010
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: Computational Models of Context-awareness and Selective Attention for Persistent Visual Target Tracking
RI:小型:持续视觉目标跟踪的上下文感知和选择性注意的计算模型
- 批准号:
0916607 - 财政年份:2009
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
CAREER: Visual Analysis of High-Dimensional Motion: A Distributed/Collaborative Approach
职业:高维运动的可视化分析:分布式/协作方法
- 批准号:
0347877 - 财政年份:2004
- 资助金额:
$ 46.92万 - 项目类别:
Continuing Grant
Transductive Learning for Retrieving and Mining Visual Contents
用于检索和挖掘视觉内容的转化学习
- 批准号:
0308222 - 财政年份:2003
- 资助金额:
$ 46.92万 - 项目类别:
Continuing Grant
相似国自然基金
眼球扫视运动检测在脑小血管病早期诊断中的临床应用研究
- 批准号:2025JJ80490
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
多场景下可变形小目标的视觉智能识别与理解方法研究
- 批准号:
- 批准年份:2024
- 资助金额:10.0 万元
- 项目类别:省市级项目
调节内质网蛋白质稳态保护青光眼视觉损害的小分子药物筛选及作用机制研究
- 批准号:82373849
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
基于仿生视觉的近浅海水下小目标光学感知与识别方法
- 批准号:
- 批准年份:2021
- 资助金额:59 万元
- 项目类别:面上项目
融合光学和视觉原理的小模数粉末冶金齿轮高精度快速在线检测的理论及技术研究
- 批准号:
- 批准年份:2021
- 资助金额:58 万元
- 项目类别:面上项目
面向边缘部署的弱先验小目标视觉检测与跟踪
- 批准号:U21B2037
- 批准年份:2021
- 资助金额:255 万元
- 项目类别:联合基金项目
面向任意形姿小尺度柔性导线的理线微操作机理及技术研究
- 批准号:51975009
- 批准年份:2019
- 资助金额:63.0 万元
- 项目类别:面上项目
视觉刺激通过谷氨酸钠-ATP途径调控视网膜小胶质细胞的内源性再生的研究
- 批准号:81800842
- 批准年份:2018
- 资助金额:19.0 万元
- 项目类别:青年科学基金项目
基于视觉的交通信号实时检测技术研究
- 批准号:61802019
- 批准年份:2018
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
生物视觉启发的图像表征框架及与卷积神经网络的统一表示
- 批准号:61806010
- 批准年份:2018
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
相似海外基金
RI: Small: Toward Efficient and Robust Dynamic Scene Understanding Based on Visual Correspondences
RI:小:基于视觉对应的高效、鲁棒的动态场景理解
- 批准号:
2310254 - 财政年份:2023
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: Visual How: Task Understanding and Description in the Real World
RI:小:视觉方式:现实世界中的任务理解和描述
- 批准号:
2143197 - 财政年份:2022
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: Learning 3D Equivariant Visual Representation for Animals
RI:小:学习动物的 3D 等变视觉表示
- 批准号:
2202024 - 财政年份:2022
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: Exploring Rationale behind Visual Understanding: Combining Attention and Reasoning
RI:小:探索视觉理解背后的基本原理:注意力和推理的结合
- 批准号:
1908711 - 财政年份:2019
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: Lightly Supervised Deep Learning for Multi-Frame Visual Motion Analysis
RI:小型:用于多帧视觉运动分析的轻监督深度学习
- 批准号:
1909821 - 财政年份:2019
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: Sparse Predictive Coding for Energy Efficient Visual Navigation in Dynamic Environments
RI:小型:动态环境中节能视觉导航的稀疏预测编码
- 批准号:
1813785 - 财政年份:2018
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: A Cognitive Framework for Technical, Hard and Explainable Question Answering (THE-QA) with respect to Combined Textual and Visual Inputs
RI:小:结合文本和视觉输入的技术性、硬性和可解释性问答 (THE-QA) 的认知框架
- 批准号:
1816039 - 财政年份:2018
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: Computational and Physiological Studies of Complex Neural Codes in the Early Visual Cortex
RI:小:早期视觉皮层复杂神经代码的计算和生理学研究
- 批准号:
1816568 - 财政年份:2018
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: Integrating Flexible Normalization Models of Visual Cortex into Deep Neural Networks
RI:小:将视觉皮层的灵活标准化模型集成到深度神经网络中
- 批准号:
1715475 - 财政年份:2017
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant
RI: Small: Novel Generative Models for High-Diversity Visual Speculation
RI:小型:用于高多样性视觉推测的新颖生成模型
- 批准号:
1718221 - 财政年份:2017
- 资助金额:
$ 46.92万 - 项目类别:
Standard Grant