RI: Small: Visual How: Task Understanding and Description in the Real World
RI:小:视觉方式:现实世界中的任务理解和描述
基本信息
- 批准号:2143197
- 负责人:
- 金额:$ 26.22万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-06-15 至 2025-05-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Problem solving is an innate capability that humans develop through evolution and experience. Compared to human intelligence that can solve general and complex problems, current AI systems only perform well in narrow and structured tasks. With the overarching goal of bridging this gap, this project develops AI systems that can understand general real-world tasks (e.g., How to set up a tent? How to teach kids to garden? How to travel in London?) and come up with solutions with step-by-step language and visual guidance. It will allow for real-world tasks to be solved even in general and complex circumstances, resulting in more human-like AI. Ultimately, the project will take a step forward toward artificial general intelligence. The project will provide a publicly available dataset, a framework of computational models, and a mobile application prototype. Furthermore, this project will support integrated research and education with a focus on increasing minority participation through K-12 outreach, underrepresented and undergraduate mentoring, and curriculum development.This project proposes a VisualHow problem that represents a rich spectrum of real-world tasks. The generality and complexity of the problem call for capabilities to understand the visual and textual contents of the task, reason with knowledge relevant to the task, and generate step-by-step multimodal descriptions about how the task can be completed. This project aims to achieve these goals in three tasks. First, generate a new dataset with diverse and real-world tasks and solutions, with rich annotations of key semantics and task structures to guide the multimodal attention and structural reasoning. Second, develop a novel framework in which a series of models are derived for explainable VisualHow learning to understand the visual-textual contents and generate steps to complete real-world tasks. Third, develop novel methods to generalize the models with knowledge and validate them on mobile platforms to assist people in real-world applications. Achieving these goals will not only lead to new vision-language tasks and computational methods for real-world problem solving, but also spur innovations in the development of explainable and generalizable AI models and systems.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
解决问题是人类通过进化和经验而发展的一种与生俱来的能力。与能够解决一般和复杂问题的人类智能相比,目前的人工智能系统只能在狭窄和结构化的任务中表现良好。该项目的首要目标是弥合这一差距,开发能够理解一般现实世界任务的人工智能系统(例如,如何搭建帐篷?如何教孩子们园艺?如何在伦敦旅行?)并通过逐步的语言和视觉指导提出解决方案。它将允许在一般和复杂的情况下解决现实世界的任务,从而产生更像人类的人工智能。最终,该项目将朝着人工通用智能迈出一步。该项目将提供一个公开的数据集,计算模型的框架,和一个移动的应用原型。此外,该项目将支持综合研究和教育,重点是通过K-12外展、代表性不足和本科生指导以及课程开发来增加少数族裔的参与。该项目提出了一个代表丰富现实任务的VisualHow问题。问题的一般性和复杂性要求能够理解任务的视觉和文本内容,推理与任务相关的知识,并生成关于如何完成任务的逐步多模态描述。本项目旨在通过三项任务实现这些目标。首先,生成一个新的数据集,其中包含各种真实世界的任务和解决方案,并具有关键语义和任务结构的丰富注释,以指导多模态注意力和结构推理。第二,开发一个新的框架,在该框架中导出了一系列模型,用于可解释的VisualHow学习,以理解视觉文本内容并生成完成现实世界任务的步骤。第三,开发新的方法来概括模型的知识,并在移动的平台上验证它们,以帮助人们在现实世界中的应用。实现这些目标不仅将为解决现实世界问题带来新的视觉语言任务和计算方法,还将推动可解释和可推广的人工智能模型和系统的开发创新。该奖项反映了NSF的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Divide and Conquer: Answering Questions with Object Factorization and Compositional Reasoning
- DOI:10.48550/arxiv.2303.10482
- 发表时间:2023-03
- 期刊:
- 影响因子:0
- 作者:Shi Chen;Qi Zhao
- 通讯作者:Shi Chen;Qi Zhao
VisualHow: Multimodal Problem Solving
- DOI:10.1109/cvpr52688.2022.01518
- 发表时间:2022-06
- 期刊:
- 影响因子:0
- 作者:Jinhui Yang;Xianyu Chen;Ming Jiang;Shi Chen;Louis Wang;Qi Zhao
- 通讯作者:Jinhui Yang;Xianyu Chen;Ming Jiang;Shi Chen;Louis Wang;Qi Zhao
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Qi Zhao其他文献
Recombinant-fully-human-antibody decorated highly-stable far-red AIEdots for in vivo HER-2 receptor-targeted imaging
重组全人抗体修饰高度稳定的远红 AIEdot,用于体内 HER-2 受体靶向成像
- DOI:
10.1039/c8cc03037e - 发表时间:
2018 - 期刊:
- 影响因子:4.9
- 作者:
Yayun Wu;Zhizhen Chen;Pengfei Zhang;Lihua Zhou;Tao Jiang;Huajie Chen;Ping Gong;Dimiter S. Dimitrov;Lintao Cai;Qi Zhao - 通讯作者:
Qi Zhao
Fate and reactions of methane during biodegradation in an aquifer contaminated with petroleum hydrocarbons in Northeast China
中国东北地区石油烃污染含水层中甲烷生物降解过程的归宿和反应
- DOI:
10.2343/geochemj.2.0400 - 发表时间:
2016 - 期刊:
- 影响因子:0.8
- 作者:
X. Su;Ende Zuo;Hang Lv;Qi Zhao;Pucheng Zhu;G. Lin;Mingyao Liu - 通讯作者:
Mingyao Liu
An Investigation of the Uncertainty of Handbook of Emission Factors for Road Transport (HBEFA) for Estimating Greenhouse Gas Emissions: A Case Study in Beijing
用于估算温室气体排放的道路运输排放因子手册(HBEFA)的不确定度调查:以北京为例
- DOI:
10.1177/0361198118796710 - 发表时间:
2018-09 - 期刊:
- 影响因子:1.7
- 作者:
Hongyu Lu;Guohua Song;Qi Zhao;Jingyi Wang;Weinan He;Lei Yu - 通讯作者:
Lei Yu
An Improved Adaptive Kalman Filter for Altitude Estimation of Quadrotors
四旋翼飞行器高度估计的改进自适应卡尔曼滤波器
- DOI:
10.23919/chicc.2019.8866453 - 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
Qi Zhao;Fenghua He;Ning Hao;Rui Xing - 通讯作者:
Rui Xing
A sequence-based generalization of mean-field annealing using the Forward/Backward algorithm: Application to image segmentation
使用前向/后向算法的基于序列的平均场退火推广:在图像分割中的应用
- DOI:
10.1109/icassp.2002.5743955 - 发表时间:
2002 - 期刊:
- 影响因子:0
- 作者:
David J. Miller;P. Bunyaratavej;Qi Zhao - 通讯作者:
Qi Zhao
Qi Zhao的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Qi Zhao', 18)}}的其他基金
Travel: Group Travel Grant for the Doctoral Consortium of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2023)
旅行:为 IEEE/CVF 计算机视觉和模式识别会议博士联盟 (CVPR 2023) 提供团体旅行补助金
- 批准号:
2325378 - 财政年份:2023
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
EAGER: Interpretable and Generalizable AI for Smart Manufacturing
EAGER:用于智能制造的可解释和可推广的人工智能
- 批准号:
2227450 - 财政年份:2022
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
RI: Small: Exploring Rationale behind Visual Understanding: Combining Attention and Reasoning
RI:小:探索视觉理解背后的基本原理:注意力和推理的结合
- 批准号:
1908711 - 财政年份:2019
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
S&AS: FND: Context-Aware Active Data Gathering for Complex Outdoor Environments
S
- 批准号:
1849107 - 财政年份:2019
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
Influence of Surface Properties of New Biomaterials for Catheters on Bacterial Adhesion in Urine
导管用新型生物材料表面特性对尿液中细菌粘附的影响
- 批准号:
EP/P00301X/1 - 财政年份:2016
- 资助金额:
$ 26.22万 - 项目类别:
Research Grant
SBIR Phase I: Bendable Ceramic Paper Membranes
SBIR 第一阶段:可弯曲陶瓷纸膜
- 批准号:
0910419 - 财政年份:2009
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
相似国自然基金
眼球扫视运动检测在脑小血管病早期诊断中的临床应用研究
- 批准号:2025JJ80490
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
多场景下可变形小目标的视觉智能识别与理解方法研究
- 批准号:
- 批准年份:2024
- 资助金额:10.0 万元
- 项目类别:省市级项目
调节内质网蛋白质稳态保护青光眼视觉损害的小分子药物筛选及作用机制研究
- 批准号:82373849
- 批准年份:2023
- 资助金额:49 万元
- 项目类别:面上项目
基于仿生视觉的近浅海水下小目标光学感知与识别方法
- 批准号:
- 批准年份:2021
- 资助金额:59 万元
- 项目类别:面上项目
融合光学和视觉原理的小模数粉末冶金齿轮高精度快速在线检测的理论及技术研究
- 批准号:
- 批准年份:2021
- 资助金额:58 万元
- 项目类别:面上项目
视觉刺激通过谷氨酸钠-ATP途径调控视网膜小胶质细胞的内源性再生的研究
- 批准号:81800842
- 批准年份:2018
- 资助金额:19.0 万元
- 项目类别:青年科学基金项目
基于视觉的交通信号实时检测技术研究
- 批准号:61802019
- 批准年份:2018
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
生物视觉启发的图像表征框架及与卷积神经网络的统一表示
- 批准号:61806010
- 批准年份:2018
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
基于三维显著性空间引导和深度网络流模型的多目标检测与小轨迹关联跟踪方法研究
- 批准号:61806189
- 批准年份:2018
- 资助金额:27.0 万元
- 项目类别:青年科学基金项目
视觉感知双目融合建模及立体图像质量评价方法研究
- 批准号:61771223
- 批准年份:2017
- 资助金额:62.0 万元
- 项目类别:面上项目
相似海外基金
RI: Small: Toward Efficient and Robust Dynamic Scene Understanding Based on Visual Correspondences
RI:小:基于视觉对应的高效、鲁棒的动态场景理解
- 批准号:
2310254 - 财政年份:2023
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
RI: Small: Learning 3D Equivariant Visual Representation for Animals
RI:小:学习动物的 3D 等变视觉表示
- 批准号:
2202024 - 财政年份:2022
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
RI: Small: Visual Reasoning and Self-questioning for Explainable Visual Question Answering
RI:小:视觉推理和自我质疑以实现可解释的视觉问答
- 批准号:
2007613 - 财政年份:2020
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
RI: Small: Exploring Rationale behind Visual Understanding: Combining Attention and Reasoning
RI:小:探索视觉理解背后的基本原理:注意力和推理的结合
- 批准号:
1908711 - 财政年份:2019
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
RI: Small: Lightly Supervised Deep Learning for Multi-Frame Visual Motion Analysis
RI:小型:用于多帧视觉运动分析的轻监督深度学习
- 批准号:
1909821 - 财政年份:2019
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
RI: Small: Sparse Predictive Coding for Energy Efficient Visual Navigation in Dynamic Environments
RI:小型:动态环境中节能视觉导航的稀疏预测编码
- 批准号:
1813785 - 财政年份:2018
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
RI: Small: A Cognitive Framework for Technical, Hard and Explainable Question Answering (THE-QA) with respect to Combined Textual and Visual Inputs
RI:小:结合文本和视觉输入的技术性、硬性和可解释性问答 (THE-QA) 的认知框架
- 批准号:
1816039 - 财政年份:2018
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
RI: Small: Computational and Physiological Studies of Complex Neural Codes in the Early Visual Cortex
RI:小:早期视觉皮层复杂神经代码的计算和生理学研究
- 批准号:
1816568 - 财政年份:2018
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
RI: Small: Integrating Flexible Normalization Models of Visual Cortex into Deep Neural Networks
RI:小:将视觉皮层的灵活标准化模型集成到深度神经网络中
- 批准号:
1715475 - 财政年份:2017
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant
RI: Small: Novel Generative Models for High-Diversity Visual Speculation
RI:小型:用于高多样性视觉推测的新颖生成模型
- 批准号:
1718221 - 财政年份:2017
- 资助金额:
$ 26.22万 - 项目类别:
Standard Grant