权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

階層型視覚的コモンセンスを考慮した動画質問応答

考虑分层视觉常识的视频问答

基本信息

批准号：
22KJ2914
负责人：
綱島秀樹
金额：
$ 1.09万
依托单位：
Waseda University
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2023
资助国家：
日本
起止时间：
2023-03-08 至 2024-03-31
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-22KJ2914/
关键词：
視覚的コモンセンス常識動画質問応答幼児未来予測

项目摘要

本研究課題の幼児の一人称視点動画からの視覚的コモンセンス獲得において、2022年度開始時は幼児の一人称視点動画の詳細な分析を行った。しかしながら、幼児の一人称視点動画は撮影条件や視点などが統一されておらず、機械学習の文脈において未来予測をすることは非常に困難であることが明らかとなった。そこで、近年深層学習において技術的転換点となったTransformerを用いてインタラクションを伴う行動計画タスク自体から初期的視覚的コモンセンスを創発させることができないかに取り組んだ。Transformerの自己注意機構を可視化した結果として、視覚的コモンセンスのPやFについての初期的視覚コモンセンスの獲得の傾向は見られたが、CとIとUについての創発は見られなかった。それゆえ、タスク自体の見直しを行うことにした。次に取り組んだタスクとして物理現象を伴うパズルであるPHYREを用いて、視覚的コモンセンスFPICU全ての創発を行うエージェントを開発することに取り組んだ。FPICUを全て創発させるために、FPICUを統一的に考慮する定式化を数学的に行い、実験を行った。しかしながら、因果性であるCの学習が困難を極め、Cの関連する技術であるVAEや統計的因果推論についてのサーベイを行った。結果として、2022年度はタスクの2度の見直しとFPICUの学習困難性のために論文出版を行うことはできなかった。しかしながら、近年登場したChatGPTがIとUを備えている可能性があり、ChatGPTを活用して視覚的コモンセンスを統一的に考慮するための初期的実験を開始した。

This research project aims to obtain detailed analysis of one-person viewpoint animation for children from the beginning of 2022. The one-person viewpoint animation of young children is very difficult to predict the future in the context of mechanical learning. In recent years, the transformation point of deep learning technology and the application of Transformer are accompanied by action plan, which is the initial stage of self-vision. Transformers pay attention to their own mechanisms, such as visualization of results, visual observation of initial visual observation of the tendency to acquire visual observation of results, visual observation of initial visual observation of results,それゆえ、タスク自体の见直しを行うことにした。The second group of physical phenomena is associated with the use of PHYRE and the development of FPICU. FPICU's overall development, FPICU's unified consideration, formalization, and implementation C. Difficulty in learning C. Relevance D. Technical C. Statistical C. Inference The results show that in 2022, the two degrees of learning difficulties in FPICU were published. ChatGPT has been introduced in recent years, and the possibility of using ChatGPT has been considered.

项目成果

期刊论文数量（5）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

視覚情報に用いたタスク指向型対話における人間の返答に対する間違い指摘の検討

利用视觉信息指出任务导向对话中人类反应错误的研究

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
Kazuki Kohyama;Takahiro Tsukahara;Keiichi Tamai;Masaki Sano;荒川深映（この発表者と綱島は共同第一著者）;大島遼祐（この発表者と綱島は共同著者）
通讯作者：
大島遼祐（この発表者と綱島は共同著者）

視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討

利用视觉信息指出任务导向对话中人类反应错误的研究

DOI：
发表时间：
期刊：
影响因子：
0
作者：
通讯作者：

複数解像度で画像を生成可能な拡散確率モデル

可以生成多种分辨率图像的扩散随机模型

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
Kazuki Kohyama;Takahiro Tsukahara;Keiichi Tamai;Masaki Sano;荒川深映（この発表者と綱島は共同第一著者）
通讯作者：
荒川深映（この発表者と綱島は共同第一著者）

視覚情報に基づくタスク指向型対話における人間の返答に対する間違い指摘の検討

基于视觉信息的任务导向对话中人类反应错误的指出研究

DOI：
发表时间：
2023
期刊：
影响因子：
0
作者：
Kazuki Kohyama;Takahiro Tsukahara;Keiichi Tamai;Masaki Sano;荒川深映（この発表者と綱島は共同第一著者）;大島遼祐（この発表者と綱島は共同著者）;大島遼祐（この発表者と綱島は共同著者）
通讯作者：
大島遼祐（この発表者と綱島は共同著者）

Memory Efficient Diffusion Probabilistic Models via Patch-based Generation

DOI：
10.48550/arxiv.2304.07087
发表时间：
2023-04
期刊：
ArXiv
影响因子：
0
作者：
Shinei Arakawa;Hideki Tsunashima;Daichi Horita;Keitaro Tanaka;S. Morishima
通讯作者：
Shinei Arakawa;Hideki Tsunashima;Daichi Horita;Keitaro Tanaka;S. Morishima