Object State Recognition via Multi-Modal Analysis of Videos and Video Caption Sequences
通过视频和视频字幕序列的多模态分析进行对象状态识别
基本信息
- 批准号:22K21296
- 负责人:
- 金额:$ 1.83万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Research Activity Start-up
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-08-31 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
2022年度は、 (i) 状態記述キャプションの収集に関する検討(テーマA)および (ii) 大規模言語モデルを用いた状態の自動列挙による状態認識手法の開発(テーマB)を行った。まず(i)では、数名のアノテータにより映像に対して自由記述文にて状態変化に着目した文章(状態記述文)を記述し、その実現可能性を検討した。その結果、状態記述文の記述以前の状態語(raw、boiledなど)の選定にすでに高い自由度があり、素朴な教師あり学習では訓練に失敗する懸念が見いだされた。また、映像中の物体がある状態であることの注釈付けを行う際、当該状態に今まさになろうとしている/当該状態から今まさに別の状態になろうとしている等の中間状態が必要である等のルール策定を行い、状態語の自由度を許しながら一貫した評価を行うための整理を行った。上記の背景に基づき、(ii)においてインターネット上の大量の文章によって訓練された大規模言語言語モデル(LLM)が含む言語的な状態の知識を利用し、特定の物体に対して考えられる状態語を列挙し、それらの存在可能性を既存の画像-言語マッチングモデルと組み合わせることにより任意の状態語に対して状態認識を行える枠組みを提案した。事前に人手である物体が取りうる状態語を用意する代わりにLLMを用いたスケーラブルな自動列挙を行い、状態認識を動画と物体名+状態語のマッチングを取る問題として定式化することにより、より自由度が高く実用的な状態認識モデルの実現が期待できる。本研究の成果は現在国内研究会に投稿中である。
In 2022,(i) status description, collection, discussion, and (ii) development of status recognition techniques for large-scale speech collection, automatic listing of status, and (iii) development of status recognition techniques. (i) To discuss the possibility of the realization of a number of items in a free description article. The result, the status description, the description of the previous status (raw, boiled), the selection, the high degree of freedom, the simplicity, the teacher, the failure, the suspense, the uncertainty, the uncertainty. When an object in an image is in a state, when it is in a state, when it is in an intermediate state, when it is in a different state, when it is in an intermediate state, when it is in a state, when it is in an intermediate state, when The background of the above note is: (ii) a large number of articles on language development, training, large-scale speech language (LLM), knowledge of the state of speech, specific objects, etc. The possibility of existence of a picture exists, and the possibility of existence of a picture exists. Before hand, the object is selected, the state language is used, the LLM is automatically listed, the state recognition is animated, the object name + the state language is selected, the problem is formulated, the degree of freedom is high, the state recognition is used, and the expectation is realized. The results of this study are now submitted to the National Research Association.
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
大規模言語モデルを用いた学習カテゴリの自動決定による映像からのオープン語彙物体状態認識
通过使用大规模语言模型自动确定学习类别,从视频中识别开放词汇对象状态
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:舘野将寿;八木拓真;古田諒佑;佐藤洋一
- 通讯作者:佐藤洋一
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
八木 拓真其他文献
購買行動において認知的不協和を顕在化し解消を促進する窓エージェントの提案と検討
揭示并促进解决购买行为认知失调的窗口代理的提案和研究
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
福嶋 稜;八木 拓真;馬場 惇;岩本 拓也;遠藤 大介;大澤 正彦 - 通讯作者:
大澤 正彦
八木 拓真的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('八木 拓真', 18)}}的其他基金
Object State Change Detection and Human Behavior Prediction Focused on Hand Manipulation
专注于手部操作的物体状态变化检测和人类行为预测
- 批准号:
21J11626 - 财政年份:2021
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for JSPS Fellows
一人称視点映像からの移動と会話を伴う社会的行動の統合モデリング
第一人称视角视频中涉及运动和对话的社会行为综合建模
- 批准号:
19J21324 - 财政年份:2019
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
大規模言語モデルと統語的言語モデルの融合
大规模语言模型与句法语言模型的融合
- 批准号:
24KJ0800 - 财政年份:2024
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for JSPS Fellows
大規模言語モデルを使用した生成系AIによるAI搭載型治療方針決定支援ツールの開発
使用大规模语言模型的生成人工智能开发配备人工智能的治疗政策决策支持工具
- 批准号:
24K18785 - 财政年份:2024
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
大規模言語モデルのための品質保証技術に関する研究
大规模语言模型质量保证技术研究
- 批准号:
24K02920 - 财政年份:2024
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
プログラミング教育支援のための大規模言語モデルへの入力情報に関する研究
支持编程教育的大规模语言模型输入信息研究
- 批准号:
24K15218 - 财政年份:2024
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
大規模言語モデルを用いた生物試料情報の標準化
使用大规模语言模型对生物样本信息进行标准化
- 批准号:
24K20889 - 财政年份:2024
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
大規模言語モデル(LLM)を用いた企業価値形成にかかる網羅的研究
使用大规模语言模型(LLM)对企业价值形成进行综合研究
- 批准号:
24K00298 - 财政年份:2024
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
大規模言語モデルを活用した遠隔操作による人・ロボット協働基盤の創成
使用大规模语言模型通过远程控制创建人机协作平台
- 批准号:
24K17236 - 财政年份:2024
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
パーソナル知識グラフの構築・精錬と大規模言語モデルの活用
个人知识图谱的构建和细化以及大规模语言模型的利用
- 批准号:
24K15078 - 财政年份:2024
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
人知との融合による大規模言語モデルの大規模知識モデルへの進化
通过与人类智能融合,将大规模语言模型进化为大规模知识模型
- 批准号:
24H00727 - 财政年份:2024
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
大規模言語モデルによる人間の言語知能の解明
使用大规模语言模型阐明人类语言智能
- 批准号:
24H00087 - 财政年份:2024
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for Scientific Research (A)