実時間視聴覚情報統合による複数の人とのマルチモーダル・インタラクションの研究

实时视听信息集成的多人多模态交互研究

基本信息

  • 批准号:
    16016251
  • 负责人:
  • 金额:
    $ 9.28万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2005
  • 项目状态:
    已结题

项目摘要

最終年度は、ミッシングフィーチャ理論および視聴覚情報統合による複数同時発話認識の洗練化に主としてに取り組んだ。具体的には、マイクロフォンアレイによる音源分離GSSとミッシングフィーチャ理論による音声認識との統合システムの詳細な評価を行うとともに、距離や位置に依存したインタラクションシステムのためにさまざまな設定での評価とその洗練化に取り組んだ。主な成果は以下の通りである。(1)音源分離にGeometrical Source Separationとmulti-channel post-filterを使用し、後者から得られるチャネル間リーク情報と背景雑音情報を基にマスクを自動作成した。自動生成されたマスクを使用し,マルチバンド版Juliusを用いて認識を行った。ここで、特徴量をスペクトル歪みに強いMSLSとした。同じベンチマークにより、アプリオリマスクの場合と比較し、約62%の性能を達成した。さらに、さまざまな方向と距離に対して評価し、内部パラメータ13個の最適値にあまり規則性がないことが判明し、遺伝的アルゴリズムにより、最適値探索を行い、その有効性を確認した。(2)人間親密度を空間にマッピングすることにより、複数人とのインタラクションを行うシステムを開発し、被験者による評価実験により有効性を確認した。これによりどの位置に立った人とインタラクションをすべきか、という挙動設計モデルが確立できた。(3)柔軟な対話戦略を有した音声対話システムの開発するために、対話の進行モデルと履歴の構造モデルという2つの文脈的特徴を使用する手法を開発した。レストラン検索システムにどう手法を実装し、一発話から得られる特徴だけを使用した場合と比較して、意味理解精度が83.4%から92.6%まで向上した。さらに、レストラン検索システムデータの学習で得られた決定木がたの検索システムでも有効であることが分かり、ドメイン非依存な文脈手法を確立できた。
In the final year, the theory of communication and the integration of visual information were analyzed. The detailed evaluation of sound source separation GSS theory, sound recognition, integration, and system selection are based on the position dependence, evaluation, and system refinement. The main achievement is to pass through the following. (1)Geometrical Source Separation multi-channel post-filter is used, and the latter is automatically generated. Automatic generation of Julius This is the first time I've ever seen an MSLS. In the same situation, about 62% of the performance was achieved. 13 optimum values for the direction and distance of the search, the regularity and the validity of the search (2)Human intimacy is a matter of space, of course, of course. This is the first time that the design has been established. (3)Soft speech strategy has sound speech system development, speech system construction, speech system development, speech system development, speech The accuracy of meaning comprehension was 83.4% and 92.6% respectively. In addition, the learning process of Lisitron's search system data has become a decision-making process, and the search system has become effective, and the non-dependent contextual approach has been established.

项目成果

期刊论文数量(97)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
ゲーム理論による中心化理論の解体と実言語データに基づく検証
用博弈论解构居中理论并基于真实语言数据进行验证
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Satoshi Nakamura;Kazuya Takeda;Kazumasa Yamamoto;Takeshi Yamada;Shingo Kuroiwa;Norihide Kitaoka;Takanobu Nishiura;Akira Sasou;Mitsunori Mizumachi;Chiyomi;白松 俊 他
  • 通讯作者:
    白松 俊 他
Extracting Multi-Modal Dynamics of Objects using RNNPB
使用 RNNPB 提取对象的多模态动力学
Implementation of Active Direction-Pass Filter on Dynamically Reconfigurable Processo
动态可重构处理器上有源方向通滤波器的实现
大人のための「ロボット学」
成人的“机器人”
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    PHP研究所;(奥乃 博)
  • 通讯作者:
    (奥乃 博)
Automatic Sound-Imitation Word Recognition from Environmental Sounds focusing on Ambiguity Problem in Determining Phonemes.
环境声音自动仿声词识别,重点关注确定音素中的歧义问题。
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

奥乃 博其他文献

ロボット聴覚技術を用いた鳥類の歌行動分析の試み - 複数のマイクロホンアレイを用いた二次元リアルタイム歌定位 -
尝试利用机器人听觉技术分析鸟类的歌唱行为 - 使用多个麦克风阵列进行二维实时歌曲定位 -
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鈴木 麗璽;炭谷 晋司;中臺 一博;奥乃 博
  • 通讯作者:
    奥乃 博
複数時期のデータを用いたNAMセグメントによる個人認証
使用多个时期的数据使用 NAM 分段进行个人身份验证
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sarker;B.K.;Yoshiyuki Nakatani;Yoshiaki Yasumura;Tetsuro Kitahara;奥乃 博;Hiroshi G.Okuno;清水 敬太;服部 佑哉;田口 明裕;Tetsuya Ogata;Yuya Hattori;人工知能学会(奥乃 博);小島摩里子
  • 通讯作者:
    小島摩里子
Study on non-audible murmur speaker verification using multiple session data
基于多会话数据的非可闻杂音说话人验证研究
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sarker;B.K.;Yoshiyuki Nakatani;Yoshiaki Yasumura;Tetsuro Kitahara;奥乃 博;Hiroshi G.Okuno;清水 敬太;服部 佑哉;田口 明裕;Tetsuya Ogata;Yuya Hattori;人工知能学会(奥乃 博);小島摩里子;小島摩里子;Mariko Kojima;Mariko Kojima
  • 通讯作者:
    Mariko Kojima
実時間超解像ロボット聴覚システムとその複数同時音声認識への応用
实时超分辨率机器人听觉系统及其在多人同时语音识别中的应用
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中村 圭佑;中臺 一博;奥乃 博
  • 通讯作者:
    奥乃 博
神経回路モデルを用いたロボットの描画運動における発達的模倣学習
使用神经回路模型进行机器人绘图动作的发育性模仿学习
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    望月 敬太;西出 俊;奥乃 博;尾形 哲也
  • 通讯作者:
    尾形 哲也

奥乃 博的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('奥乃 博', 18)}}的其他基金

Issues raised by open source in the legalization of AI and Robots
开源在人工智能和机器人合法化中引发的问题
  • 批准号:
    22K12210
  • 财政年份:
    2022
  • 资助金额:
    $ 9.28万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
ロボット聴覚の実環境理解に向けた多面的展開
机器人听觉的多方面发展以了解真实环境
  • 批准号:
    24240035
  • 财政年份:
    2012
  • 资助金额:
    $ 9.28万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
音環境理解研究のフィールド情報学への展開
声环境理解领域信息学研究的进展
  • 批准号:
    21650043
  • 财政年份:
    2009
  • 资助金额:
    $ 9.28万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
二分決定グラフによる全解表現に基づく数独問題の難易度の定義と問題自動生成法
基于使用二元决策图和自动问题生成方法的完整解表示的数独问题难度级别定义
  • 批准号:
    19650030
  • 财政年份:
    2007
  • 资助金额:
    $ 9.28万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
音響信号記号変換に基づいたセマンティックインタラクション
基于声学信号符号变换的语义交互
  • 批准号:
    19024042
  • 财政年份:
    2007
  • 资助金额:
    $ 9.28万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
音響信号記号変換に基づいたセマンティックインタラクション
基于声学信号符号变换的语义交互
  • 批准号:
    18049048
  • 财政年份:
    2006
  • 资助金额:
    $ 9.28万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
音響的テクスチャに基づくロボット・インタラクションの研究
基于声纹理的机器人交互研究
  • 批准号:
    17650052
  • 财政年份:
    2005
  • 资助金额:
    $ 9.28万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
聴覚・視覚の複数レベル実時間情報統合の研究
听觉与视觉多级实时信息集成研究
  • 批准号:
    15017251
  • 财政年份:
    2003
  • 资助金额:
    $ 9.28万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
聴覚・視覚の複数レベル実時間情報統合の研究
听觉与视觉多级实时信息集成研究
  • 批准号:
    14019051
  • 财政年份:
    2002
  • 资助金额:
    $ 9.28万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
脳のモデルを用いた自己生成音抑制機能を備えた聴覚機能の研究
利用脑模型研究具有自生声音抑制功能的听觉功能
  • 批准号:
    13878066
  • 财政年份:
    2001
  • 资助金额:
    $ 9.28万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了