End-to-End Model for Task-Independent Speech Understanding and Dialogue

与任务无关的语音理解和对话的端到端模型

基本信息

  • 批准号:
    20H00602
  • 负责人:
  • 金额:
    $ 28.62万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の観点から各々以下の研究を実施した。まず、人間どうしの自然な話し言葉音声から、フィラーや言い誤りの削除・句読点や脱落した助詞の挿入・口語的な表現の修正などの適宜必要な編集を行いながら、直接可読性の高い書き言葉スタイルの文を出力するEnd-to-Endモデルを設計・構築した。その際に、音声に忠実な書き起こしを疑似的に復元してEnd-to-Endモデルの学習を補助する手法と、句読点位置を手がかりとした音声区分化手法も併せて提案し、各々の効果を示した。衆議院審議音声を用いた評価実験により、提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に会議録テキストを生成できることを確認した。次に、ユーザの入力発話からシステムの応答を生成するEnd-to-End(Seq-to-Seq)モデルにおいて、感情認識を統合するとともに、応答から入力発話を復元するモデルも統合学習することで、文脈理解と感情認識を伴った応答生成の実現を図った。感情認識と検索型の応答を組み合わせることで、共感的な対話が実現できることを確認した。さらに、音声認識モデルにおける自己教師付き学習の導入についても検討し、音声認識と言語認識・ドメイン認識を同時にEnd-to-Endモデルで行い、かつ後者の認識結果を利用することで、音声認識の精度が改善されることを示した。
End-to-End communication is a fundamental part of sound understanding, communication, and communication. The natural language of speech, sound, speech, error, deletion, sentence point drop, auxiliary word entry, oral performance correction, appropriate and necessary compilation, implementation, direct accessibility, high quality, speech, text output, End-to-End design, construction. In addition, the method of learning and the method of dividing the sound area are shown in detail. The House of Representatives deliberated on the use of sound, comments, proposals, sound recognition, comments, comments, changes, changes, combinations, high-precision, high-speed, conference recording, generation, confirmation, etc. Second, the input force of the communication, the response generation, the End-to-End(Seq-to-Seq), the emotional recognition, the integration of the input force, the response, the integration of the learning, the context understanding, the emotional recognition, the response generation, the realization. The relationship between emotion and emotion is confirmed. In addition, the introduction of sound recognition and speech recognition, and the use of the latter's recognition results, the improvement of the accuracy of sound recognition.

项目成果

期刊论文数量(27)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Distilling the Knowledge of BERT for Sequence-to-Sequence ASR
  • DOI:
    10.21437/interspeech.2020-1179
  • 发表时间:
    2020-08
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hayato Futami;H. Inaguma;Sei Ueno;M. Mimura;S. Sakai;Tatsuya Kawahara
  • 通讯作者:
    Hayato Futami;H. Inaguma;Sei Ueno;M. Mimura;S. Sakai;Tatsuya Kawahara
Monaural Speech Enhancement Based on Spectrogram Decomposition for Convolutional Neural Network-sensitive Feature Extraction
  • DOI:
    10.21437/interspeech.2022-11268
  • 发表时间:
    2022-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hao Shi;Longbiao Wang;Sheng Li;J. Dang;Tatsuya Kawahara
  • 通讯作者:
    Hao Shi;Longbiao Wang;Sheng Li;J. Dang;Tatsuya Kawahara
Selective multi-task learning for speech emotion recognition using corpora of different styles.
使用不同风格的语料库进行语音情感识别的选择性多任务学习。
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    H.Zhang;M.Mimura;T.Kawahara;and K.Ishizuka.
  • 通讯作者:
    and K.Ishizuka.
An end-to-end model from speech to clean transcript for parliamentary meetings
议会会议从演讲到干净文字记录的端到端模型
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M.Mimura;S.Sakai;and T.Kawahara
  • 通讯作者:
    and T.Kawahara
音声対話システム
语音对话系统
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    河原達也;荒木雅弘
  • 通讯作者:
    荒木雅弘
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

河原 達也其他文献

京都市バス運行情報案内システムにおける実ユーザのふるまいの分析
京都市公交车运营信息引导系统的实际用户行为分析
多様な相槌をうつ傾聴対話システムのための相槌形態の予測
支持多种宜人内容的听力对话系统的宜人形式预测
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    山口 貴史;井上 昂治;吉野 幸一郎;高梨 克也;Nigel G. Ward;河原 達也
  • 通讯作者:
    河原 達也
原子核をプローブとした地球核周辺の局所構造探査
使用原子核作为探测器探索地核周围的局部结构
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    坂東 宜昭;糸山 克寿;昆陽 雅司;田所 諭;中臺 一博;吉井 和佳;河原 達也;奥乃 博;三井隆也
  • 通讯作者:
    三井隆也
音声対話システムにおけるユーザのふるまいの経時的変化の分析
分析语音对话系统中用户行为随时间的变化
モバイルMRシステム構築のための機能分散型フレームワーク(8)-アニメーションの表現力向上-
构建移动MR系统的功能分布式框架(8)-提高动画表现力-
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    平山 高嗣;角 康之;河原 達也;松山隆司;加藤芳秀,松原茂樹;川端大輔,木村朝子,柴田史久
  • 通讯作者:
    川端大輔,木村朝子,柴田史久

河原 達也的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('河原 達也', 18)}}的其他基金

仮想空間のチームスポーツを介したコミュニケーションスキルの知的学習支援
通过虚拟空间中的团队运动来智能学习支持沟通技巧
  • 批准号:
    15F15049
  • 财政年份:
    2015
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
強化学習に基づく適応的な音声対話システム
基于强化学习的自适应口语对话系统
  • 批准号:
    10F00050
  • 财政年份:
    2010
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
用例に基づく対話制御を用いたコンピュータ支援型言語学習システム
使用基于示例的对话控制的计算机辅助语言学习系统
  • 批准号:
    10F00361
  • 财政年份:
    2010
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ユーザ・状況に適応的な音声対話による大規模情報の検索・提示
通过适应用户和情况的语音对话搜索和呈现大规模信息
  • 批准号:
    19024044
  • 财政年份:
    2007
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
ユーザ・状況に適応的な音声対話による大規模情報の検索・提示
通过适应用户和情况的语音对话搜索和呈现大规模信息
  • 批准号:
    18049047
  • 财政年份:
    2006
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    16016250
  • 财政年份:
    2004
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    15017252
  • 财政年份:
    2003
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    14019052
  • 财政年份:
    2002
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
複数話者の音声コミュニケーションの意図・状況理解
了解多说话者语音通信的意图和情况
  • 批准号:
    13224057
  • 财政年份:
    2001
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)
キーフレーズ認識とその信頼度計算に基づく柔軟な音声対話理解
基于关键词识别的灵活语音对话理解及其可靠性计算
  • 批准号:
    09780328
  • 财政年份:
    1997
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

セキュアな音声対話のための実環境なりすまし音声コーパス構築
构建真实世界的欺骗语音语料库以实现安全语音对话
  • 批准号:
    24K14993
  • 财政年份:
    2024
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
意図を的確に伝える音声対話翻訳の基盤技術の創出
创造准确传达意图的语音对话翻译基础技术
  • 批准号:
    23K28144
  • 财政年份:
    2024
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
音声対話系の統一的モデリングに基づくユーザへのモデル自動適応
基于口语对话系统统一建模的自动模型适应用户
  • 批准号:
    23K28147
  • 财政年份:
    2024
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
九州・沖縄方言の継承支援に資する音声対話型生成系AIの開発
开发支持九州、冲绳方言传承的语音对话生成系统AI
  • 批准号:
    24K00074
  • 财政年份:
    2024
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
意図を的確に伝える音声対話翻訳の基盤技術の創出
创造准确传达意图的语音对话翻译基础技术
  • 批准号:
    23H03454
  • 财政年份:
    2023
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
音声対話系の統一的モデリングに基づくユーザへのモデル自動適応
基于口语对话系统统一建模的自动模型适应用户
  • 批准号:
    23H03457
  • 财政年份:
    2023
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
音声対話システムにおける複数のふるまいの同時制御に基づくキャラクタ表現
语音对话系统中基于多种行为同时控制的人物表达
  • 批准号:
    23K20005
  • 财政年份:
    2023
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
対話タスク・ユーザに適したキャラクタを表現する音声対話システム
表达适合对话任务和用户的字符的语音对话系统
  • 批准号:
    20J22284
  • 财政年份:
    2020
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
階層的End-to-Endモデルに基づく音声対話における心的状態推定に関する研究
基于分层端到端模型的口语对话心理状态估计研究
  • 批准号:
    18J22864
  • 财政年份:
    2018
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
社会的制約を考慮したロボット用音声対話システムの実現
考虑社会约束的机器人语音对话系统的实现
  • 批准号:
    14J02714
  • 财政年份:
    2014
  • 资助金额:
    $ 28.62万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了