構造的不変表象を基盤とした柔軟な音声合成技術の構築
基于结构不变表示的灵活语音合成技术构建
基本信息
- 批准号:10J08861
- 负责人:
- 金额:$ 0.9万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2010
- 资助国家:日本
- 起止时间:2010 至 2011
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究課題では、人間の音声コミュニケーションの解明とそのメディア情報処理による実現を念頭に、人間の音声活動に着眼した上で、構造的不変表象を基盤とした音声合成技術の高精度化に取り組んだ。これまでに提案した音声合成のフレームワークを幼児の音声模倣のモデルとして解釈し、空間探索問題としての定式化を行い、その評価関数に基づく最適化によって高精度化を実現した。本年度における研究課題の遂行では、話者性と言語性の分離・統合という観点から提案する音声合成技術をより柔軟なものにすることを検討した。この際、入力発声の話者性を所望の話者のものへと変えて出力する声質変換と呼ばれる技術に着眼し、これに音声翻訳や音声認識の知見から分離・統合の確率モデルを導入することで、言語性及び話者性のモデル化に別々の手法を利用し、これを統合できる可能性を示した。具体的には、言語性のモデル化について入出力話者間の変換関係を記述する混合正規分布モデルを、話者性のモデル化には出力話者の音声空間をモデル化する混合正規分布モデルをそれぞれ独立に学習・導入することで、従来変換関係の構築に必要だったパラレルコーパスの必要性を削減し、さらに変換性能の高精度化を可能とした。また本年度研究課題遂行の後半においては、韻律的特徴の全体的変化を捉えてモデル化することに着眼し、少数のパラメータでピッチパターンの時間変化をモデル可能な基本周波数パターン生成過程モデルと呼ばれるモデルに着目し、これを用いて入出力話者の基本周波数パターンを記述した上で、その対応関係を変化差分で記述手法について検討した。本年度の検討事項は、構造的不変表象との組み合わせを意図したものであり、それぞれフレームワークの確率的な拡張、および韻律的特徴への導入として位置づけられ、今後構造的不変表象との統合を通して、研究目的である柔軟な音声合成技術の完成を目指す。
This research topic focuses on the realization of human sound activities, the construction of sound images, the base plate and the high precision of sound synthesis technology. This is the first time that we've been able to solve problems such as sound synthesis, sound simulation, space exploration, optimization, and high precision. This year's research topic is to discuss the separation and integration of speech and speech. The technology of voice quality conversion and voice recognition is focused on, voice translation and voice recognition is separated and integrated, and the accuracy of voice quality conversion and voice quality conversion is demonstrated. Specific, verbal, and conversational relationships between incoming and outgoing speakers are described in a mixed normal distribution, which reduces the necessity for independent learning, introduction, and construction of conversational relationships, and makes it possible to improve conversational performance with high accuracy. The second half of this year's research project is to focus on the overall transformation of the characteristics of the rhythm, and to focus on the temporal transformation of the characteristics of the rhythm. The relationship between the two is different, and the description method is different. This year's research focuses on the integration of structural non-structural images,
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Probabilistic integration of joint density model and speaker model for voice conversion
- DOI:10.21437/interspeech.2010-496
- 发表时间:2010
- 期刊:
- 影响因子:0
- 作者:D. Saito;Shinji Watanabe;Atsushi Nakamura;N. Minematsu
- 通讯作者:D. Saito;Shinji Watanabe;Atsushi Nakamura;N. Minematsu
Improved generation of speech from its abstract and structural representation
根据抽象和结构表示改进语音生成
- DOI:
- 发表时间:2010
- 期刊:
- 影响因子:0
- 作者:N.Minematsu;D.Saito;K.Hirose
- 通讯作者:K.Hirose
変換モデルと話者モデルの確率的統合に基づく声質変換法の検討
基于转换模型和说话人模型随机集成的语音质量转换方法研究
- DOI:
- 发表时间:2010
- 期刊:
- 影响因子:0
- 作者:齋藤大輔;渡部晋治;中村篤;峯松信明
- 通讯作者:峯松信明
音声に含まれる言語的情報を非言語的情報から音響的に分離して抽出する手法の提案~人間らしい音声情報処理の実現に向けた一検討~
提出一种从非语言信息中声学分离和提取语音中包含的语言信息的方法 - 实现类人语音信息处理的研究 -
- DOI:
- 发表时间:2011
- 期刊:
- 影响因子:0
- 作者:峯松信明;櫻庭京子;西村多寿子;喬宇;朝川智;鈴木雅之;齋藤大輔
- 通讯作者:齋藤大輔
基本周波数パターン生成過程モデルを用いた声質変換の高精度化に関する検討
利用基本频率模式生成过程模型提高语音质量转换精度的研究
- DOI:
- 发表时间:2011
- 期刊:
- 影响因子:0
- 作者:橋本浩弥;齋藤大輔;峯松信明;広瀬啓吉
- 通讯作者:広瀬啓吉
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
齋藤 大輔其他文献
海馬歯状回におけるパターン分離による活動と主観的な気分との関係:機能的 MRI 研究
海马齿状回模式分离活动与主观情绪之间的关系:功能性 MRI 研究
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
藤井 猛;齋藤 大輔;谷中 久和;小坂 浩隆;及川 広志;岡沢 秀彦 - 通讯作者:
岡沢 秀彦
臨床と研究の融合 脳科学的視点から子どもの発達を考える
临床实践与研究的融合:从神经科学的角度考虑儿童发展
- DOI:
- 发表时间:
2022 - 期刊:
- 影响因子:0
- 作者:
齋藤 大輔;滝口 慎一郎;水島 栄 - 通讯作者:
水島 栄
自閉症スペクトラム障害者における扁桃体の安静時脳活動
自闭症谱系障碍患者杏仁核的静息大脑活动
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
丁 ミンヨン;齋藤 大輔;石飛 信;守田 知代;猪原 敬介;佐々木 章宏;新井 清義;升谷 泰裕;藤岡 徹;岡本 悠子;棟居 俊夫;友田 明美;定藤 規弘;岡沢 秀彦;飯高 哲也;和田 有司;小坂 浩隆 - 通讯作者:
小坂 浩隆
音学シンポジウム2018の開催にあたって
关于举办2018音韵学研讨会
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
齋藤 大輔;森勢 将雅;塩田 さやか;木谷 俊介;小橋川 哲;高道 慎之介;武岡 成人;橘 亮輔 - 通讯作者:
橘 亮輔
齋藤 大輔的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('齋藤 大輔', 18)}}的其他基金
若年層を対象としたAI利活用教育の評価手法の構築に関する研究
针对青少年的人工智能应用教育评价方法构建研究
- 批准号:
24K16764 - 财政年份:2024
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
ビタミンB2を用いた生体組織の血流診断法の開発
开发利用维生素B2的活体组织血流诊断方法
- 批准号:
22K08995 - 财政年份:2022
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
骨質マーカーによる進行性下顎頭吸収発症リスク評価法の確立
利用骨质量标志物建立下颌进行性吸收风险评估方法
- 批准号:
19K19190 - 财政年份:2019
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
社会的相互作用や生活環境が、子どもの認知機能や社会能力に与える影響
社会交往和生活环境对儿童认知功能和社交能力的影响
- 批准号:
19K02611 - 财政年份:2019
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
児童を対象としたプログラミングを活用した教育が与える能力の分析と評価
儿童编程教育能力的分析与评价
- 批准号:
19K14328 - 财政年份:2019
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
相似海外基金
深層エネルギーベースモデルによる創造的声質変換の研究
使用深度能量模型进行创造性语音质量转换的研究
- 批准号:
23K11161 - 财政年份:2023
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
統計的声質変換を用いた無喉頭音声の品質改善
使用统计语音转换提高非喉部语音的质量
- 批准号:
11J08741 - 财政年份:2011
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for JSPS Fellows
喉頭摘出者を対象にした統計的声質変換を用いた発声支援システムの確立
利用统计语音质量转换为喉切除患者建立声音支持系统
- 批准号:
09J10220 - 财政年份:2009
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for JSPS Fellows
音声分析合成における声質変換プログラム
用于语音分析和合成的语音质量转换程序
- 批准号:
01918079 - 财政年份:1989
- 资助金额:
$ 0.9万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (B)