音声認識における韻律利用のための確率的韻律表現に関する研究

语音识别中韵律使用的概率韵律表示研究

基本信息

  • 批准号:
    10780222
  • 负责人:
  • 金额:
    $ 1.34万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1998
  • 资助国家:
    日本
  • 起止时间:
    1998 至 1999
  • 项目状态:
    已结题

项目摘要

本課題では音声認識を支援する特徴量として、音声の了解性に寄与する韻律(アクセント、イントネーション、リズムなど)に着目し、これらを「何如にパターン認識に用い易い特徴量として表現するか」および「どのように音声認識で利用するか」について検討を行なった。まず、韻律特徴量の一つの表現形態として、F0信頼場を提案した。これは音声波形の自己相関に基づいた「時間-ピッチ周波数(F0)」のマトリクス状の特徴量であり、ピッチらしさ(F0信頼度)に基づいた表現である。この特徴量の有効性について、アクセント句境界検出(アクセント句のF0テンプレートと入力F0信頼場との累積F0信頼度最大を基準としたパターン整合により句境界を検出)、藤崎モデルの指令推定(F0パターン生成モデルにおけるアクセント指令、およびフレーズ指令をF0信頼度最大を基準とした山登り法によって推定)の2つの実験より、従来のF0特徴量を用いた場合と、ほぼ等価なアルゴリズムで実装が可能であることを示し、また、より精度の良い検出・推定結果が得られ、従来のF0パターンで煩わされたF0抽出エラーなどの問題に対処しうる特徴量であることを示した。次に、音声認識における韻律の利用法として、前述の韻律句境界検出法によって得られるアクセント句境界情報を用い、音響尤度の韻律尤度の混合尺度を基準とした文音声認識システムを実装した。このシステムでは音響的に類似している複数の文候補のスコアに、韻律句構造的な確からしさを指標としたスコアを加算し、最もスコアの高い文を出力する。評価にあたっては、句読点の位置によって複数の文意に解釈できる音響尤度の等しい曖昧文20例程度に対し、ユーザの発声した意味通りの文認識を可能とした。また、音声対話における韻律の利用法として、F0値やパワーを特徴量とした感情の変化を模擬するHMM(Hidden Marcov Model)を定義し、その実装および対話音声の収集を行なった。このシステムは、プロトタイプが組み上がったばかりの状況であり、今後、擬人化エージェントの研究として改良を重ねていく予定である。
This topic で は sounds know を support す る, 徴 quantity と し て, voice の understand に send and す る rhythm (ア ク セ ン ト, イ ン ト ネ ー シ ョ ン, リ ズ ム な ど) に mesh し, こ れ ら を "see に パ タ ー ン know に with い い te 徴 quantity と し て performance す る か" お よ び "ど の よ う に sounds know で using す る か" に つ い て 検 for を line Youdaoplaceholder0. Youdaoplaceholder0, prosodic characteristic quantity <s:1> と て て, F0 Nobuyoshi を proposal た た. こ れ は voice waveform の their phase masato に base づ い た "time - ピ ッ チ cycle for (F0)" の マ ト リ ク ス shape の, 徴 quantity で あ り, ピ ッ チ ら し さ (F0 letter 頼 degrees) に づ い た performance で あ る. こ の の 徴 quantity have sharper sex especially に つ い て, ア ク セ ン ト sentence boundary 検 out (ア ク セ ン ト sentence の F0 テ ン プ レ ー ト と F0 頼 letter into force field と の cumulative F0 letter 頼 degree maximum を benchmark と し た パ タ ー ン integration に よ り sentence boundary を 検 out), cane battery モ デ ル の presumption instruction (F0 パ タ ー ン generated モ デ ル に お け る ア ク セ ン ト instructions, お よ び フ レ ー ズ instruction を F0 頼 of biggest を benchmark と し た mountain climb り method に よ っ て presumption) の 2 つ の be 験 よ り, 従 の F0, を 徴 quantity with い た と, ほ ぼ etc 価 な ア ル ゴ リ ズ ム で may be loaded が で あ る こ と を し, ま た, よ り good precision の い 検 out, the result of presumption が ら れ, 従 の F0 パ タ ー ン で vexed わ さ れ た F0 Extract the エラ, エラ, な, <s:1>, the に problem, the <s:1> うる characteristic quantity である, the とを, the とを, the とを, the とを, the とを, the とを, and the とを to show the た. に, sounds know に お け る rhythm の using method と し て, the foregoing の rhythmic sentence boundary 検 に よ っ て have ら れ る ア ク セ ン ト sentence level intelligence を with い, acoustics especially の rhythm especially degrees の mixed scale を benchmark と し た article sounds know シ ス テ ム を be loaded し た. こ の シ ス テ ム で は acoustics に similar し て い る plural の article alternate の ス コ ア に, rhythm, sentence structure な really か ら し さ を index と し た ス コ ア を addition し, most も ス コ ア の high い article を output す る. Review 価 に あ た っ て は, sentence 読 point の に よ っ て plural means に の solution 釈 で き る degree of acoustics especially の し い ambiguous article 20 degree に し, seaborne ユ ー ザ の 発 sound し た mean tong り の article may know を と し た. ま た, sounds of words に seaborne お け る rhythm の using method と し て, F0 numerical や パ ワ ー を, 徴 quantity と し た の feelings - the を simulation す る HMM (the Hidden Marcov Model) を definition し, そ の be loaded お よ び voice sound seaborne の 収 row な を っ た. こ の シ ス テ ム は, プ ロ ト タ イ プ が group on み が っ た ば か り の condition で あ り, in the future, anthropomorphic エ ー ジ ェ ン ト の research と し て improved を heavy ね て い く designated で あ る.

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Mitsuru Nakai: "The use of F0 reliability function for prosodic command analysis on F0 contour gen-eration model" The 5th International Conference on Spoken Language Processing. 1. 171-174 (1998)
Mitsuru Nakai:“F0 轮廓生成模型上使用 F0 可靠性函数进行韵律命令分析”第五届国际口语处理会议。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
川本真一、中井満、下平博、嵯峨山茂樹: "動的尺度を用いた発話速度の推定"平成11年度電気関係学会北陸支部連合大会. 1. 369-369 (1999)
Shinichi Kawamoto、Mitsuru Nakai、Hiroshi Shimohira、Shigeki Sagayama:“使用动态标度估计语速”1999 年电气工程学会北陆分会会议 1. 369-369 (1999)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
川本真一、井波暢人、加藤裕、槻尾洋志、藤永勝久、山崎義人、横山国宏、中井満、下平博、嵯峨山茂樹: "確率的な振舞を伴なう擬人化対話エージェント"Interaction2000. (2000)
Shinichi Kawamoto、Nobuto Inami、Yutaka Kato、Hiroshi Tsukio、Katsuhisa Fujinaga、Yoshito Yamazaki、Kunihiro Yokoyama、Mitsuru Nakai、Hiroshi Shimodaira、Shigeki Sagayama:“具有概率行为的拟人对话代理”Interaction2000。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

中井 満其他文献

加速度センサの傾き情報を併用した空中手書き文字認識
使用来自加速度传感器的倾斜信息进行空中手写字符识别
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大坪 由香利;中井 満
  • 通讯作者:
    中井 満
楽な姿勢で小さく書く空中手書き文字認識
识别以舒适姿势写在空中的小写字母手写字符
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    川端 凌平;中井 満
  • 通讯作者:
    中井 満
環境依存型サブストロークHMMを用いたオンライン手書き文字認識
使用环境相关的子笔画 HMM 进行在线手写字符识别
通知情報提示インタフェースの検討
通知信息呈现界面的思考
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    川端 凌平;中井 満;小笠原直人,佐藤究,布川博士
  • 通讯作者:
    小笠原直人,佐藤究,布川博士
空中手書き文字認識におけるペン先方向の加速度特徴の活用
笔尖方向加速度特性在空中手写字符识别中的利用
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大坪 由香利;中井 満
  • 通讯作者:
    中井 満

中井 満的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('中井 満', 18)}}的其他基金

XR空間での筆記・描画のためのハンドジェスチャーインタフェースの研究
XR空间中书写和绘图的手势界面研究
  • 批准号:
    24K15050
  • 财政年份:
    2024
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
筆跡を予測・補完・整形する手書きインタフェースの開発
开发预测、补充和塑造笔迹的手写界面
  • 批准号:
    21K11998
  • 财政年份:
    2021
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
ウェアラブルコンピューティングを支援する非目視手書き文字認識の研究
支持可穿戴计算的非视觉手写字符识别研究
  • 批准号:
    17700098
  • 财政年份:
    2005
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
漸次的な音声認識の解探索過程における韻律句境界情報の利用
韵律短语边界信息在渐进式语音识别解决方案搜索过程中的利用
  • 批准号:
    12780270
  • 财政年份:
    2000
  • 资助金额:
    $ 1.34万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了