高精度音声認識手法による音声の超極低ビットテキストファイル化・知的符号化合成方式
利用高精度语音识别方法将语音转换为超低比特文本文件及智能编码合成方法
基本信息
- 批准号:63550272
- 负责人:
- 金额:$ 1.47万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for General Scientific Research (C)
- 财政年份:1988
- 资助国家:日本
- 起止时间:1988 至 无数据
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
音声の極低ビット符号化・合成方式として、ベクトル量子化手法をセグメント単位に拡張したセグメント量子化(マトリックス量子化)法が提案され、150〜200bit/sの極低ビット符号化で、明瞭度の優れた合成音が得られている。更に低符号化を実現するには言語に依存した符号化法を導入する必要があった。本研究では、昨年度開発した情報源の内容まで立ち入った音声の超極低ビット符号化法、いわゆる知的符号化・認識符号化(認識ボコーダ)に関して改善を図った。まず初めに、入力音声波を音声分析し、10msごとにPARCOR係数、ピッチ周波数、パワーを抽出する。これらの特徴パラメータの時系列とあらかじめ作成されている約5.00個の音節標準パターン(同様な特徴パラメータ時系列)と照合し、最適な音節系列に変換する。音節符号化のために9ビット、ピッチ、パワー、継続時間長はそれぞれ7レベル、5レベル、3レベルで表現し、合計105通り(7ビット)で表現する(約100ビット/秒)。合成時には、これらの符号化手続きの逆手順で達成する。つまり、対応する音節標準パターンの原波形をピッチ、パワー、継続時間長に従って線形に補間しながら接続し、合成する。本方式の評価として、【○!1】音節単位のセグメンテーションが完全にできる理想的な場合、【○!2】韻律情報(ピッチパターン)の有用性の検討を行なった。また、本方式の実用的観点から、符号化音声から標準的な話者の音声による復号化法についても検討した。本方式の音声了解度は、音節認識精度に大きく依存する。そのための改善策として、隠れマルコフモデルによるセグメンテーション法と音節認識法を開発した。
The proposed method of ultra-low-level symbolization and synthesis of sound is based on the quantization method. The ultra-low-level symbolization and synthesis of sound at 150 ~ 200bit/s are based on the quantization method. It is necessary to reduce the number of symbols used in speech. This study is aimed at improving the content of information sources, the ultra-low-level symbolization of sound, the symbolization of knowledge and the symbolization of cognition. The initial sound wave, the incoming sound wave, the acoustic analysis, the 10ms, the frequency, the extraction. The time series of these characteristics is composed of about 5.00 syllables. The standard time series of these characteristics is composed of about 5.00 syllables. Syllabic symbolization: 9,, 7, 5, 3 The synthesis time is reversed, the symbolization time is reversed, and the inverse time is reversed. The original waveform of the syllable standard is divided into two parts: the first part is divided into two parts: the first part is divided into three parts: the second part is divided into three parts: the first part is divided into three parts: the first part is divided into four parts: the second part is divided into four parts: the third part is divided into four parts: the fourth part This method of evaluation 1) Syllable single position of the word to complete the ideal situation,[○! 2) Discussion on the usefulness of prosody information. This method is used in the implementation of the point, symbol sound from the standard of the speaker's voice, complex signal method to detect. This method of sound understanding, syllable recognition accuracy depends greatly on the. The development of sound perception and sound perception
项目成果
期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
平田好充,中川聖一: 電気関係学会東海支部連合大会講論集. 394 (1988)
Yoshimitsu Hirata、Seiichi Nakakawa:电气工程学会东海分会联合会论文集 394 (1988)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
平田好充,中川聖一: 日本音響学会講論集. 169-170 (1989)
Yoshimitsu Hirata、Seiichi Nakakawa:日本声学学会会议记录 169-170 (1989)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
中川聖一,平田好充: 電子情報通信学会論文誌.
Seiichi Nakakawa、Yoshimitsu Hirata:电子、信息和通信工程师学会汇刊。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
中川聖一: "確率モデルによる音声認識" 電子情報通信学会, 200 (1988)
Seiichi Nakakawa:“使用概率模型进行语音识别” IEICE,200 (1988)
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
中川 聖一其他文献
A Study of Speaker Identification Using Phoneme-lnformation
利用音素信息识别说话人的研究
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
中川 聖一;富樫 慎吾;山口 優;藤井 康寿;北岡 教英;Katsuyuki Obayashi - 通讯作者:
Katsuyuki Obayashi
講義音声ドキュメンのコンテンツ化と視聴システム
讲座音频文档内容创建及查看系统
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
中川 聖一;富樫 慎吾;山口 優;藤井 康寿;北岡 教英 - 通讯作者:
北岡 教英
中川 聖一的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('中川 聖一', 18)}}的其他基金
実世界環境下における遠隔発話の音声認識と話者認識およびインデックス化に関する研究
现实环境中的语音识别、说话人识别和远程语音索引研究
- 批准号:
19650040 - 财政年份:2007
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
セマンティックディジタルアーカイブのための音声・映像・言語の統合的処理
音频、视频、语言一体化处理,实现语义数字档案
- 批准号:
15630003 - 财政年份:2003
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音声言語処理技術と学習者モデルを用いた語学学習システムの研究
利用口语处理技术和学习者模型的语言学习系统研究
- 批准号:
12040104 - 财政年份:2000
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
外国語コミュニケーション能力の総合的な養成研究
外语交际能力综合训练研究
- 批准号:
12040103 - 财政年份:2000
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
音声・言語・画像情報の統合化による概念の獲得に関する研究
整合语音、语言、图像信息的概念获取研究
- 批准号:
05213209 - 财政年份:1993
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
音声・言語・画像情報の統合化による概念の獲得に関する研究
整合语音、语言、图像信息的概念获取研究
- 批准号:
04229209 - 财政年份:1992
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
音声・言語・画像情報の統合化による概念の獲得に関する研究
整合音频、语言、图像信息的概念获取研究
- 批准号:
03245209 - 财政年份:1991
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
音声情報と画像情報の統合化による概念の獲得に関する研究
音频与图像信息融合的概念获取研究
- 批准号:
02805045 - 财政年份:1990
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for General Scientific Research (C)
音声・画像の視聴覚情報のシンボル記述化による自然言語文法の帰納的学習法の研究
利用音频、图像等视听信息的符号描述进行自然语言语法归纳学习方法研究
- 批准号:
01550284 - 财政年份:1989
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for General Scientific Research (C)
音節セグメントの同定に基づく音声の超極低ビット符号化合成方式の研究
基于音节段识别的语音超低比特编码合成方法研究
- 批准号:
62550243 - 财政年份:1987
- 资助金额:
$ 1.47万 - 项目类别:
Grant-in-Aid for General Scientific Research (C)