HMnetを用いたLSP係数の極低ビットレート符号化法の開発

使用HMnet开发LSP系数的极低比特率编码方法

基本信息

  • 批准号:
    17760293
  • 负责人:
  • 金额:
    $ 2.18万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2005
  • 资助国家:
    日本
  • 起止时间:
    2005 至 2006
  • 项目状态:
    已结题

项目摘要

携帯電話やIP電話等,音声を圧縮・伝送する場合,音声データはLSP係数に変換して伝送される。LSP係数を効率よく圧縮できれば,極低ビットレートで高品質に音声を伝送することが可能となるため,従来より様々な圧縮符号化法が提案されてきた。その中で,セグメント量子化法は時間方向の類似性をよく表現できるため,効率よく符号化することが可能である。この時,LSP係数の時系列をどうやってセグメントに切りわけるか,が性能を大きく左右する重要なポイントである。そこで本研究では,ML-BEATS法(Maximum Likelihood Boundary Estimation Algorithm for Time-Sequence)を提案し,これを用いてLSP係数を効率的に符号化する方法を開発した。まず,以前音響モデル学習用に提案したASP-HMnet作成アルゴリズムをベースに,一般の時系列デーをセグメントに分割し,同時にHMnetでモデル化する方法を提案した。この方法(ML-BEATS法)は,尤度最大基準をもとにセグメント分割を行うため,入力された系列全体に対して最適なセグメントを獲得することができる。更にML-BEATS法を用いてLSP係数を符号化する方法を提案した。この方法でLSP係数の符号化実験を行ったところ,12bit/frameでケプストラム歪が1.64dB程度という結果が得られた。この数字は標準化されている方法のひとつであるG.729(18bit/frame,1.2dB)と比較すると,ビットレートは低いが歪も大きい,という結果であった。そこで更なる歪の低減を目指し,各次元独立に符号化する方法を提案した。LSP係数はもともと低次側から1次元目,2次元目,…としているため,低次側の係数が縮退(や分離)をすると,以降の次元がずれる,という現象が起きてしまう。そこで,LSP係数の各次元を別々に扱い,それぞれ1次元の時系列としてML-BEATS法を適用した。この時,すべての次元を1つのHMnetを用いてモテル化することで,次元がずれた場合にも対処できるようにした。この方法を用いてLSP係数の符号化実験を行ったところ,23bit/frameで1.1dBと,ケプストラム歪を下げることには成功したが,その時のビットレートが従来法に比べて高いものとなってしまった。この原因は,各次元を独立に扱ったため,各次元間の相関を利用していないので比縮効率が下がってしまったためと思われる。
当压缩和传输音频(例如手机或IP手机)时,音频数据将转换为LSP系数并传输。如果LSP系数可以有效地压缩,则可以以高质量的比特率以极低的比特率传输音频,并且过去曾提出过各种压缩编码方法。其中,段量化方法可以很好地表达时间方向的相似性,因此可以有效地编码。目前,如何将LSP系数的时间序列分为细分市场是极大地影响性能的重要一点。因此,在这项研究中,我们提出了ML-beat(时间序列的最大似然边界估计算法)方法,并开发了一种有效编码LSP系数的方法。首先,我们提出了一种将一般时间序列分为段的方法,并基于基于ASP-HMNET创建算法的HMNET同时建模,用于声学模型学习。此方法(ML-Beats方法)基于最大似然标准进行分割,因此,可以为整个输入序列获得最佳段。此外,已经提出了一种使用ML-Beats方法编码LSP系数的方法。当我们使用此方法进行了一个实验以编码LSP系数时,我们发现在12位/帧时,Cepstrum失真约为1.64db。将该数字与G.729(18位/帧,1.2DB)进行比较,这是标准化方法之一,比特率很低,但失真也很高。因此,我们提出了一种独立于每个维度编码的方法,旨在进一步减少失真。由于最初将LSP系数设置为第一个,第二等。从较低的侧,当较低阶侧的系数退化(或单独)时,随后的尺寸变为置换。因此,分别处理LSP系数的每个维度,并将ML-Beats方法应用于一维时间序列。目前,所有维度都使用一个HMNET进行了汽车式,因此即使尺寸流离失所,也可以处理。使用这种方法,我们进行了一个实验来编码LSP系数,尽管我们成功地将Cepstrum畸变降低到23位/帧时的1.1db,但当时的比特速率变得高于常规方法。这很可能是因为降低效率已降低,因为每个维度都是独立处理的,并且没有利用每个维度之间的相关性。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
ML-BEATS法を用いたLSP係数の極低ビットレート符号化法の検討
基于ML-BEATS方法的LSP系数极低码率编码方法研究
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

鈴木 基之其他文献

Spotify音楽データを用いたユーザの感情に基づく音楽推薦手法の提案
利用Spotify音乐数据提出基于用户情感的音乐推荐方法
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yukonhiatou Chaxiong;Yoshihisa Tomoki;Kawakami Tomoya;Teranishi Yuuichi;Shimojo Shinji;撫佐昭裕;鈴木 基之;鈴木基之;曽田円香,志風美雨,辻愛美紗,中野美由紀
  • 通讯作者:
    曽田円香,志風美雨,辻愛美紗,中野美由紀

鈴木 基之的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('鈴木 基之', 18)}}的其他基金

HPV関連中咽頭癌の前癌病変の同定と自然史の解明に基づくバイオマーカーの探索
基于癌前病变的识别和 HPV 相关口咽癌自然史的阐明来寻找生物标志物
  • 批准号:
    24K12671
  • 财政年份:
    2024
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of a mutual conversion method between face image and voice during speech
语音时人脸图像与声音相互转换方法的开发
  • 批准号:
    22K12916
  • 财政年份:
    2022
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
離散型HMnetを用いた音声認識システム用言語モデルの自動獲得手法の開発
基于离散HMnet的语音识别系统自动语言模型获取方法的开发
  • 批准号:
    11780244
  • 财政年份:
    1999
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
環境汚染物質の人体影響評価のための簡易模擬人体システムの開発に関する基礎研究
开发简单人体系统评估环境污染物对人体影响的基础研究
  • 批准号:
    08878072
  • 财政年份:
    1996
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
ゼロエミッションをめざした物質循環プロセスの構築
构建以零排放为目标的物质循环流程
  • 批准号:
    08358022
  • 财政年份:
    1996
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
ゼロエミッションをめざした物質循環プロセスの構築
构建以零排放为目标的物质循环流程
  • 批准号:
    07355015
  • 财政年份:
    1995
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Co-operative Research (B)
人間-環境系の変化と制御・総合班
人类-环境系统变化与控制/综合团队
  • 批准号:
    04202114
  • 财政年份:
    1993
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
人間ー環境系の変化と制御・総合班
人类-环境系统变化与控制/综合团队
  • 批准号:
    03202115
  • 财政年份:
    1991
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
古代〜中世の錘の研究
古代至中世纪重量的研究
  • 批准号:
    02904041
  • 财政年份:
    1990
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (B)
人間ー環境系の変化と制御・総合班
人类-环境系统变化与控制/综合团队
  • 批准号:
    02202112
  • 财政年份:
    1990
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas

相似海外基金

Formulation of Curve Segments Composing Japanese Landscapes
构成日本风景的曲线段的制定
  • 批准号:
    17K00741
  • 财政年份:
    2017
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A new speech coding system based on ML-BEATS
基于ML-BEATS的新型语音编码系统
  • 批准号:
    20760229
  • 财政年份:
    2008
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
A Study of Distributed Speaker Recognition Methods
分布式说话人识别方法研究
  • 批准号:
    14350204
  • 财政年份:
    2002
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了