多重解像度解析を用いた機械学習による音声強調および広帯域化に関する研究

使用多分辨率分析的机器学习语音增强和宽带化研究

基本信息

  • 批准号:
    22K12133
  • 负责人:
  • 金额:
    $ 2万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

狭帯域から広帯域への音声帯域拡張技術は音声としての人間らしさを強調するための手法である一方,音域のバランスを適応的に調整することで高齢になると感じる「聞こえづらさ」といった軽度の難聴問題を解消できる一助になると考えられる.本応募研究では,音声信号の多重解像度解析によって得られる階層型成分で得られる情報から,本来存在しない未知のサブバンド成分をサブバンド間の相関関係を用いて機械学習により推定することを目的に研究を遂行している.これについて,これまで本研究に係る自身の先行研究によって得られた成果をベースとして,どのようにしたら推定精度を向上させることができるか,ということを念頭に研究を進めており,まず,今年度の交付金を使用して新たな研究開発環境のハードウェア(高速なパーソナルコンピュータとGPGPUを搭載したグラフィックボード)とソフトウェア(MATLAB数値解析ソフト)の構築および整備を行った.つぎに,音声帯域拡張技術の実現手法の一つとして,連続音声データベースから音素単位に分解して子音または母音ごとの発声区間を判別し,それぞれの発声区間ごとにラベリング,つまりタグ付けを行う方法で研究を進めている.今後の研究の展開になるが,前述で得られた音素クラスタごとに多重解像度解析を用いた未知成分の推定パラメータを定義・決定し,より高品質な広帯域音声の獲得を目指す方針である.基本アプローチとしては離散ウェーブレット解析(DWT)を用いてDWT分解後のレベル間の相関を利用することで,機械学習を用いた相関係数の算出により,元来人間の肉声が持っていた高域成分および低域成分を疑似的に生成し,狭帯域の音声成分に付加することで広帯域化を図る予定である.
Narrow 帯 domain か ら hiroo 帯 domain へ の sounds 帯 domain company, zhang technology は sounds と し て の world ら し さ を emphasize す る た め の gimmick で あ る, range の バ ラ ン ス を optimum 応 に adjust す る こ と で high 齢 に な る と feeling じ る smell "こ え づ ら さ" と い っ た 軽 degrees difficulty 聴 の を null で き る on help に な る と exam え ら れ る. This 応 offering study で は, voice signal analytical に の multiple resolution よ っ て have ら れ る class type composition で must ら れ る intelligence か ら, already exist し な い unknown の サ ブ バ ン ド composition を サ ブ バ ン ド の phase between masato を masato department with い て rote learning に よ り presumption す る こ と を objectives に を carries out し て い る. こ れ に つ い て, こ れ ま る で に this research department itself の leading research に よ っ て have ら れ た results を ベ ー ス と し て, ど の よ う に し た ら presumed accuracy を upward さ せ る こ と が で き る か, と い う こ と を thought を に research into め て お り, ま ず, Our deliveries to gold を の し て new た な research open 発 environment の ハ ー ド ウ ェ ア (high-speed な パ ー ソ ナ ル コ ン ピ ュ ー タ と GPGPU を carry し た グ ラ フ ィ ッ ク ボ ー ド) と ソ フ ト ウ ェ ア (MATLAB the numerical analytical ソ フ ト) の build お よ line gearing up び を っ た. つ ぎ に, sounds 帯 domain company, zhang technology の be gimmick の a つ now と し て, even 続 sounds デ ー タ ベ ー ス か ら phonemes 単 a に decomposition し て consonants ま た は vowels ご と の 発 discriminant し, acoustic interval を そ れ ぞ れ の 発 acoustic interval ご と に ラ ベ リ ン グ, つ ま り タ グ pay け を line う methods で を into め て い る. Future の study の started に な る が, the foregoing で have ら れ た phonemes ク ラ ス タ ご と に analytical を with multiple resolution い た presumption of unknown composition の パ ラ メ ー タ を define decision し, よ り high-quality な hiroo 帯 domain sounds の get を refers す policy で あ る. Basic ア プ ロ ー チ と し て は discrete ウ ェ ー ブ レ ッ ト parsing (DWT) を い て after DWT decomposition の レ ベ ル の phase between masato を using す る こ と で, rote learning を with い た phase の masato coefficient to calculate に よ り, yuan to human sound の meat が hold っ て い た high domain component お よ び low domain component を suspected に generated し, The narrow-band <s:1> acoustic components are に subdivided by する とで とで, and the broadband を graph る is given である.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

林 誠治其他文献

Single Channel Speech Enhancement Based on Perceptual Frequency-weighting
基于感知频率加权的单通道语音增强
Speech Enhancement using Perceptual Frequency-weighting
使用感知频率加权的语音增强
聴覚スケーリング関数を用いた音声強調による雑音除去
使用听觉缩放功能通过语音增强消除噪声
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T.Saito;H.Harada;T.Komatsu;齊藤隆弘;T.Saito;T.Komatsu;林 誠治;斎藤 泰明;植月龍興;垣實 洋;Seiji HAYASHI;Yasuaki SAITOH;Tatsuoki UETSUKI;Hiroshi KAKIMI;斉藤 泰明
  • 通讯作者:
    斉藤 泰明
音声スペクトルのピーク位置の補正を用いた雑音低減法の一考察
语音频谱峰值位置校正降噪方法的研究
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T.Saito;H.Harada;T.Komatsu;齊藤隆弘;T.Saito;T.Komatsu;林 誠治;斎藤 泰明;植月龍興;垣實 洋;Seiji HAYASHI;Yasuaki SAITOH;Tatsuoki UETSUKI;Hiroshi KAKIMI;斉藤 泰明;植月龍興;垣實 洋;林 誠治;斉藤 泰明;斉藤 泰明;近藤 昌宏;吉田 貢;Seiji HAYASHI;Yasuaki SAITOH;Yasuaki SAITOH;Masahiro KONDO;Mitsugu YOSHIDA;林 誠治;斉藤 泰明;近藤 昌宏
  • 通讯作者:
    近藤 昌宏
A Study on Noise Suppression Approach Introducing Perceptual Scaling Function
引入感知尺度函数的噪声抑制方法研究
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T.Saito;H.Harada;T.Komatsu;齊藤隆弘;T.Saito;T.Komatsu;林 誠治;斎藤 泰明;植月龍興;垣實 洋;Seiji HAYASHI;Yasuaki SAITOH;Tatsuoki UETSUKI;Hiroshi KAKIMI;斉藤 泰明;植月龍興;垣實 洋;林 誠治;斉藤 泰明;斉藤 泰明;近藤 昌宏;吉田 貢;Seiji HAYASHI;Yasuaki SAITOH;Yasuaki SAITOH;Masahiro KONDO;Mitsugu YOSHIDA;林 誠治;斉藤 泰明;近藤 昌宏;Yasuaki SAITOH
  • 通讯作者:
    Yasuaki SAITOH

林 誠治的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

多重解像度解析に基づく高階エネルギーの自動構築
基于多分辨率分析的高阶能量自动构建
  • 批准号:
    19K12052
  • 财政年份:
    2019
  • 资助金额:
    $ 2万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
多重解像度解析多重ウェーブレット基底による量子化学プログラム開発
多分辨率分析 使用多小波基础的量子化学程序开发
  • 批准号:
    19029019
  • 财政年份:
    2007
  • 资助金额:
    $ 2万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了