权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

多重解像度解析を用いた機械学習による音声強調および広帯域化に関する研究

使用多分辨率分析的机器学习语音增强和宽带化研究

基本信息

批准号：
22K12133
负责人：
林誠治
金额：
$ 2万
依托单位：
Takushoku University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2022
资助国家：
日本
起止时间：
2022-04-01 至 2025-03-31
项目状态：
未结题

项目摘要

狭帯域から広帯域への音声帯域拡張技術は音声としての人間らしさを強調するための手法である一方，音域のバランスを適応的に調整することで高齢になると感じる「聞こえづらさ」といった軽度の難聴問題を解消できる一助になると考えられる．本応募研究では，音声信号の多重解像度解析によって得られる階層型成分で得られる情報から，本来存在しない未知のサブバンド成分をサブバンド間の相関関係を用いて機械学習により推定することを目的に研究を遂行している．これについて，これまで本研究に係る自身の先行研究によって得られた成果をベースとして，どのようにしたら推定精度を向上させることができるか，ということを念頭に研究を進めており，まず，今年度の交付金を使用して新たな研究開発環境のハードウェア(高速なパーソナルコンピュータとGPGPUを搭載したグラフィックボード)とソフトウェア(MATLAB数値解析ソフト)の構築および整備を行った．つぎに，音声帯域拡張技術の実現手法の一つとして，連続音声データベースから音素単位に分解して子音または母音ごとの発声区間を判別し，それぞれの発声区間ごとにラベリング，つまりタグ付けを行う方法で研究を進めている．今後の研究の展開になるが，前述で得られた音素クラスタごとに多重解像度解析を用いた未知成分の推定パラメータを定義・決定し，より高品質な広帯域音声の獲得を目指す方針である．基本アプローチとしては離散ウェーブレット解析(DWT)を用いてDWT分解後のレベル間の相関を利用することで，機械学習を用いた相関係数の算出により，元来人間の肉声が持っていた高域成分および低域成分を疑似的に生成し，狭帯域の音声成分に付加することで広帯域化を図る予定である．

Narrow 帯 domain から hiroo 帯 domain への sounds 帯 domain company, zhang technology は sounds としての world らしさを emphasize するための gimmick である, range のバランスを optimum 応に adjust することで high 齢になると feeling じる smell "こえづらさ" といった軽 degrees difficulty 聴のを null できる on help になると exam えられる. This 応 offering study では, voice signal analytical にの multiple resolution よって have られる class type composition で must られる intelligence から, already exist しない unknown のサブバンド composition をサブバンドの phase between masato を masato department with いて rote learning により presumption することを objectives にを carries out している. これについて, これまるでに this research department itself の leading research によって have られた results をベースとして, どのようにしたら presumed accuracy を upward させることができるか, ということを thought をに research into めており, まず, Our deliveries to gold をのして new たな research open 発 environment のハードウェア (high-speed なパーソナルコンピュータと GPGPU を carry したグラフィックボード) とソフトウェア (MATLAB the numerical analytical ソフト) の build およ line gearing up びをった. つぎに, sounds 帯 domain company, zhang technology の be gimmick の a つ now として, even 続 sounds データベースから phonemes 単 a に decomposition して consonants または vowels ごとの発 discriminant し, acoustic interval をそれぞれの発 acoustic interval ごとにラベリング, つまりタグ pay けを line う methods でを into めている. Future の study の started になるが, the foregoing で have られた phonemes クラスタごとに analytical を with multiple resolution いた presumption of unknown composition のパラメータを define decision し, より high-quality な hiroo 帯 domain sounds の get を refers す policy である. Basic アプローチとしては discrete ウェーブレット parsing (DWT) をいて after DWT decomposition のレベルの phase between masato を using することで, rote learning を with いた phase の masato coefficient to calculate により, yuan to human sound の meat が hold っていた high domain component および low domain component を suspected に generated し, The narrow-band <s:1> acoustic components are に subdivided by するとでとで, and the broadband を graph る is given である.

项目成果

期刊论文数量（0）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

数据更新时间：{{ journalArticles.updateTime }}

DOI：
{{ item.doi }}
发表时间：
{{ item.publish_year }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ patent.updateTime }}

林誠治其他文献

Single Channel Speech Enhancement Based on Perceptual Frequency-weighting

基于感知频率加权的单通道语音增强

DOI：
发表时间：
2007
期刊：
IEICE Transactions on Information and Systems D(採録決定)
影响因子：
0
作者：
T.Saito;H.Harada;T.Komatsu;齊藤隆弘;T.Saito;T.Komatsu;林誠治
通讯作者：
林誠治

Speech Enhancement using Perceptual Frequency-weighting

使用感知频率加权的语音增强

DOI：
发表时间：
2006
期刊：
Proc. of the IASTED Int. Conference on Communications, Internet, and Information Technology (CIIT2006)
影响因子：
0
作者：
T.Saito;H.Harada;T.Komatsu;齊藤隆弘;T.Saito;T.Komatsu;林誠治;斎藤泰明;植月龍興;垣實洋;Seiji HAYASHI;Yasuaki SAITOH;Tatsuoki UETSUKI;Hiroshi KAKIMI;斉藤泰明;植月龍興;垣實洋;林誠治
通讯作者：
林誠治

聴覚スケーリング関数を用いた音声強調による雑音除去

使用听觉缩放功能通过语音增强消除噪声

DOI：
发表时间：
2007
期刊：
電子情報通信学会,2007年総合大会 A・4・12
影响因子：
0
作者：
T.Saito;H.Harada;T.Komatsu;齊藤隆弘;T.Saito;T.Komatsu;林誠治;斎藤泰明;植月龍興;垣實洋;Seiji HAYASHI;Yasuaki SAITOH;Tatsuoki UETSUKI;Hiroshi KAKIMI;斉藤泰明
通讯作者：
斉藤泰明

音声スペクトルのピーク位置の補正を用いた雑音低減法の一考察

语音频谱峰值位置校正降噪方法的研究

DOI：
发表时间：
2005
期刊：
電子情報通信学会 2005ソサイエティ大会講演論文集 A-4-15
影响因子：
0
作者：
T.Saito;H.Harada;T.Komatsu;齊藤隆弘;T.Saito;T.Komatsu;林誠治;斎藤泰明;植月龍興;垣實洋;Seiji HAYASHI;Yasuaki SAITOH;Tatsuoki UETSUKI;Hiroshi KAKIMI;斉藤泰明;植月龍興;垣實洋;林誠治;斉藤泰明;斉藤泰明;近藤昌宏;吉田貢;Seiji HAYASHI;Yasuaki SAITOH;Yasuaki SAITOH;Masahiro KONDO;Mitsugu YOSHIDA;林誠治;斉藤泰明;近藤昌宏
通讯作者：
近藤昌宏

A Study on Noise Suppression Approach Introducing Perceptual Scaling Function

引入感知尺度函数的噪声抑制方法研究

DOI：
发表时间：
2005
期刊：
Proc. of IEICE 2005 Society Meeting
影响因子：
0
作者：
T.Saito;H.Harada;T.Komatsu;齊藤隆弘;T.Saito;T.Komatsu;林誠治;斎藤泰明;植月龍興;垣實洋;Seiji HAYASHI;Yasuaki SAITOH;Tatsuoki UETSUKI;Hiroshi KAKIMI;斉藤泰明;植月龍興;垣實洋;林誠治;斉藤泰明;斉藤泰明;近藤昌宏;吉田貢;Seiji HAYASHI;Yasuaki SAITOH;Yasuaki SAITOH;Masahiro KONDO;Mitsugu YOSHIDA;林誠治;斉藤泰明;近藤昌宏;Yasuaki SAITOH
通讯作者：
Yasuaki SAITOH