Enhancing research on speech and deep learning through holistic acoustic analysis

通过整体声学分析加强语音和深度学习研究

基本信息

  • 批准号:
    2219843
  • 负责人:
  • 金额:
    $ 100万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-08-15 至 2026-07-31
  • 项目状态:
    未结题

项目摘要

You can guess a lot about a person from the way they pronounce words. Remarkably, human listeners can tell if it is likely that talkers learned English as a first language or a second language, or if the talkers might have a brain injury that makes it difficult for them to speak. Such intuitions rely on human listeners’ holistic pattern recognition abilities; these allow us to perceive the important, meaningful, yet subtle differences between pronunciations. However, the methods scientists currently use to measure speech objectively – based on a small number of properties of speech sounds – fail to capture these differences, hampering our ability to use speech to learn about the mind and brain. This project brings together speech scientists, computer scientists, and neuroscientists to test a radically different approach to this problem. Machine learning will be used to discover a new method for quantifying differences between spoken utterances based on holistic pattern recognition. This will be tested against new and existing data from bilingual speakers. If successful, this will yield a fully general method that can be applied to speech from any language or any domain of language usage, allowing scientists to capitalize on the wealth of information in speech to develop powerful new insights into the mind and brain. Improved detection of subtle problems with pronunciation, such as occurs with Alzheimer’s disease, will advance our understanding of the brain mechanisms that humans use to produce speech. The results of this testing will also allow computer scientists to advance our understanding of how machine learning algorithms process sounds, driving improvements in the algorithms and supporting applications in any area of speech and language technology that relies on spoken language processing. Speech variability across talkers provides a treasure trove of information for cognitive neuroscientists, leading to important insights into the cognitive mechanisms underlying language processing and potentially providing early signs of brain dysfunction. Current studies of speech are hamstrung by analyses that require preselecting specific temporal scales and acoustic dimensions. We propose a radically different approach: using unsupervised deep learning to discover a representational space for analysis of acoustic variation. To test this highly general approach, this method will be compared to current state-of-the art methods for analyzing individual variation in bilingual speech. This includes using the acoustic variation in second language speech to predict intelligibility and to detect difficulties in code-switching, particularly the challenges faced by individuals with Alzheimer’s Disease. The results will inform development of deep learning and cognitive neuroscience. The machine learning algorithm is fully general; it can be applied to speech from any language or any domain of language usage, expanding the range of populations and contexts that can be served by speech technology or studied by cognitive neuroscientists. The project’s integrative approach will allow computer scientists to advance our understanding of the extent to which modern deep learning architectures do or do not approximate human speech processing and allow cognitive neuroscientists to further our understanding of how meaningful acoustic distinctions are represented in speech perception and production. human speech representation. This project is funded by the Integrative Strategies for Understanding Neural and Cognitive Systems (NCS) program, which is jointly supported by the Directorates for Computer and Information Science and Engineering (CISE), Education and Human Resources (EHR), Engineering (ENG), and Social, Behavioral, and Economic Sciences (SBE).This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
你可以从一个人的发音方式猜到很多关于他的事情。值得注意的是,人类听众可以判断说话者是否可能将英语作为第一语言或第二语言学习,或者说话者是否有大脑损伤,从而使他们难以说话。这种直觉依赖于人类听者的整体模式识别能力;这些能力使我们能够感知发音之间重要、有意义但又微妙的差异。然而,科学家目前用来客观测量语音的方法--基于语音的少量属性--未能捕捉到这些差异,阻碍了我们利用语音了解大脑和大脑的能力。这个项目将语音科学家、计算机科学家和神经学家聚集在一起,测试一种完全不同的方法来解决这个问题。机器学习将被用来发现一种基于整体模式识别的量化口语差异的新方法。这将根据来自双语使用者的新的和现有的数据进行测试。如果成功,这将产生一种完全通用的方法,可以应用于任何语言或任何语言用法的语音,使科学家能够利用语音中的丰富信息来开发对思维和大脑的强大新见解。改善对发音细微问题的检测,例如阿尔茨海默病,将促进我们对人类用来产生语音的大脑机制的理解。这项测试的结果还将使计算机科学家加深我们对机器学习算法如何处理声音的理解,推动算法的改进,并支持任何依赖口语处理的语音和语言技术领域的应用。说话者之间的语音差异为认知神经学家提供了宝贵的信息宝库,有助于深入了解语言处理的认知机制,并可能提供大脑功能障碍的早期迹象。当前对语音的研究由于需要预先选择特定的时间尺度和声学维度的分析而受阻。我们提出了一种完全不同的方法:使用无监督深度学习来发现声学变异分析的表征空间。为了测试这一高度通用的方法,我们将把这种方法与目前分析双语语音中个体差异的最先进方法进行比较。这包括利用第二语言语音中的声学变化来预测可理解性,并检测代码转换的困难,特别是阿尔茨海默病患者面临的挑战。这一结果将为深度学习和认知神经科学的发展提供信息。机器学习算法是完全通用的;它可以应用于任何语言或任何语言使用领域的语音,扩大了语音技术或认知神经科学家研究的人群和背景的范围。该项目的综合方法将使计算机科学家能够提高我们对现代深度学习架构在多大程度上接近人类语音处理的理解,并允许认知神经学家进一步理解有意义的声学区别是如何在语音感知和产生中表示的。人类语音表示法。本项目由理解神经和认知系统的综合策略(NCS)计划资助,该计划由计算机和信息科学与工程(CEISE)、教育和人力资源(EHR)、工程(ENG)和社会、行为和经济科学(SBE)等主管部门共同支持。该奖项反映了NSF的法定使命,并通过使用基金会的智力优势和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Inhibitory control of the dominant language: Reversed language dominance is the tip of the iceberg
  • DOI:
    10.1016/j.jml.2023.104410
  • 发表时间:
    2023-01-23
  • 期刊:
  • 影响因子:
    4.3
  • 作者:
    Goldrick, Matthew;Gollan, Tamar H.
  • 通讯作者:
    Gollan, Tamar H.
Advancement of phonetics in the 21st century: Exemplar models of speech production
21 世纪语音学的进步:语音产生的范例模型
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    1.9
  • 作者:
    Goldrick, Matthew;Cole, Jennifer
  • 通讯作者:
    Cole, Jennifer
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Matthew Goldrick其他文献

Language and the Brain: Developments in Neurology/Neuroscience, Linguistics, and Psycholinguistics
语言与大脑:神经病学/神经科学、语言学和心理语言学的发展
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Lise Menn;Matthew Goldrick
  • 通讯作者:
    Matthew Goldrick
The perception of code-switched speech in noise.
噪声中语码转换语音的感知。
  • DOI:
    10.1121/10.0025375
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    1
  • 作者:
    M. Gavino;Matthew Goldrick
  • 通讯作者:
    Matthew Goldrick
Predicting relative intelligibility from inter-talker distances in a perceptual similarity space for speech
  • DOI:
    10.3758/s13423-025-02652-2
  • 发表时间:
    2025-02-10
  • 期刊:
  • 影响因子:
    3.000
  • 作者:
    Seung-Eun Kim;Bronya R. Chernyak;Joseph Keshet;Matthew Goldrick;Ann R. Bradlow
  • 通讯作者:
    Ann R. Bradlow

Matthew Goldrick的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Matthew Goldrick', 18)}}的其他基金

Doctoral Dissertation Research: The effects of experience and attitudes on heritage bilinguals' language processing
博士论文研究:经验和态度对传统双语者语言处理的影响
  • 批准号:
    2141430
  • 财政年份:
    2022
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Doctoral Dissertation Research: Role of Prior Knowledge in Consolidation of Novel Phonotactic Patterns for Speech Production
博士论文研究:先验知识在巩固语音生成的新型语音模式中的作用
  • 批准号:
    2116802
  • 财政年份:
    2021
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Doctoral Dissertation Research: Why adapt? Phonotactic learning as non-native language adaptation
博士论文研究:为什么要适应?
  • 批准号:
    1728173
  • 财政年份:
    2017
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Doctoral Dissertation Research on the Role of Domain-General Executive Functions in Language Production: Resolving conflict in lexical selection
域一般执行功能在语言产生中的作用的博士论文研究:解决词汇选择中的冲突
  • 批准号:
    1420820
  • 财政年份:
    2014
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Doctoral Dissertation Research: Learning of Novel Phonetic Categories After Training in Perception and Production
博士论文研究:感知和生产训练后新语音类别的学习
  • 批准号:
    0951943
  • 财政年份:
    2010
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
CAREER: Integrating Grammatical and Psycholinguistic Approaches to Phonological Processes in Speech Production
职业:将语法和心理语言学方法整合到语音生成的语音过程中
  • 批准号:
    0846147
  • 财政年份:
    2009
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant

相似国自然基金

Research on Quantum Field Theory without a Lagrangian Description
  • 批准号:
    24ZR1403900
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
HIF-1α调控软骨细胞衰老在骨关节炎进展中的作用及机制研究
  • 批准号:
    82371603
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目
TIPE2调控巨噬细胞M2极化改善睑板腺功能障碍的作用机制研究
  • 批准号:
    82371028
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目
PRNP调控巨噬细胞M2极化并减弱吞噬功能促进子宫内膜异位症进展的机制研究
  • 批准号:
    82371651
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目
脐带间充质干细胞微囊联合低能量冲击波治疗神经损伤性ED的机制研究
  • 批准号:
    82371631
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目
超声驱动压电效应激活门控离子通道促眼眶膜内成骨的作用及机制研究
  • 批准号:
    82371103
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目
骨髓ISG+NAMPT+中性粒细胞介导抗磷脂综合征B细胞异常活化的机制研究
  • 批准号:
    82371799
  • 批准年份:
    2023
  • 资助金额:
    47.00 万元
  • 项目类别:
    面上项目
Lienard系统的不变代数曲线、可积性与极限环问题研究
  • 批准号:
    12301200
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
RIPK3蛋白及其RHIM结构域在脓毒症早期炎症反应和脏器损伤中的作用和机制研究
  • 批准号:
    82372167
  • 批准年份:
    2023
  • 资助金额:
    48.00 万元
  • 项目类别:
    面上项目
基于MFSD2A调控血迷路屏障跨细胞囊泡转运机制的噪声性听力损失防治研究
  • 批准号:
    82371144
  • 批准年份:
    2023
  • 资助金额:
    49.00 万元
  • 项目类别:
    面上项目

相似海外基金

Enhancing efficacy of speech modification strategies for pediatric dysarthria
提高儿童构音障碍言语矫正策略的疗效
  • 批准号:
    10438101
  • 财政年份:
    2022
  • 资助金额:
    $ 100万
  • 项目类别:
Enhancing efficacy of speech modification strategies for pediatric dysarthria
提高儿童构音障碍言语矫正策略的疗效
  • 批准号:
    10610448
  • 财政年份:
    2022
  • 资助金额:
    $ 100万
  • 项目类别:
Collaborative Research: Enhancing Speech Science Training through Collaboration: Investigating Perception of a Variable Speech Signal
协作研究:通过协作增强语音科学训练:研究可变语音信号的感知
  • 批准号:
    2126888
  • 财政年份:
    2021
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Collaborative Research: Enhancing Speech Science Training through Collaboration: Investigating Perception of a Variable Speech Signal
协作研究:通过协作增强语音科学训练:研究可变语音信号的感知
  • 批准号:
    2126897
  • 财政年份:
    2021
  • 资助金额:
    $ 100万
  • 项目类别:
    Standard Grant
Enhancing the quality of CBT in community mental health through AI-generated fidelity feedback
通过人工智能生成的保真度反馈提高社区心理健康领域 CBT 的质量
  • 批准号:
    10324974
  • 财政年份:
    2021
  • 资助金额:
    $ 100万
  • 项目类别:
Enhancing the quality of CBT in community mental health through AI-generated fidelity feedback
通过人工智能生成的保真度反馈提高社区心理健康领域 CBT 的质量
  • 批准号:
    10674481
  • 财政年份:
    2021
  • 资助金额:
    $ 100万
  • 项目类别:
Enhancing Self Care Among Oral Cancer Survivors: The Empowered Survivor Trial
增强口腔癌幸存者的自我护理:赋权幸存者试验
  • 批准号:
    10347328
  • 财政年份:
    2020
  • 资助金额:
    $ 100万
  • 项目类别:
Enhancing Self Care Among Oral Cancer Survivors: The Empowered Survivor Trial
增强口腔癌幸存者的自我护理:赋权幸存者试验
  • 批准号:
    10576315
  • 财政年份:
    2020
  • 资助金额:
    $ 100万
  • 项目类别:
Enhancing Nonverbal Communication through Technology
通过技术加强非语言交流
  • 批准号:
    9756468
  • 财政年份:
    2018
  • 资助金额:
    $ 100万
  • 项目类别:
The Center for Enhancing Triage and Utilization for Depression and Emergent Suicidality (ETUDES) in Pediatric Primary Care
儿科初级保健中抑郁症和紧急自杀加强分诊和利用中心 (ETUDES)
  • 批准号:
    9917834
  • 财政年份:
    2018
  • 资助金额:
    $ 100万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了