Systemization of audio-visual knowledge resources using graphical models

利用图模型将视听知识资源系统化

基本信息

  • 批准号:
    17300059
  • 负责人:
  • 金额:
    $ 9.46万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2005
  • 资助国家:
    日本
  • 起止时间:
    2005 至 2007
  • 项目状态:
    已结题

项目摘要

Recent advances in computer technology, particularly in storage technology, have resulted in significant increases in the number and quality of audio-visual knowledge resources. Most of those resources are not equipped with index information, and thus, it has become difficult for ordinary people to browse the entire content of each database. Techniques for systemizing audio-visual knowledge resources and utilizing them have been strongly demanded. However, statistical pattern recognition techniques have not yet achieved enough performance for this purpose. In addition, it is not always clear what kinds of indexing are useful. In this study, we take an approach to index those databases in different ways with unsupervised manner, and extract dependencies among those labels. First, we carried scene recognition for baseball video. We constructed annotated database for 43 games of Major League Baseball with NHK Science & Technical Research Labs and used them for our evaluation. We used vari … More ous relationships between scene labels such as scene contexts, and unified audio and visual information. We achieved 60% accuracy for 16 scene recognition and 90% recall rate for score scene detection. Our techniques are expected to contribute much to make automatic highlight extraction systems for broadcast companies. Second, we participated in TRECVID workshop organized by NIST, USA, to study the high-level feature extraction task. We constructed tree-structured dictionaries of "visual words" by unsupervised clustering for video features, and selected a tree-cut as a dictionary for each word. By using Bag-of-word approach, we constructed a robust extraction system against the differences in data amount for each feature. We also extracted effective "motion words" for dynamic features. Our method achieved significant improvements in the task of extracting 39 features. The other research topics include robust speech recognition using graphical models, multi-modal interface for asynchronous multi-modal inputs, human-gait modeling. Less
最近计算机技术,特别是存储技术的进步,使视听知识资源的数量和质量都有了显著提高。这些资源大多没有配备索引信息,因此,普通人很难浏览每个数据库的全部内容。对视听知识资源的系统化和利用技术提出了强烈的要求。然而,统计模式识别技术在这方面还没有达到足够的性能。此外,我们并不总是清楚哪些索引是有用的。在本研究中,我们采用无监督的方式对这些数据库进行不同方式的索引,并提取这些标签之间的依赖关系。首先,我们对棒球视频进行了场景识别。我们与NHK科学技术研究实验室建立了美国职业棒球大联盟43场比赛的注释数据库,并使用它们进行评估。我们使用了场景标签(如场景上下文)之间的各种关系,以及统一的音频和视觉信息。我们对16个场景识别的准确率达到60%,对分数场景检测的召回率达到90%。我们的技术有望为广播公司的自动高光提取系统做出贡献。其次,我们参加了美国NIST组织的TRECVID研讨会,研究高级特征提取任务。通过对视频特征的无监督聚类,构建了“视觉词”的树状字典,并为每个词选择了一个树切作为字典。通过使用词袋方法,我们针对每个特征的数据量差异构建了一个鲁棒的提取系统。我们还为动态特征提取了有效的“运动词”。我们的方法在提取39个特征的任务上取得了显著的改进。其他研究课题包括使用图形模型的鲁棒语音识别,异步多模态输入的多模态界面,人体步态建模。少

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
「音声とペンの同時入力における個人差への適応化」
“适应同时语音和笔输入的个体差异”
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    渡邉 康司;篠田 浩一;古井 貞煕
  • 通讯作者:
    古井 貞煕
Model adaptation for semi-synchronous speech and pen input
半同步语音和笔输入的模型自适应
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yasushi;Watanabe;Koichi;Shinoda;Sadaoki;Furui
  • 通讯作者:
    Furui
"TokyoTech's TRECVID2007 Notebook"
“TokyoTech 的 TRECVID2007 笔记本”
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T. Nakamura;K. Shinoda and S. Furui
  • 通讯作者:
    K. Shinoda and S. Furui
TokyoTech's TRECVID2007 Notebook
东京工业大学的 TRECVID2007 笔记本
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T.;Nakamura;K.;Shinoda;S.;Furui
  • 通讯作者:
    Furui
「野球放送のためのデータ駆動型アプローチを用いた得点シーン検出」
“使用数据驱动的棒球广播方法进行场景检测”
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石原 一樹;安藤 亮一;篠田 浩一;古井 貞煕;望月 貴裕
  • 通讯作者:
    望月 貴裕
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

SHINODA Koichi其他文献

SHINODA Koichi的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('SHINODA Koichi', 18)}}的其他基金

A study of multimodal recognition for human communication search
人类通信搜索的多模态识别研究
  • 批准号:
    20300063
  • 财政年份:
    2008
  • 资助金额:
    $ 9.46万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
SPEECH RECOGNITION WITH SYNCHRONOUS INPUT OF HAND-WRITTEN GESTURES FOR MOBILE DEVICES
移动设备同步输入手写手势的语音识别
  • 批准号:
    15300054
  • 财政年份:
    2003
  • 资助金额:
    $ 9.46万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)

相似海外基金

An investigation of generative acoustic latent representations for meeting speech recognition and summarization
用于满足语音识别和摘要的生成声学潜在表示的研究
  • 批准号:
    24K15004
  • 财政年份:
    2024
  • 资助金额:
    $ 9.46万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Disrupter or enabler? Assessing the impact of using automatic speech recognition technology in interpreter-mediated legal proceedings
颠覆者还是推动者?
  • 批准号:
    2889440
  • 财政年份:
    2023
  • 资助金额:
    $ 9.46万
  • 项目类别:
    Studentship
Analysis of speech recognition as a tool in medical English education
语音识别作为医学英语教育工具的分析
  • 批准号:
    23K00767
  • 财政年份:
    2023
  • 资助金额:
    $ 9.46万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Automatic Speech Recognition (ASR) engine to improve autistic children speech
自动语音识别(ASR)引擎可改善自闭症儿童的言语能力
  • 批准号:
    10056712
  • 财政年份:
    2023
  • 资助金额:
    $ 9.46万
  • 项目类别:
    Grant for R&D
Industrial research into the reduction of biases in foundational Automatic Speech Recognition models.
减少基础自动语音识别模型中偏差的工业研究。
  • 批准号:
    10068091
  • 财政年份:
    2023
  • 资助金额:
    $ 9.46万
  • 项目类别:
    Collaborative R&D
M3OLR: Towards Effective Multilingual, Multimodal and Multitask Oriental Low-resourced Language Speech Recognition
M3OLR:迈向有效的多语言、多模态和多任务东方稀缺语言语音识别
  • 批准号:
    23K11227
  • 财政年份:
    2023
  • 资助金额:
    $ 9.46万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Establishment of intraoperative education model using speech recognition and language information processing technology
利用语音识别和语言信息处理技术建立术中教育模型
  • 批准号:
    23K16281
  • 财政年份:
    2023
  • 资助金额:
    $ 9.46万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
SaTC: CORE: Small: Robust Speaker and Speech Recognition Under AI-Driven Physical and Digital Attacks
SaTC:核心:小型:人工智能驱动的物理和数字攻击下的鲁棒扬声器和语音识别
  • 批准号:
    2310207
  • 财政年份:
    2023
  • 资助金额:
    $ 9.46万
  • 项目类别:
    Continuing Grant
A State-of-the-Art Automatic Speech Recognition and Conversational Platform to Enable Socially Assistive Robots for Persons with Alzheimer's Disease and Related Dementias
最先进的自动语音识别和对话平台,为阿尔茨海默病和相关痴呆症患者提供社交辅助机器人
  • 批准号:
    10699887
  • 财政年份:
    2023
  • 资助金额:
    $ 9.46万
  • 项目类别:
CRCNS US-Spain Research Proposal: Collaborative Research: Tracking and modeling the neurobiology of multilingual speech recognition
CRCNS 美国-西班牙研究提案:合作研究:跟踪和建模多语言语音识别的神经生物学
  • 批准号:
    2207770
  • 财政年份:
    2022
  • 资助金额:
    $ 9.46万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了