画像中の重要領域の抽出と高能率符号化への応用

图像中重要区域的提取及其在高效编码中的应用

基本信息

  • 批准号:
    11750313
  • 负责人:
  • 金额:
    $ 1.41万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1999
  • 资助国家:
    日本
  • 起止时间:
    1999 至 2000
  • 项目状态:
    已结题

项目摘要

本研究は、画像中の重要な領域を自動抽出し、その領域をより詳細に符号化することで、より効率よく画像情報を圧縮する手法の実現を目的として行った。本研究の成果は以下の通りである。1.ベースとなる画像符号化の性能向上フィルタバンク(ウェーヴレット)をベースとした画像符号化の性能向上のために、周波数帯域によって異なる基底長を持つ新しいフィルタバンクの構造と設計法を提案した。これにより、復号画像の品質向上を図った。また、提案するフィルタバンクが、seismic dataの圧縮に有効であることも明らかにした。2.重要領域を考慮した画像符号化方式上記のフィルタバンクをSPIHT符号化に適用し、さらに抽出した重要領域を重み付けすることにより重要領域を考慮した画像符号化を実現した。実際の画像を用いて主観評価実験を行い、有効性を確かめた。3.重要領域の定義と抽出手法画像中の重要領域のひとつとして、人間の顔を定義し、その抽出手法を検討した。具体的には、カラー静止画像の場合は、固有空間と色(肌の色)を用いて抽出を行い、動画像の場合は、抽出した顔領域を色情報により高速にトラッキングする手法を実現した。また、画像中の重要領域の二つ目として文字領域を定義し、その抽出手法を検討した。画像中の文字領域は、ウェーヴレット変換、独立成分分析、特徴空間からの距離の3つを組み合わせて特徴とし、ニューラルネットワークによって大量のデータから学習することで高い抽出精度を実現した。4.音声を併用した重要領域の抽出入力信号として、多チャンネルの音声が得られる時、これを用いて話者位置を推定し、その結果を画像符号化に反映させることを検討した。このためにまず、複数のマイクを2次元的に配置し、話者の位置を推定する手法を提案した。これにより、画像中のどの話者が現在発話しているかを知ることができ、動画像符号化に反映させることが可能となる。5.重要領域抽出と画像符号化手法の統合上述の顔領域抽出手法と画像符号化方式を統合し、PC上に実装した。
This study aims at automatically extracting important areas from images, symbolizing them in detail, and reducing image information. The results of this study are as follows. 1. The performance of image symbolization is upward, the frequency range is different, the base length is new, and the structural design method is proposed.これにより、复号画像の品质向上を図った。The proposal was made in the form of a proposal to reduce seismic data. 2. Important areas are considered to be represented by SPIHT symbolization. The portrait of the real world is in the middle of the evaluation process, and there is a certain quality. 3. The definition of important areas and the extraction of important areas in the portrait are discussed. In particular, in the case of a static image, the method of extracting color information from a natural space and color information from a moving image is realized at a high speed. The definition and extraction method of the important field in the portrait are discussed. The text field in the portrait is transformed, the independent component analysis, the feature space is separated, the distance is divided into three groups, the feature is combined, the character is separated, and the high extraction accuracy is realized. 4. Sound and sound are used together to extract input signals from important areas. When sound and sound are obtained, the position of the speaker is estimated, and the result is symbolized. The method of estimating the position of the speaker is proposed The words in the portrait are now transmitted, the symbolization of animation is reflected, and the words are possible. 5. Integration of important field extraction and image symbolization methods The integration of the above color field extraction methods and image symbolization methods is carried out on PC.

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
T.Nagai,M.Ikeharu,M.Kaneko A Kurematsu: "Generalized Unequal Length Lapped Orthogonal Transform for Subband Image Coding"IEEE Tran.on Signal Processing. Vol.48 No.12. 3365-3378 (2000)
T.Nagai、M.Ikeharu、M.Kaneko A Kurematsu:“用于子带图像编码的广义不等长重叠正交变换”IEEE Tran.on 信号处理。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Nagai,K.Kondo,M.Kuneko,A.Kurematsu: "Estimation of Source Location Based on 2-D MUSIC and Its Application to Speech Recognition in Cars"Proc.of IEEE Int.Conf.on Acoustics, Speech and Signal Processing 2001(ICASSP 2001). (to appear).
T.Nagai,K.Kondo,M.Kuneko,A.Kurematsu:“基于 2-D MUSIC 的源位置估计及其在汽车语音识别中的应用”Proc.of IEEE Int.Conf.on Acoustics, Speech and Signal
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Nagai,M.Ikehara,M.kaneko A.Kurematsu: "Generalized Unequal Length Lapped Orthogonal Transform for Sub band image Coding"Proc.of IEEE Int.Conf.on Acoustic, Speech and Signal Processing,2000 (ICASSP 2000). 520-523 (2000)
T.Nagai、M.Ikehara、M.kaneko A.Kurematsu:“用于子带图像编码的广义不等长重叠正交变换”Proc.of IEEE Int.Conf.on Acoustic、Speech and Signal Processing,2000 (ICASSP 2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
長井隆行,影広達彦,金子正秀,榑松明: "情景画像中の文字及び看板領域の抽出"電子情報通信学会 信学技報. (発表予定).
Takayuki Nagai、Tatsuhiko Kagehiro、Masahide Kaneko、Akira Kure:“从场景图像中提取文本和招牌区域”IEICE 技术报告,IEICE(待提交)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Nagai,K.Kondo,M.Kaneko A.kurematsu: "Estimation of Speaker's Location using 2-D MUSIC and Its Application to Car Speech Recognition"Proc.of Int, Workshop on Hands-Free Speech Communication. (to appear).
T.Nagai、K.Kondo、M.Kaneko A.kurematsu:“使用 2-D 音乐估计说话者的位置及其在汽车语音识别中的应用”Proc.of Int,免提语音通信研讨会。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

長井 隆行其他文献

多様な年代の話者による旅行代理店タスク対話コーパスの収集と分析
各年龄段说话人旅行社任务对话语料库的收集与分析
人工知能と社会
人工智能与社会
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    AIX(人工知能先端研究センター);栗原 聡;長井 隆行;小泉 憲裕;内海 彰;坂本 真樹;久野美和子
  • 通讯作者:
    久野美和子
デュアルピペットを用いた局所化学環境制御システムの定量的評価
使用双移液器定量评估当地化学环境控制系统
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    越出 和磨;小嶋 勝;前 泰志;堀井 隆斗;長井 隆行;新井 健生
  • 通讯作者:
    新井 健生
無治療の加齢黄斑変性に対する必要時投与によるAflibercept硝子体注射の6か月成績
根据需要进行阿柏西普玻璃体内注射治疗未经治疗的年龄相关性黄斑变性的六个月结果
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大塚 慶子;松宮 亘;三木 明子;長井 隆行;本田 茂;中村 誠:
  • 通讯作者:
    中村 誠:
幼児と祖父母をつなぐテレプレゼンス子育て支援ロボット : ニーズと課題の検討
连接婴儿和祖父母的远程临场育儿支持机器人:考虑需求和问题
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    阿部香澄;裴 雅超;張 亭芸;日永田 智絵;長井 隆行
  • 通讯作者:
    長井 隆行

長井 隆行的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('長井 隆行', 18)}}的其他基金

こどもの非認知能力発達の計測とモデル化
测量和建模儿童的非认知能力发展
  • 批准号:
    21F20798
  • 财政年份:
    2021
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
動画像のアピアランスモデルとその応用に関する研究
视频外观模型及其应用研究
  • 批准号:
    16760293
  • 财政年份:
    2004
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
認識をベースとした音声・画像の広帯域化とその応用に関する研究
基于识别的宽带音频/图像及其应用研究
  • 批准号:
    14750282
  • 财政年份:
    2002
  • 资助金额:
    $ 1.41万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了