Construction of efficient machine learning models using domain knowledge

使用领域知识构建高效的机器学习模型

基本信息

  • 批准号:
    20K11960
  • 负责人:
  • 金额:
    $ 2.83万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

本研究の目的は,大量の教師データだけに頼らず,ドメイン知識やノウハウを活用することで,少ない教師データから精度の高い機械学習モデルを構築することである。現在,機械学習による高精度な予測,分類を実現するためには,教師データと呼ばれる正解ラベル付けされたデータが大量に必要となるが,実問題への適用では,「十分なデータが用意できない」,「教師データを人手で作成する工数が膨大」などの理由で機械学習モデルを構築できないケースが多数存在する。そこで,ドメイン知識を活用することで,データ不足を補う方法について,実験と検証を進めた。今年度は特に,少ない教師データから精度の高い機械学習モデルを構築するための転移学習手法やData Augmentation手法,特徴量ベクトル空間の分析を中心に研究を進めた。転移学習とは,ある課題で学習したこと(学習済みモデル)を別の課題において活用することで,効率的に教師あり学習を行う方法である。ある特定のタスク(課題)に対して,有効に機能する別タスク,異なるデータセットによる学習の有効性,学習済みモデルについて実験・検証を重ね,その有効性を検証した。また,Data Augmentationは教師データを増やす手法である。画像処理では類似画像が作り易く,有効性が高いためによく利用されるが,自然言語処理では,課題が多い。日本語特有のドメイン知識を用いたData Augmentation手法について検証を行った。応用課題としては,マーケティングなど市場調査において重要となるSNSからの意見抽出,市場環境を把握するための自然言語処理において,検証を行い,学会発表を行った。
这项研究的目的是通过利用领域知识和知识来从少量的教师数据中构建高度准确的机器学习模型,而不是仅仅依靠大量的教师数据。目前,为了使用机器学习实现高度准确的预测和分类,需要大量带有正确答案(称为教师数据)的数据,但是当应用于实际问题时,在许多情况下,在许多情况下无法构建机器学习模型,例如“无法准备好足够的数据”或“有大量的工程时间可以手动创建教师数据。”因此,我们进行了实验并测试了通过利用领域知识来补偿数据短缺的方法。今年,我们专注于转移学习方法,数据增强方法和功能向量空间的分析,以从少量的教师数据中构建高度准确的机器学习模型。转移学习是一种通过在另一个任务中利用一项任务(训练有素的模型)中所学的内容来有效执行监督学习的一种方法。对于特定任务(任务),我们进行了重复的实验,并验证了有效发挥作用的不同任务,使用不同数据集学习的有效性以及训练有素的模型。数据增强也是增加教师数据的方法。通常使用图像处理,因为它很容易创建相似的图像并且非常有效,但是自然语言处理有许多挑战。我们使用日语独特的域知识研究了一种数据增强方法。应用问题包括从社交媒体中提取意见,这些意见对于市场研究(例如营销)以及验证自然语言处理以了解市场环境以及会议上的演讲至关重要。

项目成果

期刊论文数量(14)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
BERT を用いたフィルタリングによる Twitter からの教師データ作成手法
通过使用 BERT 过滤从 Twitter 创建训练数据的方法
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    金澤滉典;櫻井義尚
  • 通讯作者:
    櫻井義尚
Embodiment matters: toward culture-specific robotized counselling
動物園の来場者予測におけるSNSデータの貢献
SNS 数据对动物园游客预测的贡献
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鈴木耀司;櫻井義尚
  • 通讯作者:
    櫻井義尚
日本語処理における英語のための自然言語処理data augmentation手法の有用性検証
验证自然语言处理数据增强方法在日语处理中对英语的有用性
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    仲宗根太朗;櫻井義尚
  • 通讯作者:
    櫻井義尚
キャラクターの顔領域の情報を用いたイラスト作者推定
使用人物面部区域信息进行插图作者估计
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    笠松慎之介;櫻井義尚
  • 通讯作者:
    櫻井義尚
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

櫻井 義尚其他文献

櫻井 義尚的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

深層学習(Deep learning)による骨転移検出AIモデルの開発と臨床応用
深度学习骨转移检测AI模型开发及临床应用
  • 批准号:
    24K18754
  • 财政年份:
    2024
  • 资助金额:
    $ 2.83万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
深層転移学習と継続学習を組み合わせた筋電ベースヒューマンインタフェースの開発
结合深度迁移学习和持续学习的基于肌电的人机界面的开发
  • 批准号:
    23K28135
  • 财政年份:
    2024
  • 资助金额:
    $ 2.83万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
算数科・理科の学習における児童が転移させる基盤となる「知識」は何か
什么样的“知识”是孩子数学和科学迁移学习的基础?
  • 批准号:
    24K05978
  • 财政年份:
    2024
  • 资助金额:
    $ 2.83万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
学習の転移における睡眠の役割とその神経基盤の解明
阐明睡眠在学习迁移中的作用及其神经基础
  • 批准号:
    23K22378
  • 财政年份:
    2024
  • 资助金额:
    $ 2.83万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
科学的探究学習の適応的支援システムの開発と活用:科学的思考の転移と学校への適用
科学探究学习适应性支持系统的开发和利用:科学思维和应用到学校的转移
  • 批准号:
    24KJ0121
  • 财政年份:
    2024
  • 资助金额:
    $ 2.83万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了