複合的目標を扱う強化学習アルゴリズムの開発

开发处理复杂目标的强化学习算法

基本信息

  • 批准号:
    08750522
  • 负责人:
  • 金额:
    $ 0.64万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
  • 财政年份:
    1996
  • 资助国家:
    日本
  • 起止时间:
    1996 至 无数据
  • 项目状态:
    已结题

项目摘要

学習エージェントに対する評価として報酬や懲罰などの強化信号を考え,これを頼りに最適な行動を自律的に学習する様式を強化学習と呼ぶ.強化学習については近年,Q-Learningをはじめとして種々の基礎的アルゴリズムが整備されつつある.しかしながら,複雑な行動を学習するには,学習すべき課題の構造を考慮して学習エージェントの構造やアルゴリズムを構成しなければ効果的な学習は期待できない.本研究では,達成すべきタスクが複数のサブタスクから構成され,なおかつ各サブタスクの実行順序そのものを学習エージェントが報酬として与えられる強化信号を最大化すべく,自律的に決定しなければならない問題を取り上げ,その効率的な学習法を検討した.具体的には,学習すべきサブタスクに対応するモジュールと,サブタスクの実行順序の評価を行うモジュールからなる学習エージェントの構成法を採用した.そして,このモジュール構造を活かし,各モジュールを効果的に学習するアルゴリズムをQ-Learningの拡張型として開発した.複数のゴール状態を最も速く巡回することを要求するナビゲーション課題を用いた計算機実験により,提案したアルゴリズムにより,単純なQ-Learningでは学習が困難になる規模の課題においてもこれを効果的に学習できることが示された.
Learning エ ー ジ ェ ン ト に す seaborne る review 価 と し て remuneration や punishment な ど の reinforcement signal を え, こ れ を 頼 り に optimum な action を に learning self-discipline す る others type を reinforcement learning と ぶ. Reinforcement Learning に つ い て は in recent years, the Q - Learning を は じ め と し て kind 々 の based ア ル ゴ リ ズ ム が servicing さ れ つ つ あ る. し か し な が ら, complex 雑 な を action Learning す る に は, Learning す べ を の き subject structure considering し て Learning エ ー ジ ェ ン ト の tectonic や ア ル ゴ リ ズ ム を constitute し な け れ ば unseen は な Learning period of fruit Wait for で な な で. This study で は, achieve す べ き タ ス ク が plural の サ ブ タ ス ク か ら constitute さ れ, な お か つ each サ ブ タ ス ク の be row order そ の も の を learning エ ー ジ ェ ン ト が remuneration と し て and え ら れ る reinforcement signal を maximize す べ く, self-discipline に decided し な け れ ば な ら な い problems take on り げ を, そ の sharper rate な learning method を beg し 検 た. Specific に は, learning す べ き サ ブ タ ス ク に 応 seaborne す る モ ジ ュ ー ル と, サ ブ タ ス ク の be row order の review 価 を line う モ ジ ュ ー ル か ら な る learning エ ー ジ ェ ン ト の made method を し た. そ し て, こ の モ ジ ュ ー ル tectonic を live か し, each モ ジ ュ ー ル を unseen fruit に learning す る ア ル ゴ リ ズ ム を Q - Learnin g 拡 zhang type と て て development た. State of plural の ゴ ー ル を most く も speed circuit す る こ と を requirements す る ナ ビ ゲ ー シ ョ を ン subject with い た computer be 験 に よ り, proposal し た ア ル ゴ リ ズ ム に よ り, 単 pure な Q - Learning で は Learning difficulties が に な る scale の subject に お い て も こ れ を unseen fruit に Learning で き る こ と が shown さ れ た.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

喜多 一其他文献

国立情報学研究所が提供する「りんりん姫」等のe-ラーニングコンテンツの有効利用について
关于国立信息学研究所提供的“Rinrin Hime”等电子学习内容的有效利用
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    門口 礼;上田 浩;森 幹彦;喜多 一;上田 浩
  • 通讯作者:
    上田 浩
:一般情報教育の調査研究状況
:通识教育研究现状
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岡本雅子,村上正行;吉川直人;喜多 一;河村一樹
  • 通讯作者:
    河村一樹
一般情報教育のカリキュラムモデル
通识信息教育课程模式
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岡本雅子,村上正行;吉川直人;喜多 一;河村一樹;田中 忠芳,杉本 浩,青木 克比古;喜多一
  • 通讯作者:
    喜多一
Webの学習コンテンツをアンチ・ユビキタス化するプラットフォームの構築手法
一种构建使网络学习内容反无处不在的平台的方法
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    門口 礼;上田 浩;森 幹彦;喜多 一;天野憲樹
  • 通讯作者:
    天野憲樹
複数の視点から事例を見る情報モラル指導用教材の提案
多视角案例信息道德教育教材提案
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    門口 礼;上田 浩;森 幹彦;喜多 一
  • 通讯作者:
    喜多 一

喜多 一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('喜多 一', 18)}}的其他基金

動的環境変動に対する進化型適応アルゴリズムの開発
针对动态环境变化的进化自适应算法的开发
  • 批准号:
    09750495
  • 财政年份:
    1997
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
遺伝アルゴリズムにおける遺伝子の戦略的符号化に関する研究
遗传算法中基因的策略编码研究
  • 批准号:
    05750416
  • 财政年份:
    1993
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
遺伝アルゴリズムの自己組織性に関する研究
遗传算法自组织研究
  • 批准号:
    04750412
  • 财政年份:
    1992
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似国自然基金

煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
  • 批准号:
    62003314
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

A Q-learning based model-free wide-area damping control under GPS spoofing attacks
GPS欺骗攻击下基于Q学习的无模型广域阻尼控制
  • 批准号:
    560831-2020
  • 财政年份:
    2020
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Alliance Grants
機械学習のQ−Learningによる自律分散移動ロボットの開発
使用 Q-Learning 机器学习开发自主分布式移动机器人
  • 批准号:
    10919004
  • 财政年份:
    1998
  • 资助金额:
    $ 0.64万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了