权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

複合的目標を扱う強化学習アルゴリズムの開発

开发处理复杂目标的强化学习算法

基本信息

批准号：
08750522
负责人：
喜多一
金额：
$ 0.64万
依托单位：
Kyoto University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Encouragement of Young Scientists (A)
财政年份：
1996
资助国家：
日本
起止时间：
1996 至无数据
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-08750522/
关键词：
強化学習 Q-learning 複合的タスクモジュールナビゲーション課題

项目摘要

学習エージェントに対する評価として報酬や懲罰などの強化信号を考え,これを頼りに最適な行動を自律的に学習する様式を強化学習と呼ぶ.強化学習については近年,Q-Learningをはじめとして種々の基礎的アルゴリズムが整備されつつある.しかしながら,複雑な行動を学習するには,学習すべき課題の構造を考慮して学習エージェントの構造やアルゴリズムを構成しなければ効果的な学習は期待できない.本研究では,達成すべきタスクが複数のサブタスクから構成され,なおかつ各サブタスクの実行順序そのものを学習エージェントが報酬として与えられる強化信号を最大化すべく,自律的に決定しなければならない問題を取り上げ,その効率的な学習法を検討した.具体的には,学習すべきサブタスクに対応するモジュールと,サブタスクの実行順序の評価を行うモジュールからなる学習エージェントの構成法を採用した.そして,このモジュール構造を活かし,各モジュールを効果的に学習するアルゴリズムをQ-Learningの拡張型として開発した.複数のゴール状態を最も速く巡回することを要求するナビゲーション課題を用いた計算機実験により,提案したアルゴリズムにより,単純なQ-Learningでは学習が困難になる規模の課題においてもこれを効果的に学習できることが示された.

Learning エージェントにす seaborne る review 価として remuneration や punishment などの reinforcement signal をえ, これを頼りに optimum な action をに learning self-discipline する others type を reinforcement learning とぶ. Reinforcement Learning については in recent years, the Q - Learning をはじめとして kind 々の based アルゴリズムが servicing されつつある. しかしながら, complex 雑なを action Learning するには, Learning すべをのき subject structure considering して Learning エージェントの tectonic やアルゴリズムを constitute しなければ unseen はな Learning period of fruit Wait for でななで. This study では, achieve すべきタスクが plural のサブタスクから constitute され, なおかつ each サブタスクの be row order そのものを learning エージェントが remuneration として and えられる reinforcement signal を maximize すべく, self-discipline に decided しなければならない problems take on りげを, その sharper rate な learning method を beg し検た. Specific には, learning すべきサブタスクに応 seaborne するモジュールと, サブタスクの be row order の review 価を line うモジュールからなる learning エージェントの made method をした. そして, このモジュール tectonic を live かし, each モジュールを unseen fruit に learning するアルゴリズムを Q - Learnin g 拡 zhang type とてて development た. State of plural のゴールを most くも speed circuit することを requirements するナビゲーショをン subject with いた computer be 験により, proposal したアルゴリズムにより, 単 pure な Q - Learning では Learning difficulties がになる scale の subject においてもこれを unseen fruit に Learning できることが shown された.