权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

実例に基づく強化学習法による適応行動発生に関する基礎研究

基于实例的强化学习方法自适应行为生成基础研究

基本信息

批准号：
06680365
负责人：
畝見達夫
金额：
$ 1.22万
依托单位：
Soka University
依托单位国家：
日本
项目类别：
Grant-in-Aid for General Scientific Research (C)
财政年份：
1994
资助国家：
日本
起止时间：
1994 至无数据
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-06680365/
关键词：
強化学習機械学習出力の精密化学習能力の進化

项目摘要

強化学習の基本アルゴリズムについて、出力が連続な実数である問題領域において、出力選択肢数を増減させる手法を提案し、コンピュータシミュレーションにより性能を確任した。実例に基づく強化学習法をベースに、参照される頒度の違いにより、より頒繁に参照される出力選択肢の間に新たな選択肢を設定し、選択肢数の数があらかじめ決められた数より多くなったときには、最も参照頒度の小さい選択肢を削除する。これにより、適応的な出力精度の調整が可能となる。倒立振子を用いたコンピュータシミュレーションでは、出力候補を固定とする従来の手法に比べ、計算負荷は増すもののより精密な制御が可能となることが確任された。また強化学習のパラメータを遺伝的アルゴリズムによって最適化するシミュレーション実験を行った。この結果、経験的に人間が設定していた値と同様の値が得られた。ただし、学習率については、徐々に減る傾向となり、理論とは逆になった。さらに、環境変化を行なわず、かつ、個体の評価に学習期間を含めたところ、ボールドウィン効果と思われる現象が観察された。つまり、最初は学習能力が高い個体が発生するが、その後先天的に最適な行動戦略をもった個体にとってかわられる。

Reinforcement learning basic アのルゴリズムについて, output が続な be several である problem domain において, sentaku limb several を raised さ reduction of output せるを proposal し, コンピュータシミュレーションにより performance を it した. Be example に base づく reinforcement learning method をベースに, referential される award degrees の violations いにより, より awarded numerous に reference される output sentaku limb のに between new たな sentaku limb を number set し, sentaku limb のがあらかじめ definitely められた number より more くなったときには, most small も reference to award degrees のさい sentaku limb を pruned する. The な output precision suitable for 応 <s:1> adjustment が may となる. Handstand oscillator を with いたコンピュータシミュレーションでは, output alternate を fixed とする従 to の gimmick に than べは computational load, raised すもののより precision な suppression が may となることが it された. また reinforcement learning のパラメータを but 伝アルゴリズムによって optimization するシミュレーション be 験を line った. The <s:1> results, the empirical に human が set the <s:1> てたたた value と the same as the <s:1> value がられた. Youdaoplaceholder0 ただ, learning rate にとてて, xu 々に decreases る tendency とな, theory とになった reverse になった. さらに line, environment - をなわず, かつ, individual の価に during learning contains をめたところ, ボールドウィン unseen fruit と think われる phenomenon が観 examine された. つまり, high initial は learning がい individual が発 raw するが, その after congenital に optimum な action 戦 slightly をもった individual にとってかわられる.