权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

群強化学習法の開発

小组强化学习方法的发展

基本信息

批准号：
19650031
负责人：
飯間等
金额：
$ 1.15万
依托单位：
Kyoto Institute of Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for Exploratory Research
财政年份：
2007
资助国家：
日本
起止时间：
2007 至 2008
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-19650031/
关键词：
強化学習 Particle Swarm Optimization アントコロニー最適化法群知能

项目摘要

通常の強化学習では一つのエージェントのみを用いて学習を行うので複雑な問題では学習に時間がかかりすぎるという欠点がある。したがって、強化学習の実用化に向けて学習を高速に行う新しい方法を開発することが必要不可欠である。本研究では、短時間で学習を行うために複数のエージェントを用意し、各エージェントが通常の強化学習法で学習を行うとともに、エージェント間の情報交換により他のエージェントの学習成果を参照して学習を行う群強化学習法を提案した。本年度は、鳥の群れ行動にヒントを得た最適化手法であるParticle Swarm Optimizationを用いた群強化学習法におけるエージェント間の情報交換方法を提案した。また、各エージェントが行う個別学習法として、SarsaやActor-Criticを用いた方法を提案した。また、より複雑な問題に対する群強化学習法の有効性を検証するために、倒立振子制御問題、サッカーゲーム問題、マルチエージェント環境の問題に群強化学習法を適用し、これらの問題に対しても短時間に良い方策を獲得できることを確認した。さらに、蟻の群れ行動にヒントを得た最適化手法であるアントコロニー最適化法を用いた群強化学習法を提案した。この群強化学習法では他のエージェントの学習成果を行動選択に利用する新しい枠組みを用いている。以上の成果より、従来の1エージェント強化学習法より短時間に良い方策を獲得できる群強化学習法を開発することができた。

Usually の reinforcement learning では a つのエージェントのみを with いて line learning をうので complex 雑な problem では learning に time がかかりすぎるという points less がある. したがって, reinforcement learning の be to け in turn にて learning を high-speed line にう new しい method を open 発することが need not owe である. This study では line, short time で learning をうために plural のエージェントを intention し, various エージェントが line usually の reinforcement learning method でをうとともに, エージェントのに exchange of information between より he のエージェントの learning outcomes を reference して line learning をう group of reinforcement learning method proposed をした. は, birds this year の group れ action にヒントを have た Optimization technique である Particle Swarm Optimization を with いた group of reinforcement learning method におけるエージェントの way exchange of information between を proposal した. また, various エージェントが line う individual learning method として, Sarsa や Actor - Critic を with いた method proposed をした. また, より complex 雑な problem にす seaborne る group of reinforcement learning method の have sharper sex を検 card するために, inverted oscillator suppression problems, サッカーゲーム problem, マルチエージェント environmental のにを group of reinforcement learning method applicable し, これらの problem にし seaborne てもに short time good い order を get できることを confirm した. さらに, ant の group れ action にヒントを have た optimization technique であるアントコロニーを optimization method with いた group of reinforcement learning method proposed をした. この group of reinforcement learning method では he のエージェントの learning outcomes を action sentaku に using する new しい枠 group みを with いている. All above のより, 1 エ従 to のージェント reinforcement learning method よりに short time good い order を get できる group of reinforcement learning method を open 発することができた.