群強化学習法の開発

小组强化学习方法的发展

基本信息

  • 批准号:
    19650031
  • 负责人:
  • 金额:
    $ 1.15万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Exploratory Research
  • 财政年份:
    2007
  • 资助国家:
    日本
  • 起止时间:
    2007 至 2008
  • 项目状态:
    已结题

项目摘要

通常の強化学習では一つのエージェントのみを用いて学習を行うので複雑な問題では学習に時間がかかりすぎるという欠点がある。したがって、強化学習の実用化に向けて学習を高速に行う新しい方法を開発することが必要不可欠である。本研究では、短時間で学習を行うために複数のエージェントを用意し、各エージェントが通常の強化学習法で学習を行うとともに、エージェント間の情報交換により他のエージェントの学習成果を参照して学習を行う群強化学習法を提案した。本年度は、鳥の群れ行動にヒントを得た最適化手法であるParticle Swarm Optimizationを用いた群強化学習法におけるエージェント間の情報交換方法を提案した。また、各エージェントが行う個別学習法として、SarsaやActor-Criticを用いた方法を提案した。また、より複雑な問題に対する群強化学習法の有効性を検証するために、倒立振子制御問題、サッカーゲーム問題、マルチエージェント環境の問題に群強化学習法を適用し、これらの問題に対しても短時間に良い方策を獲得できることを確認した。さらに、蟻の群れ行動にヒントを得た最適化手法であるアントコロニー最適化法を用いた群強化学習法を提案した。この群強化学習法では他のエージェントの学習成果を行動選択に利用する新しい枠組みを用いている。以上の成果より、従来の1エージェント強化学習法より短時間に良い方策を獲得できる群強化学習法を開発することができた。
Usually の reinforcement learning で は a つ の エ ー ジ ェ ン ト の み を with い て line learning を う の で complex 雑 な problem で は learning に time が か か り す ぎ る と い う points less が あ る. し た が っ て, reinforcement learning の be to け in turn に て learning を high-speed line に う new し い method を open 発 す る こ と が need not owe で あ る. This study で は line, short time で learning を う た め に plural の エ ー ジ ェ ン ト を intention し, various エ ー ジ ェ ン ト が line usually の reinforcement learning method で を う と と も に, エ ー ジ ェ ン ト の に exchange of information between よ り he の エ ー ジ ェ ン ト の learning outcomes を reference し て line learning を う group of reinforcement learning method proposed を し た. は, birds this year の group れ action に ヒ ン ト を have た Optimization technique で あ る Particle Swarm Optimization を with い た group of reinforcement learning method に お け る エ ー ジ ェ ン ト の way exchange of information between を proposal し た. ま た, various エ ー ジ ェ ン ト が line う individual learning method と し て, Sarsa や Actor - Critic を with い た method proposed を し た. ま た, よ り complex 雑 な problem に す seaborne る group of reinforcement learning method の have sharper sex を 検 card す る た め に, inverted oscillator suppression problems, サ ッ カ ー ゲ ー ム problem, マ ル チ エ ー ジ ェ ン ト environmental の に を group of reinforcement learning method applicable し, こ れ ら の problem に し seaborne て も に short time good い order を get で き る こ と を confirm し た. さ ら に, ant の group れ action に ヒ ン ト を have た optimization technique で あ る ア ン ト コ ロ ニ ー を optimization method with い た group of reinforcement learning method proposed を し た. こ の group of reinforcement learning method で は he の エ ー ジ ェ ン ト の learning outcomes を action sentaku に using す る new し い 枠 group み を with い て い る. All above の よ り, 1 エ 従 to の ー ジ ェ ン ト reinforcement learning method よ り に short time good い order を get で き る group of reinforcement learning method を open 発 す る こ と が で き た.

项目成果

期刊论文数量(14)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

飯間 等其他文献

An Analysis of Paired Collaborative Learning by Using the Collecting System of Conversation
利用对话收集系统的结对协作学习分析
寿命を設定した自己最良値を用いたParticle Swarm Optimization に基づく群強化学習法
基于生命周期个人最佳值的粒子群优化的群体强化学习方法
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小出明弘;斉藤和巳;風間一洋;鳥海不二夫;大田仁克;飯間 等
  • 通讯作者:
    飯間 等
Evaluation of a System Utilizing User Interaction to Track Interesting News Events
利用用户交互跟踪有趣新闻事件的系统评估
協同学習における学習者のペア構成問題に対する遺伝アルゴリズムによる解法
基于遗传算法的协作学习中学习者结对问题的解决方案
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    飯間 等;新池 一弘
  • 通讯作者:
    新池 一弘
、e-Learningにおけるオープンソース・ソフトウェア活用について
, 关于开源软件在电子学习中的使用
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    飯間 等;新池 一弘;野口 孝文;Takafumi NOGUCHI;野口 孝文;岩田淳
  • 通讯作者:
    岩田淳

飯間 等的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('飯間 等', 18)}}的其他基金

汎化性能を高めた深層強化学習に基づく組合せ最適化法
提高泛化性能的基于深度强化学习的组合优化方法
  • 批准号:
    23K11263
  • 财政年份:
    2023
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
解の類似度を考慮した生産再スケジューリング問題に対する遺伝アルゴリズムの開発
考虑解相似性的生产调度问题遗传算法的开发
  • 批准号:
    15760292
  • 财政年份:
    2003
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似海外基金

Evolving Self-Adaptive Particle Swarm Optimization Techniques using Genetic Programming
使用遗传编程进化自适应粒子群优化技术
  • 批准号:
    460647-2014
  • 财政年份:
    2017
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Postgraduate Scholarships - Doctoral
Proposal of Easy and Advanced Nonlinear Analysis method by Particle Swarm Optimization
通过粒子群优化提出简单和高级的非线性分析方法
  • 批准号:
    16K16124
  • 财政年份:
    2016
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Cooperative two-level nonlinear programming through particle swarm optimization and its fuzzy stochastic extensions
通过粒子群优化及其模糊随机扩展的协同两级非线性规划
  • 批准号:
    16K01244
  • 财政年份:
    2016
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Evolving Self-Adaptive Particle Swarm Optimization Techniques using Genetic Programming
使用遗传编程进化自适应粒子群优化技术
  • 批准号:
    460647-2014
  • 财政年份:
    2016
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Postgraduate Scholarships - Doctoral
Intelligent Control System Design based on Quantum Particle Swarm Optimization with NUC High-Density Beowulf Cluster
基于NUC高密度贝奥武夫集群的量子粒子群优化智能控制系统设计
  • 批准号:
    16K06197
  • 财政年份:
    2016
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Implementing Particle Swarm Optimization algorithm for battery modeling
实现电池建模的粒子群优化算法
  • 批准号:
    499849-2016
  • 财政年份:
    2016
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Experience Awards (previously Industrial Undergraduate Student Research Awards)
Development of Canonical Particle Swarm Optimization based on Dynamical System Theory
基于动力系统理论的规范粒子群优化研究进展
  • 批准号:
    15K06077
  • 财政年份:
    2015
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Evolving Self-Adaptive Particle Swarm Optimization Techniques using Genetic Programming
使用遗传编程进化自适应粒子群优化技术
  • 批准号:
    460647-2014
  • 财政年份:
    2015
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Postgraduate Scholarships - Doctoral
Evolving Self-Adaptive Particle Swarm Optimization Techniques using Genetic Programming
使用遗传编程进化自适应粒子群优化技术
  • 批准号:
    460647-2014
  • 财政年份:
    2014
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Postgraduate Scholarships - Doctoral
Interactive fuzzy multiobjective decision making through global particle swarm optimization under fuzzy stochastic enverionment and its applications
模糊随机环境下全局粒子群优化交互式模糊多目标决策及其应用
  • 批准号:
    26750115
  • 财政年份:
    2014
  • 资助金额:
    $ 1.15万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了