Self-Organization of Hierarchical Reinforcement Learning System

分层强化学习系统的自组织

基本信息

  • 批准号:
    13650480
  • 负责人:
  • 金额:
    $ 2.18万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2001
  • 资助国家:
    日本
  • 起止时间:
    2001 至 2002
  • 项目状态:
    已结题

项目摘要

Previously, we proposed two learning algorithms, Labeling Q-learning(LQ-learning) and Switching Q-learning(SQ-learning). Although the former is the algorithm of simple structure which consists of a single agent, it can learn well in a certain kind of POMDP environments. The latter is a type of hierarchical Q-learning method (HQ-learning), which changes Q-modules by using a hierarchical learning automaton, and can work well also in a more complicated POMDP environment. In this study, we improved these two algorithms, and developed more effective HQ-learning algorithms. Further, in order to overcome more realistic environments where either or both of observations and actions take continuous values, we conducted a basic study about function approximations by neural networks. The results are following.1) We improved the SQ-learning so that it works well in noisy environments. We also demonstrated that the SQ-learning exhibits a better performance than Wiering's HQ-learning.2) We enhanced the performance of the LQ-leaning by introducing the Kohonen's self-organizing map(SOM).3) We improved the self-segmentation of sequence(SSS) algorithm by Sun and Sessions. Further, we also developed a new algorithm, called SSS(λ).4) We examined the effectiveness of SSS(λ) by applying it to the navigation task of a mobile robot. Here, the SOM was used for self-classification of continuous sonar observations.5) We proposed a statistical approximation learning(SAL) for the simultaneous recurrent neural networks, and demonstrated that it achieves the high accuracy of nonlinear function approximation. Further, we presented a novel neural network model for incremental learning.
在此之前,我们提出了两种学习算法,标记Q学习(LQ-learning)和切换Q学习(SQ-learning)。前者虽然是由单个Agent组成的结构简单的算法,但在某种POMDP环境下具有良好的学习能力。后者是一种层次Q学习方法(HQ学习),它通过使用层次学习自动机来改变Q模块,并且也可以在更复杂的POMDP环境中工作。在本研究中,我们改进了这两种算法,并开发了更有效的HQ学习算法。此外,为了克服更现实的环境中,其中一个或两个观察和行动采取连续值,我们进行了关于神经网络的函数近似的基础研究。结果如下:1)我们改进了SQ-learning,使其在嘈杂的环境中工作得很好。2)通过引入Kohonen的自组织映射(SOM),提高了LQ学习的性能; 3)改进了Sun和Sessions提出的序列自分割(SSS)算法。4)将SSS(λ)算法应用于移动的机器人的导航任务,验证了SSS(λ)算法的有效性。本文将SOM用于连续声纳观测数据的自分类。5)提出了一种同步递归神经网络的统计逼近学习方法,并证明了该方法具有非线性函数逼近的高精度。此外,我们提出了一种新的神经网络模型的增量学习。

项目成果

期刊论文数量(42)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
M. Sakai: "Control of Chaos Dynamics in Jordan Recurrent Neural Networks"Proc. of the International Conference on Control, Automation and Systems. 292-295 (2001)
M. Sakai:“约旦循环神经网络中的混沌动力学控制”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
M. Sakai: "A Statistical Approximation Learning Method for Simultaneous Recurrent Networks"Proc. of the 15th IFAC World Congress on Automatic Control. 2491-2496 (2002)
M. Sakai:“同时循环网络的统计近似学习方法”Proc。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
H.Y.Lee: "Labeling Q-learning with SOM"Int. Conf.on Control, Automation, and Systems(ICCAS 2002). 105-109 (2002)
H.Y.Lee:“用 SOM 标记 Q 学习”Int。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
M.Sakai: "A Statistical Approximation Learning Method for Simultaneous Recurrent Networks"Proc.of the 15^<th> IFAC World Congress on Automatic Control. 2491-2496 (2002)
M.Sakai:第 15 届 IFAC 世界自动控制大会的“同时循环网络的统计近似学习方法”。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
M.Sakai: "Control of Chaos Dynamics in Jordan Recurrent Neural Networks"Proc.of the International Conference on Control, Automation and Systems. 292-295 (2001)
M.Sakai:“约旦循环神经网络中的混沌动力学控制”国际控制、自动化与系统会议论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

ABE Kenichi其他文献

鎮圧の後で
镇压后
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    NISHITANI Osamu;NAKAYAMA Chikako (as editors);田島 達也;川村邦光;田島 達也;NAKAYAMA Chikako;荻野美穂;成澤 勝嗣;NAKAYAMA Chikako;NAKAYAMA Chikako;島薗 進;五十嵐 公一;HAYASHI Midori;YONETANI Masafumi;杉原 達;五十嵐 公一;YONETANI Masafumi;野口 剛;中村生雄;井田 太郎;YONETANI Masafumi;赤坂 憲雄;大久保 純一;ABE Kenichi;Junichi Okubo;池上 良正;ABE Kenichi;島薗 進;並木 誠士;ABE Kenichi;Seishi Namiki;島薗 進;SAKAI Takashi;玉蟲 敏子;SAKAI Takashi;玉蟲 敏子;冨山 一郎;Satoko Tamamushi;SAKAI Takashi;冨山 一郎
  • 通讯作者:
    冨山 一郎
理性の探求(5)名づけと所有--アメリカという制度空間
理性探寻(五)命名与所有权--美国的制度空间
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    NISHITANI Osamu;NAKAYAMA Chikako (as editors);田島 達也;川村邦光;田島 達也;NAKAYAMA Chikako;荻野美穂;成澤 勝嗣;NAKAYAMA Chikako;NAKAYAMA Chikako;島薗 進;五十嵐 公一;HAYASHI Midori;YONETANI Masafumi;杉原 達;五十嵐 公一;YONETANI Masafumi;野口 剛;中村生雄;井田 太郎;YONETANI Masafumi;赤坂 憲雄;大久保 純一;ABE Kenichi;Junichi Okubo;池上 良正;ABE Kenichi;島薗 進;並木 誠士;ABE Kenichi;Seishi Namiki;島薗 進;SAKAI Takashi;玉蟲 敏子;SAKAI Takashi;玉蟲 敏子;冨山 一郎;Satoko Tamamushi;SAKAI Takashi;冨山 一郎;西谷 修;Satoko Tamamushi;玉蟲 敏子;中村生雄;西谷 修
  • 通讯作者:
    西谷 修
視覚のジオポリティクス : メディアウォールを突き崩す
视野地缘政治:打破媒体墙
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西谷 修;西谷 修;西谷 修;西谷 修;西谷 修;西谷 修;西谷 修;西谷 修;西谷 修;中山 智香子;安村 直己;林 みどり;大川 正彦;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NAKAYAMA Chikako;YASUMURA Naoki;HAYASHI Midori;OKAWA Masahiko;安村 直己;林 みどり;林 みどり;阿部 賢一;YASUMURA Naoki;HAYASHI Midori;林 みどり;安村 直己;阿部 賢一;ABE Kenichi;西谷 修・中山智香子(編集)
  • 通讯作者:
    西谷 修・中山智香子(編集)
A Tikopia in the Global Era : Using Mediation to Empower Coffee Growing Communities in East Timor
全球时代的提科皮亚:利用调解为东帝汶咖啡种植社区赋权
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tarsitani;Belle Asante;ABE Kenichi
  • 通讯作者:
    ABE Kenichi
暴力の哲学
暴力哲学
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    西谷 修;西谷 修;西谷 修;西谷 修;西谷 修;西谷 修;西谷 修;西谷 修;西谷 修;中山 智香子;安村 直己;林 みどり;大川 正彦;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NISHITANI Osamu;NAKAYAMA Chikako;YASUMURA Naoki;HAYASHI Midori;OKAWA Masahiko;安村 直己;林 みどり;林 みどり;阿部 賢一;YASUMURA Naoki;HAYASHI Midori;林 みどり;安村 直己;阿部 賢一;ABE Kenichi;西谷 修・中山智香子(編集);西谷 修・中山智香子(共編著);NISHITANI Osamu;大川 正彦;酒井 隆史
  • 通讯作者:
    酒井 隆史

ABE Kenichi的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('ABE Kenichi', 18)}}的其他基金

Studies on Literary History in Bohemia
波西米亚文学史研究
  • 批准号:
    19K00493
  • 财政年份:
    2019
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Studies on Images of "East" in East European Literature
东欧文学中的“东”意象研究
  • 批准号:
    24320064
  • 财政年份:
    2012
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Self-control of Memory Structure of Reinforcement Learning in Hidden Markov Environments
隐马尔可夫环境下强化学习记忆结构的自我控制
  • 批准号:
    11650441
  • 财政年份:
    1999
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Study on Decentralized Learning Algorithms in Non-Markovian Environments
非马尔可夫环境下的分散学习算法研究
  • 批准号:
    09650451
  • 财政年份:
    1997
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Study on Decentralized Learning Algorithms in Markovian Environments
马尔可夫环境下的分散学习算法研究
  • 批准号:
    06650449
  • 财政年份:
    1994
  • 资助金额:
    $ 2.18万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了