权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

Establishment of Chaos-based Dynamic Reinforcement Learning as Taking an Essential Technology to Realize Emergence of Thinking in Advance

建立基于混沌的动态强化学习作为实现超前思维生成的关键技术

基本信息

批准号：
20K11993
负责人：
柴田克成
金额：
$ 2.41万
依托单位：
Oita University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research (C)
财政年份：
2020
资助国家：
日本
起止时间：
2020-04-01 至 2021-03-31
项目状态：
已结题

项目摘要

（本研究は、研究代表者の退職に伴う資格喪失のため、やむを得ず１年で廃止となった。この実績は廃止までの１年分のものである）本研究は大きく分けて３つの研究を行った。【１】感度調整学習(SAL)のまとめ　本研究の主題「カオスベースダイナミック強化学習」の基盤となる「感度調整学習(SAS)」について、各ニューロンでの感度調整でネットワーク全体のダイナミクスを調整できることの理論的背景を整理するとともに、カオスダイナミクスの生成および教師あり学習との併用についての系統的なシミュレーションを行い、論文に投稿した。【２】ダイナミック強化学習の基礎研究　強化学習に基づいて各ニューロンで感度を変化させることで、ネットワークダイナミクスを直接学習させるダイナミック強化学習の枠組みで、簡易視覚センサを用いて、エージェントが簡単な物体到達タスクを学習できることを示した。さらに、物体との距離および角度の情報をセンサ入力とした場合でも、同様に学習できた。また、外部入力に対し、フィードバック入力の学習係数を外部入力より小さくした方が性能は良かった。想定していた学習による感度の減少はみられなかった。また、TD誤差が正の際の出力の維持拘束により、この学習係数の差のために感度が増加する場合があることがわかった。【３】ダイナミック教師あり学習の基礎検討　ダイナミクスを直接学習させる考え方を教師あり学習にも導入できるかの基礎検討を行なった。入出力に10ステップの時間差のあるEXOR問題の学習を、誤差の時間平均と現在の誤差との差に基づいて感度を変化させた。(出力ニューロンは通常の誤差勾配で学習) そして、出力ニューロンの学習だけではできなかったものが、この学習を導入することで正しい出力が得られるようになった。感度を通してダイナミクスを直接学習させるという新しい学習の枠組みがある程度動作することが確認できた。

(This study に, the representative of the study <s:1> resigned に accompanied by the loss of う qualification ためため, やむをず for 1 year で廃 until となった.) The actual performance of 廃廃 up to まで <e:1> 1 year is である廃であるである) this study is <s:1> large <s:1> くけて points けて3 まで <s:1> research を field った. 【 1 】 sensitivity adjustment learning (SAL) のまとめの this research topic "カオスベースダイナミック reinforcement learning" の base plate となる sensitivity adjustment learning (SAS) について, various ニューロンでの sensitivity adjustment でネットワーク all のダイナミクスを adjustment できることの theory background を finishing するとともに, カオスダイナミクスの generated および teachers あり learning との and についての system なシミュレーションをい, contribute papers にした. 【 2 】ダイナミック reinforcement learning の reinforcement learning basic research に base づいて each ニューロンで sensitivity を variations change させることで, ネットワークダイナミクスを directly learning させるダイナミック reinforcement learning の枠 group みで, simple 覚センサを with いて, エージェントが Jane 単な objects to タスクを learning できること Youdaoplaceholder0 indicates た. さらに, objects との distance および Angle の intelligence をセンサと into force した occasions でも, with others in に learning できた. また, external force にし, seaborne フィードバックの learning into force coefficient を external よ into force り small さくした party が performance good はかった. It is determined that <s:1> てたた learn による sensitivity <e:1> to reduce みられなったった. また, TD error が is の interstate の output の maintain tight により, この poor learning coefficient ののために sensitivity が raised plus する occasions があることがわかった. [3] ダイナミック teachers あり learning based beg ダ検のイナミクスを directly learning させる exam え party を teachers あり learning にも import できるかの base line beg を検なった. Into the output に 10 ステップの lag のあるを "problem の learning, error の time average と now のとの poor に base づいて sensitivity を variations change させた. (output ニューロンはの error usually hook with で learning) そして, output ニューロンの learning だけではできなかったものが, この learning を import することで is しい output が must られるようになった. Sensitivity を tong してダイナミクスを directly learning させるという new しい learning の枠 group みがある degree action することが confirm できた.

项目成果

期刊论文数量（15）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

リカレントネットにおける感度調整学習時の感度とリアプノフ指数の関係

循环网络灵敏度调整学习过程中灵敏度与李雅普诺夫指数的关系

DOI：
发表时间：
2020
期刊：
第39回計測自動制御学会九州支部学術講演会予稿集
影响因子：
0
作者：
江島拓哉;徳丸侑輝;柴田克成
通讯作者：
柴田克成

Adaptive balancing of exploration and exploitation around the edge of chaos in internal-chaos-based learning

DOI：
10.1016/j.neunet.2020.08.002
发表时间：
2020-08
期刊：
Neural networks : the official journal of the International Neural Network Society
影响因子：
0
作者：
Toshitaka Matsuki;K. Shibata
通讯作者：
Toshitaka Matsuki;K. Shibata

カオスニューラルネットを用いた記憶問題の学習における不応性導入の影響

使用混沌神经网络引入不应性对学习记忆问题的影响