強化学習における政策・時空間・ハイパーパラメータの分節化と最適化,その統合

强化学习中策略、时空和超参数的细分、优化和集成

基本信息

  • 批准号:
    22K12182
  • 负责人:
  • 金额:
    $ 2.33万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2026-03-31
  • 项目状态:
    未结题

项目摘要

深層強化学習において,ハイパーパラメータの設定がどのような影響を与えるかについて実験・検討し,その結果に基づき,異なるハイパーパラメータを持つ複数のニューラルネットワークを並行して学習させ,その都度成績の良いものを採用する手法を開発した.事前実験でハイパーパラメータによっては初期探索速度が速いものや逆に最終的な精度が高いものなどがあることが確認されたため,どのパラメータが一番良いかを選定するのではなくて,並列に学習させ,出力はその都度良いものを選択するという手法を提案した.意外な結果としては,ニューラルネットワークが学習に必要なパラメータ数を持っている場合,ある意味適当に選んだ他のネットワークの出力でもそのネットワークの学習に良い影響を与えることが多いことであった.逆に統計的に学習効率を最大化させようとする手法を用いてネットワークを選択すると全体として探索度合いが高くなってしまうため,最終的な成績は悪いということが分かった.また,強化学習のハイパーパラメータ最適化に向けたアルゴリズム開発では,新しいパラメータを発掘するために,探索領域の拡張を自ら行う手法を検討し,良い精度を出すことを確認した.具体的に,以前提案したアルゴリズムの設定パラメータを削減しつつも良い探索精度を出すことができた.実験では,領域外探索の距離とタイミングについて複数のパターンを調査し,遠くの距離を探索させる頻度は徐々小さくすべきであるということと,探索点群の更新頻度が半分以上の時に遠くの距離を探索させるのか,半分以下の時に探索させるのかで精度の向上に与える質的な違いが明らかになり,それを利用した手法を開発することができた.
我们试验并检查了高参数设置在深钢筋学习中的影响,并根据结果开发了一种方法,在这种方法中,具有不同超参数的多个神经网络并行训练,并采用每次都具有良好结果的方法。在初步实验中,有证实某些超参数具有更快的初始搜索速度,或者相反,最终的准确性更高,因此我们不是选择哪些参数是最好的,而是提出了一种方法,在该方法中,我们每次都可以并行训练并选择最佳输出。令人惊讶的结果是,当神经网络具有学习所需的参数数量时,经常选择的另一个网络的输出通常会对该网络的学习产生积极影响。相反,当使用统计学上提高学习效率的方法选择网络时,总体搜索级别将更高,因此最终等级被发现很差。此外,在开发旨在在增强学习中优化超参数优化的算法时,我们研究了一种自身扩展搜索区域以发掘新参数的方法,并确认它将提供良好的准确性。具体而言,我们能够在降低先前提出的算法的设置参数的同时,达到良好的搜索准确性。该实验揭示了搜索距离和时机准确性的质量差异,以及在搜索点云更新频率或更少的搜索点更新频率或更少的频率以及在搜索远距离时是否进行搜索时,应逐渐降低寻找远距离的频率,以及在寻找远距离时执行搜索是否少于一半,以及一种使用此方法的方法。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Addition of Out-of-Population Search in JADE
JADE 中添加人口外搜索
Addition of Out-of-population Search Based on the Rate of Solution Updates in JADE
在 JADE 中添加基于解更新率的人口外搜索
JADEにおける解の更新割合に基づいた集団外探索の追加
JADE 中添加基于解更新率的组外搜索
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宮平 裕一;野津 亮;本多 克宏
  • 通讯作者:
    本多 克宏
Deep Reinforcement Learning Combined with Approximation of Number of State Experiences
深度强化学习结合状态经验数近似
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

野津 亮其他文献

FCMdd型線形ファジィクラスタリングによる非ユークリッド関係性データからの局所的マップ構築
使用 FCMdd 型线性模糊聚类从非欧几里得关系数据构建局部地图
Interactive Evolutionary Computation: Acceleration Research and Applications for Human Science
交互式进化计算:人类科学的加速研究与应用
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    市橋秀友;本多克宏;野津 亮;Y. Sakurai;Anak Agung Gede Dharma,高木英行,富松潔;河南克也,藤本典幸;Ryoji Suzuki,Yoshiki Tanaka,Hernan Aguirre,Kiyoshi Tanaka,Sho Yokoyama,Hideki Nakamura,Kazuo Ichikawa and Shoko Tanabe;Hideyuki Takagi
  • 通讯作者:
    Hideyuki Takagi
ファジィc-平均識別器の訓練時間の改善
缩短模糊 C 均值分类器的训练时间
向きに依存した不確実性を考慮したスイッチング回帰モデル
考虑方向相关不确定性的切换回归模型
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岩田俊介;本多克宏;野津 亮
  • 通讯作者:
    野津 亮
局所的な最適尺度を考慮した混合データベースの線形ファジイクラスタリング
考虑局部最优规模的混合数据库线性模糊聚类
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    本多 克宏;上彬 亮;市橋 秀友;野津 亮
  • 通讯作者:
    野津 亮

野津 亮的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('野津 亮', 18)}}的其他基金

看護理論とグループダイナミックスに基づいた共感的メディアの構築
基于护理理论和群体动力学构建共情媒体
  • 批准号:
    03J05104
  • 财政年份:
    2003
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

Electricity Price Forecasting with Evolutionary Stacked Auto-Encode of Multi-Layered Artificial Neural Netwok
利用多层人工神经网络的进化堆叠自动编码进行电价预测
  • 批准号:
    20K04425
  • 财政年份:
    2020
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Establishment of a hierarchical behavior analysis method adapted to individuals by fusing big data and small data
大数据与小数据融合,建立适应个体的分层行为分析方法
  • 批准号:
    20K19568
  • 财政年份:
    2020
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Adaptative learning optimization method based on evolutionary learning system and its application to reconfigurable device
基于进化学习系统的自适应学习优化方法及其在可重构设备中的应用
  • 批准号:
    19K12152
  • 财政年份:
    2019
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Percolative Learning and its applications
渗透学习及其应用
  • 批准号:
    18H03305
  • 财政年份:
    2018
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Segmentation of Time and Space in a Fully Online Reinforcement Learning System
全在线强化学习系统中的时间和空间分割
  • 批准号:
    18K11473
  • 财政年份:
    2018
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了