実例に基づく強化学習法による適応行動発生に関する基礎研究

基于实例的强化学习方法自适应行为生成基础研究

基本信息

  • 批准号:
    06680365
  • 负责人:
  • 金额:
    $ 1.22万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
  • 财政年份:
    1994
  • 资助国家:
    日本
  • 起止时间:
    1994 至 无数据
  • 项目状态:
    已结题

项目摘要

強化学習の基本アルゴリズムについて、出力が連続な実数である問題領域において、出力選択肢数を増減させる手法を提案し、コンピュータシミュレーションにより性能を確任した。実例に基づく強化学習法をベースに、参照される頒度の違いにより、より頒繁に参照される出力選択肢の間に新たな選択肢を設定し、選択肢数の数があらかじめ決められた数より多くなったときには、最も参照頒度の小さい選択肢を削除する。これにより、適応的な出力精度の調整が可能となる。倒立振子を用いたコンピュータシミュレーションでは、出力候補を固定とする従来の手法に比べ、計算負荷は増すもののより精密な制御が可能となることが確任された。また強化学習のパラメータを遺伝的アルゴリズムによって最適化するシミュレーション実験を行った。この結果、経験的に人間が設定していた値と同様の値が得られた。ただし、学習率については、徐々に減る傾向となり、理論とは逆になった。さらに、環境変化を行なわず、かつ、個体の評価に学習期間を含めたところ、ボールドウィン効果と思われる現象が観察された。つまり、最初は学習能力が高い個体が発生するが、その後先天的に最適な行動戦略をもった個体にとってかわられる。
Reinforcement learning basic ア の ル ゴ リ ズ ム に つ い て, output が 続 な be several で あ る problem domain に お い て, sentaku limb several を raised さ reduction of output せ る を proposal し, コ ン ピ ュ ー タ シ ミ ュ レ ー シ ョ ン に よ り performance を it し た. Be example に base づ く reinforcement learning method を ベ ー ス に, referential さ れ る award degrees の violations い に よ り, よ り awarded numerous に reference さ れ る output sentaku limb の に between new た な sentaku limb を number set し, sentaku limb の が あ ら か じ め definitely め ら れ た number よ り more く な っ た と き に は, most small も reference to award degrees の さ い sentaku limb を pruned す る. The な output precision suitable for 応 <s:1> adjustment が may となる. Handstand oscillator を with い た コ ン ピ ュ ー タ シ ミ ュ レ ー シ ョ ン で は, output alternate を fixed と す る 従 to の gimmick に than べ は computational load, raised す も の の よ り precision な suppression が may と な る こ と が it さ れ た. ま た reinforcement learning の パ ラ メ ー タ を but 伝 ア ル ゴ リ ズ ム に よ っ て optimization す る シ ミ ュ レ ー シ ョ ン be 験 を line っ た. The <s:1> results, the empirical に human が set the <s:1> て た た た value と the same as the <s:1> value が られた. Youdaoplaceholder0 ただ, learning rate に と て て, xu 々に decreases る tendency とな, theory と になった reverse になった. さ ら に line, environment - を な わ ず, か つ, individual の 価 に during learning contains を め た と こ ろ, ボ ー ル ド ウ ィ ン unseen fruit と think わ れ る phenomenon が 観 examine さ れ た. つ ま り, high initial は learning が い individual が 発 raw す る が, そ の after congenital に optimum な action 戦 slightly を も っ た individual に と っ て か わ ら れ る.

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
畝見達夫: "強化学習エージェントの集団行動" マルチエージェントと協調計算. 3. 137-150 (1994)
Tatsuo Unemi:“强化学习代理的集体行为”多代理和协作计算 3. 137-150 (1994)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Unemi,et al.: "Evolutionary Differentiation of Learning Abilities-" Proceedings of the Forth Intnl.Conf.on Artificial Life. 331-336 (1994)
T.Unemi 等人:“学习能力的进化分化——”第四届人工生命国际会议论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
矢野喜義、増島康弘、平山宣正、畝見達夫: "強化学習エージェントによる道路交通の秩序の発生" 自律分散システムシンポジウム. 297-300 (1995)
Yoshiyoshi Yano、Yasuhiro Masushima、Nobumasa Hirayama、Tatsuo Unemi:“使用强化学习代理生成道路交通秩序”自治分布式系统研讨会 297-300 (1995)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

畝見 達夫其他文献

Perspective on Interactive Evolutionary Computing
交互式进化计算的视角
  • DOI:
  • 发表时间:
    1998
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高木 英行;H. Takagi;畝見 達夫;T. Unemi;寺野 隆雄;T. Terano
  • 通讯作者:
    T. Terano

畝見 達夫的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('畝見 達夫', 18)}}的其他基金

An epidemic simulation based on a multi-agent system distributed in a continuous space
基于连续空间分布的多智能体系统的流行病模拟
  • 批准号:
    21K12064
  • 财政年份:
    2021
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
様々なデータ型のための帰納学習アルゴリズム
适用于各种数据类型的归纳学习算法
  • 批准号:
    05213222
  • 财政年份:
    1993
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
様々なデータ型のための帰納学習アルゴリズム
适用于各种数据类型的归纳学习算法
  • 批准号:
    04229203
  • 财政年份:
    1992
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
様々なデ-タ型のための帰納学習アルゴリズム
适用于各种数据类型的归纳学习算法
  • 批准号:
    03245205
  • 财政年份:
    1991
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas

相似海外基金

肝臓内酸素動態を含む透析低血圧発症予知モデルの構築:統計・機械学習分析による解析
构建预测透析低血压发作(包括肝内氧动态)的模型:使用统计和机器学习分析进行分析
  • 批准号:
    24K15796
  • 财政年份:
    2024
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
臨床情報による高精度分娩進行予測モデルの開発: 機械学習の活用
利用临床信息开发高精度的分娩进展预测模型:利用机器学习
  • 批准号:
    24K13948
  • 财政年份:
    2024
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
新興感染症のシステマティック・レビューを機械学習を用いて簡易に実施するための研究
利用机器学习轻松对新发传染病进行系统评价的研究
  • 批准号:
    24K13518
  • 财政年份:
    2024
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
独立成分分析を活用した信頼性の高い機械学習手法の構築
使用独立成分分析构建可靠的机器学习方法
  • 批准号:
    24K15093
  • 财政年份:
    2024
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
学習過程情報に基づき理由を説明可能な高速論理型機械学習器の開発の提案
开发可根据学习过程信息解释原因的高速逻辑机器学习装置的提案
  • 批准号:
    24K15095
  • 财政年份:
    2024
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
多次元イベント時間データ解析の推測理論と方法・機械学習の開発
多维事件时间数据分析的推理理论和方法/机器学习的发展
  • 批准号:
    24K14853
  • 财政年份:
    2024
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
速度ポテンシャルエネルギー整形法と機械学習を用いた宇宙機制御理論の開発
利用速度势能整形方法和机器学习发展航天器控制理论
  • 批准号:
    23K20946
  • 财政年份:
    2024
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
ユビキタス機械学習社会におけるプライバシ保護基盤
无处不在的机器学习社会中的隐私保护基础设施
  • 批准号:
    23K21695
  • 财政年份:
    2024
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
正則化機能強化による超ロバスト推定法の開拓と一般化:信号処理・機械学習への応用
通过加强正则化功能开发和推广超鲁棒估计方法:在信号处理和机器学习中的应用
  • 批准号:
    23K22762
  • 财政年份:
    2024
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
攻撃に耐性を持つ機械学習モデルによる設計工程ハードウェアトロイ検知
使用抗攻击的机器学习模型在设计过程中检测硬件木马
  • 批准号:
    23K24816
  • 财政年份:
    2024
  • 资助金额:
    $ 1.22万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了