統計的学習に基づく強化学習に関する研究

基于统计学习的强化学习研究

基本信息

  • 批准号:
    20700208
  • 负责人:
  • 金额:
    $ 1.91万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2008
  • 资助国家:
    日本
  • 起止时间:
    2008 至 2009
  • 项目状态:
    已结题

项目摘要

多くの強化学習法では、ある状態である行動を取ることの将来的な良さを表す「価値関数」を近似する必要がある。最も広く行われている方法は、価値関数をパラメータと基底関数の内積で表現する線形関数近似を行う方法である。基底関数は設計者の試行錯誤により得られる。自動的に基底関数を構築する方法もあるが、非常に大きな計算コストが掛かる。我々は、価値関数の近似誤差を逐次的に減少させる近似法を提案しており、本年度は主にこの業績化に取り組んだ。この方法は、設計者の事前の試行錯誤を必要とせず、また、計算コストも小さくて済む。基本的なアルゴリズムを国際会議論文として業績化し、それをロバストに改良したアルゴリズムについても国際会議論文として業績化した。アルゴリズムの性質を理論面および実験面においてより深め学術論文誌へ投稿したがまだ採録に至っていない。アルゴリズム全2体の統計的な性質をクリアにすることで、さらなる業績化が可能と考えている。また、これまでに考案してきた統計的学習に基づく種々の強化学習アルゴリズムを、本科研費で購入した実機ロボットへ適用し学習を試みた。具体的には、レゴマインドストームを用いて二輪型ロボットを作製し、そのバランシングを新たな強化学習法を用いて行った。二輪型ロボットのバランシングを自動調整することは、自転車やバイクにおける個々人の運転の快適性を向上させることに貢献し、さらには事故率の低減にも繋がると考えている。
The reinforcement learning method of many くの, the state of であるaction をtake ることのthe future なgood さを table す「価値夤数」をapproximate するnecessary がある. The most suitable method is the linear closed number approximation method, and the inner product of the base close number is the linear close number approximation method. The basic levels are based on trial and error by the designer. Automatic basic level number construction method and very large calculation method. We will gradually reduce the approximation error of the 䡡夤 relationship and propose a proposal for the approximation method, and the results will be optimized for the current year.このmethod, designer's trial and error beforehand, necessary とせず, また, calculation コストも小さくて済む. Basic なアルゴリズムをInternational Conference PaperとしてPerformanceし、それをロバストに Improvement したアルゴリズムについてもInternational Conference Paper としてPerformance した.アルゴリズムの性をTheoretical surface および実験面においてよりdeep めAcademic paper journal へContribution したがまだCollection に to っていない. The nature of the statistics of all アルゴリズムをクリアにすることで and the performance of さらなる is possible and the test is done.また、これまでにtest caseしてきたstatistical learningにbasedづくkind々のreinforcement learningアルゴリズムを、Undergraduate research funds are not purchased and the machine is applied to study and test. Specifically, the two-wheel type には and レゴマインドストームを are used Make a new reinforcement learning method using a new method. Two-wheeled type ロボットのバランシングをautomatic adjustment wheel, self-propelled bicycle wheel The adaptability of the operation is improved and the accident rate is reduced, and the accident rate is reduced and the system is tested.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Self-organized reinforcement learning based on policy gradient in nonstationary environment
非平稳环境下基于策略梯度的自组织强化学习
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Maruyama;T;Matsuura;M.;Suzuki;K.;Yamamoto;N;Y. Taniguchi;Y. Hiei
  • 通讯作者:
    Y. Hiei
A semiparametric statistical approach to model-free policy evaluation
  • DOI:
    10.1145/1390156.1390291
  • 发表时间:
    2008-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tsuyoshi Ueno;M. Kawanabe;Takeshi Mori;S. Maeda;S. Ishii
  • 通讯作者:
    Tsuyoshi Ueno;M. Kawanabe;Takeshi Mori;S. Maeda;S. Ishii
Robust approximation in decomposed reinforcement learning
分解强化学习中的鲁棒逼近
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T.Mori;S.Ishii
  • 通讯作者:
    S.Ishii
A continuous internal-state controller for partially observable Markov decision processes
用于部分可观察马尔可夫决策过程的连续内部状态控制器
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Maruyama T;Matsuura M;Suzuki K;Yamamoto N;山口 真美;Y,Taniguchi
  • 通讯作者:
    Y,Taniguchi
An Additive Reinforcement Learning
  • DOI:
    10.1007/978-3-642-04274-4_63
  • 发表时间:
    2009-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Takeshi Mori;S. Ishii
  • 通讯作者:
    Takeshi Mori;S. Ishii
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

森 健其他文献

生体分子の効率的捕捉・送達のための高分子ナノカプセルの開発
开发用于有效捕获和递送生物分子的聚合物纳米胶囊
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岸村 顕広;秦 智貴;唐 ヘン敏;劉 一イ;森 健;片山 佳樹
  • 通讯作者:
    片山 佳樹
酵素増感反応による低発現膜タンパク質の検出を目指したキノンメチド型蛍光基質の開発
酶敏反应检测低表达膜蛋白的醌甲基化物型荧光底物的研制
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    桝井 美咲;小野 啓一郎;野口 克也;下村 隆;大内 雄也;石山 宗孝;志賀 匡宣;上野 右一郎;岸村 顕広;森 健;片山 佳樹
  • 通讯作者:
    片山 佳樹
方策こう配法に基づく強化学習法と二足歩行運動制御への応用
基于策略梯度法的强化学习方法及其在双足运动控制中的应用
An improvement key deletiob method for double-array structure using single-nodes
一种改进的单节点双数组结构关键删除方法
タンパク質内包自己組織化Yolk-shell型構造体の多重膜化
含有多层蛋白质的自组装卵黄壳结构
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    丸山 朋輝;劉 一イ;森 健;片山 佳樹;岸村 顕広
  • 通讯作者:
    岸村 顕広

森 健的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('森 健', 18)}}的其他基金

抗体医薬を真に置き換える小タンパク質医薬の開発
开发真正替代抗体药物的小蛋白药物
  • 批准号:
    23K21153
  • 财政年份:
    2024
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
膜タンパク質のノックダウンを可能にする新しい創薬概念の提案
提出一种能够敲除膜蛋白的新药物发现概念
  • 批准号:
    21K19054
  • 财政年份:
    2021
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
抗体医薬を真に置き換える小タンパク質医薬の開発
开发真正替代抗体药物的小蛋白药物
  • 批准号:
    21H02061
  • 财政年份:
    2021
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
金融機関とのリレーションシップが企業の経営危機に与える影響-距離からのアプローチ
与金融机构的关系对企业管理危机的影响——远程方法
  • 批准号:
    22530382
  • 财政年份:
    2010
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
方策勾配法に基づく強化学習法と複雑システム制御への応用
基于策略梯度法的强化学习方法及其在复杂系统控制中的应用
  • 批准号:
    05J02773
  • 财政年份:
    2005
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
導電性高分子のひも状集合体を化学架橋により固定化・被覆したナノ導線の開発
开发具有化学交联固定和涂覆的导电聚合物绳状聚集体的纳米导线
  • 批准号:
    14750711
  • 财政年份:
    2002
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
感熱性ポリマー・DNA複合体の開発と遺伝子診断ならびにDDSへの応用
热敏聚合物/DNA复合物的开发及其在基因诊断和DDS中的应用
  • 批准号:
    99J03315
  • 财政年份:
    1999
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
超塩基性岩の化学的カイネティクスと組織
超镁铁质岩石的化学动力学和结构
  • 批准号:
    58540518
  • 财政年份:
    1983
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
バウシンガー効果の転位構造依存性
包辛格效应对位错结构的依赖性
  • 批准号:
    X00210----575436
  • 财政年份:
    1980
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
部分融解の状態にある岩石の組織, およびマグマの発生と分離の研究
岩石部分熔融状态结构及岩浆生成与分离研究
  • 批准号:
    X00090----554258
  • 财政年份:
    1980
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)

相似海外基金

複雑系科学の基礎理論と統計的学習論の統合による燃焼振動の時空ダイナミクスの解明
结合复杂系统科学基础理论和统计学习理论阐明燃烧振荡的时空动力学
  • 批准号:
    23K22691
  • 财政年份:
    2024
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
統計的学習を用いた非線形計量経済モデルの新展開と金融・経済リスク評価への応用
利用统计学习的非线性计量经济模型的新发展及其在金融和经济风险评估中的应用
  • 批准号:
    24H00142
  • 财政年份:
    2024
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
情報の取得を包含した制御理論と統計的学習理論の融合数理基盤
控制理论和统计学习理论的融合,包括信息获取
  • 批准号:
    21H04875
  • 财政年份:
    2021
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
線形パラメータ変動システムに対する統計的学習理論に基づいた同定手法
基于统计学习理论的线性参数变化系统辨识方法
  • 批准号:
    20K04534
  • 财政年份:
    2020
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
高次元・大規模・多ドメインデータの特徴抽出と情報統合による統計的学習
通过高维、大规模、多领域数据的特征提取和信息整合进行统计学习
  • 批准号:
    19H04071
  • 财政年份:
    2019
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
異質な集団を含むデータに対する統計的学習理論を用いたモデル開発と臨床医学への応用
使用统计学习理论对包含异质群体的数据进行模型开发及其在临床医学中的应用
  • 批准号:
    18K11197
  • 财政年份:
    2018
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
大規模時系列データの統計的学習と環境エネルギー問題への適用
大规模时间序列数据的统计学习及其在环境能源问题中的应用
  • 批准号:
    13J07946
  • 财政年份:
    2013
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
統計的学習による生命情報データからのマイニング
使用统计学习从生物信息数据中挖掘
  • 批准号:
    07F07763
  • 财政年份:
    2007
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
局所適合セミパラメトリック推測と統計的学習理論
局部自适应半参数推理和统计学习理论
  • 批准号:
    17700281
  • 财政年份:
    2005
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
統計的学習理論に基づく非線形識別・判別に関する研究
基于统计学习理论的非线性判别与判别研究
  • 批准号:
    16700261
  • 财政年份:
    2004
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了