統計的学習に基づく強化学習に関する研究

基于统计学习的强化学习研究

基本信息

  • 批准号:
    20700208
  • 负责人:
  • 金额:
    $ 1.91万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2008
  • 资助国家:
    日本
  • 起止时间:
    2008 至 2009
  • 项目状态:
    已结题

项目摘要

多くの強化学習法では、ある状態である行動を取ることの将来的な良さを表す「価値関数」を近似する必要がある。最も広く行われている方法は、価値関数をパラメータと基底関数の内積で表現する線形関数近似を行う方法である。基底関数は設計者の試行錯誤により得られる。自動的に基底関数を構築する方法もあるが、非常に大きな計算コストが掛かる。我々は、価値関数の近似誤差を逐次的に減少させる近似法を提案しており、本年度は主にこの業績化に取り組んだ。この方法は、設計者の事前の試行錯誤を必要とせず、また、計算コストも小さくて済む。基本的なアルゴリズムを国際会議論文として業績化し、それをロバストに改良したアルゴリズムについても国際会議論文として業績化した。アルゴリズムの性質を理論面および実験面においてより深め学術論文誌へ投稿したがまだ採録に至っていない。アルゴリズム全2体の統計的な性質をクリアにすることで、さらなる業績化が可能と考えている。また、これまでに考案してきた統計的学習に基づく種々の強化学習アルゴリズムを、本科研費で購入した実機ロボットへ適用し学習を試みた。具体的には、レゴマインドストームを用いて二輪型ロボットを作製し、そのバランシングを新たな強化学習法を用いて行った。二輪型ロボットのバランシングを自動調整することは、自転車やバイクにおける個々人の運転の快適性を向上させることに貢献し、さらには事故率の低減にも繋がると考えている。
The reinforcement learning method of many くの, the state of であるaction をtake ることのthe future なgood さを table す「価値夤数」をapproximate するnecessary がある. The most suitable method is the linear closed number approximation method, and the inner product of the base close number is the linear close number approximation method. The basic levels are based on trial and error by the designer. Automatic basic level number construction method and very large calculation method. We will gradually reduce the approximation error of the 䡡夤 relationship and propose a proposal for the approximation method, and the results will be optimized for the current year.このmethod, designer's trial and error beforehand, necessary とせず, また, calculation コストも小さくて済む. Basic なアルゴリズムをInternational Conference PaperとしてPerformanceし、それをロバストに Improvement したアルゴリズムについてもInternational Conference Paper としてPerformance した.アルゴリズムの性をTheoretical surface および実験面においてよりdeep めAcademic paper journal へContribution したがまだCollection に to っていない. The nature of the statistics of all アルゴリズムをクリアにすることで and the performance of さらなる is possible and the test is done.また、これまでにtest caseしてきたstatistical learningにbasedづくkind々のreinforcement learningアルゴリズムを、Undergraduate research funds are not purchased and the machine is applied to study and test. Specifically, the two-wheel type には and レゴマインドストームを are used Make a new reinforcement learning method using a new method. Two-wheeled type ロボットのバランシングをautomatic adjustment wheel, self-propelled bicycle wheel The adaptability of the operation is improved and the accident rate is reduced, and the accident rate is reduced and the system is tested.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Self-organized reinforcement learning based on policy gradient in nonstationary environment
非平稳环境下基于策略梯度的自组织强化学习
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Maruyama;T;Matsuura;M.;Suzuki;K.;Yamamoto;N;Y. Taniguchi;Y. Hiei
  • 通讯作者:
    Y. Hiei
A semiparametric statistical approach to model-free policy evaluation
  • DOI:
    10.1145/1390156.1390291
  • 发表时间:
    2008-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tsuyoshi Ueno;M. Kawanabe;Takeshi Mori;S. Maeda;S. Ishii
  • 通讯作者:
    Tsuyoshi Ueno;M. Kawanabe;Takeshi Mori;S. Maeda;S. Ishii
Robust approximation in decomposed reinforcement learning
分解强化学习中的鲁棒逼近
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T.Mori;S.Ishii
  • 通讯作者:
    S.Ishii
A continuous internal-state controller for partially observable Markov decision processes
用于部分可观察马尔可夫决策过程的连续内部状态控制器
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Maruyama T;Matsuura M;Suzuki K;Yamamoto N;山口 真美;Y,Taniguchi
  • 通讯作者:
    Y,Taniguchi
An Additive Reinforcement Learning
  • DOI:
    10.1007/978-3-642-04274-4_63
  • 发表时间:
    2009-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Takeshi Mori;S. Ishii
  • 通讯作者:
    Takeshi Mori;S. Ishii
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

森 健其他文献

生体分子の効率的捕捉・送達のための高分子ナノカプセルの開発
开发用于有效捕获和递送生物分子的聚合物纳米胶囊
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岸村 顕広;秦 智貴;唐 ヘン敏;劉 一イ;森 健;片山 佳樹
  • 通讯作者:
    片山 佳樹
酵素増感反応による低発現膜タンパク質の検出を目指したキノンメチド型蛍光基質の開発
酶敏反应检测低表达膜蛋白的醌甲基化物型荧光底物的研制
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    桝井 美咲;小野 啓一郎;野口 克也;下村 隆;大内 雄也;石山 宗孝;志賀 匡宣;上野 右一郎;岸村 顕広;森 健;片山 佳樹
  • 通讯作者:
    片山 佳樹
方策こう配法に基づく強化学習法と二足歩行運動制御への応用
基于策略梯度法的强化学习方法及其在双足运动控制中的应用
An improvement key deletiob method for double-array structure using single-nodes
一种改进的单节点双数组结构关键删除方法
ジアミンオキシダーゼ封入PICsomeの開発とヒスタミン分解・除去機能の評価
二胺氧化酶封装的PICsome的开发及组胺分解/去除功能的评价
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    唐 衡敏;森 健;田中智之;片山佳樹;岸村顕広
  • 通讯作者:
    岸村顕広

森 健的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('森 健', 18)}}的其他基金

抗体医薬を真に置き換える小タンパク質医薬の開発
开发真正替代抗体药物的小蛋白药物
  • 批准号:
    23K21153
  • 财政年份:
    2024
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
膜タンパク質のノックダウンを可能にする新しい創薬概念の提案
提出一种能够敲除膜蛋白的新药物发现概念
  • 批准号:
    21K19054
  • 财政年份:
    2021
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
抗体医薬を真に置き換える小タンパク質医薬の開発
开发真正替代抗体药物的小蛋白药物
  • 批准号:
    21H02061
  • 财政年份:
    2021
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
金融機関とのリレーションシップが企業の経営危機に与える影響-距離からのアプローチ
与金融机构的关系对企业管理危机的影响——远程方法
  • 批准号:
    22530382
  • 财政年份:
    2010
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
方策勾配法に基づく強化学習法と複雑システム制御への応用
基于策略梯度法的强化学习方法及其在复杂系统控制中的应用
  • 批准号:
    05J02773
  • 财政年份:
    2005
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
導電性高分子のひも状集合体を化学架橋により固定化・被覆したナノ導線の開発
开发具有化学交联固定和涂覆的导电聚合物绳状聚集体的纳米导线
  • 批准号:
    14750711
  • 财政年份:
    2002
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
感熱性ポリマー・DNA複合体の開発と遺伝子診断ならびにDDSへの応用
热敏聚合物/DNA复合物的开发及其在基因诊断和DDS中的应用
  • 批准号:
    99J03315
  • 财政年份:
    1999
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
超塩基性岩の化学的カイネティクスと組織
超镁铁质岩石的化学动力学和结构
  • 批准号:
    58540518
  • 财政年份:
    1983
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)
バウシンガー効果の転位構造依存性
包辛格效应对位错结构的依赖性
  • 批准号:
    X00210----575436
  • 财政年份:
    1980
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
部分融解の状態にある岩石の組織, およびマグマの発生と分離の研究
岩石部分熔融状态结构及岩浆生成与分离研究
  • 批准号:
    X00090----554258
  • 财政年份:
    1980
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)

相似海外基金

複雑系科学の基礎理論と統計的学習論の統合による燃焼振動の時空ダイナミクスの解明
结合复杂系统科学基础理论和统计学习理论阐明燃烧振荡的时空动力学
  • 批准号:
    23K22691
  • 财政年份:
    2024
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
統計的学習を用いた非線形計量経済モデルの新展開と金融・経済リスク評価への応用
利用统计学习的非线性计量经济模型的新发展及其在金融和经济风险评估中的应用
  • 批准号:
    24H00142
  • 财政年份:
    2024
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Structural statistical learning of heterogeneous preferences for smart energy choices with a case study on coordinated electric vehicle charging
智能能源选择异构偏好的结构统计学习以及协调电动汽车充电的案例研究
  • 批准号:
    2342215
  • 财政年份:
    2024
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Continuing Grant
CAREER: New Frameworks for Ethical Statistical Learning: Algorithmic Fairness and Privacy
职业:道德统计学习的新框架:算法公平性和隐私
  • 批准号:
    2340241
  • 财政年份:
    2024
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Continuing Grant
Bayesian Statistical Learning for Robust and Generalizable Causal Inferences in Alzheimer Disease and Related Disorders Research
贝叶斯统计学习在阿尔茨海默病和相关疾病研究中进行稳健且可推广的因果推论
  • 批准号:
    10590913
  • 财政年份:
    2023
  • 资助金额:
    $ 1.91万
  • 项目类别:
Collaborative Research: The computational and neural basis of statistical learning during musical enculturation
合作研究:音乐文化过程中统计学习的计算和神经基础
  • 批准号:
    2242084
  • 财政年份:
    2023
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Standard Grant
Doctoral Dissertation Research: The Effects of Language Experience on Statistical Learning in Infants and Adults
博士论文研究:语言体验对婴儿和成人统计学习的影响
  • 批准号:
    2234422
  • 财政年份:
    2023
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Standard Grant
Interpretable Bayesian Non-linear statistical learning models for multi-omics data integration
用于多组学数据集成的可解释贝叶斯非线性统计学习模型
  • 批准号:
    10714882
  • 财政年份:
    2023
  • 资助金额:
    $ 1.91万
  • 项目类别:
The role of statistical learning in predicting child language outcomes.
统计学习在预测儿童语言结果中的作用。
  • 批准号:
    10810207
  • 财政年份:
    2023
  • 资助金额:
    $ 1.91万
  • 项目类别:
CAREER: Statistical Learning with Recursive Partitioning: Algorithms, Accuracy, and Applications
职业:递归分区的统计学习:算法、准确性和应用
  • 批准号:
    2239448
  • 财政年份:
    2023
  • 资助金额:
    $ 1.91万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了