強化学習の統計学習による洗練化

使用统计学习改进强化学习

基本信息

  • 批准号:
    09J04237
  • 负责人:
  • 金额:
    $ 0.9万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
  • 财政年份:
    2009
  • 资助国家:
    日本
  • 起止时间:
    2009 至 2010
  • 项目状态:
    已结题

项目摘要

主に2つの実績を挙げた。いずれの実績においても,これまで明らかにされていなかった強化学習における価値関数推定の統計的性質を解明した点に主な意義と重要性である.1つめの実績は、セミパラメトリック統計による価値関数推定の統計的解釈である。システムを同定することなく、価値関数推定を行うモデルフリー型方策評価は、数理統計の立場からセミパラメトリックモデルのパラメータ推定問題として再定式化できる。セミパラメトリックモデルのパラメータ推定の一致推定量は推定関数法によって行われる。この研究では、推定関数に成り得る一般的な関数クラスを特定することで、モデルフリー方策評価において、一致推定量と成り得る推定量のクラスを特定した。また、そのクラスの漸近解析を通して、最小のパラメータ推定分散を実現する推定量を特定した。もうひとつの実績は、セミパラメトリックによる方策評価の枠組みを拡張し、推定した価値関数と真の価値関数との平均二乗誤差解析をリスクとしたリスク解析を行った。リスク解析をする場合、パラメータの推定誤差だけでなく,価値関数のモデルの近似誤差を評価する必要性がある。リスク解析より、ブートストラップを利用した推定量とモンテカルロを利用した推定量を比較した結果、モデルが正しい場合、ブートストラップを利用した推定量が、モンテカルロを利用した推定量の方より小さい平均二乗誤差を実現できるが、モデルが間違っている場合、モンテカルロによる推定量の方がより小さい平均二乗誤差を実現できることが分かった。
The Lord に2 に を挙げた the actual performance を挙げた. い ず れ の be performance に お い て も, こ れ ま で Ming ら か に さ れ て い な か っ た reinforcement learning に お け る 価 numerical masato several constructive の statistical properties of を interpret し た point に main な importance significance と で あ る. 1 つ め の be performance は, セ ミ パ ラ メ ト リ ッ ク statistical に よ る 価 numerical solution of masato several constructive の statistical 釈 で あ る. シ ス テ ム を with fixed す る こ と な く, 価 numerical masato line several constructive を う モ デ ル フ リ ー type order review 価 は, mathematical statistics の position か ら セ ミ パ ラ メ ト リ ッ ク モ デ ル の パ ラ メ ー タ presumption problem と し て to demean で き る. Youdaoplaceholder0, セ, パラメトリッ, モデ, モデ, パラメ, パラメ, タ, presumption of congruental presumption of a quantity, and presumption of a quantity related to the method of numbers によって. こ の research で は presumption, masato number was に into り る な masato number ク ラ ス を specific す る こ と で, モ デ ル フ リ ー order review 価 に お い て, consistent estimator と into り get る estimator の ク ラ ス を specific し た. ま た, そ の ク ラ ス の asymptotic analytical を tong し て, minimum の パ ラ メ ー タ presumption of dispersed を be presently す る estimator を specific し た. も う ひ と つ の be performance は, セ ミ パ ラ メ ト リ ッ ク に よ る order review 価 の 枠 group み を company, zhang し presumption, し た 価 numerical number of masato と is の 価 numerical number of masato と の mean squares error parsing を リ ス ク と し た リ ス ク parsing line を っ た. Analytical を リ ス ク す る occasions, パ ラ メ ー タ の presumption error だ け で な く, 価 numerical number of masato の モ デ ル の approximation error を review 価 す る necessity が あ る. Analytical よ リ ス ク り, ブ ー ト ス ト ラ ッ プ を using し た estimator と モ ン テ カ ル ロ を using し た estimator を compare し た results, モ デ ル が is し い occasions, ブ ー ト ス ト ラ ッ プ を using し た estimator が, モ ン テ カ ル ロ を using し た estimator の party よ り small さ い mean squares error を be presently で き る が, モ デ ル が breach between っ て い る Occasions, モ ン テ カ ル ロ に よ る estimator の party が よ り small さ い mean squares error を be presently で き る こ と が points か っ た.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
セミパラメトリック統計学の視点からのTD学習の一般化
半参数统计视角下TD学习的推广
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    植野剛;前田新一;川鍋一晃、石井信
  • 通讯作者:
    川鍋一晃、石井信
Generalized TD Learning
  • DOI:
    10.5555/1953048.2021063
  • 发表时间:
    2011-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tsuyoshi Ueno;S. Maeda;M. Kawanabe;S. Ishii
  • 通讯作者:
    Tsuyoshi Ueno;S. Maeda;M. Kawanabe;S. Ishii
Optimal Online Procedures for Model-Free Policy Evaluation
无模型政策评估的最佳在线程序
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    植野剛;前田新一;川鍋一晃、石井信;T.Ueno
  • 通讯作者:
    T.Ueno
Optimal online learning procedures for model-free policy evaluation
无模型政策评估的最佳在线学习程序
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T.Ueno;M.Kawanabe;S.Maeda;S.Ishii
  • 通讯作者:
    S.Ishii
価値関数推定におけるMSE解析
价值函数估计中的MSE分析
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ueno;T;Maeda;S.;Kawanabe;M;Shin Ishii;植野剛
  • 通讯作者:
    植野剛
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

植野 剛其他文献

植野 剛的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

Constructing large scale data sets, developing methods to analyze such data sets, and their empirical implementations
构建大规模数据集,开发分析此类数据集的方法及其实证实施
  • 批准号:
    23K17285
  • 财政年份:
    2023
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Pioneering)
Efficiency bound for moment restriction models with time series observations
具有时间序列观测值的矩限制模型的效率界限
  • 批准号:
    21K01427
  • 财政年份:
    2021
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Bias analysis for pharmacoepidemiological study using medical information database
使用医学信息数据库进行药物流行病学研究的偏差分析
  • 批准号:
    20K12709
  • 财政年份:
    2020
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Studies on statistical inference for ultra-high dimensional semiparametric models
超高维半参数模型统计推断研究
  • 批准号:
    20K11705
  • 财政年份:
    2020
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
大規模・高次元データを用いた計量経済分析における統計的推測法の開発
使用大规模、高维数据开发计量经济分析中的统计推断方法
  • 批准号:
    18K01541
  • 财政年份:
    2018
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A theory of statistical inference for semiparametric econometric models(Fostering Joint International Research)
半参数计量经济模型的统计推断理论(促进国际联合研究)
  • 批准号:
    16KK0074
  • 财政年份:
    2017
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Fund for the Promotion of Joint International Research (Fostering Joint International Research)
Studies on screening methods for data with ultra-high dimensional covariates
超高维协变量数据筛选方法研究
  • 批准号:
    16K05268
  • 财政年份:
    2016
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
行動経済学的知見と構造推定を利用した購買選択モデルの開発と応用
利用行为经济学知识和结构估计开发和应用购买选择模型
  • 批准号:
    16J05118
  • 财政年份:
    2016
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Econometrics for Policy Evaluation and its Application
政策评估的计量经济学及其应用
  • 批准号:
    15H03334
  • 财政年份:
    2015
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Estimation of Treatment Effects in the Presence of Interference
存在干扰时治疗效果的估计
  • 批准号:
    15K17039
  • 财政年份:
    2015
  • 资助金额:
    $ 0.9万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了