マルコフ決定過程における分散および期待効用に関する最適化の研究

马尔可夫决策过程中方差与期望效用的优化研究

基本信息

  • 批准号:
    08640284
  • 负责人:
  • 金额:
    $ 0.19万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    1996
  • 资助国家:
    日本
  • 起止时间:
    1996 至 无数据
  • 项目状态:
    已结题

项目摘要

マルコフ決定過程(MDP)の期待値最大化の下での分散最小化に関して次の結果を得た。MDPを可算状態空間S,有限決定空間A(i),推移確率p=(p(a)_<ij>;i,j∈S),一様有界な直接利得{r(i,a);i∈S,a∈A(i)}で定義する。政策をπ=(π_0,π_1,…),特に定常政策をfで表わす。初期状態i∈Sと政策πによって定まる標本空間上の確率をP^π_iとし,P^π_iによる期待値と分散を,それぞれE^π_i(・),V^π_i(・)と表わす。平均期待利得と(平均)分散をx(i,π)=<lim inf>___<n→∞>1/(n+1)E^π_i[Σ^^n__<k-0>r(X_k,Δ_k)],ψ(i,π)=<lim sup>___<n→∞>1/(n+1)V^π_i[Σ^^n__<k=0>r(X_k,Δ_k)]によって定義する。x(i,π^*)=max{x(i,π);πはすべての政策}を満たすπ^*を平均最適政策と呼ぶ。Theorem 1.定数b>0と状態0∈Sが存在して,任意の定常政策fに対してm(f)_<i0>=Σ^^∞__<n-1>nP^f_i(X_k≠0 for 1【less than or equal】k<n,X_n=0)【less than or equal】bが成立すると仮定する。(i)定常政策f^〜が存在して、政策πが任意のi∈Sについて<lim>___<n→∞>1/(n+1)V^π_i(Σ^^n__<k0>(〓(X_k,Δ_k))=0かつ<lim sup>___<n→∞>1/(n+1)Σ^^n__<k-0>E^π_i(〓^〜(X_k,Δ_k))【greater than or equal】0を満たせば,ψ(i,f^〜)【less than or equal】ψ(i,π)。(ここで,〓,〓^〜は,それぞれx(i,π),ψ(i,π)に関する最適方程式から得られる関数。)(ii)Sが有限ならば、(i)のf^〜は,平均最適政策の中で最小の分散を与える。また,(iii)ψ(i,f)をdeviation行列を使ってexplicitに求めた。(iv)過渡的状態i∈Sから出発して2つ以上の再帰的クラスに到達するとき,ψ(i,f)=∞となることを示した。上記では,r(i,a)は関数であるが,これを確率変数として与えた場合にも、類似の結果が得られることを示した。
Maximizing the expected value and minimizing the dispersion of the MDP results are obtained. MDP is computable state space S, finite decision space A(i), transition certainty p=(p(a)_<ij>;i,j∈S), all bounded direct gains {r(i,a);i∈S,a∈A(i)} are defined. Policy π=(π_0,π_1,…), especially steady policy π f. The initial state i∈S and policy πAverage expected gain (average) dispersion x(i,π)=<lim inf>__&lt;n→∞&gt;1/(n+1)E^π_i[Σ^^n_<k-0>r(X_k,Δ_k)], φ (i,π)=<lim sup>__&lt;n→∞&gt;1/(n+1)V^π_i[Σ^^n_&lt;k=0&gt;r(X_k,Δ_k)]. x(i,π^*)=max{x(i,π);πTheorem 1. A fixed number b&gt;0 and a state 0∈S exist, and any steady state policy f corresponds to m(f)_<i0>=Σ^∞__<n-1>nP^f_i(X_k≠0 for 1 [less than or equal] k&lt;n,X_n=0)[less than or equal] b holds. (i)The constant policy f^~ always exists, the policy π is arbitrary i∈S_<lim>_&lt;n→∞&gt;1/(n+1)V^π_i(Σ^^n__<k0>((X_k,Δ_k))=0_<lim sup>_&lt;n→∞&gt;1/(n+1)Σ^^n__<k-0>E^π_i(^~(X_k,Δ_k))[greater than or equal] 0, psi (i,f^~)[less than or equal] psi (i,π). (,^~, x(i,π), φ (i,π) (ii)S The average optimal policy is the smallest dispersion.また,(iii)ψ(i,f)をdeviation行列を使ってexplicitに求めた。(iv)The transition state i∈S starts from the beginning and ends from the beginning to the end. The transition state i ∈ S starts from the beginning and ends from the end. The transition state i ∈ S starts from the end and ends from the end. The transition state i ∈ (i,f)=∞. Note that r(i,a) is the correct number of times, and similar results are obtained.

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
片山聡一郎: "非線型Klein-Gordon方程式の大域解の存在に対する一注意" 数理解析研究所講究録969. 969. 168-177 (1996)
Soichiro Katayama:“关于非线性 Klein-Gordon 方程全局解的存在性的说明”数学分析研究所学报 969. 969. 168-177 (1996)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
S.Katayama: "Global existence for systems of nonlinear wave equations in two space dimmensions,II" Publications of the Research Institute for Mathematical Sciences,Kyoto University. 31. 645-665 (1995)
S.Katayama:“两个空间维度中非线性波动方程组的全局存在性,II”京都大学数学科学研究所出版物。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Y.Kadota: "Simultaneous recurrent conditions on countable state Markov chains" Journal of Information and Optimization Sciences. 17,2. 397-407 (1996)
Y.Kadota:“可数状态马尔可夫链上的同时循环条件”信息与优化科学杂志。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.Morisugi,H.Oshima: "Note on reflection maps and self maps of U(n),Sp(n)and U(2n)/Sp" Journal of Mathematics in Kyoto University. 36,1. 143-149 (1996)
K.Morisugi,H.Oshima:“关于 U(n)、Sp(n) 和 U(2n)/Sp 的反射图和自图的注释”京都大学数学杂志。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.Morisugi,H.Oshima: "Cohomology classification of self maps of sphere bundles over spheres" Publications of the Research Institute for Mathematical Sciences,Kyoto University. 32,1. 163-189 (1996)
K.Morisugi,H.Oshima:“球体上球丛自映射的上同调分类”,京都大学数学科学研究所出版物。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

門田 良信其他文献

Fuzzy stopping problems in continuous-time fuzzy stochastic systems
连续时间模糊随机系统中的模糊停止问题
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    門田 良信;蔵野正美(共著);吉田祐治(共著)
  • 通讯作者:
    吉田祐治(共著)
Regret-optimality equation in semi-MDPs with an absorbing set
具有吸收集的半 MDP 中的遗憾最优方程
DISCOUNTED MARKOV DECISION PROCESSES WITH GENERAL UTILITY FUNCTIONS(Optimization Theory and its Applications in Mathematical Systems)
具有一般效用函数的贴现马尔可夫决策过程(最优化理论及其在数学系统中的应用)
  • DOI:
  • 发表时间:
    1995
  • 期刊:
  • 影响因子:
    0
  • 作者:
    門田 良信;蔵野 正美;安田 正実
  • 通讯作者:
    安田 正実

門田 良信的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('門田 良信', 18)}}的其他基金

確率的多段決定過程における期待効用と危険度の最適化に関する研究
随机多阶段决策过程中期望效用与风险优化研究
  • 批准号:
    07640307
  • 财政年份:
    1995
  • 资助金额:
    $ 0.19万
  • 项目类别:
    Grant-in-Aid for General Scientific Research (C)

相似国自然基金

时空分辨核酸生物传感在亚细胞水平光电双模态精准测量
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
水凝胶改性陶瓷人工关节牢固结合界面的构筑与减磨润滑机理研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
锆酸铅基反铁电体畴动力学及其调控机理研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
USP7维持FADS2蛋白质稳态调控线粒体重编程驱动三阴性乳腺癌的转移
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
载铁生物炭对土壤镉污染的吸附固定及微生物协同作用机制研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
SREBP转录因子BbSre1负调控球孢白僵菌抗真菌物质产生的机制研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
面向截肢患者运动感知重建的肌电假肢手关节运动反馈时变编码研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
载鸢尾素层层自组装二氧化钛纳米管材料促进糖尿病骨缺损修复及机制研
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
多源数据融合的内外激励耦合下电驱动系统非平稳非高斯服役载荷谱高保
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
面向水质应急快检的碳点/微流控限域增强发光传感研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目

相似海外基金

An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
  • 批准号:
    2901954
  • 财政年份:
    2028
  • 资助金额:
    $ 0.19万
  • 项目类别:
    Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
  • 批准号:
    2896097
  • 财政年份:
    2027
  • 资助金额:
    $ 0.19万
  • 项目类别:
    Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
  • 批准号:
    2780268
  • 财政年份:
    2027
  • 资助金额:
    $ 0.19万
  • 项目类别:
    Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
  • 批准号:
    2908918
  • 财政年份:
    2027
  • 资助金额:
    $ 0.19万
  • 项目类别:
    Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
  • 批准号:
    2908693
  • 财政年份:
    2027
  • 资助金额:
    $ 0.19万
  • 项目类别:
    Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
  • 批准号:
    2908917
  • 财政年份:
    2027
  • 资助金额:
    $ 0.19万
  • 项目类别:
    Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
  • 批准号:
    2879438
  • 财政年份:
    2027
  • 资助金额:
    $ 0.19万
  • 项目类别:
    Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
  • 批准号:
    2890513
  • 财政年份:
    2027
  • 资助金额:
    $ 0.19万
  • 项目类别:
    Studentship
CDT year 1 so TBC in Oct 2024
CDT 第 1 年,预计 2024 年 10 月
  • 批准号:
    2879865
  • 财政年份:
    2027
  • 资助金额:
    $ 0.19万
  • 项目类别:
    Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
  • 批准号:
    2876993
  • 财政年份:
    2027
  • 资助金额:
    $ 0.19万
  • 项目类别:
    Studentship
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了