多腕バンディット問題における最適戦略の構成と発展

多臂老虎机问题最优策略的构建和发展

基本信息

  • 批准号:
    25880006
  • 负责人:
  • 金额:
    $ 1.58万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
  • 财政年份:
    2013
  • 资助国家:
    日本
  • 起止时间:
    2013-08-30 至 2015-03-31
  • 项目状态:
    已结题

项目摘要

本研究は,知識の探索と活用のジレンマをモデル化したものである多腕バンディット問題において,達成可能な効率の理論限界を探り,またその理論限界を達成する戦略を具体的に構成することを目標に行った.この問題は古くから知られており,特に近年ではウェブ上の広告表示やネットワークルーティングといった問題に直接応用できることから盛んに研究されているが,一方,従来研究で提案された戦略でその最適性が保証されているのは一部の非常に単純な確率分布モデルに限られていた.そこで本年度の研究においては,報酬のサポートの下限のみが既知という極めて一般的なノンパラメトリックモデルにおける理論限界を導出し,さらにそれを達成する戦略の提案を行った.これまでに理論限界の達成可能性が知られていたのは確率分布のパラメータ空間が1次元あるいはコンパクトな場合に限られており,それらの手法を無限次元かつ非コンパクトである今回のモデルに直接適用するのは困難であったが,本研究ではダイバージェンス最小化の双対問題を経由して1次元モデルに近い問題への帰着を行うことにより証明を行った.さらに,従来示されていた漸近最適戦略は,プレイ回数nに対する損失のうちO(log n)の項までの意味では最適であったが,それより高次の項がo(log n)ではあるものの無限大に発散するものであった.一方,この高次項はO(1)とできることが様々な研究から実験的には示唆されており,この点で従来の理論研究と実験の間にはギャップがあった.そこで,本研究では確率過程の理論のうちマルチンゲールの停止時刻に関する結果を応用することで,O(1)の損失が達成可能であることを新たに示した.この研究の結果は機械学習の論文誌Journal of Machine Learning Researchに現在投稿中である.
This study aims to explore the application of knowledge and to explore the theoretical limits of the possibility of achieving the theoretical limits. This problem has been solved in the past, especially in recent years. The problem of direct application has been solved in the past. On the one hand, the problem of optimization has been solved in the future. On the other hand, the problem of extreme purity has been solved in the future. This year's study is aimed at deriving the theoretical limits of compensation from the known lower limit of compensation and achieving the proposed strategy. The probability of reaching the theoretical limit is known, the accuracy of the distribution is determined, the space is 1-dimensional, the method is infinite, the time is not constant, and the method is directly applicable. In this paper, we study the problem of minimizing the two-dimensional problem from the first dimension to the second dimension. The term O(log n) of the loss is the optimal term, and the term O(log n) of the higher order is the optimal term. A party, the higher order term O(1) This paper presents a new method for determining the theoretical value of the probability process. Journal of Machine Learning Research.

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
知識の探索と活用のジレンマと多腕バンディット問題
知识探索与利用的困境与多臂老虎机问题
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Mianxiong Dong;Kaoru Ota;and Motoki Sakai;本多淳也
  • 通讯作者:
    本多淳也
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

本多 淳也其他文献

Brittle-ductile transition in porous tuff breccia from the Miocene Anamizu Formation, Noto Peninsula: constrains from tri-axial deformation experiments
能登半岛中新世穴水组多孔凝灰岩角砾岩的脆性转变:来自三轴变形实验的约束
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田畑 公次;中村 篤祥;本多 淳也;小松崎 民樹;Kazuo Mizoguchi,Sachiko Iizuka;Tamiki Komatsuzaki;Shin-ichi Uehara,Takahiro Iida,Kazuo Mizoguchi
  • 通讯作者:
    Shin-ichi Uehara,Takahiro Iida,Kazuo Mizoguchi
The relationship between mechanical behaviors and surface roughness of submeter-sized granite sample in bi-axial friction experiments
亚米级花岗岩试样双轴摩擦力学行为与表面粗糙度的关系
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田畑 公次;中村 篤祥;本多 淳也;小松崎 民樹;Kazuo Mizoguchi,Sachiko Iizuka
  • 通讯作者:
    Kazuo Mizoguchi,Sachiko Iizuka

本多 淳也的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('本多 淳也', 18)}}的其他基金

バンディット問題における最適性達成のためのランダム方策の発展と解析
开发和分析随机策略以实现老虎机问题的最优性
  • 批准号:
    21K11747
  • 财政年份:
    2021
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
数理最適化手法に基づく符号化・復号化手法の理論解析および実用化に関する研究
基于数学优化方法的编解码方法理论分析与实际应用研究
  • 批准号:
    11J06131
  • 财政年份:
    2011
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

REU Site: DRUMS Directed Research for Undergraduates in Math and Statistics
REU 网站:DRUMS 为数学和统计学本科生指导的研究
  • 批准号:
    2349611
  • 财政年份:
    2024
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Continuing Grant
Conference: Theory and Foundations of Statistics in the Era of Big Data
会议:大数据时代的统计学理论与基础
  • 批准号:
    2403813
  • 财政年份:
    2024
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Standard Grant
確率統計学を用いた深層学習モデルの汎化性能の解析
使用概率统计分析深度学习模型的泛化性能
  • 批准号:
    24KJ0933
  • 财政年份:
    2024
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
球面上のデザイン理論と方向統計学の融合
球形设计理论与方向统计的融合
  • 批准号:
    24K06871
  • 财政年份:
    2024
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
多様体上の統計学、コピュラ、時系列解析に関する研究
流形、copula 和时间序列分析统计研究
  • 批准号:
    24K14858
  • 财政年份:
    2024
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
学習の躓きを診断し克服するための統計学的方法:デジタル問題集の基盤開発と実践
诊断和克服学习障碍的统计方法:数字问题集的基本开发和实施
  • 批准号:
    23K20759
  • 财政年份:
    2024
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
空間統計学と機械学習の融合による時空間回帰の開発・ツール化
结合空间统计和机器学习进行时空回归的开发和工具
  • 批准号:
    24K00175
  • 财政年份:
    2024
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
数論的不変式論の深化と数論統計学
深化算术不变量理论和算术统计
  • 批准号:
    23K22386
  • 财政年份:
    2024
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
深層・統計学習と非平衡系物理の理論に基づく文化と知能の進化モデルの研究
基于深度统计学习和非平衡物理理论的文化与智能进化模型研究
  • 批准号:
    23K24917
  • 财政年份:
    2024
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
TRACK-UK: Synthesized Census and Small Area Statistics for Transport and Energy
TRACK-UK:交通和能源综合人口普查和小区域统计
  • 批准号:
    ES/Z50290X/1
  • 财政年份:
    2024
  • 资助金额:
    $ 1.58万
  • 项目类别:
    Research Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了