バンディット問題における最適性達成のためのランダム方策の発展と解析

开发和分析随机策略以实现老虎机问题的最优性

基本信息

  • 批准号:
    21K11747
  • 负责人:
  • 金额:
    $ 2.58万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

本年度はバンディット問題におけるランダム方策のうち,特に敵対的バンディットとよばれる設定に対して頑健な方策の構築と解析を主に行った。敵対的バンディットとは報酬が一定の確率分布からではなく敵対者によって生成される設定で、確率的・敵対的両方の設定で同時に最適オーダーを達成する方策はBest-Of-Both-Worlds (BOBW)とよばれる。これらは敵対的設定に対応するためにランダム方策を用いることが本質的に必要となる。これらに対して、本研究では敵対的設定においても報酬の分散情報を活用可能なBOBW方策を新たに提案し、各設定に特化した方策に比べて損失が高々2倍程度で抑えられることを証明した。この結果は学習理論のトップ会議COLT2022に採録された。次に、バンディット問題を一般化した問題クラスとしてグラフフィードバック付きバンディットや部分観測問題とよばれる設定が知られている。本研究ではこれらの設定に対して「最適化による探索」とよばれる近年別の文脈で知られるようになった手法を取り入れることでBOBW方策を新たに構成した。この結果は機械学習のトップ会議NeurIPS2022および学習理論のトップ会議ALT2023に採録された。上記のBOBW方策はいずれもランダム選択の確率分布を時刻ごとに最適化計算によって求める必要があった。これに対して、最適化計算の不要なランダム方策であるFollow-The-Perturbed-Leader (FTPL)がBOBW性を達成可能であるかは長年未解決であったが、本研究では対称多項式に関する代数的な手法を用いることでこの問題を肯定的に解決した。この結果はALT2023に採録された。その他、最適腕識別とよばれる設定に対してランダム方策を含む一般の方策に対する理論限界を新たに構築した。この結果はNeurIPS2022に採録された。
This year は バ ン デ ィ ッ ト problem に お け る ラ ン ダ ム order の う ち, trevor に enemy of seaborne バ ン デ ィ ッ ト と よ ば れ る set に し seaborne て robust な order の build と parsing を main line に っ た. Enemy Of seaborne バ ン デ ィ ッ ト と は が must の remuneration Of probabilistic distribution か ら で は な く enemy who seaborne に よ っ て generated さ れ る set で, probabilistic, enemy struck party の seaborne set at the same time で に optimum オ ー ダ ー を reached す る order は Best - Of - Both - Worlds (BOBW) と よ ば れ る. こ れ ら は enemy set に seaborne seaborne 応 す る た め に ラ ン ダ ム order を with い る こ と が nature に necessary と な る. こ れ ら に し seaborne て, this study で は enemy set seaborne に お い て も の scattered intelligence を remuneration may use な BOBW order を new た に proposal し, each set に specialized し た order に than べ て loss が 々 2 times higher degree で え suppression ら れ る こ と を prove し た. The <s:1> results of the トップ learning theory トップ were recorded at the COLT2022に された. に, バ ン デ ィ ッ ト problem を generalization し た problem ク ラ ス と し て グ ラ フ フ ィ ー ド バ ッ ク pay き バ ン デ ィ ッ ト や 観 test questions と よ ば れ る set が know ら れ て い る. This study で は こ れ ら の set に し seaborne て "optimization に よ る explore" と よ ば れ る in recent years, don't know の context で ら れ る よ う に な っ た gimmick を take り れ る こ と で BOBW order を new た に constitute し た. こ の results は rote learning の ト ッ プ meeting NeurIPS2022 お よ び learning theory の ト ッ プ meeting ALT2023 に transcribing さ れ た. Written の BOBW order は い ず れ も ラ ン ダ ム sentaku の を moment of probabilistic distribution ご と に optimization calculation に よ っ て o め る necessary が あ っ た. こ れ に し seaborne て, optimization calculation の don't な ラ ン ダ ム order で あ る Follow - The - Perturbed - Leader (FTPL) が BOBW sex を a possible で あ る か は long unresolved で あ っ た が, this study で は polices according to polynomial に masato す る algebra な gimmick を with い る こ と で こ の を affirmative に solve し た. <s:1> the result is された ALT2023に recorded された. そ の wrist of him, and the optimum recognition と よ ば れ る set に し seaborne て ラ ン ダ ム order を contained む generally の order に す seaborne る theory limit を new た に build し た. <s:1> the results are に NeurIPS2022に and された.

项目成果

期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Bayesian optimization with partially specified queries
使用部分指定查询的贝叶斯优化
  • DOI:
    10.1007/s10994-021-06079-3
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    7.5
  • 作者:
    Shogo Hayashi;Junya Honda;Hisashi Kashima
  • 通讯作者:
    Hisashi Kashima
汎用的な逐次意思決定アルゴリズムに向けて
迈向通用顺序决策算法
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kentaro Kikuchi;Takahito Aoto;本多淳也
  • 通讯作者:
    本多淳也
Mediated Uncoupled Learning: Learning Functions without Direct Input-output Correspondences
  • DOI:
  • 发表时间:
    2021-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ikko Yamane;J. Honda;F. Yger;Masashi Sugiyama
  • 通讯作者:
    Ikko Yamane;J. Honda;F. Yger;Masashi Sugiyama
Follow-the-Perturbed-Leader Achieves Best-of-Both-Worlds for Bandit Problems
跟随不安的领导者在解决强盗问题方面取得了两全其美的效果
Nearly Optimal Best-of-Both-Worlds Algorithms for Online Learning with Feedback Graphs
带反馈图的在线学习的近乎最优的两全其美算法
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

本多 淳也其他文献

Brittle-ductile transition in porous tuff breccia from the Miocene Anamizu Formation, Noto Peninsula: constrains from tri-axial deformation experiments
能登半岛中新世穴水组多孔凝灰岩角砾岩的脆性转变:来自三轴变形实验的约束
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田畑 公次;中村 篤祥;本多 淳也;小松崎 民樹;Kazuo Mizoguchi,Sachiko Iizuka;Tamiki Komatsuzaki;Shin-ichi Uehara,Takahiro Iida,Kazuo Mizoguchi
  • 通讯作者:
    Shin-ichi Uehara,Takahiro Iida,Kazuo Mizoguchi
The relationship between mechanical behaviors and surface roughness of submeter-sized granite sample in bi-axial friction experiments
亚米级花岗岩试样双轴摩擦力学行为与表面粗糙度的关系
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    田畑 公次;中村 篤祥;本多 淳也;小松崎 民樹;Kazuo Mizoguchi,Sachiko Iizuka
  • 通讯作者:
    Kazuo Mizoguchi,Sachiko Iizuka

本多 淳也的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('本多 淳也', 18)}}的其他基金

多腕バンディット問題における最適戦略の構成と発展
多臂老虎机问题最优策略的构建和发展
  • 批准号:
    25880006
  • 财政年份:
    2013
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
数理最適化手法に基づく符号化・復号化手法の理論解析および実用化に関する研究
基于数学优化方法的编解码方法理论分析与实际应用研究
  • 批准号:
    11J06131
  • 财政年份:
    2011
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

AIの全方位社会実装を達成する継続的能動学習理論の構築
构建持续主动学习理论,实现AI全方位社会落地
  • 批准号:
    24KJ0324
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ナビゲーション機能を有する量子統計的機械学習理論の実現とその実践
具有导航功能的量子统计机器学习理论的实现及其实现
  • 批准号:
    23K24912
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
代数幾何学の特異点論による機械学習理論の解析およびその応用
利用代数几何奇点理论分析机器学习理论及其应用
  • 批准号:
    24K15114
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
エッジAI時代の超低演算量・低容量化を実現する汎用深層学習理論の構築
构建通用深度学习理论,实现边缘AI时代超低计算复杂度和容量
  • 批准号:
    23K21676
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
物理と数学の協働による乱流クロージャー問題解決に向けた機械学習理論の創出
创建机器学习理论,通过物理和数学的协作解决湍流闭合问题
  • 批准号:
    24H00186
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
ノンパラメトリックな誤差構造を有する非集計交通需要学習理論の構築
非参数误差结构分类交通需求学习理论构建
  • 批准号:
    24K17363
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
ジャンプを含む確率過程の複雑な観測データに対する統計解析と新しい学習理論への応用
随机过程复杂观测数据的统计分析(包括跳跃)及其在新学习理论中的应用
  • 批准号:
    23K20809
  • 财政年份:
    2024
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
FW-HTF-P: Building Upon New Learning Theories To Attract And Retain The Skilled Workforce Of The Future In The Construction Trades
FW-HTF-P:以新的学习理论为基础,吸引和留住建筑行业未来的熟练劳动力
  • 批准号:
    2222763
  • 财政年份:
    2023
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Standard Grant
強化学習理論に基づく免疫系設計原理の解明
基于强化学习理论阐明免疫系统设计原理
  • 批准号:
    22KJ0632
  • 财政年份:
    2023
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
最適化と汎化を統合した深層学習理論の構築
构建整合优化和泛化的深度学习理论
  • 批准号:
    22KJ0903
  • 财政年份:
    2023
  • 资助金额:
    $ 2.58万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了