制約充足確率に基づく強化学習による組合せ最適化問題の解法に関する基礎的研究

基于约束满足概率的强化学习求解组合优化问题的基础研究

基本信息

  • 批准号:
    22K12158
  • 负责人:
  • 金额:
    $ 2.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

2022年度は、深層強化学習を実際の物流業務における配送時間制約付き配車計画問題に適用するための準備として、巡回セールスマン問題 (TSP) を深層強化学習を用いて解く手法おける報酬の改善方法について検討した。また、制約充足確率に拡張する予定である成功確率に基づく安全な強化学習の手法を深層強化学習に拡張する方法について検討した。実際の物流業務においては、複数の配送先が非常に近い位置にあることがある。配送先が離れている場合には経路を変更すると経路長が大きく変わるが、配送先が非常に近い位置にある場合には経路を変更しても経路長がほとんど変わらない。先行研究において提案された最短経路長を新しく作成した経路長の差分(改善分)を報酬とする手法においては、このような問題に対しては報酬が非常に小さくなり、学習が進まなくなってしまう。そこで本研究では、平方根を用いた報酬関数を導入することによって、1より小さい報酬を増加させるとともに1より大きい報酬を減少させる方法を開発した。この手法を実際の運送会社の配送経路探索問題に適用し、配送先が非常に近い位置に密集している問題において有効であることを確認した。この成果については、2023年6月に熊本で開催される2023年度人工知能学会全国大会(第37回)において発表する予定である。また、我々がこれまでに開発した成功確率に基づく安全な強化学習の手法 EQ を深層強化学習の手法である DQN をベースとして Variable Autoencoder (VAE) を用いて成功し続ける確率を推定する手法 DEQN に拡張した。この成果については、2022年度6月に京都で開催された2022年度人工知能学会全国大会(第36回)において発表した。
In 2022, deep reinforcement learning was used to solve the problem of distribution time constraint payment and allocation planning in the actual logistics business. For example, the adequacy ratio is determined by the success ratio, and the method of deep reinforcement learning is discussed. The logistics business is very close to each other. In the case of distribution, the route length is changed from large to small. In the case of distribution, the route length is changed from small to large. Study the shortest path length, create a new path length difference (improve the score), and find a way to solve the problem. This study explores ways to increase and decrease the square root of salary. This method is applicable to the distribution route of the transportation company, and the distribution is very close to the middle position. The results were announced in June 2023 in Kumamoto, and the 2023 National Congress of the Artificial Intelligence Society (37th) was scheduled to be held in June 2023. The method of Variable Autoencoder (VAE) is used to estimate the success rate of deep reinforcement learning. The results of this event were announced in Kyoto in June 2022 at the 2022 National Conference of the Society of Artificial Intelligence (36th).

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
DQNに基づく連続観測空間における安全な強化学習
基于DQN的连续观察空间安全强化学习
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    大橋 宥斗;松井 藤五郎;武藤 敦子;森山 甲一;犬塚 信博
  • 通讯作者:
    犬塚 信博
組合せ最適化におけるジャンピングとアテンションを用いたグラフニューラルネットワーク
在组合优化中使用跳跃和注意力的图神经网络
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    グェンフウ バオロン;松井 藤五郎;原 謙介
  • 通讯作者:
    原 謙介
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

松井 藤五郎其他文献

モデル植物の購買履歴からの変異体選択支援システム
基于模型工厂购买历史的变型选择支持系统
POSデータを用いた注文傾向による店舗間の関係分析
使用 POS 数据根据订单趋势分析商店之间的关系
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    安井 彰悟;武藤 敦子;森山 甲一;松井 藤五郎;犬塚 信博
  • 通讯作者:
    犬塚 信博
ネットワーク構造を導入したコミュニティ活動モデル
引入网络结构的社区活动模型
ネットワークパターンマイニングアルゴリズムの効率的実装
网络模式挖掘算法的高效实现
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    甲村 啓伍;武藤 敦子;松井 藤五郎;森山 甲一;犬塚 信博;李起春,鈴木祐介,内田智之,宮原哲浩;戸崎友斗,武藤敦子,森山甲一,犬塚信博
  • 通讯作者:
    戸崎友斗,武藤敦子,森山甲一,犬塚信博
Multi-Domain HMMsearch : マルチドメインを持つ遠縁なタンパク質のための相同性検索ツール
多域 HMMsearch:具有多个域的远缘相关蛋白质的同源搜索工具
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    瀬下 真吾;賀屋 秀隆;松井 藤五郎;朽津 和幸;大和田 勇人
  • 通讯作者:
    大和田 勇人

松井 藤五郎的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('松井 藤五郎', 18)}}的其他基金

ファイナンスにおける時系列解析のための強化学習に関する基礎的研究
强化学习在金融时间序列分析中的基础研究
  • 批准号:
    21700175
  • 财政年份:
    2009
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似海外基金

Toward Human-guided Safe Reinforcement Learning in the Real World
在现实世界中实现人类引导的安全强化学习
  • 批准号:
    DP240102349
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Discovery Projects
Reward Design for Safe Reinforcement Learning
安全强化学习的奖励设计
  • 批准号:
    2872672
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Studentship
SLES: SPECSRL: Specification-guided Perception-enabled Conformal Safe Reinforcement Learning
SLES:SPECSRL:规范引导的感知启用的共形安全强化学习
  • 批准号:
    2331783
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Standard Grant
An Abstraction-based Technique for Safe Reinforcement Learning
一种基于抽象的安全强化学习技术
  • 批准号:
    EP/X015823/1
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Research Grant
Safe Reinforcement Learning through Formal Methods
通过形式化方法进行安全强化学习
  • 批准号:
    558947-2021
  • 财政年份:
    2022
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Alexander Graham Bell Canada Graduate Scholarships - Doctoral
application of scalable safe reinforcement learning to high-risk robotics
可扩展安全强化学习在高风险机器人技术中的应用
  • 批准号:
    21J15633
  • 财政年份:
    2021
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
NSF-AoF: RI: Small: Safe Reinforcement Learning in Non-Stationary Environments With Fast Adaptation and Disturbance Prediction
NSF-AoF:RI:小型:具有快速适应和干扰预测功能的非平稳环境中的安全强化学习
  • 批准号:
    2133656
  • 财政年份:
    2021
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Standard Grant
Safe Reinforcement Learning through Formal Methods
通过形式化方法进行安全强化学习
  • 批准号:
    558947-2021
  • 财政年份:
    2021
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Alexander Graham Bell Canada Graduate Scholarships - Doctoral
CNS Core: Small: Online Safe Reinforcement Learning for Wireless Resource Allocation
CNS 核心:小型:用于无线资源分配的在线安全强化学习
  • 批准号:
    1910112
  • 财政年份:
    2019
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Standard Grant
Safe Reinforcement Learning with a Teacher
与老师一起安全强化学习
  • 批准号:
    542599-2019
  • 财政年份:
    2019
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Alexander Graham Bell Canada Graduate Scholarships - Master's
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了