学習時間を1/10にした学習手法の拡張によるロボット向けエッジAIの構築と評価
通过扩展学习方法构建和评估机器人边缘AI,将学习时间减少到1/10
基本信息
- 批准号:20K11943
- 负责人:
- 金额:$ 2.75万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2020
- 资助国家:日本
- 起止时间:2020-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
令和4年度は,連続状態行動空間を扱う強化学習エージェントの学習過程において,途中で学習が不安定化し,タスクの成功率が低下する問題の抑制と心理学に基づく学習効率の改善方法について研究を行った.また,昨年度に引き続き,AHPを用いた報酬設計の工夫による学習解の質の改善について検証した.具体的には,学習が不安定化する問題に対しては,連続状態行動空間を自律的に離散化しながら政策を学習する場合,遷移先の状態が1ステップ前の離散状態と同じ状態と判別する場合がある.この時,td誤差を計算すると,割引率があることから負の値になり,行動の評価が下がるため,収束していた政策を広げるように更新する.この理由により行動が不安定になる.特に,1ステップ当たりのエージェントの動作時間が短くなると,この影響が大きくなる.この問題を軽減することでタスクの成功率の低下を抑制した.次に,心理学において,複数のタスクを同時並行的に学習する方法がある.この仕組みをマルチタスクを扱う強化学習エージェントに適用することで,学習効率を高めることができるかをロボットを用いた学習実験によって検証した.AHPを用いた報酬設計については,迷路問題を扱う強化学習エージェントを用いてその効果を検証した.10×10の迷路問題に対して,ゴールへ到達することに加えて,より少ないステップ数で到達することを報酬として表現し学習した結果,ステップ数を評価に加えることによってゴール到達に要するステップ数が小さくなることを確認した.以上の研究に関して,学会で2件の口頭発表を行った.
In 2004, we conducted research on how to improve learning efficiency in psychology, and how to suppress the problem of unstable learning and low success rate. In the past year, we have introduced the concept of AHP, which is used to improve the quality of compensation design. Specifically, the problem of learning instability is related to the discretization of continuous state action space and self-discipline. In the case of policy learning, the discrete state before the transition state is determined. When the error is calculated, the cut rate is changed. The reason for this action is unstable. In particular, the action time of the first step is short and the impact is large. The problem of reducing the success rate of the project is to suppress it. Secondly, in psychology, there are many ways to learn multiple objects simultaneously and in parallel. This is the first time that a group of people has been involved in the study of reinforcement learning. The study efficiency is high. The study efficiency is high. The study The number of students arriving at the school is less than the number of students arriving at the school The above research is related to learning 2 oral presentations.
项目成果
期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
転移学習を用いた高次元状態空間での強化学習の高速化の検討
利用迁移学习加速高维状态空间强化学习的研究
- DOI:
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:Koutarou Matsumoto;Yasunobu Nohara;Mikako Sakaguchi;Yohei Takayama;Hidehisa Soejima and Naoki Nakashima;小谷直樹
- 通讯作者:小谷直樹
Reduction of Learning Time for Differential-Wheeled Mobile Robots by Knowledge Transfer for Real-Time Learning
通过实时学习的知识转移减少差动轮式移动机器人的学习时间
- DOI:10.5687/iscie.33.317
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:相川渉;三輪誠;佐々木裕;Y.Kato and T.Saeki;藤田浩輝,有吉雄哉,吉村康広,小川泰信,花田俊也;Kotani Naoki
- 通讯作者:Kotani Naoki
ロボット強化学習のための学習安定化の一手法
一种机器人强化学习的学习稳定方法
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Ryuichiro Higashinaka;Takashi Minato;Kurima Sakai;Tomo Funayama;Hiromitsu Nishizaki;Takayuki Nagai;小谷直樹
- 通讯作者:小谷直樹
階層意思決定法を用いた強化学習の報酬設計
使用分层决策方法进行强化学习的奖励设计
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Yamaguchi Tomohiro;Kawabuchi Yuto;Takahashi Shota;Ichikawa Yoshihiro;Takadama Keiki;根来 陸也,小谷 直樹
- 通讯作者:根来 陸也,小谷 直樹
二輪ロボットを用いた実時間学習に向けた検討
两轮机器人实时学习研究
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Matsumoto Koutarou;Nohara Yasunobu;Soejima Hidehisa;Yonehara Toshiro;Nakashima Naoki;Kamouchi Masahiro;小谷直樹
- 通讯作者:小谷直樹
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
小谷 直樹其他文献
小型ヒューマノイドロボットの行動学習
小型仿人机器人的行为学习
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
Rina Noguchi;Hideitsu Hino;村上隆夫;Hideitsu Hino;Hideitsu Hino;Hideitsu Hino;日野英逸;日野英逸;中田令子;Kensuke Koshijima;日野英逸(共著);小谷 直樹;小谷直樹,尾崎敦夫 - 通讯作者:
小谷直樹,尾崎敦夫
知識転移を用いた二輪ロボットの行動学習
使用知识迁移的两轮机器人的行为学习
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Rina Noguchi;Hideitsu Hino;村上隆夫;Hideitsu Hino;Hideitsu Hino;Hideitsu Hino;日野英逸;日野英逸;中田令子;Kensuke Koshijima;日野英逸(共著);小谷 直樹;小谷直樹,尾崎敦夫;小谷直樹,尾崎敦夫 - 通讯作者:
小谷直樹,尾崎敦夫
A Method of Knowledge Transfer by State Value for Reducing Learning Time
一种减少学习时间的状态值知识转移方法
- DOI:
10.1541/ieejeiss.137.1171 - 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Rina Noguchi;Hideitsu Hino;村上隆夫;Hideitsu Hino;Hideitsu Hino;Hideitsu Hino;日野英逸;日野英逸;中田令子;Kensuke Koshijima;日野英逸(共著);小谷 直樹 - 通讯作者:
小谷 直樹
知識転移型強化学習を用いた二輪ロボット のモータスキルの獲得
使用知识转移强化学习获得两轮机器人的运动技能
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Rina Noguchi;Hideitsu Hino;村上隆夫;Hideitsu Hino;Hideitsu Hino;Hideitsu Hino;日野英逸;日野英逸;中田令子;Kensuke Koshijima;日野英逸(共著);小谷 直樹;小谷直樹,尾崎敦夫;小谷直樹,尾崎敦夫;小谷直樹 - 通讯作者:
小谷直樹
小谷 直樹的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('小谷 直樹', 18)}}的其他基金
遺伝子工学に基づく肺保護タンパクを用いた新しい急性肺障害治療法の開発
使用基因工程肺保护蛋白开发新的急性肺损伤治疗方法
- 批准号:
17390424 - 财政年份:2005
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
全身麻酔時における肺胞マクロファージ炎症反応の分子生物学的研究
全身麻醉期间肺泡巨噬细胞炎症反应的分子生物学研究
- 批准号:
05771108 - 财政年份:1993
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
深層転移学習と継続学習を組み合わせた筋電ベースヒューマンインタフェースの開発
结合深度迁移学习和持续学习的基于肌电的人机界面的开发
- 批准号:
23K28135 - 财政年份:2024
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
情報幾何学に基づく転移学習の解析と深化
基于信息几何的迁移学习分析与深化
- 批准号:
23K24909 - 财政年份:2024
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
実験科学研究の効率化のための能動学習と転移学習手法の開発
发展主动学习和迁移学习方法,提高实验科学研究效率
- 批准号:
24K20836 - 财政年份:2024
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
体育授業における転移学習実現につながる走・泳運動の技能獲得を目指した牽引法の開発
开发旨在获得跑步和游泳技能的牵引方法,从而在体育课上进行迁移学习
- 批准号:
24K14576 - 财政年份:2024
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
転移学習を用いた外挿的予測の実現と材料研究への応用
利用迁移学习实现外推预测及其在材料研究中的应用
- 批准号:
23K19980 - 财政年份:2023
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Research Activity Start-up
転移学習と知識グラフを用いたナレッジ活用型AIによる離農予測モデルの開発
使用基于知识的人工智能(利用迁移学习和知识图)开发农场废弃预测模型
- 批准号:
22K14959 - 财政年份:2022
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
転移学習を用いた唾液腺癌の組織学的悪性度の再分類の試み
尝试使用迁移学习对唾液腺癌的组织学分级进行重新分类
- 批准号:
22K10210 - 财政年份:2022
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Wi-Fiチャンネル状態情報に基づくコンテキスト認識のための転移学習技術
基于Wi-Fi信道状态信息的上下文识别的迁移学习技术
- 批准号:
21H03428 - 财政年份:2021
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
オミクスの転移学習に基づく難治胃がんの精密医療の確立
基于组学迁移学习的难治性胃癌精准医疗建立
- 批准号:
19K22892 - 财政年份:2019
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
転移学習付き遺伝的ネットワークプログラミングとその応用に関する研究
迁移学习遗传网络编程及其应用研究
- 批准号:
26730132 - 财政年份:2014
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Young Scientists (B)