報酬最大化原理および大脳基底核モデルによるゴール指向性推論機能の自動的実装

使用奖励最大化原理和基底神经节模型自动实现目标导向推理功能

基本信息

批准号：
15700180
负责人：
伊藤秀昭
金额：
$ 1.15万
依托单位：
Tokyo Institute of Technology
依托单位国家：
日本
项目类别：
Grant-in-Aid for Young Scientists (B)
财政年份：
2003
资助国家：
日本
起止时间：
2003 至 2005
项目状态：
已结题

项目摘要

本研究は、ゴール指向性推論を始めとした、人間の脳の持つ様々な高次脳機能を包括的に実現するエージェントを設計することを目標としたものである。そのため、ゴール指向性推論に始めから特化してエージェントを設計するのではなく、「エージェントとその環境についてのある制約条件のもとで報酬最大化という最適化問題を解く」という形でエージェントを設計し、その結果として「ゴール指向性推論がエージェントに実装された」という現象を自動的に発生させることを試みた。前年度までの研究によりそのような現象が発生する具体例を考案していたが、最適化に長い時間がかかってしまうという問題があった。そこで本年度はその現象をより効率よく発生させることを目指して、新たな最適化手法の開発を行った。第一に、これまではエージェントが環境を直接には学習しない強化学習的手法を用いていたが、最適化が完了するまでに環境と多くのインタラクションを行う必要があり非効率的であった。そこで効率化のためには環境を学習させた方が良いのではないかと考え、そのための手法を開発した。特に、確率的な環境をコンパクトに表現する事ができるダイナミックベイジアンネットワークを用いることが有望であると考え、これを効率よく学習することができる手法を開発した。この成果については学会にて公表済みである。第二に、学習された環境をもとに効率よく最適化を行う手法も開発した。これについては論文を投稿中である。これらによってこれまでより大幅に効率的な最適化が可能となった。ただし、ゴール指向性推論の効率のよい発生が可能となる理論的条件やゴール指向性推論以外の機能の実現については十分検討できなかったため、今後の課題としたい。

这项研究旨在设计代理商，以全面地实现人脑的各种较高大脑功能，包括目标定向推理。因此，我们并没有从一开始就专门设计针对目标定向推断的代理，而是试图以“解决在某些关于代理商及其环境的限制下最大化奖励的优化问题的形式”，因此，在代理中实现的目标推断的现象是自动生成的。直到上一年的研究已经设计了这种现象的具体实例，但是存在一个问题，即优化需要很长时间。因此，今年我们开发了一种新的优化方法，目的是更有效地产生这种现象。首先，以前，代理使用了不直接学习环境的加固学习技术，但是在优化完成之前与环境进行许多互动效率低。因此，我们认为最好了解环境以提高效率，并开发了一种方法。特别是，我们认为使用动态的贝叶斯网络将有望以紧凑的方式表达概率环境，并且我们开发了一种使我们能够有效地学习这一点的方法。结果已经由学术学会发布。其次，我们还开发了一种基于学习环境的有效优化的方法。我目前正在就此提交一篇论文。这些使优化比以往任何时候都更加有效。但是，我们无法完全考虑理论条件，这些条件允许有效地发展目标方向推理以及实现目标方向推理以外的功能，因此我们希望将其作为未来的问题。