2015年
人工知能: 人工知能学会誌: journal of the Japanese Society for Artificial Intelligence
30(6),
pp. 733-738, 2015
2013年
計測自動制御学会学会誌:計測と制御
Vol.52 No.6,
pp. 515-521, 2013-06
Journal of Advanced Computatio nal Intelligence and Intelligent Informatics (JACIII),
Vol. 15, No. 2,
pp. 166–172, 2011.
精密工学学会誌
Vol. 77, No.1,
pp. 46–50, 2011.
オペレーションリサーチ学会論文誌
Vol 55., No. 3,
pp. 170–175, 2010.
「相互作用の本質に迫る: 知的システムの理解と設計の新視点」特集号,
計測自動制御学会,計測と制御,
Vol 44., No. 12,
pp. 817-818, 2005.
「相互作用の本質に迫る: 知的システムの理解と設計の新視点」特集号,
計測自動制御学会,計測と制御,~
Vol 44., No. 12,
pp. 831-835, 2005.
The Journal of Artificial Societies and Social Simulation (JASSS),
Vol. 11,No. 2, 2008.
「複雑系と集合知」特集号, 人工知能学会誌, Vol. 18, No. 6,
pp. 704-709, 2003.
日本ロボット学会誌,
Vol. 21, No. 5,
pp. 488-493, 2003.
髙玉研究室のページです.
Copyright © 2013-2020 Takadama Laboratory All Rights Reserved.
現実問題のエージェントモデル化
・動的環境に追従する通信なしマルチエージェント強化学習[3,4]
マルチエージェント強化学習では,例えば倉庫ロボットを想定すれば,ロボットがエージェントであり物資を効率よく運ぶことが目的となります.そして各エージェントが協調する上でお互いがそれぞれの位置,行動,目的などを通信により共有すれば適切な行動の学習が可能ですが,通信遅延を想定し,その情報の信頼性を担保しなければならないため,またエージェント数の増加により扱う情報量も増えます.この問題に対して,髙玉研究室に所属しておりました上野は,通信を一切行わずに協調行動を学習する手法(Profit Minimizing Reinforcement Learning: PMRL)を提案し,その合理性を理論的に保証しました[3].これは協調のために必要な情報を通信していた従来手法とアプローチが全く異なり,さらにマルチエージェントの複雑な振舞いを理論的に保証した画期的な手法です.この手法により通信が十分にできない災害地や宇宙,そして巨大な倉庫の物流システムなどへの適用の可能性を高めることに成功しました.
エージェント間協調
また,従来のマルチエージェント強化学習は学習環境が静的であり,例えば物資運搬でいえば物資の受取り,受渡し地点,物資の量は変更できません.私はそれに対し,まず上記PMRL[3]を拡張して,その理論を崩さないように動的環境における協調行動の学習法(Profit Minimizing Reinforcement Learning with Oblivion of Memory: PMRL-OM)を提案しました[4].具体的には,PMRLの学習に,初期に学習した結果を忘却する関数を導入して最新の学習結果を利用し,動的変化にあわせて増減する獲得報酬値(学習の手がかり)の大きさに合わせて目的を制限する学習を行います.これにより,渋滞や通行止めなどの大きく環境が変わり,目的地が変化する災害地の物資運搬システムなどに適用可能となり,また理論的保証のある手法として他の社会問題に対して大きな効果があります.
[1] Ma, J. and Wu, F., Feudal Multi-Agent Deep Reinforcement Learning for Traffic Signal Control, 19th International Conference on Autonomous Agent and Multi-Agent Systems, pp. 816-824, May, 2020.
[2] Singh, A., et al., Hierarchical Multiagent Reinforcement Learning for Maritime Traffic Management, 19th International Conference on Autonomous Agent and Multi-Agent Systems, pp. 1278-1286, May, 2020.
[3] Uwano, F., et al., Mulit-Agent Cooperation Based on Reinforcement Learning with Internal Reward in Maze Problem, SICE Journal of Control, Measurement, and System Integration, Vol.11, No.4, pp.321-330, 2018.
[4] Uwano, F., and Takadama, K., Reward Value-Based Goal Selection for Agents’ Cooperative Route Learning without Communication in Reward and Goal Dynamism, SN Computer Science, Vol. 1, No. 3, Springer, 2020.