OB/OG
名字は”じんば”と読みます。東京育ちのマイペースっ子です。 かわいいものが好きです。最近は甘いものが好きです。
航空会社の利益向上を目的とした、航空路線網の最適化を扱っています。航空会社は季節ごとに増減する航空便利用客のニーズに合わせ、航空機の大きさや便数を調整します。その際、航空会社は航空便を(1) 毎日決まった時刻に運航する定期便と、(2) 時期によって運航日や時刻が異なる不定期便に分け、別々に最適化しています。定期便と複数の月の不定期便を同時に考慮した航空路線網最適化が急務ですが、既存の最適化手法では定期便と不定期便を同時に考慮できません。そこで私の研究では定期便と複数の月の不定期便を同時に最適化する手法を提案しています。遺伝的アルゴリズム(GA)を用いて航空路線網をより高い利益が得られるように進化させます。航空路線網を遺伝子として表現し、遺伝子を変化させることで路線網を進化させていきます。
まじめに何かに取り組んでいたり、たまには雑談をしていたり、自販機があったりと楽しい研究室です。
ブラックロック砂漠は想像以上に過酷でした。 初海外は英語が苦手なためいろいろ苦労しました。次回はもっとアメリカを楽しもうと思いました。 アメリカンな食事はひそかに楽しみにしていましたが満足できました。
今年は新しいことに取り組むことになりそうですが、どんなローバーが出来上がるのでしょうか。 去年はB4ということで先輩に頼ってばかりでしたが、精一杯がんばります。
何事にも熱心で、限られた時間の中、学生一人一人のことを常に考えてくれる先生です。 素晴らしい環境で学ばせていただいていることに日々感謝です。
1. Jimba, T., Kitagawa, H., Azuma, E., Sato, K., Sato, H., Hattori, K., Takadama, K.:
“Towards Network Optimization of Regular and Non-regular Flights”,
The 16th International Symposium on Intelligent and Evolutionary Systems(IES2012), pp.124-128, Dec. 2012. 2. 神馬隆博,佐藤圭二,高玉圭樹,佐藤寛之:
2. “定期便と不定期便の同時獲得型多目的路線網最適化”,
第6回進化計算研究会,pp. 1-13,2014.
髙玉研究室のページです.
Copyright © 2013-2020 Takadama Laboratory All Rights Reserved.
現実問題のエージェントモデル化
・動的環境に追従する通信なしマルチエージェント強化学習[3,4]
マルチエージェント強化学習では,例えば倉庫ロボットを想定すれば,ロボットがエージェントであり物資を効率よく運ぶことが目的となります.そして各エージェントが協調する上でお互いがそれぞれの位置,行動,目的などを通信により共有すれば適切な行動の学習が可能ですが,通信遅延を想定し,その情報の信頼性を担保しなければならないため,またエージェント数の増加により扱う情報量も増えます.この問題に対して,髙玉研究室に所属しておりました上野は,通信を一切行わずに協調行動を学習する手法(Profit Minimizing Reinforcement Learning: PMRL)を提案し,その合理性を理論的に保証しました[3].これは協調のために必要な情報を通信していた従来手法とアプローチが全く異なり,さらにマルチエージェントの複雑な振舞いを理論的に保証した画期的な手法です.この手法により通信が十分にできない災害地や宇宙,そして巨大な倉庫の物流システムなどへの適用の可能性を高めることに成功しました.
エージェント間協調
また,従来のマルチエージェント強化学習は学習環境が静的であり,例えば物資運搬でいえば物資の受取り,受渡し地点,物資の量は変更できません.私はそれに対し,まず上記PMRL[3]を拡張して,その理論を崩さないように動的環境における協調行動の学習法(Profit Minimizing Reinforcement Learning with Oblivion of Memory: PMRL-OM)を提案しました[4].具体的には,PMRLの学習に,初期に学習した結果を忘却する関数を導入して最新の学習結果を利用し,動的変化にあわせて増減する獲得報酬値(学習の手がかり)の大きさに合わせて目的を制限する学習を行います.これにより,渋滞や通行止めなどの大きく環境が変わり,目的地が変化する災害地の物資運搬システムなどに適用可能となり,また理論的保証のある手法として他の社会問題に対して大きな効果があります.
[1] Ma, J. and Wu, F., Feudal Multi-Agent Deep Reinforcement Learning for Traffic Signal Control, 19th International Conference on Autonomous Agent and Multi-Agent Systems, pp. 816-824, May, 2020.
[2] Singh, A., et al., Hierarchical Multiagent Reinforcement Learning for Maritime Traffic Management, 19th International Conference on Autonomous Agent and Multi-Agent Systems, pp. 1278-1286, May, 2020.
[3] Uwano, F., et al., Mulit-Agent Cooperation Based on Reinforcement Learning with Internal Reward in Maze Problem, SICE Journal of Control, Measurement, and System Integration, Vol.11, No.4, pp.321-330, 2018.
[4] Uwano, F., and Takadama, K., Reward Value-Based Goal Selection for Agents’ Cooperative Route Learning without Communication in Reward and Goal Dynamism, SN Computer Science, Vol. 1, No. 3, Springer, 2020.