OB/OG
修士で西野研究室から移籍してきました。
写真全般(撮る、焼く、観る)と自転車ツーリングやヒルクライムが趣味です。
おさけとうまいもの全般が好きです。学部の卒業旅行ではハンガリー・オーストリア・チェコに行き毎日ビールを飲み歩いていました。
特におすすめはKozel(コゼル)の黒です、日本だとなかなか置いているところがないのですが…
あと自転車に乗るときはビールが飲めないのがジレンマです。(苦笑)
モノクロで撮るのが好きです。(これはデジカメで撮ったけど…)
学部時代の卒研(西野研)から、人がものを考える仕組みや好き/嫌いの仕組みに興味が強くなり、おおざっぱに言って人工知能に関連する研究を行ってきました。
学部時代はマルチエージェントシステムの学習の高速化に関する研究を行い、現在は系列データのレコメンデーションに関する研究を行っています。
みんないつも遅くまで残っており、とてもパワフルな研究室です。暑いです。
・去年の経験を基に早め早めで無理しないタスク管理。
・ドクターの先輩や服部先生がいらっしゃらない分、みんなのお腹を満たす工夫をする。
これだけ長期に渡る期間で、チームでものづくりをするということが初の体験でわからないことだらけで、苦労する場面もとても多くありました。
自分がチームの中でできる役割とすべき役割を考えさせられる、そしてチーム全体のためになることは何かを考えるとてもいい機会だったと思います。
渡米中はお米が恋しいです。あと砂漠でiPhone失くした…
今年度、自分はARLISSの運営として電通大、東工大、慶應大など参加校の有志たちと活動しました。 運営は予算、安全管理、スケジュールなど参加者が知らないところで大会が安全にスムーズに運営されるよう取りはからう縁の下の力持ち的な役割です。
また、お互いがいつも顔を合わせているわけではないので、事前の準備をしっかりした上で様々な物事に取り組む必要があります。昨年までと違う立場から活動に関わることで、これから社会における自分の役割についても考える機会になりました。
夜空がとても綺麗。
研究室を象徴するようにとてもパワフルです。
1. 藤塚拓馬, 原田智広, 佐藤寛之, 高玉圭樹: 時系列行動を評価するパターンマイニングによる外出プラン推薦システム, 計測自動制御学会 システム・情報部門 学術講演会 2014, 2014.
髙玉研究室のページです.
Copyright © 2013-2020 Takadama Laboratory All Rights Reserved.
現実問題のエージェントモデル化
・動的環境に追従する通信なしマルチエージェント強化学習[3,4]
マルチエージェント強化学習では,例えば倉庫ロボットを想定すれば,ロボットがエージェントであり物資を効率よく運ぶことが目的となります.そして各エージェントが協調する上でお互いがそれぞれの位置,行動,目的などを通信により共有すれば適切な行動の学習が可能ですが,通信遅延を想定し,その情報の信頼性を担保しなければならないため,またエージェント数の増加により扱う情報量も増えます.この問題に対して,髙玉研究室に所属しておりました上野は,通信を一切行わずに協調行動を学習する手法(Profit Minimizing Reinforcement Learning: PMRL)を提案し,その合理性を理論的に保証しました[3].これは協調のために必要な情報を通信していた従来手法とアプローチが全く異なり,さらにマルチエージェントの複雑な振舞いを理論的に保証した画期的な手法です.この手法により通信が十分にできない災害地や宇宙,そして巨大な倉庫の物流システムなどへの適用の可能性を高めることに成功しました.
エージェント間協調
また,従来のマルチエージェント強化学習は学習環境が静的であり,例えば物資運搬でいえば物資の受取り,受渡し地点,物資の量は変更できません.私はそれに対し,まず上記PMRL[3]を拡張して,その理論を崩さないように動的環境における協調行動の学習法(Profit Minimizing Reinforcement Learning with Oblivion of Memory: PMRL-OM)を提案しました[4].具体的には,PMRLの学習に,初期に学習した結果を忘却する関数を導入して最新の学習結果を利用し,動的変化にあわせて増減する獲得報酬値(学習の手がかり)の大きさに合わせて目的を制限する学習を行います.これにより,渋滞や通行止めなどの大きく環境が変わり,目的地が変化する災害地の物資運搬システムなどに適用可能となり,また理論的保証のある手法として他の社会問題に対して大きな効果があります.
[1] Ma, J. and Wu, F., Feudal Multi-Agent Deep Reinforcement Learning for Traffic Signal Control, 19th International Conference on Autonomous Agent and Multi-Agent Systems, pp. 816-824, May, 2020.
[2] Singh, A., et al., Hierarchical Multiagent Reinforcement Learning for Maritime Traffic Management, 19th International Conference on Autonomous Agent and Multi-Agent Systems, pp. 1278-1286, May, 2020.
[3] Uwano, F., et al., Mulit-Agent Cooperation Based on Reinforcement Learning with Internal Reward in Maze Problem, SICE Journal of Control, Measurement, and System Integration, Vol.11, No.4, pp.321-330, 2018.
[4] Uwano, F., and Takadama, K., Reward Value-Based Goal Selection for Agents’ Cooperative Route Learning without Communication in Reward and Goal Dynamism, SN Computer Science, Vol. 1, No. 3, Springer, 2020.