Takadama Lab.
  • Japanese
  • Overview
  • Research
    • Research
    • Evolutionary Computation
  • Members
  • ARLISS
  • Projects
  • Access
Members »
About ARLISS »
Members »
About ARLISS »
Members »
‹ ›




Takadama Lab

The University of Electro-Communications Department of Informatics

Media Science and Engineering Program

Takadama Laboratory


Menu

  • Top
  • Members
  • ARLISS
  • Research
  • Overview
  • Projects
  • Access

Copyright © 2013-2020 Takadama Laboratory All Rights Reserved.

マルチエージェント強化学習

 私たちの住む社会は,人間,自動車,電車など様々な動くものによって構成されています.マルチエージェント強化学習は,そういった社会に潜む問題を解決するため,人間,自動車,ロボットなどの相互に影響し合う様々な主体を,環境から得た情報から行動を決めるエージェントに置き換えてシミュレートすることで,その最適な振る舞いを強化学習により導く他のAI技術にはない特徴を持った画期的手法です.近年ではその実用化に関する幅広い研究が始まっており,例えば交通渋滞を避けるために信号機同士が協調して交通整理をする手法[1]や,船舶と管制をエージェントとした海上の交通管理手法[2]が提案されております.

現実問題のエージェントモデル化

・動的環境に追従する通信なしマルチエージェント強化学習[3,4]
マルチエージェント強化学習では,例えば倉庫ロボットを想定すれば,ロボットがエージェントであり物資を効率よく運ぶことが目的となります.そして各エージェントが協調する上でお互いがそれぞれの位置,行動,目的などを通信により共有すれば適切な行動の学習が可能ですが,通信遅延を想定し,その情報の信頼性を担保しなければならないため,またエージェント数の増加により扱う情報量も増えます.この問題に対して,髙玉研究室に所属しておりました上野は,通信を一切行わずに協調行動を学習する手法(Profit Minimizing Reinforcement Learning: PMRL)を提案し,その合理性を理論的に保証しました[3].これは協調のために必要な情報を通信していた従来手法とアプローチが全く異なり,さらにマルチエージェントの複雑な振舞いを理論的に保証した画期的な手法です.この手法により通信が十分にできない災害地や宇宙,そして巨大な倉庫の物流システムなどへの適用の可能性を高めることに成功しました.

エージェント間協調

また,従来のマルチエージェント強化学習は学習環境が静的であり,例えば物資運搬でいえば物資の受取り,受渡し地点,物資の量は変更できません.私はそれに対し,まず上記PMRL[3]を拡張して,その理論を崩さないように動的環境における協調行動の学習法(Profit Minimizing Reinforcement Learning with Oblivion of Memory: PMRL-OM)を提案しました[4].具体的には,PMRLの学習に,初期に学習した結果を忘却する関数を導入して最新の学習結果を利用し,動的変化にあわせて増減する獲得報酬値(学習の手がかり)の大きさに合わせて目的を制限する学習を行います.これにより,渋滞や通行止めなどの大きく環境が変わり,目的地が変化する災害地の物資運搬システムなどに適用可能となり,また理論的保証のある手法として他の社会問題に対して大きな効果があります.

[1] Ma, J. and Wu, F., Feudal Multi-Agent Deep Reinforcement Learning for Traffic Signal Control, 19th International Conference on Autonomous Agent and Multi-Agent Systems, pp. 816-824, May, 2020.
[2] Singh, A., et al., Hierarchical Multiagent Reinforcement Learning for Maritime Traffic Management, 19th International Conference on Autonomous Agent and Multi-Agent Systems, pp. 1278-1286, May, 2020.
[3] Uwano, F., et al., Mulit-Agent Cooperation Based on Reinforcement Learning with Internal Reward in Maze Problem, SICE Journal of Control, Measurement, and System Integration, Vol.11, No.4, pp.321-330, 2018.
[4] Uwano, F., and Takadama, K., Reward Value-Based Goal Selection for Agents’ Cooperative Route Learning without Communication in Reward and Goal Dynamism, SN Computer Science, Vol. 1, No. 3, Springer, 2020.

‹
›

環境変化に適応するための一般化手法

佐藤圭二,2012年
実環境において,地震などで鉄道,道路のインフラが機能停止した場合,早急な路線網構築が求められるが,路線状況は時間と共に変化し,路線のパフォーマンスが低下してしまう.しかし,その路線網を大幅に変更してしまっては利用客の混乱に繋がり,効率的ではない.その他にも,人の勤務シフトを作成した際に,急に勤務が不可能になってしまう場合に,わずかな修正で勤務シフトを再構築することが望まれる.具体的には,求めた解が環境に適応出来なくなった際に,出来るだけ少ない変更で環境に適応出来るような解が求められる.これらの問題を解決するために,本研究では学習分類子システム(Learning Classifier System)の概念である一般化(generalization)に着目する.学習分類子システムの一般化とは,与えられた環境の中で,重要な部分とそうでない部分(don’t care)を識別し,ルールの中で変更できる属性を見いだすことである. しかし,学習分類子システムの一般化は、一般化された部分は取りうる値のどちらでも良い,という表現方法であるため,どちらか一方だけある値を取る,という表現が出来ない.路線網などは一定の制約条件を満たす必要があるため,一カ所だけがどの値もとっても(一つの停留所があってもなくても)よいという問題ではない.さらに,多目的問題でトレードオフ(人の移動とコストなど)を考慮する場合、どちらか一方を満たすことが重要となる. 以上の背景から,本論文では,”どちらか一方”の一般化の表現としてスワップ型一般化を提案する.

‹
›

定期便と不定期便の同時多目的路線網最適化

航空会社の利益向上を目的とした,航空路線網の最適化を扱う.変動する航空便の利用客数に対応するために,航空会社は季節ごとに航空機の大きさや便数を調整する.その際,航空会社は(1) 1年間通して毎日同じ時刻に運航する定期便と,(2) 時期により運航の有無や時刻が異なる不定期便に分け,別々に最適化している.定期便と複数の月の不定期便を同時に考慮した航空路線網最適化が急務だが, 既存の最適化手法では定期便と不定期便を同時に考慮できない.
上記の問題を解決するために,本研究では定期便と複数の月の不定期便を同時に最適化する手法を提案する.遺伝的アルゴリズム(GA)を用いて航空路線網をより高い利益が得られるように進化させる.航空路線網を遺伝子で表現し,遺伝子を変化させることで路線網をより利益の高いものへと進化させる.

‹
›

災害時における帰宅困難者のためのバス路線網最適化

大規模な災害時における帰宅困難者は,余震等の二次災害に遭う可能性が考えられるため問題視されている.近年では,帰宅困難者を解消する手段として,バスでを用いた代替輸送が注目されている.災害時は道路の状況が頻繁に変化するため,(1)利用者の移動時間と(2)バス台数に加え,(3)道路の寸断などに対する迂回路線等を考慮したロバスト性の高い路線網の構築が求められる.
従来の路線網最適化手法では,災害時には現実的ではない長距離の路線が生成されるという問題点を踏まえ,本研究では遺伝的アルゴリズムを用いた適切な領域分割(クラスタリング)手法を採用し,災害時に適用可能な路線網の最適化を目指す.

‹
›

競合する複数の船会社間における同時航路編成最適化

船会社にとって最も重要なことは,自社の利益拡大である.その目的を達成するために,各会社が自由に航路を設定してしまうと,競合が発生し利益が低くなってしまうことが考えられる.そこで本研究では,他会社の航路設計を考慮することで各会社の利益が拡大できる航路編成最適化手法を提案する.
本手法では,他会社の航路と競合した場合に自社の利益が最大になるように遺伝的アルゴリズムを用いて航路を進化させ,それらを繰り返すことで他会社と競合しながらも利益を獲得できる航路の探索を目指す.

‹
›

AIが進化する宇宙用CPU

宇宙では地上よりも多くの放射線(宇宙線)が飛び交っており、それがCPUやメモリなどの半導体素子に当たることで、0/1で記憶されているビットが反転し、システムの誤作動や停止を引き起こします。これをシングルイベントアップセット(Single Event Upset: SEU)と呼び、宇宙開発における重要な問題の一つとなっている。従来では、半導体素子に金属シールドによる保護や論理回路の多重化などの対策が取られてきたが人工衛星の重量や打ち上げコストの面で問題がある。
この問題を解決するために本研究では、宇宙線によるビット反転を利用することによってSEUの対策をする手法を提案している。具体的には、生物の進化シミュレータ「Tierra(ティエラ)」に着目し、プログラムを生物とみなし、宇宙線によるビット反転をプログラムの突然変異とみなすことで進化のメカニズムによってプログラムを維持・進化させる手法を提案している。
現在は機械語を用いた数値計算プログラムの進化とハードウェア上での実現に取り組んでいます。

‹
›

災害時におけるバス路線網最適化

東日本大震災後、当研究室では右図に示す災害時におけるバス路線網最適化に取り組んでいます.災害時は道路の状況が頻繁に変化し、既存路線の運行は確約できないため、道路が寸断されてもバス路線網に大きな影響を与えない路線網最適化技術を考案しました.さらに、この手法を帰宅困難者のためのバス路線網最適化への展開にも成功しています.この研究は電通大のプロジェクトであり、災害を減災に変える技術を数多く生み出しています.

‹
›

教育エージェント

AIBOやPLEOなど,従来の1ユーザに適応するエージェントとは対照的に,集団に適応するエージェントの設計を探求する研究を行っています.集団は1個人に比べ,個人の集まりからもたらされる複雑な特徴があることから,それに適応するエージェントのモデル化が非常に難しいとされています.  上記の目的を解決するため,実世界の集団をモデル化しやすい異文化体験ゲームバルンガの被験者実験を行い,その模様を観察することで,不明確である集団適応状態を定義します.その後,実験の結果から集団に適応するエージェントをモデル化し,コンピュータシミュレーションによりそのモデルの効果を検証します.シミュレーションにより,(i)集団には他人の意見を考慮するリーダーが必要であり,(ii)集団がまとまるためには,リーダーに加え,意見を積極的に言うエージェント,周りに意見をあわせるエージェントの3種類のバランスが重要である,という知見が得られました.

‹
›

HTVカーゴインテグレーション

宇宙航空研究開発機構(JAXA)では、スペースシャトルのかわりに国際宇宙ステーション(ISS)に荷物を輸送する宇宙機(HTV)を開発していますが、当研究室ではそのカーゴインテグレーション業務の実用化に着手しました.具体的には、左図に示すように、HTVに搭載される荷物(クルーの食料や備品など)自らが適切な配置位置を見出すエージェント技術を考案しました.HTVの重心が機体の中心からずれると、適切な姿勢の制御に必要以上の燃料を費やすため、HTVの重心は機体のほぼ中心に収まる必要があります.
この問題に対し、瞬時に計算できるシステムを開発し、NASAや国際的な発表の場で高い評価を得ています.また、そのシステムは実際のHTVカーゴレイアウト計算に採用され、2009年9月の打ち上げに成功しています。今後10回の打ち上げに使用されることになっています.

‹
›

災害時におけるバス路線網最適化

東日本大震災後、当研究室では右図に示す災害時におけるバス路線網最適化に取り組んでいます.災害時は道路の状況が頻繁に変化し、既存路線の運行は確約できないため、道路が寸断されてもバス路線網に大きな影響を与えない路線網最適化技術を考案しました.さらに、この手法を帰宅困難者のためのバス路線網最適化への展開にも成功しています.この研究は電通大のプロジェクトであり、災害を減災に変える技術を数多く生み出しています.

‹
›

睡眠に関する研究

レム睡眠やノンレム睡眠など,睡眠段階を推定することで,睡眠の深さを定量的に評価することができます.しかし,睡眠段階を正確に推定することができるPSG検査は,頭や顔にいくつもの電極をつけて寝なければならないため,患者の身体的負担が大きく,質のよい睡眠を妨げてしまいます.また,複数の医師・専門技師による解析を要することから経済的な負担がかかるという問題点があります.そこで,当研究室では,マットレスセンサーを用いて,無拘束でに睡眠段階を精度よく推定するための研究をしています.生理学的知見に基づき設計したモデルによる睡眠段階推定と機械学習を用いた睡眠段階推定の2種類のアプローチに取り組んでいます.
健常者のデータだけでなく睡眠時無呼吸症候群の患者の実データを取り扱っているため,病気の推定にも応用できないか模索しています.

‹
›

高齢者毎にあわせる介護支援

当研究室では、高齢化社会における介護支援に焦点を当て、右図に示すような介護の質を向上させるケアサポートシステムを構築しています.具体的には、高齢者毎に適切なライフスタイルを設計するケアプラン設計エージェント、高齢者の健康データ(体温や血圧など)から健康状態を能動的に推定し、個々の健康状態に応じた介護を支援する健康モニタリングエージェント、介護データから有用な知識を介護士間で共有させる介護士育成支援エージェントに取り組んでいます.その一例として、非接触で高齢者の心拍データを取得した後、そのデータから睡眠段階を推定する技術を考案し、実際の介護施設への導入をすすめています.

‹
›

学習分類子システム

近年の情報技術の発達に伴い,多種多様なセンサーから多様なデータが取れるようになったため,そのデータの特徴や規則性などの有用な知識を発見するデータマイニング技術が求められています. そのような知識はニューラルネットワークをはじめとした様々な機械学習技術によって獲得が可能ですが,なぜそのような知識が得られたのかを人間が解釈する事が難しいという問題があります. また,実際のデータにはばらつきがあるため,規則性を見つけるのが難しく,実応用が進まない一つの要因となっています。 ばらつきも考慮して規則性を見つける手法の研究を行っています.

‹
›

進化計算

止め処無く変化する環境への適応私たちの過ごす現実世界では,株価のように時間などによって周りの環境・状況などが 刻一刻と変化するような問題があります.また,自然界には遺伝・魚の群れなど長い年月をかけて進化させてきた環境に適応するメカニズムが存在します.このようなメカニズムを利用することで,止め処無く変化する環境への適応を目指します.

‹
›

CADのプリント基板配置

下図に示す自律分散型最適化によるCADのプリント基盤配置システムの研究は松下電工との共同研究であり、当研究室では部品(抵抗やコンデンサなど)の適切な配置位置を決定するエージェント技術を開発しました.これは、プリント基盤上に配置される複数の部品(エージェントに相当)をシステムが決定するのではなく、部品自らが行動(上下左右の移動、回転、ジャンプなど)を決定しながら、部品間の配線長をできる限り短く、かつ速く配置する技術です.この技術により、商品化されるまでの基盤設計時間を一気に短縮するとともに設計者の手間も省けるようになり、専門家の成果を超える部品配置を見出すことに成功しました.

‹
›