セミナー　Zoom　Web配信　逆強化学習　統計　機械学習　最適制御　強化学習　自律獲得　学習の枠組み　報酬　逆問題　模倣学習　逆最適制御　AI　行動クローニング　正則化　数値最適化　勾配法　マルコフ決定過程　報酬最大化　モデルベース離散状態空間　最大マージン　最大エントロピー　GAIL　モデルフリー連続状態空間　AIRL　東京工業大学　下坂正倫

　☆☆☆本セミナーは、Zoomを使用して、行います。☆☆☆

開催日時：2023年11月21日（火）10:30-16:30
受講料：お1人様受講の場合　53,900円[税込]／1名
　　　　　1口でお申込の場合　66,000円[税込]／1口（3名まで受講可能）

　★本セミナーの受講にあたっての推奨環境は「Zoom」に依存しますので、ご自分の環境が対応しているか、
　お申込み前にZoomのテストミーティング（http://zoom.us/test）にアクセスできることをご確認下さい。

　★インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。
　講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。

　★受講中の録音・撮影等は固くお断りいたします。

＜略歴＞	2001年　東京大学　工学部　機械情報工学科　卒業　2006年　東京大学大学院　情報理工学系研究科　知能機械情報学専攻　博士課程修了　2006年～2007年　東京大学大学院　情報理工学系研究科　助手　2007年～2011年　東京大学大学院　情報理工学系研究科　助教　2011年～2015年　東京大学大学院　情報理工学系研究科　講師　2015年　東京工業大学　情報理工学（系）研究科　准教授　2016年　東京工業大学　情報理工学院　准教授　　現在に至る。

　逆強化学習は統計を基盤とした機械学習と最適制御の学際領域を担う，近年発達著しい研究領域である．強化学習が「成功」と「失敗」の繰り返しの経験から，ロボットに最適な動作を自律獲得させる学習の仕組みであるのに対し，逆強化学習は，明文化が難しい熟練者の巧みなスキルを機械に自律獲得させる，見まねを通じた学習の枠組みになっている．熟練者のうまみ＝「報酬」を，観察に基づき推定する枠組みとみなせるため，逆強化学習は，強化学習の逆問題に相当するものである．そのため逆強化学習は模倣学習と呼ばれるほか，逆最適制御とも呼ばれる．これは，強化学習の実応用で問題となる報酬関数の設計など，明文化が難しいスキルの「コツ」といったものをモデル化することに適した技術であり，人行動のモデル化とも関連した応用も多い．例えば状況に応じた運転経路・目的地予測，人と人とのインタラクション行動の予測，運転の好みに応じた追い越し運転予測といった応用などがある．
　本セミナーでは，このような逆強化学習の応用事例を紹介したうえで，逆強化学習の理解につながる，機械学習や強化学習の基礎から説明し，そのうえで逆強化学習の数理的な問題設定，さらに，本研究分野の発展に寄与するいくつかのアルゴリズムを紹介していく．近年の逆強化学習の課題なども紹介できればと考えている．

　講義項目

　1　AI分野における模倣学習の位置づけ
　　1.1　AI分野における強化学習の位置づけ
　　1.2　最適制御と強化学習
　　1.3　強化学習と逆強化学習
　　1.4　行動クローニングと逆強化学習

　2　逆強化学習の応用事例
　　2.1　行動スキル獲得
　　2.2　行動予測
　　2.3　効率的な強化学習

　3　機械学習の基本要素の確認
　　3.1　損失の期待値・平均値の最小化
　　3.2　正則化
　　3.3　数値最適化（勾配法）

　4　強化学習の問題設定
　　4.1　マルコフ決定過程
　　4.2　報酬最大化
　　4.3　価値関数・Bellman方程式・価値反復法

　5　逆強化学習の基礎
　　5.1　逆強化学習の基本的枠組の導出
　　5.2　モデルベース離散状態空間の逆強化学習
　　　5.2.1　最大マージン逆強化学習
　　　5.2.2　最大エントロピー逆強化学習
　　5.3　強化学習と逆強化学習の双対性（GAIL）

　6　逆強化学習の発展
　　6.1　モデルフリー連続状態空間の強化学習
　　　6.1.1　価値関数近似・方策勾配法
　　　6.1.2　SAC，PPO，TRPO etc.
　　6.2　報酬関数の表現手法
　　　6.2.1　線形モデル
　　　6.2.2　加法モデル
　　　6.2.3　非線形モデリング
　　　6.2.4　敵対的生成モデリング（AIRL）

　7　逆強化学習の実装
　　～シミュレーション環境を用いた逆強化学習の実装事例を紹介する

　8　逆強化学習の最近の進展

『逆強化学習の基礎と発展』

下坂正倫（しもさかまさみち）　氏

東京工業大学　情報理工学院　情報工学系　准教授（博士（情報理工学））

『逆強化学習の基礎と発展』

下坂正倫（しもさかまさみち） 氏

東京工業大学 情報理工学院 情報工学系 准教授（博士（情報理工学））

　下坂正倫（しもさかまさみち）　氏　

　　　東京工業大学　情報理工学院　情報工学系　准教授（博士（情報理工学））