増山岳人　セミナー　強化学習　逆強化学習　報酬関数推定

　　　

☆☆☆Web配信セミナー☆☆☆

　　
　逆強化学習入門
　
　-報酬関数推定を介した強化学習-

S201028KW

　☆☆☆本セミナーは、Zoomを使用して、行います。☆☆☆

　　　開催日時：2020年10月28日（水）10:30-16:30
　　受講料：お1人様受講の場合　46,000円[税別]／1名
　　　　　　　1口でお申込の場合　57,000円[税別]／1口（3名まで受講可能）

　★本セミナーの受講にあたっての推奨環境は「Zoom」に依存しますので、ご自分の環境が対応しているか、
　お申込み前にZoomのテストミーティング（http://zoom.us/test）にアクセスできることをご確認下さい。

　★インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。
　講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。

　★受講中の録音・撮影等は固くお断りいたします。

　　

　

　講　師

　増山岳人　氏

　　　　　名城大学　理工学部　電気電子工学科
　　　　　准教授　博士(工学)

< 講師紹介 >
■主経歴
　　2013年　中央大学理工学部精密機械工学科　助教
　　2016年　名城大学理工学部電気電子工学科　准教授　現在に至る

■専門・得意分野
　　知能ロボティクス・強化学習

■本テーマ関連の学会・協会・団体等
　　ロボット学会、人工知能学会

■セミナーポイント
　　　強化学習は，a) システムに対する要求が明確である一方，b) それを満足するシステムの挙動の
　設計が困難な問題に対して有効なアプローチの1つです．ここで，a)のシステムに対する要求は，
　学習者の意思決定に対する評価である報酬関数によって表現されます．しかし，報酬関数は学習の
　安定性や効率などにも影響を与えるため，その設計は煩雑になりがちです．また，そもそもシステムに
　対する要求を報酬関数として書き下すことが困難な問題も存在します．
　　このような背景から，手動で報酬関数を設計する代わりに他者の振る舞いを観測し，その振る舞いを
　説明する報酬関数を推定する，逆強化学習と呼ばれるアプローチが考案されました．本セミナーでは，
　強化学習の原理と特徴を俯瞰した上で，逆強化学習の基本的な考え方を解説します．また，代表的な
　逆強化学習手法及び関連する研究事例についても紹介します．受講者がご自身で逆強化学習を実装し，
　試していただくためのサポートとなるよう，基礎的な内容に重きを置いたセミナーを目指します．

■受講後、習得できること
　　・強化学習及び逆強化学習の基本的な原理
　　・代表的な逆強化学習手法の概要
　　・報酬関数推定を介した強化学習の有用性と課題

　

　　1 はじめに

　　2 強化学習
　　　　2.1 概要
　　　　2.2 問題設定
　　　　2.3 ベルマン方程式
　　　　2.4 離散系における強化学習
　　　　2.5 連続系における強化学習

　　3 逆強化学習
　　　　3.1 概要
　　　　3.2 強化学習と逆強化学習の関係
　　　　3.3 問題設定
　　　　3.4 基本的な考え方
　　　　3.5 線形モデル
　　　　3.6 非線形モデル

　　4 応用的な手法に関する研究事例の紹介

　　5 まとめ