1口(1社3名まで受講可能)でのお申込は、

受講料 58,800円/1口 が格安となります。


~深層学習のさらに先にある “深層強化学習手法”~

深層強化学習の基本
  ・最新アルゴリズムと応用

~応用できる、実務に活かせる目線で、重要ポイントを理解・習得する講座~


 S180914K

   
 開催日時:2018年9月14日(金) 10:30-16:30

 会  場:オームビル(東京都千代田区神田錦町3‐1)
          【地下鉄】
             東西線『竹橋駅』徒歩3分
             三田線・新宿線・半蔵門線『神保町駅』徒歩7分
             新宿線・千代田線『小川町駅』徒歩7分
             丸ノ内線『淡路町駅』徒歩8分
          【JR】
             中央線・山手線・京浜東北線『神田駅』徒歩12分
             中央線・総武線『御茶ノ水駅』徒歩11分


受 講 料:
1人様受講の場合 46,000円[税別]/1名

     1口でお申込の場合 57,000円[税別]/1口(3名まで受講可能)


画像認識セミナー日程表  新宣伝セミナー日程表


 講 師


 
曽我部 東馬 博士 


   電気通信大学
     i-パワードエネルギーシステム研究センター&基盤理工学専攻 准教授
    兼任 (株)GRID 最高技術顧問 
              
 

    【経歴・研究内容・専門・ご活動など】
      物理学の専門家で、東京大学物性研究所、国立分子研究所で学び、
      ドイツ マックス・プランク研究所、イギリス ケンブリッジで働いた後、
      2009年に一旦研究分野から離れ、(株)グリッドの共同設立者となり会社を立ち上げる。
      その後、東京大学 先端科学技術研究センターに研究の場所を移し、
      特任准教授として量子構造半導体デバイスの開発及びその理論計算、人工知能の研究を行う。
      2016年より電気通信大学の准教授および(株)GRIDの最高技術顧問を兼任。
      現在は、再生エネルギー最適化問題と人工知能のアルゴリズム開発、
      深層強化学習フレームワーク∞ReNomの開発に従事する。


    【講師WebSite】
         http://cluster-iperc.matrix.jp/ja/
         http://www.gridpredict.jp/

    【セミナーの概要】
       2016年、世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、
      日本を含め世界中でAIに対する期待が高まっています。また昨年、AlphaGoの
      シリーズにAlphaGo Zero とAlphaZeroが現れ、人間の経験を使用せずscratchから
      強くなるという典型的な強化学習手法が学術産業界から一層注目を集めています。
       AIの研究や将来のビジネスチャンスを踏まえたAIの応用を真剣に検討されている
      方々にとっては、深層学習の先にある「深層強化学習手法」の基本原理をしっかり
      理解することがマストといえるでしょう。しかし現状としては、深層強化学習手法を
      わかりやすく説明している資料はなかなか見当たりません。

       本セミナーはこのような現状を踏まえ、深層強化学習の基本と応用において下記を
      ポイントに講義の内容を構成しました。
      【1】最も基本となる強化学習の中核アルゴリズムについて、例題と「動画」を通して、
         アルゴリズムのコードを砕きながらなるべくわかりやすく説明します。
      【2】強化学習と深層学習の架け橋となる関数近似器の説明について工夫を加えます。
        難解といわれる「深層強化学習」をよりわかり易く理解するために、
        まず「簡易型の線形回帰近似モデル」を応用した強化学習手法について簡易デモ
        などを用いてわかりやすく説明します。これによりニューラルネットワーク近似
        モデルを使用する深層強化学習への理解が更に深まることを期待します。
      【3】深層強化学習はニューラルネットワークに適した新しいアルゴリズムが近年、多数
        提案され、従来の強化学習手法より著しく向上した学習結果が得られています。
        本セミナーは最新深層強化学習アルゴリズムの理論土台になる確率方策勾配と
        決定的方策勾配法の違いを徹底的に分析し、簡易モデルを通してわかりやすく
        説明します。
      【4】担当講師の実際の研究内容を踏まえ、現場での深層強化学習の応用ノウハウと経験を解説し、
        受講者の皆様がすぐ役立つスキルを持ち帰ることができるよう内容を準備します。
 
       これまで、延120人に深層強化学習を含めた強化学習の入門講義を実践した経験を元に、
      様々な背景を持つ受講者のみなさんにとって「どこが難しく感じるのか」あるいは「どこを
      もっと説明してほしいのか」を配慮。目的に合わせて、理解しやすく、実際に役立てられる
      ように講義内容の難易度を調整しています。本セミナーを通して、現在、話題の深層学習の
      先にある「深層強化学習」の基本知識と応用情報を入手し、是非、研究やビジネスに活用して
      頂ければ幸いです。


   <得られる知識・技術>
      ・強化学習の基本原理と要素技術の基本知識の習得
      ・深層学習の基本原理と要素技術の基本知識の習得
      ・深層強化学習の基本原理と応用に関する知見の習得
      ・最先端最適化技術の可能性と問題点についての知見を習得



 講義項目


  第1部 はじめに
    1.1 強化学習の基本概念
    1.2 強化学習・深層学習および深層強化学習の特徴と違い
    1.3 深層強化学習により可能となること
    1.4 強化学習における探索と利用のジレンマ
    1.5 多腕バンディット問題の解法をわかりやすく説明
      ・Epsilon-greedy
      ・最適初期値設定法
      ・UCB1
      ・Bayesian/Thompson 法の詳細
    1.6簡易デモ(python):Gridworld(上記4種類解法の実行:直感的に理解する)

  第2部 基本概念:マルコフ決定過程(MDP)の基本原理のポイント
    2.1 マルコフ性とは
    2.2 平均という簡単な概念からMDPを学ぶ
    2.3 MDPの定義と式の導き方
    2.4 状態遷移確率と行動確率の違い
    2.5 価値関数V(s)と状態行動価値関数[Q(s,a)]の定義
    2.6 簡易演習デモ(python)1:Gridworld(式を理解するために)
    2.7 最適状態価値関数V_* (s)のポイント
    2.8 最適状態行動価値関数Q_* (s,a)のポイント
    2.9 簡易デモ(python)2:Gridworld(式を理解する)
    2.10 ディスカッション:最適性と近似性について

  第3部 中核:強化学習におけるMDP問題の解法
    3.1 動的計画法の解説と入門
      ・最適な方策の探索手法をわかりやすく説明
        ・方策反復法による最適状態価値関数を求める
        ・価値反復法による最適状態価値関数を求める
      ・簡易デモ(python):Gridworld(4種類解法の実行と結果比較:概念を理解する)
    3.2 Monte-Carlo(MC)法をわかりやすく解説
      ・モデル法とモデルフリー法のちがい
      ・MC法による最適状態行動価値関数Q(s,a)の求め方とポイント
      ・簡易デモ(python):Gridworld(2種類MC法の実行と比較:概念を理解する)
    3.3 TD学習手法のポイントと入門
      ・SARSA法の説明と式の導きかた
      ・Q-学習法の説明と式の導きかた
      ・On-PolicyとOff-Policyを詳しく説明
      ・簡易デモ(python):Gridworld(3種類TD法の実行と比較:概念を理解する)

  第4部 拡張:強化学習における関数近似手法とは(入門編)
    4.1 Tabular法(表形式手法)と近似解法のちがい
    4.2 回帰モデルと誤差関数をあらためて復習
    4.3 最急降下勾配法とMC法との関連性をわかりやすく説明
    4.4 疑似勾配(Semi-Gradient)とは
    4.5 簡単な線形回帰モデルに基いたMC法による状態価値関数V(s,θ)を求める
    4.6 簡単な非線形回帰モデルに基いたTD(0)法によるV(s,θ)を求める
    4.7 簡単な非線形回帰モデルに基いたSARSA法によるV(s,θ)を求める
    4.8 簡易デモ(python):Gridworld(回帰近似MDP解法の実行:直感的理解)

  第5部 最前線:深層強化学習の基本概念と最重要ポイント
    5.1 簡易型ニューラルネットワークを応用したQ-学習手法の説明
    5.2 深層Q-学習(DQN)の基本ポイント
    5.3 連続動作空間における強化学習のポイント
    5.4 方策勾配法の基本と式の導き方
    5.5 ガウシアン型行動確率分布の導入
    5.6 方策勾配法による連続動作空間における強化学習の簡易説明
    5.7 深層Actor-Critic法の基本と実行のコツ
    5.8 確率方策勾配法と決定的方策勾配の比較
    5.9 決定的方策勾配DDPGの長所と短所について分析
    5.10 簡易実演デモ(python): Mountain car, Cartpole, Atariなど (概念の理解)

  第6部 応用:強化学習と深層強化学習の応用事例
    6.1 蓄電池充放電制御における強化学習の応用事例
    6.2 混合整数計画問題における深層強化学習応用事例
    6.3 PID制御素子における強化学習の応用事例 

   □全体のまとめと質疑応答・名刺交換□



 お1人様      受講申込要領 1口(1社3名まで) 受講申込要領  セミナー 総合日程 画像認識 セミナー日程 新宣伝 セミナー日程