1口(1社3名まで受講可能)でのお申込は、

受講料 58,800円/1口 が格安となります。



~「平均」からはじめる基礎と応用~
強化学習アルゴリズム入門


 S190723K

   
 開催日時:2019年7月23日(火) 10:30-16:30

 会  場:オームビル(東京都千代田区神田錦町3‐1)
 
受 講 料:1人様受講の場合 46,000円[税別]/1名

     1口でお申込の場合 57,000円[税別]/1口(3名まで受講可能)


画像認識セミナー日程表  新宣伝セミナー日程表 


     ※ サブテキストとして「強化学習アルゴリズム入門」
        (曽我部東馬著、3,240円(税込)、オーム社)を使用します。
        お持ちでない方は、セミナー申し込み時に必要冊数を
        併せてお申込みください。



 講 師


 
曽我部 東馬 博士 


   電気通信大学
     i-パワードエネルギーシステム研究センター&基盤理工学専攻 准教授
    兼任 (株)GRID 最高技術顧問 
              
 

    【経歴・研究内容・専門・ご活動など】
      物理学の専門家で、東京大学物性研究所、国立分子研究所で学び、
      ドイツ マックス・プランク研究所、イギリス ケンブリッジで働いた後、
      2009年に一旦研究分野から離れ、(株)グリッドの共同設立者となり会社を立ち上げる。
      その後、東京大学 先端科学技術研究センターに研究の場所を移し、
      特任准教授として量子構造半導体デバイスの開発及びその理論計算、人工知能の研究を行う。
      2016年より電気通信大学の准教授および(株)GRIDの最高技術顧問を兼任。
      現在は、気象予測を含めた大規模発電・消費電力予測、製造搬送装置システムに
      おける搬送時間と渋滞予測、高速道路の長短期渋滞予測、製造装置における
      欠陥と故障予測などの研究開発に従事する。
      また、深層学習フレームワーク∞ReNomの開発に従事する。


    【講師WebSite】
         http://cluster-iperc.matrix.jp/ja/
         http://www.gridpredict.jp/

    

 講義項目

  第1章 平均から学ぶ強化学習の基本概念
    
1.0 はじめに
    1.1 平均と期待値
    1.2 平均と価値
    1.3 平均とマルコフ性
    1.4 平均によるベルマン方程式の導出
    1.5 平均によるモンテカルロ学習手法の導出
    1.6 平均によるTD法の導出

  第2章 各アルゴリズムの特徴と応用
    
2.0 はじめに
    2.1 方策π(a | S)
    2.2 動的計画法
    2.3 モンテカルロ法
    2.4 TD(0)法

  第3章 関数近似手法
    
3.0 はじめに
    3.1 関数近似の基本概念
    3.2 関数近似モデルを用いたV(St)の表現
    3.3 機械学習による価値関数の回帰
    3.4 モンテカルロ法を応用した価値関数回帰
    3.5 Td(0)-SARSA法を適用した行動状態価値関数の回帰
    3.6 Td(0)-Q法を応用した行動状態価値関数の回帰

  第4章 深層強化学習の原理と手法
    
4.1 TD-Q学習におけるNNによる行動価値関数回帰
    4.2 DQNによる行動状態価値関数近似
    4.3 確率方策勾配法
    4.4 決定型方策勾配法
    4.5 TRPO/PPO法
    4.6 まとめと展開




 お1人様      受講申込要領 1口(1社3名まで) 受講申込要領  セミナー 総合日程 画像認識 セミナー日程 新宣伝 セミナー日程