☆☆☆Web配信セミナー☆☆☆
『大規模言語モデルと
マルチモーダル基盤モデルの技術動向』
S231220AW1
☆☆☆本セミナーは、Zoomを使用して、行います。☆☆☆
開催日時:2023年12月20日(水)10:30-16:30
受 講 料:お1人様受講の場合 53,900円[税込]/1名
1口でお申込の場合 66,000円[税込]/1口(3名まで受講可能)
★本セミナーの受講にあたっての推奨環境は「Zoom」に依存しますので、ご自分の環境が対応しているか、
お申込み前にZoomのテストミーティング(http://zoom.us/test)にアクセスできることをご確認下さい。
★インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。
講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。
★受講中の録音・撮影等は固くお断りいたします。
速水 悟(はやみずさとる) 氏
早稲田大学 研究院教授(博士(工学))
<略歴> |
1981年 東京大学大学院 工学系研究科 修士課程修了。
同年 通商産業省工業技術院 電子技術総合研究所(現、国立研究開発法人産業技術総合研究所)。
1989年 カーネギーメロン大学 客員研究員。
1994年 フランス国立科学研究院機械情報学研究所 客員研究員。 2002年 岐阜大学 教授。
2021年 早稲田大学 グリーンコンピューティングシステム研究機構 知覚情報システム研究所 上級研究員
研究院教授。
現在に至る。 |
<研究分野> |
知覚情報処理/メディア情報学/機械学習。
|
|
本セミナーでは、大規模言語モデルについて、画像と言語のマルチモーダル化を中心として、最新の技術動向を解説します。
はじめに、基礎となる自己教師あり学習を解説します。つぎに大規模言語モデルの応用として、推論への適用とマルチモーダル化の技術を解説します。最新の動向として
2023年に参加した国際会議から、画像分野(CVPR2023, ICCV2023)とデータサイエンス分野(KDD2023)の関連する研究を紹介します。
|
1 自己教師あり学習の手法
1.1 対比学習による潜在空間への変換
1.2 マスクを用いた学習
1.3 自己回帰型モデル(次の要素を予測する)
2 大規模言語モデル
2.1 機械翻訳モデルとしてのTransformer
2.2 BERT(Bi-directional Encoder Representations from Transformers)
2.3 GPT(Generative Pre-trained Transformer)
2.4 プロンプトによる指示の有効性(GPT-3:Few shot learner)
3 対話型AI
3.1 強化学習の役割(InstructGPT)
3.2 対話型 AI(ChatGPT) の登場とその後の発展
3.3 思考の連鎖(Chain of Thought)と多段推論への展開
3.4 企業における活用には格差が存在する
4 マルチモーダル基盤モデル
4.1 画像分野における言語処理の重要性
4.2 画像と言語のマルチモーダル基盤モデル
4.3 画像認識・検出・領域分割における言語の役割
4.4 マルチモーダルエージェントと言語による指示
4.5 産業分野への適用の可能性について
5 データサイエンス分野における技術動向
5.1 KDD 2023(Knowledge Discovery and Data Mining)
5.2 大規模言語モデルは様々な分野に影響を与えている
5.3 産業分野における応用事例
6 画像分野における技術動向
6.1 CVPR 2023(Computer Vision and Pattern Recognition)
6.2 ICCV 2023(International Conference on Computer Vision)
6.3 マルチモーダル基盤モデルに関連する研究の解説
6.4 画像分野における大規模言語モデルの展望