この授業の情報は、Web サイト ( http://ynitta.com/class/ ) と GoogleDrive に置きます。
GoogleDrive には @gm.tsuda.ac.jp のアカウントでアクセスして下さい。 当初は@gm.tsuda.ac.jp全員がアクセス可能ですが、ある時点で履修登録者のみに制限します。
pdf形式の資料を配布する際は GoogleDrive 中の pdf/ フォルダに置きます。 また、授業中に書き込みを行ったpdf形式のテキストなど、追加の資料は GoogleDrive のhandwritings/ フォルダに置くことがあります。
Web サイト http://ynitta.com/class/ 上の「課題提出Web」などの学内専用ページに学外からアクセスする場合は、 GoogleDrive の passwd.txt に記載されている [Web用] ユーザ名 と パスワード を利用して下さい。
前期は卒業研究のテーマに関する本を輪講します。 発表担当は順番に割当てます。 当番の学生が本の内容を説明し、他の学生がそれに質問する形で 授業が進みますので、自分の担当箇所を必ず予習をしてきて下さい。
後期は、前期で学んだ知識を元に自分で考案したシステムを開発し、 その成果を卒業論文にまとめます。
LLM (Large Language Model, 大規模言語モデル)は、大規模なテキストデータで訓練された大規模なパラメータで構成されるニューラルネットワークです。パラメータ数とテキストデータの拡大により2020年以降性能が飛躍的に向上し、ChatGPT-3.5 (2022) の登場により注目を集めました。この背後にある技術が Transformers (2017) です。
従来、言語などの時系列データを扱うために、中間層に再帰構造を持つ深層学習モデル Recurrent Neural Network (RNN, 1986) が使われてきました。その後、「入力の情報を全て出力側に渡し重要度のスコア付けを学習する」ことで「系列データの特定の部分に注意を向けるように学習させる仕組み」であるAttention (2015)が導入されました。
Transformer (2017) は系列データから別の系列データに変換する深層学習モデルですが、RNNを使わずに Attention のみで構築することによりGPUを利用した学習の並列化が可能になり、大規模な自然言語処理モデルを学習できるようになりました。Google 翻訳や BERT (2018)/ GPT-2 (2019)/ GPT-3 (2020)/ GPT-3.5 (2022)/ GPT-4 (2023) などで使われています。
BERT (2018) は、Transformer ベースの encoder 部分のみを重ねた構造の深層学習モデルで、 文章内のマスクした単語を予測することを得意とします。 学習を「事前学習」と「ファインチューニング」の2段階に分けることにより、効率良い学習が可能です。
GPT-2 (2019) は Transformer の decode 部のみを重ねた構造のモデルで、任意の文章に続く次の単語を予測する処理を得意とします。 「ファインチューニング」に加えて「Zero Shot (任意の文章に続く次の文章を予測する能力を使って、未学習のタスクの推論を行う)」手法を用いています。
GPT-3 (2020) では「ファインチューニング」に加えて「プロンプトプログラミング (自然言語でどのような知識をどのように使いたいかを例示する)」を用いて精度を向上させます。
GPT-3.5 (2022) では、人間のフィードバックによる強化学習を用いて、言語モデルと人間の指示の整合性を高めたモデルです。
GPT-4 (2023) は、テキストだけでなく画像も入力可能となりました。
Transformer は自然言語処理用に生まれた深層学習モデルですが、画像分類や画像生成に使われて目覚ましい成果を上げています。 Image GPT (2020) -> CLIP (2021) -> DALL-E (2021) -> Dall-E 2 (2022)
本ゼミでは、ChatGPT に至るまでの技術的な変遷を系統立てて理解し、自然言語処理の代表的なタスク(感情分析、自然言語推論、意味的類似度計算、多肢選択式質問応答など)についてtransformers を用いて実装する方法について学びます。
以下の情報は学内LANのみからアクセス可能です。学外からのアクセスはパスワードが必要です。
「卒論概要」のページ数は 2~4 ページとする。 本文は 1 段組もしくは 2 段組どちらでも可。フォントサイズは タイトル:16 ポイント 氏名・ゼミ名:12 ポイント 本文:10.5 ポイント
x 人での発表時間は (2x+6) 分で、質疑応答1分含む.つまり 1名:7分発表 2名:9分発表 3名:11分発表 4名:13分発表
(注意)教科書は変更される場合があります。テキストを購入する前に担当教員に問い合わせてください。
大規模言語モデル入門 山田 育矢 (監修), 鈴木 正敏 (著), 山田 康輔 (著), 李凌寒 (著) 出版社 : 技術評論社 (2023/7/29) ISBN-10 : 4297136333 ISBN-13 : 978-4297136338本の情報: Amazon Japan (Amazonの説明より抜粋) 大規模言語モデルの理論と実装の両方を解説した入門書。大規模言語モデルの技術や自然言語処理の課題について理解し、実際の問題に対処できるようになることを目指す。 本の情報: 技術評論社 サポートページ(ソースコード、正誤表含む): github 個人メモ (nitta) |
OpenAI GPT-4/ChatGPT/LangChain 人工知能プログラミング実践入門 布留川 英一 (著), 佐藤 英一 (編集) 出版社: ボーンデジタル (2023/7/4) 発売日: 2023/7/4 ISBN-10: 4862465595 ISBN-13: 978-4862465597本の情報: Amazon Japan ChatGPTをはじめとする生成AIをカスタマイズし独自活用するための1冊 サポートページ(ソースコード, 正誤表を含む): ボーン・デジタル 学内のみアクセス可: 正誤表 個人メモ(nitta) |
OpenAI API は2023年11月に version 1.0 が公開されて API が大幅に変更されました。 上記の書籍は今年度使用予定でしたが、2024年4月時点でかなりのコードが動かなくなっているために使用を取りやめます。
Llama と LangChain に関しては、公式サイトのチュートリアルを参照することにします。
OpenAI GPT-4/ChatGPT/LangChain 人工知能プログラミング実践入門 布留川 英一 (著), 佐藤 英一 (編集) 出版社: ボーンデジタル (2024/2/22) ISBN-10: 4862465943 ISBN-13: 978-4862465948本の情報: Amazon Japan ボーン・デジタル ソースコードのダウンロード: 公式のサポートサイト 個人メモ (nitta) |
2番目の書籍の代わりに上記の本を使います。 2024年1月に出版された本ですが、API 変更により2024年7月2日時点で6-3章(Assistant API の Retrieval)が動作しなくなっています。 これに関しては、Retrieval の代替として Assistant APIに導入された file_serach を使って動作させる方法を説明します。