4年セミナー・4年プロジェクト


[UP]

Notice for the remote access.

お知らせ

この授業の情報は、Web サイト ( http://ynitta.com/class/ ) と GoogleDrive に置きます。

GoogleDrive には @gm.tsuda.ac.jp のアカウントでアクセスして下さい。 当初は@gm.tsuda.ac.jp全員がアクセス可能ですが、ある時点で履修登録者のみに制限します

pdf形式の資料を配布する際は GoogleDrive 中の pdf/ フォルダに置きます。 また、授業中に書き込みを行ったpdf形式のテキストなど、追加の資料は GoogleDrive のhandwritings/ フォルダに置くことがあります。

Web サイト http://ynitta.com/class/ 上の「課題提出Web」などの学内専用ページに学外からアクセスする場合は、 GoogleDrive の passwd.txt に記載されている [Web用] ユーザ名 と パスワード を利用して下さい。


講義内容

前期は卒業研究のテーマに関する本を輪講します。 発表担当は順番に割当てます。 当番の学生が本の内容を説明し、他の学生がそれに質問する形で 授業が進みますので、自分の担当箇所を必ず予習をしてきて下さい。

後期は、前期で学んだ知識を元に自分で考案したシステムを開発し、 その成果を卒業論文にまとめます。


LLM (大規模言語モデル) とプロンプトエンジニアリング

LLM (Large Language Model, 大規模言語モデル)は、大規模なテキストデータで訓練された大規模なパラメータで構成されるニューラルネットワークです。パラメータ数とテキストデータの拡大により2020年以降性能が飛躍的に向上し、ChatGPT-3.5 (2022) の登場により注目を集めました。この背後にある技術が Transformers (2017) です。

従来、言語などの時系列データを扱うために、中間層に再帰構造を持つ深層学習モデル Recurrent Neural Network (RNN, 1986) が使われてきました。その後、「入力の情報を全て出力側に渡し重要度のスコア付けを学習する」ことで「系列データの特定の部分に注意を向けるように学習させる仕組み」であるAttention (2015)が導入されました。

Transformer (2017) は系列データから別の系列データに変換する深層学習モデルですが、RNNを使わずに Attention のみで構築することによりGPUを利用した学習の並列化が可能になり、大規模な自然言語処理モデルを学習できるようになりました。Google 翻訳や BERT (2018)/ GPT-2 (2019)/ GPT-3 (2020)/ GPT-3.5 (2022)/ GPT-4 (2023) などで使われています。

BERT (2018) は、Transformer ベースの encoder 部分のみを重ねた構造の深層学習モデルで、 文章内のマスクした単語を予測することを得意とします。 学習を「事前学習」と「ファインチューニング」の2段階に分けることにより、効率良い学習が可能です。

GPT-2 (2019) は Transformer の decode 部のみを重ねた構造のモデルで、任意の文章に続く次の単語を予測する処理を得意とします。 「ファインチューニング」に加えて「Zero Shot (任意の文章に続く次の文章を予測する能力を使って、未学習のタスクの推論を行う)」手法を用いています。

GPT-3 (2020) では「ファインチューニング」に加えて「プロンプトプログラミング (自然言語でどのような知識をどのように使いたいかを例示する)」を用いて精度を向上させます。

GPT-3.5 (2022) では、人間のフィードバックによる強化学習を用いて、言語モデルと人間の指示の整合性を高めたモデルです。

GPT-4 (2023) は、テキストだけでなく画像も入力可能となりました。

Transformer は自然言語処理用に生まれた深層学習モデルですが、画像分類や画像生成に使われて目覚ましい成果を上げています。 Image GPT (2020) -> CLIP (2021) -> DALL-E (2021) -> Dall-E 2 (2022)

本ゼミでは、ChatGPT に至るまでの技術的な変遷を系統立てて理解し、自然言語処理の代表的なタスク(感情分析、自然言語推論、意味的類似度計算、多肢選択式質問応答など)についてtransformers を用いて実装する方法について学びます。


以下の情報は学内LANのみからアクセス可能です。学外からのアクセスはパスワードが必要です。


授業日程 および 進捗状況

第1ターム (木曜2限)

教室: 対面授業@M202(実習室)

第2ターム (木曜2限) (可能ならば第3タームの代替日とする)

第3ターム(木曜2限, 火曜5限)

第4ターム (木曜2限, 火曜5限)


出席状況


教科書

(注意)教科書は変更される場合があります。テキストを購入する前に担当教員に問い合わせてください。

大規模言語モデル入門
山田 育矢 (監修), 鈴木 正敏 (著), 山田 康輔 (著), 李凌寒 (著)
出版社 : 技術評論社 (2023/7/29)
ISBN-10 : 4297136333
ISBN-13 : 978-4297136338
本の情報: Amazon Japan   (Amazonの説明より抜粋) 大規模言語モデルの理論と実装の両方を解説した入門書。大規模言語モデルの技術や自然言語処理の課題について理解し、実際の問題に対処できるようになることを目指す。
本の情報: 技術評論社
サポートページ(ソースコード、正誤表含む): github
個人メモ (nitta)

OpenAI GPT-4/ChatGPT/LangChain 人工知能プログラミング実践入門
布留川 英一 (著), 佐藤 英一 (編集)
出版社: ボーンデジタル (2023/7/4)
発売日: 2023/7/4
ISBN-10: 4862465595
ISBN-13: 978-4862465597
本の情報: Amazon Japan   ChatGPTをはじめとする生成AIをカスタマイズし独自活用するための1冊
サポートページ(ソースコード, 正誤表を含む): ボーン・デジタル
学内のみアクセス可: 正誤表
個人メモ(nitta)

OpenAI API は2023年11月に version 1.0 が公開されてAPが大幅に変更されました。 上記の書籍は今年度使用予定でしたが、2024年4月時点でかなりのコードが動かなくなっているために使用を取りやめます。

Llama と LangChain に関しては、公式サイトのチュートリアルを参照することにします。


OpenAI GPT-4/ChatGPT/LangChain 人工知能プログラミング実践入門
布留川 英一 (著), 佐藤 英一 (編集)
出版社: ボーンデジタル (2024/2/22)
ISBN-10: 4862465943
ISBN-13: 978-4862465948
本の情報: Amazon Japan   ボーン・デジタル
ソースコードのダウンロード: 公式のサポートサイト
個人メモ (nitta)

2番目の書籍の代わりに上記の本を使います。 2024年1月に出版された本ですが、API 変更により2024年7月2日時点で6-3章(Assistant API の Retrieval)が動作しなくなっています。 これに関しては、API 変更後の代替の file_serach を使って動作させる方法を説明します。


参考書

今年度に使用していない参考書へのリンクが残っていたので、削除しました。

Memo