佐藤さん卒論
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
開始行:
[[技術資料]]
大規模言語モデルに組み込む動的適応プルーニングの提案手法
*目次 [#e890b3d5]
#CONTENTS
*目的 [#x38aa8d3]
莫大なパラメータを保持するLLMは、推論時間や消費電力に課題...
理由として、不必要なパラメータも計算リソースとして含まれ...
そのため、本研究の目的はそのような不必要なパラメータを削...
*使うモジュールのインストール [#u1248302]
***使用するモジュール [#ta19c6d2]
|モジュール|version|用途|
|torch||PyTorchはLlama2のような大規模言語モデルのトレーニ...
|transformers||モデルの読み込み、トレーニング、評価|
|datasets||データセットのロードと前処理|
|accelerate||分散学習や混合精度トレーニング|
|bitsandbytes||量子化トレーニングや8ビット最適化に利用.|
|scipy||統計的な操作や最適化に利用|
|optimum|| Hugging Faceのエコシステムで、モデルの最適化(...
モジュールのインストールはコマンドプロンプトでpip install...
バージョンまで指定する場合はコマンドプロンプトでpip insta...
でインストールする
*事前学習モデル、データセットのダウンロード [#ob3ca958]
本研究では、手動でのデータ収集(スクレイピング等)や事前...
Pythonの transformers および datasets ライブラリの機能(f...
※なお、使用するGPT-2およびWikiText-2はパブリック公開され...
***Hugging Face Hubとは [#ta19c6d2]
自然言語処理(NLP)や生成AI分野を中心に、世界中のAIモデル...
***Transformer [#ta19c6d2]
2017年にGoogleの研究者らによって発表された、ニューラルネ...
Transformerの大きな特徴は、「Attention Mechanism」を主体...
***モデルのダウンロード方法 [#ta19c6d2]
今回はGPT-2というモデルを採用した。
transformersモジュール経由で自動ダウンロード。
from transformers import AutoModelForCausalLM, AutoToken...
# ここでモデルとトークナイザーをダウンロード&読み込み
tokenizer = AutoTokenizer.from_pretrained("gpt2")
model = AutoModelForCausalLM.from_pretrained("gpt2")
このコードでは「Hugging Face Hub」からGPT-2モデルをGoogle...
***データセットのダウンロード方法 [#ta19c6d2]
今回はwikipediaのデータセットを使用した。
datasetsモジュール経由で自動ダウンロードされています。
from datasets import load_dataset
# ここでデータセットをダウンロード&読み込み
dataset = load_dataset("wikitext", "wikitext-2-raw-v1")
Hugging Face のサーバーからWikiText-2のテキストデータがダ...
*実験手法と実行手順 [#experimental_methods]
本研究では、提案手法の有効性を検証するため、「ベースライ...
以下に各手法の目的、特徴、および実行方法をまとめる。
**ベースライン(従来手法)の実行 [#baseline]
ベースライン手法では、高度なプルーニング制御や特殊な更新...
目的:
提案手法(AGIPやTA)を評価するための基準(ベンチマーク)...
特徴:
標準的なオプティマイザ(AdamW等)のみを用いてファインチュ...
Lossに応じた自動調整機能や、平坦な地形での収束を早める機...
実行手順:
ベースライン実行用のノートブック(または該当セル)を実行...
**AGIP(適応型プルーニング)の実行 [#agip]
AGIP(Adaptive Gradient-based Importance Pruning)では、...
目的:
学習状態に応じた安全なプルーニングを実現し、モデルの崩壊...
特徴:
単純な重みの絶対値ではなく、「重みと勾配の積の絶対値」を...
さらに、Lossが大きい時(誤差が大きい時)にはプルーニング...
実行手順:
AGIP実行用のコードを起動する。学習プロセスにおいて、指定...
**AGIP+TA(提案手法)の実行 [#agip_ta]
本研究のコアとなる提案手法であり、上記のAGIPに「ターミナ...
目的:
AGIPによるパラメータ削減の安全性に加え、TA項による「有限...
特徴:
重みの更新式に、TA項(分子に誤差のβ乗、分母に勾配ノルムの...
これにより、勾配が消失しやすい平坦な領域(プラトー)に陥...
なお、TA項の反発によって一時的にLossが上昇した場合、AGIP...
実行手順:
ノートブック「TA+AGIP30%_maxgrad4.0.ipynb」を実行する。
定義された「AGIP_TA_Trainer」クラスを通じて、TA項を組み込...
終了行:
[[技術資料]]
大規模言語モデルに組み込む動的適応プルーニングの提案手法
*目次 [#e890b3d5]
#CONTENTS
*目的 [#x38aa8d3]
莫大なパラメータを保持するLLMは、推論時間や消費電力に課題...
理由として、不必要なパラメータも計算リソースとして含まれ...
そのため、本研究の目的はそのような不必要なパラメータを削...
*使うモジュールのインストール [#u1248302]
***使用するモジュール [#ta19c6d2]
|モジュール|version|用途|
|torch||PyTorchはLlama2のような大規模言語モデルのトレーニ...
|transformers||モデルの読み込み、トレーニング、評価|
|datasets||データセットのロードと前処理|
|accelerate||分散学習や混合精度トレーニング|
|bitsandbytes||量子化トレーニングや8ビット最適化に利用.|
|scipy||統計的な操作や最適化に利用|
|optimum|| Hugging Faceのエコシステムで、モデルの最適化(...
モジュールのインストールはコマンドプロンプトでpip install...
バージョンまで指定する場合はコマンドプロンプトでpip insta...
でインストールする
*事前学習モデル、データセットのダウンロード [#ob3ca958]
本研究では、手動でのデータ収集(スクレイピング等)や事前...
Pythonの transformers および datasets ライブラリの機能(f...
※なお、使用するGPT-2およびWikiText-2はパブリック公開され...
***Hugging Face Hubとは [#ta19c6d2]
自然言語処理(NLP)や生成AI分野を中心に、世界中のAIモデル...
***Transformer [#ta19c6d2]
2017年にGoogleの研究者らによって発表された、ニューラルネ...
Transformerの大きな特徴は、「Attention Mechanism」を主体...
***モデルのダウンロード方法 [#ta19c6d2]
今回はGPT-2というモデルを採用した。
transformersモジュール経由で自動ダウンロード。
from transformers import AutoModelForCausalLM, AutoToken...
# ここでモデルとトークナイザーをダウンロード&読み込み
tokenizer = AutoTokenizer.from_pretrained("gpt2")
model = AutoModelForCausalLM.from_pretrained("gpt2")
このコードでは「Hugging Face Hub」からGPT-2モデルをGoogle...
***データセットのダウンロード方法 [#ta19c6d2]
今回はwikipediaのデータセットを使用した。
datasetsモジュール経由で自動ダウンロードされています。
from datasets import load_dataset
# ここでデータセットをダウンロード&読み込み
dataset = load_dataset("wikitext", "wikitext-2-raw-v1")
Hugging Face のサーバーからWikiText-2のテキストデータがダ...
*実験手法と実行手順 [#experimental_methods]
本研究では、提案手法の有効性を検証するため、「ベースライ...
以下に各手法の目的、特徴、および実行方法をまとめる。
**ベースライン(従来手法)の実行 [#baseline]
ベースライン手法では、高度なプルーニング制御や特殊な更新...
目的:
提案手法(AGIPやTA)を評価するための基準(ベンチマーク)...
特徴:
標準的なオプティマイザ(AdamW等)のみを用いてファインチュ...
Lossに応じた自動調整機能や、平坦な地形での収束を早める機...
実行手順:
ベースライン実行用のノートブック(または該当セル)を実行...
**AGIP(適応型プルーニング)の実行 [#agip]
AGIP(Adaptive Gradient-based Importance Pruning)では、...
目的:
学習状態に応じた安全なプルーニングを実現し、モデルの崩壊...
特徴:
単純な重みの絶対値ではなく、「重みと勾配の積の絶対値」を...
さらに、Lossが大きい時(誤差が大きい時)にはプルーニング...
実行手順:
AGIP実行用のコードを起動する。学習プロセスにおいて、指定...
**AGIP+TA(提案手法)の実行 [#agip_ta]
本研究のコアとなる提案手法であり、上記のAGIPに「ターミナ...
目的:
AGIPによるパラメータ削減の安全性に加え、TA項による「有限...
特徴:
重みの更新式に、TA項(分子に誤差のβ乗、分母に勾配ノルムの...
これにより、勾配が消失しやすい平坦な領域(プラトー)に陥...
なお、TA項の反発によって一時的にLossが上昇した場合、AGIP...
実行手順:
ノートブック「TA+AGIP30%_maxgrad4.0.ipynb」を実行する。
定義された「AGIP_TA_Trainer」クラスを通じて、TA項を組み込...
ページ名: