水上_backup/修士研究参考サイト/BERT の履歴(No.5)

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
水上_backup/修士研究参考サイト/BERT へ行く。
- 1 (2024-11-28 (木) 14:24:09)
- 2 (2024-11-28 (木) 14:48:09)
- 3 (2024-11-28 (木) 18:03:54)
- 4 (2024-12-02 (月) 16:14:13)
- 5 (2024-12-03 (火) 13:55:30)
- 6 (2024-12-03 (火) 17:37:59)

・自然言語処理モデル（BERT）を利用した日本語の文章分類　〜GoogleColab & Pytorchによるファインチューニング〜
→bertの流れについて書いてある
https://qiita.com/takubb/items/fd972f0ac3dba909c293

・Twitterにおけるデータ分析

https://leadinge.co.jp/rd/2022/04/27/1888/

SHAPで2値分類結果を解釈する方法とプロットの種類

https://www.genspark.ai/spark/shap%E3%81%A72%E5%80%A4%E5%88%86%E9%A1%9E%E7%B5%90%E6%9E%9C%E3%82%92%E8%A7%A3%E9%87%88%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%A8%E3%83%97%E3%83%AD%E3%83%83%E3%83%88%E3%81%AE%E7%A8%AE%E9%A1%9E/02799dc1-69ba-413c-a9cf-72da67f92cd4

BERTとSHAPを用いた感情分析の流れ

1. 入力データ

入力文を以下の形式で準備します。

**例文**: 「この映画は素晴らしく、ストーリーも感動的だ。」

**トークナイズ処理**:

 - トークナイザーを使用して文をトークン化。
 - トークン列: `[CLS] この 映画 は 素晴らしく 、 ストーリー も 感動 的 だ 。 [SEP]`
 - ID列: `[101, 1234, 5678, 2345, 6789, 3456, 7890, 4567, 8910, 5679, 9123, 102]`

**埋め込みベクトル**:

 各トークンIDを、事前学習済みの埋め込み層で次元 \(d_{model} = 768\) のベクトルに変換。
 \[
 X = [x_{[CLS]}, x_{\text{この}}, x_{\text{映画}}, \ldots, x_{[SEP]}]
 \]
 - \(X \in \mathbb{R}^{n \times d_{model}}\)（\(n\): トークン数, \(d_{model}\): 次元数）

2. Multi-Head Attentionの処理ステップ

(1) Query, Key, Valueの計算

埋め込みベクトル \(X\) から学習可能な重み行列 \(W_Q, W_K, W_V\) を用いて以下を計算。 \[ Q = XW_Q, \quad K = XW_K, \quad V = XW_V \]

**重み行列の次元**:

 - \(W_Q, W_K, W_V \in \mathbb{R}^{d_{model} \times d_k}\)（\(d_k = 64\)などヘッドの次元）

**出力形状**:

 - \(Q, K, V \in \mathbb{R}^{n \times d_k}\)

(2) 注意スコアの計算

Query \(Q\) と Key \(K\) の内積を計算し、スコアを正規化します。 \[ \text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \]

\(\frac{QK^T}{\sqrt{d_k}} \in \mathbb{R}^{n \times n}\): スケーリング後の注意スコア。
\(\text{Softmax}\): 各行を確率分布に変換。
出力形状: \( \text{Attention} \in \mathbb{R}^{n \times d_k}\)

(3) マルチヘッド処理

複数のヘッドで並行して注意を計算し、結合後に線形変換 \(W_O\) を適用。 \[ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W_O \]

\(W_O \in \mathbb{R}^{h \cdot d_k \times d_{model}}\): 統合後の線形変換行列。

(4) 残差接続と正規化

Multi-Head Attentionの出力を入力 \(X\) に加算し、Layer Normalizationを適用。 \[ \text{Output} = \text{LayerNorm}(X + \text{MultiHead}(Q, K, V)) \]

3. SHAPを用いた重要単語の可視化

(1) モデル出力

最終的なモデル出力として、ポジティブとネガティブのスコアを取得。

出力例: \([0.15, 0.85]\)（ポジティブの確率が0.85）

(2) SHAP値の計算

SHAPを用いて各トークンの予測への寄与度を計算。 \[ \text{SHAP値} = [\text{SHAP}_{[CLS]}, \text{SHAP}_{\text{この}}, \ldots, \text{SHAP}_{[SEP]}] \]

**例**:

 - **「素晴らしく」**: \(+0.35\)
 - **「感動的」**: \(+0.30\)

(3) 可視化

重要度の高い単語を視覚的に表示。