水上_backup/修士研究参考サイト/BERT の編集 | 奥原研究室・Rene研究室ログ

[[水上/修士研究参考サイト]]

3.1 &br;
https://aisuite.jp/column/bert/ &br;

・''自然言語処理モデル（BERT）を利用した日本語の文章分類　〜GoogleColab & Pytorchによるファインチューニング〜'' &br;
→bertの流れについて書いてある &br;
https://qiita.com/takubb/items/fd972f0ac3dba909c293 &br;&br;

・''Twitterにおけるデータ分析''&br;

https://leadinge.co.jp/rd/2022/04/27/1888/ &br;

SHAPで2値分類結果を解釈する方法とプロットの種類 &br;

https://www.genspark.ai/spark/shap%E3%81%A72%E5%80%A4%E5%88%86%E9%A1%9E%E7%B5%90%E6%9E%9C%E3%82%92%E8%A7%A3%E9%87%88%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%A8%E3%83%97%E3%83%AD%E3%83%83%E3%83%88%E3%81%AE%E7%A8%AE%E9%A1%9E/02799dc1-69ba-413c-a9cf-72da67f92cd4

bertの事前学習、ファインチューニングについて　&br;
https://deepsquare.jp/2020/09/bert/ &br;

* BERTとSHAPを用いた感情分析の流れ [#mf4a39da]

** 1. 入力データ [#u0b07fb8]
入力文を以下の形式で準備します。

- **例文**: 「この映画は素晴らしく、ストーリーも感動的だ。」
- **トークナイズ処理**:
  - トークナイザーを使用して文をトークン化。
  - トークン列: `[CLS] この 映画 は 素晴らしく 、 ストーリー も 感動 的 だ 。 [SEP]`
  - ID列: `[101, 1234, 5678, 2345, 6789, 3456, 7890, 4567, 8910, 5679, 9123, 102]`
- **埋め込みベクトル**:
  各トークンIDを、事前学習済みの埋め込み層で次元 \(d_{model} = 768\) のベクトルに変換。
  \[
  X = [x_{[CLS]}, x_{\text{この}}, x_{\text{映画}}, \ldots, x_{[SEP]}]
  \]
  - \(X \in \mathbb{R}^{n \times d_{model}}\)（\(n\): トークン数, \(d_{model}\): 次元数）

---

** 2. Multi-Head Attentionの処理ステップ [#jb8e2f51]

*** (1) Query, Key, Valueの計算 [#ebb5d4dc]
埋め込みベクトル \(X\) から学習可能な重み行列 \(W_Q, W_K, W_V\) を用いて以下を計算。
\[
Q = XW_Q, \quad K = XW_K, \quad V = XW_V
\]
- **重み行列の次元**:
  - \(W_Q, W_K, W_V \in \mathbb{R}^{d_{model} \times d_k}\)（\(d_k = 64\)などヘッドの次元）
- **出力形状**:
  - \(Q, K, V \in \mathbb{R}^{n \times d_k}\)

*** (2) 注意スコアの計算 [#u50ee9cf]
Query \(Q\) と Key \(K\) の内積を計算し、スコアを正規化します。
\[
\text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
\]
- \(\frac{QK^T}{\sqrt{d_k}} \in \mathbb{R}^{n \times n}\): スケーリング後の注意スコア。
- \(\text{Softmax}\): 各行を確率分布に変換。
- 出力形状: \( \text{Attention} \in \mathbb{R}^{n \times d_k}\)

*** (3) マルチヘッド処理 [#p39659d2]
複数のヘッドで並行して注意を計算し、結合後に線形変換 \(W_O\) を適用。
\[
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W_O
\]
- \(W_O \in \mathbb{R}^{h \cdot d_k \times d_{model}}\): 統合後の線形変換行列。

*** (4) 残差接続と正規化 [#wec5c56a]
Multi-Head Attentionの出力を入力 \(X\) に加算し、Layer Normalizationを適用。
\[
\text{Output} = \text{LayerNorm}(X + \text{MultiHead}(Q, K, V))
\]

---

** 3. SHAPを用いた重要単語の可視化 [#w111340f]

*** (1) モデル出力 [#hbc60440]
最終的なモデル出力として、ポジティブとネガティブのスコアを取得。
- 出力例: \([0.15, 0.85]\)（ポジティブの確率が0.85）

*** (2) SHAP値の計算 [#xcbb14d6]
SHAPを用いて各トークンの予測への寄与度を計算。
\[
\text{SHAP値} = [\text{SHAP}_{[CLS]}, \text{SHAP}_{\text{この}}, \ldots, \text{SHAP}_{[SEP]}]
\]
- **例**:
  - **「素晴らしく」**: \(+0.35\)
  - **「感動的」**: \(+0.30\)

*** (3) 可視化 [#m44ea269]
重要度の高い単語を視覚的に表示。

ニューラルネットワークの基礎 &br;
https://tutorials.chainer.org/ja/13_Basics_of_Neural_Networks.html

https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2020.01608/full

#memo(店のレビューにおけるクラスタごとのSHAPのbeeswarmプロットを表示するシステムをユーザに提供することで、以下のような洞察が得られると考えられます：\n\n### 1. **各クラスタの感情分析における特徴量の影響**\n   - Beeswarmプロットにより、各クラスタにおいて特定の単語（特徴量）が感情分析結果にどれほど影響を与えているかが視覚的に分かります。例えば、あるクラスタのレビューが「スタッフの態度」に関連するものが多ければ、そのクラスタのプロットでは「態度」や「対応」といった単語が強い影響を与えていることが分かります。\n   - ポジティブな感情を引き起こす単語（例えば「親切」や「満足」）とネガティブな感情を引き起こす単語（例えば「不快」や「無愛想」）がどのようにクラスタごとに異なるかを視覚的に理解できます。\n\n### 2. **クラスタごとのテーマやトピックの特定**\n   - 各クラスタが特定のテーマ（例：スタッフの態度、料理の質、価格など）に関連している場合、SHAPプロットを通じてそのテーマに関連する単語がどれほど感情分析に影響を与えているのかを把握できます。これにより、レビューがどのようなトピックに分かれているか（例えば、サービスや価格、品質など）を理解しやすくなります。\n\n### 3. **クラスタリング結果の信頼性の確認**\n   - プロットを通じて、クラスタリングがどれほど意味のあるものか（例えば、同じトピックに関連するレビューが同じクラスタに集まっているか）を視覚的に確認できます。SHAP値がそのクラスタのレビュー全体に対して一貫している場合、そのクラスタリングが信頼できることを示します。\n\n### 4. **ユーザにとって有用なレビューの特徴理解**\n   - ユーザはbeeswarmプロットを見て、どのレビューが自分の関心に合っているかを判断しやすくなります。例えば、価格やサービスに関するレビューが高評価の場合、そのクラスタに関連するキーワードや特徴量を確認することで、ユーザが店舗に対して何を重要視しているのかを理解できます。\n\n### 5. **レビューの感情とその影響の解釈**\n   - プロットを通じて、ユーザは感情分析の結果にどのような単語が影響しているかを理解でき、レビューがポジティブまたはネガティブな感情をどのように引き起こしているのかが明確になります。これにより、店舗側はどの部分に改善が必要か、どの特徴がユーザにとって重要かを把握できます。\n\n### 6. **レビューの多様性と傾向の可視化**\n   - 例えば、同じクラスタに属するレビューが感情的にポジティブであっても、強いネガティブな意見が少数派として現れる場合、beeswarmプロットによりその多様性や傾向が可視化され、レビューの質やバランスが確認できます。\n\nこれらの洞察を通じて、ユーザはレビューの内容や感情を深く理解でき、店舗の評価に対する分析結果をより直感的に解釈できるようになります。\n)

#memo(beemswarmのプロットの条件\n\nBERTとSHAPを使ってレビューの感情分析とクラスタリングを行い、クラスタごとのSHAP値をbeeswarmプロットする場合、いくつかの入力データや出力の型に関する条件があります。これらの条件を適切に満たすことで、プロットが成功します。\n\n入力型の条件 BERTモデルの入力型 (レビュー)\n\ntokenizerに渡すデータは、リスト形式の文字列（List[str]）です。これにより、複数のレビューを一度に処理できます。 例: [&#x22;レビュー1&#x22;&#x2c; &#x22;レビュー2&#x22;&#x2c; &#x22;レビュー3&#x22;] 単一のレビューをトークン化する場合は、[単一の文字列]というリスト形式にします。 SHAP解析の入力型\n\nshap.Explainerへの入力は、BERTモデルが予測するためのトークン化された入力（input_idsなど）です。tokenizerでトークン化されたデータ（{'input_ids': ...&#x2c; 'attention_mask': ...}）をSHAPに渡します。 shap_values = explainer(encodings['input_ids']) クラスタごとのレビューの入力型\n\nクラスタリング結果に基づいて、各クラスタに属するレビューはリスト形式で保持されている必要があります。例えば、clustered_reviews = {0: ['レビュー1'&#x2c; 'レビュー2']&#x2c; 1: ['レビュー3'&#x2c; 'レビュー4']} のように、クラスタ番号をキーにして、各クラスタに対応するレビューをリストで格納します。 SHAPの出力型\n\nshap.Explainerからの出力は、shap_valuesオブジェクトです。このオブジェクトには、各トークンに対応する重要度（SHAP値）が含まれています。これらはshap_values.valuesとして取得できます。 shap_values.valuesの形状は通常 (num_reviews&#x2c; num_tokens) の2次元配列になります。 SHAP値をプロットするための入力型\n\nshap.summary_plot()には、SHAP値の配列（shap_values.values）と、それに対応するレビューのトークン（tokenizer.convert_ids_to_tokens()で得られるトークン）を渡します。 例: shap.summary_plot(shap_values.values&#x2c; tokenizer.convert_ids_to_tokens(encodings['input_ids'][0])) プロットのための条件 shap_values.values:\n\nこの配列は、レビューごとにトークンの重要度を持っている必要があります。 shap_values.valuesの形状は通常 (num_reviews&#x2c; num_tokens) となります。 トークンのマッピング:\n\nshap.summary_plotは、SHAP値を可視化する際にトークンとSHAP値を結びつけるために、トークンのリストが必要です。 tokenizer.convert_ids_to_tokens(encodings['input_ids'][0])のようにして、input_idsからトークンを取得できます。 shap.summary_plotの入力型:\n\nshap.summary_plotに渡すSHAP値は2次元配列（(num_reviews&#x2c; num_tokens)）であり、対応するトークン（または特徴量）のリストが必要です。 プロットをする際には、各レビューに対応するトークンを使って、SHAP値を表示します。)

タイムスタンプを変更しない