RNN関連テクニックまとめ
の編集
Top
/
RNN関連テクニックまとめ
[
トップ
] [
編集
|
差分
|
履歴
|
添付
|
リロード
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
-- 雛形とするページ --
島部/menu/template
[[小野田]] * RNN関連 [#y377c9e8] ** LSTM [#v1ff0cda] 記憶セルとゲートを用意することによって勾配消失を減らすRNN派生 双方向にすることで精度があがることがある ** Attention [#x6f0540f] 可変長の入力系列を扱うためのLSTM拡張 系列変換モデル(seq2seq)において入力系列情報を隠れ状態hsとしてすべて利用(通常のseq2seqはエンコーダーの最終隠れ状態のみ利用する) 且つ入力のどの部分が出力単語jの決定において注視すべきかを入力単語群の重みを表すaを用いたコンテキストベクトルcで表現したモデル hs * a = c *つまり各単語iの隠れ状態の結合ベクトルhsのどれを出力の決定で重視するか決めている aの決め方としては以下がある hs とデコーダーのj番目の単語の隠れ状態hjとの内積で重みベクトルsがでる s = hs * hj a = softmax(s) *hsの各行のどれほどhjと似ているかを表している ** transformer [#rcab9965] RNNの代わりにエンコーダーとデコーダーにself-Attentionを加えたモデル RNNを使わない分、並列処理や計算量に優れる そして精度も良いとされている? ** Copy Mechanism [#p18ae47e] 入力文に含まれる単語をそのまま利用することで、固有名詞や人名・未知語に対しても正しく学習しやすくなる 例: 通常 入力:あなたは富山県立大学出身ですか? 出力:はい、私は富山大学出身です。 メカニズム使用語 出力:はい、私は富山県立大学出身です。 詳しくは[[https://arxiv.org/abs/1603.06393]] ** NTM [#u395be59] 人間が外部記憶(メモ)を使うようにニューラルネットも外部メモリを利用できるようにしたモデル(メモリの読み書き操作は微分可能) 長文の解釈に優れる http://deeplearning.hatenablog.com/entry/memory_networks ** おまけ上のテクニックを組み合わせたGoogleの最強ネット [#iec9cdc3] http://deeplearning.hatenablog.com/entry/gnmt ** 参考文献 [#ta93bce9] [[https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P5-21.pdf]] [[https://github.com/spro/practical-pytorch/blob/master/seq2seq-translation/seq2seq-translation-batched.ipynb]]
タイムスタンプを変更しない
[[小野田]] * RNN関連 [#y377c9e8] ** LSTM [#v1ff0cda] 記憶セルとゲートを用意することによって勾配消失を減らすRNN派生 双方向にすることで精度があがることがある ** Attention [#x6f0540f] 可変長の入力系列を扱うためのLSTM拡張 系列変換モデル(seq2seq)において入力系列情報を隠れ状態hsとしてすべて利用(通常のseq2seqはエンコーダーの最終隠れ状態のみ利用する) 且つ入力のどの部分が出力単語jの決定において注視すべきかを入力単語群の重みを表すaを用いたコンテキストベクトルcで表現したモデル hs * a = c *つまり各単語iの隠れ状態の結合ベクトルhsのどれを出力の決定で重視するか決めている aの決め方としては以下がある hs とデコーダーのj番目の単語の隠れ状態hjとの内積で重みベクトルsがでる s = hs * hj a = softmax(s) *hsの各行のどれほどhjと似ているかを表している ** transformer [#rcab9965] RNNの代わりにエンコーダーとデコーダーにself-Attentionを加えたモデル RNNを使わない分、並列処理や計算量に優れる そして精度も良いとされている? ** Copy Mechanism [#p18ae47e] 入力文に含まれる単語をそのまま利用することで、固有名詞や人名・未知語に対しても正しく学習しやすくなる 例: 通常 入力:あなたは富山県立大学出身ですか? 出力:はい、私は富山大学出身です。 メカニズム使用語 出力:はい、私は富山県立大学出身です。 詳しくは[[https://arxiv.org/abs/1603.06393]] ** NTM [#u395be59] 人間が外部記憶(メモ)を使うようにニューラルネットも外部メモリを利用できるようにしたモデル(メモリの読み書き操作は微分可能) 長文の解釈に優れる http://deeplearning.hatenablog.com/entry/memory_networks ** おまけ上のテクニックを組み合わせたGoogleの最強ネット [#iec9cdc3] http://deeplearning.hatenablog.com/entry/gnmt ** 参考文献 [#ta93bce9] [[https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P5-21.pdf]] [[https://github.com/spro/practical-pytorch/blob/master/seq2seq-translation/seq2seq-translation-batched.ipynb]]
テキスト整形のルールを表示する