#author("2019-05-20T11:15:23+00:00","","")
#author("2019-05-20T11:15:56+00:00","","")
[[小野田]]

* RNN関連 [#y377c9e8]

** LSTM [#v1ff0cda]
記憶セルとゲートを用意することによって勾配消失を減らすRNN派生
双方向にすることで精度があがることがある

** Attention [#x6f0540f]
可変長の入力系列を扱うためのLSTM拡張

系列変換モデル(seq2seq)において入力系列情報を隠れ状態hsとしてすべて利用(通常のseq2seqはエンコーダーの最終隠れ状態のみ利用する)
且つ入力のどの部分が出力単語jの決定において注視すべきかを入力単語群の重みを表すaを用いたコンテキストベクトルcで表現したモデル

hs * a = c
*つまり各単語iの隠れ状態の結合ベクトルhsのどれを出力の決定で重視するか決めている

aの決め方としては以下がある

hs とデコーダーのj番目の単語の隠れ状態hjとの内積で重みベクトルsがでる

s = hs * hj
a = softmax(s)
*hsの各行のどれほどhjと似ているかを表している

** transformer [#rcab9965]

RNNの代わりにエンコーダーとデコーダーにself-Attentionを加えたモデル
RNNを使わない分、並列処理や計算量に優れる
そして精度も良いとされている?

** Copy Mechanism [#p18ae47e]
入力文に含まれる単語をそのまま利用することで、固有名詞や人名・未知語に対しても正しく学習しやすくなる

例:
通常
入力:あなたは富山県立大学出身ですか?
出力:はい、私は富山大学出身です。
メカニズム使用語
出力:はい、私は富山県立大学出身です。

詳しくは[[https://arxiv.org/abs/1603.06393]]

** NTM [#u395be59]

人間が外部記憶(メモ)を使うようにニューラルネットも外部メモリを利用できるようにしたモデル(メモリの読み書き操作は微分可能)
長文の解釈に優れる

http://deeplearning.hatenablog.com/entry/memory_networks


** おまけ最強ネットワーク [#iec9cdc3]
** おまけ上のテクニックを組み合わせたGoogleの最強ネット [#iec9cdc3]
http://deeplearning.hatenablog.com/entry/gnmt


** 参考文献 [#ta93bce9]
[[https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P5-21.pdf]]
[[https://github.com/spro/practical-pytorch/blob/master/seq2seq-translation/seq2seq-translation-batched.ipynb]]

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS