ELECTRAの解説

以上のモデルは、GANのしくみを真似て作られていますが、異なる点もあります。
GANでは、Generator側が、後工程のDiscriminatorが識別しにくいように出力をするように学習をします。
ただしELECTRAではそれは行わずに、普通に最尤推定（一番確率が高い単語で置き換えるだけ）でMASKを復元します。すなわち、敵対的ではないです。
論文では、敵対的な場合でも実験したが、Generator側が強すぎてうまく学習ができなかった点が述べられています。

補足：ファインチューニングで使うのはDiscriminatorのみ

ELECTRAは以上の通り、事前学習のタスクを改善したもので、ファインチューニングに関してはBERTと同様です。
その際に使われるのはDiscriminatorのみで、Generatorは事前学習でしか使われません。
なので、ファインチューニングの際に捨ててしまうGeneratorのパラメータが多いとおもったいないので、サイズは小さいほうがいいと論文で述べられています。

なんでこのタスクがいいいの？

サンプルに対して効率的(sample-efficient)だからです。

従来のBERTでは、MASKを復元して正しく戻せたらlossが少なくなるわけですが、そもそもMASKが書けられるのが、全トークンの15%程度です。
すなわち、用意した全サンプルのうちの15%しか、フィードバックのために使えなかったのです。

Replaced Token Detectionならば、すべてのトークンに対して、originalかreplacedかの2値の判定をするので、全トークンをlossの計算に回せるわけです。

性能

小さいサイズでも、大きいサイズでも性能が改善しています。詳しくは公式の情報を見てください。

特に、ELECTRA-Smallサイズで、BERT-Baseとほぼ同等の性能が出ている点が強いと思います。
BERT-Baseはだいたい180GPU日が必要でしたが、ELECTRA-Smallは数GPU日で、個人レベルでも事前学習を回せるほどです。

感想

Replaced Token Detectionは、説明を見てしまえばその効率の良さが直ちに分かるものです。きっと他のBERT派生でも積極的に使われる（使われている）と思います。

あと最近だとAttentionの計算量の改善が注目されているように思います。これらを組み合わせたらさらに小さく性能の高いモデルができるのかなあと期待が高まりますね。

March 01, 2021 - posted by miyamonz

← 前の投稿

Windows 版 Amazon WorkSpaces での開発

次の投稿 →

Slackの新しくなったメッセージ取得APIを使用する際に考えなければならないこと色々

ELECTRAの解説

事前学習タスクの改善

Replaced Token Detection

GANと違うところ

補足：ファインチューニングで使うのはDiscriminatorのみ

なんでこのタスクがいいいの？

性能

感想

Tags

← 前の投稿

次の投稿 →

コメントを残す

最近の投稿

タグ

アーカイブ

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年