論文まとめ：Extreme Compression for Pre-trained Transformers Made Simple and Efficient

Posted On 2022-06-10

729{icon} {views}

ざっくりいうと

訓練済みTransformer（BERT）の軽量化、特に超低ビット精度（1ビット、2ビット）で量子化し、モデルサイズを極限まで削るための極限圧縮（Extreme Compression）の研究
先行研究では3段階に分かれていた複雑な蒸留のパイプラインを、1段階に簡素化し、Data Augmentationを使用し、長く訓練するXTCというフレームワークを提唱
極限量子化＋層削減により、モデルサイズを50倍削減でき、GLUEタスクでSoTAを達成

極限圧縮のような積極的な圧縮方式で精度を維持するために、先行研究では、複雑な圧縮パイプライン（例えば、大規模なハイパーパラメータチューニングを伴う多段で高価な知識抽出）を導入している
蒸留によって圧縮された小規模モデルにはあまり焦点が当てられておらず、その手法の有効性を示す体系的な研究が不足していた。そこを包括的に研究したよ
その結果、これまでの超低ビット量子化のベースラインは著しく訓練不足だったことがわかった

超低ビット精度量子化のためのシンプルかつ効果的な圧縮パイプライン（XTC）を提案。XTCは、

左が従来の方法。右が提案手法。従来の手法はパイプラインが複雑。

12層1ビットBERTbaseなどの先行する極限量子化法よりも高い精度を達成し、GLUEタスクの新しい先端的な結果になることがわかった。

→長く学習すれば別に3段階にしなくてもいい

→ より多くの学習や学習率の探索を伴うシングルステージの知識蒸留をすれば、マルチステージのものから得られる精度と同等、むしろ上回った。

DAを使用しないトレーニングは、様々な圧縮タスクの下流タスク、特に小さいタスクのパフォーマンスを低下させる。

Budget-A, Cが3ステージ。1ステージでもDAをかければ3ステージと同様の精度が出る。

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー