今回ご紹介するのは、Vision-Language Pre-training (VLP) の分野で大きな成果を出した論文「Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (ALBEF)」です。
この論文は、NeurIPS 2021 (35th Conference on Neural Information Processing Systems) で発表され、arXivで公開されています。
arXivリンク: https://arxiv.org/abs/2107.07651v2
近年、画像とテキストの両方を理解するAIモデルが注目されています。これはVision-Language Pre-training (VLP) と呼ばれ、大量の画像-テキストペアを使ってモデルを事前学習させることで、様々なVision-and-Language (V+L) タスクの性能を向上させることを目指します。
しかし、これまでのVLP手法にはいくつかの課題がありました。
まず、画像とテキストの表現が異なる空間にあり、モデルが両者の相互作用を学習するのが難しいという点です。また、多くの手法が「オブジェクト検出器」という、画像内のオブジェクトを検出する追加のツールに頼っていましたが、これは高コストなアノテーションと高い計算能力を必要としました。
さらに、学習に使うウェブデータはノイズが多いことが多く、モデルがそのノイズに過学習してしまうリスクもありました。
これらの課題を解決するために提案されたのが、今回ご紹介するALBEF (ALign BEfore Fuse) です。ALBEFの基本的なアイデアは、その名の通り「融合する前にアラインする」というものです。
具体的には、画像とテキストを別々にエンコードした後、クロスモーダルアテンションで融合する前に、まず両者の表現を「アラインメント(位置合わせ)」することで、より効果的な学習を実現します。
ALBEFの大きな特徴は、従来のオブジェクト検出器を必要としない「detector-free」なアプローチであること。これにより、アノテーションコストや計算コストを大幅に削減できます。
ALBEFは主に3つの学習目標を組み合わせて事前学習を行います。
ALBEFがもう一つ画期的なのは、ノイズの多いウェブデータから効率的に学習するための「Momentum Distillation(MoD)」という自己学習手法を提案している点です。
ウェブから収集された画像-テキストペアは、必ずしも完全に一致しているわけではありません。
例えば、テキストが画像とは無関係な単語を含んでいたり、画像に写っているものの全てがテキストで説明されていなかったりします。従来の学習方法では、このような「ノイズ」に対しても厳しいペナルティを与えてしまうことが課題でした。
MoDでは、現在のモデルの「時間平均版」である「モメンタムモデル」という教師モデルを使います。モメンタムモデルが生成する「擬似ターゲット」を、追加の教師信号として学習に利用します。
これにより、モデルはウェブアノテーションとは異なる、しかし画像にとって合理的な予測をした場合でも、過度にペナルティを受けることなく学習を進めることができます。
上の画像は、Momentum Distillationがいかに効果的かを示す例です。もし元のテキストが単に「ホッキョクグマは[MASK]にいる」とだけあった場合、本来の正解が「野生」であったとしても、モメンタムモデルは「動物園」や「プール」といった、画像に即した他の合理的な候補を擬似ターゲットとして提供します。
これにより、モデルはより多様で正確な視覚的概念を学習できるようになるのです。
ALBEFは、画像エンコーダ、テキストエンコーダ、マルチモーダルエンコーダという3つの主要コンポーネントで構成されています。
画像エンコーダにはViT-B/16(Visual Transformer)、テキストエンコーダとマルチモーダルエンコーダにはTransformer(BERTbaseをベース)が用いられています。
画像エンコーダで抽出された視覚特徴と、テキストエンコーダで抽出された単語特徴が、マルチモーダルエンコーダのクロスアテンション層で融合されます。
このシンプルな構成でありながら、前述のITC、MLM、ITM、そしてMomentum Distillationという洗練された学習目標を組み合わせることで、高い性能を発揮します。
ALBEFは、画像-テキスト検索、VQA(Visual Question Answering)、NLVR2(Natural Language for Visual Reasoning)、Visual Entailment、弱教師付きVisual Groundingといった、様々なV+Lタスクで最先端(State-of-the-Art)の性能を達成しています。
特に注目すべきは、CLIPやALIGNといった、ALBEFよりも桁違いに大きなデータセットで事前学習された手法を、画像-テキスト検索タスクで上回ったことです。これは、データ量だけでなく、学習効率の高さを示しています。
また、オブジェクト検出器を使用しないため、推論速度も既存の多くの手法よりも大幅に高速です。VQAとNLVR2では、従来のSOTA手法VILLAと比較してそれぞれ2.37%と3.84%の絶対的な改善を達成しつつ、推論速度が10倍以上も高速化されています。
ALBEFは、Grad-CAMという技術を使って、モデルが画像内のどの部分に注目しているかを視覚的に確認できます。これにより、モデルがオブジェクトだけでなく、その属性や関係性まで正確にグラウンディングしていることが明らかになりました。
以下の画像は、ある画像に対するALBEFの視覚化の例です。例えば、「a little girl holding a kitten next to a blue fence」というテキストがあったとします。
この画像は、テキスト中の「kitten」という単語が、画像内の子猫の領域に正確にグラウンディング(関連付け)されていることを示しています。
このように、ALBEFは画像とテキストの関係を細部まで把握し、人間が注目するであろう箇所を適切に捉える能力があることが視覚的にも確認できます。
ALBEFは、画像とテキストの表現を「融合前にアラインする」というシンプルながら強力なアイデアに基づいています。Image-Text Contrastive Learning、Masked Language Modeling、Image-Text Matchingの3つの事前学習目標と、ノイズの多いウェブデータから効率的に学習するMomentum Distillationを組み合わせることで、Vision-Languageタスクにおいて最先端の性能と高速な推論を実現しました。
オブジェクト検出器に頼らないdetector-freeなアプローチは、今後のVLP研究の方向性を示唆するものであり、その汎用性と効率性は、様々なAIアプリケーションへの応用が期待されます。