Categories: paper-readingvlm

【論文紹介】ALBEF: VisionとLanguageを融合する前に「Align」する新しい手法「Align before Fuse」

今回ご紹介するのは、Vision-Language Pre-training (VLP) の分野で大きな成果を出した論文「Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (ALBEF)」です。

この論文は、NeurIPS 2021 (35th Conference on Neural Information Processing Systems) で発表され、arXivで公開されています。

arXivリンク: https://arxiv.org/abs/2107.07651v2

Toggle

はじめに：Vision-Language Pre-training (VLP) の課題

近年、画像とテキストの両方を理解するAIモデルが注目されています。これはVision-Language Pre-training (VLP) と呼ばれ、大量の画像-テキストペアを使ってモデルを事前学習させることで、様々なVision-and-Language (V+L) タスクの性能を向上させることを目指します。

しかし、これまでのVLP手法にはいくつかの課題がありました。

まず、画像とテキストの表現が異なる空間にあり、モデルが両者の相互作用を学習するのが難しいという点です。また、多くの手法が「オブジェクト検出器」という、画像内のオブジェクトを検出する追加のツールに頼っていましたが、これは高コストなアノテーションと高い計算能力を必要としました。

さらに、学習に使うウェブデータはノイズが多いことが多く、モデルがそのノイズに過学習してしまうリスクもありました。

ALBEFとは？　画期的なアプローチ

これらの課題を解決するために提案されたのが、今回ご紹介するALBEF (ALign BEfore Fuse) です。ALBEFの基本的なアイデアは、その名の通り「融合する前にアラインする」というものです。

具体的には、画像とテキストを別々にエンコードした後、クロスモーダルアテンションで融合する前に、まず両者の表現を「アラインメント（位置合わせ）」することで、より効果的な学習を実現します。

ALBEFの大きな特徴は、従来のオブジェクト検出器を必要としない「detector-free」なアプローチであること。これにより、アノテーションコストや計算コストを大幅に削減できます。

（Align before Fuse: Vision and Language Representation Learning with Momentum Distillation より引用）
ALBEFのアーキテクチャ

ALBEFの主要技術：3つの柱

ALBEFは主に3つの学習目標を組み合わせて事前学習を行います。

Image-Text Contrastive Learning (ITC)
これは、画像エンコーダとテキストエンコーダが、画像とテキストのペアの類似度を学習する目的です。同じ内容の画像とテキストは高い類似度を持つように、異なる内容のペアは低い類似度を持つように学習します。このITCは、単に類似度を学習するだけでなく、3つの重要な役割を果たします。
まず、画像とテキストの表現を融合前にアラインメントし、後のクロスモーダル学習を容易にします。次に、それぞれの単一モーダルエンコーダが画像とテキストの意味をより深く理解するのを助けます。そして、画像とテキストを埋め込む共通の低次元空間を学習することで、画像-テキストマッチング（ITM）タスクにおいて、より情報量の多い「ハードネガティブ（誤って似ていると判断されやすい難しい否定例）」を見つけるのに役立ちます。
Masked Language Modeling (MLM)
これは、テキストの一部（単語）を隠し（マスクし）、その隠された単語を、画像と残りの文脈から予測するタスクです。ALBEFでは、画像情報を活用することで、より正確な単語の予測が可能になります。
Image-Text Matching (ITM)
画像-テキストペアが互いに一致している（ポジティブ）か、一致していない（ネガティブ）かを予測するタスクです。ALBEFでは、ITCで得られたコントラスト類似度を利用して、バッチ内の「ハードネガティブ」を効率的にサンプリングする戦略を導入し、ITMの学習をさらに強化しています。

Momentum Distillation (MoD)

ALBEFがもう一つ画期的なのは、ノイズの多いウェブデータから効率的に学習するための「Momentum Distillation（MoD）」という自己学習手法を提案している点です。

ウェブから収集された画像-テキストペアは、必ずしも完全に一致しているわけではありません。

例えば、テキストが画像とは無関係な単語を含んでいたり、画像に写っているものの全てがテキストで説明されていなかったりします。従来の学習方法では、このような「ノイズ」に対しても厳しいペナルティを与えてしまうことが課題でした。

MoDでは、現在のモデルの「時間平均版」である「モメンタムモデル」という教師モデルを使います。モメンタムモデルが生成する「擬似ターゲット」を、追加の教師信号として学習に利用します。

これにより、モデルはウェブアノテーションとは異なる、しかし画像にとって合理的な予測をした場合でも、過度にペナルティを受けることなく学習を進めることができます。

（Align before Fuse: Vision and Language Representation Learning with Momentum Distillation より引用）
Momentum Distillationによる擬似ターゲット生成の例。元のテキストが「polar bear in the [MASK]」のとき、モメンタムモデルは「zoo」「pool」「water」などの候補を生成し、ノイズのあるデータからより豊かな学習を可能にします。

上の画像は、Momentum Distillationがいかに効果的かを示す例です。もし元のテキストが単に「ホッキョクグマは[MASK]にいる」とだけあった場合、本来の正解が「野生」であったとしても、モメンタムモデルは「動物園」や「プール」といった、画像に即した他の合理的な候補を擬似ターゲットとして提供します。

これにより、モデルはより多様で正確な視覚的概念を学習できるようになるのです。

ALBEFのアーキテクチャ概要

ALBEFは、画像エンコーダ、テキストエンコーダ、マルチモーダルエンコーダという3つの主要コンポーネントで構成されています。

画像エンコーダにはViT-B/16（Visual Transformer）、テキストエンコーダとマルチモーダルエンコーダにはTransformer（BERTbaseをベース）が用いられています。

画像エンコーダで抽出された視覚特徴と、テキストエンコーダで抽出された単語特徴が、マルチモーダルエンコーダのクロスアテンション層で融合されます。

このシンプルな構成でありながら、前述のITC、MLM、ITM、そしてMomentum Distillationという洗練された学習目標を組み合わせることで、高い性能を発揮します。

ALBEFの驚くべき性能

ALBEFは、画像-テキスト検索、VQA（Visual Question Answering）、NLVR2（Natural Language for Visual Reasoning）、Visual Entailment、弱教師付きVisual Groundingといった、様々なV+Lタスクで最先端（State-of-the-Art）の性能を達成しています。

特に注目すべきは、CLIPやALIGNといった、ALBEFよりも桁違いに大きなデータセットで事前学習された手法を、画像-テキスト検索タスクで上回ったことです。これは、データ量だけでなく、学習効率の高さを示しています。

また、オブジェクト検出器を使用しないため、推論速度も既存の多くの手法よりも大幅に高速です。VQAとNLVR2では、従来のSOTA手法VILLAと比較してそれぞれ2.37%と3.84%の絶対的な改善を達成しつつ、推論速度が10倍以上も高速化されています。

視覚化による解釈：Grad-CAM

ALBEFは、Grad-CAMという技術を使って、モデルが画像内のどの部分に注目しているかを視覚的に確認できます。これにより、モデルがオブジェクトだけでなく、その属性や関係性まで正確にグラウンディングしていることが明らかになりました。

（Align before Fuse: Vision and Language Representation Learning with Momentum Distillation より引用）
ALBEFは、画像とテキスト間の相互作用を詳細に理解し、個々の単語が画像内のどこに焦点を当てているかをGrad-CAMで視覚化できます。

以下の画像は、ある画像に対するALBEFの視覚化の例です。例えば、「a little girl holding a kitten next to a blue fence」というテキストがあったとします。

（Align before Fuse: Vision and Language Representation Learning with Momentum Distillation より引用）
上記の画像において、『kitten』という単語が画像内の子猫の領域に正確にグラウンディングされている様子が分かります。

この画像は、テキスト中の「kitten」という単語が、画像内の子猫の領域に正確にグラウンディング（関連付け）されていることを示しています。

このように、ALBEFは画像とテキストの関係を細部まで把握し、人間が注目するであろう箇所を適切に捉える能力があることが視覚的にも確認できます。

まとめ

ALBEFは、画像とテキストの表現を「融合前にアラインする」というシンプルながら強力なアイデアに基づいています。Image-Text Contrastive Learning、Masked Language Modeling、Image-Text Matchingの3つの事前学習目標と、ノイズの多いウェブデータから効率的に学習するMomentum Distillationを組み合わせることで、Vision-Languageタスクにおいて最先端の性能と高速な推論を実現しました。

オブジェクト検出器に頼らないdetector-freeなアプローチは、今後のVLP研究の方向性を示唆するものであり、その汎用性と効率性は、様々なAIアプリケーションへの応用が期待されます。

Haruoka