【論文紹介】CoCa: 画像とテキストの基盤モデルを一歩前進させるContrastive Captioners

論文名: CoCa: Contrastive Captioners are Image-Text Foundation Models

はじめに：画像とテキストの理解を深める基盤モデル

近年、AIの世界では、大量のデータで事前学習された「基盤モデル（Foundation Models）」が注目を集めています。BERT、T5、GPT-3といった言語モデルがその代表例で、これらは多様なタスクに適用できる汎用性の高さが特徴です。

画像認識や画像とテキストを組み合わせた問題（Vision-Language問題）でも、同様に汎用的な基盤モデルの構築が進められています。しかし、これまでのアプローチにはそれぞれ得意・不得意がありました。

例えば、ImageNetのような画像分類データで学習された「単一エンコーダー」モデルは画像認識に強いですが、自然言語の知識は持ちません。一方、CLIPやALIGNのような「デュアルエンコーダー」モデルは画像とテキストのペアから両者の整合性を学習し、ゼロショット画像分類や画像-テキスト検索を得意とします。

さらに、「エンコーダー-デコーダー」モデルは、画像をエンコーダーで処理し、その情報を基にデコーダーがテキストを生成することで、画像キャプション生成やマルチモーダル理解に力を発揮します。しかし、これらはテキスト単独の表現を画像と整合させるのが苦手でした。

今回ご紹介する「CoCa（Contrastive Captioner）」は、これらの3つのアプローチの長所を統合し、画像とテキストを包括的に理解する新しい基盤モデルです。

CoCaとは？：3つの能力を一つに

CoCaは、従来の単一エンコーダー、デュアルエンコーダー、エンコーダー-デコーダーモデルがそれぞれ持っていた能力を、一つのモデルで実現しようとします。その鍵となるのが、「コントラスティブロス」と「キャプション生成ロス」という2つの異なる学習目標を同時に用いる点です。

このモデルは、Webスケールの大量の画像-テキストペアデータと、アノテーション付きの画像データを使って、ゼロから事前学習されます。

CoCaのユニークな設計により、画像認識、クロスモーダル検索、画像キャプション生成、マルチモーダル理解といった幅広いタスクにおいて、最先端の性能を達成しています。

（CoCa: Contrastive Captioners are Image-Text Foundation Modelsより引用）

CoCaの心臓部：デカップリングされたデコーダー

CoCaのアーキテクチャの核となるのは、その「デカップリングされたテキストデコーダー」です。通常のエンコーダー-デコーダーモデルでは、デコーダーの全ての層がエンコーダーの出力（画像特徴）を参照しますが、CoCaはここを工夫しています。

デコーダーは「ユニモーダルデコーダー」と「マルチモーダルデコーダー」の2つの部分に分かれています。

ユニモーダルデコーダー: デコーダーの前半部分にあたり、ここではクロスアテンション（画像特徴への参照）を行いません。これにより、テキスト単独の表現（ユニモーダルなテキスト表現）を学習します。この出力は、画像とテキストの類似度を測る「コントラスティブロス」の計算に使われます。
マルチモーダルデコーダー: デコーダーの後半部分にあたり、ユニモーダルデコーダーの出力に加え、画像エンコーダーの出力にもクロスアテンションを行います。これにより、画像とテキストを融合した表現（マルチモーダルな画像-テキスト表現）を学習し、「キャプション生成ロス」の計算に利用されます。

この設計により、CoCaはテキスト単独の理解と、画像とテキストの複合的な理解を同時に、かつ効率的に行えるようになりました。

（CoCa: Contrastive Captioners are Image-Text Foundation Modelsより引用）

効率的な事前学習と多様なタスク適応

CoCaのもう一つの大きなメリットは、その学習効率です。デカップリングされたデコーダーのおかげで、1回の順伝播（フォワードパス）でコントラスティブロスとキャプション生成ロスの両方を計算できます。これにより、標準的なエンコーダー-デコーダーモデルと比べて、最小限の追加コストで多様な能力を獲得できます。

さらに、CoCaは「アテンショナルプーラー（attentional pooler）」という仕組みを導入しています。これは、タスクに応じて画像特徴の集約方法を調整するもので、視覚認識タスクには大域的な表現、マルチモーダル理解タスクにはよりきめ細かい領域レベルの表現をカスタマイズして提供します。

事前学習されたCoCaモデルは、そのまま（ゼロショット）、あるいは最小限の調整（フローズン特徴評価、ファインチューニング）で、幅広いダウンストリームタスクに適用可能です。

CoCaが叩き出す圧倒的な性能

CoCaは、画像とテキストに関する多岐にわたるベンチマークで、これまでの最先端モデルを上回る結果を出しています。

例えば、画像分類のImageNetでは、ゼロショットで86.3%のTop-1精度、ファインチューニングでは91.0%という新記録を達成しました。これは、既存の多くの専門モデルや基盤モデルを凌駕する性能です。

画像-テキスト検索のFlickr30KやMSCOCO、さらには動画-テキスト検索のMSR-VTTでも、高い精度を記録。また、画像キャプション生成のNoCapsベンチマークでは、ValidationおよびTestセットで新たなSOTA（State-Of-The-Art）を樹立しています。

（CoCa: Contrastive Captioners are Image-Text Foundation Modelsより引用）

このように、CoCaは一つのモデルでありながら、画像認識、クロスモーダル検索、マルチモーダル理解、画像キャプション生成といった様々な分野で非常に優れた能力を発揮します。この汎用性と高い性能は、今後のAI研究と応用において大きな可能性を秘めていると言えるでしょう。

まとめ：統合された画像-テキスト理解の未来

CoCaは、既存の画像-テキスト基盤モデルのパラダイムを統合し、効率的な学習と優れた汎用性、そして最先端の性能を両立させた画期的なモデルです。デカップリングされたデコーダー設計とコントラスティブロス・キャプション生成ロスの同時学習というシンプルなアイデアが、これほど多様なタスクで高い成果を生み出したことは、画像-テキスト理解分野の新たな方向性を示すものです。

これからもCoCaのような統合型モデルの発展から目が離せません。

Haruoka