論文タイトル: What matters when building vision-language models?
arXiv: arXiv:2405.02246v1
近年、画像とテキストの両方を理解し、テキストとして応答する「Vision-Language Model (VLM)」が大きな注目を集めています。
PDFからの情報抽出、グラフや図の説明、画像内のテキスト認識、さらにはウェブページのスクリーンショットからコードを生成するといった多様なタスクで活躍が期待されています。
しかし、これまでのVLM研究では、モデルの設計に関する重要な決定(どのようなバックボーンを使うか、どう学習させるかなど)が、必ずしも明確な根拠に基づいて行われていないという課題がありました。
これにより、どの設計選択が実際にモデル性能を向上させているのかが分かりにくく、分野全体の進歩を妨げる要因にもなっていました。
今回ご紹介する論文「What matters when building vision-language models?」では、この課題に対し、VLMの設計に関する広範な実験を行うことで「何が重要なのか」を徹底的に探求しています。
そして、その知見を集約し、Idefics2という80億パラメータを持つ、効率的で最先端のVLMを開発・公開しています。
Idefics2は、そのサイズカテゴリーにおいて様々なマルチモーダルベンチマークでState-of-the-Art (SOTA) の性能を達成しており、時には4倍の規模を持つモデルにも匹敵するという驚くべき結果を出しています。
まずは、Idefics2がどのように機能するのか、その具体的な例を見てみましょう。
この例では、Idefics2が財務データを含む表を分析し、与えられたプロンプトに基づいて2024年の金利費用と長期負債の合計を正確に計算・回答しています。
このように、複雑な視覚情報を理解し、具体的なタスクを実行する能力は、VLMが実世界でいかに有用であるかを示しています。
研究チームは、モデルアーキテクチャ、データ、トレーニング方法など、VLM構築における様々な設計選択肢について詳細な比較実験を行いました。
ここからは、彼らが特に強調している主要な発見をいくつかご紹介します。
VLMは通常、既存のVisionエンコーダとLanguage Model (LLM) を組み合わせて構築されます。
研究の結果、Visionエンコーダの品質向上も重要ですが、最終的なVLMの性能に最も大きな影響を与えるのは、ベースとなるLLMの品質であることが判明しました。
例えば、より高性能なLLM(Llama-1-7BからMistral-7Bへ)に切り替えることで、VLMのベンチマークスコアが大幅に向上することが確認されました。これは、VLMの「言語」を司る部分がいかに重要であるかを示唆しています。
VLMのアーキテクチャには、大きく分けて「cross-attentionアーキテクチャ」と「fully autoregressiveアーキテクチャ」の2種類があります。
cross-attentionは画像情報をLLMの各層に埋め込むのに対し、fully autoregressiveはVisionエンコーダの出力をテキスト埋め込みのシーケンスに直接結合してLLMに入力します。
興味深いことに、初期の実験では、ユニモーダルなバックボーン(VisionエンコーダやLLM)を凍結して新しいパラメータのみを学習させる場合、cross-attentionアーキテクチャの方が優れた性能を示しました。
しかし、全てのパラメータを学習させる場合(LoRAなどのPEFT手法を用いることで学習の安定性を確保)、fully autoregressiveアーキテクチャがcross-attentionを上回る性能を発揮することが明らかになりました。
これは、fully autoregressiveアーキテクチャがモデル全体により高い表現力を持たせられる可能性を示唆しています。
Idefics2もこのfully autoregressiveアーキテクチャを採用しています。
この図はIdefics2のfully autoregressiveアーキテクチャの概要を示しています。
入力画像はVisionエンコーダで処理され、得られた視覚特徴はモダリティ射影層とプーリング(要約)を経て、視覚トークンとしてLLMに入力されます。
そして、これらの視覚トークンはテキスト埋め込みのシーケンスと連結され、LLMがテキスト出力を生成します。
効率的なVLMを構築するためには、推論時のコストを削減する工夫も重要です。
特定のタスクにおいて性能をさらに向上させるために、計算コストとのトレードオフを許容する戦略も有効です。
例えば、画像を複数のサブイメージに分割し、それらを元の画像と合わせてLLMに与える「画像分割(image splitting)」戦略です。
この戦略は、特にTextVQAやDocVQAのような、画像内のテキスト読み取りを要求されるベンチマークで顕著な性能向上が見られました。
Idefics2では、推論時に単一の画像(64ビジュアルトークン)だけでなく、人工的に拡張された画像(合計320ビジュアルトークン)も扱えるように学習されています。
これらの多岐にわたる実験的知見を基に、Hugging Faceの研究チームはIdefics2を開発しました。
Idefics2は、SigLIP-SO400MをVisionバックボーンに、Mistral-7B-v0.1をLLMバックボーンに採用しています。
Idefics2は、以下の段階で学習されました。
これらの工夫により、Idefics2はMMMU、MathVista、TextVQA、MMBenchなどの主要なベンチマークで、その規模のカテゴリーにおいてSOTAの性能を達成しています。
さらに、推論時には他のモデルよりもはるかに効率的でありながら、Gemini 1.5 Proのようなクローズドソースの強力なモデルにも匹敵する性能を見せています。
本論文は、VLMの設計における長年の疑問に対し、大規模かつ厳密な実験を通じて明確な答えを与えてくれました。
特に、LLMバックボーンの質、fully autoregressiveアーキテクチャの優位性、そして効率的な画像処理戦略が、高性能VLMを構築する上で不可欠であることが示されています。
Idefics2は、これらの知見が詰まった「オープン」な80億パラメータVLMとして、モデル(base、instructed、chatバージョン)と学習データセットが公開されています。
この成果は、VLM研究コミュニティ全体の進歩を加速し、実世界の問題解決に貢献する画期的な一歩となるでしょう。