Salesforce Researchが発表した論文「BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models」は、画像とテキストを理解するAIモデルの学習方法に革新をもたらしました。
近年のAIモデルは、その性能向上のために大規模化が進んでいます。特に、画像とテキストの両方を扱う「Vision-Language Pre-training (VLP)」モデルでは、エンドツーエンドでの学習に莫大な計算コストがかかることが大きな課題となっていました。
そんな中、BLIP-2は、既存の強力なモデルを「凍結」したまま、少ない学習コストで最先端の性能を達成する画期的な手法として注目されています。
BLIP-2は、すでに学習済みの「画像エンコーダ」と「大規模言語モデル(LLM)」を賢く再利用するVLPモデルです。これらの既存モデルは「凍結」されているため、学習中にそのパラメータは一切変更されません。
これは、まるで優秀な専門家(凍結された画像エンコーダとLLM)を招き入れ、彼らの持つ知識を最大限に引き出すための「橋渡し役」だけを新しく訓練するようなものです。この橋渡し役が、BLIP-2の中心技術である「Querying Transformer(Q-Former)」です。
これにより、一からすべてを学習するよりもはるかに効率的で、計算資源の節約にも繋がります。
BLIP-2のフレームワークの概要は、上の図の通りです。
左側に画像エンコーダ、右側に大規模言語モデル(LLM)があり、その間にQuerying Transformer(Q-Former)が位置しています。Q-Formerが画像とテキストの間の橋渡しをする役割を担っています。
Q-Formerは、BLIP-2の中核をなす、軽量なTransformerベースのモジュールです。その主な役割は、凍結された画像エンコーダから画像の特徴を抽出し、それを凍結されたLLMが理解できる形式に変換することです。
Q-Formerは、学習可能な「クエリベクトル」を使って、画像エンコーダから最も関連性の高い視覚情報を引き出します。このクエリベクトルは、LLMに不要な情報をフィルタリングし、必要な情報だけを効率的に伝えるための「情報ボトルネック」として機能します。
Q-Formerは、以下の2つの段階を経て学習されます。
この段階では、Q-Formerは凍結された画像エンコーダに接続され、画像とテキストのペアを使って学習します。目的は、Q-Formerがテキストにとって最も有益な視覚表現を抽出できるようにすることです。
具体的には、画像とテキストの関連性を学習する「Image-Text Contrastive Learning」、画像に基づいてテキストを生成する「Image-grounded Text Generation」、画像とテキストのペアが一致しているかを判断する「Image-Text Matching」という3つのタスクを同時に最適化します。これにより、Q-Formerは視覚情報をテキストと適切に結びつける力を養います。
この図は、Q-Formerのアーキテクチャと、第1段階で用いられるImage-Text Contrastive Learning、Image-Grounded Text Generation、Image-Text Matchingという3つの学習目的を示しています。
Q-Formerのクエリとテキストトークンの相互作用を制御するために、それぞれ異なるAttention Maskが使用されます。
第1段階で十分に学習されたQ-Formerは、次に凍結された大規模言語モデル(LLM)に接続されます。
この段階の目的は、LLMの持つ強力な言語生成能力を、Q-Formerが抽出した視覚情報と結びつけることです。
Q-Formerの出力は、LLMへの「ソフトプロンプト」として機能します。これにより、LLMは画像の内容を「見て」理解し、それを基に自然なテキストを生成できるようになります。まるで、通訳を介して外国語の話者(LLM)が画像の内容について語り出すようなイメージです。
BLIP-2は、その効率性にもかかわらず、様々なVision-Languageタスクで最先端の性能を達成しています。例えば、Zero-shot VQA(Visual Question Answering、画像に関する質問に答えるタスク)では、既存の最先端モデルであるFlamingo80Bを8.7%上回りました。
驚くべきは、その際に使用する学習可能なパラメータの数が、Flamingo80Bの54分の1以下であるという点です。これは、少ない計算コストで高性能を実現できるBLIP-2の大きな強みを示しています。
さらに、BLIP-2は「指示に従うZero-shot画像-テキスト生成」という、新しい能力も示しています。これは、画像を与えられた上で、自然言語の指示に従ってテキストを生成する能力です。
例えば、画像の内容について会話をしたり、視覚的な知識に基づいて推論したり、物語を作ったりといった多様なタスクが可能になります。
この図は、BLIP-2が指示に従って生成した、Zero-shot画像-テキスト生成の具体的な例を多数示しています。画像に対する質問応答や会話、物語の作成など、多様な能力があることが分かります。
BLIP-2は、凍結された画像エンコーダと大規模言語モデルという、既存の強力なモデルを効率的に活用することで、VLPの学習コストを大幅に削減しつつ、最先端の性能と新しい生成能力を実現した画期的な研究です。
Q-Formerという軽量なモジュールが、異なるモダリティ間の情報伝達の鍵を握っています。この研究は、将来のマルチモーダルな対話型AIエージェントの構築に向けた、重要な一歩となるでしょう。