Categories: paper-readingvlm

【論文紹介】InternVL: 大規模Vision Foundation Modelが汎用的な視覚言語タスクでSOTAを達成

論文タイトル: InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
arXivリンク: https://arxiv.org/abs/2312.14238v3

はじめに:Visionモデルの進化がLLMに追いつくとき

近年、ChatGPTに代表される大規模言語モデル(LLM)の進化は目覚ましく、人工知能(AI)の可能性を大きく広げています。しかし、LLMの急速な進歩に対し、画像を理解するVision Foundation Model(視覚基盤モデル)の発展は、少し遅れをとっているのが現状です。

現在のVision-Languageモデル(VLM)は、VisionモデルとLLMを「糊付け」するような軽量な層(glue layer)を使って連携させています。

しかし、これにはいくつかの課題がありました。例えば、LLMが数千億ものパラメータを持つ一方で、Visionモデルは多くても10億程度と、その規模に大きな差がある点です。また、VisionモデルとLLMで情報の表現方法に一貫性がなく、効率的な連携が難しいという問題もありました。

今回ご紹介する「InternVL」は、この課題に挑み、Vision Foundation Modelの規模を大幅に拡大し、LLMと効果的に連携させる新しいアプローチを提案しています。

InternVLとは?大規模VisionモデルとLLMの融合

InternVLは、主に二つの大規模なコンポーネントから構成されています。一つは、画像を深く理解するための「InternViT-6B」と呼ばれる60億パラメータを持つVision Encoderです。もう一つは、Vision EncoderとLLMの間で情報の橋渡しをする「QLLaMA」という80億パラメータのLanguage Middlewareです。

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasksより引用

このモデルのコンセプトは、従来のVisionモデルが単独で画像を認識したり、Vision-Languageモデルが画像とテキストを別々に処理したりするのとは異なり、Vision Encoderを大規模化し、LLMと緊密に連携させることで、より汎用的な視覚言語タスクに対応できるようにすることです。

QLLaMAは、既存の多言語LLaMAモデルの重みで初期化されており、視覚的特徴をLLMが理解しやすい表現に変換する役割を担います。これにより、Vision Encoderが生成した複雑な視覚情報を、LLMが持つ強力な言語理解・生成能力とスムーズに統合することが可能になります。

画期的なトレーニング戦略

InternVLの強力な性能を支えるのは、そのユニークな「プログレッシブなアライメントトレーニング戦略」です。これは大きく三つの段階で構成されています。

最初の段階では、大量のウェブスケールな画像-テキストペアデータ(約50億組)を使って、Vision EncoderのInternViT-6BとLanguage MiddlewareのQLLaMAを「Contrastive learning(対照学習)」によってアラインします。これにより、画像とテキストがどれだけ似ているかを学習し、基本的な視覚-言語理解能力を確立します。

次に、より高品質で厳選されたデータ(約10億組)を用いて「Generative learning(生成学習)」を行います。この段階では、画像を見てテキストを生成する能力を向上させ、より複雑な視覚言語タスクに対応できるようにします。

最後の段階では、InternVLをVicunaやInternLMといった既存のLLMと接続し、高品質な指示データ(約400万サンプル)を使って「Supervised Fine-tuning(教師ありファインチューニング)」を行います。これにより、モデルはユーザーの指示に従って多モーダルな対話を行う能力を獲得します。

この段階的なアプローチは、多様な品質のデータから効率的に学習し、モデルの汎用性と堅牢性を最大限に引き出すための鍵となっています。

InternVLの強力な性能

InternVLは、その大規模な設計と効率的なトレーニング戦略により、さまざまな視覚言語タスクで最先端(SOTA: State-of-the-Art)の性能を発揮します。

画像分類やセマンティックセグメンテーションといった純粋な画像認識タスクでは、InternViT-6Bが単独で高い性能を示し、特にピクセルレベルの認識能力では他の大規模モデルを大きく上回ります。

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasksより引用

また、画像-テキスト検索やビデオ分類といった視覚-言語タスクにおいても、InternVLは英語だけでなく中国語や他の多言語環境でも優れた性能を発揮します。特に、画像からキャプションを生成する能力や、多モーダルな対話システム(質問応答など)での性能は、既存の多くのモデルを凌駕しています。

例えば、MMEやPOPEといった多モーダル対話のベンチマークでは、InternVL-Chatモデルが優れたパフォーマンスを示し、複雑な視覚推論や認知能力が求められるシナリオでも高い実用性を持つことが示されています。

なぜInternVLが優れているのか?

InternVLがこれほど強力な性能を発揮する理由は、その主要なデザインとトレーニング戦略にあります。

まず、60億パラメータのVision Encoderと80億パラメータのLanguage Middlewareという、VisionとLanguageコンポーネント間の「パラメータバランス」が挙げられます。これにより、LLMの膨大な能力を十分に活用できるようになります。

次に、多言語対応のLLaMAでQLLaMAを初期化することで、Vision EncoderとLLMの間で「表現の一貫性」を保ちやすくなっています。これは、異なるモダリティ間の情報伝達を効率化し、より深い理解を可能にします。

まとめ

InternVLは、Vision Foundation Modelを大規模化し、LLMと効果的に連携させることで、これまでのVLMが抱えていた課題を解決する画期的なモデルです。画像認識から多モーダル対話まで、幅広いタスクで優れた性能を発揮するその能力は、今後のマルチモーダルAIシステムの発展に大きく貢献するでしょう。

本研究は、視覚と言語の間に存在するギャップを埋め、より汎用的で強力なAIシステムの実現に向けた重要な一歩となります。

Haruoka