最近、大規模言語モデル(LLM)の推論能力は目覚ましい進歩を遂げています。しかし、画像とテキストを同時に扱うVision-Language Models(VLM)は、複雑な質問応答タスクになると、体系的で構造化された推論を行うのが苦手という課題がありました。
たとえば、「この画像で、一番小さい光るボールと紫色の物体を全部取り除くと、残りの物体は何個?」といったような、視覚情報と複数の条件を組み合わせて考える必要がある問題です。
これまでのVLMは、このような問いに対して、しばしば間違った答えを出したり、もっともらしいけど実際には誤った説明(hallucination)をしてしまうことがありました。
今回ご紹介する「LLaVA-CoT」は、この課題に挑戦し、VLMが自律的に多段階の推論を行えるように設計された画期的なモデルです。
「LLaVA-CoT: Let Vision Language Models Reason Step-by-Step」
arXiv:2411.10440v6
LLaVA-CoTの最大の特徴は、推論プロセスを以下の4つの明確な段階に分解している点です。これにより、モデルは一つ一つのステップを慎重に踏みながら、論理的に問題を解決していきます。
この構造化されたアプローチにより、モデルは思考の途中で迷子になったり、早まった結論を出したりすることを防ぎます。
LLaVA-CoTを賢く推論させるためには、質の高い学習データが不可欠です。しかし、既存のVQAデータセットには、モデルが段階的に推論する過程を示す詳細なアノテーションが不足していました。
そこで、研究者たちは「LLaVA-CoT-100k」という新しいデータセットを構築しました。このデータセットは、様々なVQAデータセットのサンプルを統合し、GPT-4oを用いて「Summary」「Caption」「Reasoning」「Conclusion」の各段階に沿った回答を生成させることで作成されました。
この丁寧に作られたデータセットを使い、Llama-3.2-11B-Vision-Instructという既存のVLMをベースモデルとして、LLaVA-CoTの訓練が行われました。
LLaVA-CoTの賢さは、学習時だけでなく、実際に問題を解く「テスト時」にも発揮されます。その秘密は「SWIRES (Stage-wise Retracing Search)」という独自の検索手法にあります。
従来のBeam Searchのような手法は、決まった間隔で候補を絞り込むため、途中でミスがあっても引き返せませんでした。しかし、SWIRESは各推論段階の終わりで複数の候補を生成し、その質を評価します。
もし、ある段階で生成された候補の質が低いと判断された場合、SWIRESは「待てよ、前の段階の出力が悪かったのかもしれない」と判断し、前の段階に「後戻り」して、もう一度そこから推論をやり直すことができます。この「自己反省とエラー訂正」のメカニズムにより、LLaVA-CoTはより堅牢で正確な推論を実現しているのです。
LLaVA-CoTは、MMStar、MMBench、MathVistaなど、様々なマルチモーダル推論ベンチマークでその実力を証明しました。
わずか10万件の学習データとSWIRESによるテスト時スケーリングにもかかわらず、ベースモデルから平均9.4%もの性能向上を達成しています。さらに驚くべきことに、GPT-4o-miniやGemini-1.5-pro、Llama-3.2-90B-Vision-Instructといった、より大規模なモデルやクローズドソースのモデルの性能をも上回る結果を出しています。
特に、インスタンス推論、論理推論、数学、科学・技術といった体系的な推論が求められるタスクにおいて、LLaVA-CoTは顕著な改善を見せました。これは、段階的な構造化推論がモデルの「考える力」を大きく向上させることを示しています。
LLaVA-CoTは、VLMが自律的かつ体系的に推論を行うための新しい道筋を示しました。4つの明確な推論段階と、テスト時のエラー訂正を可能にするSWIRESという革新的なアプローチにより、複雑なマルチモーダル推論タスクにおいて、これまで達成できなかった高い性能を実現しています。
本研究は、今後のマルチモーダルモデルの推論能力向上に向けた重要な一歩となるでしょう。将来的には、強化学習の応用など、さらに複雑な推論能力を追求する研究も期待されます。
。将来的には、強化学習の応用など、さらに複雑な推論能力を追求する研究も期待されます。
LLaVA-CoTのコード、データセット、事前学習済みウェイトは、以下のGitHubリポジトリで公開されています。