本論文は、大規模言語モデル(LLM)と画像認識モデルを組み合わせることで、画像と対話できるAIアシスタント「LLaVA(Large Language and Vision Assistant)」を提案しています。
この研究は、自然言語処理分野の権威ある国際会議であるNeural Information Processing Systems (NeurIPS 2023) で発表されました。
LLaVA: Large Language and Vision Assistant – Visual Instruction Tuning
arXiv:2304.08485v2
ChatGPTのようなLLMは、テキストの指示に非常に高い精度で従うことができます。しかし、人間は言語だけでなく、視覚情報も使って世界と関わっています。
もしAIが画像を見ながら、私たちの指示に従って様々な質問に答えたり、複雑な推論を行ったりできたらどうでしょうか?
LLaVAは、まさにそんな「汎用的なビジュアルAIアシスタント」を目指して開発されました。
画像を理解する能力と、人間のような対話能力を両立させることで、私たちはAIに画像を見せて「この写真で何が珍しい?」「写っているものの詳細を教えて」といった、より自然な形で指示を出せるようになります。
LLaVA開発の一番の課題は、画像とテキストの「指示」がセットになった高品質なデータが不足していることでした。
そこで研究者たちは、強力なLLMであるGPT-4(ChatGPTも一部使用)を活用する画期的な方法を考案しました。
通常の画像-テキストペア(例えば、画像とそのキャプション)をGPT-4に入力し、そこから会話形式の質問応答、詳細な説明、複雑な推論を必要とする質問と回答を自動生成させたのです。
これにより、人間が手作業で作成するよりもはるかに効率的に、大量の高品質な「マルチモーダル指示データ」を収集することに成功しました。
このデータが、LLaVAが多様な指示に柔軟に対応できる基盤となります。
LLaVAのアーキテクチャは、大きく分けて二つの主要なコンポーネントで構成されています。
一つは「Vision Encoder」と呼ばれる、画像の内容を理解し数値データに変換するAIモデル。ここではCLIPという高性能なモデルが使われています。
もう一つは「LLM」と呼ばれる、テキストの理解と生成を行うAIモデル。LLaVAではVicunaというモデルが採用されています。
これらの異なるタイプのモデルを「Projector」というシンプルな層で接続することで、Vision Encoderが生成した画像の特徴を、LLMが理解できる形式に変換します。
学習は2段階で行われます。最初の「特徴アライメント」段階では、画像とテキストの特徴を効果的に結合するようにProjectorのみを学習させます。
次の「エンドツーエンドのファインチューニング」段階では、GPT-4で生成されたマルチモーダル指示データを使って、ProjectorとLLMの両方を同時に学習させ、人間の指示に詳細かつ正確に従えるようにモデル全体を磨き上げます。
LLaVAは、その学習方法とデータのおかげで、画像の内容を深く理解し、人間の複雑な指示にも見事に応えることができます。
例えば、GPT-4の論文で示された、一見すると「何が普通じゃない?」と聞きたくなるような画像でも、LLaVAは状況を正確に把握し、その「珍しさ」を詳細に説明します。
また、ミームのようなユーモラスな画像に対しても、その背景にあるジョークを読み解き、説明する能力を示しました。
これは単に画像を記述するだけでなく、深い推論が求められるタスクです。
さらに、科学の質問応答データセット「ScienceQA」では、GPT-4とLLaVAを組み合わせることで、従来の最高性能を上回る92.53%という新記録を達成しました。
これは、テキストのみのGPT-4が画像を直接処理できない場合でも、LLaVAの画像理解能力とGPT-4の強力な推論能力を賢く組み合わせることで、より良い結果を出せることを示しています。
LLaVAは、GPT-4によって自動生成された高品質なマルチモーダル指示データを用いることで、大規模言語モデルと画像認識モデルを効果的に統合しました。
これにより、画像内容の深い理解に基づいた会話や複雑な推論が可能となり、人間がより直感的な方法でAIと対話できる汎用ビジュアルアシスタントへの大きな一歩を踏み出しました。