近年、自然言語処理分野では「基盤モデル(Foundation Model)」と呼ばれる大規模な事前学習済みモデルが、多岐にわたるタスクで目覚ましい性能を発揮し、大きな変革をもたらしています。これらのモデルは、膨大なデータで学習された汎用的な能力を「プロンプトエンジニアリング」によって特定のタスクに適応させることで、新たなデータやタスクに対してもゼロショット学習やフューショット学習で高い汎化能力を示します。
コンピュータビジョン分野でも同様の動きがありますが、画像セグメンテーションのような特定のタスクにおいては、ウェブスケールの豊富な学習データが存在しないという課題がありました。
今回ご紹介する「Segment Anything」プロジェクトは、この課題に挑戦し、画像セグメンテーションの分野に「基盤モデル」という概念を導入しようとするものです。Meta AI ResearchのFAIRチームが発表したこの論文は、画像セグメンテーションのための新しいタスク、モデル、そしてデータセットを提案しています。
論文情報
Segment Anythingプロジェクトは、画像セグメンテーションの基盤モデルを構築するために、以下の3つの相互に関連するコンポーネントを開発しました。
このプロジェクトの中核となるのは、「プロンプト可能なセグメンテーション」という新しいタスクです。これは、自然言語処理の基盤モデルにおけるプロンプトの概念をセグメンテーションに持ち込んだものです。
具体的には、画像内のどこをセグメント化するかを示す「プロンプト」が与えられたときに、それに対応する「有効なセグメンテーションマスク」を返すことを目指します。プロンプトは非常に柔軟で、例えば、前景/背景の点、ざっくりとしたバウンディングボックス、既存のマスク、さらにはフリーフォームのテキスト情報など、あらゆる形式が考えられます。
このタスクのポイントは、「有効な」マスクを返すという点です。例えば、「シャツの上の点」という曖昧なプロンプトが与えられた場合、シャツ全体を指すのか、そのシャツを着ている人物全体を指すのか、複数の解釈があり得ます。しかし、このタスクでは、それらのうち少なくとも一つに対して合理的なマスクを生成することが求められます。これにより、モデルは曖昧な状況でも柔軟に対応でき、人間が対話的に利用するだけでなく、他のアルゴリズムと組み合わせて、幅広いダウンストリームタスクにゼロショットで転送できる汎用性を獲得します。
「Segment Anything Model (SAM)」は、このプロンプト可能なセグメンテーションタスクを実現するために設計されたモデルです。SAMは大きく3つの部分で構成されています。
従来のセグメンテーションデータセットは、ウェブスケールのテキストデータのように豊富ではありませんでした。この問題を解決するため、Segment Anythingプロジェクトでは、モデルとデータ収集を並行して進化させる「データエンジン」を開発しました。このデータエンジンは3つの段階を経て、これまでにない大規模なセグメンテーションデータセット「SA-1B」を構築しました。
このデータエンジンを通じて、SA-1Bデータセットは、1100万枚の画像から10億を超えるマスクという、既存のどのセグメンテーションデータセットと比較しても圧倒的に大規模なものとなりました。画像はプライバシー保護のため顔やナンバープレートがぼかし処理されており、研究目的での利用が可能です。
Segment Anythingプロジェクトは、SAMのゼロショット転送能力を広範な実験で評価しました。SAMは、学習時に見たことのない画像分布やタスクに対しても、プロンプトエンジニアリングを通じて高い性能を発揮します。
Segment Anythingプロジェクトは、画像セグメンテーションを基盤モデルの時代へと引き上げる重要な試みです。SAMは、さまざまなプロンプトに対して有効なマスクを生成する能力を持つことで、他のシステムと容易に連携できる「構成可能性」を提供します。これにより、3D再構築や視線によるインタラクションなど、多岐にわたる新しいアプリケーションの可能性が開かれます。
もちろん、SAMにも限界はあります。微細な構造を見逃したり、小さな孤立したコンポーネントを誤って生成したり、計算コストの高い手法ほど境界が鮮明でない場合があります。また、セマンティックセグメンテーションやパノプティックセグメンテーションのような、より複雑なセグメンテーションタスクにシンプルなプロンプトで適用する方法はまだ探求の余地があります。
しかし、10億を超えるマスクを含むSA-1Bデータセットの公開と、プロンプト可能なセグメンテーションモデルSAMの登場は、コンピュータビジョンにおける基盤モデル研究の道を切り開く重要な一歩となるでしょう。
SAMモデルとSA-1Bデータセットは、segment-anything.com でApache 2.0ライセンスのもと公開されており、研究コミュニティが自由に利用し、更なる研究を促進することが期待されています。オンラインデモも公開されており、実際にSAMの能力を体験することができます。