Categories: paper-reading

【論文紹介】SAM 3: 任意の概念で画像をセグメンテーション! 進化するSegment Anything Model 3

論文タイトル: SAM 3: Segment Anything with Concepts
arXiv: arXiv:2511.16719v1

はじめに:AIの「目」の進化、SAMシリーズの最新作

コンピュータビジョンの分野では、AIが画像や動画から物体を認識し、その形状を正確に切り出す「セグメンテーション」という技術が非常に重要です。

これは、ロボットの目、AR(拡張現実)コンテンツの作成、データのアノテーションなど、多岐にわたるAIアプリケーションの基盤となります。

これまでも、Meta社が発表したSegment Anything Model(SAM)シリーズは、この分野に大きなブレイクスルーをもたらしてきました。特に、ユーザーがクリックやボックスなどの「ビジュアルプロンプト」を使って、画像内の特定のオブジェクトをセグメンテーションできる「Promptable Visual Segmentation (PVS)」タスクでその能力を発揮してきました。

そして今回、その進化版である「SAM 3」が登場しました。SAM 3は、これまでのSAMシリーズの能力をさらに拡張し、「コンセプトプロンプト」という新しいアプローチで、画像や動画内のあらゆる概念の物体を検出、セグメンテーション、さらには追跡することを可能にします。

Promptable Concept Segmentation (PCS) とは?

SAM 3が導入する主要な新機能が「Promptable Concept Segmentation(PCS)」タスクです。これは、従来のPVSが「単一の物体をセグメンテーションする」ことを目的としていたのに対し、より汎用的な「画像や動画内に存在するすべての概念インスタンスを見つけてセグメンテーションする」ことを目指します。

「コンセプトプロンプト」は、例えば「黄色いスクールバス」のような短い名詞句や、画像中の実例(Exemplar)、あるいはその両方を組み合わせて指定できます。これにより、モデルは指定されたコンセプトに合致するすべてのオブジェクトに対して、セグメンテーションマスクと一意のID(動画の場合は追跡情報)を返します。

例えば、単純なテキストで「猫」と指定するだけで、画像内のすべての猫のインスタンスを切り出すことができるのです。

論文”SAM 3: Segment Anything with Concepts”から引用

SAM 3の革新的なアーキテクチャ

SAM 3は、その汎用性と高性能を実現するために、洗練されたアーキテクチャを採用しています。

モデルは大きく分けて「画像レベルの検出器(Detector)」と「メモリベースの動画トラッカー(Tracker)」から構成され、これらは単一の基盤となるVision Encoderを共有しています。

特に注目すべきは、「Presence Head」と呼ばれる新しい要素の導入です。これは、物体認識(何であるか)と位置特定(どこにあるか)のプロセスを分離することで、検出の精度を大幅に向上させます。

このデカップリングされた設計により、検出器はオブジェクトの識別にとらわれず、トラッカーは動画内の各オブジェクトのIDを分離するという、それぞれの主要な目的に集中できるようになります。

これにより、以前のSAMでは難しかった、画像中に存在する複数の「黄色いスクールバス」のようなオブジェクトをまとめてセグメンテーションしたり、動画内でその動きを追跡したりといったタスクが実現可能になりました。

SAM3のアーキテクチャ、論文”SAM 3: Segment Anything with Concepts”から引用

大規模なデータエンジンの力

SAM 3の驚異的な性能は、単にモデルのアーキテクチャだけによるものではありません。その裏には、Meta社が構築したスケーラブルなデータエンジンがあります。

論文”SAM 3: Segment Anything with Concepts”から引用

このデータエンジンは、400万ものユニークなコンセプトラベルを含む、画像と動画にわたる高品質なデータセットを生成しました。

彼らは、(i)多様なメディア領域からのデータ収集、(ii)LLMを活用した「AIアノテーター」による概念の多様化とハードネガティブ(誤認識しやすい負例)の生成、(iii)「AI検証者」によるアノテーションの検証と高速化、といった3つの主要な点で革新を起こしました。

この人間とAIの協調によるアノテーションパイプラインにより、従来の人間のみによるアノテーションと比較して、データ生成のスループットが2倍以上に向上したと報告されています。

SAM 3が達成した驚異的な成果

SAM 3は、画像と動画のPCSタスクにおいて既存のシステムを大幅に上回る、最先端の性能を達成しました。

例えば、画像PCSにおける「SA-Co/Gold」ベンチマークでは、既存の最強ベースラインの2倍以上のcgF1スコアを記録し、人間が達成できる性能の約74%に達しました。動画PCSでも、同様に大幅な性能向上を示しています。

さらに、SAM 3 Agentという、MLLM(マルチモーダル大規模言語モデル)とSAM 3を組み合わせたシステムでは、より複雑な言語クエリや推論を必要とするセグメンテーションタスクにも対応できることが示されています。

このシステムは、ゼロショット(事前学習なし)でRefCOCO+やReasonSegといったベンチマークで過去の最先端技術を上回る性能を達成し、SAM 3が多機能なビジョンツールとして機能することを示しています。

今後の展望と課題

SAM 3は大きな進歩ですが、まだいくつかの課題があります。

例えば、ゼロショットの状況で、非常に専門的なドメインの細粒度コンセプト(例:特定の航空機タイプ、医療用語)への一般化はまだ難しい場合があります。

また、SAM 3は「赤いリンゴ」のような単純な名詞句のプロンプトに限定されており、より長い参照表現や複雑な推論を必要とするクエリには直接対応できません。しかし、これは上記で紹介したSAM 3 Agentのように、MLLMと組み合わせることで解決できる可能性があります。

動画においては、追跡するオブジェクトの数に比例して推論コストが増大するため、多数のオブジェクトをリアルタイムで追跡するには複数のGPUが必要となります。将来的には、共有のグローバルメモリの導入などにより、効率性の向上が期待されます。

まとめ

SAM 3は、テキストや画像例による「コンセプトプロンプト」を導入することで、画像や動画におけるオープンボキャブラリのセグメンテーションを可能にした画期的なモデルです。

強力なモデルアーキテクチャと、AIアノテーターを活用した効率的なデータエンジンによって、SAM 3はPCSタスクにおいて既存システムを大幅に上回る性能を発揮しました。

この成果は、ロボティクス、コンテンツ作成、ARなど、多岐にわたるAIアプリケーションの発展に大きく貢献するでしょう。SAM 3とその新しいSA-Coベンチマークは、今後のコンピュータビジョン研究の重要なマイルストーンとなること間違いありません。

Haruoka