3Dビジョン技術は、ロボット工学、自動運転、文化財のデジタルアーカイブなど、多岐にわたる分野で重要な役割を担っています。しかし、高精度な3D再構成を実現するには、入力画像のカメラパラメータ(焦点距離やレンズの歪み、カメラの位置や向きなど)を事前に正確に知る必要があるのが一般的でした。これらのパラメータの取得は、しばしば煩雑で専門知識を要する作業であり、3D再構成の大きなハードルとなっていました。
今回ご紹介する論文「DUSt3R: Geometric 3D Vision Made Easy」は、この課題に対し「カメラのキャリブレーションも、ポーズ情報も不要」という、これまでにないアプローチを提案しています。
論文情報
従来の多視点ステレオ再構成(MVS)のパイプラインは、以下のステップで構成されることが多かったです。
この一連のプロセスは非常に複雑で、各ステップでの誤差が次のステップに伝播し、全体の精度に影響を与えるという問題がありました。特にSfMのステップは、撮影枚数が少ない場合や、光沢のある表面、カメラの動きが少ないシーンなどで失敗しやすいという課題も抱えていました。
DUSt3Rは、このような従来の複雑なパイプラインとは一線を画します。未校正・未ポーズの入力画像コレクションから、カメラパラメータに関する事前情報なしに、直接密な3D再構成を行うことを目指します。
DUSt3Rの中心となるのは、Pointmap(ポイントマップ) と呼ばれる新しい3D表現です。Pointmapとは、入力画像の各ピクセルに対応する3D空間上の点座標を密に記録したマップのことです。これにより、画像ピクセルと3Dシーンの点が1対1で対応付けられます。
このPointmapを用いることで、DUSt3Rは以下の革新的なアプローチを実現します。
DUSt3Rのネットワークアーキテクチャは、Transformerエンコーダとデコーダをベースとしています。特に、CroCo(Cross-View Completion)という強力な事前学習モデルのウェイトを活用することで、多様な3Dビジョンタスクで高い性能を発揮できるよう設計されています。
DUSt3Rの学習は、シンプルに3D空間での点座標の回帰損失(Regression Loss)に基づいて行われます。予測されたPointmapと真のPointmapとのユークリッド距離を最小化するように学習し、予測と真値のスケール曖昧性に対応するため、両者を原点からの平均距離で正規化します。さらに、予測が難しい領域を考慮するために、信頼度を考慮した損失関数も導入されており、明示的な幾何学的制約なしに、データから強力な幾何学的・形状的知見を学習します。
Pointmapの豊かな表現力により、DUSt3Rは様々な3Dビジョンタスクを簡素化し、あるいは従来のSOTAを更新します。
DUSt3Rは、これらの多様な3Dビジョンタスクにおいて、既存の最高水準の手法と比較して優れた、あるいは同等以上の性能を発揮しています。特に、単眼深度推定やマルチビュー深度推定、相対ポーズ推定において、多くのSOTAを更新しています。
最大の特徴は、これらの結果が、特定のタスクに合わせてモデルをファインチューニングすることなく、単一のDUSt3Rモデルで達成されている点です。これは、DUSt3Rが未校正・未ポーズの画像から、シーンの幾何学的な情報を包括的に学習し、Pointmapという汎用的な表現に落とし込むことに成功している証拠です。
DUSt3Rは、未校正・未ポーズの画像コレクションから、密な3D再構成を可能にする画期的な手法です。Pointmapという新しい表現を導入し、Transformerベースのアーキテクチャと効率的な学習戦略により、従来のSfM/MVSパイプラインの複雑さを解消し、多くの3Dビジョンタスクを「簡単」にします。
この研究は、3D再構成のハードルを大幅に下げ、より多くのアプリケーションでの3Dビジョン技術の活用を加速させる可能性を秘めていると言えるでしょう。