近年、現実世界をデジタルで再現する3D再構築や、既存の画像から新しい視点画像を生成する「新規視点合成」の技術が目覚ましい発展を遂げています。特に、NeRF(Neural Radiance Fields)のような「神経放射場」に基づく手法は高精度な結果をもたらしましたが、その計算コストの高さや、明確な3Dモデルを直接生成しないという性質が課題として残っていました。
そんな中、リアルタイムレンダリングと高い品質を両立する「3D Gaussian Splatting (3D-GS)」という画期的な手法が登場し、大きな注目を集めています。しかし、3D-GSは単一のシーンに対して多数の画像と時間をかけて最適化する必要があり、汎用的な応用にはまだハードルがありました。
今回ご紹介する「pixelSplat」は、この3D-GSのメリットを最大限に引き出し、たった2枚の画像から、スケーラブルで汎用的な3D Gaussian Splattingモデルを生成するという、まさに次世代の3D再構築技術を提案しています。
論文タイトル: pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
ArXivリンク: arXiv:2312.12337v4
pixelSplatは、与えられた2枚の入力画像とそれぞれのカメラ情報から、そのシーンの3D Gaussian Splatting表現を推論する「フィードフォワードモデル」です。これにより、単一の順方向パスで3Dシーンを再構築し、新しい視点からの画像をリアルタイムでレンダリングすることが可能になります。
この技術が画期的なのは、これまでの手法が抱えていた以下の課題を克服した点にあります。
しかし、このような画期的なシステムを実現するには、大きな課題がありました。
現実世界で撮影された画像データセットのカメラポーズは、SfM(Structure-from-Motion)ソフトウェアによって計算されることがほとんどです。このSfMは、シーンの形状を正確に再構築できますが、その絶対的なスケール(尺度の大きさ)を任意に決定してしまうという性質があります。つまり、シーンAが「実際の1メートル」を「データ上では10単位」で表現するのに対し、シーンBは「データ上では50単位」で表現するなど、シーンごとにバラバラなスケールが適用されてしまうのです。
このような状況で、ニューラルネットワークがシーンの3D形状(特に深度)を予測しようとすると、どのスケールで予測すれば良いのか分からず、矛盾が生じてしまいます。
pixelSplatは、このスケール曖昧性を解決するために、「二視点エピポーラエンコーダ」を提案しました。
この仕組みにより、pixelSplatはシーンごとに異なるスケールを正確に推論し、矛盾のない3D再構築を可能にしました。このエピポーラエンコーダがなければ、性能が大幅に低下することが実験で示されています。
3D Gaussian Splattingは強力な表現ですが、その最適化には「局所最適解」の問題がつきまといます。これは、例えるなら、広大な土地の中で最も低い場所(最適な解)を探すときに、たまたま降り立った場所から少し進んだところにある小さな窪み(局所最適解)に捕まってしまい、それ以上良い場所が見つけられなくなるような状況です。
Gaussianプリミティブは、その影響範囲が局所的であるため、正しい位置から少し離れてしまうと、勾配(次の改善方向を示す情報)が非常に小さくなり、ほとんど動かなくなってしまいます。また、正しい位置に移動するために、途中で他の物体を遮ったりする「空き空間」を通る必要がある場合、損失が増加してしまうため、最適化が難しくなります。
従来の3D-GSでは、この問題を解決するために、勾配情報だけでなく、ヒューリスティックなルール(「適応的密度制御」と呼ばれる、必要に応じてGaussianを生成したり削除したりする非微分的な操作)を用いていました。しかし、pixelSplatのようにニューラルネットワークがGaussianのパラメータを直接予測する「汎用的な設定」では、これらの非微分的な操作を利用することができません。ネットワークは、常に微分可能な形で勾配を受け取り、学習を進める必要があるからです。
そこでpixelSplatは、「確率的深度予測」という画期的な手法を提案しました。
このようにして、pixelSplatは非微分的な操作なしに、学習の過程でGaussianプリミティブが適切な位置に「生まれ」たり「消えたり」するような効果を実現し、局所最適解の問題を克服しました。実験では、この確率的予測がない場合、性能が顕著に低下し、画像に斑点状のアーティファクトが発生することが確認されています。
pixelSplatは、RealEstate10kとACIDといった大規模な実世界データセットでの広基線からの新規視点合成タスクにおいて、既存の最先端手法を全ての評価指標(PSNR, SSIM, LPIPS)で上回るという素晴らしい結果を達成しました。
特に注目すべきはその効率性です。
また、pixelSplatは最終的に明確な3D Gaussianプリミティブの集合を生成するため、レンダリングされた画像だけでなく、その背後にある3Dシーンの点群などを可視化することも可能です。これは、従来のライトフィールド表現にはない大きな利点と言えるでしょう。
pixelSplatは、3D Gaussian Splattingを汎用的な3D再構築システムに統合する上で大きな一歩を踏み出しました。しかし、著者らはいくつかの今後の展望と課題も挙げています。
pixelSplatは、リアルタイム3D再構築と新規視点合成の分野に新たな地平を切り開く画期的な研究です。今後の発展に目が離せません。