本記事では、3D Gaussian Splatting(3DGS)とDiffusionモデルを組み合わせ、非常に少ない入力画像から高品質な3Dシーンを再構築する画期的な手法「RI3D」についてご紹介します。
論文タイトル: RI3D: Few-Shot Gaussian Splatting With Repair and Inpainting Diffusion Priors
近年、NeRF(Neural Radiance Fields)や3DGS(3D Gaussian Splatting)といった新しい3D表現が登場し、高精細な3Dシーンの再構築が可能になりました。しかし、これらの技術が真価を発揮するには、多数の入力画像が必要です。
ごくわずかな(sparseな)入力画像から3Dシーンを再構築しようとすると、いくつかの大きな課題に直面します。例えば、入力画像に含まれる情報だけでは、シーンのあらゆる角度からの視点を網羅できません。
その結果、撮影されていない「見えない領域」は、ぼやけてしまったり、不自然なアーティファクトが発生したりする問題がありました。
RI3Dは、このSparseな入力画像からの3Dシーン再構築の課題を克服するために、Diffusionモデルの力を活用します。特に注目すべきは、「見える領域の再構築」と「見えない領域の補完」という2つのタスクに分けてアプローチする点です。
このために、RI3Dは2つの専用のDiffusionモデルを導入します。
これらのモデルは、対象となるシーンの入力画像に合わせてパーソナライズされるため、よりそのシーンに特化した高品質な出力を期待できます。
RI3Dは、この2つのDiffusionモデルを効果的に統合するために、2段階の最適化戦略を採用しています。
Stage 1: 見える領域の再構築
最初の段階では、主にRepairモデルを使用して、入力画像でカバーされている領域の3DGS表現を最適化します。このRepairモデルが、レンダリングされた画像をきれいに補正し、その結果を「pseudo ground truth」として活用することで、見える領域に詳細なテクスチャを再構築できるようになります。
この時点では、まだ入力画像からは見えない領域は、正しく再構築されず、白い部分として残っている状態です。
Stage 2: 見えない領域の補完と統合
次に、Stage 1で残った「見えない領域」を埋める作業に入ります。ここでは、Inpaintingモデルが登場します。Inpaintingモデルが、新しい視点からの画像の欠損部分を自然に埋め、シーンの欠けている部分を想像して生成します。
生成された補完部分をシーンに統合するために、再びRepairモデルが活用されます。このプロセスは、シーン全体の欠損部分が徐々に埋まっていくまで、複数回繰り返されます。
このように、RI3Dは見える部分と見えない部分に特化したアプローチを組み合わせることで、高精度かつシームレスな3Dシーン再構築を実現しています。
3DGSの最適化において、初期化は非常に重要な要素です。RI3Dでは、この初期化の品質を高めるために、独自の深度推定手法を提案しています。
具体的には、3D-consistentで滑らかな深度マップを提供するDUSt3Rという手法と、詳細な相対深度を持つ単眼深度推定(monocular depth estimation)手法を組み合わせます。
これらの深度情報をPoisson blendingの原理を用いて統合することで、3D的に整合性が取れており、かつ細部まで詳細な深度マップを生成し、これを元にGaussianを初期化します。
RI3Dは、Mip-NeRF 360データセットなどの challenging なシーンにおいて、最先端の技術と比較して優れたパフォーマンスを示しています。特に、既存手法が苦手とする未観測領域(見えない部分)においても、詳細で高品質なテクスチャを生成できる点が強みです。
既存手法では、欠損領域がぼやけたり、ノイズが乗ったりする傾向があるのに対し、RI3DはパーソナライズされたInpaintingモデルによって、非常に自然なディテールをhallucinateすることが可能です。また、Repairモデルによる追加の教師信号が、見える領域のテクスチャも大幅に向上させています。
RI3Dは、Diffusionモデルの力を最大限に引き出し、Sparseな入力画像からでも高品質な3Dシーン再構築を可能にする革新的な手法です。
「見える領域の再構築」と「見えない領域の補完」という2つのタスクに特化したDiffusionモデルと、2段階の最適化戦略、そして高精度なGaussian初期化を組み合わせることで、従来の課題を克服しました。
このような技術の進化は、AR/VRコンテンツ制作やデジタルツイン構築など、多岐にわたる分野に大きな影響を与えることでしょう。今後の発展が非常に楽しみです。