Categories: paper-reading

【論文紹介】Mip-Splatting: ズームしても劣化しない、エイリアシングフリーな3D Gaussian Splatting

デジタルコンテンツの品質が向上し続ける現代において、3Dモデルを様々な視点から高品質にレンダリングする「新規視点合成(Novel View Synthesis)」は非常に重要な技術となっています。特に近年、リアルタイムでの高品質レンダリングを可能にする「3D Gaussian Splatting (3DGS)」が登場し、大きな注目を集めています。

しかし、3DGSには課題がありました。カメラのズームイン・アウトや、カメラとオブジェクトの距離が変わるといった、学習時とは異なるサンプリングレートでレンダリングしようとすると、画像にノイズや不自然なぼやけといった「エイリアシング」が生じてしまうのです。

今回ご紹介する論文「Mip-Splatting: Alias-free 3D Gaussian Splatting」は、この問題を見事に解決する手法を提案しています。

著者:Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger
論文リンク (arXiv): https://arxiv.org/abs/2311.16493

3D Gaussian Splattingとその課題

3D Gaussian Splatting(以下、3DGS)は、3Dシーンを多数の3Dガウス分布(Gaussian)の集まりとして表現し、それを2D画像平面に投影してレンダリングする手法です。このガウス分布の位置、サイズ、向き、色、不透明度などを最適化することで、非常に高品質で高速な新規視点合成を実現します。

しかし、3DGSはレンダリングの際に「2D Dilation」という操作を行っています。これは、画像平面に投影された2Dガウス分布が小さくなりすぎる場合に、そのサイズを画面空間で膨張させることで、ピクセル単位での表現の欠落を防ぐためのものです。

この2D Dilationが、サンプリングレートの変化時にエイリアシングを引き起こす主な原因となります。

  • ズームイン時(サンプリングレートが増加): 2Dガウス分布が画面空間で大きく表示されるようになりますが、Dilationの量が一定だと、本来ピクセルが埋めるべき空間に隙間が生じてしまいます。これにより、オブジェクトの細部が不自然に細くなったり、ギザギザした高周波ノイズ(ハイフリケンシーアーティファクト)が発生したりします。
  • ズームアウト時(サンプリングレートが減少): 2Dガウス分布が画面空間で小さく表示されます。このとき、一定量のDilationが適用されると、ガウス分布が物理的に不正確な形で隣接ピクセルにまで広がり、オブジェクトの細部が不自然に太く見えたり、全体が明るくなりすぎたりする「膨張アーティファクト」が発生します。

これらの問題は、特に数百万個ものガウス分布でシーンを表現する3DGSにおいて、見た目の品質を大きく損なう要因となっていました。

Mip-Splattingの解決策

Mip-Splattingは、これらの課題を解決するために、大きく2つの新しいフィルターを導入しています。

3Dスムージングフィルター

このフィルターは、3DGSにおける「3Dガウス分布のスケールが適切に制約されていない」という根本的な問題を解決します。

論文では、Nyquist-Shannonサンプリング定理という、信号処理における基本的な法則に着目しています。これは、連続的な信号を離散的なサンプルから正確に復元するには、サンプリングレートが信号の最高周波数の少なくとも2倍でなければならない、というものです。

3DGSのガウス分布も3D信号の一部と捉え、学習時に使用された画像群から各ガウス分布が「どこまで細かい構造を表現できるか」という最大サンプリング周波数を計算します。そして、この最大周波数を超えるような高周波成分を、各3Dガウス分布に「3Dスムージングフィルター」を適用することで抑制します。

このフィルターは学習中に適用され、一度決定されると3Dシーン表現の不可欠な一部となります。そのため、レンダリング時にカメラの視点やズームレベルが変わっても、3D表現自体が高周波ノイズを含まないように設計されているため、ズームイン時の高周波ノイズや細部の侵食といったアーティファクトが解消されます。

2D Mipフィルター

3Dスムージングフィルターがズームイン時の問題を解決する一方で、ズームアウト時のエイリアシングを軽減するために、3DGSの「2D Dilation」操作を「2D Mipフィルター」に置き換えます。

この2D Mipフィルターは、物理的なカメラセンサーがピクセル領域全体で光を集積するプロセスを模倣するものです。理想的には2Dボックスフィルターが使われますが、ここでは効率のために2Dガウスフィルターで近似しています。このフィルターは、投影された2Dガウス分布が1ピクセル程度の適切なサイズになるように調整されるため、ズームアウト時の不自然な膨張や明るさの増加を防ぎ、エイリアシングを効果的に軽減します。

既存のEW Aフィルターと呼ばれる手法と似ていますが、Mipフィルターが「1ピクセルを正確に近似する」ことを目的としているのに対し、EW Aフィルターは周波数帯域を制限するために経験的にサイズが選択される点で異なります。Mip-Splattingの2D Mipフィルターは、より物理的なイメージングプロセスに基づいているため、ズームアウト時により自然なレンダリング結果をもたらします。

実験結果

Mip-Splattingは、BlenderデータセットとMip-NeRF 360データセットという、標準的なベンチマークで評価されています。特に注目すべきは、「単一スケールで学習し、複数のスケールでテストする」という、より実用的なシナリオでの評価です。

  • ズームイン時(高解像度レンダリング): 学習時よりも高解像度でレンダリングするシナリオにおいて、Mip-Splattingは既存の最先端手法と比較して、高周波ノイズや細部の侵食なしに、 ground truth(正解画像)に近い高忠実度な画像を生成できることを示しています。これは、3Dスムージングフィルターが効果的に機能している証拠です。
  • ズームアウト時(低解像度レンダリング): 学習時よりも低解像度でレンダリングするシナリオでは、他の手法で問題となっていた膨張アーティファクトや過度なスムージングが大幅に軽減され、より鮮明で自然な画像が得られています。これは、2D Mipフィルターがエイリアシング問題に効果を発揮しているためです。
  • 従来の評価設定: 学習時と同じサンプリングレートでテストする一般的な設定においても、Mip-Splattingは既存の3DGSや他のニューラルレンダリング手法と同等か、それ以上の高性能を発揮することが確認されています。

これらの結果は、Mip-Splattingが幅広いサンプリングレートにおいて、頑健かつ高品質なレンダリングを可能にすることを示しています。

まとめ

Mip-Splattingは、3D Gaussian Splattingの大きな課題であったサンプリングレート変化時のエイリアシング問題を、3Dスムージングフィルターと2D Mipフィルターという2つの革新的なアプローチで解決しました。

  • 3Dスムージングフィルター:学習データから導かれる最大周波数で3Dガウス分布を制約し、ズームイン時の高周波ノイズや侵食効果を排除。
  • 2D Mipフィルター:物理的なイメージングプロセスを模倣し、2D Dilationを置き換えることで、ズームアウト時のエイリアシングや膨張効果を効果的に抑制。

これらの変更は、3DGSのコードベースに最小限の変更で導入可能でありながら、既存手法を大幅に上回る汎化性能とレンダリング品質を実現しています。Mip-Splattingの登場は、3DGSがより実用的な新規視点合成技術として普及するための重要な一歩となるでしょう。

Haruoka