本記事では、2023年にACM Transactions on Graphics (SIGGRAPH 2023) で発表された革新的な論文「3D Gaussian Splatting for Real-Time Radiance Field Rendering」についてご紹介します。
arXiv版はこちら: arXiv:2308.04079v1
この論文は、複数の写真からリアルな3Dシーンを生成し、あらゆる視点から高品質な画像をリアルタイムでレンダリングする「新規視点合成」という技術分野において、既存手法の課題を克服する画期的なアプローチを提案しています。
近年、NeRF(Neural Radiance Fields)に代表される「ラディアンスフィールド」と呼ばれる技術が、新規視点合成の分野に大きな変革をもたらしました。NeRFは、3D空間をニューラルネットワークで表現することで、驚くほどリアルで詳細な画像を生成できます。
しかし、NeRFにはいくつかの課題がありました。
本論文「3D Gaussian Splatting」は、これらの課題を一挙に解決し、最高品質の新規視点合成をリアルタイムで実現するという、まさに夢のような目標を達成したのです。
3D Gaussian Splattingは、その名の通り、3D空間を「3Dガウス分布(Gaussian)」の集合で表現する手法です。これは、従来のNeRFが採用していた「連続的なボリューメトリック表現(体積表現)」とは大きく異なります。
まず、SfM(Structure-from-Motion)という技術で取得した疎な3D点群を初期のガウス分布として使用します。そして、このガウス分布の位置、不透明度、異方性共分散(ガウス分布の形状)、球面調和関数(SH)係数(色情報)を、トレーニング画像との誤差を最小化するように最適化していきます。
ガウス分布は、以下の点で非常に優れた表現方法です。
本手法は、以下の3つの主要な要素によって構成されています。
SfMで得られた疎な点群をベースに、3Dガウス分布の集合としてシーンを表現します。このガウス分布は、ただの球ではなく、形状を自由に調整できる「異方性(Anisotropic)」を持っています。これにより、細いワイヤーのような構造から広い平面まで、様々な形状を高精度かつコンパクトに表現できます。
最適化プロセスでは、以下のパラメーターを学習します。
この最適化と並行して、「適応的な密度制御」が行われます。これは、シーンの再構成が不十分な領域(Under-reconstruction)ではガウス分布を「クローン」して増やし、過剰に広い領域をカバーしている場合(Over-reconstruction)には大きなガウス分布を「分割」して小さなものにすることで、効率的かつ高精度にシーンを表現します。これにより、初期の疎な点群から、高品質な詳細を持つ密な表現へと自動的に進化させることができます。
3D Gaussian Splattingの最大の強みの一つは、その高速なレンダリング速度にあります。これは、新開発された「タイルベースの微分可能ラスタライザー」によって実現されています。
本手法は、既存のNeRF系手法と比較して、学習時間とレンダリング速度の両面で大幅な改善を達成しています。
このBicycleのレンダリング画像は、3D Gaussian Splattingによって生成されたものです。細部のディテールが非常に鮮明に再現されており、既存の最高品質手法(Mip-NeRF360など)と比較しても、同等かそれ以上のリアルさを実現しています。さらに、この品質をリアルタイムでレンダリングできる点が本手法の革新性を示しています。
3D Gaussian Splattingは、新規視点合成の分野における画期的な進歩です。3Dガウス分布というシンプルなプリミティブと、それを効率的に最適化・レンダリングする巧妙なアルゴリズムの組み合わせにより、高品質なシーン表現、高速な学習、そしてリアルタイムレンダリングという、これまでの課題を全て解決しました。
この技術は、VR/AR、メタバース、映画制作、ゲーム開発など、多岐にわたる分野に大きな影響を与える可能性があります。将来的には、このガウス分布からメッシュモデルを再構成する研究なども期待されており、今後の発展が非常に楽しみな技術です。