【論文紹介】3D Gaussian Splatting:NeRFを超えるリアルタイム高画質レンダリングを可能にする新手法

本記事では、2023年にACM Transactions on Graphics (SIGGRAPH 2023) で発表された革新的な論文「3D Gaussian Splatting for Real-Time Radiance Field Rendering」についてご紹介します。
arXiv版はこちら: arXiv:2308.04079v1

この論文は、複数の写真からリアルな3Dシーンを生成し、あらゆる視点から高品質な画像をリアルタイムでレンダリングする「新規視点合成」という技術分野において、既存手法の課題を克服する画期的なアプローチを提案しています。

新規視点合成の革命と課題

近年、NeRF(Neural Radiance Fields)に代表される「ラディアンスフィールド」と呼ばれる技術が、新規視点合成の分野に大きな変革をもたらしました。NeRFは、3D空間をニューラルネットワークで表現することで、驚くほどリアルで詳細な画像を生成できます。

しかし、NeRFにはいくつかの課題がありました。

  1. 学習時間の長さ: 高品質なモデルを生成するには、数時間から数日かかることがありました。
  2. レンダリング速度の遅さ: リアルタイムでの視点移動は難しく、1枚の画像を生成するのに数秒かかることも珍しくありませんでした。
  3. 品質と速度のトレードオフ: 既存の高速化手法は、多くの場合、画質を犠牲にする必要がありました。

本論文「3D Gaussian Splatting」は、これらの課題を一挙に解決し、最高品質の新規視点合成をリアルタイムで実現するという、まさに夢のような目標を達成したのです。

「3D Gaussian Splatting for Real-Time Radiance Field Rendering」より引用

3D Gaussian Splattingとは?

3D Gaussian Splattingは、その名の通り、3D空間を「3Dガウス分布(Gaussian)」の集合で表現する手法です。これは、従来のNeRFが採用していた「連続的なボリューメトリック表現(体積表現)」とは大きく異なります。

まず、SfM(Structure-from-Motion)という技術で取得した疎な3D点群を初期のガウス分布として使用します。そして、このガウス分布の位置、不透明度、異方性共分散(ガウス分布の形状)、球面調和関数(SH)係数(色情報)を、トレーニング画像との誤差を最小化するように最適化していきます。

なぜ3D Gaussianを使うのか?

ガウス分布は、以下の点で非常に優れた表現方法です。

  • 微分可能性: 最適化プロセスにおいて、各パラメーターの勾配を効率的に計算できます。
  • 効率的なラスタライズ: 3Dガウス分布を2D画像空間に投影することで、GPUの高速なラスタライズ機能を利用できます。これは、NeRFが光線追跡(レイマーチング)に頼ることで生じていた計算コストを大幅に削減します。
  • 柔軟な表現力: 特に「異方性共分散」を最適化することで、ガウス分布がシーンの細かい構造に合わせて自由に形状を変えることができます。これにより、少ない数のガウス分布で複雑な形状を効率的に表現できるのです。

主要な3つの技術要素

本手法は、以下の3つの主要な要素によって構成されています。

1. 3D Gaussianによるシーン表現

SfMで得られた疎な点群をベースに、3Dガウス分布の集合としてシーンを表現します。このガウス分布は、ただの球ではなく、形状を自由に調整できる「異方性(Anisotropic)」を持っています。これにより、細いワイヤーのような構造から広い平面まで、様々な形状を高精度かつコンパクトに表現できます。

2. 適応的な最適化と密度制御

最適化プロセスでは、以下のパラメーターを学習します。

  • 3D位置(中心)
  • 不透明度(アルファ値)
  • 異方性共分散(形状)
  • 球面調和関数(SH)係数(視点依存の色)

この最適化と並行して、「適応的な密度制御」が行われます。これは、シーンの再構成が不十分な領域(Under-reconstruction)ではガウス分布を「クローン」して増やし、過剰に広い領域をカバーしている場合(Over-reconstruction)には大きなガウス分布を「分割」して小さなものにすることで、効率的かつ高精度にシーンを表現します。これにより、初期の疎な点群から、高品質な詳細を持つ密な表現へと自動的に進化させることができます。

「3D Gaussian Splatting for Real-Time Radiance Field Rendering」より引用

3. 高速な微分可能ラスタライザー

3D Gaussian Splattingの最大の強みの一つは、その高速なレンダリング速度にあります。これは、新開発された「タイルベースの微分可能ラスタライザー」によって実現されています。

  • GPUの活用: GPUの並列処理能力を最大限に引き出す設計です。
  • タイルベース処理: 画面を小さなタイルに分割し、各タイル内でガウス分布を効率的に処理します。
  • 高速ソート: ガウス分布を視点からの深度で高速にソートすることで、正確なアルファブレンド(半透明なオブジェクトの合成)を可能にします。これにより、体積レンダリングのような連続的な見え方を実現します。
  • 微分可能: レンダーされた画像から3Dガウス分布のパラメーターへの勾配を効率的に計算できるため、高速な学習が可能です。

驚異的な性能

本手法は、既存のNeRF系手法と比較して、学習時間とレンダリング速度の両面で大幅な改善を達成しています。

  • Mip-NeRF360との比較: 最も高品質とされていたMip-NeRF360が48時間の学習時間を要し、レンダリングが10秒/フレームであったのに対し、3D Gaussian Splattingはわずか35〜45分の学習時間で、Mip-NeRF360と同等かそれ以上の画質を実現し、さらに1080p解像度で135fps(リアルタイム!)という驚異的なレンダリング速度を達成しています。
  • InstantNGPやPlenoxelsとの比較: これらの高速なNeRF手法と比較しても、同程度の学習時間でより高い画質を実現でき、さらに学習を継続することで既存の最高品質を上回る結果を出しています。
「3D Gaussian Splatting for Real-Time Radiance Field Rendering」より引用

このBicycleのレンダリング画像は、3D Gaussian Splattingによって生成されたものです。細部のディテールが非常に鮮明に再現されており、既存の最高品質手法(Mip-NeRF360など)と比較しても、同等かそれ以上のリアルさを実現しています。さらに、この品質をリアルタイムでレンダリングできる点が本手法の革新性を示しています。

まとめ

3D Gaussian Splattingは、新規視点合成の分野における画期的な進歩です。3Dガウス分布というシンプルなプリミティブと、それを効率的に最適化・レンダリングする巧妙なアルゴリズムの組み合わせにより、高品質なシーン表現、高速な学習、そしてリアルタイムレンダリングという、これまでの課題を全て解決しました。

この技術は、VR/AR、メタバース、映画制作、ゲーム開発など、多岐にわたる分野に大きな影響を与える可能性があります。将来的には、このガウス分布からメッシュモデルを再構成する研究なども期待されており、今後の発展が非常に楽しみな技術です。