Categories: paper-reading

【論文紹介】Generative Image Dynamics: 1枚の静止画に自然でインタラクティブな動きを与える拡散モデル

Google Researchの研究チームによって発表された「Generative Image Dynamics」は、1枚の静止画から、まるで風に揺れる木々や花、炎の flickering のような、自然でリアルな振動運動を生成する画期的な手法です。

この研究論文は、arXivで公開されており、以下のリンクから閲覧できます。
Generative Image Dynamics (arXiv:2309.07906)
また、この論文はComputer Vision and Pattern Recognition (CVPR) 2024で発表されました。

Toggle

はじめに：静止画を動かす魅力と課題

私たちは日常の中で、風になびくカーテンや水面のさざ波、揺れる草花など、ごく自然な動きに囲まれて暮らしています。もし、写真のような静止画に、まるで生きているかのようなこれらの動きを加えられたら、コンテンツ表現の可能性は大きく広がるでしょう。

しかし、この「静止画を動かす」というタスクは簡単ではありません。単にピクセルを動かすだけでは、不自然な動きになったり、物理法則を無視した描写になったりしがちです。特に、長時間にわたって一貫した動きを保ちながら、かつリアルな見た目を生成するのは非常に困難でした。

これまでの手法では、動画全体を直接生成したり、ピクセルごとの瞬間的な動きを予測したりするものが多かったのですが、長時間の動画で破綻したり、動きの質が不十分だったりする課題がありました。この研究では、全く新しいアプローチでこの問題に挑んでいます。

Generative Image Dynamicsとは？：全体のアイデア

Generative Image Dynamicsの核となるアイデアは、画像内のオブジェクトの動きを「スペクトルボリューム」という特別な形式で表現し、それを拡散モデルで予測することです。そして、予測された動きをもとに元の静止画をアニメーション化します。

この手法は、特に木々や花、ろうそくの炎のように、自然な振動（繰り返しの揺れ動き）を示すシーンに焦点を当てています。これらの動きは、時間領域で直接扱うよりも、周波数領域で表現する方が効率的で、長期的な一貫性を保ちやすいという洞察に基づいています。

核となる技術：スペクトルボリュームと拡散モデル

スペクトルボリュームとは

「スペクトルボリューム」は、動画内の各ピクセルの長期的な動きの軌跡を、フーリエドメイン（周波数領域）で表現したものです。

通常の動画では、各時刻におけるピクセルがどこに移動したかを示す「変位マップ」の連続として動きを表現します。しかし、振動運動の場合、この変位マップを直接扱うと、動画が長くなるほど情報量が増大し、予測が困難になります。

そこで、スペクトルボリュームでは、各ピクセルの動きの時系列データをフーリエ変換します。これにより、動きの「速さ（周波数）」や「強さ（振幅）」、「位相」といった成分に分解して表現できます。この研究では、自然な振動運動の多くが比較的低い周波数成分で構成されていることを発見し、少数の周波数成分（フーリエ係数）だけでリアルな動きを十分に表現できることを示しています。これにより、動画全体を扱うよりもはるかにコンパクトで効率的な動きの表現が可能になります。

拡散モデルでの予測

この研究では、最先端の画像生成モデルである潜在拡散モデル (Latent Diffusion Model; LDM) を用いて、入力された静止画からこのスペクトルボリュームを生成します。

拡散モデルは、ノイズから画像を生成する際に、条件となる情報（ここでは入力画像）に基づいてノイズを取り除いていく学習をします。Generative Image Dynamicsでは、このプロセスをRGB画像ではなく、より抽象化された「スペクトルボリュームの潜在表現」に対して適用します。

訓練の安定性と精度のために、以下の二つの工夫が凝らされています。

周波数適応型正規化 (Frequency adaptive normalization)：
スペクトルボリュームのフーリエ係数は、周波数によってその値の範囲が大きく異なります。低い周波数の係数は値が大きく、高い周波数になるほど値が小さくなる傾向があります。これをそのまま拡散モデルに学習させると、高い周波数の細かい動きが適切に扱われず、予測が不正確になる可能性があります。
そこで、各周波数帯で独立に、訓練データから算出した統計情報（95パーセンタイル値）に基づいて正規化を行い、さらに平方根変換を適用することで、係数の分布を均一化し、安定した学習を可能にしています。
周波数協調型デノイジング (Frequency-coordinated denoising)：
スペクトルボリュームは複数の周波数帯の情報を持ちます。これらを個別に予測すると、周波数間の関連性が失われ、不自然な動きが生じる可能性があります。
この研究では、各周波数帯の予測をAttentionメカニズムを通じて連携させることで、全体として一貫性があり、物理的に妥当なスペクトルボリュームを生成します。これにより、複数の周波数成分が互いに調和した動きが実現されます。

動画の生成方法：画像ベースレンダリング

予測されたスペクトルボリュームは、まず逆フーリエ変換によって、各ピクセルが各時刻でどこに移動するかを示す「モーションテクスチャ」（変位マップの系列）に変換されます。

次に、このモーションテクスチャを用いて、入力の静止画をアニメーション化します。このプロセスには、深層画像ベースレンダリング (Deep Image-Based Rendering; IBR) 技術が用いられます。これは、入力画像のピクセルを新しい位置に「スプラッティング」（撒き散らすように配置）することで、将来のフレームを生成する技術です。

ピクセルをスプラッティングするだけでは、移動によって生じる「穴」や、複数のピクセルが同じ位置に重なる「重なり」の問題が発生します。これを解決するため、本研究では、特徴ピラミッドとソフトマックススプラッティングという技術を導入し、さらに、動きの大きさに応じて各ピクセルの寄与度を重み付けすることで、前景と背景の区別を考慮した高品質なレンダリングを実現しています。

驚きの応用例

Generative Image Dynamicsは、単に静止画を動かすだけでなく、いくつかの魅力的な応用を可能にします。

シームレスなループ動画

多くのコンテンツで求められる、動画の開始と終了が滑らかにつながる「シームレスなループ動画」の生成も可能です。通常、ループ動画の訓練データは少ないため、一般的な動画生成モデルでは困難ですが、本研究では「モーション自己ガイダンス (motion self-guidance)」という工夫を導入しています。

これは、拡散モデルのノイズ除去プロセス中に、動画の開始フレームと終了フレームにおけるピクセルの位置と速度ができるだけ一致するように、明示的な制約を与えるものです。これにより、通常の動画クリップから訓練されたモデルでも、破綻なくループする自然な動画を生成できます。

インタラクティブな動的シミュレーション

さらに驚くべきは、生成されたスペクトルボリュームを「画像空間モーダルベース」として解釈することで、インタラクティブな動的シミュレーションが可能になる点です。

これは、ユーザーが画像内のオブジェクトをドラッグしたりクリックしたりして力を加えると、まるで物理エンジンが組み込まれているかのように、オブジェクトがその力に応じた物理的な応答（揺れ動き）を見せるというものです。まるで静止画の中に隠された、オブジェクトの「振動モード」を引き出すような体験を提供します。これまでの手法では入力に動画が必要でしたが、この研究では静止画1枚で実現できる点が革新的です。