Google Researchの研究チームによって発表された「Generative Image Dynamics」は、1枚の静止画から、まるで風に揺れる木々や花、炎の flickering のような、自然でリアルな振動運動を生成する画期的な手法です。
この研究論文は、arXivで公開されており、以下のリンクから閲覧できます。
Generative Image Dynamics (arXiv:2309.07906)
また、この論文はComputer Vision and Pattern Recognition (CVPR) 2024で発表されました。
私たちは日常の中で、風になびくカーテンや水面のさざ波、揺れる草花など、ごく自然な動きに囲まれて暮らしています。もし、写真のような静止画に、まるで生きているかのようなこれらの動きを加えられたら、コンテンツ表現の可能性は大きく広がるでしょう。
しかし、この「静止画を動かす」というタスクは簡単ではありません。単にピクセルを動かすだけでは、不自然な動きになったり、物理法則を無視した描写になったりしがちです。特に、長時間にわたって一貫した動きを保ちながら、かつリアルな見た目を生成するのは非常に困難でした。
これまでの手法では、動画全体を直接生成したり、ピクセルごとの瞬間的な動きを予測したりするものが多かったのですが、長時間の動画で破綻したり、動きの質が不十分だったりする課題がありました。この研究では、全く新しいアプローチでこの問題に挑んでいます。
Generative Image Dynamicsの核となるアイデアは、画像内のオブジェクトの動きを「スペクトルボリューム」という特別な形式で表現し、それを拡散モデルで予測することです。そして、予測された動きをもとに元の静止画をアニメーション化します。
この手法は、特に木々や花、ろうそくの炎のように、自然な振動(繰り返しの揺れ動き)を示すシーンに焦点を当てています。これらの動きは、時間領域で直接扱うよりも、周波数領域で表現する方が効率的で、長期的な一貫性を保ちやすいという洞察に基づいています。
「スペクトルボリューム」は、動画内の各ピクセルの長期的な動きの軌跡を、フーリエドメイン(周波数領域)で表現したものです。
通常の動画では、各時刻におけるピクセルがどこに移動したかを示す「変位マップ」の連続として動きを表現します。しかし、振動運動の場合、この変位マップを直接扱うと、動画が長くなるほど情報量が増大し、予測が困難になります。
そこで、スペクトルボリュームでは、各ピクセルの動きの時系列データをフーリエ変換します。これにより、動きの「速さ(周波数)」や「強さ(振幅)」、「位相」といった成分に分解して表現できます。この研究では、自然な振動運動の多くが比較的低い周波数成分で構成されていることを発見し、少数の周波数成分(フーリエ係数)だけでリアルな動きを十分に表現できることを示しています。これにより、動画全体を扱うよりもはるかにコンパクトで効率的な動きの表現が可能になります。
この研究では、最先端の画像生成モデルである潜在拡散モデル (Latent Diffusion Model; LDM) を用いて、入力された静止画からこのスペクトルボリュームを生成します。
拡散モデルは、ノイズから画像を生成する際に、条件となる情報(ここでは入力画像)に基づいてノイズを取り除いていく学習をします。Generative Image Dynamicsでは、このプロセスをRGB画像ではなく、より抽象化された「スペクトルボリュームの潜在表現」に対して適用します。
訓練の安定性と精度のために、以下の二つの工夫が凝らされています。
予測されたスペクトルボリュームは、まず逆フーリエ変換によって、各ピクセルが各時刻でどこに移動するかを示す「モーションテクスチャ」(変位マップの系列)に変換されます。
次に、このモーションテクスチャを用いて、入力の静止画をアニメーション化します。このプロセスには、深層画像ベースレンダリング (Deep Image-Based Rendering; IBR) 技術が用いられます。これは、入力画像のピクセルを新しい位置に「スプラッティング」(撒き散らすように配置)することで、将来のフレームを生成する技術です。
ピクセルをスプラッティングするだけでは、移動によって生じる「穴」や、複数のピクセルが同じ位置に重なる「重なり」の問題が発生します。これを解決するため、本研究では、特徴ピラミッドとソフトマックススプラッティングという技術を導入し、さらに、動きの大きさに応じて各ピクセルの寄与度を重み付けすることで、前景と背景の区別を考慮した高品質なレンダリングを実現しています。
Generative Image Dynamicsは、単に静止画を動かすだけでなく、いくつかの魅力的な応用を可能にします。
多くのコンテンツで求められる、動画の開始と終了が滑らかにつながる「シームレスなループ動画」の生成も可能です。通常、ループ動画の訓練データは少ないため、一般的な動画生成モデルでは困難ですが、本研究では「モーション自己ガイダンス (motion self-guidance)」という工夫を導入しています。
これは、拡散モデルのノイズ除去プロセス中に、動画の開始フレームと終了フレームにおけるピクセルの位置と速度ができるだけ一致するように、明示的な制約を与えるものです。これにより、通常の動画クリップから訓練されたモデルでも、破綻なくループする自然な動画を生成できます。
さらに驚くべきは、生成されたスペクトルボリュームを「画像空間モーダルベース」として解釈することで、インタラクティブな動的シミュレーションが可能になる点です。
これは、ユーザーが画像内のオブジェクトをドラッグしたりクリックしたりして力を加えると、まるで物理エンジンが組み込まれているかのように、オブジェクトがその力に応じた物理的な応答(揺れ動き)を見せるというものです。まるで静止画の中に隠された、オブジェクトの「振動モード」を引き出すような体験を提供します。これまでの手法では入力に動画が必要でしたが、この研究では静止画1枚で実現できる点が革新的です。
Generative Image Dynamicsは、スペクトルボリュームという効率的な動きの表現と、それを高精度に予測する周波数協調型拡散モデル、そして高品質な画像ベースレンダリング技術を組み合わせることで、静止画からリアルで一貫性のある自然な動きを生成する強力なフレームワークを提示しました。
この技術は、シームレスなループ動画の生成や、ユーザーの入力に反応するインタラクティブな画像といった、これまでにない魅力的なコンテンツ創造の可能性を秘めています。動画コンテンツの作成や、AR/VRアプリケーションなど、多岐にわたる分野での応用が期待される、非常に興味深い研究と言えるでしょう。
今後の進展にも注目していきたい分野です。