Categories: paper-reading

【論文紹介】画像を「窓」で捉える！Swin Transformerがコンピュータビジョンにもたらす革新

近年、人工知能の進化は目覚ましく、特に画像認識の分野ではその進歩が私たちの日常生活にも浸透しています。これまで画像認識の分野を牽引してきたのは、畳み込みニューラルネットワーク（CNN）と呼ばれる技術でした。しかし、自然言語処理（NLP）の分野でTransformerという強力なモデルが登場し、その成功がコンピュータビジョン分野にも大きな波紋を広げています。

本記事では、このTransformerを画像認識に適用する際の課題を克服し、新たな標準となりつつある「Swin Transformer（スウィン・トランスフォーマー）」について、初心者の方にも分かりやすく解説します。

Toggle

はじめに：Transformerが画像認識で直面した壁

コンピュータビジョンの分野では、AlexNetの登場以来、ResNetやEfficientNetといった様々なCNNアーキテクチャが進化し、画像分類、物体検出、セマンティックセグメンテーションなど、多岐にわたるタスクで優れた性能を発揮してきました。

一方、自然言語処理の分野では、文章内の単語間の長距離依存関係を捉えるAttentionメカニズムを核としたTransformerが、その柔軟性と強力なモデリング能力で席巻しました。この成功を受け、研究者たちはTransformerを画像認識に応用しようと試みましたが、いくつかの課題に直面しました。

主な課題は以下の2点です。

視覚要素のスケール変動: 自然言語の「単語」のように一様なスケールで扱える要素が画像には少なく、小さな物体から大きな物体まで、様々なスケールの視覚要素が存在します。従来のTransformerは固定スケールのトークンを扱うため、これに柔軟に対応できませんでした。
高解像度画像の計算量: 画像のピクセル数は、文章の単語数よりもはるかに多く、高解像度画像を直接扱うと、Transformerの自己注意メカニズムの計算量が画像サイズに対して二乗で増加してしまいます。これは、特に詳細な予測が求められるタスクでは現実的な問題でした。

Swin Transformerは、これらの課題を解決し、Transformerをコンピュータビジョンにおける汎用的なバックボーンとして機能させることを目指して開発されました。

Swin Transformerとは？

Swin Transformerは、前述の課題を克服するために、「シフトウィンドウ（Shifted windows）」という独自の自己注意計算手法と、「階層的な特徴表現」を組み合わせた新しいVision Transformerです。

これにより、Swin Transformerは以下の大きなメリットを実現しました。

画像サイズに対して線形な計算量: 高解像度画像でも効率的に処理できます。
多様なスケールでのモデリング能力: 小さな特徴から大きな特徴まで、階層的に学習できます。

これらの特性により、画像分類だけでなく、物体検出やセマンティックセグメンテーションといった、より複雑で詳細な予測が求められるタスクにも柔軟に適用できるようになりました。

Swin Transformerの主要な特徴

Swin Transformerの革新的なデザインを深掘りしてみましょう。

シフトウィンドウによる自己注意機構：効率とつながりの両立

従来のTransformerが画像全体で自己注意を計算するのに対し、Swin Transformerは画像を固定サイズの小さな「ローカルウィンドウ」に分割し、そのウィンドウ内でのみ自己注意を計算します。これにより、計算量が画像サイズに比例する（線形）となり、大幅な効率化が実現しました。

しかし、この「ウィンドウ内のみ」の計算では、異なるウィンドウ間での情報交換が行われず、全体的なコンテキストを捉える能力が制限される可能性があります。

この問題に対処するためにSwin Transformerが導入したのが「シフトウィンドウ」です。これは、連続するTransformerの層で、ウィンドウの分割方法を少しずらす（シフトさせる）というシンプルなアイデアです。

具体的には、ある層では規則的なウィンドウ分割を行い、次の層ではそのウィンドウを特定のピクセル数だけずらして（例えば、右下方向にずらして）新しいウィンドウ分割を行います。これにより、前層では異なるウィンドウに属していたパッチが、次層では同じウィンドウ内に入るようになり、間接的にウィンドウ間の情報交換が可能になります。

この「シフトウィンドウ」のアプローチは、計算効率を保ちつつ、モデルの表現能力を劇的に向上させることに成功しました。また、このシフトウィンドウの計算を効率的に行うための工夫も凝らされており、実際のハードウェア上での処理速度も高速です。

階層的な特徴表現：多様なタスクへの適応

Swin Transformerは、入力画像を小さなパッチ（トークン）に分割することからスタートします。そして、ネットワークの層が深くなるにつれて、隣接するパッチを段階的に統合（マージ）していきます。これにより、CNNが小さな領域のピクセルから高次の特徴へと階層的に情報を集約していくように、Swin Transformerも多段階の「階層的な特徴マップ」を生成します。

この階層的な構造は、画像分類のように全体的な特徴を捉えるタスクだけでなく、物体検出やセマンティックセグメンテーションのように、異なるスケールで詳細な情報を必要とする「密な予測タスク」にも非常に適しています。既存の多くのコンピュータビジョンモデルのバックボーンとして、Swin Transformerを容易に置き換えることができます。

相対位置バイアス：より正確な位置情報の活用

自己注意を計算する際、Swin Transformerはトークン間の類似度に「相対位置バイアス」という要素を加えます。これは、画像内の要素が互いにどのような位置関係にあるかという情報を、学習プロセスに組み込むことを意味します。

単に絶対的な位置情報を使うのではなく、相対的な位置関係を重視することで、モデルはより頑健で正確な特徴表現を学習できます。この相対位置バイアスは、特に物体検出やセマンティックセグメンテーションといった、位置に敏感なタスクにおいて、モデルの性能向上に貢献していることが示されています。

Swin Transformerがもたらすインパクト

Swin Transformerは、その革新的なアーキテクチャによって、コンピュータビジョン分野に大きなインパクトを与えました。

画像分類: ImageNet-1Kという大規模な画像分類データセットにおいて、Swin Transformerは87.3%という高いトップ1精度を達成し、当時の最先端モデルを凌駕しました。
物体検出: COCOデータセットを用いた物体検出タスクでは、従来の最先端モデルと比較して+2.7 box AP、+2.6 mask APという大幅な性能向上を示し、58.7 box APと51.1 mask APを記録しました。
セマンティックセグメンテーション: ADE20Kデータセットでのセマンティックセグメンテーションでは、53.5 mIoUを達成し、これもまた従来の最先端モデルから+3.2 mIoUの改善を見せました。

これらの結果は、Transformerベースのモデルが、CNNに匹敵する、あるいはそれ以上の汎用性と性能を持つバックボーンとして、コンピュータビジョン分野における新たな標準を確立する可能性を示しています。

将来的には、コンピュータビジョンと自然言語処理の分野で統一されたアーキテクチャが実現されることで、視覚情報とテキスト情報を統合的にモデリングする、より高度なAIシステムの開発が加速されると期待されています。