【論文紹介】LLMの性能と安定性を爆上げ!「Gated Attention」がAttentionの課題を解決する

大規模言語モデル(LLM)の進化は目覚ましいものがありますが、その根幹を支えるAttentionメカニズムには、まだ改善の余地があることをご存知でしょうか?

本日ご紹介する研究「Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free」は、Attentionメカニズムにシンプルな「ゲート」を追加するだけで、モデルの性能、学習の安定性、さらには長文脈への対応能力まで大幅に向上させる画期的な手法を提案しています。

この論文はArXiv(arXiv:2505.06708v1)で公開されており、NeuRIPS 2025というAI系のカンファレンスでBest Paper Awardを受賞しています。

Gatingメカニズムって何?

「Gatingメカニズム」という言葉は、LSTMsのような初期のニューラルネットワークから現代のTransformerベースのモデルまで、幅広く活用されてきました。これは、情報の流れを動的に制御する「門」のようなものです。

具体的には、入力された情報に対して、その重要度に応じて「どれくらい情報を通過させるか」を学習によって決定します。
まるで水道の蛇口をひねって、水の量を調整するようなイメージですね。

ゲートはどこに付けるのが一番効果的だったの?

研究チームは、TransformerのAttention層内の様々な場所にゲートを適用して、その効果を徹底的に比較しました。
クエリ(Q)、キー(K)、バリュー(V)のそれぞれを生成する部分や、Attentionスコアを計算した後の部分など、合計30以上のバリアントが検証されました。

その結果、最も顕著な性能向上が見られたのは、「Scaled Dot-Product Attention(SDPA)の出力直後」にゲートを適用するシンプルな変更でした。
特に、各Attentionヘッドに固有の(ヘッドスペシフィックな)シグモイドゲートを乗算形式で適用することが、モデルの性能を安定して向上させることが明らかになりました。

なぜ効果的なの? 3つの重要な理由

なぜこのようなシンプルなゲートが、これほど大きな効果をもたらすのでしょうか?研究では主に3つの要因を挙げています。

1. 「非線形性」の導入で表現力がアップ!

Attentionメカニズムの内部では、バリュー(V)層と最終的な出力層(WO)の間が線形変換になっています。この直線的な構造は、モデルの表現力をある程度制限してしまう可能性があります。

ゲートをこの間に挟むことで、非線形な要素が加わり、モデルがより複雑なパターンや関係性を学習できるようになります。これは、これまで一直線だった道に、カーブや分岐を追加して、より多様なルートを取れるようにするイメージです。

2. 「スパース性」で本当に必要な情報だけを抽出

効果的なゲートは、非常に「スパース(まばら)」なスコアを生成することがわかりました。これは、SDPAの出力に対して、クエリにとって本当に必要な情報だけを厳選して通し、関連性の低い情報を抑制するフィルターとして機能していることを意味します。

しかも、このフィルタリングは入力に応じて動的に変化し、さらに各Attentionヘッドがそれぞれ異なるゲートスコアを持つことで、よりきめ細やかな情報制御が可能になります。
つまり、Attentionヘッドごとに「今、この情報が必要だ」「これは不要だ」と判断しているのです。

3. 厄介な「Attention Sink」を解消!

現在のLLMに共通する課題の一つに「Attention Sink(アテンション・シンク)」現象があります。
これは、シーケンスの初期のトークン(特に先頭トークン)に、他の関連性の低いトークンが不釣り合いに多くの注意を集中させてしまう現象です。
まるで、最初に入ったトークンが、それ以降のトークンを吸い寄せてしまうかのように見えます。

この研究では、スパースなゲートメカニズムが、クエリにとって無関係な文脈情報をフィルタリングすることで、Attention Sinkを効果的に抑制できることを発見しました。
Attention Sinkが解消されることで、不要な情報の蓄積が減り、モデルの「巨大な活性化値(massive activations)」も抑制されるため、学習の安定性向上にもつながります。

性能向上だけじゃない! 学習の安定性と長文脈への対応

Gated Attentionは、ベンチマークテストでの性能向上(PPL(パープレキシティ)の削減やMMLUスコアの改善)だけでなく、LLMのトレーニングにおける重要な課題も解決してくれます。

まず、トレーニング中の「損失スパイク」と呼ばれる急激な損失値の上昇が大幅に減少し、学習が非常に安定します。
これにより、より大きな学習率やバッチサイズを設定できるようになり、モデルのスケーリングを効率的に進めることが可能になります。

さらに、Attention Sinkの解消は、モデルが長文脈を扱う能力にも良い影響を与えます。
既存のRoPE(Rotary Position Embedding)やYaRNといった長文脈拡張手法と組み合わせることで、
Gated Attentionモデルは、非常に長いシーケンス(最大128kトークン)に対しても、ベースラインモデルよりもはるかに優れた性能を発揮しました。
Attention Sinkがなくなることで、モデルが長文脈の情報をより適切に処理できるようになるのでしょう。

まとめ

この研究は、TransformerのAttentionメカニズムに「Scaled Dot-Product Attention(SDPA)の出力直後」にシンプルな「ヘッドスペシフィックなシグモイドゲート」を追加するだけで、LLMの性能を大幅に向上させるだけでなく、学習の安定性を高め、Attention Sinkを解消し、長文脈の処理能力を強化できることを実証しました。

この発見は、単にモデルの性能を上げるだけでなく、LLMのAttentionメカニズムの動作原理を深く理解する上で非常に重要であり、次世代のより高性能で安定した言語モデルを設計するための重要な道しるべとなるでしょう。