Transformer(トランスフォーマー)は、自然言語処理(NLP)の分野に革命をもたらした深層学習モデルである。Vaswani らによる論文「Attention is All You Need」(2017 年)で紹介され、それ以来、多くの最先端の LLM の基礎となっている。

概要

Transformer は、予測を行う際に、入力シーケンスの異なる部分の重要度を評価できる アテンションメカニズム の概念に基づいている。これは、入力シーケンスを順番に処理し、長期的な依存関係の学習が困難な従来のリカレントニューラルネットワーク(RNN)とは対照的である。

主要コンポーネント

  • 自己アテンション: 自己アテンションメカニズムにより、モデルは予測を行う際に、入力シーケンスの最も関連性の高い部分に焦点を当てることができる。
  • マルチヘッドアテンション: マルチヘッドアテンションメカニズムにより、モデルは入力シーケンスの異なる側面を並行して注意することができる。
  • フィードフォワードニューラルネットワーク: フィードフォワードニューラルネットワークは、注意層の出力を処理するために使用される。
  • 残差接続: 残差接続は、勾配消失を防ぎ、モデルがより深い表現を学習できるようにするのに役立つ。
  • レイヤー正規化: レイヤー正規化は、トレーニングプロセスを安定させ、モデルのパフォーマンスを向上させるのに役立つ。

利点

  • 並列化: Transformer は並列化できるため、従来の RNN よりもはるかに高速にトレーニングできる。
  • 長期的な依存関係: 自己アテンションメカニズムにより、モデルは入力シーケンス内の長期的な依存関係をキャプチャできる。
  • 最先端のパフォーマンス: Transformer は、幅広い NLP タスクで最先端のパフォーマンスを達成している。

応用

Transformer は、以下を含む幅広いアプリケーションで使用されている。

  • 大規模言語モデル: Transformer は、多くの最先端の LLM の基礎となっている。
  • 機械翻訳: Transformer は、機械翻訳タスクで最先端のパフォーマンスを達成している。
  • テキスト要約: Transformer を使用して、長いテキストの簡潔な要約を生成できる。
  • 質問応答: Transformer を使用して、世界に関する知識に基づいて質問に回答できる。