Transformer(トランスフォーマー)は、自然言語処理(NLP)の分野に革命をもたらした深層学習モデルである。Vaswani らによる論文「Attention is All You Need」(2017 年)で紹介され、それ以来、多くの最先端の LLM の基礎となっている。
概要
Transformer は、予測を行う際に、入力シーケンスの異なる部分の重要度を評価できる アテンションメカニズム の概念に基づいている。これは、入力シーケンスを順番に処理し、長期的な依存関係の学習が困難な従来のリカレントニューラルネットワーク(RNN)とは対照的である。
主要コンポーネント
- 自己アテンション: 自己アテンションメカニズムにより、モデルは予測を行う際に、入力シーケンスの最も関連性の高い部分に焦点を当てることができる。
- マルチヘッドアテンション: マルチヘッドアテンションメカニズムにより、モデルは入力シーケンスの異なる側面を並行して注意することができる。
- フィードフォワードニューラルネットワーク: フィードフォワードニューラルネットワークは、注意層の出力を処理するために使用される。
- 残差接続: 残差接続は、勾配消失を防ぎ、モデルがより深い表現を学習できるようにするのに役立つ。
- レイヤー正規化: レイヤー正規化は、トレーニングプロセスを安定させ、モデルのパフォーマンスを向上させるのに役立つ。
利点
- 並列化: Transformer は並列化できるため、従来の RNN よりもはるかに高速にトレーニングできる。
- 長期的な依存関係: 自己アテンションメカニズムにより、モデルは入力シーケンス内の長期的な依存関係をキャプチャできる。
- 最先端のパフォーマンス: Transformer は、幅広い NLP タスクで最先端のパフォーマンスを達成している。
応用
Transformer は、以下を含む幅広いアプリケーションで使用されている。
- 大規模言語モデル: Transformer は、多くの最先端の LLM の基礎となっている。
- 機械翻訳: Transformer は、機械翻訳タスクで最先端のパフォーマンスを達成している。
- テキスト要約: Transformer を使用して、長いテキストの簡潔な要約を生成できる。
- 質問応答: Transformer を使用して、世界に関する知識に基づいて質問に回答できる。