あるデータサイエンティストが大規模テキストデータを扱うTransformerベースのモデルを事前学習させようとしている。RNNとTransformerを比較した場合、大規模データ・長文処理で Transformer が特に有利な理由を2点挙げた。正しい組み合わせはどれか。
- A. ① Self-Attentionで長距離依存を効率的に捉えられる ② 並列計算が可能でGPUを効率的に活用できる
- B. ① 埋め込みを使わず生テキストをそのまま処理できる ② ラベルなしデータを使えないため品質が安定する
- C. ① RNNより少ないデータで高精度を達成できる ② 短い文章のみ処理できる
- D. ① シーケンシャルな処理が必須で順序を正確に捉えられる ② 解釈性が高く判断根拠が明確
解答と解説を見る
正解: A
Transformerの2つの主要な優位点はSelf-Attentionによる長距離依存の処理と並列計算の効率性である。Self-Attentionは全トークン間の関係を一度に計算でき、文の最初と最後の関係も捉えられる。また並列処理が可能なため、GPUクラスターで大規模データを高速に学習できる。Cは誤りで、Transformerは一般的に大量のデータを必要とし、短い文章のみ処理という制限もない。Dはシーケンシャル処理はRNNの特徴であり、Transformerはシーケンシャルではなく並列処理が特徴。解釈性が高いという説明もTransformerには当てはまらない。BのTransformerは単語埋め込みを使い、ラベルなしデータ(自己教師あり学習)でこそ力を発揮する。