あるスタートアップが、生成 AI モデルに入力するテキストの断片を「トークン」と呼んでいることを説明しようとしています。トークンに関する説明として最も正確なものはどれか。
- A. トークンは常に1単語に対応し、単語の区切りで分割される
- B. トークンは API 呼び出しの認証情報であり、セキュリティ目的で使用される
- C. トークンはモデルのパラメータ数を表す単位であり、モデルの規模を示す
- D. トークンはモデルが処理する最小単位であり、単語・部分単語・句読点などが含まれる
解答と解説を見る
正解: D
トークンは大規模言語モデル(LLM)がテキストを処理する際の最小単位です。英語では概ね4文字・日本語ではひらがな1文字程度に相当しますが、単語全体・部分単語・句読点・スペースなどさまざまな単位が含まれます。選択肢 A は誤りで、トークンは必ずしも1単語とは対応しません。選択肢 C はモデルのパラメータ数の説明であり、トークンとは別の概念です。選択肢 B はセキュリティ文脈のアクセストークンと混同した説明であり、LLM のトークンとは無関係です。Azure OpenAI Service の料金もトークン数に基づいて計算されます。