コンピュータ ビジョンの基本的なタスクについて、正しい説明の組み合わせを2つ選択してください。
- A. 画像分類は画像全体に対して1つ(または複数)のカテゴリラベルを付与するタスクであり、オブジェクトの位置情報は出力しない
- B. セマンティック セグメンテーションはオブジェクトのバウンディングボックスを検出するだけで、ピクセル単位の分類は行わない
- C. 物体検出は画像に1つのラベルを付与するだけで、オブジェクトの位置(バウンディングボックス)は検出できない
- D. 顔検出は特定の人物が誰かを識別する顔認識(Face Recognition)と全く同じ機能である
- E. OCR(光学式文字認識)は画像内の文字をテキストとして読み取るタスクであり、手書き文字の認識も対象となる
解答と解説を見る
正解: A, E
AとEが正しい説明である。A:画像分類は画像全体に対してカテゴリラベルを付与するタスクであり、「この画像は猫か犬か」のような判定を行うが、猫がどの位置にいるかの座標(バウンディングボックス)は出力しない。E:OCRは印刷文字だけでなく手書き文字の認識も対象としており、AzureのRead APIはその代表的な実装である。Cは誤りで、物体検出はオブジェクトの種類と位置(バウンディングボックス)を同時に出力する点が画像分類との最大の違いである。Dは誤りで、顔検出(顔の位置特定)と顔認識(誰かを識別する同一性照合)は異なる機能であり、顔認識は顔検出の上に追加の照合処理が必要である。Bは誤りで、セマンティック セグメンテーションはバウンディングボックスではなく各ピクセルをクラスに分類する、より細かな手法である。