バックグラウンド・モチーフ
自動レジAIは、飲食関連の店を中心とした商品の自動検出およびレジ打ちを行うAIサービスのことである。 パンやうどんのトッピング等セルフサービスで商品を取り、商品にバーコードが付いていないため、店員さんにより商品を認知してレジを打つ。 実際、このような店では、期間限定の商品も多く、新人の店員さんが正しく商品を覚えるために三ヶ月以上の研修期間が必要だと言われている。 人手不足の影響も踏まえて、経験者の店員一人が離職しただけでも、店の運営に重大な影響を与えかねない。 そこで、もしバーコードの代わりに商品の外観だけで商品の品目がわかるようなプログラムがあれば、上述の問題も回避できるだろう。 この発想から作られたのは自動レンジAIである。
技術ポイント:オブジェクト検知AIとの違い
オブジェクト検知AIは多分最も広く認識されたビジュアルAIである。 一枚の写真を与えれば、写真内の人や動物、車、テレビ、ペットボトル等の身近いオブジェクトを区別し、さらにボンディングボックスト呼ばれる四角形でその位置をマークすることができる。 残念ながら、このような汎用型AIは今回の目的に達成できない。 一つの主な理由は、粒度が足りないことである。オブジェクト検知AIはパンとその他のオブジェクトと区別が付くものの、どの種類のパンであるか区別が付かない。 再度機械学習を行うことで、パン同士の区別を付けるようにすることもできるが、しかし、期間限定の商品も考慮すれば、その都度機械学習を行うことはコストと収益が釣り合わない。 粒度の細かい認識と期間限定があっても再び機械学習不要という条件をクリアするためには、Embedding - Clustering アプローチのAIが必要である。 このようなAIは、オブジェクトそのものを認識することではなく、与えられたオブジェクトに対し、機械の言語(Embedding)でそのオブジェクトの外見を説明する。 オブジェクトが似ているほど言葉も近く、異なるオブジェクトに対し異なった言葉で説明できる(Clustering)ように機械学習を行う。