ECにおける人工知能と特徴量の抽出


 

明けましておめでとうございます。

昨年は倍旧のお引き立てをいただき有難うございました。
おかげさまで、当社としてはこれまでで最速で通期の黒字化を達成できる見込みです。

引き続き良質なソリューションの提供に尽力し、過去最高益についても達成できるように頑張ります。
今年もよろしくお願い申し上げます。

レコメンドエンジンに PLSA を搭載

さて当社は昨年末に産総研の人工知能技術コンソーシアムに加入いたしました。
その後いろいろと取り組みを進めてまいりましたが、まずは当社のレコメンドエンジン「ZERO ZONE RECOMMEND」に PLSA モデルを新規搭載します。

レコメンドというか、技術的にいうと情報推薦をする場合、おおまかにそれは3つのステップに分かれます。

1.データの用意
2.推定処理
3.出力への反映

です。

さてレコメンドというと2に関する部分がこれまでメイントピックでした。
有名どころである協調フィルタリングや、ベイジアンネットワークなどもここにあたります。

それが最近は、1に関するテクノロジーに焦点が移りつつあります。
2についてはこれまでの取り組みの成果もあり、現時点ではこれ以上の伸びしろがそれほどありません。

これに対して1は、まだまだ大きな伸びしろを持っている部分であるといえます。
とはいえこれだけでは何を言っているのかよくわからないと思いますので、少し解説します。

データ処理における大きな伸びしろ

データの用意というと、たとえば行動履歴のログをすぐに思い浮かべるかもしれません。
でも行動履歴のログというのは、そのままでは「いろいろな意味で」使うことができません。

この「いろいろな意味」という部分がポイントです。
これまではその処理が非常に単純なものがほとんどでした。

例えば購買履歴を抽出し、買ったものは1、買っていないものは0として扱うなどです。
他にも、レビューをつけた点数などもあります。
もちろんこれはこれで使いどころはあります。

購買履歴

 

ただ、こういった単純な処理が高い効果を上げるようなケース「以外」も扱うことができれば、それは大きな伸びしろであるといえます。

現在のところ大きくそれは2つの種類に分けることができます。

一つは行動の数値化、もう一つは次元削減です。

行動の数値化というのは、例えば購買履歴で買ったら1、買わなかったら0というのはそれはそれでいいですが、例えば閲覧は0.1とか、カート落ちは0.5とか、購買以外でも数値化できれば有用なデータというのは他にもあるかもしれません。

ただここは、テクノロジーでどうこうなるというよりも、経験やノウハウの蓄積がものをいう部分です。

ゼロスタートではレコメンドエンジンの発売当初から、この行動の数値化の重要性について説いてきました。
10年にわたる取り組みによってノウハウもかなり蓄積され、これは当社の製品の重要な資産となっています。

また同時に、検索クエリというのが数値化出来ると非常に有用なデータであり、このため商品検索エンジンレコメンドエンジンを両方提供していることが当社の強みとなっています。

次元削減のためのテクノロジー

さて、もう一つの次元削減が、ここ最近でいうと非常にホットな部分であるといえます。
次元削減というとこれまた何のことだかわからないかもしれません。

実は、昨今話題のディープラーニングも、そして冒頭述べた PLSA も、どちらも次元削減のためのテクノロジーなのです。

「え?ディープラーニングって機械が人間みたいに考えられるようになるテクノロジーじゃないの?」と思うかもしれませんが、そこまで技術は進歩していません。

そもそも現在の人工知能ブームが第三次ブームと呼ばれたりもしますが、ブームとなるからにはそれなりの理由があります。

誤解を恐れず簡単に言うと、ディープラーニングによって感じのよい次元削減ができるようになり、それによって計算が飛躍的に速くなったというのがその理由です。

残念ながらCPUの計算速度というのは、頭打ちになりつつあります。
CPUクロックはずっと進化を続けてきましたが、3GHzあたりから伸びなくなってしまいました。
量子コンピューターというのもありますが、まだまだ実用化は先の話です。

ディープラーニングというのは、要は元のデータの次元を削減して、その結果「特徴量を抽出」するためのアプローチなのです。
しかもその対象となるデータは、ここまでのところ概ね画像、音声が対象です。

「ディープラーニングによってコンピュータが人間のように考えるようになる」というのと「ディープラーニングによって画像や音声の特徴量が良い感じに抽出できるようになる」というのでは、だいぶ違います。

PLSA とディープラーニング

一方 PLSA は、当初は主にテキストを対象とした次元削減のアプローチでした。
テキストを次元削減するとどうなるかというと、上手く処理できればそのテキストのトピックが抜き出せるようになります。

ちなみに誤解のないように書くと、正確にはディープラーニングもPLSAも手法であり、それが画像や音声やテキストで「たまたまうまく動作する」というだけです。
なので将来もしかすると、他のデータも上手に処理できるようになるかもしれません。

そして PLSA はまさに、テキストだけではなく購買履歴データを上手く処理できる見込みが高いのです。

次元削減をするというか、特徴量を抽出するとなぜ良いのか考えてみます。

まず画像を処理する場合、その画像の特徴量を上手く抽出できれば、類似画像を効率よく探すことが出来るようになります。

そもそもディープラーニングが注目を集めたキッカケは、画像認識コンテストの優勝チームが採用した、以前と比べると画期的な成果を出す手法だったからです。

指紋認証や顔認証で考えるとわかりやすいでしょう。
指紋や顔が「完全に一致」すれば、それは同じ画像とみなす処理というのはプログラミングの初心者でも作れます。
diffコマンドでもいいくらいです。

例えば最近のfacebookでは、ものすごく小さな顔でもそれを顔と認識したり、またはっきりその人とわかりずらい画像でも見事に正解したりします。
これは顔の特徴量を実にうまく処理しているためです。

もう一つディープラーニングが注目を集めるキッカケになった話題に、Googleの猫というものがありました。
思うにこれがディープラーニングが「人間のように考えるという意味での人工知能」と誤解されるようになった要因だったのではないかと思います。

画像認識コンテストで優勝した→コンピュータが人間のように考えるようになった、と飛躍する人はあんまりいないと思います。
Googleの猫も、ディープラーニングに猫の画像をたくさん入れていったら、猫っぽい画像に反応するネットワークが出来た、というのが正確なところです。

もう少し踏み込むと、教師なし学習でもそこまで出来た、というのがポイントでした。
それが、「コンピュータが猫を認識するようになった」というニュアンスから、コンピュータが人間のように考えることが出来るようになった、と飛躍した面もあるかと思います。

あとはディープラーニングがニューラルネットワーク、すなわち人間の脳を模したアプローチだったのも理由かもしれません。

PLSA による特徴量抽出

ちょっと話が逸れましたが、要は目などの顔の特徴量をうまく抽出できると、違う写真でもその人だと認識する精度を上げることができるようになるというのは、これは次元削減の良い実例の一つです。

そしてECやID-POSにおける行動履歴を情報推薦に使えるデータにする場合にも、同じことが言えます。

行動履歴というか購買データを行列にした場合、これはほとんどが0になってしまいます。
こういうデータをスパース(疎)である、と言います。

スパースなデータをそのままレコメンドのロジックで処理してもあまりよい結果は出てきません。
また計算量が多すぎて処理が現実的ではなくなる、という面もあります。

ではどうするかというと、単純なケースではいわゆる足切りということをします。

足切りは処理を簡単に実装できる反面、単純な分その処理で用意できるデータがそこまで良いデータにならないことが多い、という欠点があります。

PLSA による次元削減は、購買データに用いるとクラスタリング手法として扱うことが出来ます。

たとえば100万人のユーザを個々に扱うと、これはスパースすぎてあまり的確な推薦が出てきませんが、ユーザをクラスタリングしてしまうとノードあたりの有意なデータの母数が増えるためより精度の高い推薦を行うことができうようになる可能性があります。

PLSAクラスタリング

 

つまりクラスタという特徴量を抽出している、ということです。
クラスタがわかりづらければ傾向といってもいいでしょう。

似た傾向のユーザをまとめることによって、一人の購買データでは情報量が足りないのを「似たユーザ達の購買データ」を扱うことで補うということです。

冒頭で述べたように、データが用意出来たら次に推定処理というものが必要です。

ディープラーニングも PLSA もあくまで次元削減、特徴量の抽出をするものであって、その特徴量を用いてどう推定するか(似ている画像を選ぶ、よいレコメンドをするなど)はまた別の話です。

ただ、前述したようにここはそれなりに成果が出ている部分でもあります。

まとめると、ディープラーニングというのは画像や音声の特徴量を抽出するのに向いている手法、 PLSA はテキストの特徴量を抽出するのに向いている手法、そして PLSA は今後購買データの特徴量の抽出として非常に期待が持てる、ということです。

 

■ZERO ZONE製品シリーズ■
サイト内検索エンジン・EC商品検索 「ZERO ZONE SEARCH」
レコメンドエンジン「ZERO ZONE RECOMMEND」

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
【著者情報】
株式会社ゼロスタート
代表取締役社長 山崎 徳之

【連載紹介】
[Biz/Zine]テクノロジービジネスの幻想とリアル
[ECZine]人工知能×ECことはじめ
[ECのミカタ]ECの役割
[ネットショップ担当者フォーラム]検索とレコメンドで実現するEC時代の接客術
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

vector graphics and icons designed by Freepik (http://jp.freepik.com)

 

他のコラムを読む

– 前の記事 –
パーソナライズ とソート

– 次の記事 –
カゴ落ち ならぬ検索落ち