相関という言葉には魔法があるようだ。これほど一般的によく使われる統計の言葉って他にないだろう。
でも必ずしも正しい意味で使われているとはかぎらない。レコメンデーションでは、アイテムとアイテム(コンテンツとコンテンツ)の相関を見て、相関が高いものをおすすめ表示するので、正しい「相関」の理解は大変重要だと思っている。
しかしながら、レコメンデーションを利用されるマーケッター側も、相関という言葉のマジックに惑わされてしまっている場合も結構あるのではと思う。
たとえば、古典的に有名なのが「ビールとおむつ」の例であるが、これを求める人は意外に多い。そういうレコメンドができないかと聞かれる場合もある。
「ビールとおむつ」とは、スーパーで販売データを調べてみたら、ビールとおむつを一緒に買う傾向があることがわかった。調査の結果、子供のい
る家庭では母親はかさばる紙おむつを買うように父親に頼み、店に来た父親はついでに缶ビールを購入していた。そこで、この2つを並べて陳列したところ、売り
上げが上昇したというもので、一躍データ分析の重要性に脚光を浴びさせることとなったエピソードだ。
日本でもこのエピソードは注目を浴び、以来、通常の人間ではまず考え付かないような不思議な相関関係になる商品の組み合わせがあって、これを発見できれば、非常におもしろいことができると理解している人が多い。
確かに、おもしろいエピソードだが、実際にビールとおむつに相関関係があるかどうかというのは、そんな単純なものではない。
英国での調査に、刑務所で過ごす時間の長さと犯罪を再度犯す率の相関関係を調べたものがある。刑務所に入っている時間が短い囚人が犯罪を再度犯す率が高かったので、そこに相関があるというのが長年調査結果として考えられてきたことであった。しかし、ある統計学者が改めてデータをみると、実は、犯罪を再度犯す囚人というのは、年をとっていて独り身で頼る人たちがいない人であるということがわかった。つまり時間の長さではなく、囚人のタイプと再犯率の高さの間に相関が見出されたのである。
このように、表面上の相関と実際とでは異なっていることも多い。
「ビールとおむつ」の例でもおなじことで、赤ちゃんをもっている若い男性の顧客にとってはその2つの商品は相関が高いであろうが、その他の顧客にとってその相関は通用しない。
この世の中は不確定要素が多いため、人間は本能的にパターンを探すようになっているといわれる。
そして、パターン=相関になってしまっているわけである。
なので、実はランダムに並んでいる点があっても人間はそこにパターンを見出そうとするわけだ。
相関を考える場合に、このあたりの人間の特性もよくよく注意して考えなければならない。
またレコメンデーションのエンジンの設計にも正しい相関の理解というのは、大変必要な
部分であると思われる。