クロス集計は、
A-B型の分析
に使うデータです。
元々、A-B型をしているデータを加工して、これらのデータの形にすることもあります。
分割表 に使っていたデータは質的データですが、量的データが加わると、分析できることがかなり増えます。 下の表は、学校別、文理別の数学の平均点を集計したものです。 この他に、合計点、最高点、標準偏差など、いろいろな見方ができます。
このような集計を、クロス集計といいます。 表は、「クロス表」と呼ばれます。
クロス集計は、 マーケティング の分野の分析方法として紹介されることが多いです。 この分野では、量的データが主にお金です。 「どこで一番売れているのか?」といった分析ができます。
クロス集計による分析は、 層別 の分析をしています。 クロス集計では、表の中のひとつひとつの値を見ます。 全体像の把握や、飛び抜けて大きい値の発見につなげます。
「BI(ビジネスインテリジェンス)」と呼ばれるソフトがありますが、その主力の機能はクロス集計です。 様々な側面からクロス集計をすると、ビジネスの現状がわかってきます。
Excelには、「ピボットテーブル」という機能があり、クロス集計がマウス操作で簡単にできます。 (筆者の場合、ある時にPCの得意な同僚に教えてもらってから、データ解析に欠かせないツールになりました。 実用的な データサイエンス を手軽にできるソフトです。)
クロス集計と 2次データ の作成は、見た目が似ていますが、 2次データは、データの順番や意味も考慮して集計しているところが違います。
ところが、見た目は似ていますし、「集計」や「前処理」という点では同じなので、 2次データもソフトで簡単に作れるように思われがちなようです
クロス集計のデータは、棒グラフ で分析されることが、とても多いです。
棒グラフは、値が大きさを表す場合に、大きさが視覚的に分かりやすいです。 値が大きさを表すデータの代表的な物が、「お金」や「長さ」です。
一方、大きさを表さない場合に棒グラフを使うと、わかりにくくなることがあります。
その場合は、層別の散布図の方が良いです。
Rでクロス集計を作る時の例は、 Rによるクロス集計 のページにあります。
Rによるクロス集計表の散布図分析 のページもあります。
「ビッグデータを活かすデータサイエンス クロス集計から機械学習までのビジネス活用事例」 酒巻隆治・里洋平 著 東京図書 2014
原因分析にクロス集計を使った事例があります。
クロス集計でセグメントを絞り込んでから、時系列でそのセグメントの変化を見ています。
問題が起きているセグメントと、問題発生のタイミングを明確にしてから、事情を知っていそうな人にその理由を確認する事で、原因を特定しています。
順路 次は クロス集計表の回帰分析