トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

クロス集計

クロス集計は、 A-B型の分析 に使うデータです。 元々、A-B型をしているデータを加工して、これらのデータの形にすることもあります。
関係性の行列表現

分割表 に使っていたデータは質的データですが、量的データが加わると、分析できることがかなり増えます。 下の表は、学校別、文理別の数学の平均点を集計したものです。 この他に、合計点、最高点、標準偏差など、いろいろな見方ができます。

このような集計を、クロス集計といいます。 表は、「クロス表」と呼ばれます。

クロス集計は、 マーケティング の分野の分析方法として紹介されることが多いです。 この分野では、量的データが主にお金です。 「どこで一番売れているのか?」といった分析ができます。

クロス集計による分析は、 層別 の分析をしています。 クロス集計では、表の中のひとつひとつの値を見ます。 全体像の把握や、飛び抜けて大きい値の発見につなげます。

クロス集計 クロス集計 クロス集計

BIとピボットテーブル

「BI(ビジネスインテリジェンス)」と呼ばれるソフトがありますが、その主力の機能はクロス集計です。 様々な側面からクロス集計をすると、ビジネスの現状がわかってきます。

Excelには、「ピボットテーブル」という機能があり、クロス集計がマウス操作で簡単にできます。 (筆者の場合、ある時にPCの得意な同僚に教えてもらってから、データ解析に欠かせないツールになりました。 実用的な データサイエンス を手軽にできるソフトです。)

クロス集計と2次データ

クロス集計と 2次データ の作成は、見た目が似ていますが、 2次データは、データの順番や意味も考慮して集計しているところが違います。

ところが、見た目は似ていますし、「集計」や「前処理」という点では同じなので、 2次データもソフトで簡単に作れるように思われがちなようです

クロス集計の散布図分析

クロス集計のデータは、棒グラフ で分析されることが、とても多いです。

棒グラフは、値が大きさを表す場合に、大きさが視覚的に分かりやすいです。 値が大きさを表すデータの代表的な物が、「お金」や「長さ」です。

一方、大きさを表さない場合に棒グラフを使うと、わかりにくくなることがあります。 その場合は、層別の散布図の方が良いです。

ソフト

Rでクロス集計を作る時の例は、 Rによるクロス集計 のページにあります。

Rによるクロス集計表の散布図分析 のページもあります。



参考文献

ビッグデータを活かすデータサイエンス クロス集計から機械学習までのビジネス活用事例」 酒巻隆治・里洋平 著 東京図書 2014
原因分析にクロス集計を使った事例があります。 クロス集計でセグメントを絞り込んでから、時系列でそのセグメントの変化を見ています。 問題が起きているセグメントと、問題発生のタイミングを明確にしてから、事情を知っていそうな人にその理由を確認する事で、原因を特定しています。


順路 次は クロス集計表の回帰分析

Tweet データサイエンス教室