すごいぞExcel!お手軽データ分析手法3選

From:山極綾子

 

 

「python(プログラミング言語)あまり慣れてないので、

エクセルでできるところはエクセルでやっちゃいたいんです」

 

「これとか、できたりしますかね…?」

 

研究についての相談会をしていたある時、社会人経験の長いAさんから言われたお言葉。

 

そしてふと自省してしまいました。

 

『”わざわざ”プログラミング言語使う必要はないんじゃないか』

 

 

確かに、自分の研究で使っているニューラルネットワークなどを

エクセルで実行することはほぼ不可能です。

 

他にも、データ数が多すぎたりして、エクセルでは太刀打ちできないことも多々あります。

 

でもひょっとして、エクセルでできることって意外ともっとたくさんあるんじゃないだろうか。

 

 

そう思い立ちまして、突然ですが始めます。

 

【エクセルでもここまでできる!データ分析】

 

例として、オープンデータとして良く用いられている

「カリフォルニアの住宅価格予測」データを用います。

 

(こちらのオープンデータセットのうちの一つです

 

http://lib.stat.cmu.edu/datasets/)

 

データ数は20,640。

 

説明変数としては、住宅の築年数や部屋数。

 

住んでいる人の収入や、住宅がある地域の人口などの情報が含まれています。

 

データ分析の目的は、住宅価格を高い精度で予測するためにはどうするべきか?

と仮に置きます。

 

 

データ分析の最初のステップは、仮説を立てることです。

 

そのためには元々持っている知識を活用したり、データの概要を把握することが必要です。

 

例えば、住宅価格に影響しそうなものとして一番ありそうな、住んでいる人の年収のデータ。

 

こちらをヒストグラムで表して全体の傾向を見てみます。

 

①エクセルでヒストグラム

 

データを選択して、挿入からヒストグラムを作成。

 

あっという間に、以下のようなグラフが出てきます。

 

 

こちらのヒストグラムだけでもいろいろなことが分かります。

 

例えば、図中左側に山(ボリュームゾーン)があること。

 

右側、つまり高収入の方に長く尾を引いていること。

 

一度山が無くなりかけますが、その後ほんの少し、岡のようなものが復活すること。

 

この分布を近似しようとしたら、正規分布が良いか。もしくはベータ分布を使って、偏りを表すか。

 

色々なことが考えられます。

 

 

②エクセルで相関を見る

 

今回の目的は住宅価格を予測することでした。

 

そうであるならば、住宅価格と関係性が深い説明変数は何か、調べて見たくなります。

 

そのために役立つのが、相関を見ること。

 

関数で言うと、” =CORREL(データ1, データ2)”。

 

この変数を打ち込むことにより、データ1と2の間の相関を計算することができます。

 

相関というのは、どちらかのデータが大きく/小さくなった時に、

もう一方のデータがどのように変化するか?を表す指標です。

 

1に近ければ両方のデータは同じ方向に、

例えば一方が正の方向に動けばもう一方も正の方向に動きます。

 

逆に-1に近ければ両方のデータは逆の方向に変化します。

 

1というのは、2つのデータを散布図でプロットした時に、

完全に一つの直線に乗る場合に出てくる値です。

 

基本的にはデータにはノイズが乗っていたり、他の説明変数の影響があったりするので、

1になることはほぼありません。

 

これを調べていくと、目的変数である住宅価格と関係が深そうな変数を調べることができます。

 

 

データ分析といえば、難しいプログラミングが必要なんじゃないの?

 

確かに、手法やデータ量によっては、エクセルには荷は重いこともあります。

 

私自身も、データ分析をするときに、そのツールとしてエクセルを用いることが、

いつのまにやら選択肢から消えてしまっていました。

 

ですが、エクセルでできることは、思っている以上にたくさんあります。

 

そして、統計などデータ分析に役立つ知識たちを身に着けることで、

この便利な道具を最大限活用することができます。

 

例えばヒストグラムを作った時に思う「ベータ分布がいいんじゃないかな?」

という感想は、統計を勉強する前には決して思いつかなかったことでした。

 

「エクセルすごい!」と同時に、知識の習得をおろそかにしてはいけないなあ、と感じさせられました。

 

 

山極綾子

 

 

P.S.

ところでタイトルの”お手軽データ分析手法3選”。

 

(あれ?2つしか紹介してなくない?)

 

仰る通りです。

 

本当はもう一つ、分散共分散行列をご紹介したかったのですが、

文字数が多くなりすぎたため諦めました。

 

こちらは【分析】の【データ分析】から使える機能で、

相関のようなデータ間の関係性を、全ての変数について一度に俯瞰してみることができます

(得られる値は相関とは少し異なりますが)。

 

例えば説明変数間にあまりに強い共分散が存在するときは、

データの入れ方を工夫しなければいけないのですが、そういったことも見ることができます。

 

この辺りについてもまたいずれ、メルマガにてご紹介する機会を持てたら嬉しいなあ、

と思います。

 

 

P.P.S.

今日も最後まで読んでいただきありがとうございます!

 

メルマガの感想などありましたら、こちらからお聞かせ下さい。

 

いつも嬉しく拝見しています。いつもありがとうございます!

https://keieijinjipartnersytube.typeform.com/to/B8JjDrk5

 

 

—————————————————————-
【経営人事メールマガジン】
発行責任者: 山極毅(株式会社経営人事パートナーズ)
発行者住所:〒100-0005東京千代田区丸の内1-8-3丸の内トラストタワー本館20F
連絡先:https://keieijinji.co.jp/
メールアドレス: strategic-membership-program■■keieijinji.co.jp(■■を@に置き換えてください)
—————————————————————-

↓バックナンバーはこちら↓
PC: https://04auto.biz/brd/BackNumber.htm?acc=keieijinji&bid=3
スマホ・ガラケー: https://04auto.biz/brd/BNMobi.htm?a=keieijinji&b=3

↓メルマガの新規登録はこちらから↓
PC: https://48auto.biz/keieijinji/touroku/scenario13.htm
スマホ: https://48auto.biz/keieijinji/touroku/sp/scenario13.htm
ガラケー: https://48auto.biz/keieijinji/touroku/sp/scenario13.htm