データ分析の必須知識、統計の基本的な概念と分析方法まとめ

      2017/12/06

統計はデータ分析の基礎

ビジネスシーンでは定量的なデータを示して説得力のある主張をする必要があります。

定性的な議論だけではなく、客観的なデータに基づいて、自社の方針や戦略を決定していく必要があります。

そうしたデータ分析の基礎が統計学だと思います。

統計学は大学の卒業研究で用いた方もいらっしゃるかと思います。

ですが、文系学部出身ですと触れることなく卒業してしまったり、理系でも研究テーマによってはあまり理解のないまま研究を終えてしまった方もいるのが実状と思います。

今回は、データ分析を行う上で必要不可欠な統計の基本をまとめておきたいと思います。最後には参考にした本も紹介しておきます。

統計とはなにか

「統計」と聞いてみなさんはどんなイメージを持つでしょうか。

数字が並んだ集計表や多くの点がプロットされた図、データの大小を示すグラフなどなど、いろいろなイメージがわくかもしれません。

あるいは国勢調査のような大掛かりなアンケート調査をイメージするかもしれません。

このように統計にはいろいろな顔があるわけです。

ですが、大きく分けるとその意味は二つに分類できます。

一つ目は「調査結果として公開されたデータ」という意味です。

これは先程の国勢調査のような調査結果をまとめてデータ化したものを指します。

ユーザーへの新商品のアンケート調査結果や各企業の平均給与額のデータ一覧などがこれに相当します。

二つ目は「データを基に新たな数値を算出するための考え方や方法」という意味です。

こちらはなんだか一見すると難しそうですが、馴染み深い「平均」の考え方がこれに含まれます。

収集したデータはそのままではなかなか新しい気付きは得られません。

なんらかの加工をして、そのデータからどんなことが言えるのかを見つけていく必要があります。

この新しい発見を見出すための考え方や分析の仕方が二つ目の意味に相当します。

統計データの種類と留意点

統計データを扱う際には注意点もいくつかあります。

データを収集する際に、得たい結果を得るために不正な調査の仕方やミスリードな方法を取っていなかったか、サンプル数(データの数)は十分多く有るか、データが古すぎないか、などです。

データを基にさまざまな分析をしていくわけですので、データ自体に問題があるとそこから得られる結果も信頼できるものではなくなってしまいます。

調査方法や得たデータの実態を把握した上で、分析をする必要があります。

基本的な概念や分析方法

ここでは統計を扱う上でよく目にする用語や分析手法を紹介していきます。

度数分布・ヒストグラム

「度数分布」とは、データをその大きさによっていくつかのレベル(階級)の区分けしたときに、それぞれの階級に入るデータの数を示しています。

ヒストグラム(度数分布図)が有名ですね。

各階級のデータを一覧表にしたものが「度数分布表」、そのグラフがヒストグラム(度数分布図)です。

正規分布

前述のヒストグラムの頂点を結んだ曲線を「度数曲線」といいます。

この度数曲線の中には、平均値のあたりにデータが収集し、平均値を中心に左右対称ななだらかな釣鐘型を描くものがあります。

一般的に、膨大なデータが自然な状態で分布しているときにはこうした分布を示し、この分布を「正規分布」といいます。

データが正規分布に従うことを前提として、さまざまな統計分析の手法が開発されてきました。

ですが、中には正規分布にしたがわないケースもあり、その際には分析手法を変更したり修正が必要となったりします。

散布図

「散布図」も目にすることが多い図だと思います。

縦軸と横軸2軸でデータを定量化し、サンプルを2軸の値の大小で表現してプロットをした図のことです。

理科の実験で作ったことがある人も多いかと思います。

散布図を見る際には全体としてどんな傾向があるか(増加、減少、その傾きの大きさ)といった「水準」と、各プロットした点の水準からの開きはどの程度あるか(最大値と最小値)といった「格差」をおさえておく必要があります。

全体の傾向と個別データの開きをおさえておくことで、全体として良い方向に言っているのか、そしてまずいところはどこにあるのかの目星がつくようになります。

代表値

たくさんのデータが集まっている場合には、散布図の水準と格差のように「データの標準的な値」と「それを中心的にどのようにデータが散らばっているか」を押さえることで特徴がつかめます。

この標準的な値を「代表値」と呼び、これには平均値や最頻値が用いられます。

最頻値とは最もデータの数が多い数値を意味しています。

分散・標準偏差<

標準的な値を平均値や最頻値で扱うのに対し、データの散らばりは「分散」や「標準偏差」で表されます。

各データと平均値の差(偏差)を二乗したものの総和を分散とよび、その平方根が標準偏差です。

まとめ

今回は、データ分析の基礎である統計についてその基本的な用語について説明いたしました。

今回は概念の説明がメインでしたので、回帰分析や検定などについてもいずれ扱っていきたいと思います。

最後にぼくが参考にした書籍を紹介しておきます。

また、政府の統計データポータルサイトがあるのでこちらのデータをいじってみると良いかもしれません。


 - 仕事・キャリア, 思考法・勉強法