統計学の基礎を学ぶ 2004.12.13修正版


 統計学では数値の分布傾向をつかむことが重要で、たとえば学校の1クラスの生徒の身長の分布をとらえようとすると、まずはヒストグラムを作成することになる。身長と体重の関係について分布をとらえるには散布図を利用する。データは柳井久江氏の「4 Steps エクセル統計」(オーエムエス)付属CDのデータを利用した。
 平均値や標準偏差が意味を持つためにはデータが正規性を持つことが必要で、これを開自乗検定で確かめる必要がある。その上で、2変数の関係に直線性があるのかどうか、をまずは確かめるのであるが、それには相関係数を求めればいい。その直線関係を具体化して示す方法が回帰分析である。これが統計解析のはじまり。

 なお、木庭が作成した演習用のエクセルファイル(ダウンロード可能)をここに用意する。ただし、この計算の多くを、上記の本付属CDのエクセルアドインソフト(Mac・DOS両対応)で実施しているので、計算はエクセル付属の関数をそのまま使う必要があるが、特に支障はない。

 上記のことを,一般的に表現するのであれば,次のようになるであろう。

 変数群(1変数も含めて)のデータから何らかの特徴をとらえたいというのが,データを収集する目的である。それを達成するには,分布の何らかの傾向をとらえればいい。つまり,個々の変数についてはヒストグラム,2変数間については散布図ということになる。 これらの図から,目で感じるものの確かさを表現する必要があり,その手法が統計学の推計や検定である。
 個々の変数の分布が正規性を持たない場合,その変数に関する統計学的分析過程はピリオドを迎えることになる。その場合,データの質を再度検討し,データのランダム性を引き出すべく,再度再々度,データを収集したり,データを加工する必要がある。
 2変数間の散布図を作成して,直線性が得られる,つまり高い相関が得られると基礎統計学を生かすことができる。直線性がなくても,変数を対数化すると,直線性が得られる場合がある。また,直線以外の曲線を想定できる場合もあり,その曲線の回帰式を求めることができることが多い。
 多変量解析法は,個々の変数間でのこのような作業を一括して処理するものである。このソフトを入手することは一般に容易であり,エクセルにもその個々の計算をする関数群が用意されている。しかしながら,基礎統計の知識なくして,ただ多変量解析の結果を使用して,ある種の結論に達することは極めて危険なことである。多変量解析についても,後にこのサイトにアップしたいと考えている。

注意点:

 ヒストグラムについて:エクセルでは階級区分値が終値表示になっている。Statcelでは始値になっているから注意すること。数値の分布は最大値,最小値が他の構成値から見ると懸け離れていることが多々あるので,エクセルのヒストグラムを作成する際には最小値のみで一つの階級を構成することがある。
 参考文献として,地理学からすると,奥野隆史「計量地理学の基礎」(大明堂)がいい。ただ,初歩的ミスが多々見られる。

 正規性連続分布データだけが、パラメトリック検定が可能である。それゆえ、正規性の検定は必ず実施する必要がある。特にデータ数が少ない時に。データ数が多くなると中心極限定理と呼ばれる現象から正規分布に近づく。
二つの確率分布曲線が同一と考えることができるか、できないか、ここでは、
  帰無仮説: データの分布は正規分布と見なすことができる
  対立仮説: 正規分布と見なせない(上側確率)
を検定する場合に、χ2検定が役立つ。χ2の表示はここでは不適切で,ギリシャ文字のχに,自乗の意味の2を付けている。
 適合検定は,j番目の階級の現実にみられる度数をOj、理論的な度数をEjとするとき、次の統計量は近似的に自由度φ=k-1のχ2分布に従う。ただし、kは階級の個数。
  χ2 = (j=1〜k)Σ[(Oj-Ej)2/Ej]
この式もここでは適切な表現ができていない。Σの下にj=1で上にkを表示すべきである。
 統計アドインstatcelでは、「統計→正規性の検定」で選ぶ。この「検定の結果」についていうと,境界値による判定では、χ2値が境界値以上のときχ2値は棄却域に入り、帰無仮説は棄却される。P値による判定では、P値が目的とする危険率(危険率5%の時0.05、危険率1%の時は0.01)以下のとき、帰無仮説は棄却される。
 なお,Statcelのアドインを使わずに,エクセルの関数だけを使う場合、期待度数の計算で、正規母集団の平均と分散を固定しているために自由度の計算は、φ= k-3になる。χ2検定は、chitestを使わずに、上の式を使って、求めること。Excelのchitestはこの場合には使えない。χ2分布のχ2値は、chiinv(危険率eg. 0.05、自由度)で,p値(χ2分布の片側確率値)は、chidist(χ2値、自由度)で求める。
                                  以 上