Inleiding tot de R-statistiek

統計学全般に関する備忘メモの書庫(三中信宏)

「本日の質問(4月28日)」

今日の講義は,「分散」の概念を地べたから導出することがメインでした.あわせて,なかなか理解しにくい「自由度」についても話をしました.最後に,推論様式としての「アブダクション」について解説しました.

次のような質問が届いています.まずはじめに「平方和」について:

【質問】偏差の集計を出すときに,絶対値で集計するのがなぜ面倒くさいのか.

【質問】平方和は値を二乗しているので,通常の値より大きなものになってしまうと思うのですが,それは偏差の大きさだけを集計するから関係ないということでしょうか? それと,分散の値が大きければデータのばらつきも大きいと解釈していいのでしょうか?

「絶対値」で偏差の大きさを集計するときの煩雑さは,正負の場合分けをしなければならないという点に尽きます.解析的にも扱いづらいという点を指摘することもできるでしょう.偏差の平方和として集計したとき,確かに二乗していますので,“距離”としてみれば通常よりも増幅されています.ただし,ここではばらつきの相対的な大きさだけを考えていますから,それはとくに大きな問題ではありません.われわれが直感的に認知する“ばらつき”の大小感覚が,数値的に定義された平方和(あるいは分散)に反映されていることを確かめるのが重要です.

続いて,「自由度」に関する質問です:

【質問】データのサイズで補正するときに,データの数で割ると何がどう困るのですが?

【質問】なんで分散=平方和/データ数ではだめなのかの理由がわからなかった.

その答えは「不偏性(unbiasedness)」という点にあります.確かに,「平方和/データ数」という補正方法は直感的に納得できるのですが,パラメトリック統計学の理論によると,その補正方法では推定された分散の期待値は真の分散よりも一貫して小さく過小推定されることがわかっています.一方,「平方和/自由度」により計算された分散の推定値は真の分散と一致する「不偏推定量」であることが示されます.このようなリクツが背景にあるので,自由度で補正した方が妥当だろうという結論になります.