Inleiding tot de R-statistiek

統計学全般に関する備忘メモの書庫(三中信宏)

「本日の質問(5月12日)」

今日の講義では,John Tukey の「箱ひげ図」を説明したのちに,確率変数と確率分布について話をしました.いわゆる「パラメトリック統計学」の基本について説明したのですが,“数式含有率 ”はこれまでよりも高かったですね.積分記号とか期待値演算子については,もう忘れてしまった(あるいは習ったことがない)という受講生も少なくないと思います.この点については,あとでまた復習することになるでしょう

箱ひげ図についての質問にお答えしましょう:

【質問】箱ひげ図は値がいくつから使えるものですか?

【質問】箱ひげの時,これは違っているから,含まなくていい.重なっている部分があるから二つの種が大切と,どんな目的だったからこのように言えたのですが?

最初の質問についてですが,箱ひげ図の目的はデータのもつ「ばらつき」のようすを簡便に視覚化することです.したがって,データがいくつあっても用いることができます.次の質問ですが,私が講義で用いたテストデータは,植物の種間のちがいを判別するために取られたデータでした.ですから,箱ひげ図によって花弁とがく片の計測データのばらつきを図式化したとき,どのペアの種間で差がありそうかなさそうかを視覚的にチェックすることをまず念頭に置きました.このような判断はデータを取る目的によって変わるはずですから,ケースバイケースということになります.

もうひとつ,こんな質問がありました:

【質問】箱ひげ図を用いて外れ値を見たとき,仮に外れ値があったとしてどのような処理を行なうのでしょうか? 原因を見つけずに外れ値は除いてもよいのか,それとも無条件に取り除いてもいいのか,あるいはいっさい除いてはいけないのでしょうか?

まず確認したいのは,箱ひげ図を描いたときに検出された“外れ値”はけっしてワルモノではないということです.というのも,箱ひげ図はデータのばらつき特性をそのままグラフにしているだけであって,個々のデータに関する「評決」を下しているわけではないからです.ただ,同じ群の他のデータと比較したときに大きく逸脱したデータ点の存在をユーザーに通知しているだけです.

ですから,ユーザー側の対処としては,疑わしい外れ値データについてはその出所をもう一度確認してから,削除するかどうかを個々に判断するということになるでしょう.