Inleiding tot de R-statistiek

統計学全般に関する備忘メモの書庫(三中信宏)

数理統計研修2018質問回答集

農研機構短期集合研修「数理統計」(基礎編)2018年11月5日(月)〜9日(金)@農林水産研究情報センター・電農館VCホールならびに同(応用編)2018年11月12日(月)〜16日(金)@農林水産研究情報センター・電農館3階セミナー室にてワタクシが受けた質問とそれらに対する回答は下記の通り:

  1. 【質問】「県のエライサンたちが “ビッグデータがぁ〜” とか “AIがぁ〜” とか下におろしてくるんですけど,アレってほんとうにどうすればいいんでしょうか?」/【回答】「悪魔祓いしてもらった方がいいですよ」.[三中信宏:2018年11月8日記]
  2. 【質問】「正規分布帝国の正規分布は何が正規分布しているんでしょうか?」/【回答】「確率分布は母集団の “モデル化” です.正規分布帝国とは母集団が正規分布をするという一神教です.このとき,正規母集団から抽出された無作為標本の平均値もまた正規分布することが証明されています」.さらに,任意の確率分布をする母集団からの無作為標本の平均値もまたサンプルサイズが無限大になると正規分布になるという「中心極限定理」があります.[三中信宏:2018年11月8日記]
  3. 【質問】「パラメトリック統計学とノンパラメトリック統計学とはなぜ対立するんでしょうか?」/【回答】「パラメトリック統計学」は母集団がある確率分布に従っていると仮定して抽出されたデータに基づく母数(パラメーター)に関する推定や検定を行います.確率分布の仮定が正しいかどうかが決めてです.他方,「ノンパラメトリック統計学」では特定の確率分布を仮定せず,データの無作為化や並べ替えあるいは順位付けなどを踏まえて統計解析を行います.確率分布の仮定には制約されませんが,一般的に精度が低くなることがあるので,注意が必要です.また,「等分散性」の有無はパラメトリック統計学とノンパラメトリック統計学の両方で問題になります.自分のデータが正規性や等分散性を満たしているかどうかは事前に確認するべきでしょう.[三中信宏:2018年11月7日記]
  4. 【質問】「等分散性がなくても使えるノンパラメトリック法の方が農学研究には使いやすいのではないでしょうか?」/【回答】「「等分散性」の有無はパラメトリック統計学とノンパラメトリック統計学の両方で問題になります.データが等分散性を満たしているかどうかは事前確認が必要です」.[三中信宏:2018年11月7日記]
  5. 【質問】「計算機統計学とはどのようなものなのでしょうか?」/【回答】「計算機統計学」については基礎編の統計研修では言及されませんが,たとえばブーツストラップ法のようにデータから無作為再抽出(リサンプリング)して統計量の確率分布を数値的に構築したり,あるいはベイズ統計手法のように事後確率分布をMCMCマルコフ連鎖モンテカルロ法)によって計算するときには,数学的なリクツではなく実際にコンピューターの高速演算があって初めて可能になる統計手法です.「論よりラン」ですね./Rについてはできるだけ最新のバージョンを使った方が安心ですが,バージョンアップの際にR本体とRパッケージの整合性がないとフシアワセが降臨するので要注意です.[三中信宏:2018年11月7日記]
  6. 【質問】「Rのバージョンアップはした方がいいのでしょうか?」/【回答】「Rについてはできるだけ最新のバージョンを使った方が安心ですが,バージョンアップの際にR本体とRパッケージの整合性がないとフシアワセが降臨するので要注意です」.[三中信宏:2018年11月7日記]
  7. 【質問】「賞味期限の切れた統計手法ってあるんでしょうか?」/【回答】たとえば,正規分布を満たさないようなデータに対して,かつては「変数変換」を施すことで正規分布に “近づける” ことが公然と行われていました.しかし,現在では一般化線形モデル(GLM)のようなより新しい統計手法が手軽に使えるようになったので,かつての変数変換は「時代遅れ」と言えるでしょう.多重比較の例を取るならば,「ダンカン法」や「最小有意差法」は古すぎて現在ではもう使われないでしょう.賞味期限を過ぎた統計手法であってもそのまま使われている場合は少なくないと考えられます.要注意です.[三中信宏:2018年11月7日記]
  8. 【質問】「分散分析が有意でも多重比較が有意でない場合はどのように解釈すればいいんでしょうか?」/【回答】分散分析で要因が有意になっても多重比較では有意差が出なかったり,その逆に分散分析では有意にならなくても多重比較で有意差のあるペアが見られることもあります.いずれの場合もはっきりした結論が出せないグレーゾーンと考えるべきでしょう.[三中信宏:2018年11月9日記]
  9. 【質問】「交互作用が有意である場合の多重比較はどうすればいいのでしょうか?」/【回答】「交互作用が有意でなければ主効果の水準間で多重比較ができます.一方,交互作用が有意である場合は水準の組み合わせに関する多重比較をすることになるでしょう」.交互作用が有意でなければ主効果の水準間で多重比較ができます.一方,交互作用が有意である場合は水準の組み合わせに関する多重比較をすることになるでしょう.[三中信宏:2018年11月9日記]
  10. 【質問】「分散分析をせずにいきなり多重比較をしてもいいのでしょうか?」/【回答】分散分析と多重比較ではそもそも分析の目的が異なります.分散分析は要因の有意性を検定するのに対し,多重比較は処理水準間の差異の有意性を検定するからです.もしも要因の有意性が事前に自明であることがわかっているならば,最初から多重比較をしてもぜんぜん問題ではないでしょう.[三中信宏:2018年11月9日記]
  11. 【質問】「主成分分析の分散集約が思わしくないときはどうすれば?」/【回答】主成分分析によって多変量データがうまく説明できるかどうかはデータしだいです.元変量の線形結合として計算される主成分軸がデータのばらつきをどれくらいシンプルに説明できるかどうかはケースバイケース.[三中信宏:2018年11月14日記]
  12. 【質問】「クラスター分析で平方ユークリッド距離はどんな場合に用いられますか?」/【回答】クラスター分析の場合,連続変量では「ユークリッド距離」が,離散変量では「マンハッタン距離」が用いられることが多いです.平方ユークリッド距離を用いる典型的な例として,集団遺伝学で対立遺伝子の頻度データによって集団間の距離を表すとき,平方ユークリッド距離が用いられることがあります.[三中信宏:2018年11月14日記]
  13. 【質問】「クラスター分析のデンドログラムで末端間の距離はどのように表示されているのでしょうか?」/【回答】クラスター分析の任意のふたつの末端点どうしの距離を「d」とするとき,デンドログラムの上でそれらをつなぐ二叉(フォーク)の分岐点までの距離を「d/2」として描きます.したがって,ある末端点からもう一方の末端点までデンドログラムの枝に沿って距離を足し算した合計が末端点間の距離と一致します.[三中信宏:2018年11月14日記]
  14. 【質問】「データセットに欠測値がある場合は?」/【回答】データセットに欠損値がある場合は,それを含む「行」と「列」を除去する場合が多いと思います.もし,元のデータセットの情報をできるだけ活かしたいということであれば,隣接するデータから補間することにより,欠損値を “修復” することはできないわけではありませんが,あくまでもそれは緊急措置です.[三中信宏:2018年11月14日記]