Inleiding tot de R-statistiek

統計学全般に関する備忘メモの書庫(三中信宏)

「全人類に告ぐ。セル結合をやめろ。」

hibitの技術系メモ(2018年12月9日)
 →
deux-hibi.hatenablog.com

九州統計巡業で何度も強調したことのひとつは「エクセルでのデータ入力は正しく使いましょう」という一点だった.スプレッドシートを「readXL()」のような関数でスプレッドシートを丸ごとインポートできないようではそもそも困るよと機会があるごとに強調した.しかし,現実問題としてエクセルのスプレッドシートに,純粋なデータ行列のみならず,「セル融合」を伴う「テキスト文」だの「図表」だのを縦横無尽に貼り込んだ “ネ申エクセル文書” が蔓延る現状を見れば,必要部分だけクリップボードにコピペし R にインポートする方がより現実的なワザかもしれない.

上の記事では「Excel表計算ソフトです。けして版組ソフトではありません。セル結合やオブジェクト配置を使ってあなたの芸術を表現するキャンバスではありません」と正しく指摘されている.確かに,そういう体裁のエクセル用法はどこでも頻繁に遭遇するんだけど,データとしてはまったく “アウト” なので,R にインポートしようとするときには,いちいち書き換えてもらうしかない.ワタクシの統計高座の受講生たちには,つねづね「こーいうエクセルのワルい使い方をすると地獄に落ちますよ」と戒めている.

数理統計研修2018質問回答集

農研機構短期集合研修「数理統計」(基礎編)2018年11月5日(月)〜9日(金)@農林水産研究情報センター・電農館VCホールならびに同(応用編)2018年11月12日(月)〜16日(金)@農林水産研究情報センター・電農館3階セミナー室にてワタクシが受けた質問とそれらに対する回答は下記の通り:

  1. 【質問】「県のエライサンたちが “ビッグデータがぁ〜” とか “AIがぁ〜” とか下におろしてくるんですけど,アレってほんとうにどうすればいいんでしょうか?」/【回答】「悪魔祓いしてもらった方がいいですよ」.[三中信宏:2018年11月8日記]
  2. 【質問】「正規分布帝国の正規分布は何が正規分布しているんでしょうか?」/【回答】「確率分布は母集団の “モデル化” です.正規分布帝国とは母集団が正規分布をするという一神教です.このとき,正規母集団から抽出された無作為標本の平均値もまた正規分布することが証明されています」.さらに,任意の確率分布をする母集団からの無作為標本の平均値もまたサンプルサイズが無限大になると正規分布になるという「中心極限定理」があります.[三中信宏:2018年11月8日記]
  3. 【質問】「パラメトリック統計学とノンパラメトリック統計学とはなぜ対立するんでしょうか?」/【回答】「パラメトリック統計学」は母集団がある確率分布に従っていると仮定して抽出されたデータに基づく母数(パラメーター)に関する推定や検定を行います.確率分布の仮定が正しいかどうかが決めてです.他方,「ノンパラメトリック統計学」では特定の確率分布を仮定せず,データの無作為化や並べ替えあるいは順位付けなどを踏まえて統計解析を行います.確率分布の仮定には制約されませんが,一般的に精度が低くなることがあるので,注意が必要です.また,「等分散性」の有無はパラメトリック統計学とノンパラメトリック統計学の両方で問題になります.自分のデータが正規性や等分散性を満たしているかどうかは事前に確認するべきでしょう.[三中信宏:2018年11月7日記]
  4. 【質問】「等分散性がなくても使えるノンパラメトリック法の方が農学研究には使いやすいのではないでしょうか?」/【回答】「「等分散性」の有無はパラメトリック統計学とノンパラメトリック統計学の両方で問題になります.データが等分散性を満たしているかどうかは事前確認が必要です」.[三中信宏:2018年11月7日記]
  5. 【質問】「計算機統計学とはどのようなものなのでしょうか?」/【回答】「計算機統計学」については基礎編の統計研修では言及されませんが,たとえばブーツストラップ法のようにデータから無作為再抽出(リサンプリング)して統計量の確率分布を数値的に構築したり,あるいはベイズ統計手法のように事後確率分布をMCMCマルコフ連鎖モンテカルロ法)によって計算するときには,数学的なリクツではなく実際にコンピューターの高速演算があって初めて可能になる統計手法です.「論よりラン」ですね./Rについてはできるだけ最新のバージョンを使った方が安心ですが,バージョンアップの際にR本体とRパッケージの整合性がないとフシアワセが降臨するので要注意です.[三中信宏:2018年11月7日記]
  6. 【質問】「Rのバージョンアップはした方がいいのでしょうか?」/【回答】「Rについてはできるだけ最新のバージョンを使った方が安心ですが,バージョンアップの際にR本体とRパッケージの整合性がないとフシアワセが降臨するので要注意です」.[三中信宏:2018年11月7日記]
  7. 【質問】「賞味期限の切れた統計手法ってあるんでしょうか?」/【回答】たとえば,正規分布を満たさないようなデータに対して,かつては「変数変換」を施すことで正規分布に “近づける” ことが公然と行われていました.しかし,現在では一般化線形モデル(GLM)のようなより新しい統計手法が手軽に使えるようになったので,かつての変数変換は「時代遅れ」と言えるでしょう.多重比較の例を取るならば,「ダンカン法」や「最小有意差法」は古すぎて現在ではもう使われないでしょう.賞味期限を過ぎた統計手法であってもそのまま使われている場合は少なくないと考えられます.要注意です.[三中信宏:2018年11月7日記]
  8. 【質問】「分散分析が有意でも多重比較が有意でない場合はどのように解釈すればいいんでしょうか?」/【回答】分散分析で要因が有意になっても多重比較では有意差が出なかったり,その逆に分散分析では有意にならなくても多重比較で有意差のあるペアが見られることもあります.いずれの場合もはっきりした結論が出せないグレーゾーンと考えるべきでしょう.[三中信宏:2018年11月9日記]
  9. 【質問】「交互作用が有意である場合の多重比較はどうすればいいのでしょうか?」/【回答】「交互作用が有意でなければ主効果の水準間で多重比較ができます.一方,交互作用が有意である場合は水準の組み合わせに関する多重比較をすることになるでしょう」.交互作用が有意でなければ主効果の水準間で多重比較ができます.一方,交互作用が有意である場合は水準の組み合わせに関する多重比較をすることになるでしょう.[三中信宏:2018年11月9日記]
  10. 【質問】「分散分析をせずにいきなり多重比較をしてもいいのでしょうか?」/【回答】分散分析と多重比較ではそもそも分析の目的が異なります.分散分析は要因の有意性を検定するのに対し,多重比較は処理水準間の差異の有意性を検定するからです.もしも要因の有意性が事前に自明であることがわかっているならば,最初から多重比較をしてもぜんぜん問題ではないでしょう.[三中信宏:2018年11月9日記]
  11. 【質問】「主成分分析の分散集約が思わしくないときはどうすれば?」/【回答】主成分分析によって多変量データがうまく説明できるかどうかはデータしだいです.元変量の線形結合として計算される主成分軸がデータのばらつきをどれくらいシンプルに説明できるかどうかはケースバイケース.[三中信宏:2018年11月14日記]
  12. 【質問】「クラスター分析で平方ユークリッド距離はどんな場合に用いられますか?」/【回答】クラスター分析の場合,連続変量では「ユークリッド距離」が,離散変量では「マンハッタン距離」が用いられることが多いです.平方ユークリッド距離を用いる典型的な例として,集団遺伝学で対立遺伝子の頻度データによって集団間の距離を表すとき,平方ユークリッド距離が用いられることがあります.[三中信宏:2018年11月14日記]
  13. 【質問】「クラスター分析のデンドログラムで末端間の距離はどのように表示されているのでしょうか?」/【回答】クラスター分析の任意のふたつの末端点どうしの距離を「d」とするとき,デンドログラムの上でそれらをつなぐ二叉(フォーク)の分岐点までの距離を「d/2」として描きます.したがって,ある末端点からもう一方の末端点までデンドログラムの枝に沿って距離を足し算した合計が末端点間の距離と一致します.[三中信宏:2018年11月14日記]
  14. 【質問】「データセットに欠測値がある場合は?」/【回答】データセットに欠損値がある場合は,それを含む「行」と「列」を除去する場合が多いと思います.もし,元のデータセットの情報をできるだけ活かしたいということであれば,隣接するデータから補間することにより,欠損値を “修復” することはできないわけではありませんが,あくまでもそれは緊急措置です.[三中信宏:2018年11月14日記]

『統計思考の世界:曼荼羅で読み解くデータ解析の基礎』サポートサイト開設

三中信宏

(2018年6月1日刊行,技術評論社,東京,239 pp., 本体価格2,300円, ISBN:9784774197531 [紙版]|ISBN:9784774197548 [電子版] → コンパニオン・サイト版元ページ[紙本]版元ページ[電子本]

版元サポートページが開設されました.捕捉された “蟲” たちはそのつど追加展示することになっています.初版の “蟲捕り” にご協力いただければ幸いです.

『統計思考の世界:曼荼羅で読み解くデータ解析の基礎』見本刷

三中信宏

(2018年6月1日刊行,技術評論社,東京,239 pp., 本体価格2,300円, ISBN:9784774197531 [紙版]|ISBN:9784774197548 [電子版] → コンパニオン・サイト版元ページ[紙本]版元ページ[電子本]

見本刷がドサッと着弾した.B5判型はやはり大きいな.ウラの見返しには「統計曼荼羅」がど~~んと.書店には一週間以内に並ぶことになる.

f:id:leeswijzer:20180512114700j:image

f:id:leeswijzer:20180512114900j:image

『統計思考の世界:曼荼羅で読み解くデータ解析の基礎』確定目次

三中信宏

(2018年6月6日刊行,技術評論社,東京,ca 240 pp., 本体価格2,300円, ISBN:9784774197531コンパニオン・サイト

念校ゲラが届き,やっと目次ノンブルが確定した: http://d.hatena.ne.jp/leeswijzer/20180405/1523021861

『統計思考の世界:曼荼羅で読み解くデータ解析の基礎』アマゾン近刊予約開始

三中信宏

(2018年5月中旬刊行予定,技術評論社,東京,ca 240 pp., 本体価格2,300円, ISBN:9784774197531確定目次

アマゾンでの近刊予約が始まった.本書『統計思考の世界』の企画案が最初に技術評論社から提示されたのは2009年10月のことだった.その後,さまざまな延滞要因が重なってしまい,けっきょく刊行が9年後の今年になってしまった.本書は,昨年4月に出た:『思考の体系学:分類と系統から見たダイアグラム論』(2017年4月25日刊行,春秋社,東京, 6+316+23 pp., 本体価格2,500円, ISBN:9784393333556目次版元ページコンパニオン・サイト),ならびに今月中旬に出る:『系統体系学の世界:生物学の哲学とたどった道のり』(2018年4月20日刊行予定,勁草書房けいそうブックス],東京, 507 pp.[xii+430+lxv pp.], 本体価格2,700円, ISBN:9784326154517版元ページコンパニオン・サイト)とともにひとつの “単系統群” を形成する姉妹本である.これら3冊は内容的にそれぞれ統計学離散数学・生物体系学に特化しているが,どの本からも他の2冊が technical supplement として相互引用されている.いまようやく3冊が揃い踏みすることになるのはシアワセ至極だ.