Inleiding tot de R-statistiek

統計学全般に関する備忘メモの書庫(三中信宏)

「R + RStudio + R Commander 黄金三点セット(続き)」

前記事「R + RStudio + R Commander 黄金三点セット」の続き.

最近では,講義や研修の実習では,この「黄金三点セット」を使うことがワタクシ的にはデフォルトになっている.Rcmdr は汎用性の高い統計ツールがまとめられているので,データファイルの読み込み・グラフ描画・モデル構築・確率分布リストなどでとても重宝する.Rcmdr なしにはワタクシの高座は成立しない.新しいバージョンでは Markdown 出力もでき,さらに用途が広がる.

もう一方の RStudio は R プログラミング環境なので,これはこれで R のスクリプトを利用した実習や計算になくてはならない.コマンド補完機能などのユーティリティも重宝する.ただし,RStudio と Rcmdr とは使い道が別なのでどちらか片方だけですませることはできない.RStudio の中から Rcmdr を起動すればもう鬼に金棒.

Rcmdr の卓越したグラフ描画機能だけでも統計学習者への “洗脳力” は十分すぎる.そのうち ggplot2 や cowplot が Rcmdr メニューに追加されればパラダイスだろう ―― と思ったら,すでに「Rcmdr から ggplot2 が使えればいいな」というニーズに応えて「RcmdrPlugin.KMggplot2」というプラグインがCRANにあることを知った.すばらしい.さっそくダウンロードした.

「東京大学大学院理学系研究科「生物統計学」開講について」

2016年度・東京大学大学院理学系研究科「生物統計学」講義と実習(A1~A2セメスター)が2016年9月29(木)から開講されます.講義時間は毎週木曜第4限(14:55~16:40),教室は本郷キャンパス理学部2号館148教室です(参照:東京大学授業カタログ「生物統計学」).

本講義のシラバスと事前準備については〈租界〈R〉の門前にて〉に開設した講義ページをごらんください.ミラーサイトもあります.

実習に使用する持ち込みPCの事前準備について下記はとても重要な事項ですので,受講予定者はお気をつけください.

  1. 【R事前インストールのお願い】今回の講義で使用するRならびにパッケージ R Commander(Rcmdr),さらに RStudio については事前にインストールをお願いいたします.インストールの手順と起動の確認 については R-InstallationGuide.zip(→ url1 または url2)を参照してください.
  2. 【Mac OSX あるいは Linux ユーザーへの注意】Mac OS X 版あるいは Linux 版の R / Rcmdr / RStudio を使用される場合は,上記と同じくR関連ファイルを前もってインストールした上で,各自の責任で作動確認をお願いいたします.なお,Mac OS X については,事前に〈X11〉をアップルのサイトからインストールしておいてください(→ AppleX11 および OS X について」).X11 がないと R Commander が使用できなくなりますのでこれは必須です.

それでは,2号館で初回講義時にお会いしましょう.

「日本における「統計学部」ロスの影響」

欧米にはふつうにある「統計学部(Faculty of Statistics)」がどういうわけだか日本の大学には創設されなかった点について,ワタクシが読んだ関連記事を時間順に並べると:

これから「統計学部」を日本で新設するのは前途多難すぎるということか.滋賀大学に新設されるデータサイエンス学部は首尾よく船出できる?

「A Painless Guide to Statistics」

Robert Gerwien

 → http://abacus.bates.edu/~ganderso/biology/resources/statistics.html

このサイトの末尾にある「統計手法フローチャート」[pdf] が翻訳されている.たいていこういう図を描けば批判されるのだが,それでもあえて描いた方が “公共の利益” にはなると思う.統計学の数々の “曼荼羅” は悩める衆生のためにあるのであって,天上人たちのためにあるのではないから.さらに言うなら,ユーザーの置かれる「場」によって御利益のある曼荼羅は異なる.ワタクシの場合,農業試験研究で用いられる統計分析に最適化された「統計曼荼羅」だから,医学統計学とかバイオインフォマティクス分野は誰かが別の「統計曼荼羅」を描いてくれないと.裾野がどんどん広がってきたので,手が回らないというのが実情だ.

『Exploratory Data Analysis』

John W. Tukey

(1977年刊行,Addison-Wesley[Addison-Wesley Series in Behavioral Science: Quantitative Methods], Reading, xvi+688 pp., ISBN:0201076160 [hbk])

下記は2012年3月3日に「探索的データ解析(EDA)に関連して」と題して本録で公開した記事の再録である.

ここのところ統計学者 John W. Tukey の図的思考の展開を追跡している.まずは彼の Magnum Opus である本書『Exploratory Data Analysis』をひもとくしかない.本書の書評のひとつ:

  1. R. M. Church (1979) How to look at data: A review of John W. Tukey's Exploratory Data Analysis. Journal of the Experimental Analysis of Behavior, 31(3): 433–440. (open access)

をながめると,Tukey の提唱する「EDA」は他の統計学者の関心を惹きつつも,同時に推測統計学から記述統計学への“撤退”ではないかと警戒されていたフシがある.しかし,本書が出版される「夜明け前」に書かれた一連の記事:

  1. John W. Tukey (1962a) The future of data analysis. Annals of Mathematical Statistics, 33(1):1-67. (open access)
  2. John W. Tukey (1962b) Correction. Annals of Mathematical Statistics, 33(2):812. (open access)
  3. John W. Tukey (1972) Some graphic and semigraphic displays. Pp. 293-316 in: T. A. Bancroft (ed.) Statistical Papers in Honor of George W. Snedecor (Iowa State University Press, Ames). (open access)
  4. F. J. Anscombe (1973) Graphs in statistical analysis. The American Statistician, 27(1):17-21. (pdf)

を読むと,グラフィクスの利用を重視する Tukey の EDA をふつうの統計学の文脈で読むのは実はまちがっているのではないか? 

ついでに,Tukey の伝記記事など:

  1. F. R. Anscombe (2003) Quiet contributor: The civic career and times of John W. Tukey. Statistical Science, 18(3):287-310. (open access)
  2. Peter McCullagh (2003) John Wilder Tukey. 16 June 1915 – 26 July 2000. Biographical Memoirs of Fellows of the Royal Society, 49:537-555 (pdf)
  3. David R. Brillinger (2009) John Wilder Tukey 1915 - 2000: A biographical memoir. (pdf)

データ視覚化の歴史をチャート化した:M. Friendly & D. J. Denis 2001. Milestones in the history of thematic cartography, statistical graphics, and data visualizationは実にすばらしい![pdfドキュメントもある]


データ可視化と統計グラフィクスの話題はさらに続く.筋のいい脈を掘り進むと自然に別の脈に遭遇するものだ.John Tukey を掘っていたら Edgar Anderson と再開した.Rのテストデータとしていたるところで頻繁に引用されている「iris」データの出典はほかならない Edgar Anderson だ:Edgar Anderson (1935) The irises of the Gaspe Peninsula. Bulletin of the American Iris Society, 59: 2–5.出自から言えば,実験分類学を実践する植物分類学者が Edgar Anderson の表看板だったが,後年には生物統計学の理論に関するアウトプットが多くなっていく.ずいぶん前に読んだ:Joel B. Hagen (2003) The statistical frame of mind in systematic biology from Quantitative Zoology to Biometry. Journal of the History of Biology, 36: 353-384 を読み返す.


1930年代に Ronald A. Fisher が「判別分析(discriminant analysis)」の方法論を提唱した論文によって Edgar Anderson の Iris データは一躍有名になった:R. A. Fisher (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7: 179–188.Fisher は線形判別関数を考案することにより,四変量の形態データに基づく“数値的”な種間判別の技法を開発した.しかし,それは必ずしもデータの“視覚化”という点からいえば満足できるものではない.


Edgar Anderson は John W. Tukey にも深い影響を及ぼしたことが知られている.1959年に Tukey のもとにいた Edgar Anderson は Iris データを用いて多変量データの視覚化の新しい方法を模索していた.このころ Edgar Anderson が開発した「イデオグラフ(ideograph)」という視覚化法は Tukey にとっては受け入れがたかったが,データの視覚化の重要性を Tukey に認識させた貢献は大きかった.Tukey の主著『Exploratory Data Analysis』(1977年刊行,Addison-Wesley[Addison-Wesley Series in Behavioral Science: Quantitative Methods], Reading, xvi+688 pp., ISBN:0201076160 [hbk])が Edgar Anderson に捧げられているのはそういう背景があった.統計グラフィクスの観点からみてたいへん興味深いつながりである.


Edgar Anderson の伝記情報いろいろ:

  • G. Ledyard Stebbins (1978) Edgar Anderson 1897-1969: A biographical Memoir → pdf
  • Kim Kleinman (1999) His own synthesis: Corn, Edgar Anderson, and evolutionary theory in the 1940s. Journal of the History of Biology, 32 (2): 293 - 320.
  • Kim Kleinman (2002) How graphical innovations assisted Edgar Anderson's discoveries in evolutionary biology. Chance, 15(3): 17 - 21

—— きりがなく鉱脈掘削が続きそうな気配が濃厚になってきた.

[追記:2016年5月6日]Edgar Anderson についてはもうひとつ歴史的挿話がある.1941年にコロンビア大学が主催する連続講義〈The Jesup Lectures〉に Ernst Mayr とともに呼ばれた Anderson は植物の雑種についての話をした.動物分類学に関する講義をした Mayr は,その講義を踏まえて,進化的総合にとって歴史的な著作となる『Systematics and the Origin of Species』を翌1942年にコロンビア大学出版局から出した.ところが,Anderson はどうしても本の原稿をまとめあげることができず,結局出版にいたらなかったそうだ.Mayr 本の初版に「From the Viewpoint of a Zoologist」というサブタイトルが付けられた理由は,Anderson が「From the Viewpoint of a Botanist」の立場で別の本を書くことを前提に付けられたのだろう.

いろいろな意味で Edgar Anderson は「偉大な脇役」という印象が残る.

「ネイマン-ピアソン結界関連(備忘メモ)」

依頼原稿を締め切り間際にやっと書き上げた『心理学評論』第59巻第2号特集〈心理学の再現可能性〉はゴールデンウィーク明けにも早期公開が予定されている.この原稿執筆の過程で,今から5年も前の日録に「ネイマン-ピアソン(Neyman-Pearson)結界」関連の情報を束ねていたことがわかった.書いた本人がすっかり忘れても日録には永遠?に残るのだ.備忘のため下記に再録する.まずは2011年11月5日(土)日録から:

[蒐書日誌]ネイマン-ピアソン結界の暗黒を覗き込む車中 —— 本日の車内修行本: E. L. Lehmann『Testing Statistical Hypotheses』 (1959年刊行,John Wiley & Sons[Wiley Publications in Statistics], New York, xiv+349 pp.).この叢書はことのほかフォントが細かくて,新幹線の振動に乗って微細な添字が睡魔を呼び込みやすい.新幹線車中で「ごりごりの数理統計学本」を読んではならない.しかし,いったん「結界」に入ってしまったからには,もう逃げ出すことはできない…….まずは,ネイマン-ピアソン結界を守護している大論文の数々を列挙してみる:

  • Jerzy Neyman and Egon S. Pearson 1928a. On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. Part I. Biometrika, 20A: 175-240 → Jstor
  • Jerzy Neyman and Egon S. Pearson 1928b. On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference. Part II. Biometrika, 20A: 263-94 → Jstor
  • Jerzy Neyman and Egon S. Pearson 1933a. On the Problem of the Most Efficient Test of Statistical Hypotheses. Philosophical Transactions of the the Royal Statistical Society, Series A, 231: 289-337 → Jstor | pdf
  • Jerzy Neyman and Egon S. Pearson 1933b. The Testing of Statistical Hypotheses in Relation to Probabilities a priori. Proceedings of the Cambridge Philosophical Society, 24: 492-510 → abstract
  • Jerzy Neyman and Egon S. Pearson 1936a. Contributions to the Theory of Testing Statistical Hypotheses. Statistical Research Memorandum, 1: 1-37
  • Jerzy Neyman and Egon S. Pearson 1936b. Sufficient Statistics and Uniformly Most Powerful Tests of Statistical Hypotheses. Statistical Research Memorandum, 1: 113-37

これじゃあ,ネイマン-ピアソン結界に入り込んだ初心者が一瞬にして「石」になってしまうのもムリはない.Lehmann 本はまるごと一冊,意思決定理論(decision theory)としてのネイマン-ピアソン結界の解説に当てている.そう,冒頭の第1章のタイトル「The General Decision Problem」が象徴しているように,ネイマン-ピアソン結界は「統計学は意思決定のための理論である」という前提のもとに築かれている.

The need for statistical analysis stems from the fact that the distribution of X, and hence some aspect of the situation underlying the mathematical model, is not known. The consequence of such a lack of knowledge is uncertainty as to the best mode of behavior. To formalize this, suppose that a choice has to be made between a number of alternative actions. The observations, by providing information about the distribution from which they came, also provide guidance as to the best decision. The problem is to determine a rule which, for each set of values of the observations, specifies what decision should be taken. (p. 1: 下線みなか)

「最良の行動」あるいは「最善の決定」をするための手段が統計学であるとしつこいほど強調されている.興味深い点は,統計的な推論と意思決定が対置された上で,統計的推論を意思決定に取り込んでしまうという姿勢が明言されていることだ:

All the problems considered so far could be termed action problems. It was assumed in all of them that if θ were known a unique correct decision would be available, that is, given any θ there exists a unique d for which L(θ,d)=0 [=loss]. However, not all statistical problems are so clear-cut. Frequently it is a question of providing a convenient summary of the data or indicating what information is available concerning the unknown parameter or distribution. This information will be used for guidance in various considerations but will not provide the sole basis for any specific decisions. In such cases the emphasis is on the inference rather than on the decision aspect of the problem, although formally it can still be considered a decision problem if the inferential statement itself is interpreted as the decision to be taken. (pp. 4-5: 下線みなか)

つまり,「意思決定」すなわち仮説検定に直結しない統計的な「推論」はあり得るだろうが,それもまた意思決定だとみなせばいいというかなり強圧的な見解である.通常の帰無仮説 vs. 対立仮説の二者択一的な「仮説検定(hypothesis testing)」を基本的な決定問題とするとき,その延長線上には複数の対立仮説を含む「多重決定(multiple-decision procedures)」の問題があり,さらにそのスペクトラムの果てにパラメーターの点推定(point estimation)という決定問題が位置すると著者はみなす(pp. 3-4).要するにすべては意思決定という枠組みの中で捉えられる.点推定ではない信頼集合(confidence set)の概念もまた本書では決定理論の中で展開されることになる.

—— パラメトリック統計学のこの天守閣をときどき見に行くと,新たな発見とともに彼我のギャップの大きさにくらくらすることがある.

続いて,翌日の2011年11月6日(日)日録へ:

[欹耳袋]昨日に続き,仮説検定に関連する総説論考をふたつメモクリップしておく:

  • Jeff Gill 1999. The Insignificance of Null Hypothesis Significance Testing. Political Research Quarterly, 52(3): 647-674 → Jstor | pdf
  • Douglas H. Johnson 1999 The Insignificance of Statistical Significance Testing. The Journal of Wildlife Management, 63(3): 763-772 → Jstor | html | pdf

このふたつは,政治学と野生生物管理というまったく畑違いのジャーナルであるにもかかわらず,論文タイトルが酷似している.しかも同年の出版だから,みごとな「収斂」と言うしかない~.Johnson の総説はいたるところで引用されまくりだから有名だが,Gill の論考は古典的な「仮説検定」の世界観を知る上で便利だった.

さらに Togetter -「君が出した有意差に意味はあるのか」という5年前のツイート束まで発掘してしまった.芋づる式とはこういうときのためにある表現だ.なお,統計学者 Eric L. Lehman については次の記事も参照のこと:leeswijzer「『Testing Statistical Hypotheses』の改訂版と姉妹本」(2011年11月9日).

―― 1930年代から80年も経過した現代の統計ユーザーが,いまなお無意識のうちに〈ネイマン-ピアソン結界〉の中で操られているという意味で.『犬神家の一族』の犬神弥兵衛による “死後遠隔操作” を思い出してしまった.

「統計学の「p値」をめぐるASA声明」

ことの発端はアメリ統計学会(ASA: The American Statistical Association)の声明だった:ASA Press Release | ASA Releases 'Statement on Statistical Significance and P-Values' [pdf] 7 March 2016.元論文:The American Statistician | The ASA's statement on p-values: context, process, and purpose. 7 March 2016 ※コメントが21個もくっついている~.これを受けて:Nature | News | Statisticians issue warning over misuse of P values. 7 March 2016 と燎原に火が広がる如し.日本語でも:東京で働くデータサイエンティストのブログ「「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明」(2016年3月9日)とかサイナビ!「再現性・再現可能性を議論する」(2016年3月8日)とか.

農学分野での統計データ解析に接する機会が比較的多いワタクシの目から見れば,「ゆーい差決戦主義」や「p値バンザイ突撃戦」への数々の批判をよそに,研究現場では文字通り “レガシー” な統計手法がいまなおまかり通っている.統計手法にも “賞味期限” があるはず.やっかいなことに,すでに古ぼけた統計手法が使われ続けることによって,その手法を生み出した古ぼけた思考や哲学もまたいつまでも延命されてしまう.統計学者の多くは「統計学の哲学」には関心がないので,検定・尤度・AICベイズ等の背後にある科学哲学に目を向けない.

これまでの統計研修や統計高座を通じてたびたび “タイムスリップ” に遭遇した経験があるワタクシしては,“レガシー” な統計分析手法を支える “レガシー” な統計思考法をユーザーに考えなおしてもらうよう導くしかないわけでして.大きな “慣性” をもつ思考法はすぐには断ち切れないだろうから,それに代わる別の思考法に乗り換えるよう,あるいは二股かけるよう周囲をそそのかすのがワタクシたちの使命なのだろう.そういうワルイことはとても楽しい.

研究現場の統計ユーザーにとって,広がり始めている “新しい統計学”(その正体はまだとらえどころがない)について知る機会がないだけのことが多いので,いったんその味を体験すれば次の一歩を踏み出す動機づけとなるだろう.その後押しをするのがワタクシたちのお仕事.ただし,過去からの研究系譜を伝承しなければならない現場のニーズを考えるなら,“レガシー” な統計手法もちゃんと知った上で,それとは別の(現代的な)統計的思考も身につけないと困ることになるだろう.複数のトラックの上を同時並走するイメージ.

教える側のワルダクミ戦略からいえば,「現代の統計学のスタート地点はもっと先なんだよ」と垂訓することはまったくの逆効果にしかならない.それは多くの統計ユーザーを統計学の勉強そのものから忌避させ遠ざけることになるだろうから.むしろ,そういう “北風戦略” とは対極的な「かつてはこう考えていたけれども,こんな風に見ればちがうことがわかるよね」という “太陽戦略” の方がはるかに浸透力があるとワタクシの経験は物語る.