Inleiding tot de R-statistiek

統計学全般に関する備忘メモの書庫(三中信宏)

「RStudio と R Commander のグラフィック・デバイス管理」

RStudio から R Commander を起動した時,R Commander のグラフ描画出力が RStudio とは別窓になってしまう症状に前から困っていた.この問題への対処はグラフィック・デバイスをちゃんと管理すれば解決できることがわかった.RStudio プロンプトで「RStudioGD()」と入力すると R Commander のグラフィックスは RStudio の内窓に表示され,「dev.new()」と入力すると外窓に表示される.

「【統計学】尤度って何?をグラフィカルに説明してみる」

Qiita(2015年11月18日)

 → http://qiita.com/kenmatsu4/items/b28d1b3b3d291d0cc698

尤度を説明するときにこういうアニメーションがあると効果的だろうな.ワタクシなんか,かつての「OHP時代」につくった手書きの尤度説明図を今でも使い続けている.今では「OHP」ということばも死語になってしまったし,そろそろこのスライドのリニューアルもしないといけないんだけど,お座敷での紙芝居の1枚として馴染んでしまっていてですね.

「R + RStudio + R Commander 黄金三点セット(続き)」

前記事「R + RStudio + R Commander 黄金三点セット」の続き.

最近では,講義や研修の実習では,この「黄金三点セット」を使うことがワタクシ的にはデフォルトになっている.Rcmdr は汎用性の高い統計ツールがまとめられているので,データファイルの読み込み・グラフ描画・モデル構築・確率分布リストなどでとても重宝する.Rcmdr なしにはワタクシの高座は成立しない.新しいバージョンでは Markdown 出力もでき,さらに用途が広がる.

もう一方の RStudio は R プログラミング環境なので,これはこれで R のスクリプトを利用した実習や計算になくてはならない.コマンド補完機能などのユーティリティも重宝する.ただし,RStudio と Rcmdr とは使い道が別なのでどちらか片方だけですませることはできない.RStudio の中から Rcmdr を起動すればもう鬼に金棒.

Rcmdr の卓越したグラフ描画機能だけでも統計学習者への “洗脳力” は十分すぎる.そのうち ggplot2 や cowplot が Rcmdr メニューに追加されればパラダイスだろう ―― と思ったら,すでに「Rcmdr から ggplot2 が使えればいいな」というニーズに応えて「RcmdrPlugin.KMggplot2」というプラグインがCRANにあることを知った.すばらしい.さっそくダウンロードした.

「東京大学大学院理学系研究科「生物統計学」開講について」

2016年度・東京大学大学院理学系研究科「生物統計学」講義と実習(A1~A2セメスター)が2016年9月29(木)から開講されます.講義時間は毎週木曜第4限(14:55~16:40),教室は本郷キャンパス理学部2号館148教室です(参照:東京大学授業カタログ「生物統計学」).

本講義のシラバスと事前準備については〈租界〈R〉の門前にて〉に開設した講義ページをごらんください.ミラーサイトもあります.

実習に使用する持ち込みPCの事前準備について下記はとても重要な事項ですので,受講予定者はお気をつけください.

  1. 【R事前インストールのお願い】今回の講義で使用するRならびにパッケージ R Commander(Rcmdr),さらに RStudio については事前にインストールをお願いいたします.インストールの手順と起動の確認 については R-InstallationGuide.zip(→ url1 または url2)を参照してください.
  2. 【Mac OSX あるいは Linux ユーザーへの注意】Mac OS X 版あるいは Linux 版の R / Rcmdr / RStudio を使用される場合は,上記と同じくR関連ファイルを前もってインストールした上で,各自の責任で作動確認をお願いいたします.なお,Mac OS X については,事前に〈X11〉をアップルのサイトからインストールしておいてください(→ AppleX11 および OS X について」).X11 がないと R Commander が使用できなくなりますのでこれは必須です.

それでは,2号館で初回講義時にお会いしましょう.

「日本における「統計学部」ロスの影響」

欧米にはふつうにある「統計学部(Faculty of Statistics)」がどういうわけだか日本の大学には創設されなかった点について,ワタクシが読んだ関連記事を時間順に並べると:

これから「統計学部」を日本で新設するのは前途多難すぎるということか.滋賀大学に新設されるデータサイエンス学部は首尾よく船出できる?

「A Painless Guide to Statistics」

Robert Gerwien

 → http://abacus.bates.edu/~ganderso/biology/resources/statistics.html

このサイトの末尾にある「統計手法フローチャート」[pdf] が翻訳されている.たいていこういう図を描けば批判されるのだが,それでもあえて描いた方が “公共の利益” にはなると思う.統計学の数々の “曼荼羅” は悩める衆生のためにあるのであって,天上人たちのためにあるのではないから.さらに言うなら,ユーザーの置かれる「場」によって御利益のある曼荼羅は異なる.ワタクシの場合,農業試験研究で用いられる統計分析に最適化された「統計曼荼羅」だから,医学統計学とかバイオインフォマティクス分野は誰かが別の「統計曼荼羅」を描いてくれないと.裾野がどんどん広がってきたので,手が回らないというのが実情だ.

『Exploratory Data Analysis』

John W. Tukey

(1977年刊行,Addison-Wesley[Addison-Wesley Series in Behavioral Science: Quantitative Methods], Reading, xvi+688 pp., ISBN:0201076160 [hbk])

下記は2012年3月3日に「探索的データ解析(EDA)に関連して」と題して本録で公開した記事の再録である.

ここのところ統計学者 John W. Tukey の図的思考の展開を追跡している.まずは彼の Magnum Opus である本書『Exploratory Data Analysis』をひもとくしかない.本書の書評のひとつ:

  1. R. M. Church (1979) How to look at data: A review of John W. Tukey's Exploratory Data Analysis. Journal of the Experimental Analysis of Behavior, 31(3): 433–440. (open access)

をながめると,Tukey の提唱する「EDA」は他の統計学者の関心を惹きつつも,同時に推測統計学から記述統計学への“撤退”ではないかと警戒されていたフシがある.しかし,本書が出版される「夜明け前」に書かれた一連の記事:

  1. John W. Tukey (1962a) The future of data analysis. Annals of Mathematical Statistics, 33(1):1-67. (open access)
  2. John W. Tukey (1962b) Correction. Annals of Mathematical Statistics, 33(2):812. (open access)
  3. John W. Tukey (1972) Some graphic and semigraphic displays. Pp. 293-316 in: T. A. Bancroft (ed.) Statistical Papers in Honor of George W. Snedecor (Iowa State University Press, Ames). (open access)
  4. F. J. Anscombe (1973) Graphs in statistical analysis. The American Statistician, 27(1):17-21. (pdf)

を読むと,グラフィクスの利用を重視する Tukey の EDA をふつうの統計学の文脈で読むのは実はまちがっているのではないか? 

ついでに,Tukey の伝記記事など:

  1. F. R. Anscombe (2003) Quiet contributor: The civic career and times of John W. Tukey. Statistical Science, 18(3):287-310. (open access)
  2. Peter McCullagh (2003) John Wilder Tukey. 16 June 1915 – 26 July 2000. Biographical Memoirs of Fellows of the Royal Society, 49:537-555 (pdf)
  3. David R. Brillinger (2009) John Wilder Tukey 1915 - 2000: A biographical memoir. (pdf)

データ視覚化の歴史をチャート化した:M. Friendly & D. J. Denis 2001. Milestones in the history of thematic cartography, statistical graphics, and data visualizationは実にすばらしい![pdfドキュメントもある]


データ可視化と統計グラフィクスの話題はさらに続く.筋のいい脈を掘り進むと自然に別の脈に遭遇するものだ.John Tukey を掘っていたら Edgar Anderson と再開した.Rのテストデータとしていたるところで頻繁に引用されている「iris」データの出典はほかならない Edgar Anderson だ:Edgar Anderson (1935) The irises of the Gaspe Peninsula. Bulletin of the American Iris Society, 59: 2–5.出自から言えば,実験分類学を実践する植物分類学者が Edgar Anderson の表看板だったが,後年には生物統計学の理論に関するアウトプットが多くなっていく.ずいぶん前に読んだ:Joel B. Hagen (2003) The statistical frame of mind in systematic biology from Quantitative Zoology to Biometry. Journal of the History of Biology, 36: 353-384 を読み返す.


1930年代に Ronald A. Fisher が「判別分析(discriminant analysis)」の方法論を提唱した論文によって Edgar Anderson の Iris データは一躍有名になった:R. A. Fisher (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7: 179–188.Fisher は線形判別関数を考案することにより,四変量の形態データに基づく“数値的”な種間判別の技法を開発した.しかし,それは必ずしもデータの“視覚化”という点からいえば満足できるものではない.


Edgar Anderson は John W. Tukey にも深い影響を及ぼしたことが知られている.1959年に Tukey のもとにいた Edgar Anderson は Iris データを用いて多変量データの視覚化の新しい方法を模索していた.このころ Edgar Anderson が開発した「イデオグラフ(ideograph)」という視覚化法は Tukey にとっては受け入れがたかったが,データの視覚化の重要性を Tukey に認識させた貢献は大きかった.Tukey の主著『Exploratory Data Analysis』(1977年刊行,Addison-Wesley[Addison-Wesley Series in Behavioral Science: Quantitative Methods], Reading, xvi+688 pp., ISBN:0201076160 [hbk])が Edgar Anderson に捧げられているのはそういう背景があった.統計グラフィクスの観点からみてたいへん興味深いつながりである.


Edgar Anderson の伝記情報いろいろ:

  • G. Ledyard Stebbins (1978) Edgar Anderson 1897-1969: A biographical Memoir → pdf
  • Kim Kleinman (1999) His own synthesis: Corn, Edgar Anderson, and evolutionary theory in the 1940s. Journal of the History of Biology, 32 (2): 293 - 320.
  • Kim Kleinman (2002) How graphical innovations assisted Edgar Anderson's discoveries in evolutionary biology. Chance, 15(3): 17 - 21

—— きりがなく鉱脈掘削が続きそうな気配が濃厚になってきた.

[追記:2016年5月6日]Edgar Anderson についてはもうひとつ歴史的挿話がある.1941年にコロンビア大学が主催する連続講義〈The Jesup Lectures〉に Ernst Mayr とともに呼ばれた Anderson は植物の雑種についての話をした.動物分類学に関する講義をした Mayr は,その講義を踏まえて,進化的総合にとって歴史的な著作となる『Systematics and the Origin of Species』を翌1942年にコロンビア大学出版局から出した.ところが,Anderson はどうしても本の原稿をまとめあげることができず,結局出版にいたらなかったそうだ.Mayr 本の初版に「From the Viewpoint of a Zoologist」というサブタイトルが付けられた理由は,Anderson が「From the Viewpoint of a Botanist」の立場で別の本を書くことを前提に付けられたのだろう.

いろいろな意味で Edgar Anderson は「偉大な脇役」という印象が残る.