Inleiding tot de R-statistiek

統計学全般に関する備忘メモの書庫(三中信宏)

「系統樹の誤差って?」

系統樹の「誤差」が何かがよくわからないという質問がありました: 系統樹の枝の信頼性がブーツストラップで評価できるという話がよくわかりませんでした. 系統樹の信頼性とは,系統樹の各枝をサポートしている系統学的情報の強さがどれくらいかによって決…

「パラメトリック・ブーツストラップの問題点」

パラメトリック・ブーツストラップに関して,次のような質問がありました: パラメトリック・ブーツストラップにおけるモデル選択の妥当性はどうしたら評価できるのでしょうか.講義中のデモでは,母集団が正規分布の所からN=1000の標本をとり,そこから得た…

「リサンプリングの回数」

ブーツストラップやジャックナイフでのサンプリング回数についての質問がありました: リサンプルのためのサンプルは一般にどのくらいの大きさなのか? 一般論でいえば「リサンプリングの反復回数は多いほうがいい」ということになりますが,実際にはデータ…

「リサンプリング手法の使い分け」

計算統計学の手法の使い分けについての質問がありました: ブーツストラップとジャックナイフ(とモンテ・カルロ)のどれを用いるべきか,何か判断基準となるものはあるのでしょうか? モンテカルロが一番役立ちそうだか,もっとも間違いそうな感じがする.…

「語源」

前回の講義では計算統計学のいくつかの手法を説明しましたが,それに関連して: 「ブーツストラップ」,「ジャックナイフ」,「モンテカルロ」のそれぞれの語源を教えていただけるでしょうか? という質問がありました.いずれも印象的なネーミングですが,…

「統計的検定の考え方」

これは問題です: F値が何なのかよくわかりませんでした. 棄却域の話がよくわかりませんでした. 統計的検定の根幹は,データからある差異や比が計算されたとき,その値が「意味がある(有意である)かどうか」を調べるという点にあります.まずはじめに,…

「実験計画についての質問いくつか」

11月29日の講義で,無作為化をどのように実施するのかという点についての質問がありました: 無作為なレイアウトを行うためには乱数表などを用いるのでしょうか? たとえば,無作為にレイアウトをしたつもりでも,反復回数が少ないと結果的にバックグラウン…

「分散分析についての質問いくつか」

前々回(12月6日)の講義で,実験計画にともなう分散分析についての質問がいくつか出ました: 処理効果とブロック効果との交互作用効果は考慮しないのでしょうか? ブロック効果が有意になるほど大きければ「説明不能な……」がありそうな気がします. 完全無…

「多重比較での第一種過誤の増幅」

前回(12月20日)の講義で,多重比較で何の処置も施さなければ「第一種過誤(type-1 error)」が増幅する理由について説明しました.その際,確率計算の過程の説明が不十分で,その点に関しての質問が出されました.下記はその点についての補足です. 処理平…

「帰納とアブダクションのちがい」

受講生のひとりから個人メールで下記の質問が届きました.おそらく他の受講生のみなさんにとっても関心があるかもしれませんので,やりとりをかいつまんでレポートしておきます: 【質問者】演繹と他の二つが決定的に違うのはわかるのですが、帰納とアブダク…

「私語」

授業中ずっと私語を言っている人達がいて 右側の一角ね.深く反省してください.>該当者諸君.

「エコ!」

出席票はもっと小さい紙のほうが環境に優しいと思う.エコ! ぐぅの音も出ません・・・.はい.

「エクセルの余波は続く」

こんな質問も: 東大の文学部心理学科では Excel を用いていると聞きましたが,大丈夫でしょうか? そうですか.事実関係はその学科の知人に確認してみましょう. それとは別に,Excel を用いて統計分析をしているユーザーはきわめて多いと私は認識していま…

「多変量正規分布の密度関数」

前回の講義に関して,こんな質問がありました: p変量正規分布がなぜあのような形で表されるかわかりません. p変量の式で,expの項を一部転置行列にしているのは,expのpの項を無次元の数にするためと考えてOKですか? 多変量確率分布は,思い切って「…

「共分散の意味」

前回の講義に関して: 正の共分散のときなぜ右上がりの分布になるのか.負の共分散のときなぜ右下がりの分布になるのか,わからないです. という質問がありました.多変量の確率分布では共分散(covariance)が重要な意味をもっているので,ここで補足説明…

「複数の変量間の“相関”について」

前回の講義に関連して: 四つ以上のデータの相関を視覚的に表現できないか? という質問がありました. 明日説明することになりましたが,相関係数はふたつの変量の間で定義されます.したがって,それ以上の数の変量間での“相関”となると,別のタイプの関連…

「エクセル統計計算のどこがワルイか」

先日の講義に関連して,こういう質問がありました: エクセルは具体的にどのような欠陥があるのでしょうか? はい,Microsoft Excel の統計関数についての問題点をとりまとめた下記サイトをまずごらんください: 「Excel は,ひどい(酷い・非道い)という話…

「確率変数の独立性」

11月1日の質問から: (X-μ)/σ=rcosθ,(Y-μ)/σ=rsinθとおくと,XとYが独立でなくなると思うのですが,それでいいのですか? 確率変数(変量)の「独立性(independence)」については詳しく説明しませんでした.ふたつの変量XとYがあって,それぞ…

「自由度」

自由度に関して 分散を導出する際に,平方和/データ数ではなく,平方和/自由度でなければならない理由は何か? という質問がありました.スルドいですね.来週この点については講義の中で説明したいと思います.結論をいえば,平方和/自由度によって分散を定…

「アブダクション」

推論様式としてのアブダクションに関連して 対立仮説 H' は無限に存在可能なので,この理論を人工知能等に応用すると永遠に演算を続けることにならないでしょうか? という質問がありました.確かに可能な対立仮説の総数は場合によっては天文学的になること…