Inleiding tot de R-statistiek

統計学全般に関する備忘メモの書庫(三中信宏)

「第3回の講義」

本日の第3回講義では,前回の続きとして,データを説明するモデル(仮説)に求められる「単純性(最節約性)」についてまずはじめに説明しました.現象が複雑であるからといって,それを記述するモデルもまた複雑であるべきだという立場は支持されません.むしろ,複雑であるかもしれない現象世界をうまく「単純化(simplify)」できるモデルをつくることができれば,私たちにとって納得できるいいモデルということになるでしょう.

その際,考えなければならないことは,ばらつきをもつデータのふるまいをどのように理解するかということです.「確率変数」とその「確率分布」はさまざまな原因でばらつくデータの挙動をとらえる第一歩であることを説明しました.とくに,データのばらつきを特徴づける「平均」を導入するための「期待値」が重要です.

数式で書いてしまうと「総和記号」や「積分記号」がどうしても出てきてしまうのですが,そういう“めくらまし”によろめいてはいけません.ばらつくデータの“真ん中”を計算することが,データを理解する第一歩であることを直感的にわかっていただくことの方がはるかに重要です.データ集合の“真ん中”(すなわち「平均」)が求められれば,次にそれを基準にしてデータのばらつきの程度(「分散」と呼びます)を定量化することができます.これが連休明けの講義の中心テーマになります.

みなさん,よいゴールデンウィークを!