Inleiding tot de R-statistiek

統計学全般に関する備忘メモの書庫(三中信宏)

「統計量が同一になるデータセットを生成する」

ACM SIGCHI Conference on Human Factors in Computing Systems 2017.

Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing.

https://www.autodeskresearch.com/publications/samestats

平均や分散(標準偏差)や相関係数などの統計量がまったく同じなのにデータセットの “形状” がまったく異なる事例は,かつて1973年に統計学者フランク・アンスコムが発表した有名な “アンスコムのカルテット” がある:Francis J. Anscombe (1973) Graphs in statistical analysis. The American Statistician, 27(1):17-21. (pdf).単に統計量を計算しただけでは,データセットの “かたち” のちがいを見落としてしまうという教訓はグラフィック統計学の重要性を示唆する.では,アンスコムの事例のように,統計量を変化させないという制約条件のもとで,異なる “形状” をもつデータセットをどのように生成すればいいのか.上の最新論文ではシミュレーテッド・アニーリングのアルゴリズムを用いてこの問題を解決した.上のサイトにはgif動画も公開されている.こういう “統計学” は楽しいな.