Inleiding tot de R-statistiek

統計学全般に関する備忘メモの書庫(三中信宏)

「系統樹の誤差って?」

系統樹の「誤差」が何かがよくわからないという質問がありました:

系統樹の枝の信頼性がブーツストラップで評価できるという話がよくわかりませんでした.

系統樹の信頼性とは,系統樹の各枝をサポートしている系統学的情報の強さがどれくらいかによって決まります.たとえば,ある枝がひとつの共有形質によってサポートされていることもあれば,十個の共有形質によってサポートされていることもあります.系統学的には後者の方が前者よりも“信頼できる”ということになります.

形質のリサンプリングを実行しますと,強くサポートされている枝ほど毎回のリサンプリングでその枝をサポートする形質が拾われる確率が高くなるので,各ブーツストラップ試行における枝の出現しやすくなります.したがって,複数回のブーツストラップ試行を集計し,それぞれの枝の出現率を比較すれば,その値の大小によって枝の“信頼度”が相互比較できることになります.

もちろん,ここでいう“信頼度”とは真実であるかどうかとは何の関係もありません.与えられたデータのもとで,系統樹の各枝がどれほど強くサポートされているかと程度と解釈すべきでしょう.

実際,どのくらいの数値なら,系統樹は正しく評価できたといえるのですか?

この質問については確たる解答はないです.というのも,ブーツストラップ試行での出現率とその枝の真実度とは無関係で,単に与えられたデータのもとでの“信頼度”をあらわしているだけだからです.系統推定論では,だいたい「80%以上」のブーツストラップ確率があればたいていの研究者は安心しますが,それは“気休め”以上のものではありません.