統計 分散分析についてメモ①

ほかの技術知識

概要

 分散分析とは、尺度水準が間隔/比率であって正規分布に従う3つ以上の母集団に使用可能な検定方法であって、その検定統計量は「集団間のばらつき/集団内のばらつき」である。分散分析という名称だが、検定するのは母集団間の平均値の差であり、「母集団間の平均値に差がない」という帰無仮説をとる。栽培条件の違いによる作物の収穫量の差を検出する農事試験を背景とする検定方法であって、農学・遺伝学・生態学・水産学・工学・社会学・医学など多くの分野で使用される。

  • 3群以上の母集団がそれぞれ分散が等しい正規分布に従う場合の母平均の差の検定
  • 尺度水準が間隔・比率でかつ正規分布に従う場合の検定
  • 検定統計量=母集団間のばらつき/母集団内のばらつき
  • 帰無仮説を「各母集団の平均値が等しい」と設定し、検定統計量が1に近いことを期待する。

尺度水準

 データを分類する区分の1つ。すべてのデータには尺度水準があり「名義」「順序」「間隔」「比率」のどれかに該当する。尺度水準の順位は高い方から順に、比率・間隔・順序・名義であり、高い尺度の変数は低い尺度の変数を有する。

低い尺度水準の変数に対して、それより高い尺度水準向けの方法は使えない
名義尺度

2つのデータがあったときに「ちがう」か「同じ」かが分かるもの (例:オスとメス,白と黒)

順序尺度

2つのデータがあったときに「ちがう」か「同じ」かが分かることに加えて、大小関係があるもの(例)マラソンやトーナメントの準備

間隔尺度と比率尺度

温度・重さ・長さなどの定量的な変数。比率尺度(重さなど)には真のゼロがあるが、間隔尺度(摂氏温度など)には無い。

用語

例)餌の種類によって魚卵の成長に差が出るかどうか検定する場合を想定する。

  • 因子:差を見ようとする変量の要因(例:飼料、水温)
  • 水準:因子のカテゴリー(例:配合資料1、配合飼料2・・・)
  • 処理:設定した実験条件
  • 繰返し数:各水準内のデータ数(ある処理で5回のデータ取得をしたならば、繰返し数は5)

検定統計量の計算

 母集団を水準に読み替えると、分散分析の1元配置(因子が1つの場合)の各データは「全データに共通する要因+実験条件(各水準)の効果+各水準内の誤差(測定誤差など)」から成り立つと言える。検定統計量を「水準」という用語で書き直して

検定統計量=水準間のばらつき/水準内のばらつき

とする。ばらつき=平方和/標本数だから、分散分析の計算は水準間の残差平方和(SA)と水準内の残差平方和(SE)を求めることから始まる。

水準i(1 < i ≦ a )の各繰返し数をriとすると

水準間の残差平方和
水準内の残差平方和

次に、SAを自由度(水準の数ー1)、SEを自由度(全データ数ー水準の数)で割り算して、平均平方(VA、VE)を計算する。

VA、VEは母分散の推定量の形だが、帰無仮説が棄却されるとそうとも言えなくなってしまうので「平均平方」と呼ぶ。

VAは標本平均の分散にデータ数riを掛け算したものなので、帰無仮説「各母集団の平均値が等しい」が正しければ母分散の推定量になる。VEも式の形から母分散の推定量になっている。

帰無仮説が正しければ、F=VA/VEは、自由度(vAvE)のF分布に従うので、これを利用して検定する。F分布表で、自由度(vAvE)の上側(αx100)%点の値F(α;vAvE)を読み取って、FF(α;vAvE)であれば有意水準αで帰無仮説を棄却する。

実際的な計算方法

  1. 修正項CTを計算する。
  2. 総平方和STを計算する。
  3. SASEを計算する。
分散分析の計算

計算したものをまとめると、エクセルなど統計ソフトなどの出力結果の形になる。

1元配置の分散分析表