Kira-kira Analytics: Rを使ったｔ検定

今回のは、t検定をふりかえる。Rの場合、t.test()で一発だ。

> X <- c(90,80,80,90,70,60,60,70,80)
> Y <- c(60,70,80,50,40,50,60,70,50)
> t.test(X,Y)

 Welch Two Sample t-test

data:  X and Y 
t = 2.9417, df = 15.79, p-value = 0.009678
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
  4.643171 28.690163 
sample estimates:
mean of x mean of y 
 75.55556  58.88889

>

Xの平均は、75.55556。Yの平均は、58.88889。t検定では、この二つの値の差は偶然生じたものであると仮定して、その仮説を帰無仮説とする。
帰無仮説が棄却できるかどうかは、p-valueを見て、その値が0.05未満の場合、二つの平均値には偶然ではない差があると判断する（一番下にリンクを置いた「Rによるテキストマイニング入門」では、二つのクラスに学力テストをおこなった場合という話で紹介されている）。
また、t.test(X,Y, paired = TRUE)を使えば、データに相関を考慮したt検定ができる。

t検定は、正規分布に従う連続値のデータに適用されるということを忘れずに。
上の例の場合は、独立2郡の平均値の差の検定。
t検定は、

二つの母集団がいずれも正規分布に従うと仮定した上での、平均が等しいかどうかの検定。

標本が対になっている、つまり1組の標本のメンバー各々と、もう1組の特定のメンバーとの間に特別な関係がある場合（例えば、同じ人に前後2回調査する場合、夫と妻とで比較する場合など）。
標本が独立で、比較する二つの群の分散が等しいと仮定できる場合（等分散性の仮定）。
標本が独立で、等分散性が仮定できない（異分散）場合。これは正確にはウェルチのt検定と呼ばれる。

正規分布に従う母集団の平均が、特定の値に等しいかどうかの検定。

回帰直線の勾配が0と有意に異なるかどうかの検定。

に大別できる。

数式でちゃんと求めるなら、wikipediaが十分わかりやすい。

Kira-kira Analytics

2014年1月2日木曜日

Rを使ったｔ検定

0 件のコメント:

コメントを投稿