檢定方法的使用時機

Qi Fong
Apr 15, 2021

--

假設檢定的應用有很多,使用的檢定方法大略可以分

t- test, z-test

chi-square(卡方檢定),

F檢定,ANOVA,

迴歸(Regression)

各個的使用(例如離散資料或連續資料)也有所不同,本文介紹不同時機的應用。

一、首先討論平均數

當想判別兩組別(類別資料)平均值(連續資料)或是比例(Propotion)差異時,使用t-test, z-test。

不論你是單樣本平均數檢定,雙獨立樣本檢定,成對樣本檢定,都是探討最多兩個樣本間的平均數差異,若要討論的變因超過兩組,就要使用ANOVA。

而且通常這兩個類別都是類別變數,像是男生或女生在成績或是籃球的射籃命中率表現上有沒有影響,可以使用t-test或是z-test,看樣本大小決定。

那對立假設就是

H0: 男生女生在成績上沒有影響;

H1:男生女生在成績上有影響

但是當組別是,美國、日本、韓國在壽命上有沒有影響,就不能夠兩兩看成一組去做t-test,要用ANOVA(變異數分析),不然會讓Type I error的機會增加。

ANOVA雖然叫做變異數分析,但其實討論的也是關於平均值的議題。

其對立假設如下

H0: 假設每一組的平均數皆相同,μ1= μ2= μ3

H1:有至少一組的平均數不相同,μi ≠μj ,i , j ={ 1,2,3}, i≠j

它有三個前提假設在

  • 假設各組都是獨立的,也就是美國、日本、韓國這三組人不會影響彼此的。
  • 假設每一組的變異數都是相同的
  • 假設每一組都是常態分布

變異數分析是以F-分布作為依據,也會有p-value,這個方法會計算組間差異(BSS),組內差異(WSS),最後計算F數,F數越大,代表組間的差異越大,那就代表不同組的平均數是有差別的。表格如下:

以上是以單因子,三個類別的範例,當雙因子時,就要再計算兩因子間的交互作用,但是概念是相同的。

所以講白了,其實ANOVA在兩樣本的平均數檢定也可以用,比t-test更廣。

二、接著討論頻率或是獨立性的問題

通常這類問題的背後都是探討相似的議題,你有一組或多組的頻率觀察值,你想探討的是,這幾組間彼此是獨立的嗎?也就是你有一個期望值。

這類問題就是用卡方檢定

直接舉個例子就是,

  1. 假設主餐有白飯或拉麵,副餐有湯或是豬排,你好奇主餐跟副餐的搭配是否獨立
  2. 假設你擲了一個骰子,你好奇他公正嗎?

以上的問題是發生在,你看到了各種組合(頻率),或是你擲了好幾次骰子,各面出現的次數(頻率),這類問題都可以用列欄表(contingency table)搭配卡方檢定來解。

列欄表範例如下,Expected的想法是,假設A和B之間是獨立的話,那麼

P(Ai and Bj)=P(Ai)×P(Bj),i={1,2},j={1,2}

觀測值
期望值

接著就計算卡方值=

因為A有兩類別(r=2),B也是兩類別(c=2),自由度df為(r-1)×(c-1)

如此就可以知道p-value是多少了。

這類就是獨立性檢定,而適合度檢定也是同樣的想法,只是假設觀測值是遵守哪個機率模型,那期望值就用那個機率模型去計算,卡方值的計算一模一樣。

三、線性迴歸

和ANOVA及t-test類似,都是討論變量和某連續觀測值的關係,但是當你的變數是連續的,例如體重,年齡對身高的影響,那要用Linear Regression的方法。

其實Linear Regression也可以辦到跟ANOVA一樣的事情,類比關係如下

  1. ANOVA通常拿來對類別變數做計算,而Regression拿來做連續型的變量,
  2. ANOVA的組間和組內SS改成迴歸和誤差的SS
  3. 在線性迴歸Y=a1*X1+a2*X2+a3*X3+…ak*Xk+a0中,

H0: ai=aj=0, i,j=1~k

H1: 至少一個ai0

而R平方意思是,迴歸的SS/全部的SS,也就是線性迴歸的解釋性,一般越大的話,解釋性越強,而各變量的係數則可以用來評估各變量對因變量的預測能力。

--

--

Qi Fong
Qi Fong

No responses yet