【統(tǒng)計(jì)不瘋狂】參數(shù)估計(jì)的一些小知識(shí)
當(dāng)我們談到統(tǒng)計(jì)學(xué)時(shí),總是離不開兩大塊內(nèi)容。一是統(tǒng)計(jì)描述,二是統(tǒng)計(jì)推斷。
其中經(jīng)常把研究生折磨得欲仙欲死的主要是統(tǒng)計(jì)推斷。統(tǒng)計(jì)推斷又包括兩個(gè)部分,一是參數(shù)估計(jì),二是假設(shè)檢驗(yàn)。今天我們主要學(xué)習(xí)的內(nèi)容是參數(shù)估計(jì),也就是你常常在文獻(xiàn)中看見(jiàn)的95% CI,95%置信區(qū)間。
一、基本概念
在開始學(xué)習(xí)參數(shù)估計(jì)前,我們要首先了解幾個(gè)基本概念,這些概念要爛熟于心。 作為一名醫(yī)學(xué)類研究生,我個(gè)人的經(jīng)驗(yàn)是有些概念的數(shù)學(xué)內(nèi)涵你可以不用深究,但是你要知道在什么場(chǎng)景下使用他,知其然不用知其所以然。
①統(tǒng)計(jì)量與參數(shù):統(tǒng)計(jì)量是指來(lái)自樣本的度量數(shù)據(jù),是一個(gè)變量。參數(shù)是來(lái)自總體的度量數(shù)據(jù),是一個(gè)常數(shù)。簡(jiǎn)單來(lái)說(shuō)就是看見(jiàn)樣本就要想到統(tǒng)計(jì)量,看見(jiàn)總體就記住是參數(shù)。統(tǒng)計(jì)學(xué)的基本任務(wù)就是利用樣本去推斷總體,也就是利用統(tǒng)計(jì)量去估計(jì)參數(shù)。
②抽樣誤差:是指統(tǒng)計(jì)量與總體參數(shù)之間的差異,或者是樣本統(tǒng)計(jì)量之間的差異。要記住,總體參數(shù)是一個(gè)未知的常量,而統(tǒng)計(jì)量是一個(gè)已知的變量。每一次抽樣都會(huì)得到一個(gè)不同統(tǒng)計(jì)量,這就叫做變異。
③標(biāo)準(zhǔn)誤standard error:實(shí)際上標(biāo)準(zhǔn)誤的數(shù)學(xué)含義就是標(biāo)準(zhǔn)差,反映數(shù)據(jù)的離散程度。唯一不同的是,標(biāo)準(zhǔn)誤特指多次抽樣的樣本統(tǒng)計(jì)量的標(biāo)準(zhǔn)差。它反映的是樣本均值的離散程度,即樣本均值對(duì)總體均值的代表性。如果上面的概念實(shí)在記不住,那有句話一定要記住——標(biāo)準(zhǔn)誤反映的是抽樣誤差的大小。
④t分布:一句話,t分布就是小樣本的正態(tài)分布。這句話可能有些偏頗,但是這樣記憶很好用。t分布實(shí)際上就是一種低配版的正態(tài)分布。在總體標(biāo)準(zhǔn)差未知且樣本量<30時(shí),需要用t界值來(lái)獲取置信區(qū)間。

⑤中心極限定理:對(duì)任意分布, 樣本含量足夠大時(shí)(一般是大于30例),樣本均數(shù)的分布近似于正態(tài)分布,樣本均數(shù)的均數(shù)等于原分布的均數(shù)。這絕對(duì)是統(tǒng)計(jì)學(xué)中最重要的定理,沒(méi)有之一(我個(gè)人評(píng)價(jià)哈)。中心極限定理雖然流氓但是非常好用。
二、點(diǎn)估計(jì)與區(qū)間估計(jì)
當(dāng)上述的知識(shí)儲(chǔ)備學(xué)習(xí)完成后,后面的參數(shù)估計(jì)的內(nèi)容就非常簡(jiǎn)單啦,所以朋友們一定要反復(fù)體會(huì)前面的幾個(gè)基本內(nèi)容噢。
(一)點(diǎn)估計(jì)
點(diǎn)估計(jì)就是直接利用樣本量的數(shù)值來(lái)估計(jì)總體參數(shù)。這個(gè)方法肉眼可見(jiàn)的粗糙,我們略過(guò)不講,基本上不會(huì)用到。
(二)區(qū)間估計(jì)
區(qū)間估計(jì)是按一定的概率(1-α)用一個(gè)區(qū)間范圍來(lái)估計(jì)總體,這個(gè)范圍稱作可信度為(1-α)的可信區(qū)間或置信區(qū)間confidence interval。置信區(qū)間CI通常由兩個(gè)數(shù)值即置信限confidence limit,CL構(gòu)成。
實(shí)際上區(qū)間估計(jì)就是講樣本統(tǒng)計(jì)量與標(biāo)準(zhǔn)誤結(jié)合起來(lái),確定一個(gè)范圍,這個(gè)范圍就是總體參數(shù)的置信區(qū)間。主要的計(jì)算方法要分為3種情況:
①總體標(biāo)準(zhǔn)差已知:在實(shí)際應(yīng)用中幾乎不存在這種情況。
②總體標(biāo)準(zhǔn)差未知,樣本量n較小,用t分布法:

③總體標(biāo)準(zhǔn)差未知,n足夠大(>30),用正態(tài)近似法
實(shí)際上就是用z界值代替上面的t界值。

上述的圖表一定要牢記在腦海里,如果實(shí)在記不住,也要記住一個(gè)數(shù)字——1.96,是把握度95%時(shí)雙側(cè)檢驗(yàn)的z界值,可利用這個(gè)界值來(lái)獲取置信區(qū)間的上下限。