黃文政老師對網(wǎng)友咨詢統(tǒng)計學論文的回答
許多網(wǎng)友向我咨詢黃文政老師20年前那篇統(tǒng)計學論文,我把大家的學習需求轉(zhuǎn)達給了黃老師。黃老師在百忙之中專門寫了以下文字。希望能夠幫助到對統(tǒng)計學理論感興趣的同學們。

謝謝翟老師問起我離開學術(shù)界時那篇論文的詳情。那篇文章是我博士論文的總結(jié)和拓展。我博士論文導(dǎo)師Richard Royall收到看完后甚為激動,而我任教所在系的系主任Nan Laird則稱之為“tour de force"。論文的審稿時間長達一年,兩位評審者中,一位非常正面,一位非常負面,而associate editor偏負面,所以最后沒有接受這篇論文。雖然那時我在JASA和JRSS-B上發(fā)過幾篇理論性文章,但這篇是我最寄予厚望的,花費的時間比其他所有文章加起來都多,所以它被拒絕讓我深感失望。接到拒絕信一個月后,我就離開了學術(shù)界,之后一直忙于其他事務(wù),未再重新投稿。雖然過去快20年,但我認為文章的要點應(yīng)該還是成立的,未來如果還有時間和精力,我也許還會考慮文章是否有修改和重投的價值。
這篇文章涉及統(tǒng)計學的一些基本概念。了解統(tǒng)計學的人知道,統(tǒng)計學有三大流派:頻率派、貝葉斯派和似然派。這三個流派中,最邊緣的是似然派,而我的導(dǎo)師Richard Royall算是這一派的主要倡導(dǎo)者之一。似然派的主要觀點是,似然函數(shù)充分表達了所有的統(tǒng)計證據(jù),因此所有統(tǒng)計推斷應(yīng)該完全基于似然函數(shù)。相比之下,頻率派則根據(jù)統(tǒng)計模型來估算觀察到比實際數(shù)據(jù)更極端的概率,也就是p值;這個值越小越是模型參數(shù)值不滿足零假設(shè)越強的證據(jù),與此相關(guān)的還有置信區(qū)間的概念。而貝葉斯派則視參數(shù)本身為隨機數(shù),在觀察到數(shù)據(jù)之前服從某種先驗分布,該派將統(tǒng)計證據(jù)表達為根據(jù)觀察數(shù)據(jù)修正后的參數(shù)后驗分布。
似然派對頻率派和貝葉斯派有諸多批評。比如,頻率派里的p值或置信區(qū)間在條件性終止規(guī)則等情況下可能導(dǎo)致自相矛盾的解釋。又比如,貝葉斯派的參數(shù)先驗概率分布使用了數(shù)據(jù)以外的信息,而一般情況下我們也無法定義無信息的先驗概率分布。但似然派只有在模型是有限維參數(shù)化的情況下才表現(xiàn)完美。當參數(shù)維度隨數(shù)據(jù)增長,基于似然函數(shù)的估算不一定收斂于真值,即不滿足一致性。對非參數(shù)模型,我們甚至可能無法寫出似然函數(shù)。
我那篇文章提出無偏性廣義似然函數(shù)的概念,也就是說任何一個有關(guān)參數(shù)的函數(shù),只要它滿足我提出的無偏性等式,那么它就可以被認為是一個有效的廣義似然函數(shù)。我進一步把這個等式擴展到近似形態(tài)來定義各階無偏性。我發(fā)現(xiàn),合理的統(tǒng)計推斷最終都可以歸結(jié)于是否滿足無偏性或者近似無偏性。像全似然函數(shù)、條件似然函數(shù)以及之前難以歸類的Cox模型中的部分似然函數(shù)都滿足嚴格的無偏性,而廣義估計方程等基于非參數(shù)模型的推斷方法則滿足近似無偏性。在非常寬泛的條件下,一階無偏性蘊含統(tǒng)計量的一致性,即隨著在數(shù)據(jù)增加,統(tǒng)計量收斂于真值,而二階無偏性則蘊含統(tǒng)計量的漸進正態(tài)性,即統(tǒng)計量對參數(shù)刻畫的偏差近似于正態(tài)分布。這些是確保統(tǒng)計推斷具有合理性的關(guān)鍵條件。文章可以認為是以單一框架來看待統(tǒng)計學三個流派的一個嘗試。
從模型的角度來看,我把對數(shù)據(jù)的任何參數(shù)性刻畫都看成廣義似然函數(shù)。最粗糙的廣義似然函數(shù)就是數(shù)據(jù)本身,即視每個數(shù)據(jù)記錄本身為一個參數(shù),將參數(shù)耦合起來則是對數(shù)據(jù)賦予結(jié)構(gòu)的降維過程,而無偏性則確保參數(shù)耦合過程的有效性。在我看來,一個統(tǒng)計模型就是一個滿足無偏性的廣義似然函數(shù),不同模型反映的只是刻畫和呈現(xiàn)數(shù)據(jù)的不同視角,因此不存在模型的對錯問題。我將這個態(tài)度歸結(jié)于一句話,即所有模型都是正確的,在無偏性下做出的估算都是有效的。這聽起來有點離經(jīng)叛道,因為現(xiàn)代統(tǒng)計學最基本的態(tài)度是所有模型都是錯誤的。
這個對立體現(xiàn)了不同的認知態(tài)度。如果把統(tǒng)計模型看成對研究對象的認知模式,現(xiàn)代統(tǒng)計學所謂所有模型都是錯誤的態(tài)度,與認識外部世界的經(jīng)典科學觀是一致的,也就是說假設(shè)存在一個獨立于我們觀察者的外部“真實”世界,我們的認識可以逐步接近,但永遠無法完全掌握“真實”世界。而我的態(tài)度則是,既然我們永遠無法掌握“真實”世界,我們根本就沒有必要模型是錯誤的結(jié)論。
統(tǒng)計模型只是我們描述研究對象的框架,不同模型只是我們描述或者總結(jié)數(shù)據(jù)的不同視角,我們關(guān)心的是某個視角是否能幫助我們了解我們關(guān)注的問題并做出相應(yīng)決策。我們可以說這個視角是否深入或全面,但不能說它是對正確還是錯誤。這里所謂深刻和全面只是反映我們的推斷是否充分、準確而簡潔地表達了我們對研究對象的認識和觀察的數(shù)據(jù)。將這個看法在時間和樣本空間上延展,認識和數(shù)據(jù)則包括我們對根據(jù)模型所做的預(yù)測與校驗。
這個態(tài)度源自我的一個基本理念,就是人類是所處世界的一部分,所以人類永遠不應(yīng)該以全能全知的姿態(tài)來看待世界。不管我們的認識多么深刻和全面,我們對世界的理解永遠是局域而不是全域的。因此,我們需要接受人類認識的這種局限性,這不是因為我們認識不足,而是我們永遠無法自外于這個世界。在終極意義上,這可能源自我認同的中國文化中那種天人合一的觀念,也就是我們和我們周圍的世界是一體的,因此我們永遠不應(yīng)該以一種外在的,全能全知的視角來看待我們所處的世界。
在2014年,有位朋友曾轉(zhuǎn)發(fā)一篇涉及科學思維的文章讓我評論。我當時寫了一個詳盡的回應(yīng),因為其思路與我上面提及的相關(guān),所以我把當時的回應(yīng)略作修改附上,算是對我那篇未發(fā)表論文的某種通俗性的注解。
《我們思想的風箏是否需要被無形的手束縛?》
黃文政? 2014年9月23日
謝謝你發(fā)來的文章。確實,按經(jīng)典科學思維來理解量子力學可能很反直觀,但如果從信息交流的角度來理解則會自然一些。因此,你轉(zhuǎn)發(fā)的文章認為信息交流可能才是真正理解世界的鑰匙。簡單來說,真實世界存在的意義,在于我們可以與其進行信息交流。脫離這種交流,世界存不存在并沒有意義。這種思想是非常自然的發(fā)展,與我之前提到的我對統(tǒng)計學的基本問題的思考方向是一致的。
比如統(tǒng)計學中的獨立同分布是一個基本的假設(shè),在統(tǒng)計學主要定律中無所不在。但要驗證這個假設(shè)幾乎不可能,因為生成數(shù)據(jù)的聯(lián)合分布函數(shù)需要在樣本空間上嚴格滿足一系列等式才能確保獨立同分布成立。一個如此關(guān)鍵的假設(shè)卻不能被驗證是一個非常嚴重的問題。 但如果從我們獲得的數(shù)據(jù)信息角度來看,獨立同分布卻是自然不過的假設(shè),因為它可以由數(shù)據(jù)信息的對稱性推導(dǎo)出來。
假設(shè)一個研究者給了我們11個數(shù)字:123, 150, 129,? 92, 156, 141, 132, 113,? 78, 126,? 69,并告訴我們這是11個未成年人的身高(厘米數(shù))。如果這11個數(shù)字的順序沒有意義,那么我們對這11個數(shù)字所做的任何推斷應(yīng)該與順序無關(guān)。也就是說如果我們把這11個數(shù)字順序重置,那么針對這些數(shù)據(jù)得出的結(jié)論應(yīng)該維持不變。這相當于假設(shè)這11個數(shù)字滿足順序置換對稱性,而獨立同分布則是這種對稱性的衍生結(jié)果。這意味著,獨立同分布是我們根據(jù)觀察數(shù)據(jù)所能做的表述。使用這個模型不是因為它正確,而是因為它充分表達了我們對要了解的對象所掌握的信息。
針對上面11個數(shù)字,我們可以計算得出均值(119)、標準差(27.123)、最小值(69)、中值(126)、最大值(156)或者任何分位數(shù)等統(tǒng)計量,所有這些統(tǒng)計量與數(shù)字的排列順序無關(guān),也就是滿足對稱不變性。從統(tǒng)計學角度來說,我們可以在獨立同分布的假設(shè)下來探討這些統(tǒng)計量的各種性質(zhì),并據(jù)此判斷這些統(tǒng)計量的好壞。
再進一步,假設(shè)在這11個測量數(shù)字以外,研究者又給了我們11個額外數(shù)字,并告訴我們這是之前11個未成年人的年齡,讓我們研究未成年人身高與年齡的關(guān)系。我們對這11個未成年人的年齡與身高數(shù)據(jù)畫一個散點圖,發(fā)現(xiàn)年齡大的人身高一般也更高。那么在給定年齡數(shù)字之后,我們還能假設(shè)數(shù)據(jù)滿足獨立同分布假設(shè)嗎?
大部分統(tǒng)計學者可能會覺得,因為有了更多的數(shù)據(jù),原來的獨立同分布就不合適了。而我的態(tài)度則是,有了年齡數(shù)據(jù)并不意味著之前使用的模型就是錯誤的;我們依然可以計算并呈現(xiàn)之前的統(tǒng)計量并得出相應(yīng)的判斷,比如均值是119。我們不能說之前的模型是錯誤的,只能說那個模型不足以幫助我們來了解這組未成年人的身高如何隨年齡變化。
更進一步,在給定年齡數(shù)字之后,我們針對身高隨年齡的變化是應(yīng)該使用線性函數(shù),二次函數(shù)還是其他形式的函數(shù)呢?大部分統(tǒng)計學者的做法是,嘗試不同的函數(shù)形式,從中找出看起來擬合較好相對又比較簡潔地函數(shù)形式,并認為這是接近“真實”的模型。而我的態(tài)度則是,我們可以使用任何函數(shù),不同函數(shù)形式只是我們呈現(xiàn)數(shù)據(jù)的不同視角。比如,雖然二次函數(shù)可能擬合得更好,但我們根據(jù)線性函數(shù)估算出比如年齡每大一歲,身高平均要高10厘米的結(jié)論并不能說是錯誤的。我們最多只能說身高增長隨年齡變化不是均勻的,平均年增10厘米的結(jié)論不足以反映這種非均勻性。
有人會問,如果數(shù)據(jù)顯示身高隨年齡增加,那么使用一個讓身高隨年齡萎縮的模型那不就是錯了嗎?這個說法其實是不對的,因為如果假設(shè)的模型強迫身高隨年齡萎縮,那么估算的參數(shù)就會是空集,而在空集里的任何陳述都沒有對錯之分。有人還會說,模型是否正確依然是有意義的,因為我們可以比較不同模型的預(yù)測結(jié)果,那些預(yù)測更準確的模型更接近“真實”。這個說法聽起來很有道理,但其實只要把所有預(yù)測驗證結(jié)果也視為數(shù)據(jù)的一部分,那么這個說法與我說的就沒有任何矛盾之處。
總而言之,我認為所謂模型正確不正確并沒有意義,有意義的是對信息的表達是否充分,以及這種表達具有的結(jié)構(gòu)能否被用來向外拓展而涵蓋更廣的未知空間。我們可以把“真實”狀態(tài)視為我們在思維中構(gòu)造出來的一個極限狀態(tài),其最終目的是幫助我們來認識這個世界,并做出相應(yīng)決策。但如果這個構(gòu)造出來的極限狀態(tài),讓我們對信息的表達更繁瑣,讓我們的理解框架變得支離破碎,那為何不完全放棄這個構(gòu)造,而從純粹的信息處理的角度來理解整個認知過程呢?
如果這種“真實”的狀態(tài)本身無法驗證,那么談?wù)撃P偷恼_和錯誤本身也就失去了意義。既然可以說所有模型都是錯誤的,那也應(yīng)該可以說,所有模型都是正確的,不同模型不過只是我們看待數(shù)據(jù)的不同視角。
有人會問,為什么不可以把“真實”世界當成一個終極意義的理想模型呢。在這種思維下,“真實”世界至少在理論上是存在的。這種觀點的邏輯在于,既然所有的認知都可以表達為模型,為何不能假設(shè)存在一個真實的模型,而隨著我們針對研究對象的信息積累和對信息的構(gòu)造變得更加深入而無限逼近這個“真實”世界。這其實是科學主義和理性哲學的基礎(chǔ),也是過去幾百年來經(jīng)典科學領(lǐng)域的主流思想。
但在我看來,這其實是對認知過程強迫性地設(shè)定了一個結(jié)構(gòu)。如果我們把對數(shù)據(jù)的觀測和根據(jù)觀測數(shù)據(jù)所構(gòu)造的模型(也就是信息的收集和根據(jù)信息來認知外部世界的思想體系)當成一個信息交流的過程,那么我們其實是在假設(shè)這個交流過程最終會收斂到一個“真實”世界上去。這意味著,在對外部表述的這樣一個廣大的可能空間上,我們假設(shè)它在無限遠處是一個點而不是一個面。
這顯然是一個非常嚴厲的假設(shè),可能是對信息交流和認知程加上了一個無形的枷鎖。正是由于這個枷鎖的存在,我們目前用來表述物理世界的模型,比如量子場論乃至金融市場機制等變得可能反直觀,對相關(guān)現(xiàn)象的表述變得支離破碎了。也就是說,我們把一個本來可能是發(fā)散的認知過程強制性地設(shè)定為收斂的,并在這個基礎(chǔ)上來理解世界。做一個簡單且直觀的比喻,這就像人類思想本來可以在無窮無盡的空間里翱翔,但自己卻把思想的終點固定到了一個無窮遠處的極點上。如果把這個無限遠處的極點比喻成一只牽著線的手,那么我們的思想就成了永遠被這只手所牽引和束縛著的風箏。