面板數據分析中標準誤的估計修正
眾所周知,在進行標準二乘線性無偏估計的時候,我們假設殘差項是獨立同分布的(independent and identically distributed, i.i.d.)。而一旦此假設在實際數據中被打破,則估計就會出現偏誤( bias )。Peterson指出,在過去的很多實證金融文獻中,很多研究者實際上并沒有正確地選擇合適的方法,根據殘差項與時間或者企業的相關性來修正標準誤,或者它們只是盲目地跟從在他們之前其他文獻中的方法來修正偏誤,而事實上這可能完全是互相誤導。錯誤的標準誤會導致在判斷變量顯著性的時候給出不可靠甚至錯誤的結論,從而使得研究的可信度大打折扣。Peterson在文章當中對不同的面板數據結構所應采用的標準誤估計方法做出了考察和比較。
在下文中,我將延續Peterson的文章思路,針對不同面板數據的結構進行總結與歸納。為編輯方便以及提高文章可讀性,我省略了數理推導,而改用文字直接闡述邏輯及結論。
1. 只具有“企業固定效應”(firm fixed effect)的面板數據
首先我們明確什么叫企業固定效應。面板數據一般是二維的,具有時間和對象兩種要素。對象可以是個人、企業、國家等等。為了簡化文義,我們將對象改稱為企業,因為這也是金融實證數據中最為常見的對象。企業固定效應指的是,在面板數據的時間維度上,每一個個體企業都具有一個特有的特征能影響被解釋變量,而且這個特征會在整個時間維度上伴隨著這個企業,并且獨立于其他企業,換言之,不受其他企業影響。比如某個企業的管理能力是伴隨著這個企業的一個特征,它不受其他企業影響,并且在有限的時間維度內可以假設不變。
Peterson指出,在這種情況下,OLS的標準誤會被低估,因為每一個額外觀測值所能提供的真實信息量要小于OLS模型所假設具有的信息量。在這種情況下,研究者應采用群集標準誤(clustered standard errors),并且根據企業來群集。簡單地講,企業群集標準誤把同一個企業的變量在不同的時間點可能存在的相關性考慮進去了,從而提供一個修正了的標準誤。Peterson的論證指出,企業群集標準誤在處理具有企業固定效應的面板數據中的有效性是突出且可靠的。
除此之外,采用其他方法來估計標準誤可能會有潛在的問題產生。比如,OLS估計的標準誤會是有偏的,至于偏誤多少,則取決于殘差和變量存在多大的相關性。又如,用Fama-MacBeth兩階段回歸的方法也會產生偏誤(標準誤被低估),而且因為F-M方法的計算手段的關系,F-M會比OLS具有更大的偏誤。F-M的方法是被設計用于考慮橫截面相關的(在同一時點上不同觀測對象之間的相關性),而非序列相關(同一觀測對象在不同時點上的相關性),因此用在這里不合適。再如,用Newey-West的方法也會造成標準誤的低估。Newey-West的方法在于只考慮在同一群集內滯后期的殘差之間的相關性,而***的滯后期是比面板數據所提供的時間維度小1。Peterson的實驗發現,隨著滯后期的上升,Newey-West的偏誤會逐漸減小,但因為***滯后期的限制,其永遠無法消除估計上的偏誤。
2. 只具有“時間效應”(time effect)的面板數據
同樣的,先明確什么是時間效應。簡而言之,指的是在同一時點上的不同企業的變量之間存在著相關性。這可能由比如宏觀經濟狀況等某種外部因素所導致的,而這種因素會影響同一時點上的所有企業,但在跨時期中會出現獨立變化。
Peterson發現,當面板數據存在時間效應時,普通最小二乘估計依然會低估標準誤。而根據時間來群集的群集標準誤則可以提供相對準確的估計,但這只局限于當時間維度(即面板數據可提供的時點數)很大的時候。比如,當數據中只有很少的幾個年份的時候,群集標準誤也顯得不夠準確。
Peterson指出,在這種僅有時間效應的情況下,最理想的方法應當是采用Fama-MacBeth兩階段回歸法來估計標準誤。簡而言之,先對每一個企業的時間序列進行回歸,得到beta系數后,再將beta系數作為已知變量再進行橫截面數據的回歸。這種方法的要義在于,通過***步來得到每個企業受各個變量影響而導致的超額收益,而其中還有一部分沒有觀測到的影響因素則受時間變化而變化,因此在第二步的回歸中,對同一時點上的所有企業做橫截面數據回歸,從而找出這些因素的影響,而這就是時間效應之所在。
3. 同時具有“企業效應”和“時間效應”的面板數據
根據前文所述,如果研究者有足夠的把握選取某一種方法(群集標準誤或者F-M法)來估計標準誤,她必須要保證面板數據只存在企業效應或者時間效應,而非同時存在兩種效應。但往往這是一種太過于理想化的假設。
Peterson指出,一種最通常的方法是:對某一個維度使用虛擬變量(dummy variable),然后使用另一維度的群集標準誤。一般在研究中比較常見的是,對時間取虛擬變量,然后做企業的群集標準誤,因為一般的面板數據都具有許多個企業,但未必有足夠多的時間點用來做時間群集標準誤。
再者,也可以在兩個維度上做群集,只要每個維度的數量足夠多。在這種方法上,Thompson(2006)提出了一種簡便的算法,即:
V_{firmtime}=V_{firm}+V_{time}-V_{white}
二維標準誤 = 企業群集標準誤 + 時間群集標準誤 – 穩健標準誤
其中穩健標準誤即為懷特標準誤(White standard errors),也是在處理異方差時最常用的穩健標準誤。
4. 結語
以上是面板數據中最基本的幾種效應的處理方法,但在實證中,有些情況會比較復雜。比如Peterson提到,有些時候企業效應是暫時性的,即隨著時間的推延,某些影響因素會漸漸消退。廣義線性估計(GLS)可以比較有效地估計隨機效應模型,但是如果殘差間的相關性隨著時間變化而消退,那么GLS的估計可能也是有偏的。對此,Peterson提出使用調整了的F-M方法來進行處理,但前提是殘差間相關性的消退應比較迅速,并且面板數據的時間維度要足夠充足。
此外在實證研究中,研究者還可以對使用不同群集所產生的標準誤的估計進行簡單的比較,從而判斷出數據中主要的效應是在哪個維度上,然后再采用合適的方法對其進行修正處理。
參考文獻:
Peterson在其個人網站上提供了在Stata及SAS中獲得文中提到的各種標準誤估計的代碼:Programming Advice
36大數據知識圖譜:
面板數據,即Panel Data,也叫“平行數據”,是指在時間序列上取多個截面,在這些截面上同時選取樣本觀測值所構成的樣本數據。
其有時間序列和截面兩個維度,當這類數據按兩個維度排列時,是排在一個平面上,與只有一個維度的數據排在一條線上有著明顯的不同,整個表格像是一個面板,所以把panel data譯作“面板數據”。但是,如果從其內在含義上講,把panel data譯為“時間序列—截面數據” 更能揭示這類數據的本質上的特點。也有譯作“平行數據”或“TS-CS數據(Time Series – Cross Section)”。