大家好,我們的搞笑飛翔聊生活又來了,今天起我們一起來分享歷史知識,也許你可以得到意想不到的收穫哦。
Little和Rubin的教科書[5]中介紹了幾種處理缺失數據的分析方法。最常用的方法是當缺失數據是“完全隨機缺失”或“隨機缺失”時,用填補法估計缺失數據,書中有詳細的介紹。在Harrell的書[6]的第三章中,作者對缺失數據及缺失數據填補法進行了介紹,並給出缺失數據處理指南。下文介紹的逆概率加權法也可以用來處理缺失數據的問題。
感謝詹思延教授的授權!
利用現有觀察性數據進行療效比較研究時,通常需要細緻、複雜的分析策略來調整混雜因素。其中包括標準的分析策略,如傳統的多元迴歸模型法,也包括更復雜的分析方法,如傾向評分匹配和工具變量分析法。本章將介紹的統計方法涵蓋相對簡單的描述性統計分析以至更為複雜的統計方法,同時將對數據分析時重要的注意事項,如缺失數據、時依暴露和時依協變量的處理作介紹。
傳統的多元迴歸
傾向評分
工具變量
描述性統計/未校正分析法
校正分析法
既往研究者常在觀察性研究中使用傳統多元迴歸模型直接調整潛在混雜因素,在療效比較研究中這些方法同樣適用。在應用迴歸模型前,必須確保相應模型假設是成立的。
模型假設
當這些條件不滿足時,我們應當考慮其他的分析方案。迴歸法同樣存在缺陷,它可能會將結果外推到樣本數據以外的區域,其它分析技術如傾向評分(以下將做討論)則更容易診斷這個問題。
疾病風險評分
迴歸建模方法的選擇
如果研究結局是罕見二分類變量並且無時間變化趨勢,泊松迴歸可以用於估計相對危險度並獲得其置信區間。對計數資料,也可以使用泊松迴歸,但當結局的方差大於泊松模型的方差時,容易有過離散的問題。沒有考慮這個問題的話會低估標準誤。負二項迴歸模型可以幫助我們解決過離散這個問題。當出現的0值多於泊松或者負二項式模型預計時,可以使用零膨脹泊松模型和零膨脹負二項模型。
此時應根據研究問題和研究設計的具體情況選擇恰當的分析方法。每個研究對象的重複測量值可以綜合成一個簡單的度量。廣義估計方程(GEE)經常用於解決非獨立數據的問題。隨機效應模型如廣義線性混合模型(GLMM)是處理重複測量數據的另外一種方法。對配對設計研究(如病例對照設計),可以考慮使用條件Logistic迴歸模型處理數據。
對結局測量和隨訪評估建模方法的總結見下表。
表?根據結局變量的測量和隨訪評估的結構來建模的方法總結
ANOVA=方差分析;GEE=廣義估計方程;GLMM=廣義線性混合模型;MANOVA=多元方差分析
所有的分析技術,包括迴歸模型,都有基本假設。瞭解並評價這些假設條件是否滿足非常重要,否則對研究結果的解釋可能存在問題。假設條件的診斷技術沒有在此列出。在很多教材都介紹了這些內容。例如,使用Cox比例風險迴歸模型前,應評價是否滿足該模型的假設條件。如果假設條件不滿足,那麼可能需要考慮使用時依協變量分析數據。
時依暴露/時依協變量
在大多數療效比較研究中,暴露和協變量在整個隨訪期內保持不變基本上是不可能的。以抗反轉錄病毒療法治療的艾滋患者為例,抗反轉錄病毒療法的使用會隨着時間而改變,同時該療法在一定程度上取決於同樣隨着時間變化的CD4細胞計數水平。在研究質子泵抑制劑(PPI)是否能預防氯吡格雷相關的上消化道出血時,研究對象可能在研究開始後同時使用華法林。數據分析中是否應該考慮這個重要的混雜因素?如果在數據分析中沒有很好地處理這個時依暴露和混雜(例如,每個人都只用基線時的暴露狀態)會給結果帶來偏倚。
如上所述,對生存-時間研究的結局,時依Cox迴歸模型可以用來解釋隨着時間變化的暴露和協變量。但是,當研究關注的暴露和混雜都隨着時間而變化時,使用上述模型會有一定困難。在上面艾滋病患者的例子中,CD4細胞計數受治療措施影響,而其本身又影響着隨後的治療決策以及患者預後。在研究時依暴露因素對患者預後影響時,我們必須決定是否控制CD4細胞數量。CD4細胞計數既是一個混雜變量(因為同時和研究的暴露以及生存結局相關聯),又是一個所研究暴露到結局的中間變量。
此時通過時依Cox模型控制CD4細胞計數可能導致偏倚,因為它是一箇中間變量,控制後會弱化研究暴露與結局之間的關聯強度;但是如果不在模型中控制CD4細胞計數的話,則可能導致混雜偏倚。兩種分析方法都會導致偏倚。當一個變量既在治療措施到患者結局的因果鏈上,又影響後續治療和最終結局時,都會出現這類問題。
這些困難可以通過逆概率加權(IPTW)來處理。IPTW方法可以估計邊際結構模型的參數,而邊際結構模型則是一個預測反事實結局的模型。邊際結構模型/IPTW方法本質上是時依暴露下傾向評分加權的推廣。IPTW方法的假定為在每一個治療決定時,治療對結局的效應不受之前協變量和治療史產生混雜的影響。類似的加權法同樣可以用來分析缺失數據。?一些研究者已經在二分類和連續性結局、生存時間結局和重複測量數據分析中使用這種邊際結構模型。
在處理時依暴露時,另一個需要注意的是如何解釋在對象停止接受暴露後,暴露對結局的影響(如用藥的影響)。一種方法是依據暴露產生作用的生物學機制,合理創建暴露結束後的暴露殘留水平,並在分析時加上殘留暴露。另外一種方法是意向治療分析,這種分析法假定暴露狀態(如開始的治療)一直貫穿研究始終。
特別需要注意的是,Brookhart等指出在進行傾向評分調整時,納入傾向評分模型的協變量要麼是真正的混雜,要麼至少和結局相關;包含只與暴露相關的協變量會降低暴露與結局關聯估計的精度。
疾病風險評分是傾向評分的一種替代方法。和傾向評分一樣,疾病風險評分也是來源於協變量觀測值的一種綜合度量。然而,疾病風險評分將概率或者疾病發生率作為協變量的函數來估計。
疾病風險評分特別適用於結局常見而暴露罕見或多種可能暴露的研究。疾病風險和通過疾病風險評估效應改變的描述非常重要。Ray等利用疾病風險評估研究抗精神病藥物和心源性猝死,報道了在不同疾病風險評分分層下暴露因素關聯大小的不同。另外,由於多級暴露中可能存在一些罕見的暴露水平,此時疾病風險評分是傾向評分的一種很好的替代方法。
療效比較研究中有研究設計和分析策略帶來的侷限性,其中包括使用傳統多元迴歸,傾向評分和疾病風險評分,它們都不適用於信息不完整的情況,特別是在一些潛在的未被測量的混雜因素存在的情況。
通過工具變量,即使有未被測量混雜因素,根據干預措施對工具變量的影響和結局對工具變量的影響,就可以基本上排除已知和未知的混雜因素影響,算出暴露與結局的實際關聯強度。這種方法的困難之處就在於找到一個合適的、高質量的工具變量。
工具變量必須與混雜因素不相關;否則,工具變量分析可能造成偏倚。此外,除非通過治療,工具變量也不能影響結局。這種假設條件通常被稱為“排除性限制”。當排除性限制條件不滿足時,會對關聯強度估計造成偏倚。
工具變量必須和暴露因素相關。如果工具變量和暴露因素之間的聯繫很微弱,這種工具變量被稱為“弱工具變量”。使用弱工具變量得到的有限樣本的估計值性能很差,並且弱工具變量還有可能放大其它的偏倚。如果一個變量滿足以上那些條件,那麼它就可以用來估計干預措施對結局的因果效應。然而,這樣的一個變量有時會很難確定,甚至不可能找到。工具變量的確定不能完全憑經驗。
Brookhart等[3]使用此方法分析非選擇性COX-2抑制劑、非甾體類抗炎藥(NSAIDs)與胃腸道併發症的關聯。他們選擇的工具變量是醫生的處方習慣,即優先選擇COX-2抑制劑而不是非甾體類抗炎藥。此研究的統計結果和另外兩個臨牀試驗的結果類似,同時,他們也採用了傳統的多元迴歸進行了分析,但結果是相反的。
Schneeweiss等[4]分析在冠狀動脈旁路移植術時使用抑肽酶與患者死亡風險的關聯。他們的首選分析方法是傳統的多元迴歸。同時,他們也用傾向評分配對分析法和工具變量法。這三種分析方法得出了相似的結論。採用多種分析方法分析同一數據庫時,應仔細考慮如何選擇合理的分析策略。傾向評分匹配並不依賴於排除性限制和工具變量分析的假設條件,而一個好的工具變量分析避免了因未觀測到的混雜而引起的偏倚。當它們得出的結果不同時,應判別哪種分析方案的條件假設更為合理。
缺失數據注意事項
在療效比較研究中經常會有缺失數據。我們需要考慮缺失的程度及其對分析的潛在影響。在正式開始數據分析前,通過探索性數據分析描述產生缺失數據的原因是非常重要的。這一步可以為如何在正式分析時處理缺失數據提供一些幫助。
例如,假設血壓是一個潛在的混雜,但在重症受試者中缺失血壓的數據,則排除這些受試者進行數據分析將會產生偏倚。
參考文獻:
1.J?Clin?Epidemoil.2006 May;59(5):437-47.
doi: 10.1016/j.jclinepi.2005.07.004.Epub 2005 Oct 13.
2.CA:Stage?Publications;2008;155-76
3.Epidemiol,2006;17:268-75
4.NEJM,2008;358:771-83.
doi: 10.1056/NEJMoa0707571.
5.Statistical Analysis with Missing Data. 2nd edition. Hoboken, NJ: John Wiley & Sons; 2002.
6.Regression Modeling Strategies. New York: Springer一Verlag; 2001.
關注醫咖會,及時獲取最新統計教程
喜歡的小朋友一定要多多説説自己的意見,我們一起來討論,分享自己的觀點,説的不對的也要指出來