|
重復觀測數據的相關分析
第三軍醫大學學報1999年第21卷第12期
王文昌 張蔚 易東 冷懷明 許汝福
提 要 目的:本研究將建立重復測量數據的相關分析技術。方法:利用半參數回歸分析的原理與方法,結合重復觀測數據的特點,建立重復觀測數據的半參數回歸模型,剔除重復因素的影響後,建立重復測量數據的相關系數公式,並討論了相應的假設檢驗問題。結果:給出了一個具體的實例,計算得其相關系數為r=0.3645,P>0.05,與分別在各個重復點上計算得到的線性相關系數是吻合的。結論:結果表明對重復觀測數據進行相關分析時,所建立的方法是有效的、實用的,並且效果優于普通的最小二乘法和廣義最小二乘法。
關鍵詞:重復測量數據 相關分析 半參數回歸
重復觀測數據廣泛存在于醫學研究中,對重復測量數據進行相關分析無論在理論上還是實踐上都有重要意義。假設在研究總體中隨機地選出n個受試對象,分別對每個對象按一定的時間間隔重復測量p次,得觀測值(Xij,Yij,i=1,2,…,n,j=1,2,…,p。這種觀測數據稱為縱向重復測量數據。由于對同一對象進行重復測量,因此其數據間存在自相關性,當對其進行相關回歸分析時,通常的最小二乘法將失效﹝1﹞。前不久,我們運用統計學中才興起的半參數回歸方法﹝2,3,4﹞研究了此類數據的回歸分析問題﹝5﹞,建立了對其進行處理的半參數回歸模型,討論了模型的參數估計及假設檢驗等問題。本文將對重復測量數據的相關程度進行定量描述,並研究了相應的假設檢驗問題。
1 原理與方法
我們對縱向重復測量數據建立了如下半參數回歸模型﹝5﹞:
(1)
其中b為模型參數,主要反應了X對Y的影響。X= 為X的平均數。g(j)為未知函數,主要反應了重復測量的效應。εij~N(NULL,σ2)為隨機誤差且相互獨立。對模型中的參數及未知函數可作如下估計:
(2)
(3)
其中,
最後,可用表1的方差分析表對模型進行假設檢驗。
表1 模型(1)的方差分析表
tab 1 Table of ANOV about Model (1)
| Variant source |
SS |
v |
MS |
F |
| Total |
? |
np-1 |
| Regression |
? |
1 |
SSreg/Vreg |
MSreg/MSerr |
| Repeated |
? |
p |
SSrep/Vrep |
MSrep/MSerr |
| Residual |
? |
np-p-2 |
SSerr/Verr |
|
其中 事實上, 為原始數據消除了重復因素所導致的自相關性後所得的序列,因此 與 間的相關性才能準確地反應原始數據消除重復因素的影響後的相關性。于是根據表1,我們可定義原始數據(Xij,Yij)的相關系數如下: (4)
對相關系數r的假設檢驗方法與線性相關系數的假設檢驗相同。
2 實例
表2為某幼兒園9名幼兒連續3年的體重與身高數據。文獻﹝6﹞曾分析得受試對象內殘差相關是顯著的,並且斷言使用普通最小二乘法得到的體重與身高數據的回歸系數 的標準誤將高估真實的標準誤,于是在文獻﹝6﹞中對 的標準誤進行調整後,得到對 的假設檢驗的t值為6.2667,同時採用廣義最小二乘法也得到r=9.9808,進一步說明了對 的假設檢驗是顯著的,即幼兒身高與體重有顯著關系的結論。事實上,我們分別對1991年、1992年、1993年數據進行相關分析,則3個r值分別為:0.4891、0.2377、0.3878,其相應的P值均大于0.05。也就是說,對此資料而言,如果剔除年齡因素的影響,幼兒的身高與體重應該是無關的。
表2 某幼兒園幼兒的體重與身高
tab 2 Height and weight of infants
| Number |
|
Observation date |
| 6/7/1991 |
25/5/1992 |
24/5/1993 |
| 1 |
X(cm) |
105.0 |
113.7 |
120.0 |
| Y(kg) |
16.3 |
18.7 |
19.7 |
| 2 |
X(cm) |
102.5 |
110.3 |
117.0 |
| Y(kg) |
16.2 |
20.3 |
23.5 |
| 3 |
X(cm) |
104.5 |
110.4 |
117.7 |
| Y(kg) |
15.81 |
18.4 |
20.4 |
| 4 |
X(cm) |
109.8 |
117.1 |
124.4 |
| Y(kg) |
16.1 |
18.6 |
21.0 |
| 5 |
X(cm) |
103.8 |
110.0 |
112.0 |
| Y(kg) |
17.0 |
19.0 |
18.55 |
| 6 |
X(cm) |
106.0 |
113.7 |
120.7 |
| Y(kg) |
16.1 |
17.8 |
19.3 |
| 7 |
X(cm) |
110.3 |
115.8 |
123.7 |
| Y(kg) |
20.3 |
24.3 |
27.9 |
| 8 |
X(cm) |
103.0 |
110.5 |
116.2 |
| Y(kg) |
17.3 |
19.7 |
21.6 |
| 9 |
X(cm) |
106.9 |
113.1 |
121.0 |
| Y(kg) |
17.0 |
18.7 |
19.1 |
我們現用模型(1)來討論表2中的數據,則有: =0.25236, (1)=18.6349, (2)=19.4477, (3)=19.5463。並對其半參數回歸模型進行假設檢驗得到:對回歸系數,P>0.05;對重復因素,P<0.01,即就此資料而言,如果排除年齡因素的影響後,由于幼兒的體重變異遠遠大于身高的變異而掩蓋了身高對體重的影響,幼兒的身高與體重是無關的,而對體重影響的主要因素為年齡因素,這與分別在各時間點上對身高與體重的相關分析結果是吻合的。更進一步地,我們用本文方法計算在此3年中,剔除年齡因素後,幼兒身高與體重的線性相關系數為r=0.3645,與分別計算得到的相關系數較為接近,相應的P>0.05,也說明了對此資料而言身高與體重是無關的。
3 討論
對重復測量數據進行回歸分析時,由于數據間的自相關性,一般的最小二乘法將失效。事實上,在文獻﹝6﹞中無論是採用對標準誤進行調整還是採用廣義最小二乘法均得到了與實際資料所顯示的信息不相符的結果。此實例的結果顯示,半參數回歸分析用于處理重復測量數據時的效果優于普通的最小二乘法和廣義最小二乘法。
對重復測量數據作相關分析時,應考慮重復因素所導致的數據間的相關性。一般來說,重復因素所導致的相關性是比較顯著的,如果不剔除重復因素的效應,將有可能誇大指標間的相關程度。
對重復測量數據作相關分析在實際中有著重要的意義。一般的模型僅能解決指標間有無相關性問題,而不可能對相關程度作出定量的描述。雖然模型的P值從某個角度來說能反映指標間的相關程度,但不利于實際分析使用。我們這裡所導出的重復測量數據間的相關系數能真實地反應重復測量指標間的相關程度,無論是在理論上還是直觀上它都是與線性相關系數一致的。
基金項目:國家自然科學基金資助項目(39870691)
foundation item: National Natural Science Foundation of China(39870691)
作者簡介:王文昌,男,1970.02.03生,貴州省大方縣人,碩士,講師,主要從事衛生統計方面的研究,發表論文6篇。電話:(023)68752343
作者單位:王文昌 張蔚 易東 許汝福:第三軍醫大學:高原醫學系醫學統計學教研室; 冷懷明:學報編輯部;重慶 400038
參考文獻
﹝1﹞ 陳希儒,王鬆桂.近代回歸分析----原理方法及應用﹝M﹞.合肥:安徽教育出版社,1987.91-105.
﹝2﹞ 高集體,洪對岩,梁 華,等.半參數回歸模型研究的若幹進展﹝J﹞.應用概率統計,1994,10(1):96-103.
﹝3﹞ 洪聖岩.一類半參數模型的估計理論﹝J﹞.中國科學(A輯),1991,12(12):1258-1272.
﹝4﹞ 王文昌,易 東,許汝福,等.季節性時間序列資料預測的半參數回歸模型﹝J﹞.中國衛生統計,1997,14(6):4-7.
﹝5﹞ 王文昌,易 東,張 蔚,等.重復觀測數據的半參數回歸分析﹝J﹞.中國衛生統計,1999,16(4):200-203.
﹝6﹞ 趙景波,李 康.重復觀測值線性回歸分析及其在醫學中的應用﹝J﹞.中國衛生統計,1995,12(2):18-19.
|