|
百分位數的可信區間估計
中國衛生統計1999年第16卷第3期
陳健美 陳峰
關鍵詞:百分位數 Bootstrap法 可信區間估計
百分位數(percentile)是用于描述計量資料尤其是偏態分布資料極為常用的指標體系。如用于允許區間的估計,變異度的描述,百分位數回歸等。但百分位數本身亦存在抽樣誤差,有必要對其進行區間估計。本文介紹百分位數的bootstrap區間估計,並與二項分布近似法進行比較。
一、Bootstrap法
它是以原始數據為基礎的模擬抽樣統計推斷法,其基本思想是:在原始數據的範圍內作有放回的再抽樣,樣本含量仍為n,原始數據中每個觀察單位每次被抽到的概率相等,為1/n,所得樣本稱為bootstrap樣本。于是可得到參數θ的估計值θ(b),這樣重復若幹次,記為B。設B=1 000,就得到該參數的1 000個估計值。當θ(b)的頻數分布近似正態分布時,以其均數作為點估計,用正態原理估計可信區間;當θ(b)的頻數分布為偏態時,以其中位數作為點估計,以上、下2.5%分位數作為其95%可信限。
二、二項分布近似法:
根據二項分布原理按下列公式分別求可信區間上下限的百分位x%。

其中n為樣本量,uα為標準正態分布的分位數,p為所求總體百分位數的百分位。然後按公式

分別求出相應百分位數的可信區間。
三、實例分析
取文獻〔3〕中資料(表1),其中生存時間為正偏態分布,計算5%、50%、95%百分位數為P5=3.73,P50=10.11,P95=69.86。我們首先用bootstrap法來估計以上幾個百分位數的可信區間。步驟為:在26個個體(編號為1,2,…,26)中作有放回的抽樣,每個個體被抽到的概率為1/26,抽樣次數仍為n=26,這可以用計算機產生1~26的均勻分布的隨機數,相應的編號即為抽中的個體,由這些個體組成的樣本就是一個bootstrap樣本。如此重復B次(分別取B=200,500,1 000,1 500,2 000)可算得 、 、 ,b=1,…,B。從其頻數分布可知是偏態分布,故以上、下2.5%分位數作為其95%可信限,結果見表2。在整個計算過程中,只是重復地抽樣,重復地計算各樣本百分位數,根據其頻數分布的分位數即得到了可信區間,無需繁雜的數學推導。
表1 26例漿液性卵巢上皮癌患者的生存時間
|
1.00 |
2.50 |
4.50 |
7.50 |
9.50 |
|
11.50 |
12.50 |
14.50 |
15.00 |
15.00 |
|
17.50 |
18.50 |
24.00 |
24.00 |
25.20 |
|
32.70 |
36.00 |
36.00 |
43.00 |
44.00 |
|
46.00 |
69.00 |
70.00 |
83.40 |
83.50 |
|
156.00 |
|
|
|
|
表2 總體百分位數的可信區間
|
|
bootstrap法 |
二項分布法 |
|
B=200 |
B=500 |
B=1 000 |
B=1 500 |
B=2 000 |
|
P5 |
3.40~4.02 |
3.40~4.03 |
3.40~4.03 |
3.40~4.09 |
3.40~4.09 |
3.40~4.10 |
|
P50 |
7.57~12.48 |
7.60~13.99 |
7.64~14.16 |
7.64~14.83 |
7.64~14.83 |
7.64~5.00 |
|
P95 |
21.89~31.33 |
24.55~124.17 |
25.65~124.17 |
27.05~124.17 |
27.17~124.17 |
27.18~24.17 |
四、討論
1.bootstrap法估計的誤差是多少?bootstrap統計量的抽樣誤差包含了兩個部分,一是原樣本(經驗分布)的抽樣誤差SF;二是bootstrap再抽樣誤差S(1)B。當B充分大小時,bootstrap再抽樣誤差就趨于消失,bootstrap估計的誤差就接近抽樣誤差。B要取多大?據Efron〔5〕提出,B的大小與原分布有關,一般取50~200之間即可,但若原數據的變異較大,則B的取值相應增加。從例1亦可看出,原始資料變量值小的一側相對穩定,B=200與B=2 000時P5的可信區間很接近,而P95在B=200與B=2 000時則相差很大,提示我們對于變異較大的數據,特別是存有極大值或極小值,B宜取大一些,如本例B=1 000時,P95的可信區間才趨穩定。
2.在作醫學參考值範圍估計時,常用的方法有兩大類:一是適用于正態分布或經變量變換能轉換為正態分布的資料,最常用的是正態分布法;另一適用各種分布型資料,最常用的是百分位數法;對偏態分布用正態分布法會得怎樣的結果?如本例若用正態分布法處理得X=34.70,均數的區間估計為27.94~41.46,與bootstrap、二項分布相差甚遠。因此對偏態分布資料,我們常用百分位數法進行醫學參考值的估計,常用的百分位數為P2.5,P5,P95,P97.5等,對百分位數的區間估計,目前應用較少,從本文應用結果來看,用bootstrap法對百分位數作區間估計,不失為一種可行、高效的估計方法。
作者單位:陳健美 鎮江醫學院(212001)
陳 峰 南通醫學院
參考文獻
1.陳峰.Bootstrap估計及其應用.中國衛生統計,1997,14(5):5.
2.楊樹勤主編.中國醫學百科全書*醫學統計學.上海:上海科學技術出版社,1985,86.
3.餘鬆林等.臨床隨訪資料的統計分析方法.北京:人民衛生出版社,1991,127.
4.Efron B & Tibshiirani RJ.An Introdution to the bootstrap.New York:Chapman & Hall,1993.
5.Efron B.Better bootstrap confindence interuals(with discutions).J.Amer.Statist.Assoc,1987,82:171~200.
|