




已閱讀5頁,還剩83頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
.,多水平統(tǒng)計模型簡介ABriefIntroductiontoMultilevelStatisticalModels,.,概述層次結構數據的普遍性經典方法及其局限性基本多水平模型多水平模型的應用,.,概述,80年代中后期,英、美等國教育統(tǒng)計學家開始探討分析層次結構數據(hierarchicallystructureddata)的統(tǒng)計方法,并相繼提出不同的模型理論和算法。多水平模型(multilevelmodels)最先應用于教育學領域,后用于心理學、社會學、經濟學、組織行為與管理科學等領域,逐步應用到醫(yī)學及公共衛(wèi)生等領域。,.,HarveyGoldstein,UK,UniversityofLondon,InstituteofEducationMultilevelModelsinEducationalandSocialResearch1987,.,AnthonyBryk,UniversityofChicagoStephenRaudenbush,MichiganStateUniversity,DepartmentofEducationalPsychologyHierarchicalLinearModels:ApplicationsandDataAnalysisMethods1992,.,NicholasLongford,PrincetonUniversity,EducationTestingServiceRandomCoefficientModels1993,.,多水平主成分分析多水平因子分析多水平判別分析多水平logistic回歸多水平Cox模型多水平Poisson回歸多水平時間序列分析多元多水平模型多水平結構方程模型,.,ML3(1994)/MLN(1996)/MLwiN(1999)HLM(HierarchicalLinearModel)SAS(Mixed)SPSSSTATA,.,兩水平層次結構數據,水平2,水平1,層次結構數據的普遍性,.,“水平”(level):指數據層次結構中的某一層次。例如,子女為低水平即水平1,家庭為高水平即水平2?!皢挝弧?unit):指數據層次結構中某水平上的一個實體。例如,每個子女是一個水平1單位,每個家庭是一個水平2單位。,.,臨床試驗和動物實驗的重復測量多中心臨床試驗研究縱向觀測如兒童生長發(fā)育研究流行病學現場調查如整群抽樣調查遺傳學家系調查資料meta分析資料,.,層次結構數據為一種非獨立數據,即某觀察值在觀察單位間或同一觀察單位的各次觀察間不獨立或不完全獨立,其大小常用組內相關(intra-classcorrelation,ICC)度量。例如,來自同一家庭的子女,其生理和心理特征較從一般總體中隨機抽取的個體趨向于更為相似,即子女特征在家庭中具有相似性或聚集性(clustering),數據是非獨立的(nonindependent)。,.,非獨立數據不滿足經典方法的獨立性條件,采用經典方法可能失去參數估計的有效性并導致不合理的推斷結論。但非獨立數據的組內相關結構各異,理論上,不同的結構應采用相應的統(tǒng)計方法。如縱向觀測數據常用廣義估計方程(GEE),但有兩個局限性:一是對誤差方差的分解僅局限于2水平的情形,二是沒有考慮解釋變量對誤差方差的影響。當應變量的協差陣為分塊對角陣時,一般采用多水平模型。,.,經典方法框架下的分析策略經典的線性模型只對某一層數據的問題進行分析,而不能將涉及兩層或多層數據的問題進行綜合分析。但有時某個現象既受到水平1變量的影響,又受到水平2變量的影響,還受到兩個水平變量的交互影響(cross-levelinteraction)。,.,個體的某事件既受到其自身特征的影響,也受到其生活環(huán)境的影響,即既有個體效應,也有環(huán)境或背景效應(contexteffect)。例如,個體發(fā)生某種牙病的危險可能與個體的遺傳傾向、個體所屬的社會階層(如飲食文化和口腔衛(wèi)生習慣)、環(huán)境因素(如飲水中氟濃度)等有關。,.,分解(disaggregation)聚合(aggregation),.,分解:不滿足模型獨立性假定,回歸系數及其標準誤的估計無效,且未能有效區(qū)分個體效應與背景效應。另一種分析策略是用啞變量擬合高水平單位的固定效應。聚合:損失大量水平1單位的信息,更嚴重的是可能導致“生態(tài)學謬誤”(ecologicalfallacy)。,.,多水平分析的概念為人們提供了這樣一個框架,即可將個體的結局聯系到個體特征以及個體所在環(huán)境或背景特征進行分析,從而實現研究的事物與其所在背景的統(tǒng)一。,.,經典模型的基本假定是單一水平和單一的隨機誤差項,并假定隨機誤差項獨立、服從方差為常量的正態(tài)分布,代表不能用模型解釋的殘留的隨機成份。,基本的多水平模型,.,當數據存在層次結構時,隨機誤差項則不滿足獨立常方差的假定。模型的誤差項不僅包含了模型不能解釋的應變量的殘差成份,也包含了高水平單位自身對應變量的效應成份。,.,多水平模型將單一的隨機誤差項分解到與數據層次結構相應的各水平上,具有多個隨機誤差項并估計相應的殘差方差及協方差。構建與數據層次結構相適應的復雜誤差結構,這是多水平模型區(qū)別于經典模型的根本特征。,.,多水平模型由固定與隨機兩部分構成,與一般的混合效應模型的不同之處在于,其隨機部分可以包含解釋變量,故又稱為隨機系數模型(randomcoefficientmodel),其組內相關也可為解釋變量的函數。換言之,多水平模型可對不同水平上的誤差方差進行深入和精細的分析。,.,1.方差成份模型(VarianceComponentModel)假定一個兩水平的層次結構數據,醫(yī)院為水平2單位,患者為水平1單位,醫(yī)院為相應總體的隨機樣本,模型中僅有一個解釋變量x。,.,和分別為第j個醫(yī)院中第i個患者應變量觀測值和解釋變量觀測值,和為參數估計,為通常的隨機誤差項。,示水平2單位,示水平1單位,.,與經典模型的區(qū)別在于。經典模型中的估計為,僅一個估計值,表示固定的截距,而在方差成份模型中表示j個截距值,即當x取0時,第j個醫(yī)院在基線水平時y的平均估計值。,.,為平均截距,反映與的平均關系,即當x取0時,所有y的總平均估計值。為隨機變量,表示第j個醫(yī)院y之平均估計值與總均數的離差值,反映了第j個醫(yī)院對y的隨機效應。,.,表示協變量x的固定效應估計值。即y與協變量x的關系在各醫(yī)院間是相同的,換言之,醫(yī)院間y的變異與協變量x的變化無關。,.,方差成份模型擬合j條平行的回歸線,截距不同(),斜率相同()。,.,對醫(yī)院水平殘差的假定,對患者水平殘差的假定與傳統(tǒng)模型一致,水平1上的殘差與水平2上的殘差相互獨立,,,,,.,反應變量可表達為固定部分與隨機部分之和。模型具有兩個殘差項,這是多水平模型區(qū)別于經典模型的關鍵部分。即水平2殘差,隨機效應、又稱潛變量(latentvariable),.,此模型需估計4個參數,除兩個固定系數和,還需估計兩個隨機參數和。其中即為醫(yī)院水平的方差成份,為患者水平的方差成份。,.,組內相關的度量,方差成份模型中,應變量方差為,.,此即水平2和水平1方差之和。同一醫(yī)院中兩個患者(用i1,i2表示)間的協方差為:,.,組內相關(intra-classcorrelation,ICC),.,測量了醫(yī)院間方差占總方差的比例,實際上它反映了醫(yī)院內個體間相關,即水平1單位(患者)在水平2單位(醫(yī)院)中的聚集性或相似性。,.,由于模型不止一個殘差項,就產生了非零的組內相關。若為0,表明數據不具層次結構,可忽略醫(yī)院的存在,即簡化為傳統(tǒng)的單水平模型;反之,若存在非零的,則不能忽略醫(yī)院的存在。,.,水平2單位中的水平1單位間存在相關,通常的“普通最小二乘法”(OrdinaryLeastSquaresOLS)進行參數估計是不適宜的。,.,進一步,如數據具有三個水平的層次結構,如醫(yī)院、醫(yī)生和患者三個水平,則將有兩個這樣的相關系數,即醫(yī)院內相關和醫(yī)生內相關。,.,隨機系數模型是指協變量的系數估計不是固定的而是隨機的,即協變量對反應變量的效應在不同的水平2單位間是不同的。仍以醫(yī)院與患者兩水平數據結構說明隨機系數模型基本結構與假設。,隨機系數模型(RandomCoefficientModel),.,與方差成份模型的區(qū)別在于。,.,方差成份模型中協變量的系數估計為固定的,示協變量對反應變量的效應是固定不變的。在隨機系數模型中協變量的系數估計為,示每個醫(yī)院都有其自身的斜率估計,表明協變量對反應變量的效應在各個醫(yī)院間是不同的。,.,的假定及其含義與方差成份模型一致?,F為隨機變量,假定:,.,表示第j個醫(yī)院的y隨x變化的斜率;表示全部醫(yī)院的y隨x變化的斜率的平均值(平均斜率)。是指各醫(yī)院的y隨x變化的斜率的方差。,.,示第j個醫(yī)院的斜率與平均斜率的離差值,指上述截距離差值與斜率離差值的協方差,反映了它們之間的相關關系。,.,即表達為固定部分與隨機部分之和。其中,固定效應用均數描述,它決定了全部醫(yī)院的平均回歸線,這條直線的截距即平均截距,直線的斜率即平均斜率。為隨機系數。,將模型改記為:,.,隨機效應用方差描述,它反映了各醫(yī)院之間y的變異與協變量x的關系。模型隨機部分具多個殘差項,需估計4個隨機參數,即方差、和以及協方差。,.,模型的反應變量方差為:,表明各醫(yī)院間y的變異與協變量x有關,即每條回歸線不僅截距不同,且斜率也不同。當x取0時每個醫(yī)院y的平均估計值不同,且每個醫(yī)院y隨x變化的斜率不同。,.,組內相關與解釋變量有關,.,值得指出,模型隨機部分的解釋變量常為其固定部分的一個子集,但亦可以不是。換言之,可以在模型的固定部分或隨機部分納入任何水平上測量的解釋變量。,.,反應變量向量的協方差結構,從最基本的兩水平數據結構來考察反應變量向量的協方差結構,即只包括隨機參數和。對應于方差成份模型,反應變量方差為水平1和水平2方差之和:,.,同一個醫(yī)院所診療的兩個患者(用,表示)間的協方差為:,.,因此,同一醫(yī)院所診療的三名患者的協差陣為,.,對兩個醫(yī)院而言,若一個醫(yī)院診療了三名患者,另一個醫(yī)院診療了兩個患者,則具有2個水平2單位的反應變量向量Y總的協差陣可表達為:,.,.,矩陣的這種分塊對角結構表達了不同醫(yī)院所診療的患者間的協方差為0,它可進一步擴展到任意多的醫(yī)院數。將上述矩陣表達為另一種更簡略的形式:,.,為維的1矩陣,為維的單位陣,的下標2表明為兩水平模型,的維數即水平2單位數,主對角線塊的維數即水平1單位數,它們均為方陣。在傳統(tǒng)OLS估計中,為0,則該協差陣退化為標準形式的,即殘差方差。,.,考察包括隨機系數的一般形式的兩水平模型,或簡記為,.,對于具有隨機截距與斜率的兩水平模型,其反應變量協差陣具有以下典型的分塊結構:,.,矩陣為水平2的隨機截距與斜率的協差陣,即隨機系數協差陣,矩陣為水平1的隨機系數協差陣。這里,水平1只有一個單一的方差項,可進一步采用表示這些協差陣集。將上述矩陣展開得到:,.,這是具有分塊結構的一個具有2個水平1單位的水平2單位的反應變量協差陣。此即構造反應變量協差陣的一般模式,它同時也概括了擬合水平1復雜變異的可能性。,.,固定與隨機參數估計,固定和隨機參數的估計方法一般采用“迭代廣義最小二乘算法”(IterativeGeneralizedLeastSquares,IGLS)(Goldstein,1986)或“限制性迭代廣義最小二乘法”(RestrictedIterativeGeneralizedLeastSquares,RIGLS)(Goldstein,1989)。,.,現以最基本的兩水平方差成份模型來闡明固定與隨機參數估計的基本思想和步驟。,.,.,假定已知方差的值,則可直接構造分塊對角陣,簡記為。直接采用通常的廣義最小二乘法(GeneralizedLeastSquaresGLS)可獲得固定系數的估計:,.,在初始階段,假定為0,即假定數據不具有系統(tǒng)結構,則給出固定系數通常的OLS估計,得到粗殘差:,.,將粗殘差向量記為:,將粗殘差向量形成交叉乘積矩陣,然后再形成交叉乘積矩陣的向量化算子,記為。相應的,也可以形成反應變量協方差陣向量化算子,記為。,.,對應于2個醫(yī)院,一個診療3名患者,另一個診療2名患者,則和均具有32+22=13個元素。因為的期望為,可將這些向量間關系表達為以下線性模型,.,=,+R=,+,+R,.,這里,為一個殘差向量。將粗殘差作為模型的反應變量向量,模型右邊包含兩個已知的解釋變量,其系數即待估計的隨機參數和。通過GLS方法獲得和的估計,回到初始模型則獲得固定系數新的估計,在隨機與固定參數估計間反復迭代直至收斂,此即IGLS算法的基礎。,.,1.重復測量數據的多水平模型當同一研究對象被重復測量多次時,測量點即為水平1單位,測量點又嵌套(nested)進作為水平2單位的個體,這種數據結構具有典型的層次結構特征。,多水平模型的應用,.,在臨床試驗和動物實驗中,常需對患者或動物的某些指標進行重復測量,以了解不同時間觀測指標的變化以及處理因素與觀測指標的關系隨時間的變化;在生長發(fā)育研究中,也需對個體生長或發(fā)育指標作多時點的重復測量。,.,常規(guī)使用的重復測量數據統(tǒng)計方法,一般要求資料是平衡的,即每一個體有相同次數的重復測量值,這對于實驗研究是可行的,但在生長發(fā)育研究中,測量常常是不規(guī)則的,這就出現了個體測量時點多少不一、時間間隔不等以及觀測值缺失等問題,它增加了傳統(tǒng)統(tǒng)計方法擬合個體生長曲線的難度,并引起估計結果不同程度的偏差。,.,多水平模型技術可有效和方便地處理此類測量模式的數據,提供統(tǒng)計上有效的參數估計,并具有如下幾個特點:,.,(1)考慮了分布于不同層次的測量誤差,并給出相應的誤差估計值;(2)擬合個體生長曲線時不要求相等的時間間隔,在擬合個體生長曲線的同時也估計全部樣本的平均曲線;,.,(3)不要求每個個體都有同樣多的測量點,即缺失測量點并不增加擬合生長曲線的難度;(4)便于在生長曲線中引入其它解釋變量,如性別、營養(yǎng)狀況等,分析其對生長過程的影響。,.,2.Meta分析是指對具有相同研究假設的多項獨立研究結果所進行的合并分析,在合并不同來源的研究資料時可能引入異雜方差(heterogeneousvariance),因此,其數據可看成具有兩個水平的層次結構,即研究水平與個體水平。,.,Meta分析的主要目的是為了得到比單一研究更精確的結果估計,進一步的目的則是分析影響研究結果間差異的因素。目前,Meta分析主要根據“效應尺度”的同質性檢驗結果,而決定采用固定效應模型或隨機效應模型來合并每項研究的“效應尺度”。采用多水平模型可較為方便地分析影響研究結果間差異的因素如研究水平上的有關協變量包括樣本含量、設計類型等。,.,3.離散數據的多水平模型在流行病學現場調查研究中,常對發(fā)病率、患病率或死亡率以及它們在地區(qū)之間的變異感興趣。這里的兩水平結構是,個體為水平1,地區(qū)為水平2。,.,此類研究常常擁有若干地區(qū)某時期的死亡記錄和死者個人特征以及地區(qū)特征如人口構成或社會經濟特征等。研究者可以分析這些解釋變量是否能夠解釋死亡率在地區(qū)之間的變異,也可以分析死亡率的差別(比如男性和女性之間)是否在地區(qū)之間不同等。,.,4.多變量多水平模型:在醫(yī)學研究中,研究者常對個體作幾種測量(即測量幾個指標),如收縮壓、舒張壓和心率,如果將它們作為反應變量一起進行分析,就可以設置多變量模型,分析解釋變量諸如年齡、性別、是否鍛煉、是否吸煙等與這
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 門診報銷面試題及答案
- 簡譜旋律考試題及答案
- 黑熱病考試題及答案
- java面試題及答案約瑟夫環(huán)
- 智能駕駛技術趨勢-1
- 孩子公益意識提升技巧
- 提升孩子專注力技巧
- 家電公司質量追溯管理規(guī)定
- 2.5直線與圓的位置關系(第1課時位置關系、切線的判定與性質)(教學課件)數學蘇科版九年級上冊
- 保安隊列訓練培訓課件
- 中醫(yī)急癥診療方案(3篇)
- 2025年上海市高考化學試卷(含答案)
- 《人工智能概論-面向通識課程》全套教學課件
- 三區(qū)人才面試題及答案大全
- 物業(yè)服務禮儀培訓大綱
- 2025年舞臺燈光設備項目市場調查研究報告
- 防火鋼質門、卷簾門項目可行性研究報告-商業(yè)計劃書
- 普查保密協議書
- 《初學者指南:美術基礎課件》
- 冶金礦山采礦設計規(guī)范
- 配送車輛違章管理制度
評論
0/150
提交評論