SAS統(tǒng)計分析教程方法總結(jié)_第1頁
SAS統(tǒng)計分析教程方法總結(jié)_第2頁
SAS統(tǒng)計分析教程方法總結(jié)_第3頁
SAS統(tǒng)計分析教程方法總結(jié)_第4頁
SAS統(tǒng)計分析教程方法總結(jié)_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50對定量結(jié)果進行差異性分析單因素設(shè)計一元定量資料差異性分析單因素設(shè)計一元定量資料t檢驗與符號秩和檢驗T檢驗前提條件:定量資料滿足獨立性和正態(tài)分布,若不滿足則進行單因素設(shè)計一元定量資料符號秩和檢驗。配對設(shè)計一元定量資料t檢驗與符號秩和檢驗配對設(shè)計:整個資料涉及一個試驗因素的兩個水平,并且在這兩個水平作用下獲得的相同指標是成對出現(xiàn)的,每一對中的兩個數(shù)據(jù)來自于同一個個體或條件相近的兩個個體。成組設(shè)計一元定量資料t檢驗成組設(shè)計定義:設(shè)試驗因素A有A1,A2個水平,將全部n(n最好是偶數(shù))個受試對象隨機地均分成2組,分別接受A1,A2,2種處理。再設(shè)每種處理下觀測的定量指標數(shù)為k,當k=1時,屬于一元分析的問題;當k$2時,屬于多元分析的問題。在成組設(shè)計中,因2組受試對象之間未按重要的非處理因素進行兩兩配對,無法消除個體差異對觀測結(jié)果的影響,因此,其試驗效率低于配對設(shè)計。T檢驗分析前提條件:獨立性、正態(tài)性和方差齊性。1.4.成組設(shè)計一元定量資料Wilcoxon秩和檢驗不符合參數(shù)檢驗的前提條件,故選用非參數(shù)檢驗法,即秩和檢驗。1.5.單因素k(k>=3)水平設(shè)計定量資料一元方差分析方差分析是用來研究一個控制變量的不同水平是否對觀測變量產(chǎn)生了顯著影響。這里,由于僅研究單個因素對觀測變量的影響,因此稱為單因素方差分析。方差分析的假定條件為:(1)各處理條件下的樣本是隨機的。(2)各處理條件下的樣本是相互獨立的,否則可能出現(xiàn)無法解析的輸出結(jié)果。(3)各處理條件下的樣本分別來自正態(tài)分布總體,否則使用非參數(shù)分析。(4)各處理條件下的樣本方差相同,即具有齊效性。1.6.單因素k(k>=3)水平設(shè)計定量資料一元協(xié)方差分析協(xié)方差分析(AnalysisofCovariance)是將回歸分析與方差分析結(jié)合起來使用的一種分析方法。在這種分析中,先將定量的影響因素(即難以控制的因素)看作自變量,或稱為協(xié)變量(Covariate),建立因變量隨自變量變化的回歸方程,這樣就可以利用回歸方程把因變量的變化中受不易控制的定量因素的影響扣除掉,從而,能夠較合理地比較定性的影響因素處在不同水平下經(jīng)過回歸分析手段修正以后的因變量的樣本均數(shù)之間的差別是否有統(tǒng)計學意義,這就是協(xié)方差分析解決問題的基本計算原理。在試驗中,試驗因素有時會受到某個重要的定量的非試驗因素的影響,為了消除這種定量非試驗因素對定量觀測結(jié)果的影響和干擾。前提條件:一、要求各組定量資料(主要指觀測結(jié)果)來自方差相等的正態(tài)總體;二、各組的總體回歸斜率要相等且不等于零。1.7.單因素k(k>=3)水平設(shè)計一元定量資料Kruskal-Wallis秩和檢驗定量資料不滿足參數(shù)檢驗的前提條件時,則可選擇秩和檢驗單因素設(shè)計一元生存資料差異性分析生存分析(SurvivalAnalysis)是將重點事件的出現(xiàn)與否和達到終點所經(jīng)歷的時間結(jié)合起來的一種統(tǒng)計分析方法,其主要特點就是考慮了每個觀察對象達到終點所經(jīng)理的時間長短。終點事件不限于死亡,可以是疾病的發(fā)生一種處理(治療)的反映、疾病的復發(fā)等。生存分析可用于生存曲線估計生存曲線比較、影響因素分析和生存預測。生存分析有一套完整的方法:統(tǒng)計描述(包括求生存時間的分位數(shù)、中位生存期、平均數(shù)、生存函數(shù)的估計、判斷生存時間分布的圖示法)、非參數(shù)檢驗(檢驗分組變量各水平所對應的生存曲線是否一致)、COX模型(半?yún)?shù))回歸分析、參數(shù)模型回歸分析。研究者比較k條生存曲線之間是否有顯著差別時,SAS軟件提供了3種常用的方法:對數(shù)秩檢驗(log-rankTest)、威爾考克森(WilcoxonTest)和似然比檢驗(LikelihoodRatioTest)。當生存時間的分布為Weibull分布或?qū)儆诒壤L險比模型時,Log-Rank檢驗效率較高;當生存時間的分布為對數(shù)正態(tài)分布時,Wilcoxon檢驗效率較高;因似然比檢驗是建立在指數(shù)分布模型上的,故當資料偏離此模型時,其結(jié)果不如前兩種檢驗方法穩(wěn)健。非參數(shù)法估計生存率有乘積極限法(Product-LimitMethod,PL)和壽險法(LifeTableMethod),其中乘積極限法又稱為Kaplan-Meier法(簡稱KM法)。前者適用于小樣本或大樣本未分組資料,后者適用于觀察倒數(shù)較多的分組資料。多因素設(shè)計一元定量資料差異性分析隨機區(qū)組設(shè)計一元定量資料方差分析與Friedman秩和檢驗隨機區(qū)組設(shè)計(Randomizedblockdesign),亦稱完全隨機區(qū)組設(shè)計(randomcompleteblockdsign)。這種設(shè)計的特點是根據(jù)“局部控制”的原則,將試驗地按肥力程度劃分為等于重復次數(shù)的區(qū)組,一區(qū)組安排一重復區(qū)組內(nèi)各處理都獨立的隨機排列。參數(shù)檢驗前提條件:獨立性、正態(tài)性和方差齊性若不滿足參數(shù)檢驗的前提條件,采用秩和檢驗。雙因素無重復實驗設(shè)計一元定量資料方差分析有兩個試驗因素,全部試驗條件由兩因素各水平全面組合而成,在每個條件下獲得定量資料的均值數(shù)據(jù)。頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50平衡不完全隨機區(qū)組設(shè)計一元定量資料方差分析所謂平衡不完全隨機區(qū)組試驗(BalancedIncompleteBlockDesign,簡稱BIB試驗)就是試驗方案因受地塊限制,不能把試驗處理全部安置在試驗區(qū)組內(nèi)的情況下,所進行的試驗設(shè)計。其缺點是:區(qū)組數(shù)必須嚴格按規(guī)定數(shù)目設(shè)立缺一不可,否則各處理之間的比較將失去均衡性。BIB試驗設(shè)計需滿足如下條件:ymV-r其中N為試驗小區(qū)總數(shù);入為任兩處處理在同一區(qū)組中出現(xiàn)的次數(shù);¥是每個處理的重復數(shù);b是不完全隨機區(qū)組數(shù);k是每區(qū)組內(nèi)的小區(qū)數(shù)。拉丁方設(shè)計一元定量資料方差分析拉丁方設(shè)計(Latinsquaredesign)使研究人員得以在統(tǒng)計上控制兩個不相互作用的外部變量并且操縱自變量。每個外部變量或分區(qū)變量被劃分為一個相等數(shù)目的區(qū)組或級別,自變量也同樣被分為相同數(shù)目的級別。拉丁方以表格的形式被概念化,其中行和列代表兩個外部變量中的區(qū)組然后將自變量的級別分配到表中各單元中。簡單的說就是某一變量在其所處的任意行或任意列中,只出現(xiàn)一次。假設(shè)我現(xiàn)在要做一個實驗,被試一共要進行5個小測試,并且需要重測多次,因此對這5個測試的排序就需要列入變量控制之內(nèi),不可能多次都一樣的順序,因此為了平衡這種順序效應,采取拉丁方設(shè)計,先命名5個小測試分別為1,2,3,4,5。那么對其的排序就是這樣的:第一組測試順序:1,2,5,3,4第二組測試順序:2,3,1,4,5第三組測試順序:3,4,2,5,1第四組測試順序:4,5,3,1,2第五組測試順序:5,1,4,2,3其順序是這樣確定的,橫排:1,2,n,3,n-1,4,n-2……(n代表要排序的量的個數(shù))豎排:1,2,3,4,5再輪回。二階段交叉設(shè)計一元定量資料方差分析在醫(yī)學研究中,要將A、B兩種處理先后施加于同一批試驗對象,隨機地使半數(shù)受試者先接受A后接受B,而另一半受試者正好相反,即先接受B再接受A。由于兩種處理在全部試驗過程中交叉進行,這種設(shè)計稱為交叉設(shè)計(cross-overdesign)。在交叉設(shè)計中,A、B兩種處理先后以同等的機會出現(xiàn)在兩個試驗階段中,故又稱為兩階段交叉設(shè)計。試驗效應受到3個因素的影響,一個是處理因素,一個是處理順利因素還有一個是試驗階段因素,而且必須保證這3個因素之間沒有交互作用。雖然交叉試驗的處理是單因素,但影響試驗結(jié)果的因素還有非人為控制的受試者的個體差異和試驗階段這兩個因素。因此,該設(shè)計不僅平衡了處理順序的影響,而且能把處理方法間的差別、時間先后之間的差別和受試者之間的差別分別進行分析。析因設(shè)計一元定量資料方差分析析因設(shè)計是一種多因素的交叉分組設(shè)計。它不僅可檢驗每個因素各水平間的差異,而且可檢驗各因素間的交互作用。兩個或多個因素如存在交互作用,表示各因素不是各自獨立的,而是一個因素的水平有改變時,另一個或幾個因素的效應也相應有所改變;反之,如不存在交互作用,表示各因素具有獨立性,一個因素的水平有所改變時不影響其他因素的效應。含區(qū)組因素的析因設(shè)計一元定量資料方差分析嵌套設(shè)計一元定量資料方差分析試驗中涉及兩個或多個試驗因素,且依據(jù)專業(yè)知識可以認為各試驗因素對觀測指標的影響有主次之分,主要因素各水平下嵌套著次要因素,次要因素各水平下又嵌套著更次要的因素,這樣的試驗設(shè)計稱為嵌套設(shè)計。此類設(shè)計有兩種情形:第一種情形是,受試對象本身具有分組再分組的各種分組因素,處理(即最終的試驗條件)是各因素各水平的全面組合,且因素之間在專業(yè)上有主次之分(如年齡與性別對心室射血時間的影響,性別的影響大于年齡);第二種情形是,受試對象本身并非具有分組再分組的各種分組因素,處理(即最終的試驗條件)不是各因素各水平的全面組合,而是各因素按其隸屬關(guān)系系統(tǒng)分組,且因素之間在專業(yè)上有主次之分(如研究不同代次不同家庭成年男性的身高資料,不同家庭之間的差別大于同一個家庭內(nèi)部不同代次之間的差別)。裂區(qū)設(shè)計一元定量資料方差分析試驗因素分兩階段進入試驗過程,通常由先進入試驗的試驗因素(設(shè)為A)構(gòu)成單因素多水平設(shè)計或由先進入試驗的試驗因素(設(shè)為A)與區(qū)組因素(設(shè)頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50頁眉內(nèi)容為B)構(gòu)造出含m次獨立重復試驗的隨機區(qū)組設(shè)計;再把接受因素A各水平處理或接受因素A與因素B各組合水平處理的m個受試對象隨機地分配給在第二階段進入試驗的試驗因素C的m個水平,這樣安排試驗因素的方法稱為裂區(qū)設(shè)計或分割設(shè)計。結(jié)合實際問題,當試驗研究過程自然形成2個或多階段(有時稱為工序),各階段涉及的試驗因素彼此不同,但需要等整個試驗過程結(jié)束后,才能觀測定量指標的結(jié)果,就需要用到此設(shè)計。正交設(shè)計一元定量資料方差分析正交試驗設(shè)計(Orthogonalexperimentaldesign)是研究多因素多水平的又一種設(shè)計方法,它是根據(jù)正交性從全面試驗中挑選出部分有代表性的點進行試驗,這些有代表性的點具備了“均勻分散,齊整可比”的特點,正交試驗設(shè)計是分析因式設(shè)計的主要方法。是一種高效率、快速、經(jīng)濟的實驗設(shè)計方法。正交表是一整套規(guī)則的設(shè)計表格,每個因素的每個水平與另一個因素各水平各碰一次,這就是正交性。進行c因素t水平n次試驗的正交表為丄),其中,L為正交表的代號,n為試驗的次數(shù),t為水平數(shù),c為列數(shù),也就是可能安排最多的因素個數(shù)。重復測量設(shè)計一元定量資料方差分析重復測量設(shè)計指將一組或多組被試者先后重復地施加不同的實驗處理,或在不同場合和時間點被測量至少兩次的情況。重復測量設(shè)計大體有兩類.一類是對每個人在同一時間不同因子組合間頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50測量;另外一類是對每個人在不同時間點上重復.前者常見于裂區(qū)設(shè)計,而后者常見于經(jīng)典試驗設(shè)計即包括前測,處理,一次或幾次后測的情況.后者比前者要多見。常見多因素實驗設(shè)計一元定量資料協(xié)方差分析試驗中存在極為重要的非試驗因素,需進行協(xié)方差分析,判斷其對主要因素的影響。3.13.多個單因素兩水平設(shè)計定量資料Meta分析Meta分析是指用統(tǒng)計學方法對收集的多個研究資料進行分析和概括,以提供量化的平均效果來回答研究的問題.其優(yōu)點是通過增大樣本含量來增加結(jié)論的可信度,解決研究結(jié)果的不一致性。meta分析是對同一課題的多項獨立研究的結(jié)果進行系統(tǒng)的、定量的綜合性分析。它是文獻的量化綜述,是以同一課題的多項獨立研究的結(jié)果為研究對象,在嚴格設(shè)計的基礎(chǔ)上,運用適當?shù)慕y(tǒng)計學方法對多個研究結(jié)果進行系統(tǒng)、客觀、定量的綜合分析。基本分析步驟:明確簡潔地提出需要解決的問題。制定檢索策略,全面廣泛地收集隨機對照試驗。確定納入和排除標準,剔除不符合要求的文獻。資料選擇和提取。各試驗的質(zhì)量評估和特征描述。統(tǒng)計學處理。a?異質(zhì)性檢驗(齊性檢驗)。統(tǒng)計合并效應量(加權(quán)合并,計算效應尺度及95%的置信區(qū)間)并進行統(tǒng)計推斷。圖示單個試驗的結(jié)果和合并后的結(jié)果。敏感性分析。e.通過“失安全數(shù)〃的計算或采用“倒漏斗圖〃了解潛在的發(fā)表偏倚。(7)結(jié)果解釋、作出結(jié)論及評價。(8)維護和更新資料。單因素設(shè)計多元定量資料差異性分析單因素設(shè)計定量資料多元方差和協(xié)方差分析在某試驗設(shè)計之下,若每次只分析一個或多個定性影響因素對一個定量指標的影響,常采用一元方差分析;若每次用參數(shù)法同時分析一個或多個定性影響因素對兩個或者兩個以上在專業(yè)上有一定聯(lián)系的定量指標的影響時,就稱為多元方差分析(MultivariateAnalysisofVariance,MANOVA)。做方差分析時,影響因素都是定性的。當除了定性的影響因素之外還有定量的影響因素存在(或者不可忽略)時,要分析各影響因素對定量指標的影響,則需要采用另外一種統(tǒng)計學分析方法,即協(xié)方差分析(AnalysisofCovariance)才能達到目的。頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50多因素設(shè)計多元定量資料差異性分析多因素設(shè)計定量資料多元方差分析和協(xié)方差分析對定性結(jié)果進行差異性分析單因素設(shè)計一元定性資料差異性分析單組設(shè)計一維表資料統(tǒng)計分析groupcount1978222配對設(shè)計四格表資料統(tǒng)計分析1.先將實驗對象配對后隨機安排到兩個不同處理組,所得的二分類結(jié)果的資料。2.同一批對象兩個時間點(或兩個部位)的測定,或同一對象用兩種方法(或兩種儀器、兩名化驗員、兩種條件)的測定,所得的二分類(如陽性、陰性)結(jié)果的資料。表配對謖計四格表形式[卩乙Ail-十a(chǎn)hii"rfrCdr+flf令廿由十寸6.3.配對設(shè)計擴大形式的方表資料統(tǒng)計分析配對設(shè)計擴大形式的方表形式甲乙

-++++++合計-1502320+2191224++1317021+++02068合計1824201173成組設(shè)計橫斷面研究四格表資料統(tǒng)計分析性另u-人數(shù)通過未通過合計男413273女43851合計8440124該表設(shè)計上屬于結(jié)果變量為二值變量的成組設(shè)計定性資料,列聯(lián)表分類上屬于橫截面研究設(shè)計四格表資料。成組設(shè)計隊列研究四格表資料統(tǒng)計分析血壓情況-患者例數(shù)未患病合計偏好196180正常20465485合計39526565該資料是成組設(shè)計隊列研究四格表資料。隊列研究設(shè)計是通過對不同暴露水平的對象進行追蹤觀察,隨訪觀察疾病發(fā)生情況,從而判斷該因素與發(fā)病之間有無關(guān)聯(lián)。成組設(shè)計病例對照研究四格表資料統(tǒng)計分析喂養(yǎng)方式例數(shù)患齲未患齲合計母乳人工或混合合計37811186676142103157260該表是成組設(shè)計病例對照研究四格表資料。病例對照設(shè)計是以確診的患者作為病例,以不患該病但具有可比性的個體作為對照,收集以往危險因頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50頁眉內(nèi)容素的暴露史,用統(tǒng)計學方法比較兩組中危險因素的暴露比例,從而判斷因素與疾病之間是否存在統(tǒng)計學關(guān)聯(lián)。成組設(shè)計結(jié)果變量為多值有序變量的2XC表資料統(tǒng)計分析成組設(shè)計結(jié)果變量為多值名義變量的2XC表資料統(tǒng)計分析單因素多水平設(shè)計無序原因變量RX2表資料統(tǒng)計分析單因素多水平設(shè)計有序原因變量RX2表資料統(tǒng)計分析單因素多水平設(shè)計雙向無序RXC表資料統(tǒng)計分析單因素多水平設(shè)計有序結(jié)果變量RXC表資料統(tǒng)計分析單因素多水平設(shè)計雙向有序RXC表資料統(tǒng)計分析多因素設(shè)計一元定性資料差異性分析用加權(quán)’檢驗處理結(jié)果變量為二值變量的高維列聯(lián)表資料在三維列聯(lián)表中,通常有兩個原因變量和一個結(jié)果變量,不同的研究目的決定了選用不同的統(tǒng)計分析方法。對于結(jié)果變量為二值變量的高維列聯(lián)表,可選用加權(quán)檢驗、CMH檢驗、多重logistic回歸、對數(shù)線性模型等。若不想用復雜的對數(shù)線性模型模型或logistic回歸模型來分析三維列聯(lián)表資料,并且資料又不合適采用簡單“合并”方式處理時,就可采用加權(quán)檢驗(消除掉一個原因變量對結(jié)果變量的影響,考察另一個原因變量與結(jié)果變量之間是否獨立)、CMH.J檢驗(消除掉一個原因變量對結(jié)果變量的影響,計算優(yōu)勢比OR或相對危險度RR,并對其進行假設(shè)檢驗)。這兩種檢驗方法頁眉內(nèi)容都無法回答被合并掉的那個原因變量對結(jié)果變量的影響作用有多大,只是對其進行分層計算,即評價另一個原因變量對結(jié)果變量的影響時將其對結(jié)果變量的影響扣除掉。用CHM檢驗處理結(jié)果變量具有3種性質(zhì)的高維列聯(lián)表資料結(jié)果變量為二值變量的三維列聯(lián)表,可以選用加權(quán)檢驗,CMH檢驗、lAi-logistic回歸和對數(shù)線性模型。CMH統(tǒng)計分析(CochranMantelHaenszelStatics)是在MH統(tǒng)計分析方法的基礎(chǔ)上發(fā)展并提出來的,現(xiàn)在統(tǒng)稱為擴展的MH卡方統(tǒng)計量,也統(tǒng)稱為MH檢驗,用于分層分析即控制混雜因素后對二維列聯(lián)表資料的統(tǒng)計處理。結(jié)果變量為多值有序變量的高維列聯(lián)表資料,可以選用CMH檢驗(即CMH校正的秩和檢驗)和有序變量logistic回歸分析進行處理。對數(shù)線性模型無法利用資料的有序性,因此不宜選用。若采用有序變量多重logistic回歸分析,應注意結(jié)合原因變量是否存在多值名義變量或多值有序變量而決定對原因變量的賦值方法。結(jié)果變量為多值無序變量的高維列聯(lián)表資料,可以采用CMH檢驗、擴展的logistic回歸分析和對數(shù)線性模型。注,CMH,檢驗包含三種檢驗方法:(1)非零相關(guān)檢驗(適合于原因變量與結(jié)果變量都是多值有序變量)(2)行平均得分檢驗(僅考察原因變量全部水平組之間在結(jié)果上的差別是否具有統(tǒng)計學意義,結(jié)果變量必須是多值有序變量)。(3)一般關(guān)聯(lián)性檢驗(適合于原因變量和結(jié)果變量都是名義變量)。這里所提及的“原因變量”是指在多個原因變量中被保留下來的那個原因變頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50量。用Meta分析分別合并處理多個成組設(shè)計定性資料7.4.ROC方法分析診斷試驗資料多因素設(shè)計一元定性資料對數(shù)線性模型分析用對數(shù)線性模型分析列聯(lián)表資料對數(shù)線性模型是分析高維列聯(lián)表行之有效的方法,最先由Yule、Bartlett利用Yule(1900年)定義的交叉乘積比分析三維交互作用,然后由Kullback(1968年)引入方差分析的思想發(fā)展而來。對數(shù)線性模型把各分組變量(包括自變量和因變量)水平組合下期望(理論頻數(shù))的自然對數(shù)表示為各組變量及其交互作用的線性函數(shù),通過迭代計算求得模型中參數(shù)的估計值,進而運用方差分析的思想檢驗各主效應和交互作用的效應大小。對定量結(jié)果進行預測性分析兩變量簡單線性回歸分析9.1.Pearson線性相關(guān)分析當兩個變量取值之間出現(xiàn)一個增大,另一個也增大(或減?。┑那闆r時則稱這種現(xiàn)象為共變,也就是說這兩個變量之間有“相關(guān)關(guān)系”。簡單線性相關(guān)關(guān)系是描述兩定量變量間是否含有直線關(guān)系以及直線關(guān)系的方向和密切程度的分析方法。此分析方法主要通過計算相關(guān)系數(shù)的大小并對其進行頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50頁眉內(nèi)容假設(shè)檢驗以及結(jié)合專業(yè)知識來評價得到的相關(guān)系數(shù)是否有實際意義來完成。前提條件:兩變量需滿足正態(tài)分布。Spearman秩相關(guān)分析在做Pearson相關(guān)分析時,要求兩變量服從正態(tài)分布,然而當?shù)玫降脑紨?shù)據(jù)并不服從正態(tài)分布或其總體分布未知,有時3數(shù)據(jù)中還存在所謂“超限值”(如限于儀器的靈敏度,僅知道血樣某物質(zhì)濃度小于0.001ug/ml),甚至數(shù)據(jù)本身就是等級材料。此時,宜采用等級相關(guān)或稱秩相關(guān)來分析兩變量的線性聯(lián)系程度與方向。這類方法是利用兩變量的秩次大小做線性相關(guān)分析,對原變量分布不做要求,屬非參數(shù)統(tǒng)計分析方法。9.3.簡單線性回歸分析簡單線性回歸分析是用直線回歸方程表示兩個定量變量間依存關(guān)系的統(tǒng)計分析方法。此分析方法主要由三部分組成:計算反映兩定量變量依賴關(guān)系的直線回歸方程,即計算直線回歸方程的截距a、斜率bo根據(jù)樣本截距a、斜率b,檢驗樣本所抽自的總體截距[是否為0、總體斜率|3是否為0o結(jié)合專業(yè)知識,評價此直線回歸方程是否有實用價值。前提條件:線性(linear):即X和Y之間的關(guān)系為線性關(guān)系;獨立(independent):即n個個體的觀察資料間必須是獨立的;頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50正態(tài)(normal):即給定X后,Y為正態(tài)分布,且Y的均數(shù)就是回歸線上對應于X值的點;等方差(equalvariance):即不同X值對應的Y的分布具有相同的方差,換句話說Y的方差與X無關(guān)。9.4.加權(quán)線性回歸分析此方法未弄明白。兩變量可直線化曲線回歸分析10.1.對數(shù)函數(shù)、冪函數(shù)和雙曲函數(shù)曲線回歸分析對數(shù)函數(shù)對數(shù)函數(shù)―.?,—,_對數(shù)函數(shù)―.?,—,_變化方法直線化結(jié)果:y=〔°y=〔°為工{心1)2.冪函數(shù)幕函數(shù)―.直線化結(jié)果:」3.雙曲線函數(shù)=a-f-bx=a-f-bx10.2.指數(shù)函數(shù)曲線回歸分析雙曲線函數(shù):(a>0)變換方法:,…指數(shù)函數(shù):,.-變換方法:直線化結(jié)果:指數(shù)函數(shù):,.-變換方法:10.3.Logistic函數(shù)曲線回歸分析Logistic曲線:‘「,一一.直線化結(jié)果:」變換方法:―一:1廠門K一-"(j>C,b<Ujvy:X各種復雜曲線回歸分析11.1.多項式曲線回歸分析頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容5011.3.Gompertz曲線回顧分析頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50頁眉內(nèi)容11.4.二項型指數(shù)曲線回歸分析二項式指數(shù)曲線:,廠.」,?A11.5.三項型指數(shù)曲線回歸分析三項式指數(shù)曲線:多重線性回歸分析多重線性回歸是指因變量為一個、自變量為多個的線性回歸分析。前提條件:1、自變量與因變量之間存在線性關(guān)系;2、各觀測間相互獨立;3、殘差服從正太分布;4、方差齊性。需要注意的是,在回歸方程中,不能直接根據(jù)各自變量回歸系數(shù)絕對值的大小來評價該自變量的作用大小,因為自變量的單位不盡相同,回歸系數(shù)的大小要收到單位的影響。如果要比較各自變量的作用大小,應消除自變量單位的影響,這就需要求標準化的回歸系數(shù)。標準化回歸系數(shù)沒有量綱,統(tǒng)計學上常用它的絕對值大小來衡量自變量對因變量影響的相對重要性,標準化回歸系數(shù)的絕對值越大,說明該自變量對隱變量的作用越大。主成分回歸分析主成分回歸分析是將多個彼此相關(guān)、信息重疊的指標通過適當?shù)木€性組合,使之成為彼此獨立而又提取了原指標變異信息并帶有特定專業(yè)含義的頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50綜合潛變量,即主成分,建立潛變量和因變量間的線性回歸方程,再將回歸方程中的潛變量轉(zhuǎn)換為原自變量的一種統(tǒng)計學方法。多重線性回歸分析和主成分回歸分析都是用于分析單因素設(shè)計多元定量資料的統(tǒng)計學方法?;静襟E:(1)進行多重線性回歸分析,并進行共線性診斷;(2)如果自變量之間存在共線性,則可選擇進行主成分分析,以解決由于共線性的影響,造成回歸結(jié)果不合理或無法解釋的問題。(3)用主成分分析求自變量的主成分和主成分得分,將貢獻率小的主成分舍棄。(4)將因變量對保留的主成分得分進行回歸分析。(5)將主成分的表達式回代,最后得到因變量與原始變量的回歸模型,并給予專業(yè)解釋。14.嶺回歸分析用REG過程進行多重線性回歸分析,在進行參數(shù)估計時常用最小二乘法。該方法在數(shù)據(jù)滿足GM(Gauss-Markov)定理時,保證了在線性無偏估計類中的方差最小。如果進一步假設(shè)誤差服從正態(tài)分布,那么最小二乘法還具有更多更好的性質(zhì)。但是,在實際應用中,許多應用實踐證明,有些情況在運用最小二乘法時并不是很理想,在個別情況下可能不是很好。自20實際50年代特別是60年代以來,許多統(tǒng)計學家做了很多努力,試圖改進最小二乘法估計。Stein于1955年證明了:當維數(shù)大于2時,能夠找到另外一個估計,它在某種意義下一致優(yōu)于最小二乘法估計。據(jù)此,在后來的發(fā)展中,統(tǒng)計學家提出了許多新的估計方法,主要有嶺估計、主成分估計以及特征根估計等。這些估計的一個共同特點是有偏性。單組設(shè)計多元定量資料,可能的分析方法有多重共線性回歸分析、響應曲面回歸分析、嶺回歸分析、病態(tài)數(shù)據(jù)回歸分析等。哪一種方法最好或者比較好呢?正確的分析方案將是:分別用不同的回歸分析方法對此資料進行分析,然后對不同回歸分析方法得出的結(jié)果進行比較,哪一種方法得到的結(jié)果最符合專業(yè)實際,也就是最好或者比較好的方法。當然也有可能用現(xiàn)有的各種方法所得到的結(jié)果不具有推廣應用的價值,如果是這樣,則需要尋找別的方法。15.Poisson回歸分析Poisson回歸屬于廣義線性模型,專門適用于響應變量是計數(shù)資料的情形,可以定量地分析多個響應因素與計數(shù)的響應變量之間的關(guān)系。Poisson分布是由法國數(shù)學家S.D.Possion作為二項分布的近似而引入的,常用于描述單位時間、平面或空間中罕見“質(zhì)點”數(shù)的隨機分布規(guī)律。Poisson回歸是基于Poisson分布,用于單位時間、單位面積或單位空間內(nèi)某時間發(fā)生數(shù)(事件的發(fā)生服從Poisson分布)的響應因素分析的一種方法。前提條件:要求事件的發(fā)生是獨立的。小結(jié):Poisson回歸用于描述結(jié)果變量服從Poisson分布的資料。Poisson回歸模型與logistic回歸模型均屬于廣義線性模型,在建模的過程中除了連接函數(shù)不同外,主要的不同之處在于數(shù)據(jù)服從何種分布,適合于用何種方法建模。Poisson回歸一般用于單位時間、單位面積、單位空間內(nèi)某時間發(fā)生數(shù)的影響因素的探討,時間的發(fā)生服從Poisson分布。當結(jié)果變量是二分類或多分類時,應根據(jù)數(shù)據(jù)的分布情況看數(shù)據(jù)是滿足Poisson分布還是可通過logit變化進行l(wèi)ogistic回歸分析。16?負二項回歸與Probit回歸分析Poisson回歸分析是以計數(shù)資料為響應變量的標準回歸模型。但是在Poisson回歸分析中要求均數(shù)和方差相等,實際數(shù)據(jù)往往并不符合這一假定,方差有時會大于均數(shù),也就是所謂的過離散(0verdispersion),這將導致模型參數(shù)估計值的標準誤差偏小,參數(shù)wald檢驗的假陽性率增加。這種情況的出現(xiàn)可能是由于觀測之間不獨立導致的;而在醫(yī)學研究中,很多事件的發(fā)生是非獨立的。對于這類資料,可以采用負二項回歸分析。過離散在理解負二項回歸分析中居于中心地位,負二項回歸的每一個應用幾乎都與Poisson回歸中發(fā)現(xiàn)過離散有關(guān)。統(tǒng)計學分析的目的都是建立觀測個體產(chǎn)生某種響應的概率與各自變量水平的關(guān)系,以便通過某觀測個體各自變量的水平取值來預測其產(chǎn)生某種影響的概率。這可以通過logistic回歸分析來間接實現(xiàn),也可以通過probit回歸分析來直接實現(xiàn)。Probit回歸分析與logistic回歸分析的最大不同點在于:probit回歸分析中的響應變量不再是二值變量(取值為0或1,如是否罹患心臟病),而是0-1之間的百分比變量。17.生存資料COX模型回歸分析目前,對生存資料的多因素分析最常用的方法是C0X比例風險回歸模型頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50頁眉內(nèi)容(ProportionalHazardsRegressionModel),簡稱COX模型。該模型是一種多因素的生存分析法,它可同時分析眾多因素對生存期的影響,分析帶結(jié)尾生存時間的資料,并且不要求估計資料的生存分布類型。COX模型屬比例風險模型簇,其基本假定之一是比例風險假定(簡稱PH假定)。只有在滿足該假定前提條件下,基于此模型的分析預測才是可靠有效的。正像我們所熟知的t檢驗中的正態(tài)分布假定一樣,當使用比例風險模型時,比例風險假定應看成一個基本前提。檢查某斜變量是否滿足PH假定,最簡單的方法是觀察按該變量分組的Kaplan-Meier生存曲線。若生存曲線交叉,則提示不滿足PH假定。第2種方法是繪制按該變量分布的對生存時間t的圖,曲線應大致平行或等距。如各斜變量均滿足或近似滿足PH假定,可直接應用基本COX模型。18.生存資料參數(shù)模型回歸分析生存資料參數(shù)模型回歸分析的一個重要內(nèi)容是擬合或分布擬合。描述生存時間分布的模型通常有指數(shù)分布、Weibull分布、對數(shù)正態(tài)分布、Gamma分布等。常見生存時間分布的概率密度函數(shù)f(t)、生存函數(shù)S(t)和風險函數(shù)h(t)如下表。實際對生存數(shù)據(jù)作分布擬合時,可用上述模型分別進行擬合,根據(jù)擬合優(yōu)度檢驗的結(jié)果選擇適當?shù)哪P?。有時,對于一批生存數(shù)據(jù),事先不知道生存時間分布的總體趨勢,也不好判斷用什么樣的模型最合適,許多研究者一般直接采用非參數(shù)方法或半?yún)?shù)法。但是如果一批數(shù)據(jù)確實符合某特定的參數(shù)模型,由于非參數(shù)方法的精度一般低于參數(shù)方法,因此按照非參數(shù)方法進行的分析就不能有效地利用和闡述樣本數(shù)據(jù)所包含的信息,同時它對樣本量的要求也高于參數(shù)方法常見生存時間分布的概率密度函數(shù)f(t)、生存函數(shù)S(t)和風險函數(shù)h(t)S(t)h(t)指數(shù)分布入球weibull分布gamma分布對數(shù)正態(tài)分布6^---對數(shù)S(t)h(t)指數(shù)分布入球weibull分布gamma分布對數(shù)正態(tài)分布6^---對數(shù)logistic分布廣義gamma分布M入[小月【幻19.時間序列分析按某種(相等或不想等)的時間間隔對客觀事物進行動態(tài)觀察,由于隨機因素的影響,各次觀察的指標x1,x2,x3,…,xi…都是隨機變量,這種按時間順序排列的隨機變量的一組實測值稱為時間序列。時間序列中每一時期的數(shù)值,都是由許多不同的因素共同作用的結(jié)果,而這些因素往往交織在一起,這樣就增加了分析時間序列的困難。因此,時間序列分析通常對各種可能發(fā)生作用的因素進行分類,如長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動。時間序列分析的目的是利用所擬合的模型對某研究領(lǐng)域的動態(tài)數(shù)據(jù)的未頁眉內(nèi)容來狀況進行預測。時間序列分析大致包括三方面的內(nèi)容:(1)選擇模型并進行參數(shù)估計;(2)模型的適用性檢驗;(3)預測預報。指數(shù)平滑法指數(shù)平滑(ExponentialSmoothing)是由Brown等(Brown和Meyers于1961年;Brown于1972年)發(fā)展起來的計算模式,它擬合一種使用平滑方案的時間趨勢模型。通式是.Y......■.<,/A..,式中'為第t期平滑值(t>0),a為平滑系數(shù)(取值范圍0<a<1),為第t期實際觀測值,系數(shù)a和(1-a)都是表示權(quán)重。在此方案中,權(quán)重大小隨著時間的向后推移而呈現(xiàn)幾何級數(shù)下降。所以對于事物未來發(fā)展的回評,新近的觀測值比早期的觀測值的預測價值更大,所以在預測時,新近觀測值應比早期觀測值具有更大權(quán)重。作為一種預測方法,指數(shù)平滑預測效果的好壞取決于對這個序列選擇一個怎樣的平滑系數(shù)a。a值為0-1。一般來說,平滑系數(shù)a的取值大小應當視預測對象的特點及預測周期的長短而定。a取值偏低時,預測結(jié)果主要取決于歷史情形,不能及時跟蹤數(shù)據(jù)新的變化趨勢;a取值偏高時,預測模型具有較高的靈敏度,能夠迅速跟蹤新數(shù)據(jù)的變化,但對歷史數(shù)據(jù)的信息利用較少。在實際應用中,通常采用多個水平的a值進行試算比較,選擇其中的最優(yōu)值做為平滑系數(shù),原則是使預測誤差平方和(SSE)、平均平方誤差(MSE)或平均絕對誤差(MAE)最小。在根據(jù)上述原則進行優(yōu)選后,還應該對根據(jù)預測結(jié)果所得到的參數(shù)的合理性進行檢驗。頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50ARIMA模型19.3.譜分析應用時間序列分析的目的是進行預測和控制。時域分析是,通過建立時間序列模型對時間數(shù)據(jù)樣本進行預測和估計,展現(xiàn)數(shù)據(jù)內(nèi)在的特性。頻域數(shù)據(jù)則是從頻率角度展現(xiàn)時間序列數(shù)據(jù)的特點和規(guī)律,其中最主要的任務是通過譜分析來獲得時間數(shù)據(jù)的周期性特點,這一特點對于了解數(shù)據(jù)變化的規(guī)律來說是一個關(guān)鍵點。時間序列研究對數(shù)據(jù)的要求是比較高的。最關(guān)鍵的是,數(shù)據(jù)必須是平穩(wěn)序列。首先要進行時間序列分析,對序列的長度是有要求的,長度不能太短,應該是大樣本;但是也不能太長,至少是周期的2倍以上。當然,時間序列的頻域研究同樣也要求測量的時間間隔為等間隔。另外,若欲表達時間序列中周期值為T的信息成分,則采樣間隔不能大于T/2,該采樣定理就是Nyquist采樣定理。在進行譜分析之間要先進行數(shù)據(jù)的去趨勢化,可以通過回歸過程求剩余殘差實現(xiàn),也可以通過選項ADJMEAN來實現(xiàn)。SAS軟件的SPECTRA過程中是不允許缺失數(shù)據(jù)出現(xiàn)的,缺失數(shù)據(jù)將無法參與分析,被自動排除于分析之外。如果分析變量中出現(xiàn)缺失值時,程序自作主張將變量中沒有缺失值的最長的連續(xù)數(shù)據(jù)部分作為分析變量。在分析要注意檢查缺失數(shù)據(jù),也可以通過補充缺失數(shù)據(jù)來實現(xiàn)。19.4.X12方法X12過程是根據(jù)美國人口普查局X-12-ARIMA季節(jié)調(diào)整程序改編的,用于調(diào)整月度或季度時間序列數(shù)據(jù)。該過程包含了X-11過程、X-11-ARIMA/88模型以及一些新的特征。X12過程較X11的一個主要提高是應用regARIMA模型帶有ARIMA(AutoregressiveIntegratedMovingAverage)誤差的回歸模型,利用該模型進行移動假日、月份長度、交易日效應等固定效應的調(diào)整。X-12-ARIMA模型包含了美國人口統(tǒng)計局和加拿大統(tǒng)計局開發(fā)的季節(jié)調(diào)整模型的主要特征。對序列進行季節(jié)調(diào)整是基于這樣的假定:季節(jié)性波動可以由原始序列(Qt,t=1,…,n)中測得,并能與趨勢起伏、交易日及不規(guī)則波動分離開:這一時間序列的季節(jié)成分(St)定義為年內(nèi)的變動,從一年到一年之間恒定地取值或緩慢地變化;趨勢起伏項(Ct)包含由長期趨勢,經(jīng)濟起伏及其他長期起伏因素引起的變化;交易日成分(Dt)是由歷史交易日位置變化引起的;不規(guī)則成分(It)是殘余的變化量。對定性結(jié)果進行預測性分析20?非配對設(shè)計定性資料多重logistic回歸分析在生物醫(yī)學研究中最常見的問題之一是探索各種影響因素(自變量X)與疾病或健康(響應變量Y)之間的關(guān)系。在許多情況下,疾病和健康狀況屬于分類變量,包括二值變量、多值有序變量和多值名義變量。當響應變量為分類變量時,就不適合使用線性回歸進行分析,這時可以考慮采用多重logistic回歸。按照因變量的類型可以將logistic回歸分為三類:因變量為二值變量的logistic回歸;因變量為多值有序變量的logistic回歸,稱為累積logistic回歸模型或序次logistic回歸模型;因變量為多值名義變量的logistic回歸,稱為頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容多項logit模型。按照設(shè)計類型可以將logistic回歸模型分為非條件logistic回歸和條件logistic回歸,其中非條件logistic回歸就是指一般的logistic模型,適用于成組設(shè)計資料;條件logistic回歸則是針對配對設(shè)計資料。二值變量的多重logistic回歸分析多值有序變量的多重logistic回歸分析多值名義變量的多重logistic回歸分析配對設(shè)計定性資料多重logistic回歸分析配對設(shè)計能夠改善兩組研究對象的齊同性,提高研究效率。配對的因素一般是年齡、行唄等重要的混雜因素。最常見的配對形式是每個匹配組中有一個病例和若干個對照,稱為1:m配對設(shè)計;當然,不同匹配組中病例和對照的人數(shù)也可以是任意的,也就是說不同匹配中病例數(shù)與對照數(shù)的比例可以不相等,稱為m:n配對設(shè)計。討論此類問題時,因關(guān)心的是在某一給定的條件下某事件發(fā)生的概率,這一概率稱為條件概率,故將此類logistic回歸稱為條件logistic回歸,將非配對設(shè)計資料的logistic回歸稱為非條件logistic回歸。1:1配對設(shè)計定性資料的多重logistic回歸分析m:n配對設(shè)計定性資料的多重logistic回歸分析原因變量為定量變量的判別分析根據(jù)明確分類的受試對象(或樣品)的多個定量指標的取值建立一個或

多個關(guān)系式(判別函數(shù)式,通常具有一定程度的出錯概率),再根據(jù)某種或

頁腳內(nèi)容50頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50某些規(guī)則,基于已建立的判別函數(shù)式實現(xiàn)對歸屬尚不明確的哪些新個體的分類或判別,這樣一種研究方法被稱為判別分析。很顯然,判別分析中的結(jié)果變量為分類變量(二分類變量或多分類變量)。小結(jié):適于處理定量資料的判別分析方法比較多,其中又分為參數(shù)法和非參數(shù)法。參數(shù)法通常要求定量資料服從多元正態(tài)分布,最好類與類之間方差和協(xié)方差矩陣相等。但是,SAS軟件中并沒有提供檢驗定量資料是否服從多元正態(tài)分布的方法,故只能假定該條件滿足。在多元正態(tài)分布的假定成立的前提下,若方差和協(xié)方差矩陣相等,則將各類資料合并求方差和協(xié)方差矩陣進而計算線性判別函數(shù)的系數(shù);否則,采用各類資料的方差和協(xié)方差矩陣計算二次型判別函數(shù)的系數(shù)。有時,非參數(shù)判別法的效果很好,它可以通過改變其待定系數(shù)的值,來獲得比較滿意的判別結(jié)果。例如,可以改變K最近鄰判別法中的K值或改變核密度判別法中的兩個選項,即改變R值或和核密度的形式(共有正態(tài)核密度、均勻核密度等5中選項)。在采用參數(shù)法和非參數(shù)法對定量資料進行判別分析之前,最好采用逐步判別分析方法進行變量篩選,以便淘汰掉無區(qū)分能力的定量變量,有利于提供判別的效果。而且,對于原因變量為定量變量的判別分析,宜先采用逐步判別分析法篩選變量,再對保留下來的定量變量采用參數(shù)法和非參數(shù)法進行判別分析,并盡可能將可變系數(shù)或選項取遍各種可能的情況,從中選擇從中選擇使交叉驗證的誤判率最低的方法。頁眉內(nèi)容SAS中的典型判別分析并太常用,因為它沒有提供回代判別和交叉驗證的結(jié)果,只能借用FREQ過程間接實現(xiàn)回代判別。另外,盡量不要采用多重logistic回歸分析來間接實現(xiàn)判別分析,因為常得不到方程中參數(shù)的最大似然估計值,有時即便得到了參數(shù)估計值,也只能用FREQ過程得到回代判別結(jié)果,沒有交叉驗證結(jié)果,而且一般情況下誤判率比較高;雖然用二值線性回歸分析間接實現(xiàn)判別分析比較簡單,但其誤判率一般也比較高,并且只能用FREQ過程間接實現(xiàn)回代判別。原因變量為定性變量的判別分析結(jié)果變量是定性的,原因變量也是定性的,對這類資料進行判別分析時所用的方法叫做原因變量為定性變量的判別分析。適于處理這種資料的判別分析方法很少,一般只有最大似然判別法和貝葉斯公式判別法。決策樹分析25.神經(jīng)網(wǎng)絡(luò)分析多變量間相互與依賴關(guān)系分析26.主成分分析主成分分析(principalcomponentsanalysis),它是將多個變量(或指標)化為少數(shù)幾個互不相關(guān)的綜合變量(指標)的統(tǒng)計分析方法。主成分實際上就是由原變量線性組合出來的m個互不相關(guān)且未丟失任何信息的新變量,也稱為綜合變量。多指標的主成分常被用來需找判斷某種十五或現(xiàn)象的綜合指標,并給綜合指標所蘊藏的信息以恰當解釋,以便更深刻地揭示事物內(nèi)在的規(guī)律。對于單組設(shè)計多元定量資料,根據(jù)不同的研究目的,可有多種不同的統(tǒng)計統(tǒng)計分析方法供選用。目的一:希望以互不相關(guān)的較少的綜合指標(這些綜合指標是不能直接測量的)來反映原始指標所提供的大部分信息時,即希望找出“幕后”操縱原變量取值規(guī)律的隱變量時,可選用主成分分析。目的二:希望用較少的互相獨立的公共因子反映原有變量的絕大部分信息,即希望以最少的信息丟失將眾多原有變量濃縮成少數(shù)幾個具有一定命名解釋性的公共因子,可選用探索性因子分析。主成分分析是將主成分表示為原始變量的線性組合,而因子分析是將原始變量表示為公共因子和特殊因子的線性組合。探索性因子分析比主成分分析更強調(diào)隱變量的實際意義,并且由于因子分析允許特殊因子的存在將得到較主成分分析更為精確的結(jié)果。一般而言,僅想把現(xiàn)有變量縮減為少數(shù)幾個新變量而從進行后續(xù)的分析,采用主成分分析即可。小結(jié):1、主成分是原變量的線性組合,是對原變量信息的一種提取,主成分不增加總信息量,也不減少總信息量,只是對原信息進行了重新分配。當變量之間的相關(guān)性較小時,應用主成分分析是沒有意義的。2、主成分個數(shù)的確定依賴于主成分的貢獻大小。3、主成分分析本身往往并不是目的,而是達到目的的一種手段;可用于多重回歸分析,主要解決自變量間的共線性問題;可用于因子分析、聚類頁眉內(nèi)容分析、判別分析等,主要目的是減少變量個數(shù)(統(tǒng)計上成為降維)等。27.探索性因子分析因子分析最早由CharlesSpearman在1904年提出,其基本思想是通過對原始變量(或樣品)的相關(guān)系數(shù)矩陣(對樣品而言)內(nèi)部結(jié)構(gòu)的研究,找出能控制所有變量(或樣品)的少數(shù)幾個隨機變量去描述多個變量(或樣品)之間的相關(guān)(相似)關(guān)系。但這幾個隨機變量是不可觀測的,通常稱為公共因子。然后根據(jù)相關(guān)性(或相似性)的大小把變量(或樣品)分組使得同組內(nèi)的變量(或樣品)之間的相關(guān)性(或相似性)較高,而不同組的變量相關(guān)性(或相似性)較低。由于各變量存在一定的相關(guān)關(guān)系,因此有可能用較少的不相關(guān)的公共因子來綜合存在于變量中的各類信息。同時提取出的公共因子保持了相互獨立的良好特性,有效地克服了變量間可能存在的多重共線性問題。從全部計算過程來看,對同一批觀測數(shù)據(jù),R型因子分析和Q型因子分析是一樣的,只不過出發(fā)點不同,R型從相關(guān)系數(shù)矩陣出發(fā),Q型從相似系數(shù)矩陣出發(fā)。小結(jié):1、因子分析是用較少的互相獨立的公共因子反映原有變量的絕大部分信息的多元統(tǒng)計分析方法,即研究如何以最少的信息丟失將眾多原有變量濃縮成少數(shù)幾個具有一定命名解釋性的公共因子。2、因子載荷「是第i個變量、與第j個公共因子,〔的相關(guān)系數(shù),即表示、依賴£的份量(比重)。變量孤的共同度定義為因子載荷陣A中第i行元素的平頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50方和。公共因子的方差貢獻定義為載荷陣A中第j列元素的平方和。對因子載荷矩陣A的估計方法很多,有主成分法、極大似然法、主因子法等。3、因子分析的目的之一就是要對所提取的抽象公共因子的實際含義進行合理解釋,即對公共因子進行命名。在實際工作中,從直接根據(jù)特征根、特征向量求得的因子載荷陣難以看出公共因子的含義。為了更好地解釋每個初始公共因子的實際意義,根據(jù)因子載荷陣的不唯一性,通常還要進行因子旋轉(zhuǎn)。4、因子得分是因子分析的最終體現(xiàn)。當因子載荷陣確定以后,對每一個樣品而言,希望得到它在不同公共因子上的具體數(shù)值。這些數(shù)值稱為每個樣品的因子得分。計算出因子得分以后,就可以用因子得分來代替原始變量的取值,從而達到降維的效果。28.路徑分析面對“單組設(shè)計多元定量資料”這樣數(shù)據(jù)結(jié)構(gòu)的資料,如何選擇統(tǒng)計分析方法不能一概而論。一要看有無附加信息,二要看附加信息的多少,三要看分析目的。1、沒有任何附件信息。此時,意味著全部定量資料之間沒有自變量與因變量之分,事先對那些無法觀測但卻又有一定影響的“隱變量”不做任何明確的限定,僅就給定的那些定量變量及其取值,研究它們之間的相互和依賴關(guān)系,即使涉及某些“隱變量”,他們也僅僅是全部顯變量(可觀測變量)的線性組合而已。可選擇的統(tǒng)計分析方法有變量聚類分析、樣品聚類分析(注意,基于相關(guān)矩陣的數(shù)據(jù)結(jié)構(gòu)無法實現(xiàn)樣品聚類分析的計算)、主成分分析、探索性因子分析、定量資料對應分析、多維尺度分析,但它們所能達到的分析目的是不盡相同的。2、僅有少量附加信息且不考慮無法觀測但卻又有一定影響的“隱變量”的作用。(1)僅有一個變量是人們關(guān)心的結(jié)果變量,其他變量全為可能對結(jié)果變量有影響的自變量。此時,可選用的統(tǒng)計分析方法有多重線性回歸分析、主成分回歸分析、路徑分析,它們分析的目的大同小異。(2)全部定量變量可分為兩部分:一部分屬于原因變量,另一部分屬于結(jié)果變量。分析目的是希望研究這兩部分定量變量之間關(guān)系的信息,此時,可選用典型相關(guān)分析。3、關(guān)于定量變量彼此之間關(guān)系的信息。(1)能明確告知哪些變量屬于真正的外生變量(它們只會影響其他變量,而其他變量不會影響它們),哪些顯變量屬于中間變量(它們不僅受某些變量的影響,而且,它們還會影響另外一些變量)、哪些顯變量屬于真正的結(jié)果變量(它們不僅受外生變量和中間變量的影響,而且還會受到某些隱變量的影響)。此時,為了定量地描述結(jié)果變量如何依賴外生變量、中間變量和隱變量的依賴關(guān)系,可選用證實性因子分析。(2)在可用證實性因子分析的資料中,若依據(jù)專業(yè)知識,則還知道隱變量之間的相互和依賴關(guān)系。此時,為了定量地描述結(jié)果變量如何依賴外生變量、中間變量和隱變量的依賴關(guān)系,可選用結(jié)構(gòu)方程模型分析。路徑分析:若設(shè)Y為結(jié)果變量,當分析目的是研究Y與其他自變量之間的依賴關(guān)系頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容50時,可考慮采用多重線性回歸分析。現(xiàn)在的分析目的是:研究一個正常成年人的智商是如何受到其父親的教育程度(XI)、父親的職業(yè)價值(X2)、自己在兒童期的智商(X3)和自己在兒童期所受的教育程度(X4)的影響的。為實現(xiàn)此分析目的,適合選擇路徑分析??梢罁?jù)基本常識和專業(yè)知識繪出反映這些變量之間相互和依賴關(guān)系的路徑圖。如下圖:小結(jié):此方法與多重線性回歸分析、相關(guān)分析、因子分析等有著很多相似之處但它們彼此之間又有些區(qū)別。相關(guān)分析著重研究變量之間的相互關(guān)系,多重線性回歸分析著重反映因變量對自變量的線性依賴關(guān)系,因子分析著重揭示隱變量是如何控制或影響顯變量的變化規(guī)律的,而路徑分析則更關(guān)心的是結(jié)果變量(顯變量)如何受全部原因變量(即自變量,它們都是顯變量)直接和間接影響的。證實性因子分析證實性因子分析是在探索性因子分析的基礎(chǔ)上發(fā)展起來的一種多元統(tǒng)計分析方法。對于探索性因子分析,研究者事先并不清楚或不確定潛在因子與觀測變量之間的關(guān)聯(lián),也不知道觀測變量會隱含多少個潛在因子。如果研究者根據(jù)以往的研究經(jīng)驗或根據(jù)探索性因子分析的結(jié)果對索要研究的觀測變量與潛在因子之間的內(nèi)在結(jié)構(gòu)已經(jīng)清楚,也就是說,已經(jīng)清楚哪些觀測變量可能被哪些潛在因子影響,只需進一步確定觀測變量在潛在因子上的載荷大小,并驗證這種結(jié)構(gòu)與數(shù)據(jù)的吻合程度,這時所進行的分析即為證實性因子分析。證實性因子分析是結(jié)構(gòu)方程模型的一種特例,從形式上看就是結(jié)構(gòu)方程模型的測量模型部分,因此,它的分析原理及分析過程與結(jié)構(gòu)方程模型是完全一樣的。結(jié)構(gòu)方程模型分析對很多社會、心理及醫(yī)學領(lǐng)域的研究所涉及的變量,都不能準確、直接地測量,這種變量稱為潛變量(LatentVariable),如顧客滿意度、自信心、生存質(zhì)量等。這時,我們只能退而求其次,用一些外顯指標,去間接測量這些潛變量,這些外顯指標成為觀測變量(ObservedVariable)。在研究變量之間的復雜因果關(guān)系時,如果涉及潛變量,傳統(tǒng)的分析方法(如回歸分析、路徑分析等)均顯得無能為力。近些年逐漸興起并日益被廣泛應用的結(jié)構(gòu)方程模型(StructuralEquationModel,SEM)則具備了解決上述問題的功能。結(jié)構(gòu)方程模型是自20世紀60、70年代出現(xiàn)的新興的統(tǒng)計分析手段,稱為今年來統(tǒng)計學三大進展之一。結(jié)構(gòu)方程模型彌補了傳統(tǒng)統(tǒng)計方法的不足,它既可研究可觀測變量,又可研究不能直接觀測的變量(隱變量);它不僅能研究變量之間的直接作用,可以研究變量之間的間接作用,通過路徑圖直觀地顯示變量之間的關(guān)系;通過結(jié)構(gòu)方差模型可構(gòu)建出隱變量之間的關(guān)系,并驗證這種結(jié)構(gòu)關(guān)系是否合理。結(jié)構(gòu)方程模型由兩部分構(gòu)成:測量模型和結(jié)構(gòu)模型。其中,測量模型是度量觀測變量與潛在因子之間的關(guān)聯(lián)關(guān)系,結(jié)構(gòu)模型是度量潛在因子之間的結(jié)構(gòu)關(guān)系,包括直接的影響關(guān)系和間接的影響關(guān)系。其實,測量模型就是證實性因子分析模型。若把結(jié)構(gòu)模型中的潛在因子視為觀測變量,則結(jié)構(gòu)模型就是通經(jīng)分析模型。因此,結(jié)構(gòu)方程模型是證實性因子分析和通經(jīng)分析的結(jié)合。典型相關(guān)分析典型相關(guān)分析(CanonicalCorrelationAnalysis)是研究兩組變量之間相關(guān)關(guān)系的一種多元統(tǒng)計方法。該法最早由Hotelling提出,它利用主成分分析的思想,將多個變量與多個變量之間的相關(guān)轉(zhuǎn)化為少數(shù)幾對新的綜合變量之間的關(guān)系。在研究兩個變量之間的相關(guān)關(guān)系時,可以使用Pearson相關(guān)系數(shù);當研究一個變量和多個變量之間的相互關(guān)系時,可以使用復相關(guān)系數(shù)與偏相關(guān)系數(shù)。然而,在實際工作中,常常需要研究兩組變量之間的相互關(guān)系。對于這類資料,自然可以逐一計算兩組中任意一對變量之間的Pearson相關(guān)系數(shù),但是這樣做既非常繁瑣,也無法從整體反映兩組變量之間的相關(guān)關(guān)系。此時,可以考慮在兩組變量中分別提取兩個綜合變量U和V,希望使U和V之間的相關(guān)達到最大,利用這兩個綜合變量之間的相關(guān)性來反映兩組變量之間的整體相關(guān)性。U和V稱為典型相關(guān)變量,它們之間的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。這種通過較少的典型相關(guān)變量之間的典型相關(guān)系數(shù)來綜合描述兩組變量之間相關(guān)關(guān)系的統(tǒng)計分析方法就是典型相關(guān)分析。變量或樣品間親疏關(guān)系或近似程度分析變量聚類分析聚類分析的主要目的是將相似的樣品(或變量)放在一類中,對樣品(或變量)親疏關(guān)系描述的尺度最多,目前用得最多的有以下兩種:一種是相似系數(shù),即性質(zhì)越接近的事物,它們的相似系數(shù)的絕對值越接近1,而性質(zhì)越無關(guān)的事物,它們的相似系數(shù)越接于0;另一種是距離,距離越近的事物歸為一類,距離較遠的事物歸為不同的類。距離系數(shù)一般用于對樣品進行分類,而相似系數(shù)一般用于對變量進行聚類。變量聚類分析時,通常采用相似系數(shù)來表示變量之間的親疏程度,常用的相似系數(shù)主要有相關(guān)系數(shù)和夾角余弦。無序樣品聚類分析樣品聚類分析(Q型聚類)是將樣本按其特征進行分類的一種多元統(tǒng)計分析方法,其目的是將分類不明確的樣品按性質(zhì)的相似程度分為若干個類,從而發(fā)現(xiàn)同類間的相似性和不同類間的差異性。聚類時,不考慮樣品在個某個因素上的有序性,即任意樣本均有可能根據(jù)其特性聚為一類,此時所采用的聚類分析稱為無序樣品聚類。例如,在某疾病的研究中,抽取若干名此疾病的受試者,獲得多個觀測的取值情況,即可采用無序樣品聚類分析將全部患者聚為幾類,同類中患者在這些觀測指標上的情況比較接近,不同類中患者在這些指標上的情況則存在較大差異。有序樣品聚類分析有序樣品聚類,顧名思義就是樣品按一定順序排列,聚類時,只能在相鄰樣品中進行劃分,而不能將不相鄰的某些樣品聚在同一類中。具體地說假定有10個有序樣品,把它們按一定順序排列后,在它們之間就有9個“間隔”,若希望把他們分為3類,則需要從9個間隔中選擇2個間隔,分別插入“標記”,這樣就把10個有序樣品分成了3段。這3段中的每一個段分別包含幾個樣品,取決于劃分的標準,即在什么意義下得到一種劃分的結(jié)果。對有序樣品聚類,常采用費歇最優(yōu)解法。35.綜合評價綜合評價(SyntheticEvaluation)是人類社會中一項經(jīng)常性、極其重要的認識活動,是決策中的一項基礎(chǔ)工作。所謂綜合評價,就是指運用多個指標對多個受評對象進行評價的方法,也稱為多變量綜合評價方法或簡稱綜合評價方法,其基本思想就是將多個指標轉(zhuǎn)化為一個能夠反映綜合情況的指標來進行評價。幾種常用的綜合評價法:一、構(gòu)建指標法(1)構(gòu)建指標體系采用綜合評分法進行綜合評價時,應先構(gòu)建指標體系,一般有2-3級。例如分3個等級的指標體系,有k個一級指標、m個二級指標、n個三級指標,數(shù)據(jù)結(jié)構(gòu)如下表:一級指標二級指標三級指標評價分值A(chǔ)1A11A111A11251115112A12A121S121A122S122…An1…An1An11Sn11An12Sn12A12…An21…Sn21An22Sn22對于各評價對象,需根據(jù)實際情況得到第3等級指標的評分變量S111,S112,…的實際得分值。(2)選取專家、調(diào)整判斷依據(jù)對專家判斷的影響程度分值1)在此綜合評價過程中,擬采用特爾菲爾專家咨詢法征求專家對每一門課程的意見。特爾菲爾專家咨詢法是采取匿名函方式征求專家的意見,參加應答的專家各自獨立地按照自己的觀點應答。每一輪專家的意見都要通過統(tǒng)計處理,在開始新的一輪咨詢的同時,反饋上一輪專家的集體意見,供他們作為此輪應答時的參考。一般經(jīng)過2-4輪反饋溝通,使多數(shù)專家的意見漸趨一致。2)對分值進行統(tǒng)計處理的方法:一般用算數(shù)平均數(shù)、工.\幾,反映專家們的集中意見(某評價指標的分值);用變異系數(shù)兀廠n....反映專家們意見的離散程度,對CV超過20%(用X標出)的指標,視專家的權(quán)威程度及導向性,將分值進行適當調(diào)整。3)咨詢專家的選取原則是:積極性,即所選專家對本課題的研究感興趣,愿意并有時間參加咨詢?nèi)^程。用積極性系數(shù)D=(m/M)X100%反映專家們的積極性,其中m代表回答專家咨詢表人數(shù)、M代表咨詢表發(fā)出份數(shù);代表性,即專家的單位分布或研究范圍的覆蓋面要廣;權(quán)威性,即所選專家對本研究應比較了解和熟悉,用權(quán)威系數(shù)Ca=(Ci+Cs)/2表示,其中:Ci判斷依據(jù)對專家判斷的影響程度分值,Cs為專家對指標的成熟程度分值,取值表如下:判斷依據(jù)分值*:大中小理論分析0.300.200.10直觀0.100.070.05合計1.000.750.50表中*代表“專家判斷的影響程度”(3)專家情況及各輪咨詢結(jié)果1)專家情況積極性。第1輪專家的積極性系數(shù)為96.7%,第2輪專家的積極性系數(shù)為93.3%。代表性。在選擇的10所醫(yī)學專科院校中,每個學校選2-3人,共選取了28位專家。其中,校領(lǐng)導3人、教務干部10人、其他為醫(yī)學教育研究室主任、專家教授。權(quán)威性。在28名被調(diào)查的專家中,有21人具有高級職稱(占75%)。判斷依據(jù)對專家判斷影響程度分值(用Ci表示)如上圖。專家對指標內(nèi)容的熟悉程度得分(即Cs值)按照熟悉(1.0)、較熟悉(0.8)、一般(0.5)、不太熟悉(0.2)進行賦值,由專家根據(jù)自己的實際情況來選擇。28名專家的權(quán)威系數(shù)均數(shù)為0.907、變異系數(shù)為6.25%,說明專家整體權(quán)威性大且變異小,從而有效地保證了咨詢結(jié)果的可靠性。2)各級指標權(quán)重(或分值)咨詢情況在第1輪專家咨詢后,對變異系數(shù)大于20%的項目進行適當調(diào)整,得到新的分值后再進行第2輪專家咨詢。資料經(jīng)統(tǒng)計學處理后,對個別變異系數(shù)大于20%的項目,依均數(shù)大小及上級領(lǐng)導的導向性等情況稍作改動,就得到了最后確定的分值。、二指標。一級指標的分值咨詢結(jié)果如下圖:級扌曰標及其編號原權(quán)重CV1(%)修改后權(quán)重CV2(%)確定權(quán)重1?師資隊伍0.217.70.222.90.30.30.25784/54??:0.229.3:0.24?教學管理與改革0.20580.2057.640.2注:下標1、2分別表示第1、第2輪結(jié)果。二級指標的分值咨詢結(jié)果如下圖:二級指標及其編號原分值CV1(修改后分CV2(確定分頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容分值Si頁腳內(nèi)容分值Si頁腳內(nèi)容50分值Si頁腳內(nèi)容分值Si頁腳內(nèi)容50%)%)1.1思想政治素質(zhì)17.20441.09202013.62014.3教學檔案?40.4027.7930?29.510.6?307注:下標%)%)1.1思想政治素質(zhì)17.20441.09202013.62014.3教學檔案?40.4027.7930?29.510.6?307注:下標1、2分別表示第1、第2輪咨詢的結(jié)果三級指標。三級指標分值的咨詢過程與二級指標類似。在第2輪咨詢時,又增加了重要性系數(shù),即對每一項三級指標專家按照其在課程評估中的重要程度分6個等級,用數(shù)字從5至0依次遞減打分,最重要的打5分,沒作用的打0分,處于中間的視其重要性打4、3、2或1分,結(jié)果如下圖。三級指標及其編號CV1(修改后分CV2(確定C%)值■%)分值-C(%)1.1.1敬業(yè)精神8.939.51011.23.7124.813.914.3.3各教學班次課“c程總結(jié)0注:表中最后兩列表示對各三級指標的重要性打分及其變異系數(shù)。差異性分析。一級指標各項目下對應的三級指標重要程度109.516.693.921.4打分情況,均數(shù)依次為3.96、4.34、4.41、4.24,經(jīng)單因素四水平設(shè)計定量資料方差分析處理,說明一級指標不同項目重要程度間差異有統(tǒng)計意義(P<0.01),教學質(zhì)量最重要。(4)確定指標體系最后確定了一級指標的權(quán)重、二級和三級指標的分值,得到了可以用于對醫(yī)學專科院校評估優(yōu)秀課程的指標體系,如下圖。一級指標權(quán)重Wi一級指標權(quán)重Wi二級指標值分三級指標

值頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁眉內(nèi)容頁腳內(nèi)容頁腳內(nèi)容50頁腳內(nèi)容頁腳內(nèi)容501.師資隊伍0.25質(zhì)1.1思想政治素021.1.1敬業(yè)精神質(zhì)1.師資隊伍0.25質(zhì)1.1思想政治素021.1.1敬業(yè)精神質(zhì)01.1.2教風1.2隊伍結(jié)構(gòu)1.2.1技術(shù)職務結(jié)構(gòu)1.2.2學歷結(jié)構(gòu)12810104?教學管理與改革0.24.1教學改革4.1.1教學改革計劃4.1.2三年內(nèi)教學改革教育研究成果4.2教學組織實施4.2.1集體備課4.3教學檔案新教員試講老教員新內(nèi)容試講室內(nèi)檢查性聽課與學員評教考試組織管理4.3.1授課計劃1020101010109TOC\o"1-5"\h\z4.3.2教案124.3.3各班次教學總結(jié)95)計算各門課程的綜合評價總分各評價項目(三級指標)的等級評定,可按被評價

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論