版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
-.z.目錄實(shí)驗(yàn)一 描述性分析實(shí)驗(yàn)二 正態(tài)總體的均值檢驗(yàn)實(shí)驗(yàn)三 非參數(shù)檢驗(yàn)實(shí)驗(yàn)四 方差分析實(shí)驗(yàn)五 回歸分析實(shí)驗(yàn)六 判別、聚類分析實(shí)驗(yàn)七 主成分分析實(shí)驗(yàn)八 因子分析實(shí)驗(yàn)一 描述性分析【實(shí)驗(yàn)?zāi)康摹空莆諗?shù)字特征的計(jì)算〔A〕;2. 掌握相關(guān)矩陣計(jì)算〔A〕?!緦?shí)驗(yàn)原理】數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來(lái)的大量第一手資料和第二手資料進(jìn)展分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用;是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。要對(duì)數(shù)據(jù)進(jìn)展分析,當(dāng)然要分析數(shù)據(jù)中包含的主要信息,即要分析數(shù)據(jù)的主要特征,也就是說,要研究數(shù)據(jù)的數(shù)字特征。對(duì)于數(shù)據(jù)的數(shù)字特征,要分析數(shù)據(jù)的集中位置、分散程度。數(shù)據(jù)的分布是正態(tài)的還是偏態(tài)等。對(duì)于多元數(shù)據(jù),還要分析多元數(shù)據(jù)的各個(gè)分量之間的相關(guān)性等。【實(shí)驗(yàn)工程設(shè)計(jì)】給定一組單變量數(shù)據(jù),分組計(jì)算均值、方差、Q1、Q3、偏度、峰度。給定一組多變量數(shù)據(jù),計(jì)算相關(guān)矩陣?!緦?shí)驗(yàn)容】一、單樣本的數(shù)字特征計(jì)算(習(xí)題1.4)從*商店的營(yíng)業(yè)日中隨機(jī)抽取12天,得日營(yíng)業(yè)額數(shù)據(jù)為〔單位:萬(wàn)元〕:12.5,17.2,9.1,25.4,31.2,20,18.9,22.8,21.1,17.8,25.1,27.7試求樣本均值、樣本方差、樣本變異系數(shù)、樣本中位數(shù)、上樣本四分位數(shù)、下樣本四分位數(shù)、樣本四分位數(shù)間距和極差。1. 建數(shù)據(jù)集Datad4;Input*;Cards;12.517.29.125.431.22018.922.821.117.825.127.7;Run;2. 使用"SAS/分析家〞菜單翻開"分析家〞界面。選擇SAS界面的級(jí)聯(lián)菜單:"解決方案〞"分析〞"分析家〞。調(diào)出數(shù)據(jù)文件Work.D4。在界面的空白處,右鍵彈出菜單,選擇級(jí)聯(lián)菜單:"文件〞"按SAS名稱翻開〞。依次選擇邏輯庫(kù)和文件對(duì)象,分別為"Work〞、"D4〞,單擊"確定〞按鈕。確定分析方法。選擇界面上的級(jí)聯(lián)菜單:"統(tǒng)計(jì)〞"描述性統(tǒng)計(jì)〞"分布〞輸送變量。首先選中變量"*〞,然后單擊"Analyst〞按鈕。即完成變量的輸送,確定變量"*〞作為分析變量。單擊"OK〞。得到輸出結(jié)果上述使用"分析家〞的調(diào)用過程等價(jià)于程序調(diào)用univariate過程:procunivariatedata=d4;Var*;Run;3. 解答樣本均值mean= 樣本方差Variance=樣本變異系數(shù)CoeffVariation=樣本上四分位數(shù)75%Q3=樣本中位數(shù)Median=樣本下四分位數(shù)25%Q1=極差Range=樣本四分位數(shù)間距InterquartileRange=二、相關(guān)矩陣計(jì)算(例3.2.3)今對(duì)31個(gè)人進(jìn)展人體測(cè)試,考察或測(cè)試的七個(gè)指標(biāo)是:年齡(*1)、體重(*2)、肺活量(*3)、1.5英里跑的時(shí)間(*4)、休息時(shí)的脈搏(*5)、跑步時(shí)的脈搏(*6)和跑步時(shí)記錄的最大脈搏(*7)。數(shù)據(jù)列于表3.2.1?,F(xiàn)欲對(duì)這些指標(biāo)作一些相關(guān)分析。1. 對(duì)于給定E*CEL數(shù)據(jù)文件,導(dǎo)入數(shù)據(jù)建數(shù)據(jù)集e323.sas7bdat2. 使用SAS/INSIGHT菜單3. 輸出實(shí)驗(yàn)二 正態(tài)總體的均值檢驗(yàn)【實(shí)驗(yàn)?zāi)康摹空莆諉握龖B(tài)總體樣本的均值檢驗(yàn)〔B〕;掌握兩獨(dú)立組樣本(服從正態(tài)總體)進(jìn)展均值比較〔A〕;掌握兩對(duì)照組樣本(服從正態(tài)總體)進(jìn)展均值比較〔A〕;了解兩組樣本均值差的置信區(qū)間計(jì)算〔C〕?!緦?shí)驗(yàn)原理】單樣本總體均值的t檢驗(yàn)兩獨(dú)立組樣本總體的方差比較【實(shí)驗(yàn)工程設(shè)計(jì)】單個(gè)正態(tài)總體的均值檢驗(yàn);兩獨(dú)立組樣本(服從正態(tài)總體)進(jìn)展均值比較檢驗(yàn);兩對(duì)照組樣本(服從正態(tài)總體)進(jìn)展均值比較檢驗(yàn)?!緦?shí)驗(yàn)容】一、單個(gè)正態(tài)總體的均值檢驗(yàn)(習(xí)題1.4)從*商店的營(yíng)業(yè)日中隨機(jī)抽取12天,得日營(yíng)業(yè)額數(shù)據(jù)為〔單位:萬(wàn)元〕:12.5,17.2,9.1,25.4,31.2,20,18.9,22.8,21.1,17.8,25.1,27.7試檢驗(yàn):μ0=10。1. 建數(shù)據(jù)集Datad4;Input*;Cards;12.517.29.125.431.22018.922.821.117.825.127.7;Run;2. 使用"SAS/分析家〞菜單翻開"分析家〞界面。調(diào)出數(shù)據(jù)文件Work.D4。確定分析方法。選擇界面上的級(jí)聯(lián)菜單:"統(tǒng)計(jì)〞"假設(shè)檢驗(yàn)〞"均值的單樣本T檢驗(yàn)〞輸送變量。確定變量"*〞為分析變量。得到輸出結(jié)果3. 解答H0:μ0=10H1:μ0≠10檢驗(yàn)方法:t檢驗(yàn)統(tǒng)計(jì)量取值: t=____檢驗(yàn)p值=_______結(jié)論:拒絕/承受H0.兩獨(dú)立組樣本(服從正態(tài)總體)進(jìn)展均值比較(習(xí)題1.22)為比較甲、乙兩種安眠藥的療效,將20名患者分成兩組,每組10人,假定服藥后延長(zhǎng)的睡眠時(shí)間都近似服從正態(tài)分布且方差相等,測(cè)得其數(shù)據(jù)如下:1.9,0.8,1.1,0.1,-0.1,4.4,5.5,1.6,4.6,3.40.7,-1.6,-0.2,-1.2,-0.1,3.4,3.7,0.8,0,2試問在顯著性水平a=0.05下檢驗(yàn)兩種安眠藥的療效有無(wú)顯著性差異,p值是多少.1. 建數(shù)據(jù)集前面的"分析家〞界面不要關(guān)閉,切換到程序編輯窗口,輸入程序。Datad22;Input*y;Cards;1.90.70.8-1.61.1-0.20.1-1.2-0.1-0.14.43.45.53.71.60.84.603.42;Run;2. 使用"SAS/分析家〞菜單回到"分析家〞界面,調(diào)出數(shù)據(jù)文件work.d22確定分析方法。選擇級(jí)聯(lián)菜單:"統(tǒng)計(jì)〞"假設(shè)檢驗(yàn)〞"均值的雙樣本T檢驗(yàn)〞設(shè)置數(shù)據(jù)集work.d22中,各樣本分組數(shù)據(jù)對(duì)應(yīng)的變量個(gè)數(shù):"Twovariables〞。輸送變量。將變量"*〞輸送給"group1”,"y〞輸送輸出結(jié)果如下涉及到兩獨(dú)立組的方差,繼續(xù)檢驗(yàn)兩組方差是否相等。回到"分析家〞界面上,選擇級(jí)聯(lián)菜單"統(tǒng)計(jì)〞"假設(shè)檢驗(yàn)〞"方差的雙樣本T檢驗(yàn)〞輸送變量。將變量"*〞輸送給"group1”,"y〞輸送給"group2〞,單擊"OK〞輸出結(jié)果如下3. 解答H0:σ1=σ2H1:σ1≠σ2檢驗(yàn)方法:F檢驗(yàn)統(tǒng)計(jì)量取值:F=____檢驗(yàn)p值=_______結(jié)論:拒絕/承受H0.兩獨(dú)立組的方差是/否相等。H0:μ1=μ2H1:μ1≠μ2檢驗(yàn)方法:t檢驗(yàn)統(tǒng)計(jì)量取值:t=____檢驗(yàn)p值=_______結(jié)論:拒絕/承受H0.兩種安眠藥的療效有/無(wú)顯著性差異三、兩對(duì)照組樣本(服從正態(tài)總體)進(jìn)展均值比較〔習(xí)題1.24〕甲、乙兩種稻種分別播種在10塊試驗(yàn)田中,每塊試驗(yàn)田甲、乙稻種各種一半。假設(shè)同一塊田中兩種作物的產(chǎn)量之差服從正態(tài)分布?,F(xiàn)獲10塊田的成對(duì)產(chǎn)量如下表所示〔單位:公斤〕,試問兩種稻種產(chǎn)量有無(wú)顯著性差異〔a=0.05〕,p值是多少.12345678910甲種140137136140145148140135144141乙種1351251401281311301401311251. 建數(shù)據(jù)集Datad24;Input*y;Cards;140 135137 136 125140 140145 128148 131140 130135 140144 131141 125;Run;2. 使用"SAS/分析家〞菜單回到"分析家〞界面,調(diào)出數(shù)據(jù)文件work.d24確定分析方法。選擇級(jí)聯(lián)菜單:"統(tǒng)計(jì)〞"假設(shè)檢驗(yàn)〞"均值的雙樣本成對(duì)T檢驗(yàn)〞輸送變量。設(shè)置各分組數(shù)據(jù)對(duì)應(yīng)的變量個(gè)數(shù):"Twovariables〞,并輸送變量"*〞"y〞,單擊"OK〞,得到輸出結(jié)果如下:3. 解答H0:μ1=μ2H1:μ1≠μ2檢驗(yàn)方法:t檢驗(yàn)統(tǒng)計(jì)量取值:t=____檢驗(yàn)p值=_______結(jié)論:拒絕/承受H0,兩種稻種產(chǎn)量有/無(wú)顯著性差異.實(shí)驗(yàn)三 非參數(shù)檢驗(yàn)【實(shí)驗(yàn)?zāi)康摹空莆湛ǚ綑z驗(yàn)〔A〕;熟悉符合檢驗(yàn)、符號(hào)秩和檢驗(yàn)、秩和檢驗(yàn)?!緦?shí)驗(yàn)原理】非參數(shù)統(tǒng)計(jì)是統(tǒng)計(jì)分析的重要組成局部。可是與之很不相稱的是它的理論開展遠(yuǎn)遠(yuǎn)不及參數(shù)檢驗(yàn)完善,因而比較完善的可供使用的方法也不多。在SAS中,非參數(shù)統(tǒng)計(jì)主要由UNIVARIATE過程、MEANS過程和NPAR1WAY過程來(lái)實(shí)現(xiàn),使用SAS的"分析家〞系統(tǒng)可以方便地進(jìn)展界面操作。【實(shí)驗(yàn)工程設(shè)計(jì)】對(duì)列聯(lián)表,檢驗(yàn)行變量與列變量的關(guān)聯(lián)性;給定一組未知總體的樣本數(shù)據(jù),檢驗(yàn)μ=μ0;給定兩組未知總體的樣本數(shù)據(jù),檢驗(yàn)μ1=μ2。【實(shí)驗(yàn)容】一、對(duì)列聯(lián)表,檢驗(yàn)行變量與列變量的關(guān)聯(lián)性(習(xí)題4.7)下表為*藥治療感冒效果的3*3列表。療效\年齡 兒童 成年 老年 合計(jì)顯著 58 38 32 128一般 28 44 45 117較差 23 18 14 55合計(jì) 109 100 91 300試問:療效與年齡是否關(guān)聯(lián)〔a=0.05〕.1. 建數(shù)據(jù)集Datad0407;Doeffect='顯著','一般','較差';Doage='兒童','成年','老年';inputnum;output;end;end;Cards;58 38 32 28 44 45 23 18 14 ;Run;2. 使用"SAS/分析家〞菜單翻開"分析家〞界面。調(diào)出數(shù)據(jù)文件Work.D0407。確定分析方法。選擇界面上的級(jí)聯(lián)菜單:"統(tǒng)計(jì)〞"表分析〞得到列聯(lián)表的空白界面。輸送變量。選中變量"effect〞,單擊"Row〞按鈕;選中變量"age〞,單擊"Column〞按鈕;選中變量"num〞,單擊"CellCounts〞按鈕。完成變量輸送。顯示如下。選擇附加的統(tǒng)計(jì)方法。在列聯(lián)表分析〔TableAnalysis〕界面的右邊下角,點(diǎn)擊"statistics〞按鈕,翻開選項(xiàng)設(shè)置頁(yè)。勾選"chi-squarestatistics〞。如下列圖。單擊"OK〞按鈕。值得一提的是,卡方檢驗(yàn)?zāi)J(rèn)使用近似計(jì)算,目的是為了節(jié)省時(shí)間。當(dāng)然也可以勾選中間的"E*acttest〞選項(xiàng)卡,來(lái)指定準(zhǔn)確檢驗(yàn),只是*些時(shí)候的運(yùn)行時(shí)間無(wú)法控制。得到輸出結(jié)果3. 解答H0:療效與年齡獨(dú)立。檢驗(yàn)統(tǒng)計(jì)量及其分布:統(tǒng)計(jì)量=檢驗(yàn)p值=結(jié)論:二、對(duì)未知總體的一組樣本數(shù)據(jù),進(jìn)展均值的非參數(shù)檢驗(yàn)〔H0:μ=μ0〕(習(xí)題4.9)從*企業(yè)中隨機(jī)抽取12名職工,調(diào)查他們的年抽入,數(shù)據(jù)如下〔單位:萬(wàn)元〕:5.42 5.65 5.64 5.13 4.69 5.13 4.81 4.37 5.82 6.31 4.78 5.52試用符號(hào)檢驗(yàn)對(duì)該企業(yè)職工年收入的中位數(shù)是否顯著超過了5萬(wàn)元進(jìn)展符號(hào)檢驗(yàn)〔a=0.05〕。建數(shù)據(jù)集前面的"分析家〞界面不要關(guān)閉,切換到程序窗口,運(yùn)行以下程序。Datad0409;inputine;d=ine-5;cards;5.42 5.65 5.64 5.13 4.69 5.13 4.81 4.37 5.82 6.31 4.78 5.52;run;2. 使用"SAS/分析家〞菜單在未關(guān)閉的"分析家〞界面中,調(diào)出數(shù)據(jù)文件Work.D0409。翻開對(duì)應(yīng)于univariate程序功能的菜單分析界面。選擇界面上的級(jí)聯(lián)菜單:"統(tǒng)計(jì)〞"描述性統(tǒng)計(jì)〞"分布〞輸送差值變量"d〞。選中差值變量"d〞,單擊Analysis框。單擊"OK〞。得到輸出結(jié)果。3. 解答H0:m=5H1:m>5①符號(hào)檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量及其分布:統(tǒng)計(jì)量s+=2+E(S+)=8檢驗(yàn)p值=0.3877/2=0.194〔單邊檢驗(yàn),故概率除以2〕結(jié)論:承受H0。②符號(hào)秩檢驗(yàn)〔前提:假定總體的分布式對(duì)稱的〕檢驗(yàn)統(tǒng)計(jì)量代表差值變量d中取值為正的數(shù)據(jù)項(xiàng)秩總和。統(tǒng)計(jì)量T+=19+E(T+)=19+12(12+1)/4=19+39=58,檢驗(yàn)p值=0.1455/2=0.〔單邊檢驗(yàn),故概率除以2〕結(jié)論:承受H0。三、兩組未知總體的樣本數(shù)據(jù),非參數(shù)檢驗(yàn)總體均值〔習(xí)題4.12〕在甲、乙兩臺(tái)同型梳棉機(jī)上,進(jìn)展纖維轉(zhuǎn)移率試驗(yàn),除機(jī)臺(tái)外其他工藝條件都一樣,經(jīng)試驗(yàn)得兩個(gè)容量不同的纖維轉(zhuǎn)移率樣本數(shù)據(jù)如下表:甲8.6359.9.2318.7979.8710.325乙7.3427.4368.038.9469.1316.8238.9658.6968.345試用秩和檢驗(yàn),對(duì)纖維轉(zhuǎn)移率而言,這兩臺(tái)機(jī)器是否存在顯著的機(jī)臺(tái)差異〔a=0.05〕.建數(shù)據(jù)集前面的"分析家〞界面不要關(guān)閉,切換到程序窗口,運(yùn)行以下程序。datad04012;input* class$;cards;8.635 甲9. 甲9.231 甲8.797 甲9.87 甲10.325 甲7.342 乙7.436 乙8.03 乙8.946 乙9.131 乙6.823 乙8.965 乙8.696 乙8.345 乙;run;運(yùn)行npar1way過程propar1waydata=d04012wilco*on;classc;var*;run;3.得到輸出結(jié)果4.解答H0:兩臺(tái)機(jī)器沒有顯著的差異〔即μ1=μ2〕H1:兩臺(tái)機(jī)器存在顯著的差異(即μ1≠μ2)T=67,(統(tǒng)計(jì)量T代表甲臺(tái)機(jī)器的樣本數(shù)據(jù)在混合數(shù)據(jù)中的秩和),檢驗(yàn)p值=0.0292〔雙邊檢驗(yàn),應(yīng)選用z檢驗(yàn)的"Two–sidedPr>|Z|〞〕,拒絕H0,認(rèn)為兩臺(tái)機(jī)器存在顯著差異?!舅伎碱}】問題1說出非參數(shù)檢驗(yàn)和參數(shù)檢驗(yàn)的區(qū)別。問題2說出非參數(shù)檢驗(yàn)中,都有哪幾類問題有需要以引入差值變量d。實(shí)驗(yàn)四 方差分析【實(shí)驗(yàn)?zāi)康摹空莆諉我蛩胤讲罘治觥⒍嘀乇容^〔A〕;掌握兩因素方差分析算〔A〕?!緦?shí)驗(yàn)原理】方差分析(analysisofvariance,簡(jiǎn)稱ANOVA)是用來(lái)對(duì)多個(gè)總體的均值作比較檢驗(yàn)的統(tǒng)計(jì)方法。在進(jìn)展單因素方差分析時(shí),如果檢驗(yàn)拒絕了原假設(shè),則我們有時(shí)還需進(jìn)一步檢驗(yàn)到底哪些均值之間存在差異,把同時(shí)比較任意兩個(gè)水平下的總體均值有無(wú)顯著差異的問題稱為多重比較問題。常用的有費(fèi)希爾LSD法和邦弗倫尼法?!緦?shí)驗(yàn)工程設(shè)計(jì)】進(jìn)展單變量方差分析;考慮交互作用進(jìn)展雙因素方差分析;不考慮交互作用進(jìn)展雙因素方差分析?!緦?shí)驗(yàn)容】一、單因素方差分析&多重比較〔例5.1.1〕為檢驗(yàn)甲、乙、丙三種型號(hào)的機(jī)器混合一批原料所需平均時(shí)間是否一樣,*管理人員得到了混合原料所需時(shí)間的如表5.1.1所示的數(shù)據(jù)。機(jī)器 所 需 時(shí) 間甲 21 25 22 26 23 22乙 27 23 25 24 27 26丙 19 22 21 25 21 20(例5.2.1)在例5.1.1中,k=3,n1=n2=n3=6,n=18,并假定在三個(gè)水平下的總體分布皆為正態(tài),且方差相等。試給出方差分析表〔參考教材124頁(yè)〕并進(jìn)展多重比較。1. 建數(shù)據(jù)集/*引入組別變量a和數(shù)值變量*,建數(shù)據(jù)集c0501*/Datac0501;input*;if_n_<7thena=’甲’;elseif_n_<13thena=’乙’;elsea=’丙’;cards;21 25 22 26 23 2227 23 25 24 27 2619 22 21 25 21 20;run;2. 使用"SAS/分析家〞菜單翻開"分析家〞界面,調(diào)出數(shù)據(jù)文件Work.C0501。翻開單因素方差分析界面。/*SAS\ANALYST菜單:"統(tǒng)計(jì)〞"方差分析(A)〞"單向方差分析(O)〞*/輸送變量。得到輸出結(jié)果。驗(yàn)證:SST=SSA+SSE3. 進(jìn)展多重比較翻開單因素方差分析界面/*SAS\ANALYST菜單:"統(tǒng)計(jì)〞"方差分析(A)〞"單向方差分析(O)〞*/單擊界面上的"Means〞按鈕單擊選項(xiàng)卡"parisonMethod〞右側(cè)的黑色下箭頭,彈出的列表中選擇適宜的方法。使用Fisher’sLSD法的多重比較結(jié)果〔參考教材126頁(yè)〕使用邦弗倫尼法的多重比較結(jié)果〔參考教材127頁(yè)〕二、考慮交互作用的雙因素方差分析〔例5.3.1〕 為研究影響合成纖維抗斷強(qiáng)度的因素,表5.3.1記錄了三位操作員用同一批產(chǎn)品的纖維在四臺(tái)生產(chǎn)機(jī)器上試驗(yàn)的數(shù)據(jù)。機(jī)器 甲 乙 丙 丁操作員1 109,110 110,115 108,109 110,1082 110,112 110,111 111,109 114,1123 116,114 112,115 114,119 120,117〔例5.3.1. 建數(shù)據(jù)集/*引入因素變量A、B和數(shù)值變量*,建數(shù)據(jù)集c0502*/Datac0502;DoA='p1','p2','p3';DoB='甲','乙','丙','丁';Dor=1,2;Input*;Output;End;end;end;cards;109110 110115 108109 110108110112 110111 111109 114112116114 112115 114119 120117;Run;2. 使用"SAS/分析家〞菜單翻開"分析家〞界面,調(diào)出數(shù)據(jù)文件Work.C0502。翻開雙因素方差分析界面。/*SAS\ANALYST菜單:"統(tǒng)計(jì)〞"方差分析(A)〞"因子方差分析(O)〞*/輸送雙因素變量A、B和數(shù)值變量*。保存窗口。輸送交互因素A×B。單擊Model按鈕,彈出如下頁(yè)面。同時(shí)選中左側(cè)變量A、B,單擊cross按鈕,完成交互因素的添加。單擊"OK〞按鈕。得到輸出結(jié)果。三、不考慮交互作用的雙因素方差分析〔例5.3.3〕為了考察壓強(qiáng)與溫度對(duì)*種粘合劑抗剪強(qiáng)度的影響,選定壓強(qiáng)(單位:10?5牛頓/毫米2)的四個(gè)水平和溫度(單位:℃)的三個(gè)水平作試驗(yàn),每個(gè)水平組合下作一次試驗(yàn),結(jié)果見表5.3.6。假定這兩個(gè)因素?zé)o交互作用,且在各水平組合下粘合劑的抗剪強(qiáng)度均服從方差一樣的正態(tài)分布,試檢驗(yàn)兩個(gè)因素的效應(yīng)是否顯著(α=0.05)。
溫度(B)130140150yi?壓強(qiáng)(A)
609.6011.289.0029.88659.6910.109.5729.36708.4311.019.0328.47759.9810.449.8030.22y?j37.742.8337.4y??=117.93試給出方差分析表〔參考教材136頁(yè)〕1. 建數(shù)據(jù)集/*引入因素變量A、B和數(shù)值變量*,建數(shù)據(jù)集c0503*/Datac0503;DoA=60,65,70,75;DoB=130,140,150;Input*;Output;End;end;cards;9.60 11.28 9.009.69 10.10 9.578.43 11.01 9.039.98 10.44 9.80;Run;2. 使用"SAS/分析家〞菜單同上,只是省去添加交互因素這一步驟。實(shí)驗(yàn)五 回歸分析【實(shí)驗(yàn)?zāi)康摹空莆斩嘣€性回歸方程的擬合、檢驗(yàn)〔A〕。【實(shí)驗(yàn)原理】客觀世界中事物之間的關(guān)系是各種各樣的。從定量的角度看,主要有兩種:一是確定性關(guān)系,如重力加速度,即自由落體的距離與時(shí)間:S=0.5gt2;另一類是不確定性關(guān)系,即相關(guān)關(guān)系。由于事物的變化常常受多種因素的影響,導(dǎo)致了事物變化的不確定性。人們常用相關(guān)系數(shù)來(lái)描述事物之間的這種不確定性程度。但對(duì)于如何通過一個(gè)事物的值去估計(jì)和預(yù)測(cè)另一個(gè)事物的開展變化,相關(guān)系數(shù)卻無(wú)能為力。但是,通過大量的實(shí)際調(diào)查,可以總結(jié)出它們之間的關(guān)系,回歸分析即是對(duì)這種關(guān)系的描述。"回歸〞一詞最早由英國(guó)統(tǒng)計(jì)學(xué)家高爾頓〔FrancisGalton〕在19世紀(jì)末期研究孩子的身高和他們父母身高關(guān)系時(shí)提出。研究發(fā)現(xiàn),孩子的身高總是趨于他們父母身高的平均值。孩子的身高,比身材矮的父母要高,比身材高的父母要矮,這種趨于中間值的趨勢(shì)稱作"回歸效應(yīng)〞,而他提出的這種研究?jī)蓚€(gè)數(shù)值變量關(guān)系的方法稱作回歸分析?;貧w分析是借助數(shù)學(xué)模型對(duì)客觀世界所存在的事物間的不確定關(guān)系的一種數(shù)量化描寫,即通過一個(gè)或幾個(gè)變量的變化去解釋另一變量的變化。目的在于對(duì)相關(guān)隨機(jī)變量進(jìn)展估計(jì)、預(yù)測(cè)和控制,確定變這些量之間數(shù)量關(guān)系的可能形式,并用一個(gè)數(shù)學(xué)模型來(lái)表示?;貧w分析中,自變量(independentvariable)也稱為解釋變量,給定的或可以控制的、用來(lái)解釋、預(yù)測(cè)因變量的變量;因變量(dependentvariable)也稱為響應(yīng)變量,由自變量來(lái)解釋其變化的變量。只有一個(gè)自變量的線性回歸叫一元線性回歸,也叫簡(jiǎn)單回歸。與方差分析不同,在回歸分析中,"元〞是指自變量,而不是指因變量。【實(shí)驗(yàn)工程設(shè)計(jì)】給定樣本數(shù)據(jù),進(jìn)展一元線性回歸擬合、檢驗(yàn);給定樣本數(shù)據(jù),進(jìn)展多元線性回歸擬合、檢驗(yàn)。帶虛擬變量〔啞元變量〕的線性回歸。【實(shí)驗(yàn)容】一、一元回歸分析〔習(xí)題5.2〕關(guān)于汽車輪胎的等級(jí)和承載能力的一個(gè)樣本統(tǒng)計(jì)資料如下:序號(hào)123456789承載能力y85310471135120112351356138914332039輪胎等級(jí)*7582858788919293105(1)用汽車輪胎的等級(jí)作自變量,畫出這些數(shù)據(jù)的散點(diǎn)圖;(2)利用最小二乘法,求出估計(jì)回歸函數(shù);1. 建數(shù)據(jù)集Datad0604;Inputy*1;Cards;補(bǔ)充;Run;2. 使用"SAS/分析家〞菜單翻開"分析家〞界面。調(diào)出數(shù)據(jù)文件Work.D0602。繪制散點(diǎn)圖。單擊工具欄"散點(diǎn)圖〞圖標(biāo)彈出散點(diǎn)圖頁(yè)面:〔2.1〕輸送變量?!?.2〕設(shè)置星號(hào)為散點(diǎn)顯示符號(hào)。單擊"display〞按鈕,彈出頁(yè)面如下,單擊黑色下箭頭,彈出列表中單擊"star〞。單擊"OK〞返回。擬合回歸函數(shù)。步驟同實(shí)驗(yàn)容二。略。二、多元回歸分析〔習(xí)題6.4〕關(guān)下表是30家計(jì)算機(jī)硬件設(shè)備公司的每股價(jià)格(y)、每股賬面價(jià)值(*1)和每股資本收益率(*2)的統(tǒng)計(jì)資料:y*1*2y*1*212.314.94-49.728.756.3515.121.759.46-71.830.53.7811.8114.9517.227.1912.599.83.254.335.116.313.6428.365.59.5820.811.883.56435.948.4613.33310.0316.582.062.3374.528.1910.643.3157.35-11.927.449.12-4.34322.4-12.915.136.1516.114.254.1118.855.522.3811.116.256.8310.7486.426.212.889.13934.249.498.739.136.0728.838.9410.2514.361.514.1418.711.310.681.6101.3820.1229.914.633.4824.3試求估計(jì)回歸函數(shù);檢驗(yàn)H0:0=1=0〔a=0.05〕;試求復(fù)判定系數(shù)R2;試求0和1的95%置信區(qū)間;對(duì)于一家每股賬面價(jià)值*1=9.48和每股資本收益率*2=17.5的計(jì)算機(jī),硬件設(shè)備公司,試對(duì)它的平均每股價(jià)格作出點(diǎn)估計(jì)并對(duì)其每股價(jià)格作出點(diǎn)預(yù)測(cè);在(5)中,試求平均每股價(jià)格的95%置信區(qū)間和每股價(jià)格的0.95置信區(qū)間.1. 建數(shù)據(jù)集Datad0604;Inputy*1*2;Cards;12.31 4.94 -49.7 28.75 6.35 15.121.75 9.46 -71.8 30.5 3.78 11.811 4.95 17.2 27.19 12.59 9.83.25 4.33 5.1 16.31 3.64 28.365.5 9.58 20.8 11.88 3.56 435.94 8.46 13.3 33 10.03 16.582.06 2.33 74.5 28.19 10.64 3.315 7.35 -11.9 27.44 9.12 -4.343 22.4 -12.9 15.13 6.15 16.114.25 4.11 18.8 55.5 22.38 11.116.25 6.83 10.7 48 6.4 26.212.88 9.13 9 34.24 9.49 8.739.13 6.07 28.8 38.94 10.25 14.361.5 14.14 18.7 11.31 0.68 1.6101.38 20.12 29.9 14.63 3.48 24.3;Run;2. 使用"SAS/分析家〞菜單翻開"分析家〞界面。調(diào)出數(shù)據(jù)文件Work.D0604。翻開〔多元〕線性回歸界面。單擊工具欄"(多元)線性回歸〞圖標(biāo):設(shè)置〔多元〕線性回歸界面,如圖?!?.1〕輸送變量?!泊瞬襟E操作必選,余下步驟可選〕輸送y為Dependent變量;同時(shí)選中*1、*2設(shè)置為E*planatory變量?!?.2〕求回歸系數(shù)求0和1的95%置信區(qū)間。單擊Statistics按鈕,彈出頁(yè)面:在Parameterestimates選項(xiàng)框中,勾選前兩項(xiàng)。如圖。即設(shè)置輸出標(biāo)準(zhǔn)回歸系數(shù)和參數(shù)估計(jì)置信區(qū)間。〔3.3〕新采樣點(diǎn)的點(diǎn)預(yù)測(cè)。依據(jù)題目為例:*1=9.48,*2=17.5。對(duì)平均每股價(jià)格作出點(diǎn)估計(jì)并對(duì)其每股價(jià)格作出點(diǎn)預(yù)測(cè)。切換到程序編輯窗口,建立待預(yù)測(cè)數(shù)據(jù)集temp并運(yùn)行程序。Datatemp;*1=9.48;*2=17.5;y=.;run;切換到多元線性回歸界面,單擊Predictions按鈕,彈出頁(yè)面:在〞預(yù)測(cè)輸入〞選項(xiàng)框中,勾選"Predictadditionaldata〞,單擊實(shí)黑色右箭頭,將彈出"選擇成員〞頁(yè)面,選擇新建的待預(yù)測(cè)數(shù)據(jù)集work.temp。然后,在"預(yù)測(cè)輸出〞選項(xiàng)框中,勾選"Listpredictions〞,將顯示預(yù)測(cè)結(jié)果列表。單擊"OK〞返回。多元線性回歸界面,單擊Savedata按鈕,彈出頁(yè)面:勾選"Createandsavediagnosticsdata〞選項(xiàng)。按住鍵盤shift按鈕,依次單擊Predicted、L95M、U95M、L95、U95〔含義分別是:預(yù)測(cè)值,平均y值的95%置信下限、上限,預(yù)測(cè)y值的95%置信下限、上限〕,單擊界面"Add〞按鈕,完成預(yù)測(cè)統(tǒng)計(jì)量的添加。單擊OK返回?!?.4〕完成多元線性回歸界面設(shè)置,單擊OK按鈕。得到輸出結(jié)果。保存數(shù)據(jù)的查看。在SAS資源管理器中,雙擊新出現(xiàn)的文件夾_proj_,雙擊Score,即可查看預(yù)測(cè)輸出保存數(shù)據(jù)。3. 解答略。帶虛擬變量的多元回歸分析(習(xí)題6.4)一位經(jīng)濟(jì)學(xué)家想研究采取*項(xiàng)改革措施所需時(shí)間〔y〕對(duì)保險(xiǎn)公司規(guī)?!?1,單位:百萬(wàn)美元〕和保險(xiǎn)公司類型〔互助公司和股份公司〕的關(guān)系。因變量的計(jì)量是第一個(gè)公司采納這項(xiàng)革新和給定公司采納這項(xiàng)革新在時(shí)間上先后間隔的月數(shù)。令虛擬變量*2=1互助公司;*2=0股份公司。考慮回歸模型:Yi=0+1*i1+2*i2+i10個(gè)互助公司和10個(gè)股份公司的有關(guān)調(diào)查數(shù)據(jù)見下表:公司y*1公司類型公司Y*1公司類型117151互助1128164股份22692互助1215272股份321175互助1311295股份43031互助143868股份522104互助153185股份60277互助1621224股份712210互助1720166股份819120互助1813305股份94290互助1930124股份1016238互助2014246股份試求估計(jì)回歸函數(shù),并寫出對(duì)每一公司類型的估計(jì)回歸函數(shù);解釋回歸系數(shù)的含義;檢驗(yàn)H0:1=2=0〔a=0.05〕;檢驗(yàn)驗(yàn)H0:1=0和H0:2=0〔a=0.05〕;試求1和2的95%置信區(qū)間。實(shí)驗(yàn)步驟同上。略。實(shí)驗(yàn)六(1) 判別分析【實(shí)驗(yàn)?zāi)康摹空莆沾袠悠返木嚯x判別法和貝葉斯判別法〔A〕。【實(shí)驗(yàn)原理】判別分析要解決的問題是,在歷史上用*些方法已把研究對(duì)象分成假設(shè)干組的情況下,來(lái)判定新的觀測(cè)樣品應(yīng)歸屬的組別。三種常用的判別分析方法分別是距離判別、貝葉斯〔Bayes〕判別和費(fèi)希爾〔Fisher〕判別。對(duì)組的事先劃分有時(shí)也可以通過聚類分析得到?!緦?shí)驗(yàn)工程設(shè)計(jì)】距離判別;貝葉斯判別?!緦?shí)驗(yàn)容】〔習(xí)題8.4〕 根據(jù)經(jīng)歷,今天和昨天的濕度差*1及今天的壓溫差〔氣壓與溫度之差〕*2是預(yù)報(bào)明天是否下雨的兩個(gè)重要因素?,F(xiàn)收集到一批樣本數(shù)據(jù)列于下表。1〔雨天〕2〔非雨天〕*1〔濕度差〕*2〔壓溫差〕*1〔濕度差〕*2〔壓溫差〕-1.93.20.26.2-6.910.4-0.17.55.220.414.652.52.78.37.302.10.86.812.7-4.64.30.9-15.4-1.710.9-12.5-2.5-2.613.11.51.32.612.83.86.8-2.810今測(cè)得*1=0.6,*2=3.0,假定兩組的協(xié)方差陣相等。試用距離判別法預(yù)報(bào)明天是否下雨,用〔8.2.7〕式即回判法來(lái)估計(jì)誤判概率;解答:明天下雨/不下雨_明天下雨_。誤判率的回判法估計(jì):0.2,0.1。假定兩組的均服從二元正態(tài)分布,且根據(jù)其他信息及經(jīng)歷給出先驗(yàn)概率p1=0.3,p2=0.7,試用貝葉斯判別法預(yù)報(bào)明天是否下雨;解答:明天下雨/不下雨_____不下雨______。假設(shè)你現(xiàn)考慮是否為明天安排一項(xiàng)活動(dòng),該活動(dòng)在時(shí)間上有緊迫性,但又不太適合在雨天進(jìn)展,并認(rèn)為C(2|1)=3C(1|2),則你今天是否應(yīng)該安排項(xiàng)這活動(dòng)呢.判別規(guī)則為:,解答:安排/不安排_(tái)_不安排_(tái)________。8.4 程序附錄:Datad0804;Inputgroup*1*2;Cards;1 -1.9 3.2 2 0.2 6.21 -6.9 10.4 2 -0.1 7.51 5.2 2 2 0.4 14.61 5 2.5 2 2.7 8.31 7.3 0 2 2.1 0.81 6.8 12.7 2 -4.6 4.31 0.9 -15.4 2 -1.7 10.91 -12.5 -2.5 2 -2.6 13.11 1.5 1.3 2 2.6 12.81 3.8 6.8 2 -2.8 10;Run;Datat_d;*1=0.6;*2=3.0;group=.;run;Procdiscrimdata=d0804testdata=t_dpool=yeslisttestlistlisterr;Classgroup;Var*1*2;run;Procdiscrimdata=d0804testdata=t_dpool=yestestlist;Classgroup;Var*1*2;Priors'1'=0.3'2'=0.7;run;-.z.(習(xí)題8.5)對(duì)28名一級(jí)和25名健將級(jí)標(biāo)槍運(yùn)發(fā)動(dòng)測(cè)試了6個(gè)影響標(biāo)槍成績(jī)的訓(xùn)練項(xiàng)目,這些訓(xùn)練工程〔成績(jī)〕為:30米跑〔*1〕,投擲小球〔*2〕,挺舉重量〔*3〕,拋實(shí)心球〔*4〕,前拋鉛球〔*5〕,五級(jí)跳〔*6〕,全部數(shù)據(jù)列于下表。編號(hào)*1*2*3*4*5*6組別13.64.382.3709018.52123.34.187.488010018.48133.34.2287.748511518.56143.214.0588.67510019.1153.14.3889.989512020.14163.24.989.18510519.44173.34.289758519.17183.54.584.28010018.8193.74.682.1708517.681103.44.490.187510019.141113.64.382.1709018.11123.64.582557017.41133.64.282.2709018.121143.44.285.48510018.661153.34.390.18010019.861163.124.28985100201173.14.290.28511520.81183.64.281.96658017.21193.74.4818095171203.34.3908011019.81213.84.0980608016.891223.74.383.98510018.761233.54.285.48510018.71243.44.186.78511018.51253.34.188.1758518.961263.74.184.1709518.71273.64.382709018.41283.24.289.28511519.881293.441039511024.82303.34.51189012025.72313.14.51058511025.12323.84.1104.538010024.9823334.21129512525.352343.93.798.2859021.82353.54.198.79012022.782363.13.998.2609021.982373.33.910910012025.32383.13.9598.49511525.22393.143.995.39011021.422403.64.393.6758520.842413.123.995.88010521.824233.993.8859021.082433.43.9196.311012021.982443.633.7898.568512022.362453.33.9897.48510022.342463.34.41127511025.12473.54.1107.787.511025.12483.44.292.18012022.162493.64.199.488512023.12503.14.41167511025.32513.124102.78011024.682523.64.11158511523.72533.54.397.87510024.12另有14名未定級(jí)的運(yùn)發(fā)動(dòng)也測(cè)試了同樣6個(gè)工程,數(shù)據(jù)列表如下。編號(hào)*1*2*3*4*5*613.54.185.37510518.6523.44.485.4759518.633.64.385.36759018.643.64.183.77510518.653.24.189.35759520.2863.44.1586.286077.518.973.64.284.18010018.783.14.1989513022.3934.112210011527.1103.24.392.688010520.68113.14.291.768510022.2123.34.298.46510022.86133.34.6928019523.07143.44.397.367511022.12假定兩組數(shù)據(jù)均來(lái)自于電影正態(tài)總體,且C(2|1)=C(1|2)。對(duì)14名未定級(jí)的運(yùn)發(fā)動(dòng),假設(shè)p1=p2,試在和的兩組情形下分別都他們歸屬何組作出貝葉斯判別;①判入一級(jí)的運(yùn)發(fā)動(dòng){1,3,5,6,7,9,11,12,13}判入二級(jí)的運(yùn)發(fā)動(dòng){2,4,8,10,14}②判入一級(jí)的運(yùn)發(fā)動(dòng){1,3,5,6,7,9,11,13 }判入二級(jí)的運(yùn)發(fā)動(dòng){2,4,8,10,12,14 }試按〔8.2.7〕和〔8.2.8〕兩式分別對(duì)(1)的誤判概率作出估計(jì);①回判法的誤判率:0,0。刀切法的誤判率:0,0。②回判法的誤判率:0,0.08。刀切法的誤判率:0,0。假設(shè),p1=0.8,p2=0.2,試對(duì)14名未定級(jí)的運(yùn)發(fā)動(dòng)的歸屬作出貝葉斯判別。判入一級(jí)的運(yùn)發(fā)動(dòng){1,2,3,5,6,7,9,11,12,13}判入一級(jí)的運(yùn)發(fā)動(dòng){4,8,10,14}.z.8.5程序附錄:Datad0805;Inputno*1-*6group;Cards;13.64.382.3709018.521293.441039511024.8223.34.187.488010018.481303.34.51189012025.7233.34.2287.748511518.561313.14.51058511025.1243.214.0588.67510019.11323.84.1104.538010024.98253.14.3889.989512021.1413334.21129512525.35263.24.989.18510519.441343.93.798.2859021.8273.34.289758519.171353.54.198.79012022.78283.54.584.28010018.81363.13.998.2609021.98293.74.682.1708517.681373.33.910910012025.32103.44.490.187510019.141383.13.9598.49511525.22113.64.382.1709018.11393.143.995.39011021.422123.64.582557017.41403.64.393.6758520.842133.64.282.2709018.121413.123.995.88010521.82143.44.285.48510018.6614233.993.8859021.082153.34.390.18010019.861433.43.9196.311012021.982163.124.28985100202143.633.7898.568512022.362173.14.290.28511520.81453.33.9897.48510022.342183.64.281.96658017.21463.34.41127511025.12193.74.4818095171473.54.1107.787.511025.12203.34.3908011019.81483.44.292.18012022.162213.84.0980608016.891493.64.199.488512023.12223.74.383.98510018.761503.14.41167511025.32233.54.285.48510018.71513.124102.78011024.682243.44.186.78511018.51523.64.11158511523.72253.34.188.1758518.961533.54.397.87510024.12263.74.184.1709518.71273.64.382709018.41283.24.289.28511519.881 ;Run;Datat_d;Inputno*1-*6;group=.;Cards;13.54.185.37510518.6583.14.1989513022.323.44.485.4759518.6934.112210011527.133.64.385.36759018.6103.24.392.688010520.6843.64.183.77510518.6113.14.291.768510022.253.24.189.35759520.28123.34.298.46510022.8663.44.1586.286077.518.9133.34.6928019523.0773.64.284.18010018.7143.44.397.367511022.12;run;Procdiscrimdata=d0805testdata=t_dpool=yeslistcrosslistlisterrtestlistout01testout02;Classgroup;Var*1-*6;priors'1'=0.5'2'=0.5;run;Procdiscrimdata=d0805testdata=t_dpool=nolistcrosslistlisterrtestlisttestout03;Classgroup;Var*1-*6;priors'1'=0.5'2'=0.5;run;Procdiscrimdata=d0805testdata=t_dpool=yeslistcrosslistlisterrtestlisttestout04;Classgroup;Var*1-*6;priors'1'=0.8'2'=0.2;run;實(shí)驗(yàn)六(2) 聚類分析【實(shí)驗(yàn)?zāi)康摹空莆諏?duì)未知分類樣品進(jìn)展系統(tǒng)聚類。【實(shí)驗(yàn)原理】判別分析和聚類分析是兩種不同目的的分類方法,它們所起的作用是不同的。聚類分析:將未分類對(duì)象分成假設(shè)干類,相似的歸為同一類,不相似的歸為不同的類。聚類分析分為Q型〔分類對(duì)象為樣品〕和R型〔分類對(duì)象為變量〕兩種。Q型聚類分析較多常見?!緦?shí)驗(yàn)工程設(shè)計(jì)】教學(xué)實(shí)驗(yàn)學(xué)生實(shí)驗(yàn)學(xué)生實(shí)驗(yàn)參考解答【實(shí)驗(yàn)容】一、教學(xué)實(shí)驗(yàn)例9.3.1〔257頁(yè)〕設(shè)有五個(gè)樣品,只測(cè)量了一個(gè)指標(biāo),分別是1,2,6,8,11,。例9.3.2〔260頁(yè)〕對(duì)305名中學(xué)生測(cè)量8個(gè)指標(biāo): *1:身高 *5:體重 *2:手臂長(zhǎng) *6:頸圍 *3:上肢長(zhǎng) *7:胸圍 *4:下肢長(zhǎng) *8:胸寬例9.3.3〔261頁(yè)〕表9.3.14列出了1999年全國(guó)31個(gè)省、直轄市和自治區(qū)的城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出的八個(gè)主要變量數(shù)據(jù)。這八個(gè)變量是 *1:食品 *5:交通和通訊 *2:衣著 *6:娛樂教育文化效勞 *3:家庭設(shè)備用品及效勞 *7:居住 *4:醫(yī)療保健 *8:雜項(xiàng)商品和效勞作聚類分析。為同等地對(duì)待每一變量,在作聚類前,先對(duì)各變量作標(biāo)準(zhǔn)化變換。程序附錄1:例9.3.1系統(tǒng)聚類法procclusterdata=e0901method=single|plete|centroid|average|ward stdouttree=treedata1;var*;/*用*作為計(jì)算距離的變量 */id*;/*用*作為樣品的標(biāo)識(shí)變量*/run;proctreedata=treedata1horizontal;id*;/*用*作為樣品的標(biāo)識(shí)變量,顯示在譜系聚類圖中 */run;程序附錄2:例9.3.2變量的距離聚類datae0902(type=distance);array*(8)*1-*8;inputvarname$*1-*8;doi=1to8;*(i)=1-*(i);end;dropi;cards;*11.000.......*2.8461.000......*3.805.8811.000.....*4.859.826.8011.000....*5.473.376.380.4361.000...*6.398.326.319.329.7621.000..*7.301.277.237.327.730.5831.000.*8.382.415.345.365.629.577.5391.000;run;procclusterdata=e0902method=;var*1-*8;idvarname;proctreehorizontal;idvarname;run;程序附錄3:例9.3.3大樣品的k均值法快速聚類—Fastclus過程大樣本快速聚類〔n=100~100,000〕輸出類指標(biāo)均值,比較類間差異沒有原始數(shù)據(jù)標(biāo)準(zhǔn)化功能需要指定類別數(shù)或初始凝聚點(diǎn)間最小距離不能輸出作樹狀圖的聚類信息procstandanddata=e0903mean=0std=1out=stddata;var*1-*8;/*指定進(jìn)展標(biāo)準(zhǔn)化的變量*/run;procfastclusdata=stddatama*c=5driftlist;var*1-*8;idregion;run;說明:data=sas數(shù)據(jù)集,ma*c|ma*cluster=選項(xiàng):指定允許的最大分類個(gè)數(shù)。drift選項(xiàng):初始凝聚點(diǎn)選好后,每當(dāng)一個(gè)觀測(cè)歸入最靠近的凝聚點(diǎn)所在的類后,該類的凝聚點(diǎn)都要被類中現(xiàn)有觀測(cè)的均值替代。list選項(xiàng):列表顯示所有的樣本點(diǎn)、它的id值、它歸為哪一個(gè)cluster、它到自己的cluster的凝聚點(diǎn)的距離。二、學(xué)生實(shí)驗(yàn)對(duì)例9.3.3,不進(jìn)展標(biāo)準(zhǔn)化變換,使用系統(tǒng)聚類法;寫出程序和聚類結(jié)果。使用k均值快速聚類法分為5類;寫出程序和聚類結(jié)果。學(xué)生實(shí)驗(yàn)參考解答使用系統(tǒng)聚類法;寫出程序和聚類結(jié)果程序procstandanddata=e0903mean=0std=1out=stddata;var*1-*8;run;procclusterdata=e0903method=warstdouttree=treedata1;var*1-*8;idregion;run;proctreedata=treedata1horizontaln=3out=clsdata;idregion;run;procsort;bycluster;run;procprintdata=clsdata;run;聚類結(jié)果G1={,,,,,**,,,,,,,,,,,,,**,}G2={,,,**,,,}G3={,, }使用k均值快速聚類法分為5類;寫出程序和聚類結(jié)果。程序procstandanddata=e0903mean=0std=1out=stddata;var*1-*8;run;procfastclusdata=stddatama*c=5driftlist;var*1-*8;idregion;run;聚類結(jié)果G1={,, }G2={}G3={**,,,,,**,,,}G4={,,,,,,,,,,,,,,,**}G5={}實(shí)驗(yàn)七 主成分分析【實(shí)驗(yàn)?zāi)康摹空莆諒亩嘧兞恐刑崛≈鞒煞值囊?guī)則、方法〔A〕【實(shí)驗(yàn)原理】主成分分析〔或稱主分量分析,principalponentanalysis〕由皮爾遜〔Pearson,1901〕首先引入,后來(lái)被霍特林〔Hotelling,1933〕開展了。主成分分析是一種通過降維技術(shù)把多個(gè)變量化為少數(shù)幾個(gè)主成分〔即綜合變量〕的統(tǒng)計(jì)分析方法。這些主成分能夠反映原始變量的絕大局部信息,它們通常表示為原始變量的*種線性組合。主成分分析的一般目的是:a〕變量的降維;b〕主成分的解釋。【實(shí)驗(yàn)工程設(shè)計(jì)】給定假設(shè)干組多變量數(shù)據(jù),進(jìn)展主成分提??;依據(jù)前兩個(gè)主成分得分繪制散點(diǎn)圖;對(duì)主成分進(jìn)展合理解釋?!緦?shí)驗(yàn)容】(習(xí)題10.5)表中給出的是美國(guó)50個(gè)州每100000個(gè)人中七種犯罪的比率數(shù)據(jù),試做主成份分析。數(shù)據(jù)下載即可。實(shí)驗(yàn)要求:寫出主成分的表達(dá)式;畫出前兩個(gè)主成分的散點(diǎn)圖,并貼圖。1參考程序procprintdata=tmp1.c1005;run;procprinpdata=c1005out=prin;var*1-*7;run;procplot;plotprin2*prin1$state='*';run;2解答容變量的個(gè)數(shù)p=;選取的主成分個(gè)數(shù)m=。主成分和原始變量的相關(guān)系數(shù)矩陣〔貼圖〕??偡讲?。對(duì)選取的m個(gè)主成分:(3.1)對(duì)方差的累計(jì)奉獻(xiàn)率=;(3.2)對(duì)原始變量的奉獻(xiàn)率變量*1*2*3*4*2*3*72主成分的表達(dá)式。Y1=;Y2=;畫出前兩個(gè)主成分的散點(diǎn)圖,并貼圖。(習(xí)題10.6)下表是紐約股票交易所的5只股票從75年·月到76年12月期間的周回報(bào)。周回報(bào)率定義為:試做主成分分析。數(shù)據(jù)下載即可。實(shí)驗(yàn)要求:寫出主成分的表達(dá)式;并依據(jù)個(gè)人理解進(jìn)展解釋。1參考程序procprinpdata=tmp1.c1006;var*1-*5;run;2主成分的表達(dá)式及解釋Y1=;解釋:;Y2=;解釋:;參考答案:10.5表中給出的是美國(guó)50個(gè)州沒100000個(gè)人中七種犯罪的比率數(shù)據(jù),試做主成份分析。數(shù)據(jù)下載即可。實(shí)驗(yàn)要求:寫出主成分的表達(dá)式;畫出前兩個(gè)主成分的散點(diǎn)圖,并貼圖。1參考程序procprintdata=tmp1.c1005;run;procprinpdata=c1005out=prin;var*1-*7;run;procplot;plotprin2*prin1$state='*';run;2解答容〔1〕變量的個(gè)數(shù)p=7;選取的主成分個(gè)數(shù)m=3?!?〕主成分和原始變量的相關(guān)系數(shù)矩陣〔貼圖〕。0.6091-0.70030.1519-0.13060.27330.12210.09430.8758-0.1886-0.2080.0.0957-0.3644-0.10440.80510.0470.4224-0.3139-0.2641-0.0539-0.00140.8046-0.3823-0.05920.3543-0.25730.08120.06750.89290.2263-0.1788-0.03240.05130.2526-0.22830.72490.4478-0.4594-0.13210.01530.01860.21190.59880.55920.48420.23580.1878-0.0270.0518〔3〕總方差=7。對(duì)選取的m個(gè)主成分:3.1對(duì)方差的累計(jì)奉獻(xiàn)率=86.85%;3.2對(duì)原始變量的奉獻(xiàn)率變量*1*2*3*4*5*6*720.88440.84590.828820.79710.88040.9370530.9057〔4〕主成分的表達(dá)式。Y1=0.3003**1+0.4318**2+0.3969**3+0.3967**4+0.4402**5+0.3574**6+0.2952**7;Y2=-0.6292**1-0.1694**2+0.0422**3-0.3435**4+0.2033**5+0.4023**6+0.5024**7;〔5〕畫出前兩個(gè)主成分的散點(diǎn)圖,并貼圖。10.6下表是紐約股票交易所的5只股票從75年·月到76年12月期間的周回報(bào)。周回報(bào)率定義為:試做主成份分析。數(shù)據(jù)下載即可。實(shí)驗(yàn)要求:寫出主成分的表達(dá)式;并依據(jù)個(gè)人理解進(jìn)展解釋。1參考程序procprinpdata=tmp1.c1006;var*1-*5;run;2主成分的表達(dá)式及解釋Y1=0.4635**1+0.4571**2+0.4700**3+0.4217**4+0.4213**4;解釋:第一主成分Y1對(duì)所有(標(biāo)準(zhǔn)化)原始變量都有近似相等的正載荷,在的Y1值意味著各變量都傾向于有大的值,即表示各股票的市場(chǎng)萬(wàn)分大,小的Y1值意味著各變量都傾向于有較小的值,即表示市場(chǎng)股分小。;Y2=-0.2409**1-0.5091**2-0.2606**3+0.5253**3+0.5822**4;解釋:第二主成分Y2在*3,*4上有中等程度的正載荷,而在*1,*2,*3上有中等程度的負(fù)載荷,大的Y2值意味著變量*3,*4傾向于有大的值,而變量*1,*2,*3有傾向于小的值。因此第二主成分為行業(yè)成分。實(shí)驗(yàn)八 因子分析【實(shí)驗(yàn)?zāi)康摹渴煜ひ蜃臃治龅姆治鲞^程〔B〕。【實(shí)驗(yàn)原理】因子分析起源于20世紀(jì)初,K.皮爾遜(Pearson)和C.斯皮爾曼(Spearman)等學(xué)者為定義和測(cè)定智力所作的努力,主要是由對(duì)心理測(cè)量學(xué)有興趣的科學(xué)家們培育和開展了因子分析。因子分析的用途與主成分分析類似,它也是一種降維方法。因子分析降維的方式是試圖用少數(shù)幾個(gè)潛在的、不可觀測(cè)的隨機(jī)變量來(lái)描述原始變量間的協(xié)方差關(guān)系。由于因子往往比主成分更易得到解釋,故因子分析比主成分分析更容易成功,從而有更廣泛的應(yīng)用?!緦?shí)驗(yàn)工程設(shè)計(jì)】依據(jù)相關(guān)矩陣進(jìn)展變量因子分析;給定一組多變量數(shù)據(jù),進(jìn)展變量公共因子提取和解釋。參考解答【實(shí)驗(yàn)容】一、依據(jù)相關(guān)矩陣進(jìn)展變量因子分析〔習(xí)題11.1〕在例11.1.1中,十項(xiàng)全能運(yùn)動(dòng)得分的樣本相關(guān)矩陣為R=[10.5910.350.4210.340.510.3810.630.490.190.2910.40.520.360.460.3410.280.310.730.270.170.3210.20.360.240.390.230.330.2410.110.210.440.170.130.180.340.241-0.070.09-0.080.180.390-0.020.17-01]寫出因子分析的實(shí)驗(yàn)程序。databe*ec11c1(type=corr);input*1-*10;cards;1.000.590.350.340.630.400.280.200.11-0.07.1.000.420.510.490.520.310.360.210.09..1.000.380.190.360.730.240.44-0.08...1.000.290.460.270.390.170.18....1.000.340.170.230.130.39.....1.000.320.330.180.00..
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 制作莫扎特課件
- 2024-2025學(xué)年初中同步測(cè)控優(yōu)化設(shè)計(jì)物理八年級(jí)下冊(cè)配人教版第8章 第3節(jié) 摩擦力含答案
- 咕咚 生字課件
- 第五講 巧用關(guān)聯(lián)詞寫一寫(看圖寫話教學(xué))-一年級(jí)語(yǔ)文上冊(cè)(統(tǒng)編版·2024秋)
- 地高辛藥品課件
- 2024年黑龍江省齊齊哈爾中考語(yǔ)文真題卷及答案解析
- 幼兒園小班音樂《開汽車》課件
- 西京學(xué)院《云計(jì)算》2022-2023學(xué)年期末試卷
- 2024版教材七年級(jí)上冊(cè)道德與法治期末訓(xùn)練
- 《煤油燈》少兒美術(shù)教育繪畫課件創(chuàng)意教程教案
- 噪聲監(jiān)測(cè)培訓(xùn)20150416+(1)
- 《我與社會(huì)》 (課堂PPT)
- 第六講 聲音音質(zhì)主觀評(píng)價(jià)
- 普通話培訓(xùn)教案
- 施工日志記錄模板
- 陽(yáng)光分級(jí)閱讀初一上The Fantastic Washing Machine課件
- 基坑支護(hù)(護(hù)坡)工程冬季施工方案
- 新建加油站工程施工組織設(shè)計(jì)方案
- 口腔科應(yīng)急預(yù)案詳解
- 余姚農(nóng)業(yè)信息綜合服務(wù)系統(tǒng)需求說明
- 工作紀(jì)律檢查表
評(píng)論
0/150
提交評(píng)論