




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、屬性數(shù)據(jù)分析 一屬性變量和屬性數(shù)據(jù)通常所指屬性數(shù)據(jù)(categorical data),是說反映事物屬性的數(shù)據(jù),也稱為定性數(shù)據(jù)或類別數(shù)據(jù),它是屬性變量取的值。屬性變量可能是表示事物屬性,取值為事物屬性的量反映事物的客觀屬性,例如變量“性別”取值為男,女;又如變量是中醫(yī)所分人的體質(zhì),取值為平和,氣虛,陽虛,陰虛,瘀血,痰濕,濕熱,氣郁,特凜。對(duì)事物表態(tài)的量表達(dá)人們主觀對(duì)事物的評(píng)論,例如變量是“某人對(duì)某個(gè)政策的態(tài)度”,取值是贊成,中立和反對(duì);又如變量是“人對(duì)醫(yī)療效果的評(píng)價(jià)”,取值為特好,好,一般,差,很差。區(qū)間值變量取值為多個(gè)互不重疊區(qū)間:例如變量是“顧客的購買水平”,取值分為0,100),100
2、,200),200,300)和300以上。 “屬性變量”是反映事物的客觀屬性或?qū)κ挛锉響B(tài),以及區(qū)間值變量,它是一種變量,它取的值之間不能做加,減,乘,除等運(yùn)算,而且所取的值只能是有限個(gè),屬性變量取的值也稱為屬性變量的“水平”。二屬性數(shù)據(jù)表示形式屬性變量有4種表示形式:原始屬性變量形式、指示變量形式(調(diào)查數(shù)據(jù)常用)、頻數(shù)形式和列聯(lián)表。例1 某連鎖超市要檢驗(yàn)商品銷售情況與陳列方式是否相關(guān),隨機(jī)抽取了10家門店,分別以共3種方式陳列(即第一個(gè)屬性變量是“陳列方式”,取值A(chǔ)、B、C),各門店銷售情況分為 “high”及“l(fā)ow”兩類(即第二個(gè)屬性變量是“銷量”,取值“high”和“l(fā)ow”)。這兩個(gè)屬
3、性變量的統(tǒng)計(jì)資料4種形式如下:屬性變量形式的樣本是把各個(gè)屬性變量的1次觀測(cè)值排成1行;例如例1中屬性變量“銷量”和“排列方式”的第1個(gè)觀測(cè)值(第1個(gè)門店)的觀測(cè)值是“high”和“B”,就把“high”、“B”排在第一行,見下表表 超市數(shù)據(jù)屬性變量形式 銷量排列方式highBhighBhighBhighAhighClowBhighChighAlowBhighC 指示變量形式是列出各個(gè)屬性變量的所有值,對(duì)每個(gè)值建立一個(gè)變量,例如例1中兩個(gè)屬性變量取值“high”、“l(fā)ow”、“A”、“B”、“C”;建立5個(gè)指示變量:sl,sh,ma,mb,mc.每次觀測(cè)中,屬性變量的哪個(gè)值出現(xiàn)了,就在對(duì)應(yīng)列中用
4、1表示,否則用0表示;例如對(duì)于超市數(shù)據(jù)建立5個(gè)變量后:sh表示變量銷售額高,sl表示變量銷售額低,ma表示排列方式是A,mb并表示排列方式是B,mc表示排列方式是C。第1次觀測(cè)中屬性變量的值是“high”和“B”,這時(shí)觀測(cè)值就是1,0,0,1,0,見下表表 超市數(shù)據(jù)指示變量形式shslmambmc10010100101001010100100010101010001101000101010001在做調(diào)查時(shí)(例如對(duì)街道行人作調(diào)查),通常要求被調(diào)查人在調(diào)查表上打勾和叉,整理這些調(diào)查表,勾和叉分別改為1和0,得到的就是指示變量形式的樣本;大學(xué)生舌象體質(zhì)調(diào)查數(shù)據(jù)就是兩種形式數(shù)據(jù)混合,使用時(shí)必須注意。指
5、示變量形式。把屬性變量形式匯總,同樣觀測(cè)數(shù)據(jù)只記一次,其相同次數(shù)稱為頻數(shù),得到的就是頻數(shù)形式數(shù)據(jù),超市數(shù)據(jù)頻數(shù)形式見下表;例如例1中銷量“high”且排列方式是“A”的門店有3個(gè),頻數(shù)就記為3,匯總觀測(cè)值記為“high、A、3”,下表中最后一列是頻數(shù)。表 超市數(shù)據(jù)頻數(shù)形式銷量排列方式頻數(shù)highB3highA2highC3lowB2兩個(gè)屬性變量的列聯(lián)表就是把頻數(shù)形式數(shù)據(jù),寫成一個(gè)長(zhǎng)方形表,其中最左列給出一個(gè)屬性變量(行變量)的值,最上面的變量名行給出另一個(gè)屬性變量(列變量)的值,頻數(shù)填在對(duì)應(yīng)格中,見下表,列聯(lián)表能直觀反映數(shù)據(jù)特點(diǎn),經(jīng)常使用。所以有時(shí)頻數(shù)形式數(shù)據(jù)也稱為列聯(lián)表。2個(gè)屬性變量的列聯(lián)表
6、最常使用;3,4個(gè)屬性變量的頻數(shù)形式數(shù)據(jù)也能排在平面上。屬性變量多于2的列聯(lián)表稱為“高維列聯(lián)表”。表 超市數(shù)據(jù)的列聯(lián)表排列方式銷量ABChigh233low020三對(duì)應(yīng)分析一般統(tǒng)計(jì)書籍只介紹到列聯(lián)表及其分析,上世紀(jì)70年代以來出現(xiàn)了許多分析屬性數(shù)據(jù)的方法:對(duì)應(yīng)分析,logistic回歸,廣義線性模型,重復(fù)測(cè)量模型等等。本次重點(diǎn)介紹對(duì)應(yīng)分析。對(duì)應(yīng)分析是研究屬性變量的值間關(guān)系,帶有直觀圖象展示的一種分析方法?!傲新?lián)表”分析能解決屬性變量間是否有聯(lián)系的判斷問題,但對(duì)于它們是怎樣聯(lián)系的卻不能給出具體結(jié)論。對(duì)應(yīng)分析要研究屬性變量的取值之間是怎樣聯(lián)系的,它把屬性變量取的各個(gè)值投影成一幅“地圖”上的點(diǎn),距離
7、較近的點(diǎn)顯示關(guān)系較密切。對(duì)應(yīng)分析分為簡(jiǎn)單對(duì)應(yīng)分析和多重對(duì)應(yīng)分析。簡(jiǎn)單對(duì)應(yīng)分析分析兩個(gè)屬性變量間關(guān)系;多重對(duì)應(yīng)分析分析多個(gè)屬性變量間關(guān)系。(一)簡(jiǎn)單對(duì)應(yīng)分析簡(jiǎn)單對(duì)應(yīng)分析的主要步驟?;静襟E是:1 輸入數(shù)據(jù) 對(duì)于常用的列聯(lián)表數(shù)據(jù),將列聯(lián)表數(shù)據(jù)(連同變量名)拷入工作表后,還要增加一列:列變量名,該列按照表中列水平出現(xiàn)順序(從左到右),將它們從上到下安放一列中,這列通常按其含義加變量名“列名”。由于列聯(lián)表中通常已包含行名稱,無須另加一列輸入“行名”。2進(jìn)入簡(jiǎn)單對(duì)應(yīng)分析對(duì)話框 從“ 統(tǒng)計(jì) 多變量 簡(jiǎn)單對(duì)應(yīng)分析”入口,就能進(jìn)入“簡(jiǎn)單對(duì)應(yīng)分析”對(duì)話框。選定“列聯(lián)表的列”,指定列聯(lián)表的各列。3 填寫對(duì)話框 在
8、對(duì)話框的“列名”處填寫列變量名稱所在列,在“行名”處填寫行變量名稱所在列;進(jìn)入“圖形”框后指定顯示哪些圖(其中“顯示行和列的對(duì)稱圖”最重要)。例2某公司在5個(gè)地區(qū)銷售4種商品(甲、乙、丙、?。?,某年銷售量匯總表如下表。試問銷售量按地區(qū)分布有何規(guī)律?銷售量按商品分布有何規(guī)律,二者有何聯(lián)系? 表 某公司5地區(qū)銷售數(shù)據(jù)(單位:件)1商品地區(qū)甲乙丙丁A160202120A2100253030A3100580200A440135110A5906012020解 1)將表拷入工作表后,為了能在有關(guān)圖表中顯示各列名稱,應(yīng)補(bǔ)充一列。因?yàn)樯唐妨蠧2-C5的變量名從左到右依次為“甲、乙、丙、丁”,將列變量名稱“甲、
9、乙、丙、丁”填入C6列,并將此列命名為“商品”。 2)從“ 統(tǒng)計(jì) 多變量 簡(jiǎn)單對(duì)應(yīng)分析”入口, 進(jìn)入“簡(jiǎn)單對(duì)應(yīng)分析”對(duì)話框。3)在“輸入數(shù)據(jù)”中,選擇“列聯(lián)表的列”,指定為“甲 乙 丙 丁”4列數(shù)據(jù),將“行名”指定為“地區(qū)”,將“列名”指定為“商品”,對(duì)于“分量數(shù)”仍保留為默認(rèn)的“2” 。4)點(diǎn)擊 “圖形”,彈出“簡(jiǎn)單對(duì)應(yīng)分析圖形”對(duì)話框,選擇“只顯示行的對(duì)稱圖”,“只顯示列的對(duì)稱圖”及“顯示行和列的對(duì)稱圖”以便得到3幅圖。5)各框點(diǎn)擊“確定(OK)”,即可以得到計(jì)算結(jié)果和圖形。行對(duì)稱圖從行圖中可見A1,A2,地區(qū)銷售情況相似;A3,A4地區(qū)銷售情況相似。(比例相似)列對(duì)稱圖從列圖中可見甲乙丙
10、丁銷量不相似行列對(duì)稱圖從圖中可見A1,A2兩地賣甲商品較多,A3,A4兩地賣丁商品較多例3設(shè)已有大學(xué)生舌苔色和BMI決定的胖瘦程度二維列聯(lián)表如下,試做對(duì)應(yīng)分析。分析肥胖程度與苔色對(duì)應(yīng)。苔瘦中胖白8623062357黃11736037灰4103黑261 解 將上表考入工作表,最右邊添上一列,變量名為“BMI”,按照從上到下順序填上瘦,中,胖。2)從“ 統(tǒng)計(jì) 多變量 簡(jiǎn)單對(duì)應(yīng)分析”入口,進(jìn)入“簡(jiǎn)單對(duì)應(yīng)分析”對(duì)話框。3)選定“列聯(lián)表的列”,將帶數(shù)值的列選入“列聯(lián)表的列”空格。4)將“苔色”選入行名空格,“BMI”選入列名空格5)點(diǎn)擊“圖形”,彈出“簡(jiǎn)單對(duì)應(yīng)分析圖形”對(duì)話框,選擇“只顯示行的對(duì)稱圖”,
11、“只顯示列的對(duì)稱圖”及“顯示行和列的對(duì)稱圖”,各框點(diǎn)擊“確定”,即可以得到行對(duì)稱圖,列對(duì)稱圖,行和列的對(duì)稱圖。叢行對(duì)稱圖可見:4種苔色無關(guān)系。從列的對(duì)稱圖看出胖中瘦間無聯(lián)系。行和列的對(duì)稱圖如下行列對(duì)稱圖從行和列的對(duì)稱圖可見:體型中的人和苔色發(fā)白的人聯(lián)系緊,即苔色發(fā)白的人體型中等(二)多重對(duì)應(yīng)分析“多重對(duì)應(yīng)分析”用于分析多個(gè)屬性變量值間的關(guān)系,它每次可以同時(shí)分析兩個(gè)或更多個(gè)屬性變量?!岸嘀貙?duì)應(yīng)分析”對(duì)話框能夠讀入兩種形式數(shù)據(jù):屬性變量形式和指示變量形式數(shù)據(jù)。無論哪種形式的數(shù)據(jù),實(shí)施多重對(duì)應(yīng)分析時(shí),工作表中都要加一列,列舉所有屬性變量所取的所有值:讀入指示變量形式的數(shù)據(jù)時(shí),按照屬性變量值在工作表
12、的“變量名”行出現(xiàn)的先后順序從上到下排列;讀入屬性變量形式的數(shù)據(jù)時(shí),先按照這些屬性變量在工作表中出現(xiàn)的先后順序,再對(duì)每個(gè)屬性變量值按照字典序從上到下排列。然后從“ 統(tǒng)計(jì) 多變量 多重對(duì)應(yīng)分析”入口, 進(jìn)入“多重對(duì)應(yīng)分析”對(duì)話框,可以實(shí)施 “多重對(duì)應(yīng)分析”MINITAB計(jì)算“多重對(duì)應(yīng)分析”后輸出的結(jié)果中,最重要的是列圖。列圖是一個(gè)平面圖形,所有屬性變量的各個(gè)值都作為點(diǎn)安放在列圖上,距離較近的點(diǎn)顯示關(guān)系較緊密。例4(指示變量形式數(shù)據(jù))為了分析人們對(duì)某種新家具的看法,請(qǐng)80名顧客對(duì)“樣式”、“油漆”、“顏色”、“材料”和“價(jià)格”評(píng)價(jià):分別給出 “式樣好”、“式樣差”、“油漆好”、“油漆差”、“顏色好
13、”、“顏色差”,“材料好”、“材料差”、 “價(jià)格低”、“價(jià)格中”、“價(jià)格高”的評(píng)價(jià)。廠商希望從調(diào)查數(shù)據(jù)分析這5個(gè)變量的“值”間的關(guān)系。數(shù)據(jù)如下。試畫圖分析顧客對(duì)式樣、油漆、顏色、材料和價(jià)格的意見間的聯(lián)系。表80名顧客對(duì)家具的評(píng)價(jià)樣好 樣劣漆好 漆劣 色好 色劣 料好 料劣 價(jià)低價(jià)中 價(jià)高101010010101010101000110100110010101010101001010101000110100110010101010100010101011010010101010001011001010101001101010010101010100101010100010110010101001
14、100101010011001010101010101010010101010001101010010101010100101001100101010010101101001001101010010101010001101010100011010101000110101001010101010101001010101000110101010001101001100101001101010010101010100101001100101010101000110101010100101010100011010101000110101001010101010100011010101000110101
15、010001010101101000101011010001100101010100110101001010101000110100110010010101101001001101010010101010001101010100011010101000110101010001101010100010101011010010101001010101010100011001101010010100110010解 1)將表拷入工作表,在右邊加上一列,列名為“變量值”,內(nèi)容為各列的變量名。2)從“ 統(tǒng)計(jì) 多變量 多重對(duì)應(yīng)分析”入口, 進(jìn)入“多重對(duì)應(yīng)分析”對(duì)話框。3)選定“需要指示變量的列”將這含有指示
16、變量的11列選入空格。4)將“變量值”選入“屬性名稱”空格。5)點(diǎn)擊“圖形”,彈出“多重對(duì)應(yīng)分析-圖形”對(duì)話框,在其中選定“顯示列圖”。6)各框點(diǎn)擊確定。結(jié)果分析:由列圖可見:漆好、價(jià)高、料好、色好、樣好距離較近,聚為一類,這表明顧客對(duì)這批家具評(píng)價(jià)較好時(shí),也覺得價(jià)格較高;另外漆劣、價(jià)低距離較近,聚為一類,這表明認(rèn)為家具價(jià)格低廉的顧客認(rèn)為漆不好;色劣、樣劣聚為一類,也就是說認(rèn)為這批家具色劣的顧客認(rèn)為家具式樣低劣;料劣、價(jià)中聚為一類,就是說認(rèn)為價(jià)格中等顧客也認(rèn)為主要問題是材料不好。例5例1為了分析某種疾病成因,考慮是否飲用某種飲料、吃快餐、上網(wǎng)、患病程度、性別這5個(gè)項(xiàng)目,把它們作為5個(gè)變量,它們分
17、別取一些值(水平),為了分析這些水平間有何對(duì)應(yīng)關(guān)系。統(tǒng)計(jì)50名以上病人其資料如下表, 試根據(jù)這資料作分析,看看哪些水平間關(guān)系最密切。表疾病與生活習(xí)慣數(shù)據(jù)病員飲用否吃快餐否性別上網(wǎng)否患病程度1飲用不吃男上網(wǎng)低2飲用不吃男上網(wǎng)低3飲用吃男上網(wǎng)低4飲用吃男不上中5飲用吃男上網(wǎng)高6飲用不吃男上網(wǎng)低7飲用吃男上網(wǎng)低8飲用吃女上網(wǎng)中9飲用不吃男上網(wǎng)低10飲用吃男上網(wǎng)高11飲用吃男上網(wǎng)高12飲用吃男上網(wǎng)高13飲用吃男上網(wǎng)高14不飲吃女不上中15飲用吃男上網(wǎng)高16飲用吃男上網(wǎng)高17飲用吃男上網(wǎng)高18飲用吃女上網(wǎng)中19飲用吃女上網(wǎng)中20飲用吃男上網(wǎng)高21不飲不吃女上網(wǎng)低22飲用吃男上網(wǎng)低23飲用吃男上網(wǎng)高24飲
18、用吃男上網(wǎng)高25飲用吃女上網(wǎng)中26不飲吃女不上中27不飲吃女不上中28不飲不吃女上網(wǎng)低29飲用不吃男上網(wǎng)低30不飲不吃女上網(wǎng)低31飲用吃男上網(wǎng)高32飲用吃男上網(wǎng)高33不飲吃女不上中34飲用吃男不上中35飲用吃男上網(wǎng)高36飲用吃男上網(wǎng)低37飲用吃男上網(wǎng)高38飲用吃男上網(wǎng)高39飲用吃男上網(wǎng)低40飲用吃男上網(wǎng)高41不飲吃女不上中42飲用吃男上網(wǎng)高43不飲不吃女上網(wǎng)低44飲用吃男不上中45飲用吃男不上中46不飲不吃女上網(wǎng)低47飲用吃男上網(wǎng)高48飲用吃女上網(wǎng)中49飲用吃男不上中50飲用吃男上網(wǎng)高解1)將數(shù)據(jù)拷入工作表(C1-C6)。2)添一列在工作表中(C7),變量名為列名,以下空格順序填寫“不飲,飲用
19、,不吃,吃,女、男,不上網(wǎng)、上網(wǎng),低,高,中”。3)從“統(tǒng)計(jì) 多變量 多重對(duì)應(yīng)分析”入口,進(jìn)入“多重對(duì)應(yīng)分析”對(duì)話窗, 4)在“屬性變量”中指定“飲用否-患病程度”(C2-C6)共5列(描黑后點(diǎn)擊“選擇”),在“類別名稱”中選入“列名”, 在“分量數(shù)”仍保留為默認(rèn)的“2”。5)點(diǎn)擊 “圖形”,彈出“多重對(duì)應(yīng)分析圖形”對(duì)話窗,選擇“顯示列圖。6)各窗點(diǎn)擊“確定”,就可以得到計(jì)算結(jié)果從圖中可見:患病程度高的與飲用該飲料、男性、吃快餐、上網(wǎng)關(guān)系密切,女性與不飲用關(guān)系密切,也就是說男性希望飲用、吃快餐、上網(wǎng);女性不希望飲用;不吃快餐的患病程度低;不上網(wǎng)的患病程度中等。(三)SAS作對(duì)應(yīng)分析SAS作對(duì)應(yīng)
20、分析的必要性:功能強(qiáng)大可以考慮頻數(shù),畫圖清晰。1SAS簡(jiǎn)介SAS系統(tǒng)可以通過多種方式生成數(shù)據(jù)集,并通過ASSIST菜單方式和程序方式(執(zhí)行SAS程序方式)實(shí)現(xiàn)人機(jī)會(huì)話。使用ASSIST模塊可實(shí)現(xiàn)菜單驅(qū)動(dòng)式人機(jī)會(huì)話,而無需編程。但采用程序方式實(shí)現(xiàn)人機(jī)會(huì)話,利于初學(xué)者掌握和模仿使用,ASSIST菜單方式和MINITAB菜單方式相似,但是用到許多英文專業(yè)詞匯。本次僅介紹程序方式。編寫SAS程序要求很高,除字符串外不能有中文,不能有中文標(biāo)點(diǎn)符號(hào),必須英文符號(hào)。1)SAS窗口SAS系統(tǒng)實(shí)現(xiàn)程序方式人機(jī)會(huì)話主要通過4個(gè)窗口: PROGRAM(編輯器)窗口、LOG(日志)窗口、OUTPUT(輸出)窗口和GR
21、APH(圖形)窗口。(1)PROGRAM(編輯器)窗口用于存放給電腦的命令(一般為SAS程序),點(diǎn)擊菜單中跑步的小人為“提交”(submit)的快捷方式。(2) LOG(日志)窗口用于記錄計(jì)算過程,當(dāng)程序有錯(cuò)誤時(shí),日志窗口將錯(cuò)誤語句用紅字標(biāo)出,往往還給出錯(cuò)誤原因和修改建議。(3) OUTPUT(輸出)窗口用于存放電腦計(jì)算的結(jié)果。SAS計(jì)算結(jié)果很多,在輸出窗口形成許多數(shù)表,每個(gè)數(shù)表用表頭區(qū)分。(4) GRAPH(圖形)窗口用于輸出圖形型結(jié)果,具有較高分辯率。為得到這些窗口可在屏幕下方找尋,也可在GLOBALS菜單下點(diǎn)擊。在PROGRAM窗口輸入SAS程序,并點(diǎn)擊“提交”(submit)快捷鍵(跑
22、步小人),就可實(shí)現(xiàn)人機(jī)對(duì)話。2.)DATA步語句SAS程序由SAS語句組成。DATA語句以關(guān)聯(lián)詞DATA開頭,后跟數(shù)據(jù)集名。功能是:開始數(shù)據(jù)步;指示SAS產(chǎn)生數(shù)據(jù)集;指定產(chǎn)生的數(shù)據(jù)集名。如語句data wang2;指示SAS生成名為wang2的數(shù)據(jù)集。INPUT語句以關(guān)聯(lián)詞INPUT開頭,后跟變量名。用于指示SAS輸入數(shù)據(jù)時(shí),數(shù)據(jù)對(duì)應(yīng)的變量。字符串型變量后要加$號(hào),以說明是字符串變量。如果字符串型變量長(zhǎng)于八個(gè)字母或中有空格,可在變量名后加數(shù)字說明在哪些列的符號(hào)是字符串。如input no name % x1-x4 z;表示數(shù)據(jù)體的順序是:數(shù)值型變量no、字符串變量name、數(shù)值型變量x1、數(shù)值
23、型變量x2、數(shù)值型變量x3、數(shù)值型變量x4、數(shù)值型變量z。變量名只能用英文表示,字符串變量值可為中文。Datalineshuo或CARDS語句只由關(guān)聯(lián)詞datalines或,CARDS組成。表示以下為數(shù)據(jù)體。數(shù)據(jù)體每行寫一次觀察值,不同變量的值用空格分開不加任何符號(hào),整型數(shù)與實(shí)型數(shù)無區(qū)別。賦值語句由變量+等號(hào)+表達(dá)式組成,如y=x1+2.5*x2+x3。它的作用是產(chǎn)生新的變量y,其每次觀察值由相應(yīng)x1,x2,x3觀察值計(jì)算??照Z句只由分號(hào)組成,表示數(shù)據(jù)體結(jié)束。例 已知某組學(xué)生成績(jī)?nèi)缦卤?,?jì)算每個(gè)學(xué)生總分和平均成績(jī)學(xué)號(hào)姓名數(shù)學(xué)語文外語001趙大859287002錢二887797003孫三9288
24、95004李四828684可用如下程序data class1;/建立名為class1的數(shù)據(jù)集*/input no name$ shuxuue yuwen waiyu;/*建立名為 no 、name(字符串型)、shuxuue、yuwen waiyu*/zongfen= shuxuue +yuwen +waiyu; /*建立名為zongfen的變量,其值為shuxuue +yuwen +waiyu;*/pingjun=zongfen/3;/*建立名為pingjun的變量,其值為zongfen/3*/cards;/*cards語句,以下為數(shù)據(jù)體*/001 趙大 85 92 87002 錢二 88
25、77 97003 孫三 92 88 95004 李四 82 86 84;/*空語句,結(jié)束數(shù)據(jù)步*/run;所得數(shù)椐集有五個(gè)變量,分別給出學(xué)生的語文,數(shù)學(xué),外語,總分和平均成績(jī)。為顯示該數(shù)據(jù)集,在編輯器(PROGRAM)窗口輸入命令proc print data=class1;run;可在輸出窗口看到數(shù)據(jù)集的內(nèi)容。3)PROC步語句PROC步調(diào)用過程加工數(shù)據(jù)集。每個(gè)過程由若干句子組成,這些句子根據(jù)過程的需要而定。最常用的語句形為PROC語句,一般形式是Proc xxx data=yyy,功能是讓SAS調(diào)用xxx過程處理數(shù)椐集yyy。其他較常用語句有:VAR語句,以關(guān)聯(lián)詞VAR開頭,用以規(guī)定參與的
26、變量;OUTPUT語句,以關(guān)聯(lián)詞VAR開頭,用以規(guī)定輸出某個(gè)數(shù)據(jù)集的內(nèi)容。由于不同問題需要調(diào)用不同過程,不同過程PROC步所用語句也不相同4)SAS做對(duì)應(yīng)分析SAS使用CORESP過程作對(duì)應(yīng)分析,在PROC CORESP語句中使用OUTC=選項(xiàng)輸出畫圖所用數(shù)據(jù);再使用宏指令%plotit畫出圖形。如果不直接輸入列聯(lián)表或BURT表,而是輸入原始數(shù)據(jù),則要增加TABLE語句,由原始數(shù)據(jù)獲取列聯(lián)表或BURT表。2 SAS作簡(jiǎn)單對(duì)應(yīng)分析可以在數(shù)據(jù)步把兩個(gè)變量的列聯(lián)表直接輸入,也可以用原始屬性數(shù)據(jù)輸入。列聯(lián)表直接輸入時(shí),代表每一行的符號(hào)“行名”排成一列,作為一個(gè)字符串變量的值,代表每一列的符號(hào)“列名”作
27、為自變量的符號(hào)。在原程序加工步中用VAR語句指定列名變量;ID語句指明行名變量。如果輸入原始變量,要用TABLES語句生成列聯(lián)表,不用VAR語句。例5經(jīng)調(diào)查大學(xué)生舌色和體質(zhì)列聯(lián)表如下,做對(duì)應(yīng)分析體 質(zhì)顏色平和氣虛陽虛陰虛瘀血痰濕濕熱氣郁特凜淡紅12424299395241832769223387紅16147147892642134214絳444112221暗628221130青紫614510110邊紅351130109103154尖紅14856123802235153416淡白211216656453解用Co1-co7表示舌頭7種顏色;ph1-ph9表示9種體質(zhì)程序Data colorph;/
28、*建立數(shù)據(jù)集,名為colorph*/Input color$ ph1-ph9;/建立10個(gè)變量,變量名為color(字符串變量),ph1至ph9*/Cards;/*以下是數(shù)據(jù)體*/Co112424299395241832769223387Co216147147892642134214Co3444112221Co4628221130Co5614510110Co6351130109103154Co714856123802235153416Co8211216656453;/*數(shù)據(jù)體結(jié)束*/proc corresp outc=wang;/*調(diào)用corresp過程,輸出數(shù)據(jù)集為wang*/ var ph
29、1-ph9;/*9個(gè)列變量是ph1-ph9*/ id color;/*行變量是color*/ run;/*執(zhí)行*/%plotit(data=wang, datatype=corresp, plotvars=Dim1 Dim2) /*宏指令,用數(shù)據(jù)集wang畫對(duì)應(yīng)分析圖*/quit;/*退出畫圖過程*/執(zhí)行后得到圖形中舌色1(淡紅)和體質(zhì)1(平和)最接近。Co7和ph3最接近,也就是說舌色尖紅的人如果不是平和,就是陽虛。多重對(duì)應(yīng)分析3SAS作多重對(duì)應(yīng)分析為了了解人們對(duì)英國(guó)政府某項(xiàng)政策的態(tài)度,請(qǐng)被調(diào)查人對(duì)5個(gè)問題打勾:性別(男、女),低于30歲?(低于、高于),年收入8000鎊?(少于、多于),情
30、緒(悲觀、樂觀),贊成否?(贊成、反對(duì));得到5個(gè)屬性變量,每個(gè)屬性變量各有2個(gè)值。整理74人的調(diào)查資料為表5-4。對(duì)所得數(shù)據(jù)做多重對(duì)應(yīng)分析。表5-4 人們對(duì)英國(guó)政府某項(xiàng)政策的態(tài)度性別低于30歲?年收入8000鎊?情緒贊成否?mlowlessoptiyesflowlessoptiyesflowlessoptiyesflowlessoptiyesmhighlessoptiyesmhighlessoptiyesmhighlessoptiyesfhighlessoptiyesfhighlessoptiyesmlowmoreoptiyesmlowmoreoptiyesmhighmoreoptiyesm
31、highmoreoptiyesmhighmoreoptiyesfhighmoreoptiyesmlowlesspessyesmlowlesspessnomlowmorepessyesmlowlessoptinomlowlessoptinomlowlessoptinomlowlessoptinomlowlessoptinoflowlessoptinoflowlessoptinoflowlessoptinoflowlessoptinomhighlessoptinomhighlessoptinofhighlessoptinofhighlessoptinofhighlessoptinoflowmore
32、optinomhighmoreoptinomhighmoreoptinomhighmoreoptinomhighmoreoptinomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnoflowlesspessnoflowlesspessnoflowlesspessnoflowlesspe
33、ssnoflowlesspessnoflowlesspessnoflowlesspessnoflowlesspessnoflowlesspessnomhighlesspessnomhighlesspessnomhighlesspessnomhighlesspessnomhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnomlowmorepessnomhighmorepessnomlowmoreoptiyesmlowmoreoptiyes解:
34、被加工的數(shù)據(jù)集是原始類別資料,需要用table語句生成BURT表新添。以sex age income morale commit表示變量性別,低于30歲?,年收入8000,情緒,贊成否。取的值是m,f;low,high;less,more;pess,opti;yes,no,分別表示:男、女;低于、高于;少于、多于;悲觀、樂觀;贊成、反對(duì)。建立程序(程序名“對(duì)英國(guó)政策的態(tài)度”.sas)data commit;input sex$ age$ income$ morale$ commit$;datalines;mlowless optiyesflowless optiyesflowless opti
35、yesflowlessoptiyesmhighlessoptiyesmhighlessoptiyesmhighlessoptiyesfhighlessoptiyesfhighlessoptiyesmlowmoreoptiyesmlowmoreoptiyesmhighmoreoptiyesmhighmoreoptiyesmhighmoreoptiyesfhighmoreoptiyesmlowlesspressyesmlowlesspressnomlowmorepressyesmlowlessoptinomlowlessoptinomlowlessoptinomlowlessoptinomlowl
36、essoptinoflowlessoptinoflowlessoptinoflowlessoptinoflowlessoptinomhighlessoptinomhighlessoptinofhighlessoptinofhighlessoptinofhighlessoptinoflowmoreoptinomhighmoreoptinomhighmoreoptinomhighmoreoptinomhighmoreoptinomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspre
37、ssnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnomhighlesspressnomhighlesspressnomhighlesspressnomhighles
38、spressnomhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnomlowmorepressnomhighmorepressnomlowmoreoptiyesmlowmoreoptiyes;proc corresp mca outc=wang;tables sex age income morale commit; /*由原始屬性變量數(shù)據(jù)算出burt表,以供對(duì)應(yīng)分析使用*/run;%plotit(data=wang, da
39、tatype=corresp, href=0, vref=0) /*畫對(duì)應(yīng)分析圖,過原點(diǎn)畫縱軸和橫軸*/quit;執(zhí)行程序后得到對(duì)應(yīng)分析圖。從圖中可見“低于”30歲(low)、“少于8000鎊”(less)、“悲觀”(pess)、“反對(duì)”(no)距離較近,說明年青和收入少者持悲觀態(tài)度,反對(duì)該政策;“贊成”(yes)、“樂觀”(optim)、“高于”(high)距離較近,說明收入高的人持樂觀態(tài)度,贊成該政策;“男”、“女”和“多于”比較孤立,說明對(duì)政策的態(tài)度與“性別”無關(guān),年齡大的人對(duì)政策的態(tài)度不明朗。4 模糊數(shù)據(jù)的處理對(duì)于每一個(gè)個(gè)體x屬性變量的值應(yīng)當(dāng)是唯一確定的,有時(shí)出現(xiàn)模糊值現(xiàn)象。例如一個(gè)人
40、的舌色既是淡紅又是舌尖紅。為此常用近似處理方法原始數(shù)據(jù)No淡紅舌尖紅紅1234100567801023451101357111近似數(shù)據(jù)No淡紅舌尖紅紅1234100567801023451002345010135710013570101357001精確數(shù)據(jù)No淡紅舌尖紅紅權(quán)12341006567801062345100323450103135710021357010213570012用MINITAB的頻數(shù)選項(xiàng)或SAS的weight語句計(jì)算四logistic回歸當(dāng)因變量是屬性變量時(shí),可以用logistic回歸建立預(yù)測(cè)方程Logistic回歸分析的目的是建立經(jīng)驗(yàn)公式,以便由自變量預(yù)測(cè)因變量概率分布
41、。當(dāng)因變量?jī)H有兩個(gè)“狀態(tài)”時(shí)的Logistic回歸就是“二值Logistic回歸”;當(dāng)因變量的多個(gè)“狀態(tài)”(狀態(tài)數(shù)多于2)沒有順序關(guān)系時(shí)就是“名義值Logistic回歸”。使用MINITAB的二進(jìn)制Logistic回歸對(duì)話框、名義Logistic回歸對(duì)話框,就能分別完成這2種回歸分析。Logistic回歸的自變量可以是數(shù)值變量,也可以是屬性變量。當(dāng)自變量是屬性變量時(shí),要把它選入“因子”空格,以向MINITAB說明該自變量是屬性變量。實(shí)施這些對(duì)話框后,得到的結(jié)果主要由3張表組成:Logistic回歸表,斜率檢驗(yàn)表和擬合優(yōu)度檢驗(yàn)表;它門的表頭分別是“Logistic回歸表”,“檢驗(yàn)斜率是否為零”和
42、“擬合優(yōu)度檢驗(yàn)”。Logistic回歸表給出參數(shù)的估計(jì)值,參數(shù)顯著性檢驗(yàn)的p值(這兩項(xiàng)和線性回歸相同)和自變量的優(yōu)勢(shì)比;p值越小,例如小于0.05,自變量越重要,不能刪去;斜率檢驗(yàn)表給出斜率檢驗(yàn)的p值,p值越小,例如小于0.05,Logistic所有自變量的效果越好;擬合優(yōu)度檢驗(yàn)表給出擬合優(yōu)度檢驗(yàn)的p值,p值越大,例如大于0.05,Logistic回歸方程的效果越好。對(duì)這些表我們將結(jié)合例題加以介紹。(一)二值Logistic回歸二值Logistic回歸僅考慮因變量是二個(gè)狀態(tài)的情形:當(dāng)用1表示因變量處于某個(gè)狀態(tài),用0表示因變量處于另一個(gè)狀態(tài)時(shí),因變量取1事件的概率記為p;當(dāng)因變量的值是英文字符時(shí)
43、,英文字符排在后面的事件的概率記為p;當(dāng)因變量的值是漢字符號(hào)時(shí),漢字拼音字母排在后面的事件的概率記為p。二值Logistic回歸方程是其中是已估計(jì)出的參數(shù)。稱為“優(yōu)勢(shì)比”。例 統(tǒng)計(jì)1008位顧客購買洗衣粉情況,數(shù)據(jù)見下表希望了解水質(zhì)、過去購買否、水溫對(duì)于購買哪種品牌是否有影響。 水質(zhì)品牌是否買過水溫頻數(shù)軟甲是高19軟甲是低57軟甲否高29軟甲否低63軟乙是高29軟乙是低49軟乙否高27軟乙否低53中甲是高23中甲是低47中甲否高33中甲否低66中乙是高47中乙是低55中乙否高23中乙否低50硬甲是高24硬甲是低37硬甲否高42硬甲否低68硬乙是高43硬乙是低52硬乙否高30硬乙否低42解 這兒
44、有4個(gè)屬性變量:水質(zhì)、過去購買否、水溫和購買哪種品牌。把被購買洗衣粉的品牌作為因變量,命名為“品牌”,它只取兩個(gè)值(甲和乙),適用于二值Logistic回歸。把水質(zhì)、過去購買否、水溫作為自變量,實(shí)施二值Logistic回歸。具體操作如下:先將數(shù)表拷入工作表;然后由指令“統(tǒng)計(jì) 回歸 二進(jìn)制Logistic回歸”進(jìn)入“二值Logistic回歸”對(duì)話框;再在“響應(yīng)”空格中選入 “品牌”;在“頻率(可選)”空格中選入“頻數(shù)”;在“模型”空格選入 “水質(zhì)”、“水溫”和“是否買過”;在“因子”空格選入“水質(zhì)”、“水溫”和“是否買過”;最后點(diǎn)擊“確定”。在會(huì)話窗口得到二進(jìn)制 Logistic 回歸: 品牌 與 水溫, 是否買過,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 3029-2025船用通風(fēng)附件技術(shù)條件
- 職場(chǎng)情緒與壓力管理專題培訓(xùn)
- 質(zhì)量管理系統(tǒng)培訓(xùn)
- 機(jī)架人員安全培訓(xùn)教育
- 城市建筑排水設(shè)計(jì)重點(diǎn)基礎(chǔ)知識(shí)點(diǎn)
- 辦公家具業(yè)務(wù)培訓(xùn)
- 氣球使用協(xié)議書
- 2024秋招北森題庫數(shù)學(xué)百題
- 物品轉(zhuǎn)讓協(xié)議書
- 商業(yè)場(chǎng)所租賃擴(kuò)展協(xié)議
- 計(jì)劃生育選擇試題及答案
- 法律文化-形考作業(yè)3-國(guó)開(ZJ)-參考資料
- 2025屆東北三省四市高三第二次聯(lián)考英語試卷含答案
- 2025-2030中國(guó)振動(dòng)監(jiān)測(cè)系統(tǒng)行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略研究報(bào)告
- 《中華茶藝文化》課件
- 華為系統(tǒng)面試題及答案
- 主題班會(huì):高中男女生正常交往課件
- 2025年第33批 歐盟REACH SVHC高度關(guān)注物質(zhì)清單247項(xiàng)
- 漳州市城市規(guī)劃管理技術(shù)規(guī)定
- T8聯(lián)考·2025屆高三下學(xué)期3月聯(lián)合測(cè)評(píng)數(shù)學(xué)試卷(含答案)
- 以太網(wǎng)技術(shù)相關(guān)的重要考試題目試題及答案
評(píng)論
0/150
提交評(píng)論