第七章屬性數(shù)據(jù)與FREQ過程_第1頁
第七章屬性數(shù)據(jù)與FREQ過程_第2頁
第七章屬性數(shù)據(jù)與FREQ過程_第3頁
第七章屬性數(shù)據(jù)與FREQ過程_第4頁
第七章屬性數(shù)據(jù)與FREQ過程_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第七章屬性數(shù)據(jù)分析與FREQ過程屬性數(shù)據(jù)簡介在一個(gè)有三個(gè)主要大型商場的商貿(mào)中心,調(diào)查476個(gè)不同年齡階段的人首先去三個(gè)商場中的哪一個(gè)。

我們看到市場調(diào)查表中,所得到的信息一般是被調(diào)查對(duì)象的分類信息,而不是定量變量的具體值。

從例子中我們看到對(duì)觀測對(duì)象通過商場和調(diào)查對(duì)象的年齡段進(jìn)行了分類,得到一個(gè)二維表格。

那么從這個(gè)數(shù)據(jù)我們是否能看出顧客的年齡段與他所去的商場有聯(lián)系嗎?為了了解廣告是否對(duì)消費(fèi)者產(chǎn)生影響,某廣告公司在某地區(qū)連續(xù)廣告一個(gè)月,和在沒有進(jìn)行廣告宣傳的地區(qū)分別隨機(jī)抽取了100名消費(fèi)者(實(shí)際的或潛在的)進(jìn)行問卷調(diào)查,得到下表:已購買打算購買不打算購買看過廣告60337沒看過廣告154035變量的類型

按類型可以分為:字符型和數(shù)值型,按測量水平可以分為:區(qū)間型和名義型。

數(shù)值變量就是能用數(shù)字來計(jì)量的變量;而不能用數(shù)字來計(jì)量的變量則稱為字符型變量,也稱為屬性變量。

區(qū)間型變量是指變量的取值可以為一個(gè)連續(xù)的數(shù)值區(qū)間,又可分為比率變量和間隔變量。名義型變量是指變量本身本質(zhì)上不能用數(shù)值表示,用數(shù)字沒有真正意義,又可分為分類變量和有序變量。

按類型可以分為:字符型和數(shù)值型,按測量水平可以分為:區(qū)間型和名義型。分類變量和有序變量統(tǒng)稱為屬性變量,也稱字符型變量或定性變量。間隔變量和比率變量則稱為數(shù)值型變量,也稱為定量變量或連續(xù)型變量

分類變量和有序變量統(tǒng)稱為屬性變量,有時(shí)也稱為字符型變量或定性變量;一般在屬性數(shù)據(jù)分析中需要解決:

而間隔變量和比率變量則稱為數(shù)值型變量,有時(shí)也稱為定量變量或連續(xù)變量。

對(duì)屬性變量進(jìn)行的數(shù)據(jù)分析稱為屬性數(shù)據(jù)分析。(1)產(chǎn)生匯總分類數(shù)據(jù)——頻數(shù)表;(2)屬性變量之間的獨(dú)立性檢驗(yàn);(3)在屬性變量之間存在關(guān)聯(lián)的情況下,計(jì)算他們之間的關(guān)聯(lián)系數(shù)。屬性數(shù)據(jù)分析中一些常見概念與檢驗(yàn)統(tǒng)計(jì)量

雙向表(二維表)由兩個(gè)屬性變量交叉分組所得到的表。

多向表(多向交叉表或多維表)由兩個(gè)以上屬性變量構(gòu)成的表。

單向表(一維表)由一個(gè)屬性變量進(jìn)行分組構(gòu)成的表。

雙向表無關(guān)聯(lián)性檢驗(yàn)的統(tǒng)計(jì)量

雙向表中行變量與列變量相關(guān)性的檢驗(yàn)行列變量都是有序變量時(shí)主要功能FREQ過程是SAS系統(tǒng)中用于屬性數(shù)據(jù)分析的主要過程之一,可以生成單向到N向的頻率表和交叉表。對(duì)于雙向表(二維表),該過程計(jì)算檢驗(yàn)統(tǒng)計(jì)量和關(guān)聯(lián)度。對(duì)于N向表,該過程進(jìn)行分層分析,計(jì)算每一層和交叉層的統(tǒng)計(jì)量。FREQ過程FREQ過程的一般格式PROCFREQ

<option-list>;BYvariable-list;TABLESrequest-list</option-list>;WEIGHTvariable;OUTPUT<OUT=sas-data-set><output-statistic-list>;FREQ過程語句說明:(1)TABLES語句:一般格式:TABLESrequest-list</option-list>;若沒有任何選項(xiàng),則對(duì)tables語句中規(guī)定的變量的每個(gè)水平計(jì)算頻數(shù),累計(jì)頻數(shù),占總頻數(shù)的百分比及累計(jì)百分?jǐn)?shù)。

FREQ過程中可包含任意多個(gè)TABLES語句

若沒有TABLES語句,則生成輸入數(shù)據(jù)集中每個(gè)變量的單向頻數(shù)表tables(abc)*d;等價(jià)于tablesa*db*dc*d;多項(xiàng)表由多個(gè)變量用星號(hào)連接產(chǎn)生如tablesx1*x2*x3;簡潔表示形式:tablesa—d;等價(jià)于tablesabcd;tables(ab)*(cd);等價(jià)于tablesa*ca*db*cb*d;tablesa*(bc);等價(jià)于tablesa*ba*c;request-list:制表要求單向表由單個(gè)變量產(chǎn)生如tablesabc;雙向交叉表用一個(gè)“*”

連接兩個(gè)變量產(chǎn)生

如tablesa*b;</option-list>常見類型:(1)ALL:求所有由CHISQ,MEASURES和CMH選項(xiàng)給出的檢驗(yàn)和度量;(2)CHISQ:要求對(duì)每層的齊性或獨(dú)立性進(jìn)行(3)CMH:計(jì)算Cochran-Mantel-Haenszel統(tǒng)計(jì)量,用于2維以上表檢驗(yàn)行、列變量的相關(guān)。(4)EXACT:對(duì)于大于2×2維表進(jìn)行Fisher精確檢驗(yàn)。(5)MEASURES:計(jì)算相關(guān)度量和它們的漸進(jìn)標(biāo)準(zhǔn)差。(6)ALPHA=P值:OUT=sas-data-set:規(guī)定輸出數(shù)據(jù)集的名字output-statistic-list:輸出統(tǒng)計(jì)量列表可用的統(tǒng)計(jì)量是有PROCFREQ產(chǎn)生的關(guān)于雙向交叉表的統(tǒng)計(jì)量及概括性統(tǒng)計(jì)量。(2)WEIGHTvariable:每個(gè)觀測對(duì)頻數(shù)為對(duì)應(yīng)權(quán)數(shù)變量的值。(3)OUTPUT語句:一般格式:OUTPUT<OUT=sas-data-set><output-statistic-list>;創(chuàng)建一個(gè)包含有PROCFREQ計(jì)算的統(tǒng)計(jì)量的SAS數(shù)據(jù)集。nocolnorow要求不輸出行、列百分比應(yīng)用舉例例7.1廣告是否會(huì)顯著影響消費(fèi)者的購買意向dataads;inputad$plan$number;cards;看過已買60看過打算買33看過沒打算買7沒看過已買25沒看過打算買40沒看過沒打算買35;procfreq;tablesad*plan/chisqnocolnorow;weightnumber;run;輸出1按是否看過廣告和購買意向分組的消費(fèi)者分布情況由卡方統(tǒng)計(jì)量,似然比卡方,以及M-H卡方統(tǒng)計(jì)量值對(duì)應(yīng)概率都小于0.05,從而在0.05的顯著性水平下有行列不獨(dú)立,即廣告對(duì)消費(fèi)者的購買意向有顯著影響。輸出2廣告是否會(huì)顯著影響消費(fèi)者購買意向檢驗(yàn)結(jié)果

且由Phi系數(shù)、Cramer的V系數(shù)為0.4108,列聯(lián)系數(shù)為0.38可知這種影響是正向的,即看過廣告的消費(fèi)者更可能購買。例7.2顧客年齡段對(duì)首先去的商場的影響

dataclient;doi=1to3;doj=1to3;inputf@@;output;end;end;cards;807045918615413810;run;procfreq;weightf;tablesi*j/expectedchisqnocolnorownopercentexact;run;其中用i=1,2,3分別表示顧客的年齡段為≤30,31~50,>51;用j=1,2,3分別表示顧客首先去的商場為商場1,商場2,商場3。

)例7.2顧客年齡段對(duì)首先去的商場的影響

dataclient;doi=1to3;doj=1to3;inputf@@;output;end;end;cards;807045918615413810;run;procfreq;weightf;tablesi*j/expectedchisqnocolnorownopercentexact;run;Expected要求給出期望頻數(shù)Chisq

進(jìn)行卡方檢驗(yàn)Exact

進(jìn)行Fisher精確檢驗(yàn)Norow,nocol,nopercent

不要求輸出行、列及累計(jì)百分比輸出7.2(A)顧客年齡和首選商場分布情況由卡方統(tǒng)計(jì)量,似然比卡方,以及M-H卡方統(tǒng)計(jì)量值對(duì)應(yīng)概率都小于0.05,從而在0.05的顯著性水平下有行列不獨(dú)立,即不同年齡段顧客對(duì)商場是有選擇的。Fisher精確檢驗(yàn)也說明了這一點(diǎn)(雙側(cè)檢驗(yàn)的P值8.333E-04遠(yuǎn)小于0.05)。輸出7.2(B)顧客年齡段是否會(huì)顯著影響首選商場檢驗(yàn)結(jié)果由于顧客年齡段和商場編號(hào)都是有序變量,故可利用Gamma(-0.1481)、Tau-b(-0.0930)、Tau-c(-0.0870)和Spearman(-0.1024)等級(jí)相關(guān)系數(shù)計(jì)算兩者之間的關(guān)系,以上數(shù)值都是負(fù)的,表明兩變量之間的關(guān)系是負(fù)相關(guān)的,即隨著年齡的增大,會(huì)更傾向選擇序號(hào)低的商場。輸出7.2(C)顧客年齡段與商場編號(hào)之間的相關(guān)系數(shù)下表記錄了某公司過去3個(gè)月中的顧客信息,包括顧客的性別、月收入、消費(fèi)水平。試根據(jù)此表完成以下工作:(1)檢驗(yàn)顧客月收入的高低是否顯著影響顧客的消費(fèi)水平,給出兩者之間的關(guān)聯(lián)系數(shù);(2)以性別作為分層變量生成消費(fèi)水平與顧客月收入之間的雙向交叉表,并分析比較男女顧客收入高低人群的購買行為。表見P253例7.3顧客年齡段是否會(huì)顯著影響首選商場檢驗(yàn)結(jié)果datacustomer;inputincomepurchasesex$number@@;cards;00m3500f5501m801f3410m5810f4011m1511f3120m3720f4421m3821f36;procfreq;tablespurchase*income/chisqmeasurenorownocolnopercent;tablessex*income*purchase/chisqexpectednorownocol;weightnumber;run;Income收入,0,1,2分別代表低收入、中等收入和高收入Purchase消費(fèi)水平,0,1分別代表消費(fèi)額低于300元和消費(fèi)額高于300元及以上tablespurchase*income/chisqmeasurenorownocolnopercent;由卡方統(tǒng)計(jì)量對(duì)應(yīng)的概率都小于0.05,表明顧客的消費(fèi)水平和收入具有關(guān)聯(lián)性。tablespurchase*income/chisqmeasurenorownocolnopercent;由于兩變量都為有序變量,且Gamma=0.2324,Tau-b=0.1312,Tau-c=0.1466,Spearman=0.1391,表明兩者之間正相關(guān),即收入越高,消費(fèi)越高。tablessex*income*purchase/chisqexpectednorownocol;由卡方統(tǒng)計(jì)量對(duì)應(yīng)的概率都大于于0.05,表明女性顧客的消費(fèi)水平和收入沒有有關(guān)聯(lián)性。tablessex*income*purchase/chisqexpectednorownocol;由卡方統(tǒng)計(jì)量對(duì)應(yīng)的概率都小于0.05,表明男性顧客的消費(fèi)水平和收入具有關(guān)聯(lián)性。我們看一個(gè)實(shí)際的例子,“Zagat飯店評(píng)論”是一個(gè)提供世界各地飯店數(shù)據(jù)的服務(wù)機(jī)構(gòu),他報(bào)告飯店各種變量的數(shù)據(jù),例如:飯店的質(zhì)量等級(jí)、典型的食品價(jià)格等。質(zhì)量等級(jí)是定性數(shù)據(jù),等級(jí)類型是好、非常好和優(yōu)異。食品價(jià)格是定量變量,通常的變化范圍是:10美元—49美元。一個(gè)樣本包括洛杉磯地區(qū)的300家飯店,收集他們的質(zhì)量等級(jí)和食品價(jià)格數(shù)據(jù),如下表所示:食品價(jià)格質(zhì)量等級(jí)10-19美元20-29美元30-39美元40-49美元總計(jì)好非常好優(yōu)異423424064142462806228415066總計(jì)781187628300試根據(jù)上面的數(shù)據(jù)以及所給出的交叉分組表,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論