《統(tǒng)計(jì)學(xué)思想方式和應(yīng)用》分類數(shù)據(jù)描述分析_第1頁
《統(tǒng)計(jì)學(xué)思想方式和應(yīng)用》分類數(shù)據(jù)描述分析_第2頁
《統(tǒng)計(jì)學(xué)思想方式和應(yīng)用》分類數(shù)據(jù)描述分析_第3頁
《統(tǒng)計(jì)學(xué)思想方式和應(yīng)用》分類數(shù)據(jù)描述分析_第4頁
《統(tǒng)計(jì)學(xué)思想方式和應(yīng)用》分類數(shù)據(jù)描述分析_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《統(tǒng)計(jì)學(xué)思想方式和應(yīng)用》分類數(shù)據(jù)描述分析第3章分類數(shù)據(jù)的描述分析3.1

數(shù)據(jù)的預(yù)處理3.2頻數(shù)表3.3統(tǒng)計(jì)圖3.4列聯(lián)表Display23:122學(xué)習(xí)目標(biāo)

用頻數(shù)表描述數(shù)據(jù)的分布;用條形圖、餅圖、百分條圖等圖形來展示數(shù)據(jù);用列聯(lián)表分析兩個(gè)分類指標(biāo)之間的關(guān)系;相關(guān)理論在統(tǒng)計(jì)軟件中的應(yīng)用;相應(yīng)統(tǒng)計(jì)分析結(jié)果的解讀。23:123用哪些圖形展示獎(jiǎng)牌?在2012年倫敦奧運(yùn)會上,中國隊(duì)以38金27銀22銅位列奧運(yùn)金牌榜和獎(jiǎng)牌榜第二位,這也是中國境外參賽以來取得的最好成績,美國隊(duì)以46金29銀29銅104獎(jiǎng)牌高居榜首。東道主英國位居第三23:124用哪些圖形展示獎(jiǎng)牌?根據(jù)上面的數(shù)據(jù),你認(rèn)為可以選擇哪些圖形來展示三個(gè)國家所獲得的獎(jiǎng)牌情況?學(xué)完本章的圖表展示技術(shù),這樣的問題就會迎刃而解排名國家及地區(qū)男子女子混合金銀銅金銀銅金銀銅1美國1715132914150012中國178112018121103英國1791396532123:125數(shù)據(jù)分析包括三種形式為數(shù)據(jù)畫一個(gè)圖制作一個(gè)表計(jì)算一些我們感興趣的東西23:1263.1數(shù)據(jù)的預(yù)處理主要包括:數(shù)據(jù)的審核、篩選、排隊(duì)(1)數(shù)據(jù)的審核與篩選a、對第一手資料(直接調(diào)查或試驗(yàn)取得):審核其完整性與準(zhǔn)確性完整性應(yīng)調(diào)查的單位或個(gè)體是否有遺漏;所調(diào)查的項(xiàng)目是否填齊全。準(zhǔn)確性內(nèi)容是否符合實(shí)際;計(jì)算是否正確。如:文化程度:小學(xué)職業(yè):大學(xué)教師對第二手資料(獲取他人的資料):審核其完整性、準(zhǔn)確性、適用性、時(shí)效性23:127b、篩選:

剔除不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù);將符合特定條件的數(shù)據(jù)篩選出來。23:128(2)數(shù)據(jù)的排序

數(shù)據(jù)排序是按一定順序?qū)?shù)據(jù)排列。排序方式:數(shù)字型數(shù)據(jù)/字母型數(shù)據(jù)升序或降序漢字型數(shù)據(jù)多種排序目的:

a、通過瀏覽數(shù)據(jù)發(fā)現(xiàn)一些明顯的特征趨勢或解決問題的線索;

b、有助于數(shù)據(jù)的檢查糾錯(cuò);

c、為分組提供依據(jù)。23:129

統(tǒng)計(jì)分組是將預(yù)處理過的數(shù)據(jù)按照某種特征或標(biāo)準(zhǔn)分成不同的組別。統(tǒng)計(jì)分組變量:分組時(shí)所依據(jù)的特征或標(biāo)準(zhǔn),有定性變量和定量變量。頻數(shù)分布表:對分組后的數(shù)據(jù),計(jì)算各組中數(shù)據(jù)出現(xiàn)的次數(shù)或頻數(shù)所形成的匯總表。預(yù)處理數(shù)據(jù)分組計(jì)算頻數(shù)描述統(tǒng)計(jì)3.2頻數(shù)分布表23:12103.2頻數(shù)分布表(定性數(shù)據(jù))1.列出各類別3.計(jì)算各類別的頻數(shù)3.生成頻數(shù)分布表不重不漏搜索引擎訪問量訪問比例Google5062954.34%Direct2217323.80%Yahoo72727.80%MSN31663.40%SnapLink9461.02%其他89879.65%總計(jì)93173100%定義:選擇一個(gè)變量對總體分組,并計(jì)算落在各組中的頻數(shù)所形成的分布。分組頻數(shù)23:1211頻數(shù)分布表頻數(shù)(frequency)

:落在各類別中的數(shù)據(jù)個(gè)數(shù)比例(proportion)

:某一類別數(shù)據(jù)個(gè)數(shù)占全部數(shù)據(jù)個(gè)數(shù)的比值百分比(percentage)

:將對比的基數(shù)作為100而計(jì)算的比值23:1212用Excel生成頻數(shù)分布表態(tài)度頻數(shù)不知道9既不反對也不贊成173完全不贊成50完全贊成235有些不贊成82有些贊成223總計(jì)77223:1213使用數(shù)據(jù)透視表(實(shí)例)3.3統(tǒng)計(jì)圖

如果想獲得更生動的展示,我們可以使用統(tǒng)計(jì)圖。統(tǒng)計(jì)圖是用幾何圖形或具體事物的形象來表現(xiàn)統(tǒng)計(jì)數(shù)據(jù)的一種形式。統(tǒng)計(jì)圖既可以節(jié)省大量文字?jǐn)⑹?,又可便于?shù)據(jù)的對比分析與積累。利用統(tǒng)計(jì)圖表現(xiàn)統(tǒng)計(jì)數(shù)據(jù),能更為鮮明醒目、一目了然、形象具體地顯示現(xiàn)象之間的相互關(guān)系。按照圖形的形式,統(tǒng)計(jì)圖大體上可以分為幾何圖、象形圖和統(tǒng)計(jì)地圖三種。23:12143.3統(tǒng)計(jì)圖(1)幾何圖。幾何圖是利用幾何的形和線來表明統(tǒng)計(jì)數(shù)據(jù)的圖形,包括條形圖、餅圖等。(2)象形圖。象形圖是以表示現(xiàn)象本身形象的長度、大小、多少來表示數(shù)值大小的一種圖形。(3)統(tǒng)計(jì)地圖。統(tǒng)計(jì)地圖是用不同的顏色或紋理表示變量或某種指標(biāo)在地域上的分布特征及規(guī)律,用以顯示不同地域事物數(shù)量的分布情況。例如可以利用顏色的深淺來表示某地區(qū)各縣某種產(chǎn)品的生產(chǎn)情況。如右圖所示:23:1215條形圖用寬度相同的條形的高度或長短來表示各類別數(shù)據(jù)各類別可放在縱軸,稱為條形圖,可以放在橫軸,稱為柱形圖(columnchart)

23:1216復(fù)式條形圖23:1217百分條圖—多組百分比的比較23:1218帕累托圖--關(guān)鍵的少數(shù)和次要的多數(shù)

按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的柱形圖用于展示分類數(shù)據(jù)的分布

該帕累托圖表明:對網(wǎng)站的訪問主要途徑依靠Google和Direct,KEEN公司需要在這兩個(gè)途徑上進(jìn)行加強(qiáng)和改進(jìn)。圖3.8不同類型搜索引擎的頻數(shù)分布表繪制的帕累托圖23:1219關(guān)鍵的少數(shù)次要的多數(shù)簡單餅圖用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形,主要用于表示一個(gè)樣本(或總體)中各組成部分的數(shù)據(jù)占全部數(shù)據(jù)的比例

用于研究結(jié)構(gòu)問題23:1220復(fù)合餅圖(示例)環(huán)形圖環(huán)形圖中間有一個(gè)“空洞”,樣本或總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示與餅圖類似,但又有區(qū)別餅圖只能顯示一個(gè)總體各部分所占的比例環(huán)形圖則可以同時(shí)繪制多個(gè)樣本或總體的數(shù)據(jù)系列,每一個(gè)樣本或總體的數(shù)據(jù)系列為一個(gè)環(huán)用于結(jié)構(gòu)比較研究23:1221環(huán)形圖—多個(gè)總體的結(jié)構(gòu)23:1222多變量數(shù)據(jù)—雷達(dá)圖

(實(shí)例)【例】甲乙兩班成績?nèi)缦?。試?yán)L制雷達(dá)圖。成績甲班人數(shù)乙班人數(shù)優(yōu)36良615中189及98不及格4223:1223多變量數(shù)據(jù)—雷達(dá)圖23:12243.4列聯(lián)表

之初始數(shù)據(jù)一般,若總體中的個(gè)體可按兩個(gè)屬性A與B分類,A有r個(gè)等級A1,A2,…,Ar;B有с個(gè)等級B1,B2,…,Bc,從總體中抽取大小為n的樣本,設(shè)其中有nij個(gè)屬于等級Ai和Bj,nij稱為頻數(shù),將r×с個(gè)nij(i=1,2,…,r;j=1,2,…,с)排列為一個(gè)r行с列的二維列聯(lián)表,簡稱r×с表23:12253.4列聯(lián)表

之初始數(shù)據(jù)為了解不同地區(qū)或市場對一款新涼鞋款式的接受程度,調(diào)查了5個(gè)國家772名顧客收集兩個(gè)變量:態(tài)度和國家態(tài)度有“完全贊成、有些贊成、既不反對也不贊成、有些不贊成、完全不贊成、不知道”6個(gè)水平國家類別有5個(gè)國家,表示該變量有5個(gè)水平23:1226見練習(xí)(初始數(shù)據(jù))【例2-1】對初始數(shù)據(jù)前面數(shù)據(jù)生成頻數(shù)分布表,觀察不同國家的顧客及態(tài)度分布狀況,并進(jìn)行描述性分析3.4列聯(lián)表

之頻數(shù)分布表23:1227態(tài)度匯總比例累積比例不知道91.2%100.0%既不反對也不贊成17323.4%98.8%完全不贊成506.5%76.4%完全贊成23530.4%69.9%有些不贊成8210.6%39.5%有些贊成22328.9%28.9%能否看出不同國家的人態(tài)度是否不同?使用數(shù)據(jù)透視表(例)3.4列聯(lián)表表3.7對新涼鞋的接受態(tài)度的調(diào)查數(shù)據(jù)表(列聯(lián)表)對新涼鞋的態(tài)度完全贊成有些贊成既不反對也不贊成有些不贊成完全不贊成不知道總計(jì)國家中國5258251231151法國3548402192154印度9628137100154英國21415023183156美國31484519103156總計(jì)23522317382509772列聯(lián)表(contingencytable)是由兩個(gè)或兩個(gè)以上變量進(jìn)行交叉分類得到的頻數(shù)分布表。列聯(lián)表中間的各個(gè)變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計(jì)數(shù)(count)。構(gòu)成列聯(lián)表的變量都是分類變量或順序變量。一個(gè)r行c

列的列聯(lián)表稱為r×c

列聯(lián)表,一般的把2×2的二維列聯(lián)表又稱為交叉表。列聯(lián)表可以有很多維。維數(shù)多的叫做高維列聯(lián)表。23:12

28能否看出不同國家的人態(tài)度是否不同?用SPSS生成定性數(shù)據(jù)的列聯(lián)表

(Crosstabulation—交叉表)第1步:選擇【Analyze】【DescriptiveStatistics-Crosstabs】進(jìn)入主對話框第2步:將“國家”選入【Row(s)】,將“態(tài)度”選入【Column(s)】(行列可以互換)第3步:(若需要對列聯(lián)表進(jìn)行描述性分析)點(diǎn)擊【Cells】,在【Percentages】下選中需要的統(tǒng)計(jì)量,如【Row】、【Column】、【Total】等;(若需要圖形)點(diǎn)擊【Displayclusteredbarchart】。點(diǎn)擊【OK】

生成交叉頻數(shù)分布表SPSS23:12293.4列聯(lián)表之總的百分?jǐn)?shù)為了更便于理解,我們可以把對應(yīng)于總的百分?jǐn)?shù)的這部分?jǐn)?shù)據(jù)單獨(dú)拿出來,見表3.9。表3.9展示總的百分?jǐn)?shù)的列聯(lián)表對新涼鞋的態(tài)度完全贊成

有些贊成既不反對也不贊成有些不贊成完全不贊成不知道總計(jì)國家中國6.74%7.51%3.24%1.55%0.39%0.13%19.56%法國4.53%6.22%5.18%3.72%1.17%0.26%19.95%印度13.44%3.63%1.68%0.91%1.30%0.00%19.95%英國3.72%5.31%6.48%3.98%3.33%0.39%20.21%美國4.02%6.22%5.83%3.46%1.30%0.39%20.21%總計(jì)30.44%28.89%23.41%10.62%6.48%1.17%100%3.4列聯(lián)表使用列聯(lián)表更感興趣的問題是了解變量之間有沒有關(guān)聯(lián)。比如,我們希望知道中國人完全贊成新款式的比例與美國人完全贊成新款式的比例有沒有區(qū)別,換句話說,被調(diào)查者對新款式的贊成是否依賴于被調(diào)查者所在的國家。可以從兩方面看這個(gè)問題。首先,每個(gè)國家的對新涼鞋態(tài)度的分布是怎樣的,這需要看表3.8的行百分?jǐn)?shù),于是得到表3.10。23:12313.4列聯(lián)表之條件分布表3.10兩個(gè)國家對新涼鞋態(tài)度的條件分布態(tài)度合計(jì)完全贊成有些贊成既不反對也不贊成有些不贊成完全不贊成不知道中國占比%525825123115134.4%38.4%16.6%7.9%3.0%.7%100%美國占比%3148451910315519.9%30.8%28.8%13.2%6.4%1.9%100%23:123223:1233中美態(tài)度條形對比圖23:123423:1235哪個(gè)環(huán)代表中國/美國?中美態(tài)度環(huán)形對比圖3.4列聯(lián)表之案例列聯(lián)表中的一個(gè)經(jīng)典例子就是著名的泰坦尼克號郵輪的海難數(shù)據(jù)。該數(shù)據(jù)有4個(gè)定性變量:(1)

倉位等級(Class):分一等艙(1st)、二等艙(2nd)、三等艙(3rd)、船員(Crew)四個(gè)水平;(2)

性別(Sex):有男(Male)、女(Female)

兩個(gè)水平;

(3)

年齡:有兒童(Child)、成年人(A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論