數(shù)據(jù)分析與SPSS軟件應用(微課版)-課后習題答案1-10章全書章節(jié)練習題答案_第1頁
數(shù)據(jù)分析與SPSS軟件應用(微課版)-課后習題答案1-10章全書章節(jié)練習題答案_第2頁
數(shù)據(jù)分析與SPSS軟件應用(微課版)-課后習題答案1-10章全書章節(jié)練習題答案_第3頁
數(shù)據(jù)分析與SPSS軟件應用(微課版)-課后習題答案1-10章全書章節(jié)練習題答案_第4頁
數(shù)據(jù)分析與SPSS軟件應用(微課版)-課后習題答案1-10章全書章節(jié)練習題答案_第5頁
已閱讀5頁,還剩70頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第1章統(tǒng)計分析與SPSS軟件概述習題與思考題(一)填空題1.定性數(shù)據(jù),定序數(shù)據(jù),定距數(shù)據(jù),定比數(shù)據(jù)2.主成分分析,因子分析,聚類分析,判別分析,對應分析等3.數(shù)據(jù)清理,數(shù)據(jù)轉(zhuǎn)換,缺失數(shù)據(jù)插補,數(shù)據(jù)的合并匯總拆分4.完全窗口菜單運行方式,程序運行方式5.SPSSBase(二)選擇BADAD(三)判斷√√×√×(四)簡答題1.目前常用的統(tǒng)計分析工具或軟件有哪些?你使用過哪些?它們之間的區(qū)別在哪里?解:常用的統(tǒng)計分析工具有SPSS、SAS、STATA、Python等。2.試檢查自己的SPSS軟件共有幾個模塊,其中包括了哪些基本功能,并思考平時的統(tǒng)計分析需要哪些模塊才能滿足需要。解:SPSS軟件共有11個模塊,分別是SPSSBase、SPSSAdvance、SPSSCategories、SPSSComplexSample、SPSSConjoint、SPSSExactTest、SPSSMaps、SPSSMissingValueAnalysis、SPSSRegression、SPSSTables和SPSSTrends。其中SPSSBase是必需的,SPSS的整體框架、基本數(shù)據(jù)的獲取、數(shù)據(jù)準備和整理等基本功能都集中在這一模塊上,其他模塊必須在該模塊的基礎上才能工作。3.闡述定性、定序、定距、定比數(shù)據(jù),并各舉1例。解:定性變量又稱為名義變量。這是一種測量精度最低、最粗略的基于“質(zhì)”因素的變量,它的取值只代表觀測對象的不同類別,如“班級”。定序變量又稱為有序變量、順序變量,它取值的大小能夠表示觀測對象的某種順序關系(等級、方位或大小等),也是基于“質(zhì)”因素的變量,如“滿意度”。定距變量又稱為間隔變量,它的取值之間可以比較大小,可以用加減法計算出差異的大小,如“重量”。定比變量又稱為比率變量,它與定距變量意義相近,差別在于定距變量中的“0”值只表示某一取值,定比數(shù)據(jù)變量表示“沒有”,如“年齡”。4..sav,.spv,.sps分別是spss哪類文件的擴展名?解:“.sav”是SPSS的數(shù)據(jù)文件的擴展名,“.spv”是SPSS的結果輸出文件擴展名,“.sps”是SPSS的程序文件擴展名。5.簡述統(tǒng)計分析基本流程。任何一個數(shù)據(jù)分析項目,都要經(jīng)過項目計劃、數(shù)據(jù)獲取與準備、概括性描述統(tǒng)計分析、探索性統(tǒng)計推斷、統(tǒng)計模型精準分析和結果報告6個階段。(1)項目計劃的內(nèi)容包括確定研究問題和研究對象、樣本抽取方法、樣本量、數(shù)據(jù)搜集方式、數(shù)據(jù)分析方法和分析工具、項目預算等內(nèi)容。(2)按照項目計劃搜集數(shù)據(jù)。(3)概括性描述統(tǒng)計分析階段是對數(shù)據(jù)進行的初步探討,是通過參數(shù)估計輸出相關統(tǒng)計量,并輔以統(tǒng)計表或統(tǒng)計圖,從而對數(shù)據(jù)的集中趨勢、離散趨勢、分布特征等信息有詳細的了解。(4)探索性統(tǒng)計推斷階段,主要對數(shù)據(jù)進行深層次的分析嘗試,通過探索分析、方差分析,相關分析等方法,對不同變量數(shù)據(jù)的內(nèi)在聯(lián)系進行探討,為后續(xù)的精準模型分析奠定基礎。(5)統(tǒng)計模型精準分析階段,選擇最優(yōu)的統(tǒng)計模型,尋求變量間數(shù)據(jù)信息的完美呈現(xiàn)和解釋。(6)統(tǒng)計報告階段將整個數(shù)據(jù)分析項目的結果以合適的方式表達出來,從而使得決策者或者讀者快速理解和掌握核心內(nèi)容,并能據(jù)此做出科學決策。第2章數(shù)據(jù)的獲取與管理習題與思考題(一)填空題1.查找和替換2.拆入變量3.計算變量4.原始數(shù)據(jù)組織方式,頻數(shù)數(shù)據(jù)組織方式5.指定加權變量(二)選擇題DDCDC(三)判斷×√√××(四)簡答題1.試述“個案排序”和“個案排秩”兩種排序操作的區(qū)別。解:“個案排序”操作會改變原有樣本的排列順序?!皞€案排秩”會在原有數(shù)據(jù)的基礎上形成一個新的變量,用于存儲樣本的秩序號。2.如何進行變量集的定義和使用?解:變量集的定義在“實用程序”菜單中的“定義變量集”命令。變量集定義之后,在“實用程序”菜單中選擇的“使用變量集”命令,在“選擇要應用的變量集”框中選擇想要使用的變量集。3.簡述數(shù)據(jù)排序在數(shù)據(jù)分析過程中的目的。解:數(shù)據(jù)排序是數(shù)據(jù)整理的關鍵步驟,在很多的統(tǒng)計分析過程中,如數(shù)據(jù)文件的合并等,都需要先對原始數(shù)據(jù)按照一定的規(guī)則進行排序。排序后的數(shù)據(jù)文件更便于進行相關的統(tǒng)計分析。4.對于缺失值,如何利用SPSS進行科學替代?解:SPSS提供了5種缺失值的替代方式:序列平均值:用該變量的所有非缺失值的均數(shù)作替代。臨近點的平均值:用缺失值相鄰點的非缺失值的均數(shù)作替代,取多少個相鄰點可任意定義。臨近點的中間值:用缺失值相鄰點的非缺失值的中位數(shù)作替代,取多少個相鄰點可任意定義。線性插值:用缺失值相鄰兩點的非缺失值的中點值作替代。臨近點的線性趨勢:用線性擬合方式確定替代值。5.在計算數(shù)據(jù)的加權平均數(shù)時,如何對變量進行加權?解:數(shù)據(jù)的加權在“數(shù)據(jù)”菜單中的“個案加權”命令,其中,“不對個案加權”項表示不作加權,是SPSS系統(tǒng)默認選項,也可用于取消加權操作;“個案加權依據(jù)”項表示選擇一個變量作加權變量。案例分析題1.根據(jù)下述調(diào)查問卷中的題目,完成變量的設置和編碼?!?.請問您的家庭月收入:a.3000以下b.3000~4999c.5000~6999d.7000~9999e.10000以上”2.請根據(jù)下列數(shù)據(jù)建立SPSS數(shù)據(jù)文件,并完成相關數(shù)據(jù)操作。表2-2數(shù)據(jù)ID年齡體重(公斤)性別12569.0男22768.5男31948.3女42951.6女51945.9女62270.5男72348.6女82266.7男92467.3男102650.2女(1)請采用多種方法根據(jù)體重指標值對樣本進行排序(升序排列)。升序排列方式1:方式2:(2)對“性別”變量設置變量值標簽,使其對應0和1值。3.現(xiàn)有自由格式的文本文件,其中包含4個樣本,每個樣本為一行,每個樣本測度6個指標,如下所示,請將文本文件數(shù)據(jù)信息導入到SPSS軟件中,并對數(shù)據(jù)文件進行保存。23;45;3;46;65;1246;89;56;12;4;1355;1;23;61;41;2041;20;61;20;1;30第3章描述統(tǒng)計分析及SPSS實現(xiàn)習題與思考題(一)填空題1.探索分析2.分析-描述統(tǒng)計-描述3.離散程度4.均值、中位數(shù)、眾數(shù)5.備選選擇項,答案(二)選擇題CACBD(三)判斷題××√√×(四)簡答題1.探索性統(tǒng)計分析主要目的有哪些?解:探索分析的目的主要有三個:檢查數(shù)據(jù)是否有錯誤;獲得數(shù)據(jù)分布基本特征;對數(shù)據(jù)規(guī)律進行初步觀察。2.什么是峰度和偏度?解:偏度是描述某變量取值分布對稱性的統(tǒng)計量。具體的計算公式如下:這個統(tǒng)計量是與正態(tài)分布相比較的量,偏度為0表示其數(shù)據(jù)分布形態(tài)與正態(tài)分布偏度x相同;偏度大于0表示正偏差數(shù)值較大,為正偏或右偏,即有一條長尾巴拖在右邊;偏度小于0表示負偏差數(shù)值大,為負偏或左偏,有一條長尾拖在左邊。而偏度的絕對值數(shù)值越大。峰度是描述某變量所有取值分布形態(tài)陡緩程度的統(tǒng)計量。這個統(tǒng)計量是與正態(tài)分布相比較的量,峰度為0表示其數(shù)據(jù)分布與正態(tài)分布的陡緩程度相同;峰度大于0表示比正態(tài)分布高峰要更加陡峭,為尖頂峰;峰度小于0表示比正態(tài)分布的高峰要平坦,為平頂峰。具體的計算公式如下:表示分布形態(tài)的偏斜程度越大。3.簡述SPSS對數(shù)據(jù)進行統(tǒng)計分析刻畫集中趨勢以及離散程度的描述統(tǒng)計量。解:對數(shù)據(jù)集中趨勢刻畫的描述統(tǒng)計量包括:均值、中位數(shù)、眾數(shù)、總和等。對數(shù)據(jù)離散趨勢刻畫的描述統(tǒng)計量包括:方差、標準差、極差、標準誤等。4.簡述交叉列聯(lián)表分析主要內(nèi)容。解:交叉列聯(lián)表分析主要包括兩部分的內(nèi)容:第一是輸出交叉分組下的頻數(shù)分布狀態(tài)表;二是分析交叉分類的兩個變量之間是否具有獨立性,并判斷他們之間的相關性的大小。5.對于多項選擇問題,分解(編碼方案)的方法主要有哪兩種,請簡要說明。解:多項選擇問題的編碼方式有兩種:一種是二分法,一種是多分法。多選項二分法將每個可能的答案設置為一個SPSS變量,變量的取值為0或1,0表示沒選中,1表示選中。多選項分類法首先估計多選項問題可能出現(xiàn)的答案個數(shù)。比如,一個多選題,如果最多有3個答案,那么就設置3個SPSS變量,分別用來存放3個可能的答案。SPSS變量的取值為備選答案的代碼,常用數(shù)字1,2,3…表示不同的備選答案。案例分析題1.某學??蒲袌F隊進行庫區(qū)移民生存狀態(tài)調(diào)查,經(jīng)過抽樣,抽取20名庫區(qū)移民,對其生存狀態(tài)進行調(diào)查,部分指標見表3-2.表3-2庫區(qū)移民生存狀況調(diào)查部分指標樣本ID性別年齡家庭年收入家庭食品煙酒支出單位—歲元元01男55850842800002女381030352900003女36850352200004男611078553850005女44849642560006女36790353870007男55877733570008男54877863040009男53789953280010女411387644360011男45830352080012男521033202380013男32494352160014男341020243680015男63427461700016男311210172000017女61842352000018女59899802000019女481090803000020男439067832000請分析:數(shù)據(jù)狀態(tài):1.樣本在性別與年齡上分布狀態(tài)。年齡*性別交叉表計數(shù)性別總計男女年齡3110132101341013602238011410114310144011451014801152101531015410155202590116111263101總計12820男性樣本與女性樣本的對比關系為12:8。描述統(tǒng)計N最小值最大值均值標準偏差偏度峰度統(tǒng)計統(tǒng)計統(tǒng)計統(tǒng)計統(tǒng)計統(tǒng)計標準錯誤統(tǒng)計標準錯誤年齡20316347.0510.435-.034.512-1.359.992樣本的平均年齡為47.05歲,峰度為-1.359,與正態(tài)分布相比較為平緩,偏度為-0.034,輕微的左偏。2.受訪樣本的家庭年收入是否符合正態(tài)分布正態(tài)性檢驗柯爾莫戈洛夫-斯米諾夫(V)a夏皮洛-威爾克統(tǒng)計自由度顯著性統(tǒng)計自由度顯著性家庭年收入.19320.049.93120.159a.里利氏顯著性修正從正態(tài)性分布檢驗結果和Q-Q圖可以看出,夏皮洛-威爾克檢驗接受了原假設,即數(shù)據(jù)符合正態(tài)分布特征,Q-Q圖也基本呈現(xiàn)較為一致的特征??聽柲曷宸?斯米諾夫呈輕微的拒絕原假設狀態(tài),可認為接受正態(tài)分布的假設。3.不同性別的受訪群體的食品煙酒消費支出方差是否相等。個案處理摘要性別個案有效缺失總計N百分比N百分比N百分比煙酒食品支出男12100.0%00.0%12100.0%女8100.0%00.0%8100.0%方差齊性檢驗萊文統(tǒng)計自由度1自由度2顯著性煙酒食品支出基于平均值.064118.803基于中位數(shù).059118.811基于中位數(shù)并具有調(diào)整后自由度.059115.599.812基于剪除后平均值.064118.803不同性別受訪者食品煙酒消費的方差是相等的,四種萊文檢驗的結果均接受原假設,即不同組別因變量的方差是相等的。2.調(diào)查得到甲乙兩班學生的上網(wǎng)狀況,調(diào)查結果如表3-3所示,請根據(jù)下列數(shù)據(jù)分析班級與上網(wǎng)狀況是否存在相關關系。表3-3甲乙兩班上網(wǎng)狀況

班級每天上網(wǎng)經(jīng)常上網(wǎng)偶爾上網(wǎng)從不上網(wǎng)合計甲班49926541247乙班621136742284合計11120513283531采用交叉列聯(lián)分析:卡方檢驗值自由度漸進顯著性(雙側)皮爾遜卡方1.143a3.767似然比1.1433.767有效個案數(shù)531a.0個單元格(0.0%)的期望計數(shù)小于5。最小期望計數(shù)為38.61。對稱測量c值漸進顯著性名義到名義列聯(lián)系數(shù).046.767有效個案數(shù)531c.相關性統(tǒng)計僅適用于數(shù)字數(shù)據(jù)。卡方檢驗的結果接受原假設,即上網(wǎng)狀態(tài)與班級之間是相互獨立的。3.先得到某超市9月份每一天的商品銷售總額數(shù)據(jù),如下表所示。表3-4超市商品銷售總額257269268301336365298562289306290249316296311369403569416279510410368356413426369376406456(1)計算該超市日銷售額的均值、中位數(shù);(2)判斷該超市日銷售額數(shù)據(jù)的偏度和峰度狀況。應用基本描述統(tǒng)計分析方法:統(tǒng)計銷售額個案數(shù)有效30缺失0平均值361.30中位數(shù)360.50偏度.933偏度標準誤差.427峰度.499峰度標準誤差.833第4章參數(shù)檢驗與SPSS實現(xiàn)習題與思考題(一)填空題1.總體均值和指定檢驗值之間不存在顯著差異2.兩獨立樣本組的均值比較,兩配對樣本組的均值比較3.拒絕4.T統(tǒng)計量5.兩樣本群的方差是否相等(二)選擇題BDCBB(三)判斷題√√×√√(四)簡答題1.什么是配對樣本?請舉例解釋。解:常見的配對樣本情況有4種:①同一研究對象分別給予兩種不同處理的效果比較;②兩配對對象分別給予兩種不同處理的效果比較;③同一研究對象處理前后的效果比較;④兩配對對象(一個接受處理,一個不接受處理)的效果比較。①和②推斷兩種效果有無差別,③和④推斷某種處理是否有效。比如一組高血壓患者在服藥前和服藥一段時間后對于舒張壓和收縮壓測量結果就形成了配對樣本。2.兩獨立樣本群的均值比較分析的流程是怎樣的?解:在具體的計算中需要通過兩步來完成:第一,利用F檢驗判斷兩總體的方差是否相同;第二,根據(jù)第一步的結果,決定T統(tǒng)計量和自由度計算公式,進而對T檢驗的結論作出判斷。3.什么是獨立樣本,請舉例說明。解:獨立樣本是指兩個樣本之間彼此獨立沒有任何關聯(lián),兩個獨立樣本各自接受相同的測量,研究者的主要目的是了解兩個樣本之間是否有顯著差異存在。比如生產(chǎn)同一類產(chǎn)品的不同國家的廠商,若彼此之間在生產(chǎn)鏈條上無任何相關性,則其生產(chǎn)產(chǎn)品的抽取樣本即構成了獨立樣本。4.對兩配對樣本進行T檢驗的前提要求是?解:兩配對樣本T檢驗的前提要求如下。(1)兩個樣本應是配對的。在應用領域中,主要的配對資料包括具有年齡、性別、體重、病況等非處理因素相同或相似者。首先兩個樣本的觀察數(shù)目相同,其次兩樣本的觀察值順序不能隨意改變。(2)樣本出自的兩個總體應服從正態(tài)分布。5.如何檢驗某一樣本某變量的總體均值和指定值之間是否存在顯著差異?解:檢驗某一樣本某變量的總體均值和指定值之間是否存在顯著差異用到的是單一樣本的均值比較。單樣本T檢驗的零假設(H0)為:總體均值和指定檢驗值之間不存在顯著差異。采用T統(tǒng)計量,計算公式為式中,是樣本均值和檢驗值的差。因為總體方差未知,所以用樣本方差S代替總體方差。n為樣本數(shù)。SPSS將自動計算t值,由于該統(tǒng)計量服從n?1個自由度的T分布,SPSS將根據(jù)T分布表給出t值對應的相伴概率值。如果相伴概率值小于或等于用戶設想的顯著性水平,則拒絕H0,認為總體均值和檢驗值之間存在顯著差異。相反,相伴概率大于顯著性水平,則接受H0,可以認為總體均值和檢驗值之間不存在顯著差異。案例分析題1.從小學二年級某班抽取10名男生,分別測得他們的身高,是否可以認為該班男生的平均身高為1.35米?1.291.361.391.271.351.301.361.261.311.24單一樣本T檢驗的伴隨概率為0.044,因此拒絕原假設,即該班男生的平均身高與1.35有顯著性差異。2.用某藥治療6位高血壓病人,對每一位病人治療前、后的舒張壓進行了測量,結果如表5-4所示。表4-4治療前后的舒張壓測量表病例編號123456用藥前120127141107115138用藥后123108120107102152(1)治療前后這6位病人的均值和方差有何不同?(2)治療前后病人的血壓是否有顯著的變化?樣本用藥后舒張壓均值比用藥前有所降低,標準差和方差有所上升。用藥前后舒張壓均值的配對樣本比較分析結果表明:T統(tǒng)計量伴隨概率為0.337,大于0.05,故接受原假設,即配對樣本的均值沒有顯著性差異,用藥前后患者的舒張壓均值無區(qū)別。3.某學校要對兩位老師的教學質(zhì)量進行評價,這兩位老師分別教甲班和乙班,這兩班數(shù)學課的成績?nèi)绫?-5所示,這兩個班的成績是否存在差異?表4-5甲、乙兩班數(shù)學考試成績甲班9093828885808785749088838285738677946882乙班7675737598629075836665788068877464687280采用兩獨立樣本均值比較分析方法:可以看到,兩位老師的教評平均值差異較大,分別為83.60和75.45分,采用兩獨立樣本均值比較方法,對兩位老師的教評差異進行統(tǒng)計推斷,首先看出兩樣本組的方差是相等的(伴隨概率為0.299,接受方差相等的原假設)。因此采用第一行的T統(tǒng)計量來進行統(tǒng)計推斷,推斷結果表示,伴隨概率為0.003,拒絕原假設,原假設為兩樣本組的均值是相等的。因此可以得出,兩位老師的教評結果存在顯著性的差異。第5章方差分析及SPSS實現(xiàn)習題與思考題(一)填空題1.隨機性、獨立性、正態(tài)分布、方差齊性2.F統(tǒng)計量,控制變量不同水平下各總體均值沒有顯著差異3.續(xù)數(shù)值型,多個協(xié)變量間互相獨立,且與控制變量之間也沒有交互影響。4.交互效應5.主效應部分,交互效應部分,隨機變量部分(二)選擇題BDBBD(三)判斷題×√√√√(四)簡答題1.什么是協(xié)方差分析?什么情況適于使用協(xié)方差分析?解:協(xié)方差分析是將那些很難控制的因素作為協(xié)變量,在排除協(xié)變量影響的條件下,分析控制變量對觀察變量的影響,從而更加準確地對控制因素進行評價。無論是單因素方差分析還是多因素方差分析,它們都有一些可以人為控制的控制變量。在實際問題中,有些隨機因素是很難人為控制的,但它們又會對結果產(chǎn)生顯著的影響,為了更加準確地研究控制變量不同水平對結果的影響,應該盡量排除其他因素對分析結果的影響,這時就需要應用協(xié)方差分析。2.如何檢驗兩個及兩個以上樣本均值之間是否存在顯著性差異?解:檢驗兩個及兩個以上樣本均值之間差異顯著性的方法是方差分析。方差分析的基本思想是:通過分析研究不同變量的變異對總變異的貢獻大小,確定控制變量對研究結果影響力的大小。通過方差分析,分析不同水平的控制變量是否對結果產(chǎn)生了顯著影響。如果控制變量的不同水平對結果產(chǎn)生了顯著影響,那么它和隨機變量共同作用,必然使結果有顯著的變化;如果控制變量的不同水平對結果沒有顯著的影響,那么結果的變化主要由隨機變量起作用,和控制變量關系不大。3.方差分析包括哪些類型,他們有何區(qū)別?解:根據(jù)人為施加的可控因素(即控制變量)的數(shù)量多少,可分為單因素方法分析和多因素方差分析方法。單因素方差分析適用于只有一個控制變量的情況,它的實質(zhì)是統(tǒng)計推斷。它的研究目的在于推斷該控制變量的不同水平是否給觀察變量造成了顯著差異和變動。單因素方差分析具有有一個比較嚴格的前提條件,包括:①控制變量不同水平下的樣本是隨機的。②控制變量不同水平下的樣本是相互獨立的。③控制變量不同水平下的樣本來自正態(tài)分布的總體,否則采用非參數(shù)方法進行多組別的均值比較。④控制變量不同水平下的樣本方差相同。在滿足該前提的基礎下,方差分析問題就轉(zhuǎn)換成研究不同水平下各個總體的均值是否有顯著差異的問題。多因素方差分析是指當存在多個控制變量的前提下,分析多個控制變量的作用、多個控制變量的交互作用以及其他隨機變量對結果是否產(chǎn)生顯著影響的統(tǒng)計推斷方法。多因素方差分析適用于存在兩個或兩個以上控制變量的情況。多因素方差分析對各個總體的方差相等的前提假設是放松的,但是一般要求多控制變量交叉作用下的單元格內(nèi)至少有3個觀測值。4.簡述方差分析的基本思想和操作步驟。方差分析的基本思想是:通過分析研究不同變量的變異對總變異的貢獻大小,確定控制變量對研究結果影響力的大小。通過方差分析,分析不同水平的控制變量是否對結果產(chǎn)生了顯著影響。如果控制變量的不同水平對結果產(chǎn)生了顯著影響,那么它和隨機變量共同作用,必然使結果有顯著的變化;如果控制變量的不同水平對結果沒有顯著的影響,那么結果的變化主要由隨機變量起作用,和控制變量關系不大。5.方差分析有哪些基本假定?解:單因素方差分析具有有比較嚴格的前提條件,包括:①控制變量不同水平下的樣本是隨機的。②控制變量不同水平下的樣本是相互獨立的。③控制變量不同水平下的樣本來自正態(tài)分布的總體,否則采用非參數(shù)方法進行多組別的均值比較。④控制變量不同水平下的樣本方差相同。多因素方差分析對各個總體的方差相等的前提假設是放松的,但是一般要求多控制變量交叉作用下的單元格內(nèi)至少有3個觀測值。案例分析題1.一家耳機生產(chǎn)廠商設計了四種不同類型的耳機,并計劃與傳統(tǒng)耳機形成對比。先從四種類型的耳機中隨機抽取6只樣品,同時再抽取6只傳統(tǒng)耳機樣品,在相同的實驗條件下,測試它們的使用壽命(單位:月),結果如表5-1所示。表5-1耳機樣品使用壽命耳機類型測試壽命傳統(tǒng)耳機20.219.819.620.321.320.5型號123.621.719.820..521.522.1型號215.219.116.817.616.520.3型號335.836.233.834.235.334.8型號419.822.624.221.019.823.4試分析各種型號耳機間使用壽命是否有區(qū)別。數(shù)據(jù)整理結果見下圖:因為只有一個控制變量,所以采用單因素方差分析方法。SPSS輸出結果如下。方差齊性檢驗結果顯示,基于中位數(shù)的萊文檢驗支持方差齊性的結果,基于平均值的檢驗雖然拒絕了原假設,但是偏離并不嚴重,所以可以認為該數(shù)據(jù)適合進行單因素方差分析。方差分析構造的F統(tǒng)計量及檢驗結果拒絕了原假設,即說明5個不同類型的耳機中,至少有兩種類型耳機的平均壽命是不一樣的。S-N-K多重比較的驗證結果說明,類型2的耳機,類型3的耳機,傳統(tǒng)耳機和類型1和4的耳機構成了三組,組與組之間均值存在顯著差異,組內(nèi)的各類型耳機均值無差異。LSD的多重比較方法結果驗證,0與2,0與3,1與2,1與3,2與4,3與4之間的耳機平均壽命存在差異。2.為了驗證四種不同安眠藥的藥效,選取24只兔子,公兔子和母兔子各12只,隨機分為四組,每組兔子服用一種安眠藥,并記錄它們的睡眠時間,如表5-2所示。表5-2兔子安眠藥實驗數(shù)據(jù)兔子編號睡眠時間安眠藥種類性別016.21公026.11母036.01公046.31公056.11母065.91母076.32母086.52公096.72母106.62母117.12公126.42母136.83公147.13公156.63公166.83母176.93母186.63母195.44公206.44公216.24母226.34母236.04公245.94公數(shù)據(jù)處理和輸入的結果如下:這里有兩個控制變量,一個是安眠藥種類,一個是性別,因此采用多因素方差分析方法。兩個控制變量交叉分類下的數(shù)據(jù)基本信息見第一張輸出表格。第二張輸出表格是方差齊性檢驗的結果,四種不同統(tǒng)計量都拒絕了方差相等的原假設。但是多因素方差分析對方差齊性的前提是放松的,不滿足也沒有特別嚴重的后果。多因素方差分析的結果顯示,安眠藥種類對睡眠時間是有顯著性影響的,但是第二個控制變量性別對實驗對象的睡眠時間并未產(chǎn)生顯著影響,同時安眠藥種類和性別之間也并不存在顯著地交叉效用。具體而言,安眠藥的種類中,1與2,1與3,2與4,3與4之間是存在差異的,1與4之間是不存在效果的差異的。3.學校為了改善教師生活水平,試行某種新政策,政策實施前,以及實施半年后分別對教師的待遇狀況進行調(diào)查,工資待遇分為10級,分值越高代表待遇越好,調(diào)查結果以及教授級別詳見表5-3。表5-3政策實施教師待遇原工資現(xiàn)工資教師級別452341343242552363481672672573243673981561772試分析政策實施后,不同類型的教師彼此間工資待遇是否存在差異。待分析數(shù)據(jù)結果如下圖所示:其中,現(xiàn)工資是因變量,教師級別是控制變量,原工資是協(xié)變量。采用協(xié)方差分析的方法來驗證教師級別對工資的影響。協(xié)方差分析的結果顯示,協(xié)變量原工資對教師的現(xiàn)工資具有顯著的影響,剔除了原工資影響后,教師級別對教師工資不具有顯著影響,即剔除了原工資的影響后,不同級別的教師平均工資之間是沒有區(qū)別的。第6章非參數(shù)檢驗及SPSS實現(xiàn)習題與思考題(一)填空題1.樣本來自的兩獨立總體均值沒有顯著差異。2.卡方統(tǒng)計量。3.兩樣本是配對的。4.二值數(shù)據(jù)(0-1數(shù)據(jù))。5.大(二)選擇題BCDAA(三)判斷題√√×√√(四)簡答題1.在熟悉假設檢驗的思想的基礎上,比較參數(shù)檢驗與非參數(shù)檢驗的適用條件。解:參數(shù)檢驗:已知分布類型,對未知參數(shù)如均值方差等進行統(tǒng)計推斷,依賴于特定分布類型,比較的是參數(shù)。非參統(tǒng)計:對總體的分布類型不作任何要求,不受總體參數(shù)的影響,比較分布或分布位置2.多獨立樣本和多配對樣本非參數(shù)檢驗的區(qū)別和聯(lián)系是什么?解:適用范圍不同:多獨立樣本數(shù)據(jù)的來源的是獨立的樣本,如3個班的成績是否存在差異;而多配對樣本是對多個匹配樣本的總體分布是否存在顯著性差異做統(tǒng)計分析如測驗多個學生在報補習班前后成績有無發(fā)生顯著的變化。數(shù)據(jù)性質(zhì)不同:多獨立樣本檢驗中的個實驗處理組之間毫無相關存在,即為獨立樣本;而多配對樣本的數(shù)據(jù)組成的樣本為相關樣本。非參數(shù)檢驗方法不同:多獨立樣本非參數(shù)檢驗方法有:(1)中位數(shù)檢驗(2)克魯斯卡爾-沃利斯H檢驗(3)約克海爾-塔帕斯特拉J檢驗;多配對樣本的非參數(shù)檢驗方法有:(1)傅萊德曼檢驗(2)肯德爾協(xié)同系數(shù)檢驗。3.簡要回答進行非參數(shù)統(tǒng)計檢驗的適用條件。解:非參數(shù)檢驗(Nonparametrictests)是統(tǒng)計分析方法的重要組成部分,它與參數(shù)檢驗共同構成統(tǒng)計推斷的基本內(nèi)容。參數(shù)檢驗是在總體分布形式已知的情況下,對總體分布的參數(shù)如均值、方差等進行推斷的方法。但是,在數(shù)據(jù)分析過程中,由于種種原因,人們往往無法對總體分布形態(tài)作簡單假定,此時參數(shù)檢驗的方法就不再適用了。非參數(shù)檢驗正是一類基于這種考慮,在總體方差未知或知道甚少的情況下,利用樣本數(shù)據(jù)對總體分布形態(tài)等進行推斷的方法。4.你學過哪些涉及秩和檢驗,各有什么用途?解:(1)符號秩和檢驗適用于配對比較(2)威爾科克森秩和檢驗適合于兩樣本成組資料的比較應用(3)克魯斯卡爾-沃利斯法適用于多個樣本比較。5.試寫出非參數(shù)統(tǒng)計方法的主要優(yōu)缺點。解:優(yōu)點:①非參數(shù)統(tǒng)計方法要求的假定條件比較少,因而它的適用范圍比較廣泛。②多數(shù)非參數(shù)統(tǒng)計方法要求的運算比較簡單,可以迅速完成計算取得結果,因而比較節(jié)約時間。③大多數(shù)非參數(shù)統(tǒng)計方法在直觀上比較容易理解,不需要太多的數(shù)學基礎知識和統(tǒng)計學知識。④大多數(shù)非參數(shù)統(tǒng)計方法可用來分析如象由等級構成的數(shù)據(jù)資料,而對計量水準較低的數(shù)據(jù)資料,參數(shù)統(tǒng)計方法卻不適用。⑤當推論多達3個以上時,非參數(shù)統(tǒng)計方法尤具優(yōu)越性。缺點:①由于方法簡單,用的計量水準較低,因此,如果能與參數(shù)統(tǒng)計方法同時使用時,就不如參數(shù)統(tǒng)計方法敏感。若為追求簡單而使用非參數(shù)統(tǒng)計方法,其檢驗功效就要差些。這就是說,在給定的顯著性水平下進行檢驗時,非參數(shù)統(tǒng)計方法與參數(shù)統(tǒng)計方法相比,第Ⅱ類錯誤的概率β要大些。②對于大樣本,如不采用適當?shù)慕?,計算可能變得十分復雜。案例分析題1.在關于聽助眠音樂對老人入睡所需時間的研究中,抽取了15名老人組成樣本。表6-3給出了15名實驗對象在聽音樂和不聽音樂的情況下入睡所需時間(分鐘)。事根據(jù)數(shù)據(jù)得出你的結論。表6-3助眠音樂實驗數(shù)據(jù)實驗對象不聽音樂聽音樂實驗對象不聽音樂聽音樂1161199621210101073191211262048812161451210131096761455798157881411161112第一步:在“分析”菜單的“非參數(shù)檢驗”子菜單中選擇“舊對話框”的“2個相關樣本”命令。第二步:首先將“聽音樂”和“不聽音樂”作為選作一對配變量。這里選擇“威爾科克森”(威爾科克森符號平均秩檢驗)和“符號”(符號檢驗)進行檢驗。點擊“選項”按鈕,在彈出的“雙關聯(lián)樣本”對話框中選中“按檢驗排除個案”,在“統(tǒng)計”選項中選擇“描述”項,計算均數(shù)、標準差等指標,點擊“繼續(xù)”按鈕。結果與分析:本例使用了2種配對樣本非參數(shù)檢驗方法”。其中描述性統(tǒng)計結果可以得出,聽音樂時入睡均值為11.9375,方差為5.30997,最小值為5,最大值為26.不聽音樂時入睡均值為9.8125,方差為3.69177,最小值為5,最大值為20.通過威爾科克森檢驗結果可以看出,負秩為12,正秩為2,Ties為9,表示16個人中,12個人不聽音樂入睡時間變短,2個變長,2個人入睡時長保持不變,平均秩分別為8.25和3.從“檢驗統(tǒng)計”表中可以看出,Z統(tǒng)計量為-2.939,相伴概率為0.003,小于顯著性水平0.05,因此拒絕原假設,認為聽音樂前后人們?nèi)胨瘯r長有顯著差異。通過符號檢驗可以看出正負平均秩的值與威爾科克森檢驗一樣,從“檢驗統(tǒng)計”表中可以看出相伴概率為0.013小于0.05,因此拒絕原假設,認為音樂前后人們?nèi)胨瘯r長有顯著差異。表明聽音樂會對增加入睡時長。2.在做某項關于股票市場的研究時,搜集到8個時間點上四家公司股票的收盤價格,如表6-4所示。表6-5三家公司股票收盤價格公司110.2610.3611.209.9910.5610.3411.0310.59公司27.897.638.266.986.967.327.998.01公司320.1620.3619.9819.9620.3218.6919.2219.56公司415.9614.3616.2312.0315.8915.4615.2115.03試分析四家公司的股票價格水平是否相同。為了分析四家公司股票價格水平是否相同,使用多配對樣本非參數(shù)檢驗。第一步:在“分析”菜單的“非參數(shù)檢驗”子菜單中選擇“舊對話框”的“K個相關樣本”命令。第二步:將變量選入“檢驗變量”中,在“檢驗類型”中選擇“肯德爾”(肯德爾協(xié)同系數(shù)檢驗)。在“統(tǒng)計”選項中選擇“描述”項,計算均數(shù)、標準差等指標,點擊“繼續(xù)”按鈕。結果與分析:描述性統(tǒng)計結果可以看出4個公司收盤價格平均值、方差、最小值和最大值。從“Ranks”表格中可以得到平均秩,可以看出公司2的平均秩最小,反映出平均收盤價最低,可以看出公司3的平均秩最大,反映出平均收盤價最高。從“TestStatistics”表格中得到卡方統(tǒng)計量為24,相伴概率遠小于0.05,因此拒絕原假設,說明8個時間點上四家公司股票的收盤價格有顯著差異。3.某超市統(tǒng)計了12月份和6月份各10天洗衣液的銷售額(元),如表6-6所示。12月156.6143.0160.0155.3132.6160.3144.9150.0113.6122.96月203.6198.6236.5210.0260.8190.6184.5189.6170.5249.8請判斷該超市洗衣液12月和6月的銷售額數(shù)據(jù)間是否存在顯著差異。第一步:在“分析”菜單的“非參數(shù)檢驗”子菜單中選擇“舊對話框”的“2個獨立樣本”命令。將數(shù)據(jù)傳入,選擇“曼-惠特尼U”、“科爾其戈洛夫-斯米諾夫Z”、“莫斯極端反應”曼-惠特尼U檢驗結果表明6月的平均秩次為15.5,12月的平均秩次為5.5,相伴概率小于0.05,拒絕原假設,認為兩個月份銷售額數(shù)據(jù)有顯著差異。兩獨立樣本的極端反應檢驗中可以看出,跨度為10,截頭跨度為8,兩個相伴概率均小于0.05,因此拒絕原假設,認為兩個月份銷售額數(shù)據(jù)分布有顯著差異。兩獨立樣本的科爾其戈洛夫-斯米諾夫檢驗,可以計算得到科爾其戈洛夫-斯米諾夫Z值為2.236.相伴概率遠小于0.05,因此拒絕原假設,兩個月份銷售額數(shù)據(jù)分布有顯著差異。第7章相關分析及SPSS實現(xiàn)習題與思考題(一)填空題1.定距變量,定序變量2.Pearson3.斯皮爾曼等級相關系數(shù),肯德爾tua-b等級相關系數(shù)4.偏相關系數(shù)5.總體相關系數(shù),樣本相關系數(shù)(二)選擇題BBADC(三)判斷題×√××√(四)簡答題1.試述偏相關與二元定距變量相關的區(qū)別?解:二元定距變量相關分析通常采用皮爾遜簡單相關系數(shù)用來衡量定距變量間的線性關系。并利用T檢驗對對皮爾遜簡單相關系數(shù)顯著性進行推斷。二元定距變量相關分析是對兩個變量之間綜合相關程度進行的判定。當多變量之間存在復雜多重相關性時,二元變量的相關分析在一些情況下無法較為真實準確地反映事物之間的相關關系,這時就可采用偏相關分析方法進行處理。偏相關分析是指當兩個變量同時與其他變量相關時,將其他變量的影響剔除,只分析另外兩個變量之間相關程度的過程,所采用的分析工具是偏相關系數(shù)。2.試述統(tǒng)計關系與函數(shù)關系的區(qū)別?解:任何事物的變化都與其他事物是相互聯(lián)系和相互影響的,用于描述事物數(shù)量特征的變量之間自然也存在一定的關系。變量之間的關系歸納起來可以分為兩種類型,即函數(shù)關系和統(tǒng)計關系。函數(shù)關系是一一對應的確定性關系,當一個變量的值不能由另一個變量的值惟一確定時,這種關系即為統(tǒng)計關系。3.如何利用相關系數(shù)來判別現(xiàn)象之間的相關關系?解:相關系數(shù)是衡量變量之間相關程度的一個量值。在說明變量之間線性相關程度時,根據(jù)經(jīng)驗可將相關程度分為以下幾種情況:時,視為高度相關;時,視為中度相關;時,視為低度相關;時,說明變量之間的相關程度極弱,可視為不相關。為了判斷r對的代表性大小,需要對相關系數(shù)進行假設檢驗。(1)首先,假設總體相關性為零,即H0:兩總體無顯著的線性相關關系,即。(2)其次,計算相應的統(tǒng)計量,并得到對應的相伴概率值。如果相伴概率值小于或等于指定的顯著性水平,則拒絕H0,認為兩總體存在顯著的線性相關關系;如果相相伴概率值大于指定的顯著性水平,則不能拒絕H0,認為兩總體不存在顯著的線性相關關系。4.什么是相關關系?相關分析和回歸分析的主要內(nèi)容有哪些?相關關系是統(tǒng)計關系的一種。是指變量之間的一種非確定的相互依存關系,即一個變量的每一個取值下,由于受隨機因素影響,另一個變量與其所對應的數(shù)值是非確定性的。在統(tǒng)計關系研究中,測度變量之間線性相關程度的強弱并用適當?shù)慕y(tǒng)計指標表示出來,這個過程就是相關分析?;貧w分析是在明確自變量和因變量的基礎上,利用回歸模型的方式探討自變量對因變量的作用的分析方法。5.舉例說明什么是正相關、負相關?解:正相關關系是指兩個變量之間存在統(tǒng)計相關關系時,當一個變量的數(shù)值增大時,另一個變量的數(shù)值也隨之增加。負相關是指兩個變量之間存在統(tǒng)計相關關系時,當一個變量的數(shù)值增大時,另一個變量的數(shù)值也隨之減小。比如微觀經(jīng)濟學模型中,產(chǎn)品的市場價格上升,需求減小,產(chǎn)出增加,則需求與價格就是負相關關系,需求與產(chǎn)出就是正相關關系。案例分析題1.表7-1搜集了某次試驗中白鼠的某種飼料進食量和體重增量(g)的關系的原始數(shù)據(jù),試判斷兩者之間有無直線相關關系。表7-1進食量和體重增量數(shù)據(jù)白鼠編號01020304050607080910進食量820780890845869876836812865851體重增量196154165125158149169171149156SPSS軟件的數(shù)據(jù)結構如下:二元定距變量相關分析結果:進食量和體重增量兩個變量之間的皮爾遜相關系數(shù)檢驗接受了原假設,即兩個變量之間并不存在線性相關關系,則皮爾遜相關系數(shù)不具有實際意義。2.表7-2調(diào)查了10家奶茶銷售店鋪奶茶的日銷售額與奶茶平均價格的數(shù)據(jù),試判斷平均價格與銷售額之間有無線性相關關系存在。表7-2奶茶價格與銷售量數(shù)據(jù)奶茶店編號01020304050607080910銷售量230.6395.3196.5200.8350.6387.6395.5400.5275.6295.0平均價格10.613.69.89.819.615.616.817.510.612.5SPSS數(shù)據(jù)結構如下:二元定距變量相關分析結果:二元定距變量相關分析的結果表明,銷售量和平均價格之間具有顯著的正線性相關關系,相關系數(shù)T檢驗的伴隨概率為0.003,拒絕原假設。兩個變量之間的相關系數(shù)數(shù)值為0.834,具有較強的線性相關性。3.某項關于嬰兒出生體重和雙頂徑的數(shù)量關系的研究中,收集了15名嬰兒的出生體重(克)和雙頂徑(毫米)數(shù)據(jù),如表7-3所示,請分析兩者之間是否具有顯著的線性關系。表7-3嬰兒出生體重與雙頂徑體重273299226315294260383273234329302357396368372雙頂徑948891999387949381949491958589軟件數(shù)據(jù)結構為:二元定居變量相關分析結果如下:相關分析的結果表明,體重和雙頂徑之間并不存在顯著的線性相關關系。第8章回歸分析及SPSS實現(xiàn)習題與思考題(一)填空題1.2.甲模型3.殘差4.自變量,因變量5.擬合優(yōu)度(二)選擇題ABDBC(三)判斷題×××××(四)簡答題1.簡述回歸分析的全流程。解:回歸分析的基本流程為:(1)確定自變量與因變量之間的關系,即判定回歸模型的數(shù)學形式;(2)參數(shù)估計。(3)模型的統(tǒng)計檢驗(4)模型優(yōu)化,確定最終模型。2.簡述回歸分析的概念、基本功能和應用范圍。解:線性回歸分析是在排除其他影響因素或假定其他影響因素確定的條件下,分析自變量是如何影響因變量的過程。根據(jù)自變量的個數(shù)可以分為一元線性回歸分析和多元線性回歸分析?;貧w分析是在相關分析的基礎上,進一步探討自變量對因變量的作用方式和作用強度的方法。3.簡述相關分析與回歸分析的區(qū)別與聯(lián)系。解:相關分析是對兩個或兩組變量之間相關關系的測度,相關分析采用相關系數(shù)作為測度工具,待分析的變量的地位是平等的?;貧w分析采用回歸模型來度量變量間的作用關系,相關分析中變量的地位是不平等的,自變量是解釋變量,用來說明因變量,也即是被解釋變量。4.試說明二階段最小二乘法、加權最小二乘法和普通最小二乘法的關系。解:三種方法都是參數(shù)估計的常用方法。二階段最小二乘法簡稱2SLS,是一種計量經(jīng)濟學方法,是通過工具變量來實現(xiàn)參數(shù)估計,該方法對變量的分布沒有限制,變量無論是否正態(tài)分布,都可使用。加權最小二乘法是對原模型進行加權,使之成為一個新的不存在異方差性的模型,然后再采用普通最小二乘法估計參數(shù),其是應對異方差問題的數(shù)學優(yōu)化技術。普通最小二乘法是應用最為廣泛的一種參數(shù)估計方法,其使用需要滿足一系列的前提假設,當假設被違背時,就可采用二階段最小二乘法、加權最小二乘方法或其他方法進行優(yōu)化和改進。5.什么是多重共線性,它的不良后果是什么,有什么解決方案。解:線性回歸模型中的解釋變量之間可能存在精確相關關系或高度相關關系,從而使模型估計失真或難以估計準確,這就是多重共線性問題。多重共線性是一個容忍度的問題,當多重共線性比較嚴重時,會引起模型的參數(shù)估計結果異常,或是模型的形式異常等問題,這時就需要做相應的處理。若診斷出引起多重共線性問題的自變量后,可采用直接刪除該自變量,或?qū)ψ宰兞窟M行形態(tài)轉(zhuǎn)變等方法來消除共線性問題。案例分析題1.調(diào)查得到某市出租車使用年限x與當年維修費用y(萬元)的數(shù)據(jù),如下表所示。試擬合合適的回歸模型,用以發(fā)現(xiàn)維修費用與使用年限之間的關系。表8-1案例分析1數(shù)據(jù)使用年限1234567維修費用1.62.23.85.56.57.07.5SPSS數(shù)據(jù)結構如下:先進行相關分析,根據(jù)皮爾遜相關分析的結果看,兩個變量之間存在顯著的線性相關關系,可以使用線性回歸分析方法。以維修費用為因變量,以使用年限為自變量,進行回歸分析,結果如下:模型的擬合優(yōu)度為0.980,調(diào)整后擬合優(yōu)度為0.952,說明線性回歸直線對真實數(shù)據(jù)有較好的擬合性。模型整體線性的F檢驗結果顯示,模型的線性是顯著的。參數(shù)估計的結果顯示,使用年限對維修費用具有顯著的正向作用。參數(shù)估計結果為1.071,即當其他因素保持不變時,使用年限每增加一個單位,維修費用增加1.071個單位。2.一家皮鞋零售店將其連續(xù)18個月的廣告投入費用(萬元)、銷售額(萬元)、員工薪酬總額(萬元)指標數(shù)據(jù)進行匯總,如表8-2所示。請根據(jù)這些數(shù)據(jù)建立回歸模型,嘗試找到銷售額與廣告投入費用和員工薪酬總額之間的關系。表8-2案例分析2數(shù)據(jù)月份廣告投入銷售額員工薪酬總額130.61090.421.1231.3113321.4333.91242.122.9429.61003.221.4532.51283.221.5627.91012.221.7724.81098.821.5823.6826.321933.91003.322.41027.71554.624.71145.5119923.21242.61483.124.313401407.123.11445.81551.329.11551.71601.224.61667.22311.727.517652126.726.51865.42256.526.8輸入軟件的數(shù)據(jù)結構如下:判斷自變量與因變量之間的線性關系:因變量與自變量之間具有顯著的線性相關關系,可以構建線性回歸模型。模型的擬合優(yōu)度為0.852,F(xiàn)統(tǒng)計量為50.022,通過了顯著性檢驗。線性回歸模型整體線性性顯著,直線對數(shù)據(jù)的擬合較好?;貧w參數(shù)的T檢驗結果顯示,截距項和薪酬總額的參數(shù)沒有通過顯著性檢驗,配合著多重共線性的檢驗結果,薪酬總額可能是引起多重共線性的主要原因,因此將薪酬總額刪除,重新構建線性回歸模型,得到:廣告投入的回歸參數(shù)為28.513,即廣告投入每變化一個單位,可以引起銷售額變化28個單位。而薪酬總額對銷售額沒有顯著的作用。另外,由于該題中樣本量偏小,當增加樣本量后,回歸模型對現(xiàn)實的解釋會更為精準。3.在一次關于公用交通的社會調(diào)查中,收集到28名受訪者的信息,包括是否上下班乘坐的交通工具,y=1表示主要乘坐公交車上下班,y=0表示主要騎自行車上下班,此外還獲得了受訪者的年齡、月收入、性別(1代表男性,2代表女性)。試建立y與自變量的Logistic回歸模型。表8-3案例分析3數(shù)據(jù)序號上下班交通工具年齡月收入性別10188500202186003123150004130180005128150006031850071361500081421850091461950010026100001115518000121562100013023120001401810001150201000116025120011715015001180288501191391800120029100012102895012202910001230381100124022120012514520001260321000127152150012815618001軟件輸入的數(shù)據(jù)結構如下:采用二元Logistic回歸模型,結果如下:從模型參數(shù)估計的結果看,只有性別的參數(shù)通過了顯著性檢驗,從模型最終的預測效果看,正確率達到了67.9。第9章聚類分析、判別分析及SPSS實現(xiàn)習題與思考題(一)填空題1.樣本,變量2.最近鄰元素法、最遠鄰元素法、組間鏈接法、組內(nèi)鏈接法、質(zhì)心聚類法、瓦爾德法、中位數(shù)聚類3.4.5.類別數(shù)(二)選擇題DCBDD(三)判斷題√×√√√(四)簡答題1.簡述快速聚類的基本思想和主要步驟。解:快速聚類分析是一個不斷迭代的過程,其基本原理和迭代步驟如下:(1)首先需要用戶指定聚類成多少類(比如k類)。(2)然后SPSS確定k個類的初始類中心點。SPSS會根據(jù)樣本數(shù)據(jù)的實際情況,選擇k個由代表性的樣本數(shù)據(jù)作為初始類中心。初始類中心也可以由用戶自行指定,需要指定K組樣本數(shù)據(jù)作為初始類中心點。(3)計算所有樣本數(shù)據(jù)點到k個類中心點的歐氏距離。SPSS按照距k個類中心點距離最短原則,把所有樣本分派到各中心點所在的類中,形成一個新的k類,完成一次迭代過程。(4)SPSS重新確定k個類的中心點。SPSS計算每個類中各個變量的變量值均值,并以均值點作為新的類中心點。(5)重復上面的兩步計算過程,直到達到指定的迭代次數(shù)或終止迭代的判斷要求為止。2.試分析聚類判別法、貝葉斯判別法和費希爾判別法的異同。解:聚類判別法是統(tǒng)計分組的一種方法,作用在于將社會經(jīng)濟現(xiàn)象總體按照研究目的區(qū)分為性質(zhì)不同的各個組成部分,因此分組時要有一個確定組數(shù)和組限的問題。聚類判別法分為三個步驟:在數(shù)軸上描點聚類,判斷孤立點的歸宿,確定各組組限。貝葉斯判別法是根據(jù)最小風險代價判決或最大似然比判決,是根據(jù)貝葉斯準則進行判別分析的一種多元統(tǒng)計分析方法,該方法在已知先驗概率和密度函數(shù)的情況下,用貝葉斯公式計算樣本來自某個總體的后驗概率。費希爾判別法(典型判別)的基本思想是投影,用p維向量的少數(shù)幾個線性組合來代替原始的p個變量,以達到降維的目的,這些線性組合就稱為費希爾判別函數(shù)或典型變量。3.什么是判別分析?在分析的各階段應把握的原則有哪些?解:判別分析是一種比較常用的分類分析方法,它先根據(jù)已知類別的事物的性質(zhì),利用某種技術建立函數(shù)式,然后對未知類別的新事物進行判斷以將之歸入已知的類別。判別分析的用處很廣,除了對個案進行已有類別的歸類判斷外,還可利用判別分析來對聚類分析結果的準確性進行檢驗。在分析的各個階段應把握如下的原則。①事前組別(類)的分類標準(作為判別分析的因變量)要盡可能準確和可靠,否則會影響判別函數(shù)的準確性,從而影響判別分析的效果。②所分析的自變量應是因變量的重要影響因素,應該挑選既有重要特性又有區(qū)別能力的變量,達到以最少變量而有高辨別能力的目標。③初始分析的數(shù)目不能太少。4.在SPSS中怎樣觀察輸出的冰狀圖和聚類樹形圖?解:譜系圖以樹的形式展現(xiàn)聚類分析的每一次合并過程,可以粗略地表現(xiàn)聚類的過程。SPSS首先將各類之間的距離重新轉(zhuǎn)換到0~25之間,然后再近似地表示在圖上。冰柱圖通過表格中的“X”符號顯示,其樣子很像冬天房屋下的冰柱。SPSS默認輸出聚類全過程的冰柱圖。冰柱圖一般從表格的最下一行開始觀察。若樣本i和j之間的列是最長的,表示第一步這兩個樣本聚成一類。然后再往上推進一行,做相應判斷。5.試說明聚類分析與判別分析的區(qū)別與聯(lián)系。解:聚類分析聚類分析的實質(zhì)是建立一種分類方法,它能夠?qū)⒁慌鷺颖緮?shù)據(jù)按照它們在性質(zhì)上的親密程度在沒有先驗知識的情況下自動進行分類。根據(jù)分類對象不同,分為對樣本的聚類(Q型聚類)和對變量的聚類(R型聚類)。判別分析是指先根據(jù)已知類別的事物的性質(zhì),建立函數(shù)式,對事物進行判斷以將之歸入已知的類別中。判別分析的模型按照判別的不同準則可以分為典型判別分析、貝葉斯判別分析、非參數(shù)判別分析等不同模型。判別分析既可以對未知類別的樣本進行類別判斷,也可以用于對已有類別的準確性就行判斷。案例分析題1.對市面上售賣的9種酸奶飲品的滿意度進行市場調(diào)查,分別從甜度、容量、包裝、價格、廣告五個方面進行滿意度評價(采用10分制,分值越高滿意度越高),現(xiàn)匯總了受訪者對9種品牌5個方面的滿意度平均值,如表9-2所示,請根據(jù)這些信息將這9種酸奶飲品劃分為3類。表9-2酸奶滿意度指標品牌甜度容量包裝價格廣告品牌165948品牌285692品牌376555品牌467944品牌558636品牌696455品牌785864品牌848578品牌997656軟件所用數(shù)據(jù)如下:對樣本進行聚類,結果如下:將9個樣本聚成三類,第一類包括品牌1、品牌3、品牌4、品牌6、品牌7和品牌9;第二類包括品牌2;第三類包括品牌5和品牌8。聚類結果的譜系圖和冰狀圖均顯示如下:2.為了明確診斷出小兒肺炎三種類型,某研究機構得到10名結核性、10名化膿性和10名細菌性肺炎共60名患兒的7項生理、生化指標,其中肺炎類型1代表結核性肺炎,2代表化膿性肺炎,3代表細菌性肺炎。詳見下表,若此時得到一位未知類別的患兒,他的7項指標分為為:4.0、1.0、0、0、0、7.0、4.571,請利用判別分析方法判斷該名患兒的肺炎類別。表9-3三種類型小兒肺炎7項生理、生化指標樣本IDX1X2X3X4X5X6X7肺炎類型13.000127.00.683127.0000046.02.857133.010018.00.667148.0100150.04.5001514.0001191.52.1501613.0101115.08.5001724.0101212.07.600184.010127.01.625192.0001120.09.2501106.0001142.06.071111144.0000043.00.50021284.0101148.01.70021330.0120121.01.84021496.0000130.011.333215132.0100175.55.57121696.0000148.07.00021796.0120073.04.556218120.0100141.04.11121960.0000277.51.42922024.0120022.53.100221108.000006.017.2003223.0100068.03.50032336.0100070.010.6673243.0100125.02.22232512.0100023.04.16732624.0100178.03.41732736.0000043.010.53332824.0000053.024.00032912.0110078.013.667330120.0000025.05.6673應用判別分析方法驗證第31個患兒的肺炎類型。數(shù)據(jù)如下所示,第31名患者信息錄入,但是肺炎類型不知,最終給出預測值。應用判別分析,結果如下:判別函數(shù)1和判別函數(shù)2都能夠很好的進行樣本類別的判定。典則判別函數(shù)的系數(shù)矩陣和結構矩陣顯示,第一判別函數(shù)主要反應X1,X3的信息,第二判別函數(shù)反應剩下變量的信息。如果應用fish判別函數(shù),函數(shù)參數(shù)矩陣如下。因為各種肺炎類型的樣本量相等,因此采用各類別先驗概率相等的假設。在原始數(shù)據(jù)保存判別函數(shù)下判斷的樣本類型歸屬,由此可以看出第31名患兒的肺炎類型為第3種。3.在某大型化工廠的廠區(qū)及鄰近地區(qū)挑選10個有代表性的大氣抽樣點,每日4次同時抽取大氣樣品,測定其中含有的5種氣體的濃度,前后共測量5天,計算各取樣點每種氣體的平均濃度,得到如表9-4所示的數(shù)據(jù)。試用聚類分析法對大氣污染區(qū)域進行分類。表9-45種氣體的相關數(shù)據(jù)抽樣點氯氣硫化氫二氧化碳環(huán)氧氯丙烷環(huán)乙烷10.0570.0410.1130.0150.05820.0330.0610.0560.0190.02630.0250.0240.0470.0120.01740.0230.0360.0480.0120.01450.0280.0270.0610.0120.02360.0310.0310.0800.0120.02770.0270.0220.0790.0080.02680.0260.0270.0560.0110.02590.0800.0300.1770.0100.055100.0590.0390.1010.0150.023數(shù)據(jù)結構如下:應用系統(tǒng)聚類方法對該10個抽樣點進行類別劃分,選擇平方歐式距離作為測度樣本之間距離的方式,選擇組內(nèi)鏈接法作為小類與小類距離的測算方法,聚類結果如下:從譜系圖的結果可以得到,若將所有抽樣點分為三個類別的話,9號測試點和1號測試點各種為一個類別,其他8個點為第三個類別。第10章因子分析及SPSS實現(xiàn)習題與思考題(一)填空題1.第i個原始變量和第j個因子變量的相關系數(shù),即在第j個公共因子變量上的相對重要性2.第i個公共因子的重要程度。3.第i行元素的平方和,第j列元素的平方和4.特征值>1,累計方差貢獻率>85%5.旋轉(zhuǎn)(二)選擇題CDDBA(三)判斷題√×√××(四)簡答題1.因子分析與主成分的關系如何?解:因子分析是用少量幾個因子來描述許多指標或因素之間的聯(lián)系,以較少的幾個因子反應原資料的大部分信息的統(tǒng)計方法。因子分析有兩個核心問題:一是如何構造因子變量;二是如何對因子變量進行命名解釋。在構造因子變量的時候有很多可供選擇的方法,主成分分析方法只是其中的一種方法。2.簡述因子分析的主要步驟。解:因子分析有下面4個基本步驟:(1)確定待分析的原有若干變量是否適合于因子分析。(2)構造因子變量。(3)利用旋轉(zhuǎn)使得因子變量更具有可解釋性。(4)計算因子變量的得分。3.KMO與巴特利球形檢驗在因子分析中的功能是什么?解:KMO和巴特利特球形度檢驗都是用于判斷原始變量是否適于作因子分析。原始變量之間存在高度相關性是進行因子分析的前提。4.在因子分析中,為什么要進行因子旋轉(zhuǎn)?最大方差因子旋轉(zhuǎn)的基本思路是什么?解:經(jīng)過計算直接得到的因子載荷矩陣,其載荷數(shù)值彼此相差不大,這樣不利于提取公共因子的具體含義。因此可以通過因子載荷矩陣旋轉(zhuǎn),使得因子載荷的數(shù)值向0或1兩級分化,以便于快速識別到公共因子主要反映的原始變量的綜合含義。最大因子方差旋轉(zhuǎn)法又稱正交旋轉(zhuǎn)法,是使各因子仍然保持正交的狀態(tài),但盡量使得各因子的方差差異達到最大化,即相對的載荷平方和達到最大,從而方便對因子的解釋。5.試說明因子分析模型與線性回歸模型的區(qū)別與聯(lián)系。解:因子分析模型的主要目的是通過公共因子的獲取來實現(xiàn)數(shù)據(jù)的降維。在模型中,所有變量的地位是相等的,模型的目的是公共因子的構建和解釋,因此因子分析模型并不用來預測。線性回歸模型的變量地位不同,所有的自變量都是用來解釋和預測因變量的,并且自變量與因變量之間一定存在顯著的線性相關關系。案例分析題1.某醫(yī)院要對醫(yī)院工作情況進行評估,搜集了近2年各月的門診人次、出院人數(shù)、病床利用率、病床周轉(zhuǎn)次數(shù)、平均住院天數(shù)、病死率、治愈好轉(zhuǎn)率扥7個指標。請采用因子分析方法,分析評價指標體系。表10-1某醫(yī)院工作情況評價指標日期門診人次出院人數(shù)病床利用率病床周轉(zhuǎn)次數(shù)平均住院天數(shù)病死率治愈好轉(zhuǎn)率2019014.3420997.551.2625.632.9293.152019023.4542562.181.2129.301.9992.562019034.3845882.370.3626.542.7396.362019044.1851492.990.9824.893.0994.232019054.5749079.661.2526.954.2198.232019064.0634490.981.0625.101.6996.452019074.4350892.591.3622.305.0399.012019083.5354095.100.9629.103.6595.312019094.1645393.170.6924.063.1494.032019104.8651584.381.3625.892.7796.122019114.0355272.961.5226.362.9697.362019123.9559

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論