教學(xué)課件-SPSS統(tǒng)計(jì)分析高級教程(第2版)-張文彤

上傳人：精*** IP屬地：江西上傳時(shí)間：2025-02-18 格式：PPT 頁數(shù)：206 大?。?.78MB 積分：20 舉報(bào) 版權(quán)申訴

教學(xué)課件-SPSS統(tǒng)計(jì)分析高級教程(第2版)-張文彤_第2頁

教學(xué)課件-SPSS統(tǒng)計(jì)分析高級教程(第2版)-張文彤_第3頁

教學(xué)課件-SPSS統(tǒng)計(jì)分析高級教程(第2版)-張文彤_第4頁

教學(xué)課件-SPSS統(tǒng)計(jì)分析高級教程(第2版)-張文彤_第5頁

已閱讀5頁，還剩201頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多因素方差分析模型入門模型表達(dá)式入門假設(shè)現(xiàn)在希望描述某個(gè)人群的月收入狀況，那么根據(jù)統(tǒng)計(jì)學(xué)知識，均數(shù)能夠表示集中趨勢，標(biāo)準(zhǔn)差能夠表示離散趨勢，則任何一位受訪者i的月收入Xi該如何表達(dá)？顯然，這里的的εi應(yīng)當(dāng)服從正態(tài)分布，其均數(shù)為0，標(biāo)準(zhǔn)差為相應(yīng)總體標(biāo)準(zhǔn)差在只有樣本信息時(shí)，樣本均數(shù)和標(biāo)準(zhǔn)差就是上述參數(shù)的最佳估計(jì)值。2025年2月13日2模型表達(dá)式入門現(xiàn)在希望比較三種職業(yè)的月收入有無差異，這三類職業(yè)分別是醫(yī)生、律師和軟件工程師。如果我們?nèi)匀幌Ｍ軌驅(qū)γ恳粋€(gè)個(gè)體的數(shù)據(jù)加以表達(dá)，應(yīng)當(dāng)如何做？2025年2月13日3模型表達(dá)式入門：單因素方差分析控制因素觀測變量三個(gè)水平2025年2月13日4模型表達(dá)式入門將上面三個(gè)式子可以合并如下：為了進(jìn)一步分析的方便，一般都會尋找一個(gè)均數(shù)的參照水平，將其余組的平均水平與之相比顯然，這樣的組合會有許多種，因此模型在實(shí)際分析的時(shí)候往往會加上一些限制條件，比如假設(shè)參照水平是最后一個(gè)組的均數(shù)，這被稱為擬合的約束條件2025年2月13日5模型表達(dá)式入門由于在常見的研究中，我們更關(guān)心各組均數(shù)的差別，對于標(biāo)準(zhǔn)差的差別則比較忽視，因此在最初的方差分析模型中，往往將不同組的εij假設(shè)為服從相同的正態(tài)分布（就是說相同）注意：在后來發(fā)展的混合效應(yīng)模型和多水平模型中，各組間離散程度的差異也進(jìn)入了研究視野，此時(shí)模型不一定會加入此限制2025年2月13日6模型表達(dá)式入門如果職業(yè)1和職業(yè)2的平均收入不相等，則應(yīng)當(dāng)有α1≠α2H0:α1=α2如果三種職業(yè)的平均收入無差異，則應(yīng)當(dāng)有α1=α2=α3=0，此時(shí)如果采用適當(dāng)?shù)膮⒄账剑陀蠬0：αi＝0，H1：至少有一個(gè)αi≠02025年2月13日7案例：膠合板磨損深度的比較現(xiàn)希望比較四種膠合板的耐磨性，分別從這四個(gè)品牌的膠合板中抽取了5個(gè)樣品，在相同的轉(zhuǎn)速下磨損相同時(shí)間，測量其被磨損的深度（mm），現(xiàn)希望對此進(jìn)行分析，數(shù)據(jù)見veneer.sav方差齊性檢驗(yàn)?zāi)Ｐ蛥?shù)估計(jì)值與設(shè)計(jì)矩陣2025年2月13日8兩兩比較方法LSD法：實(shí)際上就是t檢驗(yàn)的變形，只是在變異和自由度的計(jì)算上利用了整個(gè)樣本信息，因此仍然存在放大一類錯(cuò)誤的問題Scheffe法：當(dāng)各組人數(shù)不相等，或者想進(jìn)行復(fù)雜的比較時(shí)，用此法較為穩(wěn)妥。但它相對比較保守2025年2月13日9兩兩比較方法S-N-K法：是運(yùn)用最廣泛的一種兩兩比較方法。它采用StudentRange分布進(jìn)行所有各組均值間的配對比較。該方法保證在H0真正成立時(shí)總的α水準(zhǔn)等于實(shí)際設(shè)定值，即控制了一類錯(cuò)誤。方差不齊時(shí)的兩兩比較方法：一般認(rèn)為是Games-Howell法稍好一些，但最好直接使用非參數(shù)檢驗(yàn)方法2025年2月13日10兩兩比較方法的選擇多組兩兩比較否是事先計(jì)劃？各組例數(shù)相等？否(探索性研究)是(證實(shí)性研究)否是Bonferroni法(LSD)法Scheffe法Tukey法2025年2月13日11多因素方差分析模型目的：在同時(shí)考慮若干個(gè)控制因素的情況下，分別分析它們的改變是否造成觀察變量的顯著變動2025年2月13日12模型表達(dá)式入門如果只研究職業(yè)的影響如果只研究性別的影響同時(shí)考慮職業(yè)和性別對收入的影響2025年2月13日13方差分析模型常用術(shù)語因素（Factor）因素是可能對因變量有影響的變量，一般來說，因素會有不止一個(gè)水平，而分析的目的就是考察或比較各個(gè)水平對因變量的影響是否相同。水平（Level）因素的不同取值等級稱作水平，例如性別有男、女兩個(gè)水平。2025年2月13日14方差分析模型常用術(shù)語單元（Cell）單元亦稱試驗(yàn)單位（ExperimentalUnit），指各因素的水平之間的每種組合。指各因素各個(gè)水平的組合，例如在研究性別（二水平）、血型（四水平）對成年人身高的影響時(shí)，該設(shè)計(jì)最多可以有2*4＝8個(gè)單元。注意在一些特殊的試驗(yàn)設(shè)計(jì)中，可能有的單元在樣本中并不會出現(xiàn)，如拉丁方設(shè)計(jì)。2025年2月13日15方差分析模型常用術(shù)語元素（Element）指用于測量因變量值的觀察單位，比如研究職業(yè)與收入間的關(guān)系，月收入是從每一位受訪者處得到，則每位受訪者就是試驗(yàn)的元素一個(gè)單元格內(nèi)可以有多個(gè)元素，也可以只有一個(gè)，甚至于沒有元素。這主要在一些特殊的設(shè)計(jì)方案中出現(xiàn)，如正交設(shè)計(jì)2025年2月13日16方差分析模型常用術(shù)語均衡（Balance）如果在一個(gè)實(shí)驗(yàn)設(shè)計(jì)中任一因素各水平在所有單元格中出現(xiàn)的次數(shù)相同，且每個(gè)單元格內(nèi)的元素?cái)?shù)均相同，則該試驗(yàn)是均衡的，否則，就被稱為不均衡。不均衡的實(shí)驗(yàn)設(shè)計(jì)在分析時(shí)較為復(fù)雜，需要對方差分析模型作特別設(shè)置才能得到正確的分析結(jié)果。2025年2月13日17方差分析模型常用術(shù)語固定因素（FixedFactor）指的是該因素在樣本中所有可能的水平都出現(xiàn)了。從樣本的分析結(jié)果中就可以得知所有水平的狀況，無需進(jìn)行外推。絕大多數(shù)情況下，研究者所真正關(guān)心的因素都是固定因素。性別：只有兩種療法：只有三種2025年2月13日18方差分析模型常用術(shù)語隨機(jī)因素（RandomFactor）該因素所有可能的取值在樣本中沒有都出現(xiàn)，目前在樣本中的這些水平是從總體中隨機(jī)抽樣而來，如果我們重復(fù)本研究，則可能得到的因素水平會和現(xiàn)在完全不同！這時(shí)，研究者顯然希望得到的是一個(gè)能夠“泛化”，即對所有可能出現(xiàn)的水平均適用的結(jié)果。這不可避免的存在誤差，需要估計(jì)誤差的大小，因此被稱為隨機(jī)因素。2025年2月13日19方差分析模型常用術(shù)語協(xié)變量（Covariates）指對因變量可能有影響，需要在分析時(shí)對其作用加以控制的連續(xù)性變量實(shí)際上，可以簡單的把因素和協(xié)變量分別理解為分類自變量和連續(xù)性自變量當(dāng)模型中存在協(xié)變量時(shí)，一般是通過找出它與因變量的回歸關(guān)系來控制其影響2025年2月13日20方差分析模型常用術(shù)語交互作用（Interaction）如果一個(gè)因素的效應(yīng)大小在另一個(gè)因素不同水平下明顯不同，則稱為兩因素間存在交互作用。當(dāng)存在交互作用時(shí)，單純研究某個(gè)因素的作用是沒有意義的，必須分另一個(gè)因素的不同水平研究該因素的作用大小。2025年2月13日21效應(yīng)的檢驗(yàn)方法無論模型結(jié)構(gòu)多復(fù)雜，假設(shè)檢驗(yàn)都是基于變異分解的原理進(jìn)行的，都是F檢驗(yàn)。根據(jù)變異分解式，可以將總的樣本離均差平方和分解成各個(gè)部分，隨后各個(gè)離均差平方和除以自由度可得到均方，進(jìn)而將各效應(yīng)的均方和誤差均方相比較，就得到了F統(tǒng)計(jì)量2025年2月13日22方差分析模型的檢驗(yàn)層次對總模型進(jìn)行檢驗(yàn)對模型中各交互效應(yīng)、主效應(yīng)進(jìn)行檢驗(yàn)交互項(xiàng)有統(tǒng)計(jì)學(xué)意義：分解為各種水平的組合情況進(jìn)行檢驗(yàn)交互項(xiàng)無統(tǒng)計(jì)學(xué)意義：進(jìn)行主效應(yīng)各水平的兩兩比較2025年2月13日23方差分析模型的適用條件從模型表達(dá)式出發(fā)得到的提示各樣本的獨(dú)立性：只有各樣本為相互獨(dú)立的隨機(jī)樣本，才能保證變異的可加性（可分解性）正態(tài)性：即個(gè)單元格內(nèi)的所有觀察值系從正態(tài)總體中抽樣得出方差齊：各個(gè)單元格中的數(shù)據(jù)離散程度均相同，即各單元格方差齊2025年2月13日24方差分析模型的適用條件實(shí)際運(yùn)用在多因素方差分析中，由于個(gè)因素水平組合下來每個(gè)單元格內(nèi)的樣本量可能非常少，這樣直接進(jìn)行正態(tài)性、方差齊檢驗(yàn)的話檢驗(yàn)效能很低，實(shí)際上沒什么用因此真正常見的做法是進(jìn)行建模后的殘差分析2025年2月13日25案例：超市規(guī)模、貨架位置與銷量的關(guān)系現(xiàn)希望現(xiàn)希望考察對超市中銷售的某種商品而言，是否其銷售額會受到貨架上擺放位置的影響，除此以外，超市的規(guī)模是否也會有所作用？甚或兩者間還會存在交互作用？Berenson和Levine（1992）著手研究了此問題，他們按照超市的大?。ㄈ剑[放位置（四水平）各隨機(jī)選取了兩個(gè)點(diǎn)，記錄其同一周內(nèi)該貨物的銷量。2025年2月13日26案例：超市規(guī)模、貨架位置與銷量的關(guān)系方差齊性檢驗(yàn)問題邊際均數(shù)和輪廓圖殘差分布圖2025年2月13日27案例：廣告宣傳效果的比較現(xiàn)希望研究四種廣告的宣傳效果有無差異，具體的廣告類型為：店內(nèi)展示、發(fā)放傳單、推銷員展示、廣播廣告。在本地區(qū)共有幾百個(gè)銷售網(wǎng)點(diǎn)可供選擇，出于經(jīng)費(fèi)方面的考慮，在其中隨機(jī)選擇了18個(gè)網(wǎng)點(diǎn)進(jìn)入研究，各網(wǎng)點(diǎn)均在規(guī)定長度的時(shí)間段內(nèi)使用某種廣告宣傳方式，并記錄該時(shí)間段內(nèi)的具體銷售額。為減小誤差，每種廣告方式在每個(gè)網(wǎng)點(diǎn)均重復(fù)測量兩次。數(shù)據(jù)見ranavona.sav。2025年2月13日28線性回歸模型相關(guān)分析任意多個(gè)變量都可以考慮相關(guān)問題任意測量尺度的變量都可以測量相關(guān)強(qiáng)度常用術(shù)語直線相關(guān)兩變量呈線性共同增大呈線性一增一減曲線相關(guān)兩變量存在相關(guān)趨勢并非線性，而是呈各種可能的曲線趨勢正相關(guān)與負(fù)相關(guān)完全相關(guān)2025年2月13日30相關(guān)分析分析過程介紹Bivariate過程進(jìn)行兩個(gè)/多個(gè)變量間的參數(shù)/非參數(shù)相關(guān)分析如果是多個(gè)變量，則給出兩兩相關(guān)的分析結(jié)果Partial過程對其他變量進(jìn)行控制輸出控制其他變量影響后的相關(guān)系數(shù)這種分析思想和協(xié)方差分析非常類似典型相關(guān)分析2025年2月13日31相關(guān)分析和回歸分析的關(guān)系2025年2月13日32回歸分析概述研究一個(gè)連續(xù)性變量（因變量）的取值隨著其它變量（自變量）的數(shù)值變化而變化的趨勢通過回歸方程解釋兩變量之間的關(guān)系顯的更為精確，可以計(jì)算出自變量改變一個(gè)單位時(shí)因變量平均改變的單位數(shù)量，這是相關(guān)分析無法做到的除了描述兩變量的關(guān)系以外，通過回歸方程還可以進(jìn)行預(yù)測和控制，這在實(shí)際工作中尤為重要2025年2月13日33回歸分析概述回歸分析假定自變量對因變量的影響強(qiáng)度是始終保持不變的，如公式所示：對于因變量的預(yù)測值可以被分解成兩部分：常量（constant）：x取值為零時(shí)y的平均估計(jì)量，可以被看成是一個(gè)基線水平回歸部分：它刻畫因變量Y的取值中，由因變量Y與自變量X的線性關(guān)系所決定的部分，即可以由X直接估計(jì)的部分2025年2月13日34回歸分析概述?：y的估計(jì)值（所估計(jì)的平均水平），表示給定自變量的取值時(shí)，根據(jù)公式算得的y的估計(jì)值a：常數(shù)項(xiàng)，表示自變量取值均為0時(shí)因變量的平均水平，即回歸直線在y軸上的截距多數(shù)情況下沒有實(shí)際意義，研究者也不關(guān)心b：回歸系數(shù)，在多變量回歸中也稱偏回歸系數(shù)。自變量x改變一個(gè)單位，y估計(jì)值的改變量。即回歸直線的斜率2025年2月13日35回歸分析概述估計(jì)值和每一個(gè)實(shí)測值之間的差被稱為殘差。它刻畫了因變量y除了自變量x以外的其它所有未進(jìn)入該模型，或未知但可能與y有關(guān)的隨機(jī)和非隨機(jī)因素共同引起的變異，即不能由x直接估計(jì)的部分。為了方程可以得到估計(jì)，我們往往假定

i服從正態(tài)分布N(0,σ2)。2025年2月13日36案例：銷量影響因素分析某專門面向年輕人制作肖像的公司計(jì)劃在國內(nèi)再開設(shè)幾家分店，收集了目前已開設(shè)的分店的銷售數(shù)據(jù)(Y，萬元)及分店所在城市的16歲以下人數(shù)(X1，萬人)、人均可支配收入(X2，元)，數(shù)據(jù)見reg.sav。試進(jìn)行統(tǒng)計(jì)分析。實(shí)際上擬合的模型如下：2025年2月13日37模型適用條件線性趨勢獨(dú)立性正態(tài)性方差齊性如果只是探討自變量與因變量間的關(guān)系，則后兩個(gè)條件可以適當(dāng)放寬樣本量根據(jù)經(jīng)驗(yàn)，記錄數(shù)應(yīng)當(dāng)在希望分析的自變量數(shù)的20倍以上為宜。實(shí)質(zhì)上樣本量和模型的決定系數(shù)有關(guān)，可通過迭代的方法進(jìn)行計(jì)算2025年2月13日38常用指標(biāo)偏回歸系數(shù)相應(yīng)的自變量上升一個(gè)單位時(shí)，因變量取值的變動情況，即自變量對因變量的影響程度。標(biāo)化偏回歸系數(shù)：量綱問題決定系數(shù)相應(yīng)的相關(guān)系數(shù)的平方，用R2表示，它反映因變量y的全部變異中能夠通過回歸關(guān)系被自變量解釋的比例。2025年2月13日39線性回歸模型簡介分析步驟做出散點(diǎn)圖，觀察變量間的趨勢2025年2月13日40線性回歸模型簡介分析步驟考察數(shù)據(jù)的分布，進(jìn)行必要的預(yù)處理。即分析變量的正態(tài)性、方差齊等問題進(jìn)行直線回歸分析殘差分析殘差間是否獨(dú)立（Durbin-Watson檢驗(yàn)）殘差分布是否為正態(tài)（圖形或統(tǒng)計(jì)量）2025年2月13日41線性回歸模型簡介分析步驟殘差分析強(qiáng)影響點(diǎn)的診斷多重共線性問題的判斷這兩個(gè)步驟和殘差分析往往混在一起，難以完全分出先后2025年2月13日42案例：固體垃圾排放量與土地種類的關(guān)系本例來自GoluekeandMcGauhey1970年對美國40個(gè)城市的固體垃圾排放量(噸)的調(diào)查資料，所關(guān)心的問題是不同種類土地使用面積（單位，英畝）與固體垃圾排放量之間的關(guān)系?？赡艿挠绊懸蛩赜校篿ndust（工業(yè)區(qū)土地面積的大?。?、metals（金屬制造企業(yè)用地面積）、trucks（運(yùn)輸及批發(fā)商業(yè)用地面積）、retail（零售業(yè)用地面積）、restrnts（餐館與賓館用地面積）。試作逐步回歸分析。數(shù)據(jù)庫為WASTE.sav。2025年2月13日43多變量的篩選策略較穩(wěn)妥的方式單自變量回歸模型，篩掉那些顯然無關(guān)聯(lián)的候選變量嘗試建立多自變量模型，可手動、也可利用自動篩選方法，但使用后者時(shí)要謹(jǐn)慎多自變量和單自變量模型結(jié)果相矛盾時(shí)，以前者為準(zhǔn)結(jié)果不符合專業(yè)知識時(shí)，盡量尋找原因2025年2月13日44回歸分析衍生方法曲線擬合過程方法簡介直線關(guān)系畢竟是較少數(shù)的情形，當(dāng)因變量和自變量呈曲線關(guān)系時(shí)：有明確的公式：利用變量變換將曲線直線化，然后加以擬合關(guān)系不明：基于圖形觀察，擬合可能的曲線，從中挑選出最為合適的一個(gè)具體擬合方法：根據(jù)所選擇的公式，將自變量和因變量進(jìn)行變量變換，然后按照直線回歸的方式進(jìn)行擬合可擬合的曲線種類高次方曲線：一、二、三次方曲線指數(shù)、對數(shù)、冪曲線特殊類型曲線：S形曲線、生長曲線等2025年2月13日46曲線擬合過程案例：通風(fēng)時(shí)間和毒物濃度的曲線方程根據(jù)文獻(xiàn)資料，隨著通風(fēng)時(shí)間的增加，密閉空間內(nèi)污染物的濃度應(yīng)當(dāng)呈指數(shù)方程下降?，F(xiàn)考察某通風(fēng)設(shè)備的換氣效果，在室內(nèi)放置了某種揮發(fā)性物質(zhì)（模擬毒物），待其充分分散到室內(nèi)空氣中后開始通風(fēng)，每一分鐘測量一次室內(nèi)空氣中的毒物濃度，請建立時(shí)間與空氣中毒物濃度的指數(shù)方程。curve.sav已有明確的方程y=a×ebx，按此擬合即可。等價(jià)于先進(jìn)行變量變換，然后擬合直線方程。2025年2月13日47加權(quán)最小二乘法所針對的問題：方差齊性被違反因變量的變異隨著某些指標(biāo)的改變而改變以地區(qū)為觀察單位調(diào)查某種事物的發(fā)生率研究通貨膨脹和失業(yè)率對股票價(jià)格的影響高價(jià)股票的波動一般都會大于低價(jià)股票需要人為調(diào)控各案例在回歸中的重要性解決辦法根據(jù)用戶提供的可能預(yù)測因變量變異大小的指標(biāo)，在擬合時(shí)對變異較?。礈y量更精確）的測量值賦予較大的權(quán)重2025年2月13日48加權(quán)最小二乘法案例：不等量樣品數(shù)據(jù)的回歸方程實(shí)驗(yàn)中收集得15對數(shù)據(jù)，每對數(shù)據(jù)都是將n份樣品混合后測得的平均結(jié)果，但各對數(shù)據(jù)的n大小不等，試求出X對Y的直線回歸方程。wls.sav加權(quán)后的決定系數(shù)基本上都是低于原模型的2025年2月13日49嶺回歸分析簡介一種專門用于共線性數(shù)據(jù)分析的有偏估計(jì)方法有偏意味著對數(shù)據(jù)信息有所取舍通過丟棄部分信息，以得到更為穩(wěn)定的分析結(jié)果實(shí)際上是一種改良的最小二乘法由于是有偏估計(jì)，統(tǒng)計(jì)檢驗(yàn)已經(jīng)居次要地位，故一般不再給出2025年2月13日50嶺回歸分析簡介程序方式調(diào)用2025年2月13日51嶺回歸分析簡介案例：用外形指標(biāo)推測胎兒周齡現(xiàn)測得22例胎兒的身長、頭圍、體重和胎兒受精周齡，具體數(shù)據(jù)見文件ridgereg.sav。研究者希望能建立由前三個(gè)外形指標(biāo)推測胎兒周齡的回歸方程2025年2月13日52最優(yōu)尺度回歸所針對的問題：測量尺度非等距變量為無序多分類時(shí)，類別間的差異如何較難探索變量為有序多分類時(shí)，類別間的距離不一定相等，直接作為連續(xù)變量分析不妥即使變量均為連續(xù)型變量，但其聯(lián)系有可能為某種曲線，直接按照線性結(jié)構(gòu)來擬合也不合適2025年2月13日53最優(yōu)尺度回歸解決辦法根據(jù)數(shù)據(jù)情況進(jìn)行迭代搜索，找到適當(dāng)?shù)淖儞Q方法對原始分類變量進(jìn)行轉(zhuǎn)換，將原始變量一律轉(zhuǎn)換為連續(xù)性評分，然后再進(jìn)行方程擬合分類變量越多優(yōu)勢越明顯從實(shí)用的角度出發(fā)，該方法可以被作為一種探索性方法使用2025年2月13日54最優(yōu)尺度回歸案例：生育子女?dāng)?shù)的回歸模型現(xiàn)收集了一批婦女的曾生子女?dāng)?shù)、年齡、居住地類別（1：城市，2：農(nóng)村）、受教育程度（1~5分別代表文盲半文盲、小學(xué)、初中、高中、大學(xué)及以上），請建立后三個(gè)變量對曾生子女?dāng)?shù)的回歸模型，數(shù)據(jù)見child.sav。用此方法來探索一下受教育程度對因變量的影響趨勢2025年2月13日55非線性回歸過程曲線擬合過程的局限只能分析一個(gè)自變量變量變換的局限有的公式根本無法進(jìn)行變換，如復(fù)雜的等式，或者無簡單解的積分方程當(dāng)變換后，變量的數(shù)值分布狀況已經(jīng)改變，此時(shí)根據(jù)最小二乘法得到的最優(yōu)解可能在原變量分布狀況下并非最優(yōu)2025年2月13日57非線性回歸過程的優(yōu)勢它采用迭代方法對用戶設(shè)置的各種復(fù)雜曲線模型進(jìn)行擬合迭代方法往往意味著結(jié)果較為穩(wěn)定將殘差的定義從最小二乘法向外大大擴(kuò)展這意味著誤差測量手段的大大豐富最小一乘法、加權(quán)最小二乘法、自回歸模型等為用戶提供了極為強(qiáng)大的分析能力特別適用于實(shí)驗(yàn)室數(shù)據(jù)的分析2025年2月13日58非線性回歸過程簡介案例：毒物通風(fēng)數(shù)據(jù)在曲線擬合過程中，給出的解實(shí)際上是變量變換后線性回歸方程的最優(yōu)解使用非線性回歸擬合時(shí)，給出的解為原始變量狀況下的最優(yōu)解即散點(diǎn)離曲線距離的平方之和為最小此時(shí)的決定系數(shù)一般均高于曲線擬合過程2025年2月13日59案例：自定義損失函數(shù)某公司生產(chǎn)的產(chǎn)品其成本主要受兩種原材料的影響，為及時(shí)調(diào)整生產(chǎn)，協(xié)調(diào)庫存，現(xiàn)收集了一批產(chǎn)品產(chǎn)量與相應(yīng)生產(chǎn)中兩種原材料消耗量的數(shù)據(jù)，見文件nlin2.sav。請就此建立原材料消耗量與產(chǎn)量（因變量）間的回歸方程2025年2月13日60非線性回歸過程簡介參數(shù)初始值的設(shè)定技巧如果可變?yōu)榫€性，可以先擬合線性方程，將此結(jié)果作為初始值如果方程可解，則代入若干樣本值，解出近似取值作為初值先擬合較簡單的雛形，將結(jié)果作為初始值否則，多嘗試幾種初始值，觀察結(jié)果2025年2月13日61logistic回歸模型簡介基于線性回歸模型發(fā)展而來線性回歸研究的是連續(xù)性因變量與自變量之間的關(guān)系有的時(shí)候因變量為分類變量，需要研究該分類變量與一組自變量之間的關(guān)系以治療效果為因變量，結(jié)局為治愈/未治愈如果使用新的宣傳方式，決定戒煙的概率是否更高？2025年2月13日63模型簡介發(fā)生率P為因變量，它與自變量之間通常不存在線性關(guān)系不能保證在自變量的各種組合下，因變量的取值仍限制在0~1內(nèi)2025年2月13日64模型簡介由于因變量為二分類，所以誤差項(xiàng)服從二項(xiàng)分布，而不是正態(tài)分布因此，常用的最小二乘法也不再適用2025年2月13日65模型用途影響因素分析，求出哪些自變量對因變量發(fā)生概率有影響。并計(jì)算各自變量對因變量的比數(shù)比作為判別分析方法，來估計(jì)各種自變量組合條件下因變量各類別的發(fā)生概率，從而對結(jié)局進(jìn)行預(yù)測。該模型在結(jié)果上等價(jià)于判別分析2025年2月13日66模型簡介α是常數(shù)項(xiàng)，表示自變量取值全為0時(shí)，比數(shù)（Y=1與Y=0的概率之比）的自然對數(shù)值Beta為logistic回歸系數(shù)，表示當(dāng)其他自變量取值保持不變時(shí)，該自變量取值增加一個(gè)單位引起比數(shù)比（OR）自然對數(shù)值的變化量2025年2月13日67案例：低出生體重兒影響因素Hosmer和Lemeshow于1989年研究了低出生體重嬰兒的影響因素，數(shù)據(jù)見文件logistic_step.sav。結(jié)果變量為是否娩出低出生體重兒(變量名為LOW，1，低出生體重，即嬰兒出生體重<2500克、0，非低出生體重)，考慮的影響(自變量)有：產(chǎn)婦妊娠前體重(lwt，磅)產(chǎn)婦年齡(age，歲)產(chǎn)婦在妊娠期間是否吸煙(smoke，0=未吸、1=吸煙)本次妊娠前早產(chǎn)次數(shù)(ptl，次)是否患有高血壓(ht，0=未患、1=患病)子宮對按摩、催產(chǎn)素等刺激引起收縮的應(yīng)激性(ui，0=無、1=有)妊娠前三個(gè)月社區(qū)醫(yī)生隨訪次數(shù)(ftv，次)種族(race，1=白人、2=黑人、3=其他民族)2025年2月13日68模型中用到的檢驗(yàn)方法Walds檢驗(yàn)：基于標(biāo)準(zhǔn)誤估計(jì)值的單變量檢驗(yàn)他沒有考慮其他因素的綜合作用，當(dāng)因素間存在共線性時(shí)結(jié)果不可靠故在篩選變量時(shí)，用Walds法應(yīng)慎重似然比檢驗(yàn)：直接對兩個(gè)模型進(jìn)行的比較當(dāng)模型較為復(fù)雜時(shí)，建議使用似然比檢驗(yàn)進(jìn)行變量的篩選工作，以及模型間優(yōu)劣的比較兩模型-2對數(shù)似然值之差即為似然比統(tǒng)計(jì)量，自由度亦為兩模型參數(shù)個(gè)數(shù)之差比分檢驗(yàn)考慮在已有模型基礎(chǔ)上引入新變量之后模型效果是否發(fā)生改變2025年2月13日69啞變量回歸系數(shù)b表示其它自變量不變，x每改變一個(gè)單位時(shí)，所預(yù)測的y的平均變化量當(dāng)x為連續(xù)性/二分類變量時(shí)這樣沒有問題當(dāng)x為多分類變量時(shí)就不太合適了無序多分類：民族，各族之間不存在大小問題有序多分類：家庭收入分為高、中、低三檔，它們之間的差距無法準(zhǔn)確衡量強(qiáng)行規(guī)定為等距顯然可能引入更大的誤差2025年2月13日70啞變量在以上這些情況時(shí)，我們就必須將原始的多分類變量轉(zhuǎn)化為數(shù)個(gè)啞變量（DummyVariable），每個(gè)啞變量只代表某兩個(gè)級別或若干個(gè)級別間的差異，這樣得到的回歸結(jié)果才能有明確而合理的實(shí)際意義。注意：啞變量必須同進(jìn)同出，否則含義可能改變2025年2月13日71啞變量 O型是作為對比水平（基礎(chǔ)水平），而啞變量V1、V2、V3分別代表了A型、B型、AB型和O型相比的系數(shù)2025年2月13日72Logistic回歸進(jìn)階無序多分類Logistic回歸模型研究問題病例－對照研究中設(shè)立一組病例和多組對照，需要分析暴露是否和患病有關(guān)，則結(jié)局變量為無序三分類，應(yīng)當(dāng)使用該模型加以分析。病例醫(yī)院對照健康人群對照2025年2月13日74無序多分類Logistic回歸模型因變量為無序多分類除一個(gè)對照水平外，以每一分類與對照水平作比較例如結(jié)果變量有三個(gè)水平：a、b、c，如果以a為參照水平，就可以得到兩個(gè)Logistic函數(shù)，一個(gè)是b與a相比，另一個(gè)是c與a相比同時(shí)應(yīng)當(dāng)有：Pa+Pb+Pc=12025年2月13日75無序多分類Logistic回歸模型模型簡介2025年2月13日76無序多分類Logistic回歸模型案例：不同背景人群的選舉傾向老布什、克林頓、佩羅在1992年進(jìn)行的較量，數(shù)據(jù)來自SPSS自帶的vote.sav。pres92，所欲選的總統(tǒng)候選人；age，年齡；agecat，年齡分組；educ，受教育年數(shù)；degree，最高學(xué)歷；sex，性別。2025年2月13日77有序多分類Logistic回歸模型相關(guān)問題所測量的結(jié)局變量為等級，或者數(shù)量較少的評分（如1～5分）療效：痊愈、顯效、好轉(zhuǎn)、無效單變量分析使用秩和檢驗(yàn)即可，如果進(jìn)行多變量分析，簡單的按照連續(xù)變量來處理可能不合適2025年2月13日78有序多分類Logistic回歸模型多分類有序因變量的資料，分類水平大于2且水平之間有等級關(guān)系。擬合水平數(shù)-1個(gè)logit模型，稱為累加logit模型（Cumulativelogitsmodel）。例如對一個(gè)四分類有序變量，即應(yīng)當(dāng)同時(shí)擬合以下三個(gè)模型：π1、π2、π3分別為因變量取第一類、第二類、第三類時(shí)的概率，而第四類則作為用于對比的基礎(chǔ)水平。2025年2月13日79有序多分類Logistic回歸模型模型簡介2025年2月13日80有序多分類Logistic回歸模型可見，這種模型實(shí)際上是依次將因變量劃分為兩個(gè)等級，不管模型中因變量的分割點(diǎn)在什么位置，模型中各自變量的系數(shù)β都保持不變，所改變的只是常數(shù)項(xiàng)α。此時(shí)求出的OR值是自變量每改變一個(gè)單位，因變量提高一個(gè)及一個(gè)以上等級的比數(shù)比。這種假設(shè)看似復(fù)雜，但大量實(shí)踐證明，它是符合多數(shù)實(shí)際情況的。2025年2月13日81案例：工作滿意度影響因素分析各分割點(diǎn)的平行性檢驗(yàn)如果平行性檢驗(yàn)未能過關(guān)換用其他連接函數(shù)退回去使用無序logistic模型2025年2月13日82信息濃縮技術(shù)－－主成分分析、因子分析概述解決變量間多重共線性(datareduction)有太多的變量，希望能夠消減變量，用一個(gè)新的、更小的由原始變量集組合成的新變量集作進(jìn)一步分析。新的變量集能夠更好的說明問題，利于簡化和解釋問題。探討變量內(nèi)在聯(lián)系和結(jié)構(gòu)(structuredetection)觀測變量之間的存在相互依賴關(guān)系由量表所反映出的受訪者對衛(wèi)生服務(wù)的真實(shí)滿意度842025年2月13日概述本講課程中涉及的方法其實(shí)質(zhì)均為數(shù)據(jù)化簡、信息濃縮，即將分散在多個(gè)變量中的同類信息集中、提純，從而便于分析、解釋和利用。目的為濃縮信息目的為探討內(nèi)在結(jié)構(gòu)正因如此，這些信息濃縮方法、特別是其中的因子分析方法，往往成為更復(fù)雜的多元分析方法的基石。2025年2月13日85主成分分析只是一種中間手段，其背景是研究中經(jīng)常會遇到多指標(biāo)的問題，這些指標(biāo)間往往存在一定的相關(guān)，直接納入分析不僅復(fù)雜，變量間難以取舍，而且可能因多元共線性而無法得出正確結(jié)論。主成分分析的目的就是通過線性變換，將原來的多個(gè)指標(biāo)組合成相互獨(dú)立的少數(shù)幾個(gè)能充分反映總體信息的指標(biāo)，便于進(jìn)一步分析。盡可能保留原始變量的信息，且彼此不相關(guān)。2025年2月13日862025年2月13日87x1x2Y1Y2x1x2X1與x2相關(guān)Y1與Y2不相關(guān)2025年2月13日88主成分分析在主成分分析中，提取出的每個(gè)主成分都是原來多個(gè)指標(biāo)的線性組合如有兩個(gè)原始變量x1和x2，則一共可提取出兩個(gè)主成分如下：z1=b11x1+b21x2 z2=b12x1+b22x22025年2月13日89主成分分析原則上如果有n個(gè)變量，則最多可以提取出n個(gè)主成分，但如果將它們?nèi)刻崛〕鰜砭褪チ嗽摲椒ê喕瘮?shù)據(jù)的實(shí)際意義。多數(shù)情況下提取出前2~3個(gè)主成分已包含了90%以上的信息，其他的可以忽略不計(jì)。在進(jìn)行主成分回歸時(shí)，提取出的主成分能包含主要信息即可，不一定非要有準(zhǔn)確的實(shí)際含義。2025年2月13日90主成分分析方法用途主成分評價(jià)：當(dāng)進(jìn)行多指標(biāo)的綜合評價(jià)時(shí)，應(yīng)用主成分方法將多指標(biāo)中的信息集中為若干個(gè)主成分，然后加權(quán)求和，得到綜合評價(jià)指數(shù)。主成分回歸：通過對存在共線性的自變量進(jìn)行主成分分析，從而在提取多數(shù)信息的同時(shí)解決共線性問題。2025年2月13日91案例：各省經(jīng)濟(jì)發(fā)展情況綜合評價(jià)現(xiàn)希望根據(jù)全國30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)對其進(jìn)行分析和排序。具體指標(biāo)有：GDP、居民消費(fèi)水平、固定資產(chǎn)投資、職工平均工資、貨物周轉(zhuǎn)量、居民消費(fèi)價(jià)格指數(shù)、商品零售價(jià)格指數(shù)、工業(yè)總產(chǎn)值，數(shù)據(jù)文件見factor1.sav。2025年2月13日92因子分析是一種多變量化簡技術(shù)。目的是分解原始變量，從中歸納出潛在的“類別”，相關(guān)性較強(qiáng)的指標(biāo)歸為一類，不同類間變量的相關(guān)性較低。每一類變量代表了一個(gè)“共同因子”，即一種內(nèi)在結(jié)構(gòu)，因子分析就是要尋找該結(jié)構(gòu)。探索性因子分析證實(shí)性因子分析932025年2月13日因子分析比如在市場調(diào)查中收集了食品的五項(xiàng)指標(biāo)：味道、價(jià)格、風(fēng)味、是否快餐食品、能量。經(jīng)過因子分析后發(fā)現(xiàn)結(jié)果如下：x1=0.02z1+0.99z2+ε1x2=0.94z1-0.01z2+ε2x3=0.13z1+0.98z2+ε3x4=0.84z1+0.42z2+ε4x5=0.97z1-0.02z2+ε52025年2月13日94因子分析第一公因子主要影響價(jià)格、是否快餐食品和能量，代表“價(jià)廉”第二公因子則主要影響味道和風(fēng)味，代表“味美”ε代表特殊因子，只對當(dāng)前變量有影響，表示該變量中獨(dú)特的，不能被公因子所解釋的特征952025年2月13日用途研究設(shè)計(jì)階段/問卷效果評估階段評價(jià)問卷的結(jié)構(gòu)效度統(tǒng)計(jì)分析階段解決變量間多重共線性尋找變量間潛在結(jié)構(gòu)內(nèi)在結(jié)構(gòu)證實(shí)962025年2月13日適用條件樣本量樣本量與變量數(shù)的比例應(yīng)在5：1以上總樣本量不得少于100，而且原則上越大越好各變量間必須有相關(guān)性KMO統(tǒng)計(jì)量：0.9最佳，0.7尚可，0.6很差，0.5以下放棄Bartlett’s球形檢驗(yàn)這些條件均是為了保證能夠?qū)ふ页鰞?nèi)在結(jié)構(gòu)972025年2月13日分析步驟判斷是否需要進(jìn)行因子分析，數(shù)據(jù)是否符合要求進(jìn)行分析，按一定標(biāo)準(zhǔn)確定提取的因子數(shù)目如果進(jìn)行的是主成分分析，則將主成分存為新變量用于繼續(xù)分析，步驟到此結(jié)束如果進(jìn)行的是因子分析，則考察因子的可解釋性，并在必要時(shí)進(jìn)行因子旋轉(zhuǎn)，以尋求最佳解釋方式如有必要，可計(jì)算出因子得分等中間指標(biāo)供進(jìn)一步分析使用982025年2月13日因子分析公因子數(shù)量的確定主成分的累積貢獻(xiàn)率：80~85％以上特征根：大于1綜合判斷因子分析時(shí)更重要的是因子的可解釋性必要時(shí)可保留小于1的因子碎石圖可以幫助確定因子數(shù)量992025年2月13日有關(guān)概念因子負(fù)荷即表達(dá)式中各因子的系數(shù)值，用于反映因子和各個(gè)變量間的密切程度，其實(shí)質(zhì)是兩者間的相關(guān)系數(shù)公因子方差比（Communalities）指的是提取公因子后，各變量中信息分別被提取出的比例，或者說原變量的信息量（方差）中由公因子決定的比例2025年2月13日100有關(guān)概念特征根（Eigenvalue）可以被看成是主成分影響力度的指標(biāo)，代表引入該因子／主成分后可以解釋平均多少原始變量的信息。正因如此，一般對特征根大于1的因子才加以注意2025年2月13日101分析實(shí)例案例：對各省經(jīng)濟(jì)數(shù)據(jù)的進(jìn)一步分析奧林匹克資料：olymp88.sav因子旋轉(zhuǎn)因子負(fù)荷的排序和禁止輸出因子計(jì)算公式的生成2025年2月13日102對應(yīng)分析對應(yīng)分析問題的提出分析分類變量間關(guān)系時(shí)，卡方檢驗(yàn)只能給出總體有無關(guān)聯(lián)的結(jié)論，但不能進(jìn)行精細(xì)分析，在變量類別極多時(shí)于事無補(bǔ)Logistic模型在多分類時(shí)過于笨拙解決方案精細(xì)建模：對數(shù)線性模型直觀展示：對應(yīng)分析2025年2月13日104對應(yīng)分析特點(diǎn)是多維圖示分析技術(shù)之一，結(jié)果直觀、簡單與因子分析有關(guān)分類資料的典型相關(guān)分析用于展示兩個(gè)/多個(gè)分類變量各類間的關(guān)系高收入、黑人、男性傾向于反對開戰(zhàn)研究較多分類變量間關(guān)系時(shí)較佳各個(gè)變量的類別較多時(shí)較佳均為四類以上1052025年2月13日對應(yīng)分析實(shí)質(zhì)就是對列聯(lián)表中的數(shù)據(jù)信息進(jìn)行濃縮，然后以易于閱讀的圖形方式呈現(xiàn)出來以默認(rèn)的卡方測量方式為例，首先以列聯(lián)表為分析基礎(chǔ)，計(jì)算基于H0假設(shè)的標(biāo)化單元格殘差2025年2月13日106對應(yīng)分析實(shí)質(zhì)將每行看成是一條記錄，基于列變量相關(guān)系數(shù)陣進(jìn)行因子分析，計(jì)算出列變量各類的負(fù)荷值將每列看成是一條記錄，基于行變量相關(guān)系數(shù)陣進(jìn)行因子分析，計(jì)算出行變量各類的負(fù)荷值局限性不能進(jìn)行變量間相關(guān)關(guān)系的檢驗(yàn)仍然只是一種統(tǒng)計(jì)描述方法解決方案的所需維度需要研究者決定對極端值敏感對于小樣本不推薦使用1072025年2月13日對應(yīng)分析實(shí)際應(yīng)用（保險(xiǎn)業(yè)）我們某個(gè)險(xiǎn)種的用戶是誰？另外還有什么特征的人群也傾向于成為我們的用戶？什么特征的人群還沒有找到滿意的險(xiǎn)種，或者說現(xiàn)有險(xiǎn)種還有哪種人群未能覆蓋？我們提供的險(xiǎn)種系列是否全面，有無哪些險(xiǎn)種過于重疊，是否還有種類空白需要填補(bǔ)？1082025年2月13日2025年2月13日1092025年2月13日110對應(yīng)分析圖的閱讀每個(gè)維度可能代表了一種特征實(shí)際上就是一個(gè)提取出的主成分，但由于分類變量的信息較少，可能找不到合理的解釋1．考察同一變量的區(qū)分度：如果同一變量不同類別在某個(gè)方向上靠得較近，則說明這些類別在該維度上區(qū)別不大。2．考察不同變量的類別聯(lián)系：一般而言，落在從圖形原點(diǎn)(0,0)處出發(fā)相同方位上大致相同區(qū)域內(nèi)的不同變量的分類點(diǎn)彼此有聯(lián)系。散點(diǎn)間距離越近，說明關(guān)聯(lián)傾向越明顯；散點(diǎn)離原點(diǎn)越遠(yuǎn)，也說明關(guān)聯(lián)傾向越明顯。2025年2月13日111結(jié)果的正確解釋錯(cuò)誤的解釋：金色頭發(fā)的兒童中藍(lán)色、淺色眼睛者居多正確的解釋：相對于平均水平而言，金色頭發(fā)的兒童中藍(lán)色、淺色眼睛的比例要高一些，也就是高于其他顏色頭發(fā)的兒童2025年2月13日112對應(yīng)分析中應(yīng)注意的問題分析目的：重在觀察行、列變量間的聯(lián)系數(shù)據(jù)類型：無序分類較佳，如果均為有序分類，且變量較多時(shí)，采用多維偏好分析更合適樣本量：對極端值敏感，分析時(shí)有必要去除頻數(shù)過少的單元格對于小樣本不推薦使用變量間關(guān)聯(lián)：不能將對應(yīng)分析作為篩選相關(guān)變量的方法，變量納入前最好先做卡方檢驗(yàn)2025年2月13日113最優(yōu)尺度變換許多時(shí)候我們所分析的變量并非連續(xù)性變量，如評分、等級等如果要按照連續(xù)變量來分析，則存在一個(gè)適當(dāng)量化的問題有時(shí)候雖然變量均為連續(xù)性，但變量間的關(guān)系并非簡單的線性，而現(xiàn)有的多元分析方法幾乎無一例外的是以線性關(guān)聯(lián)為基礎(chǔ)進(jìn)行分析的多個(gè)變量間的復(fù)雜聯(lián)系如何能夠簡單明了的表現(xiàn)出來？1142025年2月13日最優(yōu)尺度變換所謂最優(yōu)尺度變換的本質(zhì)，就是根據(jù)數(shù)據(jù)本身的關(guān)聯(lián)，尋找出最佳的原始變量評分方法，將原始變量一律轉(zhuǎn)化為相應(yīng)的分值，并在轉(zhuǎn)化時(shí)將變量間的關(guān)聯(lián)一律變換為線性，這樣就解決了以上問題可以同時(shí)分析多個(gè)分類變量間的關(guān)系，并同樣用圖形方式表示出來在變量種類上更加豐富，已可以處理各種類型的變量，如對無序多分類分析、有序多分類變量和連續(xù)性變量同時(shí)進(jìn)行分析的問題1152025年2月13日最優(yōu)尺度變換不能自動篩選變量，需要用戶根據(jù)經(jīng)驗(yàn)和分析結(jié)果進(jìn)行耐心篩選對樣本量要求較大，特別是對少數(shù)極端值和罕見類別頻數(shù)的變化非常敏感由于結(jié)果往往以圖形方式呈現(xiàn)，不加注意可能會得到完全錯(cuò)誤地分析結(jié)果所作的最優(yōu)尺度變換是基于數(shù)據(jù)本身而來，當(dāng)增減變量、或者對變量進(jìn)行變換后重新擬合時(shí)，相應(yīng)的結(jié)果可能完全不同1162025年2月13日最優(yōu)尺度變換Homogeneity(HOMALS)同質(zhì)性分析，即多重對應(yīng)分析以圖形化方式展示多個(gè)分類變量間的關(guān)系CategoricalPrincipalComponents(CatPCA)其實(shí)質(zhì)為分類變量的主成分分析當(dāng)一些變量為名義測量外的其它測量（有序分類或連續(xù)性變量）時(shí)使用也就是MR中常用的多維偏好分析NonlinearCanonicalCorrelation(OVERALS)非線性典型相關(guān)方法用于分析兩個(gè)或多個(gè)變量集之間的關(guān)系允許變量為任何類型2025年2月13日117案例數(shù)據(jù)集mcorres.sav提供了某次調(diào)查得來的轎車特征與一些用戶特征的數(shù)據(jù)，請分析汽車原產(chǎn)地（norigin）、汽車大?。╪size）、轎車類型（ntype）、是否租房（nhome）、有無雙份收入（nincome）、性別（nsex）、婚姻狀況（nmarit）之間的聯(lián)系如何2025年2月13日118注意事項(xiàng)由于算法不同，當(dāng)分析兩個(gè)變量時(shí)，結(jié)果不會等同于簡單對應(yīng)分析，但是基本相同不推薦同時(shí)分析過多變量必要時(shí)應(yīng)當(dāng)對頻數(shù)較少的類別加以合并或者剔除得到結(jié)果后應(yīng)當(dāng)和原始表格加以仔細(xì)對照，以確保分析結(jié)果的正確性2025年2月13日119多維尺度分析多維尺度分析簡介用于反映多個(gè)研究事物間的相似（不相似）程度通過詢問消費(fèi)者對各種品牌（或者概念）的相似程度評分，我們可以評價(jià)那些品牌在消費(fèi)者的心目中比較類似，而這些類似的品牌往往意味著市場定位重疊，即存在競爭關(guān)系但是，直接采用原始數(shù)據(jù)加以考察非常麻煩，數(shù)據(jù)太多，不容易得出一個(gè)綜合、全面的結(jié)論SPSS統(tǒng)計(jì)分析系列培訓(xùn)121多維尺度分析簡介同時(shí)所需的解釋空間維度太高，不容易閱讀通過適當(dāng)?shù)慕稻S方法，將這種相似（不相似）程度在低維度空間中用點(diǎn)與點(diǎn)之間的距離表示出來，并有可能幫助識別那些影響事物間相似性的潛在因素最常見情況是在二維空間中將結(jié)果表現(xiàn)出來SPSS統(tǒng)計(jì)分析系列培訓(xùn)122分析目的通過空間定位圖，研究者可以得知消費(fèi)者認(rèn)為哪些品牌的產(chǎn)品類似于我們的產(chǎn)品？在這些品牌中消費(fèi)者用于評價(jià)相似性的是哪些特征指標(biāo)（屬性）？SPSS統(tǒng)計(jì)分析系列培訓(xùn)123案例：城市航空距離數(shù)據(jù)distance.sav是筆者基于地圖測量的亞太地區(qū)9個(gè)城市的地面距離，請就此進(jìn)行多維尺度分析SPSS統(tǒng)計(jì)分析系列培訓(xùn)124空間圖（刺激匹配圖）哪些散點(diǎn)比較接近（相似），所有的散點(diǎn)大致被分為了幾類如果有可能，為每個(gè)維度找到一個(gè)合理的解釋尋找圖形散點(diǎn)間相關(guān)性的合理解釋SPSS統(tǒng)計(jì)分析系列培訓(xùn)125建模得到的地圖結(jié)果SPSS統(tǒng)計(jì)分析系列培訓(xùn)126建模得到的地圖結(jié)果SPSS統(tǒng)計(jì)分析系列培訓(xùn)127案例：飲料的口味差異評價(jià)數(shù)據(jù)文件為mds.sav，來自Schiffman，Reynolds和Young(1981)，里面包括了10位受訪者對常見的10種飲料的口感差異性評分，分值在0～100之間，數(shù)值越高表明差異越大。每位個(gè)體的數(shù)據(jù)形成了一個(gè)距離陣，十個(gè)距離陣被縱向疊加在一起請從中分析各種飲料的差異性，并進(jìn)一步尋求導(dǎo)致這種差異性的合理解釋SPSS統(tǒng)計(jì)分析系列培訓(xùn)128結(jié)果解釋散點(diǎn)分類：這十種飲料大致被分為了無糖飲料和普通飲料兩組維度解釋：第一維度代表的是飲料的健康程度第二維度代表的是飲料的風(fēng)味或者口感散點(diǎn)定位的合理解釋與建議在受訪者心目中，pepper的口感非常獨(dú)特，和其余飲料有著明顯的區(qū)別可口可樂與百事可樂的差異更多的是營銷活動所塑造出來的品牌形象，而在產(chǎn)品口感上這兩者實(shí)際是沒有本質(zhì)區(qū)別的SPSS統(tǒng)計(jì)分析系列培訓(xùn)129PROXSCAL過程ALSCAL提供的是比較經(jīng)典的5個(gè)分析模型，而PROXSCAL是使用了DataTheoryScalingSystemGroup(DTSS)的最優(yōu)化數(shù)據(jù)轉(zhuǎn)換的方法，提供了4個(gè)更高級的模型。兩個(gè)過程的分析結(jié)果不全相等，但是有對應(yīng)關(guān)系。原理和最優(yōu)尺度模型完全相同ALSCAL只能分析不相似性數(shù)據(jù)，而PROXSCAL對相似性數(shù)據(jù)或者不相似性數(shù)據(jù)都能進(jìn)行分析。提供了更加豐富的模型診斷、設(shè)置和結(jié)果輸出。SPSS統(tǒng)計(jì)分析系列培訓(xùn)130多維展開模型在MDS模型中，用于計(jì)算距離的各對象不存在分組，分析時(shí)直接考慮的是各對象兩兩間的距離遠(yuǎn)近在有的研究問題中，研究對象可能會被分為兩組，分析的核心目的是考察兩組對象之間的距離遠(yuǎn)近，而同一組內(nèi)各對象間的距離則并不在研究關(guān)心的范圍之內(nèi)，這時(shí)多維展開模型就是比較合適的選擇SPSS統(tǒng)計(jì)分析系列培訓(xùn)131多維展開模型數(shù)據(jù)排列格式仍然屬于距離陣格式，但是此時(shí)并非對稱距離陣，行變量和列變量并不相同，分別構(gòu)成了行變量組合列變量組SPSS統(tǒng)計(jì)分析系列培訓(xùn)132多維展開模型SPSS統(tǒng)計(jì)分析系列培訓(xùn)133聚類分析@文彤老師方法原理按照個(gè)體（記錄）的特征將它們分類，使同一類別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性，而類別之間則具有盡可能高的異質(zhì)性。為了得到比較合理的分類，首先要采用適當(dāng)?shù)闹笜?biāo)來定量地描述研究對象之間的聯(lián)系的緊密程度。直觀的理解為按空間距離的遠(yuǎn)近來劃分類別2025年2月13日@文彤老師135方法原理假定研究對象均用所謂的“點(diǎn)”來表示。在聚類分析中，一般的規(guī)則是將“距離”較小的點(diǎn)歸為同一類，將“距離”較大的點(diǎn)歸為不同的類。常見的是對個(gè)體分類，也可以對變量分類此時(shí)一般使用相似系數(shù)作為“距離”測量指標(biāo)2025年2月13日@文彤老師136方法原理例：根據(jù)年齡將人群分成適當(dāng)?shù)念?，從圖中可見，人群被分為兩類是比較合適的。2025年2月13日@文彤老師137方法原理在右圖中可以看到五個(gè)樣品應(yīng)當(dāng)可能被分為兩組或者三組，C/D組x和y的取值均偏低，而另三個(gè)所在組x和y的取值均偏高分為兩類或三類都是可接受的從圖中可以直觀的理解“距離”的含義2025年2月13日@文彤老師138方法原理當(dāng)用于聚類的變量逐漸增多時(shí)，分析思路完全相同，只是這樣簡單、清晰的圖示展現(xiàn)類別情況變得逐漸不大可能多維空間中的觀察可能的解決方法放棄圖示化觀察，改用復(fù)雜的統(tǒng)計(jì)指標(biāo)縮減維度，使得可以在低維度空間進(jìn)行呈現(xiàn)2025年2月13日@文彤老師139特點(diǎn)聚類分析前所有個(gè)體所屬的類別是未知的，類別個(gè)數(shù)一般也是未知的，分析的依據(jù)就是原始數(shù)據(jù)，可能事先沒有任何有關(guān)類別的信息可參考。嚴(yán)格說來聚類分析并不是純粹的統(tǒng)計(jì)技術(shù)，它不像其它多元分析法那樣，需要從樣本去推斷總體。一般都涉及不到有關(guān)統(tǒng)計(jì)量的分布，也不需要進(jìn)行顯著性檢驗(yàn)。聚類分析更像是一種建立假設(shè)的方法，而對相關(guān)假設(shè)的檢驗(yàn)還需要借助其它統(tǒng)計(jì)方法。@文彤老師1402025年2月13日用途設(shè)計(jì)抽樣方案分層抽樣預(yù)分析過程先通過聚類分析達(dá)到簡化數(shù)據(jù)的目的，將眾多的個(gè)體先聚集成比較好處理的幾個(gè)類別或子集，然后再進(jìn)行后續(xù)的多元分析。細(xì)分市場、個(gè)體消費(fèi)行為劃分先聚類，然后再利用判別分析進(jìn)一步研究各個(gè)群體之間的差異。2025年2月13日@文彤老師141聚類分析的基本步驟總結(jié)步驟1：確定研究問題選擇研究目的：分類描述；數(shù)據(jù)簡化；揭示相互聯(lián)系選擇分類變量步驟2：研究設(shè)計(jì)對個(gè)體聚類還是對變量聚類？分類變量是什么類型？選擇用“距離”還是“相似系數(shù)”？是哪一種？數(shù)據(jù)是否需要標(biāo)準(zhǔn)化？是否需要刪除奇異點(diǎn)？步驟3：考慮是否滿足基本的假定樣本對總體是否有代表性？聚類變量是否存在共線性？共線性是否足以影響結(jié)果？2025年2月13日@文彤老師142聚類分析的基本步驟總結(jié)步驟4：選擇聚類方法采用譜系聚類法、非譜系聚類法、還是兩者的結(jié)合？采用哪種具體的聚類方法？應(yīng)該聚成幾個(gè)類別？步驟5：解釋聚類分析的結(jié)果

考察類別的中心是否存在顯著的差異？觀察樹形圖和冰柱圖是否可以根據(jù)分類變量給各個(gè)類別命名？步驟6：評價(jià)聚類分析結(jié)果的有效性利用適當(dāng)?shù)慕Y(jié)果變量進(jìn)行評價(jià)；利用其它描述性的變量描述各個(gè)類別的輪廓。2025年2月13日@文彤老師143K-meansCluster過程屬于非系統(tǒng)聚類法的一種方法原理選擇（或人為指定）某些記錄作為凝聚點(diǎn)按就近原則將其余記錄向凝聚點(diǎn)凝集計(jì)算出各個(gè)初始分類的中心位置（均值）用計(jì)算出的中心位置重新進(jìn)行聚類如此反復(fù)循環(huán)，直到凝聚點(diǎn)位置收斂為止2025年2月13日@文彤老師144K-meansCluster過程方法特點(diǎn)要求已知類別數(shù)可人為指定初始位置節(jié)省運(yùn)算時(shí)間樣本量過大時(shí)有必要考慮只能使用連續(xù)性變量2025年2月13日@文彤老師145案例：移動通訊客戶細(xì)分telco.sav數(shù)據(jù)包含6個(gè)變量是客戶編號（Customer_ID）工作日上班時(shí)期電話時(shí)長（Peak_mins）工作日下班時(shí)期電話時(shí)長（OffPeak_mins）周末電話時(shí)長（Weekend_mins）國際電話時(shí)長（International_mins）總通話時(shí)長（Total_mins）平均每次通話時(shí)長（average_mins）根據(jù)前期的調(diào)研，研究者認(rèn)為移動用戶應(yīng)當(dāng)被分為5個(gè)主要群體，現(xiàn)希望得到相應(yīng)的定量聚類結(jié)果。2025年2月13日@文彤老師146聚類結(jié)果第一類：高端商用客戶，總通話時(shí)間長，工作日上班時(shí)間通話比例高第二類：少使用低端客戶，總通話時(shí)間短，各時(shí)段通話時(shí)間都短第三類：中端商用客戶，總通話時(shí)間居中，工作日上班時(shí)間通話比例高第四類：中端日常用客戶，總通話時(shí)間居中，工作日下班時(shí)間通話比例高第五類：長聊客戶，每次通話時(shí)間長2025年2月13日@文彤老師147HierarchicalCluster過程屬于系統(tǒng)聚類法的一種其聚類過程可以用樹形結(jié)構(gòu)(treelikestructure)來描繪的方法方法原理先將所有n個(gè)變量／觀測看成不同的n類然后將性質(zhì)最接近（距離最近）的兩類合并為一類再從這n-1類中找到最接近的兩類加以合并依此類推，直到所有的變量／觀測被合為一類使用者再根據(jù)具體的問題和聚類結(jié)果來決定應(yīng)當(dāng)分為幾類2025年2月13日@文彤老師148HierarchicalCluster過程特點(diǎn)一旦記錄/變量被劃定類別，其分類結(jié)果就不會再進(jìn)行更改可以對變量或記錄進(jìn)行聚類變量可以為連續(xù)或分類變量提供的距離測量方法非常豐富運(yùn)算速度較慢2025年2月13日@文彤老師149案例：體操裁判打分傾向聚類SPSS自帶數(shù)據(jù)集judges.sav是中、美、法等七個(gè)國家的裁判和未經(jīng)嚴(yán)格訓(xùn)練體育愛好者在評判體育比賽中對選手的評分情況。請根據(jù)在評分上的差異將它們分為適當(dāng)?shù)念?。樹狀圖的使用不同聚類結(jié)果的比較2025年2月13日@文彤老師150TwoStepCluster過程特點(diǎn)：處理對象：分類變量和連續(xù)變量自動決定最佳分類數(shù)快速處理大數(shù)據(jù)集前提假設(shè)：變量間彼此獨(dú)立分類變量服從多項(xiàng)分布，連續(xù)變量服從正態(tài)分布模型穩(wěn)健2025年2月13日@文彤老師151需要注意的問題距離測量方法使用默認(rèn)值即可變量選擇無關(guān)變量有時(shí)會引起嚴(yán)重的錯(cuò)分應(yīng)當(dāng)只引入在不同類間有顯著差別的變量盡量只使用相同類型的變量進(jìn)行分析使用連續(xù)變量，將分類變量用于結(jié)果解釋新的聚類方法可以同時(shí)使用這些變量2025年2月13日@文彤老師152需要注意的問題共線性問題對記錄聚類結(jié)果有較大的影響相當(dāng)于某個(gè)變量在聚類中的權(quán)重大于其它變量最好先進(jìn)行預(yù)處理變量的標(biāo)準(zhǔn)化變量量綱／變異程度相差非常大時(shí)需要進(jìn)行數(shù)理統(tǒng)計(jì)算法上要求一律標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化后會削弱有用變量的作用2025年2月13日@文彤老師153需要注意的問題異常值影響較大還沒有比較好的解決辦法盡力避免分類數(shù)從實(shí)用角度講，2～8類比較合適專業(yè)意義一定要結(jié)合專業(yè)知識進(jìn)行分析2025年2月13日@文彤老師154需要注意的問題其他方面聚類分析主要應(yīng)用于探索性的研究，其分析的結(jié)果可以提供多個(gè)可能的解，選擇最終的解需要研究者的主觀判斷和后續(xù)的分析聚類分析的解完全依賴于研究者所選擇的聚類變量，增加或刪除一些變量對最終的解都可能產(chǎn)生實(shí)質(zhì)性的影響不管實(shí)際數(shù)據(jù)中是否真正存在不同的類別，利用聚類分析都能得到分成若干類別的解2025年2月13日@文彤老師155總結(jié)內(nèi)容\方法TwoStepK-MeansHierarchical聚類對象記錄記錄記錄、變量變量類型連續(xù)變量、分類變量連續(xù)變量連續(xù)變量、分類變量樣本量大樣本(>1000)大樣本(>5000)小樣本(<1000)特點(diǎn)自動確定最佳分類數(shù)保存每個(gè)樣本到類中心的距離提供豐富的聚類方法和圖形2025年2月13日@文彤老師156判別分析@文彤老師判別分析概述判別分析的一般形式：y=a1x1+a2x2+……+anxn非常明確共有幾個(gè)類別目的是從已知樣本中訓(xùn)練出判別函數(shù)訓(xùn)練樣本必須由金標(biāo)準(zhǔn)確立分類用途對客戶進(jìn)行信用預(yù)測尋找潛在客戶2025年2月13日@文彤老師158常用判別方法最大似然法用于自變量均為分類變量的情況距離判別對新樣品求出他們離各個(gè)類別重心的距離遠(yuǎn)近適用于自變量均為連續(xù)變量的情況，對變量分布類型無嚴(yán)格要求2025年2月13日@文彤老師159常用判別方法Fisher判別法與主成份分析有關(guān)對分布、方差等都沒有什么限制Bayes判別計(jì)算該樣品落入各個(gè)子域的概率強(qiáng)項(xiàng)是進(jìn)行多類判別要求總體呈多元正態(tài)分布2025年2月13日@文彤老師160判別分析的適用條件各自變量為連續(xù)性或有序分類變量樣本來自一個(gè)多元正態(tài)總體該前提幾乎做不到各組的協(xié)方差矩陣相等類似與方差分析中的方差齊變量間獨(dú)立，無共線性違反條件影響也不大2025年2月13日@文彤老師161判別函數(shù)效果的驗(yàn)證方法自身驗(yàn)證外部數(shù)據(jù)驗(yàn)證樣本二分法交互驗(yàn)證（Cross-Validation）刀切法2025年2月13日@文彤老師162案例：鳶尾花數(shù)據(jù)Fisher在研究有關(guān)判別分析方法的時(shí)候所使用的資料，包含了剛毛、變色、弗吉尼亞這三種鳶尾花的花萼長、寬和花瓣長、寬，分析目的是希望能夠使用這4個(gè)變量來對花的種類進(jìn)行區(qū)分。標(biāo)化函數(shù)領(lǐng)域圖未標(biāo)化典型判別函數(shù)Bayes判別函數(shù)交互驗(yàn)證2025年2月13日@文彤老師163信度分析@文彤老師信度分析探索研究事物間的相似性用于評價(jià)問卷這種測量工具的穩(wěn)定性或可靠性，具體來說就是用問卷對同一事物進(jìn)行重復(fù)測量時(shí)，所得結(jié)果的一致性程度。內(nèi)在信度：調(diào)查表中的一組問題（或整個(gè)調(diào)查表）是否測量的是同一個(gè)概念，也就是這些問題之間的內(nèi)在一致性如何。外在信度：在不同時(shí)間進(jìn)行測量時(shí)調(diào)查表結(jié)果的一致性程度。最常用的外在信度指標(biāo)是重測信度，即用同一問卷在不同時(shí)間對同一對象進(jìn)行重復(fù)測量，然后計(jì)算一致程度。@文彤老師1652025年2月13日信度分析系數(shù)應(yīng)當(dāng)?shù)蕉啻蟛拍苷J(rèn)為該問卷信度較高沒有統(tǒng)一的標(biāo)準(zhǔn)，但根據(jù)多數(shù)學(xué)者的觀點(diǎn)，任何測驗(yàn)或量表的信度系數(shù)如果在0.9以上，則該測驗(yàn)或量表的信度甚佳；信度系數(shù)在0.8以上都是可接受的；如果在0.7以上，則該量表應(yīng)進(jìn)行較大修訂，但仍不失其價(jià)值；如果低于0.7，問卷的測量效果非常差！在大型量表中，往往一組問題用來集中測量某一方面的信息。此時(shí)信度分析應(yīng)當(dāng)按問題組來進(jìn)行，即測量同一信息的一組問題間信度如何，而不是直接測量整個(gè)量表的信度。2025年2月13日@文彤老師166案例：問卷信度分析數(shù)據(jù)item.sav記錄了某問卷測量的數(shù)據(jù)，該問卷共有10道題目，均為9分量表，高分?jǐn)?shù)代表同意此觀點(diǎn)，共測量了100人?，F(xiàn)希望考察該問卷的信度究竟如何。Scaleifitemdeleted2025年2月13日@文彤老師167時(shí)間序列模型@文彤老師時(shí)間序列模型簡介依時(shí)間順序排列起來的一系列觀測值觀測值之間不獨(dú)立它考慮的不是變量間的因果關(guān)系，而是重點(diǎn)考察變量在時(shí)間方面的發(fā)展變化規(guī)律，并為之建立數(shù)學(xué)模型使用時(shí)間序列模型的前提有足夠長的數(shù)據(jù)序列數(shù)據(jù)序列的變動是穩(wěn)定而規(guī)律的2025年2月13日@文彤老師169方法分類Timedomain：將時(shí)間序列看成是過去一些點(diǎn)的函數(shù)，或者認(rèn)為序列具有隨時(shí)間系統(tǒng)變化的趨勢，它可以用不多的參數(shù)來加以描述，或者說可以通過差分、周期等還原成隨機(jī)序列。Frequencydomain：認(rèn)為時(shí)間序列是由數(shù)個(gè)正弦波成份疊加而成，當(dāng)序列的確來自一些周期函數(shù)集合時(shí)，該方法特別有用。2025年2月13日@文彤老師170時(shí)間序列的構(gòu)成長期趨勢指一種長期的變化趨勢。它采取一種全局的視角，不考慮序列局部的波動中國的GDP呈現(xiàn)一種上升的長期趨勢季節(jié)變化(Season)反映一種周期性的變化一般在一年中完成雖然稱作“季節(jié)”，但是周期并不一定是季度，也可以是月、周等其它能在一年內(nèi)完成的周期。因?yàn)?，大多?shù)的周期都以季節(jié)的形式出現(xiàn)，所以稱作季節(jié)變化。圣誕節(jié)效應(yīng)冷飲的銷售情況2025年2月13日@文彤老師171時(shí)間序列的構(gòu)成循環(huán)變化(Cyclic)指一種較長時(shí)間的周期變化。一般來說循環(huán)時(shí)間為2－15年。循環(huán)變化一般會出現(xiàn)波峰和波谷，呈現(xiàn)一種循環(huán)往復(fù)的現(xiàn)象。經(jīng)濟(jì)危機(jī)不規(guī)則變化(error)指時(shí)間序列中無法預(yù)計(jì)的部分

序列的隨機(jī)波動

突發(fā)事件引起的

它是無法預(yù)測的

在分析中往往又將其稱為白噪聲2025年2月13日@文彤老師172時(shí)間序列的構(gòu)成并不是每個(gè)序列都包含所有4種成分。比如以年為時(shí)間單位的序列就不會有季節(jié)變化；一些較短的序列也看不出循環(huán)變化。所以在分析的時(shí)候得具體情況具體分析。2025年2月13日@文彤老師173時(shí)間序列分析面臨的問題基礎(chǔ)統(tǒng)計(jì)數(shù)據(jù)報(bào)表系統(tǒng)——質(zhì)量統(tǒng)計(jì)口徑——不統(tǒng)一范圍變化、區(qū)域劃分——變化理論和技術(shù)培訓(xùn)@文彤老師1742025年2月13日時(shí)間序列分析對長度的要求不同的序列分析方法差分歷史數(shù)據(jù)越多，對預(yù)測的幫助越大如果存在周期，一般需要4個(gè)周期以上有人認(rèn)為應(yīng)當(dāng)在20個(gè)周期以上2025年2月13日@文彤老師175SPSS中涉及的功能預(yù)處理模塊用于填充序列缺失值的ReplaceMissingValues過程建立時(shí)間變量的Definedates過程將序列平穩(wěn)化的CreateTimeSeries過程。圖形化觀察／分析模塊時(shí)間序列在分析中高度依賴圖形序列圖(SequenceChart)自相關(guān)／偏相關(guān)圖(AutocorrelationFunction,ACF&PartialAutocorrelationFunction,PACF)交叉相關(guān)圖（Cross-correlationFunction,CCF）、周期圖(Periodogram)和譜密度圖（SpectralChart）2025年2月13日@文彤老師176SPSS中涉及的功能分析模塊指數(shù)平滑法（ExponentialSmoothing）自回歸線性模型（Autoregressivemodel）ARIMA模型季節(jié)解構(gòu)（SeasonalDecomposition）軟件的基本趨勢是越來越高度自動化：當(dāng)然是以足夠多的數(shù)據(jù)量為前提從14版之后開始引入自動建模功能2025年2月13日@文彤老師177時(shí)間序列問題的基本分析思路平滑與季節(jié)分解用移動平均的方式消除波動，反映出主要的趨勢回歸模型根據(jù)歷史數(shù)據(jù)建立相應(yīng)的回歸模型用于預(yù)測ARIMA真正的時(shí)間序列模型建模分析方法2025年2月13日@文彤老師178平滑與季節(jié)分解是利用時(shí)間序列資料進(jìn)行短期預(yù)測的一種方法。它的基本思想是：除去一些不規(guī)則變化后，時(shí)間序列將剩下一些基本的變化模式，而這種變化模式將延續(xù)到將來。平滑的主要目的就是除去時(shí)間序列的不規(guī)則變化，把時(shí)間序列的基本變化模式突現(xiàn)出來，作為短期預(yù)測的基礎(chǔ)。因此也有人把平滑稱作“修勻”2025年2月13日@文彤老師179平滑與季節(jié)分解平滑的方法很多。廣義上說，可以認(rèn)為回歸也是一種平滑。因?yàn)閿M合回歸曲線可以把雜亂的觀測數(shù)據(jù)修勻得到連續(xù)而光滑的曲線。移動平均和移動中位數(shù)等這些不同的平滑技術(shù)又被稱為平滑器。平滑處理后，可以得到一些新的序列。不同的平滑器得到的新序列是不同的。選擇合適的平滑器，尋求最佳的預(yù)測效果是平滑處理的關(guān)鍵。2025年2月13日@文彤老師180案例：NRC數(shù)據(jù)的建模預(yù)測美國1947年1月到1969年12月住宅建筑的數(shù)據(jù)，分析目的是希望能過通過歷史數(shù)據(jù)來預(yù)測1970年全年的情況。

Nrc.sav2025年2月13日@文彤老師181時(shí)間序列模型簡介預(yù)處理過程缺失值的填補(bǔ)時(shí)間變量的定義時(shí)間序列的平穩(wěn)化一次差分季節(jié)差分2025年2月13日@文彤老師182時(shí)間序列模型簡介時(shí)間序列趨勢的圖形化觀察SequenceChart：序列圖實(shí)際上就是一種特殊的線圖AutocorrelationChart：做單個(gè)序列，任意滯后（包括負(fù)的滯后，也就是超前）的自相關(guān)和偏相關(guān)圖對序列圖的初步觀察結(jié)果作進(jìn)一步確認(rèn)重點(diǎn)關(guān)心主要的相關(guān)趨勢，然后再對模型進(jìn)一步修正2025年2月13日@文彤老師183時(shí)間序列模型簡介時(shí)間序列趨勢的圖形化觀察AutocorrelationChart自相關(guān)圖：自回歸系數(shù)的變化偏相關(guān)圖：偏回歸系數(shù)的變化2025年2月13日@文彤老師184時(shí)間序列模型簡介模型擬合幾乎均可包含在ARIMA模型族中ARIMA（1,1,1）*（0,1,1）12尋找適當(dāng)?shù)膮?shù)是一個(gè)反復(fù)嘗試的過程預(yù)測近期預(yù)測效果較好一般預(yù)測范圍不要超過2個(gè)周期放大局部便于觀察2025年2月13日@文彤老師1852025年2月13日@文彤老師186生存分析@文彤老師生存分析的用途職員在公司任職的時(shí)間產(chǎn)品的壽命晉升所需時(shí)間客戶忠誠度研究2025年2月13日@文彤老師188傳統(tǒng)方法在分析隨訪資料時(shí)的困難時(shí)間和生存結(jié)局都成為了要關(guān)心的因素除了生存結(jié)局作為判定標(biāo)準(zhǔn)以外，只要能讓病人存活時(shí)間延長，這種藥物也應(yīng)當(dāng)是被認(rèn)為有效的。即時(shí)間延長也認(rèn)為有效如果將兩者均作為因變量擬和多元模型，則時(shí)間分布不明（肯定不呈正態(tài)分布，在不同情況下的分布規(guī)律也不同），擬和多元模型極為困難2025年2月13日@文彤老師189傳統(tǒng)方法在分析隨訪資料時(shí)的困難存在大量失訪失去聯(lián)系（病人搬走，電話號碼改變）

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

教學(xué)課件-SPSS統(tǒng)計(jì)分析高級教程(第2版)-張文彤

文檔簡介

溫馨提示

最新文檔

評論

教學(xué)課件-SPSS統(tǒng)計(jì)分析高級教程(第2版)-張文彤

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔