版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
描述性分析
眾數(shù)(mode)是指在一組密集數(shù)值中出現(xiàn)次數(shù)最多的數(shù)值。當數(shù)據(jù)未分組時,出現(xiàn)次數(shù)最多的變量值即為眾數(shù);當數(shù)據(jù)為等距的分組資料時,眾數(shù)就在頻數(shù)最多的那一組里。從分布的角度看,眾數(shù)是具有明顯集中趨勢點的數(shù)值,一個數(shù)據(jù)分布的最高峰點所對應的數(shù)值即為眾數(shù)。當然,如果數(shù)據(jù)的分布沒有明顯的趨勢或者最高峰點,眾數(shù)也可能不存在;如果有兩個最高峰點,也可以有兩個眾數(shù)。眾數(shù)是一個位置代表值,它不受數(shù)據(jù)中極端值的影響。
中位數(shù)(media)是一組數(shù)據(jù)從小到大排序后,處于中間位置上的變量值。中位數(shù)是一個位置代表值,它主要用于測量定序數(shù)據(jù)的集中趨勢程度,當然也適用于定距數(shù)據(jù)和定比數(shù)據(jù),但不適用于定類數(shù)據(jù)。
例2-1
例2-2
計算分組數(shù)據(jù)中位數(shù)時,假定中位數(shù)所在組的頻數(shù)在該組內(nèi)是均勻分布的。由于中位數(shù)是個位置代表值,其數(shù)值的大小不受極大值和極小值的影響,因此中位數(shù)具有穩(wěn)健性或耐抗性的特點。四分位數(shù)
例2-3
均值(mean)也成為算術(shù)平均值(arithmeticmean),是全部數(shù)據(jù)的算術(shù)平均值,是集中趨勢的最主要的測量值。根據(jù)所掌握的數(shù)據(jù)不同,均值有不同的計算形式和計算公式。
例2-5
均值、中位數(shù)和眾數(shù)的比較均值利用了全部數(shù)據(jù)信息,是實際中應用最廣泛的集中趨勢測量值。用同性質(zhì)及同重復性的數(shù)值所求得的平均數(shù)更具有代表性。當數(shù)據(jù)呈對稱分布或接近對稱分布時,均值最為適合。但是均值的缺點是易受數(shù)據(jù)極端值的影響,對于偏態(tài)分布的數(shù)據(jù),均值代表性較差,應選擇眾數(shù)或中位數(shù)等位置變量,這時它們的代表性要比均值好。中位數(shù)為全體數(shù)值之中心,是一組數(shù)據(jù)中間位置上的代表值,是位置變量,不受兩端數(shù)值大小變化的影響。中位數(shù)主要適合作為定序數(shù)據(jù)的集中趨勢測度值。眾數(shù)是一組數(shù)據(jù)分布的峰值,它是一種位置代表值,不受極端值的影響,僅適合作為一組密集數(shù)據(jù)之代表值使用。其缺點是具有不唯一性,在一組數(shù)據(jù)中可能存在多個眾數(shù),也可能不存在眾數(shù)。眾數(shù)主要適合作為定類數(shù)據(jù)的集中趨勢測度值。本章結(jié)構(gòu)數(shù)據(jù)的集中趨勢分析1.數(shù)據(jù)的離散趨勢分析2.數(shù)據(jù)分布的偏度與峰度3.描述性分析的應用及SPSS軟件操作4.極差極差(range)是一組數(shù)值數(shù)據(jù)中最大值與最小值之間的差距。極差的優(yōu)點是數(shù)值集中時可以清楚表達離散程度。但是極差的計算只采用首尾兩端的數(shù)值,忽視了中間數(shù)值的變動,所以只能粗略說明資料分布的離散程度,難以顯示全體數(shù)據(jù)的變異性,這時它的缺點。四分位差
例2-6
表2-6為一餐館對顧客用餐時間的統(tǒng)計。
標準差:例2-7
標準差
例2-8
方差或標準差是根據(jù)全部數(shù)據(jù)計算的,它反映了每個數(shù)據(jù)與其均值相比平均相差的數(shù)值,因此它能準確地反映出數(shù)據(jù)的離散程度。方差和標準差是實際中應用最為廣泛的離散程度測度值,但它易受數(shù)據(jù)中極端值的影響,一般用于數(shù)值數(shù)據(jù)離散程度的測度。本章結(jié)構(gòu)數(shù)據(jù)的集中趨勢分析1.數(shù)據(jù)的離散趨勢分析2.數(shù)據(jù)分布的偏度與峰度3.描述性分析的應用及SPSS軟件操作4.偏度
峰度
本章結(jié)構(gòu)數(shù)據(jù)的集中趨勢分析1.數(shù)據(jù)的離散趨勢分析2.數(shù)據(jù)分布的偏度與峰度3.描述性分析的應用及SPSS軟件操作4.
數(shù)據(jù)估計與檢驗
參數(shù)估計概述
估計量的優(yōu)良性標準
本章結(jié)構(gòu)參數(shù)估計1.參數(shù)檢驗2.非參數(shù)檢驗3.假設檢驗(hypothesistesting)概述
假設檢驗的錯誤類型
顯著性水平
檢定力
檢驗統(tǒng)計量
P值P值(P-value)是根據(jù)檢驗統(tǒng)計量在原假設之下抽出的樣本數(shù)據(jù)所決定的拒絕域計算出概率值,在原假設的所有可能參數(shù)中,用來拒絕原假設的拒絕域的最小顯著性水平。意思是說在原假設之下,由母群體中隨機抽取樣本,利用樣本數(shù)據(jù)計算出檢驗統(tǒng)計量的值,并由該值來決定拒絕域,所有可能樣本值落在這個拒絕域的百分比就是P值。舉例說明假設檢驗的程序及其意義:例3-1
案例分析:例3-2
例3-3
例3-4
例3-5
例3-6
t檢驗
例3-7
方差檢驗
例3-8
本章結(jié)構(gòu)參數(shù)估計1.參數(shù)檢驗2.非參數(shù)檢驗3.
Cochran檢驗
例3-9
例3-10
在某公司員工滿意度調(diào)查中有一多選題是這樣的:您可能離開這家公司的原因是什么(見表3-3)?
問:受訪者對8個選項的勾選是否有差異?
符號檢驗(signtest):例3-11
(2)輸入要進行檢驗的變量,然后在“割點”中選“中位數(shù)”,點擊“確定”,如圖3-10所示。
隨機性游程檢驗
游程檢驗(runtest)方法是檢驗一個變量取兩個值時這兩個值的出現(xiàn)是不是隨機的。比如一個由0和1組成的這種變量的樣本:000110011011010101101如果這個樣本是隨機的,則不大可能出現(xiàn)許多1或許多0連在一起的現(xiàn)象,也不會出現(xiàn)0和1交替出現(xiàn)太過頻繁的現(xiàn)象。當然,在實際問題中,不一定都遇到只有0或1所代表的二元數(shù)據(jù),但是可以把它轉(zhuǎn)換成二元數(shù)據(jù)來分析。例3-12
(2)輸入要進行檢驗的變量,然后在“割點”中選“中位數(shù)”,點擊“確定”,如圖3-10所示。
McNemar檢驗:例3-13
(2)輸入要進行檢驗的變量,然后在“檢驗類型”中選“McNemar”,點擊“確定”,如圖3-13所示。
中位數(shù)檢驗(mediantest):例3-14
(2)在“檢驗變量列表”中輸入要進行檢驗的變量,然后在“分組變量”中選分類變量,點擊“確定”,如圖3-15所示。
WilcoxonSigned-Ranks檢驗:例3-15
香煙電視廣告(成對數(shù)據(jù))。香煙公司對某消費者小組作兩次調(diào)查,借以了解消費者對電視廣告的反應。在觀看電視廣告前后的兩次調(diào)查中,給以評估分數(shù),以了解消費者對該公司香煙品牌的評價有無轉(zhuǎn)變的可能。結(jié)果如表3-7所示。
(2)輸入要進行檢驗的變量,然后在“檢驗類型”中選“Wilcoxon”,點擊“確定”,如圖3-18所示。
Mann-Whitney檢驗:例3-16
(2)在“檢驗變量列表”中輸入要進行檢驗的變量,然后在“分組變量”中選擇分類變量。在“檢驗類型”中選擇“Mann-WhitneyU”,點擊“確認”,如圖3-21所示。
(3)檢驗結(jié)果如圖3-22、圖3-23所示。
可見,不同收入階層對該產(chǎn)品的反應與評估無明顯差異。
相關(guān)性分析
相關(guān)分析是研究事物或現(xiàn)象之間是否有關(guān)系以及關(guān)系密切程度的數(shù)據(jù)分析方法。比如,父親的身高與成年孩子的身高之間是否存在關(guān)系,以及廣告的收視率與產(chǎn)品銷量之間存在怎樣的關(guān)系,等等。關(guān)系的分類事物(或現(xiàn)象)之間存在的關(guān)系可以分為函數(shù)關(guān)系與統(tǒng)計關(guān)系。函數(shù)關(guān)系反映現(xiàn)象之間存在著的嚴格依存關(guān)系,這種關(guān)系可以用一個確定的數(shù)學表達式來表示,比如銷售商品數(shù)量與銷售額之間的關(guān)系,由于存在價格這個因素,它們兩者之間有確定的函數(shù)關(guān)系,我們在后面用回歸分析的方法來確定這樣的函數(shù)關(guān)系。
相關(guān)關(guān)系的分類1.正相關(guān)及負相關(guān)
兩個連續(xù)變量之間的相關(guān)可能為正相關(guān)或者負相關(guān),當兩個變量呈正相關(guān)時,一個變量的高數(shù)值更多地對應另一個變量的高數(shù)值,而低數(shù)值則對應另一個變量的低數(shù)值,這時兩個現(xiàn)象變化方向一致;負相關(guān)則相反,一個變量的高數(shù)值更多地與另一個變量的低數(shù)值對應,而它的低數(shù)值與另一個變量的高數(shù)值對應,這時兩個現(xiàn)象的變化方向相反,如圖4-1所示。例:表4-1為某校高三學生數(shù)學成績與物理成績的分布表。我們將表4-1中分組的組均值作代表畫成分布圖,如圖4-2所示,用來表示變量之間相關(guān)的意義。
2.線性相關(guān)及非線性相關(guān)
統(tǒng)計關(guān)系分為線性相關(guān)和非線性相關(guān)關(guān)系,線性相關(guān)又可分為正線性相關(guān)和負線性相關(guān)。兩個因素之間的相關(guān)關(guān)系成為單相關(guān),即只涉及一個自變量和一個因變量;兩個或兩個以上因素的相關(guān)關(guān)系成為復相關(guān)或多元相關(guān),即涉及兩個或兩個以上自變量和因變量,如研究一個地區(qū)的商業(yè)投資額與該地區(qū)的經(jīng)濟增長率和該地區(qū)游客增長率的關(guān)系。在實際工作中,如果存在多個自變量,可抓住其中主要的自變量,研究其相關(guān)關(guān)系,而保持另一些因素不變,這時復相關(guān)轉(zhuǎn)化為偏相關(guān)。相關(guān)分析的度量手段1.圖形和數(shù)值
在研究實際問題時,我們通常用圖形和數(shù)值兩種方式來體現(xiàn)變量之間的關(guān)系強弱,繪制散點圖是非常直觀的分析方式。將兩個變量作為直角坐標軸,數(shù)據(jù)以點的方式散布在二維平面上,點越分散,則表示兩變量相關(guān)性越低,點的趨勢走向也決定了兩變量是正相關(guān)還是負相關(guān)。SPSS中給出了簡單散點圖(Simple)、重疊散點圖(Overlay)、矩陣散點圖(Matrix)和三維散點圖(3-D)4種選擇。本章涉及的例子都是簡單散點圖,操作步驟如下:
(2)選擇“簡單分布”,再單擊“定義”按鈕對散點圖作具體定義。(3)將需要研究的兩個變量分別輸入散點圖的橫坐標和縱坐標。(4)可以把作為分組的變量指定到“設置標記”框中,表示該變量的不同取值可以將樣本數(shù)據(jù)分為若干組,并在一張圖上分別以不同顏色繪制散點圖,該項可以省略。(5)把標記變量指定到“標注個案”框中,表示把標記變量的各種變量值標記在散點圖相應點的旁邊,該項可以省略。(6)完成設置后,單擊“確定”即可。形成的散點圖如圖4-4及圖4-5所示。
相關(guān)分析的步驟(1)判斷社會經(jīng)濟現(xiàn)象之間是否存在相互依存的關(guān)系,是直線相關(guān),還是曲線相關(guān),這是相關(guān)分析的出發(fā)點。
(2)確定相關(guān)關(guān)系的密切程度。
(3)測定兩個變量之間的一般關(guān)系值。
(4)測定因變量估計值和實際值之間的差異,用以反映因變量估計值的可靠程度。
(5)相關(guān)系數(shù)的顯著性檢驗。本章結(jié)構(gòu)相關(guān)分析的SPSS軟件操作范例5.相關(guān)分析2.偏相關(guān)分析3.關(guān)聯(lián)規(guī)則4.相關(guān)分析概述1.簡單相關(guān)分析我們先來看一個例子:為考察某地區(qū)的商業(yè)投資額與當?shù)氐挠慰驮鲩L率之間是否存在關(guān)系,我們采集了商業(yè)投資額和游客增長率的數(shù)據(jù)。這兩個變量都是定距型變量,所謂定距型變量,又稱間隔(interval)變量,它的取值之間可以比較大小,可以用加減法計算出差異的大小。定距數(shù)據(jù)的基本特點是兩個相間間隔的數(shù)值的差異相等,對于這樣的定距數(shù)據(jù)我們可以利用簡單相關(guān)分析,直接計算出它們的簡單相關(guān)分析,并且檢驗相關(guān)關(guān)系的顯著性。SPSS中可以計算Pearson簡單相關(guān)系數(shù),公式如下:
對應的散點圖如圖4-7所示。復相關(guān)分析
計算和檢驗出的結(jié)果如表4-3和表4-4所示,調(diào)整后的復相關(guān)系數(shù)為0.875,表示兩個自變量可以解釋87.5%的因變量方差。檢驗的雙側(cè)P值為0.000明顯小于默認的顯著性水平0.05,所以我們認為該回歸方程顯著,即復相關(guān)系數(shù)檢驗是顯著的。等級相關(guān)分析我們在研究現(xiàn)象相關(guān)時還會遇到定序變量,它的取值大小能夠表示觀測對象的某種順序關(guān)系(等級、方位或大小等)。例如在研究企業(yè)員工的文化程度和工作業(yè)績相關(guān)程度時,兩個變量都是定序變量:文化程度分為1——大學及以上,2——中學,3——小學及以下,由小到大的取值能夠代表文化程度由高到低。工作業(yè)績分為1——一般,2——較好,3——很好。定序變量的取值稱為定序數(shù)據(jù)或有序數(shù)據(jù)。
其他相關(guān)分析
例4-1
例4-2
需要注意的是,當眾數(shù)出現(xiàn)在同一行或同一列時,Lambda系數(shù)可能會出現(xiàn)錯誤信息,必須進一步修正,如下例。例4-3
例4-4
例4-5
例4-6
例4-7
本章結(jié)構(gòu)相關(guān)分析的SPSS軟件操作范例5.相關(guān)分析2.偏相關(guān)分析3.關(guān)聯(lián)規(guī)則4.相關(guān)分析概述1.偏相關(guān)系數(shù)
我們在研究兩個現(xiàn)象之間的相關(guān)關(guān)系時,往往計算它們之間的相關(guān)系數(shù)來衡量其密切程度,但實際上兩現(xiàn)象之間的聯(lián)系往往還包含了其他因素的影響。例如在研究土地質(zhì)量、施肥量和產(chǎn)量之間的關(guān)系時,產(chǎn)量和土地質(zhì)量之間的相關(guān)關(guān)系還包括施肥量對產(chǎn)量的影響,因為施肥量也會對土地質(zhì)量產(chǎn)生影響,它們并不是無關(guān)的。這時單純利用相關(guān)系數(shù)來評價變量之間的相關(guān)性是不準確的,需要在剔除其他相關(guān)因素影響的條件下計算變量之間的相關(guān)關(guān)系。
偏相關(guān)研究的就是在控制其他變量的線性影響條件下分析兩變量間的線性相關(guān),采用的工具是偏相關(guān)系數(shù)。當控制變量個數(shù)為1時,偏相關(guān)系數(shù)稱為一階偏相關(guān);當控制兩個變量時,偏相關(guān)系數(shù)稱為二階偏相關(guān);當控制變量的個數(shù)為零時,偏相關(guān)系數(shù)也就是說相關(guān)系數(shù)。
在簡單相關(guān)分析的例子中,我們計算了商業(yè)投資額和游客增長率之間的相關(guān)關(guān)系,簡單相關(guān)系數(shù)為0.791,比較大。同樣可以計算商業(yè)投資額與經(jīng)濟增長率的簡單相關(guān)系數(shù),計算出來的是0.644,也比較大。但是如果加入游客增長率作為控制變量,使其不變來研究原來二者的相關(guān)性,就會發(fā)現(xiàn),它們的偏相關(guān)系數(shù)只有0.083,實際上的相關(guān)程度相當?shù)?。在多元分析中,有時簡單相關(guān)系數(shù)與偏相關(guān)系數(shù)差異很大,根據(jù)偏相關(guān)系數(shù)可以判斷哪些自變量對因變量的影響較大,而不是依據(jù)簡單相關(guān)系數(shù)。在這里,表面上經(jīng)濟增長率與商業(yè)投資額相關(guān)程度很高,是由于簡單相關(guān)系數(shù)包含了游客增長率對經(jīng)濟增長率的影響,而去掉游客增長率的影響之后才是經(jīng)濟增長率真實的貢獻。偏相關(guān)系數(shù)檢驗
對商業(yè)投資額與地區(qū)的經(jīng)濟增長率進行相關(guān)分析,可以發(fā)現(xiàn)它們顯著相關(guān),簡單相關(guān)系數(shù)達0.644,并且相關(guān)性檢驗顯著,如表4-15所示。
本章結(jié)構(gòu)相關(guān)分析的SPSS軟件操作范例5.相關(guān)分析2.偏相關(guān)分析3.關(guān)聯(lián)規(guī)則4.相關(guān)分析概述1.關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是由R.阿格拉沃爾(R.Agrawal)等人于1993年提出的,它反映了一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個和多個事物檢存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個事物就能夠通過其他事物預測到。在一些網(wǎng)上商店中我們經(jīng)常會看到這樣的字眼:“購買了此商品的客戶還購買了……”其實這就是關(guān)聯(lián)規(guī)則的一個應用。關(guān)聯(lián)規(guī)則的應用目前關(guān)聯(lián)規(guī)則主要應用在商業(yè)數(shù)據(jù)庫中,包括商品分類設計、降價經(jīng)銷分析、生產(chǎn)安排、貨架擺放策略等,其中最典型的例子即使購物籃(marketbasket)分析。為了理解購物籃分析,我們可以先看看那個塞滿從超級市場買來東西的“籃子”。這個購物籃中包含了一些的商品——橙汁、香蕉、蘇打飲料、玻璃清潔劑和去污劑……它告訴我們一個消費者都買了什么。單一購物籃只能告訴我們個別消費者的習慣,但是許多購物籃則能告訴我們整體的消費行為。然而,消費者還是有個人的偏好,每個人會在不同時間,購買不等數(shù)量的不同商品。購物籃讓我們有機會從他們買什么分析出他們是誰和他們?yōu)槭裁催@樣買;同時也讓我們知道哪些商品會被一起購買,并且據(jù)此修正我們的促銷計劃。這些情報具有實用性:它可以幫助我們布置商場、決定特價商品和決定何時贈送折價券。購物籃分析之關(guān)聯(lián)規(guī)則包含有效的商業(yè)情報。比如,消費者通常同時購買尿布和啤酒的例子告訴我們:年輕夫婦通常在周末晚上準備好度周末所需的物品,尿布給嬰兒、啤酒給丈夫(或者以刻板印象的角度來假設,我們可以很直接地聯(lián)想到啤酒是為了周日晚間的足球賽準備的)。對老板而言,這有比解釋原因更好地作用:怎么賣?將尿布和啤酒放在一起,可以大大地提高利潤。因為規(guī)則易懂、原因合理,所以人人都可以自行推演策略:將其他嬰兒用品和啤酒放在一起,另外,也可以將配啤酒的零食陳列在鄰近的貨架上。
“明顯的結(jié)果”是該行業(yè)老手早就知道的事,第二個例子正是如此。事實上,我們知道顧客會在購買大型家電的同時簽訂維修協(xié)議。因為維修協(xié)議通常是和大筆采購配套提供的,幾乎不可能獨立購買,這項規(guī)則是從西爾斯公司(Sears)的交易數(shù)據(jù)中發(fā)現(xiàn)的,雖然它是正確的,而且也有充分的數(shù)據(jù)佐證,但它卻是無用的。相似的例子還有,消費者會同時購買三合板和釘子、油漆和油漆刷、食用油和濾油器、漢堡肉和漢堡包、燧石和打火機油。
還有一些規(guī)則是要費點腦筋才能發(fā)現(xiàn)的:一個看起來有價值的結(jié)果,事實上卻不具有任何商業(yè)價值。例如,三方通話幾乎都有插播功能,但事實上,造成這樣的結(jié)果是因為電信公司通常將兩者配套販賣。因此,在這種情況下,分析所產(chǎn)生的結(jié)果就無法轉(zhuǎn)化為市場的營銷行動,而只是告訴我們已經(jīng)執(zhí)行的結(jié)果。雖然所有的數(shù)據(jù)挖掘技術(shù)都有同樣地問題,但是購物籃分析卻最為嚴重,因為它和成功決策所使用的數(shù)據(jù)來源相同。購物籃分析的結(jié)果很可能只是先前成功促銷活動的成果評估。
“無法解釋的結(jié)果”即結(jié)果看起來沒有合理解釋,而且難以運用在決策行為上。一些例子缺失告訴了我們一項新事實,但是卻沒有辦法告訴我們原因或應對之道,比如沒辦法了解消費者行為模式的細節(jié),或者提出相對的營銷活動。例如,促銷期間有許多物品都在特價銷售,但是卻只有馬桶蓋賣的最好。在進一步的調(diào)查之后,我們也許會有些發(fā)現(xiàn):是否馬桶蓋的折扣較多?是否它們只有在促銷時才放在比較顯眼的位置?無論如何,單靠購物籃分析很難找出原因。舉例
購物籃分析從一筆交易所包含的單一或更多產(chǎn)品、服務和一些早期信息開始分析。為了便于分析,我們將產(chǎn)品和服務都稱為對象(items)。表4-17中所列的是五種貨品在一個雜貨店的五筆交易中的分布情況。
這些交易可以告訴我們,哪一項產(chǎn)品會和哪一項產(chǎn)品一起賣出。采用這些資料,制出一個交叉表以顯示某一組商品有多少次被一起購買,如表4-18所示。
這張表格可以告訴我們兩個商品一起賣出的次數(shù)。舉例來說,在橙汁和蘇打飲料交會的一格例就是兩者一起賣出的次數(shù)??梢院茌p易地從原始數(shù)據(jù)中查出是顧客1和顧客4同時買這兩樣東西。對角線的字段顯示的是包含該單項物品的交易數(shù)。
這個交叉表包含了一些簡單的模式:
(1)橙汁和蘇打飲料比其他任何兩樣東西都更可能被一起購買;
(2)去污劑從來沒有跟玻璃清潔劑和牛奶被一起購買;
(3)牛奶從未跟蘇打飲料和去污劑一起出現(xiàn)。
這些都是對于關(guān)聯(lián)的直接觀察,同時可以提供一條規(guī)律:如果消費者購買了蘇打飲料,那么他就可能購買橙汁。現(xiàn)在,我們先不去討論如何自動地找出這條規(guī)律,而是先問一個問題:這條規(guī)律可以做到多好?
在全體數(shù)據(jù)中,五筆交易中有兩筆同時包含了蘇打飲料和橙汁,即這兩筆交易符合這項推論;另一種表現(xiàn)方式是百分比,符合的比例是2/5或40%。
事實上,每筆有蘇打飲料的交易,必然有橙汁,所以,“如有蘇打飲料,必有橙汁”有100%的準確率。但是如果陳述反過來,變成“如有橙汁,必有蘇打飲料”,則就不那么準確了,因為在有橙汁的四筆交易中,僅有兩筆同時包括蘇打飲料。更正式一點來說,準確指的就是交易中符合陳述和陳述中條件句的交易所占的比例。另一種方式是,兩種商品都包含的交易數(shù)和包含“如有”那一句中的商品的交易數(shù)所占的比例。
交叉表背后的概念可以發(fā)展成任何數(shù)量的交易加上任何數(shù)量的商品,而不僅僅是兩件最容易被一起購買的商品。
本章結(jié)構(gòu)相關(guān)分析的SPSS軟件操作范例5.相關(guān)分析2.偏相關(guān)分析3.關(guān)聯(lián)規(guī)則4.相關(guān)分析概述1.我們要研究恩格爾系數(shù)年人均可支配收入,年人均消費性支出二者之間究竟有怎樣的關(guān)系,收集了1978-2002年25年來三個變量的數(shù)據(jù)。研究該問題可以采用相關(guān)分析的方法。首先,可以繪制矩陣散點圖;其次,由于收集的變量都是定距數(shù)據(jù),因此可以通過計算Pearson簡單相關(guān)系數(shù)和檢驗來分析變量之間的相關(guān)性強弱。
在4.1節(jié)的圖4-3中選擇“矩陣分布”,出現(xiàn)的操作窗口如圖4-10所示,按照其指示繪制的矩陣散點圖如圖4-11所示。由圖4-11可以看出,恩格爾系數(shù)與年人均可支配收入和年人均消費性支出之間都有較強的線性相關(guān)關(guān)系,并且恩格爾系數(shù)與另外二者都呈負相關(guān)關(guān)系,同時,年人均可支配收入和年人均消費性支出之間也存在很強的正線性相關(guān)關(guān)系。利用SPSS計算它們?nèi)咧g的簡單相關(guān)系數(shù)居鎮(zhèn),如表4-22所示。
線性回歸分析
事物之間存在著廣泛的聯(lián)系,面對現(xiàn)實世界,我們總是希望能夠看清楚一件事情受其他什么事情的影響。蔬菜價格上漲是否受到糧食價格變動的影響?是否受到人均收入水平的影響?探尋事物之間的統(tǒng)計關(guān)系,并利用統(tǒng)計關(guān)系幫助我們進行決策是統(tǒng)計研究的目的。
面對復雜的關(guān)系網(wǎng),哪些是統(tǒng)計關(guān)系?哪些是我們的研究對象呢?通常我們將統(tǒng)計變量之間相互影響但又不能100%決定的這種關(guān)系作為統(tǒng)計關(guān)系。為了使讀者有更直觀的印象,下面將舉例說明這種關(guān)系。
父母平均身高每增加1個單位,子女的身高增加0.516個單位,因此,很高的父母的孩子可能只是比較高,很矮的父母的孩子可能只是比較矮。高爾頓引入了“回歸”這個名詞來描述這種子女平均高度向中心靠攏的現(xiàn)象。通過演變,“回歸”的含義發(fā)生了很大的改變,為了紀念高爾頓在統(tǒng)計學發(fā)展史上的貢獻,我們?nèi)匀谎赜谩盎貧w”這個名稱。本章結(jié)構(gòu)問題的提出1.線性回歸分析理論原理2.線性回歸分析的應用3.一元線性回歸
多變量回歸線性方程是回歸理論的基礎(chǔ),本節(jié)從最基本的一元線性回歸開始,引領(lǐng)讀者逐步了解線性回歸的理論知識。
在進行理論學習之前,希望讀者能夠記住,事物之間的因果聯(lián)系是客觀存在的,回歸分析等統(tǒng)計分析方法知識通過已獲得的數(shù)據(jù)推測出關(guān)系的存在形式。換言之,回歸分析并不創(chuàng)造回歸關(guān)系。
誤差項的出現(xiàn)歸于幾個原因,主要是無論模型如何復雜,也不能將對因變量產(chǎn)生影響的所有因素都找到合適的解釋變量包含到模型中。如我們研究身高問題,認為父母的身高是影響孩子身高的主要原因。除此之外,影響身高的因素還包括運動、營養(yǎng)等。又如我們研究消費問題,根據(jù)凱恩斯的絕對收入假說,可以認為收入是決定消費的主要因素,然而,除此之外,預期因素、季節(jié)因素、時尚及人們的消費慣性等都影響消費。這些因素中有些可以作為單獨的解釋變量加入到模型中,如季節(jié)因素,而更多的沒有作為解釋變量的因素則包含在隨機誤差項中。同時,測量誤差也是隨機誤差項所包含的另外一個因素。
多元線性回歸
線性回歸模型的檢驗
在模型的位置參數(shù)估計出來后,我們可以看見一個經(jīng)驗回歸方程,但是我們必須通過回歸方程的各種檢驗來確定這個方程是否滿足統(tǒng)計學的要求,同時要考察回歸方程是否與實際現(xiàn)象相違背。確認一個回歸方程有效,一般要通過這些統(tǒng)計學檢驗:回歸系數(shù)的顯著性檢驗、回歸方程的顯著性檢驗、擬合優(yōu)度檢驗、DW檢驗,以及判斷多元線性回歸方程的共線性、異方差等?;貧w方程的檢驗是回歸分析中極其重要的一環(huán),熟練掌握回歸方程的檢驗方法及原理有助于從更高的角度來把握回歸分析。。下面我們將對四種基本的檢驗方法作簡單介紹。
4.DW檢驗
當我們使用的樣本數(shù)據(jù)為時序數(shù)據(jù)時,如銀行存款總額,樣本中各年觀測值之間很可能是相關(guān)的。如果我們忽視這一事實,那么建立的回歸方程的殘差項就會存在相關(guān)性。比如,我們用居民年收入作解釋變量,銀行存款總額作被解釋變量,事實上銀行存款總額受到上一年銀行存款總額的影響,但在建立的回歸方程中沒有反映出這一事實,這種影響被當作解釋變量以外的影響納入回歸模型的隨機誤差項中,對于經(jīng)驗回歸模型,即不同觀測值的殘差之間存在著相關(guān)性,我們把這種時序相關(guān)性叫做殘差序列自相關(guān)。
5.共線性檢驗
回歸方程中,各自變量對因變量雖然都是有意義的,但某些自變量彼此相關(guān),即存在共線性問題,給評價自變量的貢獻率帶來困難。當自變量存在多重共線性時,利用最小二乘法得到的回歸參數(shù)估計值很不穩(wěn)定,回歸系數(shù)的方差隨著多重共線性強度的增強而加速增大,會造成回歸方程高度顯著的情況下,有些回歸系數(shù)不能通過顯著性檢驗,甚至回歸系數(shù)的正負號得不到合理經(jīng)濟解釋的現(xiàn)象。因此,需要對回歸方程中的變量進行共線性診斷。
(5)特征值(eigenvalue)。當若干特征值較小并且接近0時,說明某些變量之間存在很強的相關(guān)性。這些變量的觀測量出現(xiàn)較小的變化時,都會導致方程系數(shù)較大的變化。
(6)共線性問題的解決方法。共線性問題是建立回歸模型過程中比較常見而又較難克服的問題。解決共線性問題有以下一些常用方法:1)從有共線性問題的自變量中剔除不重要的自變量。2)增加樣本量。3)重新抽取樣本數(shù)據(jù)。不同樣本的觀測量的共線性是不一致的,所以重新抽取樣本數(shù)據(jù)有可能降低共線性問題的嚴重程度。
本章結(jié)構(gòu)問題的提出1.線性回歸分析理論原理2.線性回歸分析的應用3.線性回歸應用領(lǐng)域
通?;貧w模型在經(jīng)濟學的應用上主要有三方面:經(jīng)濟變量的因素分析、經(jīng)濟變量控制以及經(jīng)濟決策預測。
經(jīng)濟變量的因素分析是回歸模型的一個重要應用。應用回歸模型對經(jīng)濟變量之間的關(guān)系做出度量,從模型的回歸系數(shù)可發(fā)現(xiàn)經(jīng)濟變量的結(jié)構(gòu)關(guān)系,給政策評價提供依據(jù)。
利用回歸模型解釋經(jīng)濟變量之間的因果關(guān)系,可以使被解釋變量反過來控制解釋變量的值。用農(nóng)產(chǎn)品產(chǎn)量來反推應該怎樣控制施肥量就是一個例子。
在回歸模型的運用中,我們強調(diào)定性分析和定量分析的有機結(jié)合。這是因為數(shù)理統(tǒng)計方法只是從事物外在的數(shù)量表面上去研究問題,不涉及事物質(zhì)的規(guī)定性。單純的表面上的數(shù)量關(guān)系是否反映事物的本質(zhì)?本質(zhì)究竟如何?必須依靠專門學科的研究才能下定論。所以,在經(jīng)濟問題的研究中,我們不能僅憑樣本數(shù)據(jù)估計的結(jié)果就不加分析地說長道短,必須把參數(shù)估計的結(jié)果和具體經(jīng)濟問題以及現(xiàn)實情況緊密結(jié)合,才能保證回歸模型在經(jīng)濟問題研究中的正確運用。線性回歸分析的步驟1.數(shù)據(jù)要求
(1)自變量和因變量應該是數(shù)值型變量。
(2)因變量的分布必須是正態(tài)的。因變量的方差分布必須是一個常數(shù)。因變量和每一個自變量之間的關(guān)系必須是線性關(guān)系,所有的觀測變量必須是相互獨立的。
在進行回歸分析之前,最好用圖形探索因變量隨自變量變化的趨勢,以便確定數(shù)據(jù)是否適合線性模型。通過散點圖還可以發(fā)現(xiàn)異常值。
(3)對收集整理后的數(shù)據(jù)進行模型類型的識別,通常從圖表和實際經(jīng)濟理論方面來看。我們可以將自變量、因變量樣本值在直角坐標系中標出,看樣本中的個體是是線性的還是非線性的。同時,經(jīng)濟學中,有一些既定的理論模型,如C-D生產(chǎn)函數(shù),如果我們用勞動力、資本投入來解釋產(chǎn)出,立即可知模型滿足生產(chǎn)函數(shù)的形式。
(4)回歸理論模型確定后,利用收集、整理的樣本數(shù)據(jù)對模型的未知參數(shù)進行估計是回歸分析的重要內(nèi)容。估計未知參數(shù)最常用的是普通最小二乘法,它是經(jīng)典的估計方法。對于不滿足模型基本假設的回歸問題,人們給出了各種新方法,如偏最小二乘估計、嶺回歸、主成分回歸等方法。
(5)對一般的線性回歸經(jīng)驗方程,我們需要進行四種基本檢驗;對于多元線性回歸方程,還應該結(jié)合實際的經(jīng)濟學知識和常識以及圖表,判斷建立的多元線性回歸方程是否有共線性、異方差等問題。在檢驗的基礎(chǔ)上對估計出的經(jīng)驗回歸方程作改進,通??赡軐ψ宰兞窟M行取舍,建立新的模型。我們會通過后面的實例來說明怎樣修改經(jīng)驗回歸方程。
(6)當模型的未知參數(shù)估計出來以后,還需要對模型的參數(shù)進行顯著性檢驗。對回歸模型的檢驗一般需要進行統(tǒng)計檢驗和模型經(jīng)濟意義的檢驗。統(tǒng)計檢驗方法在5.2節(jié)中已給出,除此之外,還要看模型是否有合理的經(jīng)濟解釋。如果模型沒有通過某種統(tǒng)計檢驗,或者通過了統(tǒng)計檢驗而沒有合理的經(jīng)濟意義,就需要對回歸模型進行修改。
(7)回歸方程通過檢驗之后,我們就可以用其來研究具體的經(jīng)濟問題。線性回歸分析的SPSS軟件操作1.一元線性回歸運用實例
為了使讀者能對以上闡述的回歸分析的過程有更直觀的了解,我們準備了一個一元線性回歸的簡單實例,希望通過對這個案例的分析,使讀者腦海里能有一個回歸分析的大概框架結(jié)構(gòu)。整個回歸分析過程將使用SPSS軟件進行。例5-1
數(shù)據(jù)說明:數(shù)據(jù)樣本量為50,考慮火災損失和火災發(fā)生地與消防站距離的關(guān)系。相關(guān)數(shù)據(jù)如表5-1所示。
“Y軸”和“X軸”用于選擇把那個變量置于Y軸,哪些變量置于X軸。右邊的“標題”、“選項”為可選項,可以對圖標的題目等進行設置,但不是必須選擇。點擊左下角的“模板”可以導入已有模板。設置完后點擊“確定”,就可以生成分析結(jié)果,如圖5-3所示。
將左邊框內(nèi)的兩個變量選入右邊的“變量”框內(nèi),下面一行代表相關(guān)系數(shù)的種類:Pearson為簡單相關(guān)系數(shù),Kendall的tau-b為等級相關(guān)系數(shù),Spearman為秩相關(guān)系數(shù)。這里我們選擇Pearson簡單相關(guān)系數(shù)。下面一行是選擇相關(guān)系數(shù)顯著性檢驗是單側(cè)還是多側(cè)檢驗,“標記顯著性相關(guān)”表示會對在0.05顯著性水平下顯著的相關(guān)系數(shù)統(tǒng)計量加一個星號,對在0.01顯著性水平下顯著的相關(guān)系數(shù)統(tǒng)計量加兩個星號。這里提醒讀者,如果不了解SPSS中各選項的含義,可以將鼠標放在該選項上,并單擊右鍵,就會立即出現(xiàn)對該選項用途的說明。
“選項”里的選項對于本案例來說不太重要,此處不贅述。完成設置,點擊“確定”,可以得到相關(guān)系數(shù)分析的結(jié)果,如表5-2所示。
通過對本案例的討論,希望讀者能夠?qū)€性回歸的基本步驟有一定程度的了解。但是多元線性回歸分析相對于一元線性回歸來講,分析難度加大很多,需要考慮的因素也會增加,我們這里選用了樣本數(shù)據(jù),向讀者逐步說明怎樣建立多元線性回歸模型以及怎樣分析、檢驗和運用模型。2.多元線性回歸分析案例
多元線性回歸分析有幾大難點:第一,變量的選擇。如何從紛繁復雜的變量中選擇適合的、有效的變量建立回歸模型?通常可以通過分析實際經(jīng)濟現(xiàn)象和生活經(jīng)驗來確定,也可以通過對相關(guān)性的計算來選擇。多變量回歸還常使用逐步回歸法來選擇自變量。第二,回歸模型可能會產(chǎn)生共線性。各自變量之間相互聯(lián)系,具有很強的相關(guān)性,會使回歸參數(shù)的估計值誤差很大,估計精度很差,使模型無法用來解釋經(jīng)濟現(xiàn)象。第三,所有回歸模型都可能出現(xiàn)打破隨機誤差項等方差、不相關(guān)的原假設。多元線性回歸模型也存在自相關(guān)、異方差的問題。下面我們通過一個實例來說明怎樣進行多元線性回歸分析。例5-2
研究對象:為研究我國成品鋼材的需求量,選擇與其相關(guān)的7個因素:原油產(chǎn)量、原煤產(chǎn)量、發(fā)電量、鐵路貨運量、固定資產(chǎn)投資額、居民消費、政府消費,希望能夠建立模型來解釋各影響因素是否能影響成品鋼材需求量。
數(shù)據(jù):1980-1998所有變量觀測值。其中成品鋼材需求量以供應量代替。
研究步驟:
首先,我們要考察因變量與自變量之間的相關(guān)關(guān)系。由于是多變量模型,如果要作散點圖,必須將各點表示在多維直角坐標系中,所以通過散點圖來判斷因變量和自變量之間是否存在線性關(guān)系在這里行不通。而根據(jù)我們的經(jīng)驗,看不出這7個因素中哪一個或哪一些會對成品鋼材的需求量有很大作用。所以我們采用Pearson簡單相關(guān)系數(shù)來判定變量之間的聯(lián)系,在SPSS軟件中,操作方法與上面一元線性回歸分析的操作一致,分析結(jié)果如表5-7所示。
市場研究中的數(shù)據(jù)數(shù)據(jù)的測量尺度
市場研究過程中有各種各樣的數(shù)據(jù),我們發(fā)現(xiàn)這些數(shù)據(jù)有不同的測量尺讀。數(shù)據(jù)的測量尺度。數(shù)據(jù)的測量尺度是指測量某一物體的準則或者依據(jù)。比如測量門的高度時,我們可以用米尺,也可以用掌距來測量。測量尺度是為了更好地反映事物的特征,更好地表述、記錄以使我們的研究變得方便。一般來說,市場研究中一般要下列四種數(shù)據(jù)的測量尺度。名義尺度順序尺度等距尺度比例尺度數(shù)據(jù)的類型市場研究中數(shù)據(jù)可以分為以下幾種類型:按照所采用的測量尺度不同,可以講數(shù)據(jù)分為定類數(shù)據(jù)、定序數(shù)據(jù)和數(shù)值型數(shù)據(jù);按照數(shù)據(jù)的收集方式,可以分為觀測數(shù)據(jù)和實驗數(shù)據(jù);按照描述對象與時間的關(guān)系,可以將數(shù)據(jù)分為時間序列數(shù)據(jù)和截面數(shù)據(jù);按照數(shù)據(jù)的連續(xù)性不同,可以將數(shù)據(jù)分為連續(xù)數(shù)據(jù)和間斷數(shù)據(jù)。本章結(jié)構(gòu)數(shù)據(jù)的測度和分類1.市場研究數(shù)據(jù)的來源2.缺失數(shù)據(jù)的處理3.統(tǒng)計數(shù)據(jù)分為原始數(shù)據(jù)和二手數(shù)據(jù)。原始數(shù)據(jù)系指研究者直接由調(diào)查或?qū)嶒灦謾C的來的數(shù)據(jù),亦稱一手數(shù)據(jù)。例如民意調(diào)查機構(gòu)要預測選舉結(jié)果,得直接向選民詢問調(diào)查,所得到的數(shù)據(jù)就是原始數(shù)據(jù)。原始數(shù)據(jù)不易收集,有賴于完善的收集技術(shù)與籌劃,其所花費的人力、時間、金錢很多,收集來的數(shù)據(jù)比較全面且合用。二手數(shù)據(jù)系指其他私人、機關(guān)、團體所收集整理后的數(shù)據(jù)。二手數(shù)據(jù)是由專家收集的,因此有相當高的正確性,而且這種數(shù)據(jù)的查詢既省時省力又省錢,但是卻經(jīng)常不能完全適合所要研究的問題。數(shù)據(jù)的性質(zhì)包含靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)系指在某一特定時間所收集的數(shù)據(jù)。靜態(tài)數(shù)據(jù)通常都由調(diào)查而來,其調(diào)查方法依照調(diào)查的對象是否為整個全體,可分為普查與抽查兩類。動態(tài)數(shù)據(jù)系指在某一期間內(nèi)連續(xù)不斷地收集得來的數(shù)據(jù)。例如,戶籍機關(guān)每天必須登記人口的出生、死亡、婚姻、遷移等動態(tài)統(tǒng)計數(shù)據(jù)。動態(tài)數(shù)據(jù)多由登記或觀測而得。原始數(shù)據(jù)收集的方法1.觀察法(1)單獨進行的觀察法(2)以觀察法為基礎(chǔ)進行其他的調(diào)查。2.實驗法3.調(diào)查法(1)派員調(diào)查(2)郵寄調(diào)查(3)電話詢問調(diào)查a.適合電話調(diào)查的場合b.常常忘記規(guī)則的電話c.不適合電話調(diào)查的情況二手數(shù)據(jù)二手數(shù)據(jù)的收集方法(1)利用公開的二手資料。(2)利用公司內(nèi)部的數(shù)據(jù)庫。(3)利用互聯(lián)網(wǎng)二手數(shù)據(jù)的特點(1)手機時間段、費用低。(2)二手數(shù)據(jù)缺乏相關(guān)性和準確性。本章結(jié)構(gòu)數(shù)據(jù)的測度和分類1.市場研究數(shù)據(jù)的來源2.缺失數(shù)據(jù)的處理3.數(shù)據(jù)缺失的危害市場調(diào)查過程中,各種原因會導致數(shù)據(jù)的缺失。調(diào)查的初始階段,訪問員無法接觸到受訪者,或者被調(diào)查者地址不詳,或者已經(jīng)搬遷,導致無法接觸到目標受訪者而產(chǎn)生數(shù)據(jù)缺失;調(diào)查階段受訪者拒絕回答某些問題,如關(guān)于受訪者的收入及其他較為隱私性的問題,這些問題的空白也是數(shù)據(jù)缺失的表現(xiàn);在數(shù)據(jù)整理階段也會出現(xiàn)數(shù)據(jù)缺失的現(xiàn)象,研究人員將明顯不符合實際的數(shù)據(jù)提出。所以即使做到萬無一失的控制,仍然會有數(shù)據(jù)的缺失。倘若是較小規(guī)模的缺失,可能對調(diào)查結(jié)果的影響不太大,如果是大規(guī)模的數(shù)據(jù)缺失,后果就比較嚴重了,會導致調(diào)研結(jié)果和真實結(jié)果完全不相符。具體來說,數(shù)據(jù)的缺失主要表現(xiàn)在:第一,增大了估計誤差;第二,導致有偏差的區(qū)間估計。數(shù)據(jù)缺失的機制
常用的數(shù)據(jù)缺失有三種機制,它是利特爾(Little)和魯賓(Rubin)定義的。完全隨機缺失隨即缺失不可忽略的缺失缺失數(shù)據(jù)的處理方法刪除法插補法(1)單一插補法
1)推理插補法2)均值插補法3)鄰近插補法4)比率或回歸插補法(2)多重插補法(3)加權(quán)調(diào)整法
數(shù)據(jù)簡化分析在市場研究中,為了全面、準確地理解和把握研究對象的特征,同時避免遺漏重要信息,我們往往會事前考慮與研究問題相關(guān)的盡可能多的指標,這時出現(xiàn)的一個問題是,由于各指標均是對同一事物的反映,不可避免地造成信息的大量重疊,這種信息的重疊有時會抹殺事物的真正特征和內(nèi)在規(guī)律。例如,已知來北京旅游客人的總消費情況,其中包括旅館內(nèi)支出、旅館外餐飲費、市內(nèi)交通費、娛樂費、雜費與購物費,現(xiàn)在想了解能不能簡明扼要地通過一兩個綜合性的指標來說明旅客的消費情況。如果能有這樣的綜合性指標,那么綜合性指標能反映多少原始數(shù)據(jù)信息?這種情況可以很方便地通過主成分分析(principalcomponentsanalysis)來簡化變量,達到分析的目的?;舅枷牒屠碚?.基本思想
主成分分析的思想是:既然指標變量之間有一定的相關(guān)性,那么肯定存在信息重疊的現(xiàn)象,相關(guān)性較強的變量所表示的數(shù)據(jù)信息在很大程度上是相同的,主成分分析是通過研究原始變量的相關(guān)矩陣或協(xié)方差矩陣的內(nèi)部結(jié)構(gòu)關(guān)系,利用原始變量的線性組合合成幾個綜合性指標。轉(zhuǎn)化生成的綜合性指標稱為主成分。由于主成分是原始數(shù)據(jù)的線性組合,因此并沒有損失數(shù)據(jù)信息,同時,主成分分析是以變量間相關(guān)性最小為原則來生成新指標的,也就是說,主成分之間兩兩不相關(guān),即每個主成分所承載的數(shù)據(jù)信息各不相同,因此代表不同的意義。
主成分分析運用降維的思想來精簡變量,將多個相關(guān)的原始變量指標轉(zhuǎn)換成幾個獨立的綜合指標。主成分是原始變量指標的線性組合,其轉(zhuǎn)換的理念是讓原始變量指標的線性組合的變異達到最大,這樣可以盡量減少信息的損失,僅利用幾個重要的主成分就能解釋原數(shù)據(jù)大部分的變異,同時簡化了問題,抓住了主要矛盾,能夠更好地揭示事物內(nèi)部變量之間的規(guī)律,提高分析效率,把研究工作引向深入。
通過主成分分析,可以再多個指標中找到少數(shù)幾個盡可能多地反映原始資料信息的綜合指標,從而更好地揭示變量之間的內(nèi)在聯(lián)系。利用主成分分析得到的主成分與原始變量之間有如下關(guān)系:
(1)主成分是原始變量的線性組合。
(2)主成分的數(shù)目少于原始變量的數(shù)目。
(3)主成分保留了原始變量的絕大多數(shù)信息。
(4)各個主成分之間相互獨立、不相關(guān)。
當坐標軸和橢圓的長短軸平行時,代表長軸的變量描述數(shù)據(jù)的主要變化,而代表短軸的變量描述數(shù)據(jù)的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。
很顯然,橢圓(球)的長短軸相差得越大,降維就越有道理。
當數(shù)據(jù)為多維時,通過主成分分析同樣可以找到低維度的可描述數(shù)據(jù)主要變化的指標,這些指標是原變量的線性組合,且指標之間是相互垂直的。因為對于多維變量,也有高維的橢球,只不過無法直觀地看到罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量,這樣,主成分分析就基本完成了。和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分。
正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維效果就越好。標準是什么呢?就是這些被選的主成分所代表的主軸的長度之和占主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的85%左右即可。這只是一個大體的說法,具體選幾個,要視實際情況而定。下面講解主成分個數(shù)的選取原則。
(4)根據(jù)碎石圖選取。畫出特征根與主成分個數(shù)之間的關(guān)系圖(又稱碎石圖),如圖8-2所示,使得特征根變化曲線轉(zhuǎn)為平穩(wěn)的轉(zhuǎn)折點所對應的主成分序號,可確定為主成分個數(shù)。主成分分析的模型及性質(zhì)
主成分分析的SPSS操作
2.SPSS操作步驟
(1)輸入數(shù)據(jù)。在SPSS中打開要分析的數(shù)據(jù)文件,如圖8-3所示。
(3)選擇后彈出菜單,將要作主成分分析的變量選進右側(cè)“變量”列表中,如圖8-5所示。
(4)點擊“描述”按鈕,彈出“因子分析:描述統(tǒng)計”對話框,如圖8-6所示。在“統(tǒng)計量”中選擇“單變量描述性”項,要求輸出各個變量的均值和標準差;選擇“原始分析結(jié)果”項,要求輸出進行分析變量的相關(guān)矩陣或協(xié)方差矩陣的對角元素。在“相關(guān)矩陣”欄內(nèi)選“系數(shù)”項,要求計算相關(guān)系數(shù)矩陣,并選擇“KMO和Bartlett的球形度檢驗”項,要求對相關(guān)系數(shù)矩陣進行統(tǒng)計檢驗,檢驗變量間的偏相關(guān)是否顯著,以及相關(guān)陣是否為單位陣,以表明主成分分析模型是否合適。點擊“繼續(xù)”,回到“因子分析”對話框。
(5)點擊“抽取”按鈕,彈出“因子分析:抽取”對話框,如圖8-7所示。本例選用“主成份”方法。此外還有未加權(quán)最小平方法、綜合最小平方法、最大似然法等。“未旋轉(zhuǎn)的因子解”項要求顯示未經(jīng)旋轉(zhuǎn)的因子提取結(jié)果,此項為系統(tǒng)默認的輸出方式;“碎石圖”項要求顯示按特征值大小排列的主成分序號,以特征值為兩個坐標軸的碎石圖,可以有助于確定保留多少個因子,典型的碎石圖會有一個明顯的拐點,在該點之前是與大因子相連的陡峭的折線,之后是與小因子相連的緩慢折線?!俺槿 边x項若默認,則由軟件自動選擇特征根大于1的對應特征向量的線性組合形成主成分,可以手動修改特征根選擇標準或直接輸入需要提取的主成分個數(shù)。其它選項卡多為因子分析的其他選擇。點擊“繼續(xù)”項,回到“因子分析”對話框。
(6)點擊“確定”按鈕,輸出主成分分析的結(jié)果。案例分析:例8-1
我們可以通過下面的基本統(tǒng)計描述了解各個變量的均值以及標準差的情況,詳見8-2。
各指標之間的相關(guān)系數(shù)如表8-3所示。
進行主成分分析,以SPSS默認條件特征根大于1作為主成分提取標準。主成分個數(shù)也可以人為設定,但主成分解釋的總方差和主成分個數(shù)必定成正比(見表8-4),而主成分分析的目的在于用最少的變量解釋最多的變化。為在這二者之間達到一個均衡,可參看碎石圖。一般取碎石圖拐點處的主成分個數(shù)。如圖8-8所示,拐點為3,即適宜取3個主成分。進行主成分分析,以SPSS默認條件特征根大于1作為主成分提取標準,在本例中提取得到3個主成分,其特征根為2.265,1.957和1.007,解釋了全部指標變化的87.155%。
本章結(jié)構(gòu)主成分分析1.因子分析2.對應分析3.
在市場研究領(lǐng)域作研究時常需要引入一些重要的變量來作輔助說明與輔證。這些變量當中,有些是可以直接測量的變量,如年齡、性別、收入、宗教信仰、黨籍等;有些則是無法直接測量的,需要通過一些統(tǒng)計方法從可以測量的變量當中匯整出來,而因子分析法即為方法之一。在實踐中,收集的各變量之間通常不是孤立的,它們或多或少存在一定程度的關(guān)系。因子分析的目的是通過少數(shù)幾個變量去描述眾多變量,這少數(shù)幾個變量是潛在的、不能觀察得。我們稱這些潛在的變量為因子?;舅枷肱c理論
1.基本思想
因子分析的核心思想是:既然變量之間有一定的相關(guān)性,那么必然存在著起支配作用的共同因素,可以通過對變量的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的研究,找出能控制所有變量的少數(shù)幾個隨機變量去描述多個變量之間的相關(guān)關(guān)系。由此定義來看,因子分析和主成分分析的目的和途徑基本一致。因子分析中常用的計算方法正是主成分方法(除此之外還有最小二乘法、廣義最小二乘法、極大似然法等)。
舉例來說,每個人的一生都是無法復制的藝術(shù)品,因為每個人都有他的獨特性,所以即使有人完全照著某位名人的生涯來規(guī)劃自己的人生,也不可能稱為一模一樣的名人。但是,如果我們把所有成功者的共同特點找出來,那么就可以匯整出成功之路的方針,如成功的人士都是有計劃、有毅力、有遠見、有耐心、不斷學習的。將事物的共同性萃取出來,就是因子分析的基本精神。
因子分析不僅可以用來研究變量之間的相關(guān)關(guān)系,還可以用來研究樣品之間的相關(guān)關(guān)系,通常將前者稱為R型因子分析,將后者稱為Q型因子分析。我們在這里重點介紹R型因子分析。2.基本理論
因子分析是以相關(guān)性為基礎(chǔ),通過協(xié)方差來實現(xiàn)的。在所收集到的眾多變量中,必定存在某些是高度相關(guān)的,把這些高度相關(guān)的變量組成一組。這樣,同一組內(nèi)的變量具有高度相關(guān)性,而與其他的各組變量卻只有較弱的相關(guān)性或不相關(guān)。這些組內(nèi)高度相關(guān)的變量可以認為是一個共同的東西在影響著它們而導致其高度相關(guān);這個共同的東西稱為公共因子。如前所述,這些公共因子是潛在且不能觀測的。因子分析是以相關(guān)性為基礎(chǔ),從協(xié)方差陣或相關(guān)陣著手把大部分變異歸結(jié)為少數(shù)幾個公共因子所為。把剩余的部分稱為特殊因子。
在進行主成分分析時,原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找?guī)讉€成分,這里叫因子(factor)。這使得在數(shù)學模型上,因子分析和主成分分析有不少區(qū)別,而且因子分析的計算也復雜得多。
主成分分析主要是作為一種探索性的技術(shù),多用在多元數(shù)據(jù)分析之前的探索性分析中,一般很少單獨使用。在一些統(tǒng)計分析軟件中主成分分析只是因子分析的算法之一,采用主成分法的因子分析基本可以涵蓋主成分分析的全部內(nèi)容,但其視點和重點不同。因子分析模型以及性質(zhì)
可以看出,旋轉(zhuǎn)的目的是使每一個觀測變量在新的坐標軸上的射影盡可能向1和0兩極分化。對因子載荷陣旋轉(zhuǎn)的方法由多種,如正交旋轉(zhuǎn)、斜交旋轉(zhuǎn)等。具體的旋轉(zhuǎn)原理這里不再贅述。
因子分析可以使用旋轉(zhuǎn)技術(shù)幫助解釋因子,在解釋方面更具優(yōu)勢。總的來說,當需要尋找潛在的因子,并對這些因子進行解釋時,更加傾向于使用因子分析,并且借助旋轉(zhuǎn)技術(shù)解釋。在上一節(jié)的例子中,如果進行因子分析,且將其旋轉(zhuǎn),就可以得到如表8-6所示的結(jié)果。
4.因子得分
公共因子是影響各個原始變量的共同因素,在因子模型建立之后,如果反過來求出各個樣品在各個公共因子上的取值,就能根據(jù)因子取值將樣品分類,研究各個樣品間的差異等。我們將案例在公共因子上的取值稱為因子得分。
因子分析的步驟
1.基本步驟
(1)根據(jù)研究的問題選取原始變量。
(2)對因子分析的適用性進行檢驗,這是因為原始變量之間應具有較強的相關(guān)關(guān)系,否則,無法從中綜合出能夠反映某些變量共同特性的幾個較少的公共因子??梢杂嬎阆嚓P(guān)系數(shù)矩陣,也可以用一些相應的檢驗,如Bartlett’stestofsphericity(常用的檢驗統(tǒng)計量還有:MSA,KMO)。
(3)求解初始公共因子以及因子載荷矩陣,提取公共因子。這一步要確定因子個數(shù)和求因子的方法。
(4)進行因子旋轉(zhuǎn),這一步的目的是通過坐標變換使因子解的實際意義更容易解釋。
(5)計算因子得分,因子得分是各個因子在每個觀測上的分值,有了因子分值便可以再其他分析中使用這些因子。
(6)根據(jù)因子得分值進行進一步分析。
2.SPSS操作的步驟
(1)輸入數(shù)據(jù):在SPSS中打開要分析的數(shù)據(jù)文件,如圖8-9所示。
(3)選擇后彈出如圖8-11所示的菜單,把要作因子分析的變量選進右側(cè)的“變量”列表中。(4)點擊“描述”按鈕,彈出“因子分析:描述統(tǒng)計”對話框,如圖8-12所示。在“統(tǒng)計量”中選擇“單變量描述性”項,要求輸出各個變量的均值和標準差;選擇“原始分析結(jié)果”項,要求輸出因子提取前分析變量的公共因子方差,這些值是每個變量用其他變量作預測因子的載荷平方和。在“相關(guān)矩陣”欄內(nèi)選擇“系數(shù)”項,要求計算相關(guān)系數(shù)矩陣;“顯著性水平”項是要求給出每個相關(guān)系數(shù)相對于相關(guān)系數(shù)為0的單側(cè)假設檢驗的水平;“行列式”項表示相關(guān)系數(shù)矩陣的行列式;“逆模型”項表示相關(guān)系數(shù)矩陣的逆矩陣;“再生”項表示再生矩陣,選擇此項是要求給出因子分析后的相關(guān)陣,并給出殘差,即原始相關(guān)與再生相關(guān)之間的差值;“反映象”項,包括偏相關(guān)系數(shù)的負數(shù),在一個好的因子分析模型中除對角線上的系數(shù)較大外,遠離對角線的元素應該比較??;同上節(jié)類似,選擇“KMO和Bartlett的球形度檢驗”項,是要求對相關(guān)系數(shù)矩陣進行統(tǒng)計檢驗,檢驗變量間的偏相關(guān)是否很弱,以及相關(guān)陣是否為單位陣,以檢驗因子分析模型是否合適。點擊“繼續(xù)”,回到“因子分析”對話框。
(5)點擊“抽取”按鈕,彈出“因子分析:抽取”對話框,如圖8-13所示。本例選用主成分方法。此外,還有不加權(quán)最小平方法、綜合最小平方法、最大似然法等?!跋嚓P(guān)性矩陣”項是指定分析變量的相關(guān)矩陣為提取因子的依據(jù),在參與分析的變量的測量單位不同時應該選擇該項,“協(xié)方差矩陣”項指定以分析變量的協(xié)方差矩陣為提取因子的依據(jù)。點擊“繼續(xù)”,回到“因子分析”對話框。
(7)點擊“得分”按鈕,彈出如圖8-15所示的對話框。“保存為變量”是將因子得分作為新變量保存在數(shù)據(jù)文件中?!胺椒ā敝懈黜椫饕侵付ㄓ嬎阋蜃拥梅值母鞣N方法(有回歸法、巴特利特法等)。選擇“顯示因子得分系數(shù)矩陣”選項將在輸出的窗口中顯示因子得分系數(shù)矩陣,是標準化的得分系數(shù)。點擊“繼續(xù)”,回到“因子分析”對話框。
(8)點擊“確定”按鈕,輸出因子分析的結(jié)果。案例分析:例8-2
仍然以上一節(jié)提到的某通信公司發(fā)展狀況為例。
本例中,以原數(shù)據(jù)為基礎(chǔ),公司希望能夠分析各個公司業(yè)務發(fā)展的能力。我們可以認為收入、用戶數(shù)、市場占有率等原始指標是業(yè)務發(fā)展的結(jié)果,要分析這些結(jié)果背后的公司運營能力,可以采用因子分析的方法。
應用上述SPSS分析步驟,得到相關(guān)分析結(jié)果如表8-7至表8-12所示。Kaiser-Meyer-OlkinMeasureofSamplingAdequacy(簡稱KMO)值太小時代表此份數(shù)據(jù)不是和做因子分析,通常要求KMO值至少要為0.5.而Bartlett’sTestofSphericity檢驗結(jié)果也必須是顯著的才好,表8-7中的P值(即Sig.值)遠小于0.05,根據(jù)以上結(jié)果可知此份數(shù)據(jù)適合進行因子分析。
每一變量的共同性可以被視為該變量的信度,共同性越高代表信度越高。一般而言,共同性大于0.5時其信度才夠,以此標準來看,本例中各變量的信度是足夠的。
事先已經(jīng)設定“特征值大于”為1,從表中可以得知在數(shù)據(jù)旋轉(zhuǎn)以前(InitialEigenvalues)特征值大于1的為第一到第三因子,分別為2.265,1.957與1.007。所以“ExtractionSumsofSquaredLoadings”僅出現(xiàn)了三個因子的信息。
經(jīng)過旋轉(zhuǎn)之后的因子為“RotationSumsofSquaredLoadings”,這三個因子在經(jīng)過“最大方差法”旋轉(zhuǎn)以后,其累積解釋百分比依然是87.155%,但是各個因子的解釋百分比分配比旋轉(zhuǎn)以前更為平均了(原本第一因子與第三因子的解釋變異差異在20%以上,但是經(jīng)過“最大方差法”旋轉(zhuǎn)以后,第一因子與第三因子的解釋變異差異在15%以內(nèi))。
這里有一個問題,那就是到底如何決定因子個數(shù)?以下提供一些參考的準則:
(1)特征值大于1(此準則較適用于以相關(guān)系數(shù)矩陣分析的結(jié)果)。
(2)所選擇的各因子個別的解釋變異百分比至少大于5%。
(3)所選擇因素的整體解釋變異百分比至少大于50%。
圖8-16是依據(jù)“InitialEigenvalues”的原始特征值畫出的,從圖中可知,從第三因子以后坡度就變小了,換句話說,在第三因子之后增加一個因子對于整體解釋變異百分比的提升幅度并不大,所以不需特別加以解釋。
表8-10和表8-11分別為旋轉(zhuǎn)前與旋轉(zhuǎn)后的因子載荷量(FactorLoading)。
確定了因子的個數(shù)以后,另外一個問題就是對因子命名。因子命名在因子分析中是很重要的工作,除了要有專業(yè)的背景協(xié)助以外,也可以由因子載荷量的大小來加以協(xié)助,各變量的因子載荷量即為該變量分數(shù)與某因子之間的相關(guān),所以當相關(guān)性強的時候(因子載荷量大)我們才會用該變量去解釋某些因子,亦即當某一變量與某一因子的相關(guān)性較強時,則將該變量歸于該因子的解釋之中。但是如果某一變量與兩個以上的因子相關(guān)性都不弱則不將該變量多做解釋,否則可能導致兩因子構(gòu)建間的重疊程度太高。
從因子分析輸出當中的“RotatedComponentMatrix”將原始的6個變量歸結(jié)出三個因子,按照三個因子的現(xiàn)實含義加以命名,歸結(jié)出來的因子構(gòu)面(見表8-12)與當初設計問卷時所設想的因子構(gòu)面越接近,此量表的效度越高。
因子分析不僅與效度有關(guān),與信度也有關(guān)系。就一份量表的整體信度而言,如果整體信度很低,那么做因子分析的效果就不好,這時KMO值可能會不高而且Bartlett’sTestofSphericity檢定也無法通過。就某變量的信度而言,如果某一變量的信度很低,那么在因子分析中很可能無法找到可歸屬的因子構(gòu)面。
由此我們得到了能夠反映通信公司發(fā)展現(xiàn)狀的各個因子,其中以規(guī)模因素最為重要,以下依次為競爭因素和發(fā)展因素,這三個因子解釋百分比分別為34.0%,31.8%,21.4%,這些因子一共可以解釋原始數(shù)據(jù)87%的變異。
三個因子當中以規(guī)模因素最為重要;其次為競爭因素,具體包括收入市場占有率和用戶市場占有率現(xiàn)狀;第三因子為發(fā)展因素,這個因子具體衡量了各地分公司發(fā)展的進度,包括相對于上一年的用戶增長率和收入增長率。
這里可以注意比較8.1節(jié)和8.2節(jié)的例題,對于同樣的問題,分別采用了主成分分析和因子分析的方法,得到的結(jié)果也相似(主成分分析下我們歸納的結(jié)果為規(guī)模、市場占有和增長,在因子分析下我們歸納的結(jié)果為規(guī)模、競爭和發(fā)展),但是兩種分析的思路不一樣:主成分分析下,新的主成分是原始指標變量的線性組合,而在因子分析下,是將原始的指標變量看做若干因子的線性組合,所以主成分分析是“合”的過程,而因子分析則是“分”的過程。從分析的出發(fā)點來看,主成分分析希望用較少的幾個主成分來表示大部分的數(shù)據(jù)信息,而因子分析則是希望探索原始變量背后的共同支配因素。所以,主成分分析得到的主成分往往作為“結(jié)果”使用(衡量水平、考核業(yè)績,等等),因子分析得到的因子則作為“原因”使用(探索產(chǎn)生當前結(jié)果得驅(qū)動因素,如由考試成績來分析能力因子)。實際上,這兩種方法非常類似,在實際中可以靈活運用。讀者不妨認真體會,并結(jié)合實際問題進行方法的選擇。本章結(jié)構(gòu)主成分分析1.因子分析2.對應分析3.
在因子分析中,或者對變量(列中的變量)進行分析,或者對樣品(觀測值或行中的變量)進行分析,而且常常對每一種分析結(jié)果畫出載荷圖來看各個變量之間的接近程度。然而,在很多情況下,我們所關(guān)系的不是行或列本身變量之間的關(guān)系,而是行變量和列變量的相關(guān)關(guān)系,這是因子分析等方法所不能說明的。如何用像因子分析的載荷圖那樣的直觀方法來展示兩個變量各個水平之間的關(guān)系呢?這就是本節(jié)要介紹的對應分析方法。在市場分析中,對應分析通常用于列聯(lián)表、交叉表數(shù)據(jù)的分析中,如品牌形象研究問題、顧客組比較研究問題等。通過對應分析,可以將交叉表中所包含的信息在低維的空間中用圖形形象的表示出來。
對應分析方法被普遍認為是探索性數(shù)據(jù)分析的內(nèi)容,因此,讀者只要會用數(shù)據(jù)畫出描述性的點圖,并能夠理解圖中包含的信息即可。對于很詳細的原理及其推導,這里不詳細闡述?;舅枷?/p>
對應分析法是通過分析由定性變量構(gòu)成的交叉列聯(lián)表來揭示變量間的聯(lián)系、同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應關(guān)系。變量劃分的類別越多,這種方法的優(yōu)勢就越明顯。基本上,對應分析采用列聯(lián)表來分析兩個或兩個以上的類別變量的數(shù)據(jù),將變量的類別(rowsandcolumns)呈現(xiàn)在低維空間圖中,以較為簡單的數(shù)據(jù)呈現(xiàn)來取代原始數(shù)據(jù),排除多余的噪聲而揭示復雜的數(shù)據(jù)結(jié)構(gòu),最后將結(jié)果可視化。簡單地說,對應分析的主要目的在于處理兩個或多個不連續(xù)的變項或類別之間的關(guān)系。對應分析有兩大特點:第一,對應分析以列聯(lián)表為基礎(chǔ)將數(shù)據(jù)的特性呈現(xiàn)于空間分布的圖示中,對應分析接近幾何學的概念甚過于統(tǒng)計的概念。通過各個類別在空間的分布距離探討類別間的關(guān)系,將復雜的數(shù)據(jù)結(jié)構(gòu)可視化。第二,對應分析是探索性的數(shù)據(jù)分析方法,目的不在于驗證資料是否適合研究者設定的理論模型,而是呈現(xiàn)數(shù)據(jù)本身的結(jié)構(gòu)。此外,對應分析是一種對眾多關(guān)系的思考方法,不同于一般的統(tǒng)計模式,蘊涵著某種社會或行動的因果哲學。對于社會學而言,對應分析是以低度抽象以及圖解的方式給研究者提供探討和思索社會位置、價值取向以及行為模式之間可能關(guān)系的有效方法。
事實上,對應分析和許多傳統(tǒng)的統(tǒng)計方法都有所關(guān)聯(lián)。例如,對應分析的基本原理可以和因子分析相關(guān)的主成分分析相符合。其次,對應分析強調(diào)空間分布圖顯示數(shù)據(jù)結(jié)構(gòu)的特征,和下一章要講的多維尺度法有許多相似之處。由于篇幅有限,此處不再討論對應分析與其他分析方法的異同。對應分析的原理
處理列聯(lián)表的問題僅僅是對應分析的一個特例。一般,對應分析可以處理連續(xù)變量的數(shù)據(jù)矩陣;這些數(shù)據(jù)具有主成分分析、因子分析、聚類分析時所處理的數(shù)據(jù)形式。由于列聯(lián)表的數(shù)據(jù)形式和一般的連續(xù)變量的數(shù)據(jù)形式類似,所以也可以用對應分析的數(shù)學方法來研究行變量各個水平和列變量各個水平之間的關(guān)系。
(4)廣義奇異值和特征值(generalizedsingularvalues&eigenvalues)。奇異值是慣量的平方根,反映行與列各水平在二維圖中分量的相關(guān)程度,是對行與列進行因子分析產(chǎn)生的新的綜合變量的典型相關(guān)系數(shù)。廣義奇異值是基于概率表計算得到的,特征根是廣義奇異值的平方。特征根的個數(shù)是行列個數(shù)中較小者減1。與因子分析方法類似,特征根可以解釋為相應的維度能解釋的數(shù)據(jù)變異性的部分,隨著維度的增加,每個維度能解釋的變異部分遞減,第一維度能解釋的變一部分最大,所有維度能解釋的變異性之和(也就是特征根之和)與數(shù)據(jù)總的變異性(也就是慣量之和)相等。對應分析的目的就是將眾多數(shù)據(jù)反映在一個低維空間,通過直觀圖形找出它們之間的規(guī)律。實際分析時,不需要選擇所有的維度,只需選擇能代表大部分變異性的前幾個維度即可。
(5)因子載荷(coordinate)。與因子分析中因子載荷的作用類似,它反映了相應的行列變量在每個維度中的位置,可以用來區(qū)分行列變量的差異。因子載荷也是變量(案例)在載荷圖中的坐標。
(7)品質(zhì)量(quality)。品質(zhì)量是某個行(列)變量能被選定的維度解釋的部分與被所有維度解釋部分的比例,對于同一變量(樣本),余弦平方值之和就是品質(zhì)量。當選擇所有維度分析時,品質(zhì)量值為1。和因子分析的累積共同度類似,品質(zhì)量可以反映每個變量或樣本被所有選定維度解釋的變異程度。它隨著選定的維度個數(shù)不同而改變。
(8)慣量比例(proportionofinertia)。慣量比例是各維度(公共因子)分別解釋總慣量的比例及累積百分比,類似于因子分析中公共因子解釋能力的說明。
在應用對應分析時,要注意以下問題:
(1)對應分析不能用于相關(guān)關(guān)系的假設檢驗,它只能解釋變量間的聯(lián)系,是一種描述性的統(tǒng)計方法,因此統(tǒng)計的顯著性水平?jīng)]有太大的參考價值。如果想量化分析變量間的聯(lián)系,還要采用對數(shù)線性模型等其他統(tǒng)計方法。
(2)維度要由研究者決定。與因子分析相同,對應分析也是一種減少維度的方法,在分析過程中,需要幾個維度解釋還要研究人員自己決定。由于二維作圖方便,直觀易懂,實際中選用二維的情況比較多。
(3)對應分析對異常值敏感。
(4)研究的樣本要有可比性,多元對應分析中的變量類別應涵蓋研究所需的所有情況。
(5)在解釋圖形變量類別間關(guān)系時,要注意所選擇的數(shù)據(jù)標準化方式,不同的標準化方式會導致類別在圖形上的不同分布。對應分析的分析步驟
(3)進行R型因子分析或Q型因子分析,并由R(或Q)型因子分析結(jié)果推導出Q(或R)型因子分析結(jié)果。
(4)在二維圖上畫出原始變量各個狀態(tài),并對原始變量的相關(guān)性進行分析。對應分析的最后可以對行、列變量分別作出每個組/樣品的坐標,由此能夠?qū)⑿?、列的不同類別反映到同一張二維點圖中,點之間的距離反映了不同類別之間的相似程度,可用來考察各個類別的關(guān)系。具體解釋將結(jié)合本節(jié)后面的例題說明。
2.SPSS操作步驟
(1)首先打開數(shù)據(jù)文件,如圖8-17所示。
(3)在“行”與“列”中分別設置要分析的兩個變量,如圖8-19所示。
(6)回到主畫面點擊“模型”,如圖8-22所示。
(7)在“解的維數(shù)”中可以選擇以多少維度的空間來解釋數(shù)據(jù),通常希望以盡量少的維度來解釋大部分的數(shù)據(jù)變異。圖8-23中的系統(tǒng)值若沒特殊理由通常不加以修改。
(8)點選主畫面的“統(tǒng)計量”
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年甲乙雙方關(guān)于虛擬現(xiàn)實旅游項目投資與合作協(xié)議
- 2024年版:解除婚約財產(chǎn)補償協(xié)議
- 銷售合同范文匯編9篇
- 超細磨剝機行業(yè)行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究分析報告
- 銷售工作計劃范文合集7篇
- 中國襯套閥項目投資可行性研究報告
- 小學生演講稿范文【6篇】
- 漫畫漢服課程設計教案
- 六年級安全教育第一課教案
- 幼兒教育隨筆小班15篇
- 支氣管鏡檢查并發(fā)癥預防及處理
- 山西省晉中市2022-2023學年四年級下學期期末學業(yè)水平監(jiān)測英語試題
- 2023年樁基項目經(jīng)理年度總結(jié)及年后展望
- 企業(yè)社會責任與數(shù)字時代的適應性
- 巴以沖突完整
- Unit5PartALetsspellPartBCLetscheck-Storytime教學設計四年級英語上冊(人教PEP版)
- 垃圾分類督導服務投標方案(技術(shù)方案)
- 2023秋期國開電大本科《法律文書》在線形考(第一至五次考核形考任務)試題及答案
- 2023-2024學年廣西貴港市六年級數(shù)學第一學期期末學業(yè)質(zhì)量監(jiān)測模擬試題含答案
- 上海某C住宅項目成本解析
- 北方民族大學床上用品投標文件
評論
0/150
提交評論