第三章-檢視資料與敍述性統(tǒng)計_第1頁
第三章-檢視資料與敍述性統(tǒng)計_第2頁
第三章-檢視資料與敍述性統(tǒng)計_第3頁
第三章-檢視資料與敍述性統(tǒng)計_第4頁
第三章-檢視資料與敍述性統(tǒng)計_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章檢視資料與敍述性統(tǒng)計3-1檢視資料3-2敘述性統(tǒng)計分析

(DescriptiveStatistics)13-1檢視資料檢視資料是在統(tǒng)計分析之前,必需要作的事,目的是為了確保資料分析結果的正確性。我們整理檢視資料時,常見又可以避免或處理的問題如下:登錄錯誤遺漏值遺漏值的處理偏離值(是否要刪除)檢定多變量分析的基本假設23-1-1登錄錯誤登錄錯誤是很難避免的,只要是有人工輸入的資料,經(jīng)常會發(fā)生登錄錯誤,在筆者的經(jīng)驗中,不管是自行輸入或則找工讀生輸入資料,都曾經(jīng)發(fā)生過登錄錯誤,例(1):輸入性別,男性為1,女性為2,在登錄資料時,很容易發(fā)生資料登錄為12和21,例(2):輸入李克特(Linkert)5點量表,非常不滿意為1到非常滿意為5,在登錄資料時,很容易發(fā)生資料登錄為11,12,23,34,45…等等,這時候應如何處理呢?我們提供最簡單的方式便是利用數(shù)值統(tǒng)計中的次數(shù),最小值(minimum)和最大值(maximum)來檢視資料一旦發(fā)現(xiàn)異常值,則馬上可以回到資料集進行修正。31.開啟範例檔missingdata.sav2.按Analyze

DescriptiveStatistics

Frequencies3.選取Sex4.按>,將Sex選入Variable(s)5.按Statistics,選取Range、Minimum、Maximum6.按Continue,回到Frequencies視窗7.按OK,出現(xiàn)報表結果,如下圖:實務操作如下:4我們登錄性別是男性為1,女性為2,因此Minimum應為1,Maximum應為2,上表中的Maximum為11,顯然是有登錄錯誤,請回原始資料進行修正。輸出報表結果如下:5遺漏值一直也是在數(shù)量方法中,很常碰到的問題,一般在E-mail(word檔)和當面填寫問卷回收後,都會發(fā)覺有漏填,甚至是有大半都未填,這些漏填的值,可能對於結果都有著多多少少的影響,甚至會將結果倒轉,也就是從顯著影響變成不顯著,或則是從不顯著變成了顯著的影響,因此,當遺漏值發(fā)生時,對於遺漏值的處理,我們就必須謹慎小心,適當?shù)厝ヌ幚怼?-1-2遺漏值6遺漏值發(fā)生的原因有很多,有可能是未登錄而產(chǎn)生遺漏值,填答者拒絶回答(隱私的問題…),或則是取樣不適當,也就是找來的填答者,根本不適合填答我們的問題,這些都有可能導致於遺漏值的發(fā)生。當遺漏值發(fā)生時,我們就需要做遺漏值的分析。

1.開啟範例檔missingdata.sav,按Analyze

MissingValueAnalysis2.選取Score,Cost3.按>,將Score,Cost選入QuantitativeVariables,點選Listwise、

Pairwise、EM、Regression,再選取Sex、Income、Location4.按>,將Sex、Income、Location選入CategoricalVariables5.按Descriptives,選取Univariatestatistics、Percentmismatch、Sortbymissingvaluepatterns、ttestswithgroupsformedbyindicatorvariabels、Crosstabulationsofcategoricalandindicatorvariables6.按Continue,回到MissingValueAnalysis視窗

7.按Variables,使用預設Useallquantitativevariables8.按Cancel,回到MissingValueAnalysis視窗

9.按EM,使用預設Normal10.按Continue,回到MissingValueAnalysis視窗11.按Regression,使用預設Residuals12.按Continue,回到MissingValueAnalysis視窗13.按OK,出現(xiàn)報表結果遺漏值的分析78MVA(missingvaluesanalysis)遺漏值分析

UnivariateStatisticsaNumberofcasesoutsidetherange(Q1-1.5*IQR,Q3+1.5*IQR).MissingCount遺漏值的數(shù)量MissingPercent遺漏值百分比報表結果9一般處理遺漏值的方法有(1)只採用填寫完整的資料(2)刪除樣本個數(shù)(3)插補法三大類,我們介紹如下:1.只採用填寫完整的資料2.刪除樣本個數(shù)或變數(shù)3.插補法(Imputationmethod)插補法適用於量化的變數(shù)(metricvariables),常用的方法有(a)使用所有資訊(b)估計取代遺漏的資料兩個方法。

3-1-3遺漏值的處理101.開啟範例檔missingdata.sav2.按Transform

ReplaceMissingValues3.選取Score4.在Method選取Seriesmean,按>,將Score選入NewVariable(s),變成Score_15.選取Cost6.按>,將Cost選入NewVariable(s),變成Cost_1,在Method選取Lineartrendatpoint7.按Change8.按OK,出現(xiàn)報表結果9.我們回到資料檔,會看到插補的數(shù)值,以新的變數(shù)Score_1和

Cost_1儲存,如下圖:實務操作如下:11在Score_1變數(shù)中,用Score變數(shù)的Seriesmean平均數(shù):例如75.78,來代替遺漏值。在Cost_1變數(shù)中,用Cost變數(shù)的線性迴歸所預測的數(shù)值:例如9072.93來代替遺漏值。12偏離值指的是變數(shù)的觀察值明顯的與其它值有所有不同,我們不能因此就判定偏離值的好與壞,而是要依變數(shù)含的內容而定,例如,變數(shù)代表的是企業(yè)的年淨利,若是有正的偏離值,其所代表的是企業(yè)該年表現(xiàn)的很傑出,賺了很多錢,相反的,調查物品的賣出價格時,若是有多個偏離值,其所代表的可能是售價有異常,需要加以檢視,以判定要保留或刪除,以避免偏離值影響正常的研究結果。偏離值發(fā)生的原因很多,常見的有輸入或編碼錯誤,異常的事件發(fā)生,若是具有代表性,則保留偏離值,若是不具有代表性,則刪除此偏離值,異常事件發(fā)生的偏離值,雖然本身是偏離值,但若是與其它變數(shù)結合時,其有相當?shù)拇砗?則我們仍然需要保留此偏離值。有關偏離值的量測,我們會在檢定多變量分析基本假設的實務操作中,一併實作。3-1-4偏離值Outlier13在進行多變量分析之前,我們須先確認收集而來的樣本,必須符合多變量分析的基本假設,有常態(tài)性(normality),同質性(homoscedasticity)也稱為變異數(shù)相等,和線性(linearity),若是變數(shù)和變量無法符合多變量分析的基本假設,則可以透過資料的轉換,以達到符合多變量分析的基本假設,在一般的量化研究中,若是資料未符合多變量分析的基本假設,並且未經(jīng)由資料的轉換而符合多變量分析的基本假設,那麼使用多變量技術,進行統(tǒng)計的假設檢定結果,無法支持其結果無法支持結果的論述,原因就在於其收集的資料,根本就不適用於多變量分析,而是需要其它量化技術的處理。3-1-5檢定多變量分析的基本假設

14常態(tài)性的檢定有多種,我們介紹常用的方式如下:Histogram直方圖Stem-and-leaf根菜圖skewness偏度kurtosis峰度kolmogorov-Smirnov,K-S檢定Shapiro-wilk,S-W檢定常態(tài)性的檢定15直方圖是簡易的判定方式,如下圖,其呈現(xiàn)的分配,如同常態(tài)分配的型態(tài)中間較高,兩邊較低Histogram直方圖16根菜圖是另一種簡易的判別方式,如下圖:

Stem是根,也就是觀察的值,leaf是次數(shù),觀察值發(fā)生的次數(shù),看根葉圖時,必須轉90度看,也是如同常態(tài)分配的型態(tài)中間較高,兩邊較低。Stem-and-leaf根菜圖17Skewness偏度資料分佈的情形,以偏度來看除了正常的常態(tài)分配外,有可能是左偏或右偏的資料分配,如下圖:資料的左偏和右偏的分佈,有時難以判定時,可以用偏度的統(tǒng)計值Zskewness來作統(tǒng)計檢定Zskewness=

N是樣本數(shù)(Hair,1998)我們需要的是Z值小於常態(tài)分配的臨界值,例如,在95%的信心水準下,臨界值是1.96,也就是說,z值介於1.96時,接受為常態(tài)分配,若是在99%的信心水準下,臨界值是+2.58,也就是說z值介於+2.58時,接受常態(tài)分配。18kurtosis峰度資料的分佈,以峰度來看,除了正常的常態(tài)分配外,有可能是高狹峰態(tài)分佈和低闊峰態(tài)分佈,如下圖:資料的高狹峰態(tài)分佈和低闊峰態(tài)分佈,有時難以判定時,可以用峰度的統(tǒng)計值Zkurtosis來作統(tǒng)計檢定Zkurtosis=

N是樣本數(shù)(Hair,1998)我們需要的是Z值小於常態(tài)分配的臨界值,例如,在95%的信心水準下,臨界值是+1.96,也就是說,z值介於+1.96時,接受為常態(tài)分配,若是在99%的信心水準下,臨界值是+2.58,也就是說z值介於+2.58時,接受常態(tài)分配。19Kolmogorov-Smirnov檢定和Shapiro-wilk檢定

Kolmogorov-Smirnov檢定和Shapiro-wilk檢定是常態(tài)性檢定中,最常用的2個方法,因為這兩種檢定都提供了統(tǒng)計檢定的顯著水準,若是達到顯著水準,以95%的信心水準為例,Sig.p0.05,則會拒絶虛無假設–

也就是拒絶了常態(tài)性,我們想要的是”不顯著”,Sig.p>0.05,代表的是符合常態(tài)分配。Homoscedasticity(同質性)

Homoscedasticity(同質性)也稱為變異數(shù)相等,我們檢定變異數(shù)相等的目的是避免依變數(shù)只被部份的自變數(shù)所解釋,特別是在ANOVA單變量變異數(shù)分析和MANOVA多變量變異數(shù)分析,都需要作變異數(shù)相等的檢定,一般最常用的方式如下:依變數(shù)為一個計量變數(shù)(metric)時,適用Levenetest,來檢測單一變數(shù)是否平均分佈於不同組別。依變數(shù)為兩個計量變數(shù)(metric)時,適用Box’sM檢定,來檢測變異矩陣或共變異矩陣的相等性。對於Levenetest和Box’sM檢定,我們在ANOVA和MANOVA章節(jié)有實作和解說。20Linearity線性多變量分析中,另一個重要的基本假設就是Linearity線性,只要是基於線性結合的多項式關係而進行的多變量分析技術,都需要符合線性的特性,例如,多元迴歸(Multipleregression),邏輯迴歸(Logicregression)和結構方程式(SEM),一般用來檢定變數(shù)是否為線性分佈的方法有散佈圖(scatterplots)和簡易迴歸,從散佈圖可以看出資料呈現(xiàn)的型態(tài)是否為線性,從簡易迴歸可以看出非線性部份所呈現(xiàn)的殘差(residuals),殘差會反應出依變數(shù)無法解釋的部份,若是殘差過大,已經(jīng)影響到線性分佈時,就需要透過資料的轉換作處理,將非線性份佈的變數(shù)轉換成線性分佈,我們整理資料的轉換方式如下:變數(shù)在偏度Skewness為平坦時,適用倒數(shù)(例如:)變數(shù)在偏度Skewness左偏時,適用開根號變數(shù)在偏度Skewness右偏時,適用倒數(shù)或log讀者可以視需要將資料轉換成常態(tài)分佈和線性的分佈211.開啟範例檔normaldata.sav2.按Analyze

DescriptiveStatistics

Explore3.選取Score和Cost4.按>,將Score和Cost選入DependentList5.按Statistics,選取Descriptives和Outliers6.按Continue,回到Explore視窗7.按Plots,選Factorlevelstogether、Stem-and-leaf、Histogram、Normalityplots

withtests8.按Continue,回到Explore視窗9.按OK,出現(xiàn)結果報表實務操作如下:22TestsofNormality:常態(tài)性檢定*Thisisalowerboundofthetruesignificance.aLillieforsSignificanceCorrectionScore和Cost變數(shù)經(jīng)由Kolmogorov-Smirnov和Shapiro-Wilk檢定,均為不顯著,化表的是符合常態(tài)分配。報表輸出的結果如下:233-2敘述性統(tǒng)計分析(Descriptive

statistics)敘述性統(tǒng)計就是將收集到的資料,使用各種統(tǒng)計圖表及統(tǒng)計量的計算,清楚的呈現(xiàn)統(tǒng)計的結果。範例:

我們設計的研究問卷如下:本研究問卷共發(fā)出957份,回收有效問卷350份。根據(jù)問卷企業(yè)基本資料部份之填答內容,有公司使用之大型資訊系統(tǒng)、員工人數(shù)、資本額、營業(yè)額、ERP專案預算、公司產(chǎn)業(yè)類別等,經(jīng)編碼輸入資料後,存檔成descriptive.sav。24實務操作如下:1.開啟範例檔descriptive.sav2.按Analyze

DescriptiveStatistics

Frequencies3.在Frequencies視窗,選取所有變數(shù)4.按>,將所有變數(shù)選入Variable(s)5.按Statistics,選取Std.deviation,Variance,Range,Minimum,Maximum,

S.E.Mean6.按Continue,回到Frequencies視窗7.按OK,出現(xiàn)報表結果25敘述統(tǒng)計結果整理回收樣本基本資料描述本研究問卷共發(fā)出957份,回收372份,扣除填答不全與胡亂填答之無效問卷22份,有效問卷350份,有效回收率為36.57%。根據(jù)問卷企業(yè)基本資料部份之填答內容,依公司使用之大型資訊系統(tǒng)、員工人數(shù)、資本額、營業(yè)額、ERP專案預算、公司產(chǎn)業(yè)類別等。資本額企業(yè)年資本額,如下表所示,以2億~10億(不含)佔最多,共152家(43.4%),其次為10億~50億(不含),佔樣本25.1%。2億以上之企業(yè)共佔79.7%。樣本回收企業(yè)2004年資本額分佈情況26公司員工總人數(shù)在公司員工總人數(shù)方面,如下表所示,以100~499人為最多,共有179家(51.1%),其次為100人以下,佔樣本16.6%,500~999人,佔樣本15.1%,1000~1999人為最少,共22家(6.3%)。樣本回收總人數(shù)分佈情況表27營業(yè)額營業(yè)額如下表所示,顯示企業(yè)年營業(yè)額以10億~20億(不含)最多,佔樣本27.1%,其次為10億以下佔樣本25.7%,20億~30億(不含)佔樣本12.0%和30億~50億(不含)佔樣本12.0%,100億以上佔樣本11.7%,50億~100億(不含)佔樣本11.4%。樣本回收企業(yè)營業(yè)額分佈情況28我國ERP專案建置的方式,主要可以分為專案統(tǒng)包與專業(yè)分工兩種類型。外商ERP軟體業(yè)者多採取「專業(yè)分工」的策略,透過企業(yè)管理顧問公司或國際級資訊大廠,以專業(yè)顧問服務與最佳典範經(jīng)驗滿足大型企業(yè)流程再造的需求。而所謂「專案統(tǒng)包」指業(yè)者同時扮演專案建置與ERP軟體開發(fā)的角色。過去,由於臺灣軟體市場規(guī)模太?。ú患百Y訊硬體的十分之一)(資料來源:2003,周樹林),造成本土ERP業(yè)者多採取專案統(tǒng)包的建置策略,並強調軟體修改的彈性以滿足企業(yè)本土化特殊流程的需求,所以大部分的企業(yè)ERP系統(tǒng)屬於客制化的系統(tǒng),故回收問卷回覆多以40.6%「其他」。另外,企業(yè)對於ERP專案資本支出的要求謹慎,其中ERP專案預算低於一千萬高達63.4%,因為導入ERP金額多寡為臺灣地區(qū)企業(yè)主之考慮建置ERP系統(tǒng)之關鍵因素之一,雖然SAP及Oracle擁有技術領先及軟體功能完整之優(yōu)勢,但其高額的導入費用(SAP:一億以上及Oracle:1千萬~五千萬)也令臺灣企業(yè)望之卻步。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論