《應(yīng)用數(shù)理統(tǒng)計》 課件 劉志華 1 數(shù)理統(tǒng)計學(xué)的概念和歷史、2 數(shù)據(jù)與數(shù)據(jù)的獲取、3 SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析_第1頁
《應(yīng)用數(shù)理統(tǒng)計》 課件 劉志華 1 數(shù)理統(tǒng)計學(xué)的概念和歷史、2 數(shù)據(jù)與數(shù)據(jù)的獲取、3 SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析_第2頁
《應(yīng)用數(shù)理統(tǒng)計》 課件 劉志華 1 數(shù)理統(tǒng)計學(xué)的概念和歷史、2 數(shù)據(jù)與數(shù)據(jù)的獲取、3 SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析_第3頁
《應(yīng)用數(shù)理統(tǒng)計》 課件 劉志華 1 數(shù)理統(tǒng)計學(xué)的概念和歷史、2 數(shù)據(jù)與數(shù)據(jù)的獲取、3 SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析_第4頁
《應(yīng)用數(shù)理統(tǒng)計》 課件 劉志華 1 數(shù)理統(tǒng)計學(xué)的概念和歷史、2 數(shù)據(jù)與數(shù)據(jù)的獲取、3 SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第1章

數(shù)理統(tǒng)計學(xué)的概念和歷史

一、什么是數(shù)理統(tǒng)計學(xué)

數(shù)理統(tǒng)計學(xué)研究的內(nèi)容非常廣泛,概括起來可以分為三大類:一是抽樣調(diào)查和試驗設(shè)計,即研究如何對隨機現(xiàn)象進行觀察和試驗,以便更合理準(zhǔn)確地獲得數(shù)據(jù);二是統(tǒng)計推斷,研究的是如何對數(shù)據(jù)進行整理和加工,并對所考察的對象的某些性質(zhì)做出盡可能可靠的判斷。包括:1、特定的統(tǒng)計推斷形式,如參數(shù)估計和假設(shè)檢驗。2、特定的統(tǒng)計觀點,如貝葉斯統(tǒng)計與統(tǒng)計決策理論。3、特定的理論模型或樣本結(jié)構(gòu),如非參數(shù)統(tǒng)計、多元統(tǒng)計分析、回歸分析、相關(guān)分析、序貫分析、時間序列分析和隨機過程統(tǒng)計;三是針對特殊的應(yīng)用問題而發(fā)展起來的分支學(xué)科,如產(chǎn)品抽樣檢驗、可靠性統(tǒng)計、統(tǒng)計質(zhì)量管理等。第1章緒論§1數(shù)理統(tǒng)計學(xué)簡介1、第一時期:20世紀(jì)以前。2、第二時期:20世紀(jì)初到第二次世界大戰(zhàn)結(jié)束。這是數(shù)理統(tǒng)計學(xué)蓬勃發(fā)展達到成熟的時期。3、第三時期:戰(zhàn)后時期。這一時期中,數(shù)理統(tǒng)計學(xué)在應(yīng)用和理論兩方面繼續(xù)獲得很大的進展?!?數(shù)理統(tǒng)計學(xué)的發(fā)展歷史1、模型的選擇和建立。2、數(shù)據(jù)的收集。3、試驗獲取收集數(shù)據(jù),這里的試驗要有代表性,并使所得數(shù)據(jù)便于分析。4、數(shù)據(jù)整理。5、統(tǒng)計推斷。6、統(tǒng)計預(yù)測。7、統(tǒng)計決策。§3數(shù)理統(tǒng)計學(xué)的學(xué)科特點

隨著數(shù)理統(tǒng)計方法在實踐中的應(yīng)用,分析數(shù)據(jù)的過程可以分為確定目標(biāo)數(shù)據(jù)、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲、數(shù)據(jù)分析、結(jié)果可視化及結(jié)果支持決策等步驟,通過有效的數(shù)據(jù)分析以及大數(shù)據(jù)的快速發(fā)展,數(shù)據(jù)驅(qū)動決策的重要性愈發(fā)顯現(xiàn),對統(tǒng)計模塊的深層理解將成為不可或缺的本領(lǐng)。目前常用的統(tǒng)計軟件有:(1)SPSS(StatisticalProductandServiceSolutions)(2)SAS(StatisticalAnalysisSystem)(3)Excel(4)R(TheRProjectforStatisticalComputing)§4應(yīng)用數(shù)理統(tǒng)計的學(xué)習(xí)方法一、自然科學(xué)在自然科學(xué)領(lǐng)域,地震、氣象和水文方面的預(yù)報、地質(zhì)資源的評價是近來年各國學(xué)者研究的熱點。二、生物醫(yī)療醫(yī)學(xué)是較早使用數(shù)理統(tǒng)計方法的領(lǐng)域之一。三、工農(nóng)業(yè)生產(chǎn)在農(nóng)業(yè)中,對田間試驗進行適當(dāng)?shù)脑O(shè)計和統(tǒng)計分析。四、管理科學(xué)為了使生產(chǎn)技術(shù)和管理技術(shù)現(xiàn)代化,經(jīng)濟規(guī)律的重要表達方式之一的數(shù)學(xué)能發(fā)揮其一定的作用。五、人文社會科學(xué)在社會、經(jīng)濟領(lǐng)域方面,數(shù)理統(tǒng)計方法也有很多應(yīng)用,如人口調(diào)查和預(yù)測,心理學(xué)中能力方面的分析等。§5數(shù)理統(tǒng)計的應(yīng)用領(lǐng)域教學(xué)參考書

袁衛(wèi),龐皓,曾五一,賈俊平.統(tǒng)計學(xué)(第三版)[M].北京:高等教育出版社,2009.師義民,徐偉,秦超英,許勇.數(shù)理統(tǒng)計[M].北京:科學(xué)出版社,2015.盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2008楊虎,鐘波,劉瓊蓀.應(yīng)用數(shù)理統(tǒng)計[M].北京:清華大學(xué)出版社,2006.劉強,王琳.應(yīng)用數(shù)理統(tǒng)計[M].北京:電子工業(yè)出版社,2017.配套視頻建設(shè)本書配套視頻將發(fā)布在嗶哩嗶哩網(wǎng)站上,賬號:“找到自己的北極星”。https:///193923607/channel/series§1總體、個體、變量與數(shù)據(jù)總體:所研究對象的全體,稱為總體(或母體)。例如:生產(chǎn)線上生產(chǎn)的零件。研究中,我們往往會關(guān)心總體的某些特征(指標(biāo)或變量),比如關(guān)心零件的尺寸、重量等特征。如果總體有兩個以上的指標(biāo),可以逐個研究,也可以作為指標(biāo)向量來研究。反映總體特征的這些指標(biāo)(變量),實際上是一維或者多維隨機變量。例如:高速路上某定點的平均車速、風(fēng)速、溫度。第二章數(shù)據(jù)與數(shù)據(jù)的獲取§1總體、個體、變量與數(shù)據(jù)第二章數(shù)據(jù)與數(shù)據(jù)的獲取2.個體(或成分):組成總體的元素。按個體數(shù)目是否有限,分為有限總體和無限總體。3.變量(或指標(biāo)):反映總體或個體的特征的量。4.變量(指標(biāo))值或數(shù)據(jù):在研究一個總體時,所要研究的每個特征(指標(biāo)或變量),在每個個體上都有一個反映該特征的具體的描述(數(shù)字、文字),這些特征的具體描述被稱為指標(biāo)值(變量值),或數(shù)據(jù)。在統(tǒng)計學(xué)上,變量還可以依據(jù)其變量值特征分為:①定量變量:也稱數(shù)值變量。用定量的方法對觀察單位進行測量得到的資料被稱作數(shù)值變量,亦稱計量資料,一般有度量單位。②定性變量:也稱分類變量?!?

數(shù)據(jù)類型2.2.1數(shù)據(jù)測度的分類1.刻度級(度量):可進行四則運算和基于此的延伸運算,它分為兩個子級別1)定比級數(shù)據(jù)定比級的數(shù)據(jù),是數(shù)據(jù)最高級的測度等級。它是具有一定單位的實際測量值,例如尺、丈、米、斤、公斤、元等。這類數(shù)據(jù)可以做加、減、乘、除運算以及基于加、減、乘、除的運算。在統(tǒng)計分析中,定比級的數(shù)據(jù)只能用數(shù)字來表示。2)定距級數(shù)據(jù)也被稱為“間距級”數(shù)據(jù),是只能做加減運算,不能做乘除運算的數(shù)據(jù)。第二章數(shù)據(jù)與數(shù)據(jù)的獲取§2

數(shù)據(jù)類型2.2.1數(shù)據(jù)測度的分類2.定序級:也稱為順序級,是定序尺度,該級別的數(shù)據(jù),可以用數(shù)字來表示,也可以用字母來表示。但我們建議用數(shù)字表示,這樣便于靈活應(yīng)用。序次級的數(shù)據(jù)是只能夠比較大小,而不能夠做加減運算,更不能做乘除運算的數(shù)據(jù)。例1受教育程度這個序次測度等級的變量,可以采用:文盲半文盲=1,小學(xué)=2,初中=3,高中=4,大學(xué)=5。3.定類級:也稱為名義級,定類尺度,僅僅是一種標(biāo)志,沒有序次關(guān)系。該級別的變量值,可以用數(shù)字表示,也可以用文字表示。例2顧客所喜愛的顏色、性別,可以將男性編碼定為1,女性編碼定為2。第二章數(shù)據(jù)與數(shù)據(jù)的獲取§2

數(shù)據(jù)類型2.2.2不同測度類型數(shù)據(jù)的用途特點

等級越高,應(yīng)用范圍越廣泛。等級越低,應(yīng)用范圍越受限。一般等級高的數(shù)據(jù),可以兼有等級低的數(shù)據(jù)的功能,反之不行。定類級的數(shù)據(jù),通常是樣本分類(分組)的依據(jù),當(dāng)然也可以用來做獨立性檢驗。第二章數(shù)據(jù)與數(shù)據(jù)的獲取例1受教育程度這個序次測度等級的變量,可以采用:文盲半文盲=1,小學(xué)=2,初中=3,高中=4,大學(xué)=5。

例2顧客所喜愛的顏色、性別,可以將男性編碼定為1,女性編碼定為2。第二章數(shù)據(jù)與數(shù)據(jù)的獲取例3研究某群體中個體的網(wǎng)癮嚴重程度時,把嚴重程度的測度標(biāo)準(zhǔn)設(shè)為:無、輕度、中度、嚴重、非常嚴重。a.給所關(guān)心的變量命名b.判別這個變量的測度類型。例4在剛?cè)雽W(xué)的某專業(yè)的新生中隨機地抽取10名學(xué)生,并收集如下三個變量的數(shù)據(jù):X:選課課程的門數(shù);Y:課本總費用;Z:被抽取學(xué)生的性別。問:①總體是什么?②此總體是有限總體還是無限總體?③樣本是什么?④這三個變量的測度類型是什么?第二章數(shù)據(jù)與數(shù)據(jù)的獲取例5

企業(yè)質(zhì)量管理員在生產(chǎn)線上某環(huán)節(jié)隨機地抽取被加工的部件,并檢驗記錄所抽取的部件的下列信息:A:有缺陷還是無缺陷;B:加工此部件工人的工號;C:部件的重量。問:①被研究對象的總體是什么?②此總體是有限總體還是無限總體?③樣本是什么?④上述三個變量是分類變量還是數(shù)值變量?第二章數(shù)據(jù)與數(shù)據(jù)的獲取§3

獲得數(shù)據(jù)的抽樣方法、調(diào)查方法與問卷設(shè)計2.3.1常用的抽樣方法

1.系統(tǒng)抽樣系統(tǒng)抽樣也稱為每n個名字選擇方法。這是先把總體中的每個單元編號,然后隨機選取其中之一作為抽樣的開始點進行抽樣。根據(jù)預(yù)訂的樣本量決定“距離”n。在選取開始點之后,通常從開始點開始按照編號進行所謂的等距抽樣。第二章數(shù)據(jù)與數(shù)據(jù)的獲取2.分層(分類)抽樣

分層抽樣是指按照總體中個體的某特征,把總體中的個體分為若干群(類),然后,對各個群內(nèi)的個體進行簡單隨機抽樣。例如,調(diào)查某地區(qū)居民消費狀況,應(yīng)事先把該地區(qū)居民分為城市居民、城鎮(zhèn)居民、農(nóng)村居民等幾類,然后對每一類的個體用簡單隨機抽樣的方法進行抽樣。這樣就確保了每一類都有相應(yīng)比例的代表,能比較準(zhǔn)確地反映居民消費狀況。分層抽樣的一個副產(chǎn)品就是同時可以得到各類的結(jié)果。第二章數(shù)據(jù)與數(shù)據(jù)的獲取3.整群抽樣

整群抽樣是指:將總體中的各個個體按照某一標(biāo)志量分為若干群,然后以群為單位,對群進行(簡單)隨機抽樣,接著對抽出來的群進行普查。這是先把總體劃分成若干群(Cluster),和分層抽樣不同,這里的群是由不相似或異類的(Heterogeneous)個體組成。比如,對某縣進行調(diào)查,首先在所有村中選取若干村子,然后只對這些選中的村子的人進行全面或抽樣調(diào)查。整群抽樣的主要應(yīng)用是所謂區(qū)域抽樣(Areasampling),那時,群就是縣、鎮(zhèn)、街區(qū)或者其他適當(dāng)?shù)年P(guān)于人群的地理劃分。第二章數(shù)據(jù)與數(shù)據(jù)的獲取4.多級抽樣

在群體很大時,往往在抽取若干群之后,再在其中抽取若干子群,甚至再在子群中抽取子群,等等。最后只對最后選定的最下面一級進行調(diào)查。比如在全國調(diào)查時,先抽取省,再抽取地市,再抽取縣區(qū),再抽取鄉(xiāng)、村直到戶。在多級抽樣中的每一級都可能采取各種抽取方法。因此,整個抽樣計劃可能比較復(fù)雜,也成為多級混合型抽樣。例6分層抽樣的做法是什么?第二章數(shù)據(jù)與數(shù)據(jù)的獲取2.3.2常用的調(diào)查方法(1)電話訪談法。(2)郵件訪談法。(3)人員訪談法。(4)電子郵件訪談。(5)其他電子方式的訪談。第二章數(shù)據(jù)與數(shù)據(jù)的獲取2.3.3問卷與問卷設(shè)計1.問卷問題的設(shè)立1)從研究的目標(biāo)出發(fā),設(shè)定問卷中的問題。問卷問題的設(shè)立,通常是從對研究目標(biāo)的分析開始的。依據(jù)研究的目標(biāo),確定需要收集哪些數(shù)據(jù),從而確定設(shè)置哪些問題。例如,要研究中國網(wǎng)絡(luò)化營銷的發(fā)展策略,就必須了解中國支撐網(wǎng)絡(luò)化營銷發(fā)展的基礎(chǔ)設(shè)施情況、生活工作中利用網(wǎng)絡(luò)的普及情況,還要了解妨礙網(wǎng)絡(luò)營銷發(fā)展的因素,以及相關(guān)人員對這些障礙因素的重要性的判斷。第二章數(shù)據(jù)與數(shù)據(jù)的獲取2)基于對變量關(guān)系的猜想,設(shè)定問卷中的問題。在問卷問題的設(shè)立中,一個非常重要的方面是對變量(特征)之間的相互關(guān)系的猜想。只有當(dāng)你猜想到某些變量(特征)可能與另外一些變量(特征)有某種關(guān)系時,你才可能會把相關(guān)變量設(shè)置在問卷中。猜想來源于對現(xiàn)實世界和課題研究的觀察、分析與思考。對問題的思考深度決定了問卷的深度,所以,問卷不是產(chǎn)生于研究的開始,而是產(chǎn)生于研究的中途。問卷是思考的結(jié)晶。例如,在研究算法中某兩個參數(shù)的相關(guān)關(guān)系時,一個直觀的做法是:在分析的基礎(chǔ)上,把兩個參數(shù)的配對取值列出來,用仿真軟件對兩個參數(shù)的重要性進行加權(quán)試驗,看對算法性能的影響。第二章數(shù)據(jù)與數(shù)據(jù)的獲取3)從文獻閱讀中產(chǎn)生問題。例如,在研究計算機網(wǎng)絡(luò)中兩個參數(shù)對網(wǎng)絡(luò)性能影響的問題時,通過文獻閱讀,發(fā)現(xiàn)有學(xué)者們提出的多個算法,此時,可以在問卷設(shè)計中,預(yù)留出數(shù)據(jù)收集區(qū)域,證實或證偽這些學(xué)者的判斷。4)從數(shù)據(jù)處理的角度考慮問題的設(shè)立。設(shè)立問卷問題的另一個關(guān)鍵思考角度是,從數(shù)據(jù)處理方法的角度來判斷需要設(shè)立哪些問題。不考慮數(shù)據(jù)處理的方法,常常導(dǎo)致許多數(shù)據(jù)難以得到有效的利用。第二章數(shù)據(jù)與數(shù)據(jù)的獲取2.問卷問題設(shè)立的原則1)“能夠獲得誠實的回答”的原則。例如:某大學(xué)想了解夜大考生情商,就增加了情商試題:當(dāng)你受挫折后,你的反應(yīng)是A.非常沮喪,長時間不能恢復(fù)正常情緒B.很沮喪,較長時間不能恢復(fù)正常情緒C.很沮喪,但很快能恢復(fù)正常情緒D.無明顯情緒變化,放棄就是了E.越失敗,越受挫折,越想再干結(jié)果,絕大多數(shù)學(xué)生都選擇了最后一種。因為哪個考生不想被錄取呢?既然想被錄取,多數(shù)都不愿意暴露自己的弱點。第二章數(shù)據(jù)與數(shù)據(jù)的獲取2)單選問題的備選答案應(yīng)當(dāng)是對一個答案空間的完整劃分。單選問題的備選答案必須分布在同一個維度上,是同一個答案空間的完整的分割。完整劃分的含義是:備選答案之間不能有交集,也不能有遺漏。例如,如下問題的5個備選答案,就是一個答案空間的完整分割。在所有行業(yè)(包括科、教、文、體、衛(wèi)、宗教、群眾組織)設(shè)立行政等級制,是(單選):A.有益無害的B.利大弊小的C.利弊相當(dāng)?shù)腄.利小弊大的E.有害無益的。這5個答案都分布在“利弊”這個維度上,而且沒有交集,也沒有遺漏。如果備選答案之間有交集,就會使一些應(yīng)答者無法回答。例如,年收入的備選答案如果寫成“A.5000元以下B.5000元至10000萬C.10000元至20000萬……”那么年收入為10000元的人就不知道選B還是選C了。第二章數(shù)據(jù)與數(shù)據(jù)的獲取3)多選題的備選答案必須是互不排斥的。多選問題的備選答案對于選擇而言必須是互不排斥的。例如,答案分布在兩個以上的維度上,或者一個備選答案同時跨在兩個以上的維度上,這樣,被多選的答案就可以互不排斥。4)問題的陳述及備選答案不能有多重含義。無論是多選還是單選題(特別是單選題),任何一個備選答案以及問題的陳述都不能有多重含義。例如,你認為某品牌的礦泉水是可口、清甜、富含微量元素的嗎?A.是B.不是選擇了“是”的人是因為可口,還是因為清甜,還是因為富含微量元素,還是其中兩者或三者都是?選擇了“不是”的人,是因為不可口,還是因為不清甜?這樣的問題使你無法清楚的分析顧客的偏好。第二章數(shù)據(jù)與數(shù)據(jù)的獲取5)問題設(shè)計的用語要含義明確。在問卷問題的陳述或備選答案中,凡是用到的概念都必須含義明確,否則由于不同的人對一個用語(術(shù)語)有不同的理解,即使每個應(yīng)答者認真回答了,所得到的數(shù)據(jù)也是沒有意義的。因此,對問卷問題中用到的術(shù)語,一般都要給一個明確的界定。例如:您是網(wǎng)民嗎?A是B不是如果不對“網(wǎng)民”做一個界定,回答的結(jié)果就很難應(yīng)用。對于這個問題的較好的問法,是對上網(wǎng)的頻次做一個分割,請應(yīng)答者選擇,從而了解被調(diào)查對象的上網(wǎng)頻次的分布情況。另外,如果你要調(diào)查一個地區(qū)的犯罪情況,就應(yīng)當(dāng)界定何為犯罪,搶劫時犯罪,街頭打架是不是?打架到何種程度是犯罪?已經(jīng)破案了犯罪事件可以包括在內(nèi),沒有破案的算不算?如何算?第二章數(shù)據(jù)與數(shù)據(jù)的獲取6)在問題的陳述中,要對所詢問行為的時間、方式、目的做必要的限定。在問卷問題的陳述中,對已經(jīng)發(fā)生或即將發(fā)生的某種行為的詢問要限定時間范圍。例如,如下問題就讓人難以回答:如果您沒有電腦的話,您準(zhǔn)備購買嗎?A.肯定會B.可能會C.不會D.不確定沒有時間范圍的限定(例如一年內(nèi)),應(yīng)答者的理解不同,答案也將不同??偟恼f來,不僅要從研究目的的角度,還要從應(yīng)答者的角度來審核問卷問題設(shè)置的合理性。第二章數(shù)據(jù)與數(shù)據(jù)的獲取7)在問卷問題中,凡是能夠限定數(shù)量范圍的要盡量限定。在問卷問題中,要盡量少用模糊語言來表示數(shù)量(頻率)問題,而要用數(shù)量范圍表示。例如:你在日常生活中,一個月在餐館(包括大小餐館、大排檔等)吃飯的頻率是A.從不B.偶爾C.有時D.經(jīng)常正確的表述應(yīng)當(dāng)是:你在日常生活中,一個月在餐館(包括大小餐館、大排檔等)吃飯的頻率(平均)是()A.不到1次B.1~2次C.3~4次D.5次以上這就是說,在設(shè)立問題時,只要能夠確切表示數(shù)量范圍的,一定不要用模糊語言來表示。第二章數(shù)據(jù)與數(shù)據(jù)的獲取8)問卷的長度。一般說來,問卷不能太長。太長了,應(yīng)答者在回答后面的問題時,會非常草率或者不回答,或者由于后面的問題沒有回答而不返回問卷,從而降低問卷的回收率。一般來說,問卷的長度應(yīng)使應(yīng)答時間在20分鐘左右為宜。如果是商場攔截類的問卷,一般在3分鐘之內(nèi)為宜,最好不要超過5分鐘,否則容易被拒絕回答。9)合理安排不同難度的問題的先后順序。把相對容易回答的問題、有趣的問題放到問卷的前面,把相對難回答的問題,放到問卷的后面。這樣,應(yīng)答者容易進入回答過程。如果反過來,把難回答的問題放在問卷的前面,應(yīng)答者一看問卷就產(chǎn)生了拒絕回答的情緒,問卷的回收率就會受到影響。第二章數(shù)據(jù)與數(shù)據(jù)的獲取作業(yè):課后1-5題.第二章作業(yè)§1使用SPSS的基礎(chǔ)知識3.1.1SPSS的啟動與退出3.1.2定義變量3.1.3輸入數(shù)據(jù)3.1.4保存數(shù)據(jù)3.1.5讀入數(shù)據(jù)3.1.6編輯數(shù)據(jù)3.1.7生成新變量3.1.8合并數(shù)據(jù)文件第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析§3.2樣本數(shù)據(jù)結(jié)構(gòu)的基本特征分析:集中趨勢的統(tǒng)計第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析3.2.1SPSS的頻率模塊從主菜單的【分析】開始,依次點擊【分析】→【描述統(tǒng)計】→【頻率】,就可以進入到頻次分析模塊。這個模塊不僅能夠分析樣本數(shù)據(jù)的頻次、頻率,而且可以統(tǒng)計出樣本數(shù)據(jù)的均值、中位數(shù)、眾數(shù)、極大值、極小值、上下四分點、極差、方差、標(biāo)準(zhǔn)差、均值標(biāo)準(zhǔn)差、以及斜度、峰度等數(shù)據(jù)。此外,還有部分作圖功能,如條形圖、餅圖、直方圖等?!?.2樣本數(shù)據(jù)結(jié)構(gòu)的基本特征分析:集中趨勢的統(tǒng)計第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析3.2.2數(shù)據(jù)的集中趨勢測度值的計算方法不論樣本數(shù)據(jù)是刻度級、順序級還是名義級,在有限的樣本數(shù)據(jù)集合中,我們面臨的第一個直觀問題,就是同樣的數(shù)據(jù)值(樣本值)出現(xiàn)的次數(shù)問題。下面來看這兩個概念。頻次:在一個數(shù)據(jù)集合中,同一個數(shù)據(jù)值(樣本值)出現(xiàn)的次數(shù)。 頻率:設(shè)該數(shù)據(jù)集合的數(shù)據(jù)總個數(shù)為n,則

§3.2樣本數(shù)據(jù)結(jié)構(gòu)的基本特征分析:集中趨勢的統(tǒng)計第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析3.2.2數(shù)據(jù)的集中趨勢測度值的計算方法 總體:對一個群體(人群,工廠,學(xué)校等由個體組成的集體),為研究其某一個數(shù)量指標(biāo)而試驗的全部可能值稱為總體。一個總體對應(yīng)一個隨機變量X。 樣本:樣本指的是與總體X的分布完全一樣的n個相互獨立(獨立性)的一組隨機變量(Xi的分布函數(shù)和X的相同),其中稱為樣本容量。而對樣本做一次觀察得到的具體的試驗數(shù)據(jù),稱作樣本值,用小寫字母表示。在日常生活中,人們常說哪個地方窮,哪個地方富,也常說,哪個國家人高,哪個國家人矮。說這些話的人絕對不是說一個地方的所有人都比另一地方的所有人富,也不是說,一個國家的人都比另一個國家的所有人都高,他們僅僅省略了“平均起來”、“大部分”等詞語?!?.2樣本數(shù)據(jù)結(jié)構(gòu)的基本特征分析:集中趨勢的統(tǒng)計第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析3.2.2數(shù)據(jù)的集中趨勢測度值的計算方法 樣本均值:又稱樣本平均數(shù),僅適用于刻度級的數(shù)據(jù),指的是樣本值的算術(shù)平均數(shù),記為。它是描述樣本數(shù)據(jù)的集中趨勢的最主要的統(tǒng)計量。根據(jù)數(shù)據(jù)表示形式的不同,樣本平均數(shù)有不同的計算公式。對于未經(jīng)分組整理的樣本數(shù)據(jù),樣本均值的計算公式為

§3.2樣本數(shù)據(jù)結(jié)構(gòu)的基本特征分析:集中趨勢的統(tǒng)計第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析3.2.2數(shù)據(jù)的集中趨勢測度值的計算方法 對于經(jīng)分組整理的樣本數(shù)據(jù),樣本均值的計算公式為

其中,表示組中間值;表示頻次或次數(shù)。第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析例4某地區(qū)抽樣調(diào)查職工月獎金資料如下:計算平均月獎金。解:

人均月獎金(元)職工人數(shù)(人)10~2020~3030~4040~5050~6060~7070~9090~1006102030402406020第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析例5某工廠抽樣調(diào)查職工生產(chǎn)情況如下,求工廠平均一周生產(chǎn)的零件數(shù)?

解:一周生產(chǎn)零件數(shù)工人數(shù)fi組中間值xixifi向上累計頻數(shù)向下累計頻數(shù)60以下60-7070-8080-9090~100合計72125198805565758595---3851365187516157606000728537280---807352278---第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析樣本眾數(shù):樣本數(shù)據(jù)集合中出現(xiàn)頻次最高的那個樣本值,稱為樣本眾數(shù)。在一般情況下,“樣本眾數(shù)”被簡稱為“眾數(shù)”,用表示。在許多情況下,一個樣本數(shù)據(jù)集合中出現(xiàn)頻次最高的樣本值只有一個,這時的眾數(shù)是最普通的眾數(shù),稱為單一眾數(shù),簡稱為該樣本數(shù)據(jù)集合的(樣本)眾數(shù)。但顯然,在一個樣本數(shù)據(jù)集合中,也可能出現(xiàn)有多個“出現(xiàn)頻次最高的數(shù)據(jù)”的情況。按照上述定義,這個樣本數(shù)據(jù)集合的眾數(shù)應(yīng)當(dāng)也有多個。此時的眾數(shù)稱為復(fù)眾數(shù)。當(dāng)然,也可能出現(xiàn)極端情況:在樣本數(shù)據(jù)集合中,所有的不同的樣本值出現(xiàn)的頻次都相同。按照上述定義,這個樣本數(shù)據(jù)集合中的每一個不同的樣本值,都應(yīng)當(dāng)是眾數(shù)。但是如果一個特征(變量),所有的被考察對象都相同,這個特征就不再有特殊性。所以,這時,我們也稱這個數(shù)據(jù)集合沒有眾數(shù)。如例3的表3.2中就沒有眾數(shù)結(jié)果的輸出。第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析樣本中位數(shù)(Samplemedian)對樣本數(shù)據(jù)集合中的所有數(shù)據(jù)的排序,結(jié)果為,n為樣本容量,則在上述排序的序列中,把處于“正中間位置”上的數(shù)據(jù)稱為樣本中位數(shù),用表示。這里有兩個概念①中位數(shù)的位置,即所有數(shù)據(jù)從小到大排序后的“正中間位置”;②中位數(shù)本身,也就是“正中間位置”上的值。第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析樣本中位數(shù)的計算:(1)當(dāng)n為奇數(shù)時,先求出中位數(shù)的位置,然后,求出中位數(shù)位置上的樣本值即為中位數(shù)

(2)當(dāng)n是偶數(shù)時,中位數(shù)的位置為,樣本中位數(shù)為

總結(jié)一下就是,當(dāng)中位數(shù)的位置為整數(shù)時,那么這個位置上的值就是中位數(shù)的值;當(dāng)中位數(shù)的位置不為整數(shù)時,中位數(shù)用下面的公式來計算:

第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析例7某車間同工種的10名工人完成個人生產(chǎn)定額百分數(shù)如下(%):

9398123118158121146l17l08105試根據(jù)上述資料求出工人完成生產(chǎn)定額的中位數(shù)是多少?解:該車間工人完成個人生產(chǎn)定額排序如下:93、98、105、108、117、118、121、123、146、158中位數(shù)位置

樣本中位數(shù)

另外,以例2為分析對象,按照上述原則,可以計算出樣本數(shù)據(jù)集合的中位數(shù),如表3.2所示,大家可以自行練習(xí)。§3.3樣本數(shù)據(jù)的離散特征分析第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析樣本數(shù)據(jù)的離散特征描述主要包括兩大類,一是點狀描述:極值、四分位點、百分位點;二是區(qū)間描述,如樣本數(shù)據(jù)集合的極差(最大值與最小值之差)、四分位距與離差。4951535558606162626568696972737476767778787979797979808080818183838586868689909091929293949595969799例8

某班50名同學(xué)“統(tǒng)計學(xué)”課程的考試成績排列如下表3.4所示,數(shù)據(jù)文件見“CH3例8統(tǒng)計學(xué)成績50”。請計算成績的四分位數(shù)、分割點(10相等組)、百分位數(shù)(25.0、33.0、75.0)、平均值、中位數(shù)、眾數(shù)、合計、標(biāo)準(zhǔn)偏差、方差、范圍、最小值、最大值、平均值的標(biāo)準(zhǔn)誤差?!?.3樣本數(shù)據(jù)的離散特征分析第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析(1)在調(diào)入數(shù)據(jù)后,按照前面的介紹,點擊:【分析】→【描述統(tǒng)計】→【頻率】,進入頻率分析模塊。(2)在頻率分析模塊主窗口(圖3.5)中,默認左下角的“顯示頻率表格”復(fù)選框,然后點擊右上角的Statistics按鈕。系統(tǒng)彈出頻率模塊的統(tǒng)計子窗口,然后選擇四分位數(shù)、分割點(10相等組)、百分位數(shù)(25.0、37.0、75.0)、平均值、中位數(shù)、眾數(shù)、合計、標(biāo)準(zhǔn)偏差、方差、范圍、最小值、最大值、平均值的標(biāo)準(zhǔn)誤差。(3)點擊【確定】,系統(tǒng)輸出結(jié)果,如表3.5所示。表3.5某班同學(xué)的一次“統(tǒng)計學(xué)”成績N有效50百分位數(shù)20(P)65.60缺失0

2569.00標(biāo)準(zhǔn)平均值誤差1.835

3776.87標(biāo)準(zhǔn)偏差12.973

4078.00方差168.296

5079.00范圍50

6081.00最小值49

7589.25最大值99

8090.80第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

3.3.2對樣本數(shù)據(jù)離散特征的描述(1)范圍范圍也稱全距、極差,是組數(shù)據(jù)中的最大值與最小值之差。例如,全班學(xué)生的成績最高分為99分,最低分為53分,則全班分數(shù)的范圍為99-53=46(分)。范圍簡明地反映了組數(shù)據(jù)的離散程度,但是它所關(guān)注的只是數(shù)組中的最大值和最小值,丟棄的信息太多,而且只要最大值或最小值有所變化,范圍馬上就會跟著變,說明范圍的穩(wěn)定性不好。因此,范圍并不能全面地反映數(shù)據(jù)的離散程度。例如,以例5為分析對象,按照上述原則,可以計算出最小值為49,最大值為99,范圍是50,見表3.5的第7、8行。(2)四分位數(shù)、分割點、百分位數(shù)下四分位數(shù):一組數(shù)據(jù)按一定順序排列好之后,將所有數(shù)據(jù)分為四等份,下四分位數(shù)是從最小值到中位數(shù)之間的數(shù)組成的數(shù)組的中位數(shù),是把排序后的樣本數(shù)據(jù)集合,分成了左右兩部分,使左邊部分包含25%的樣本總個數(shù),右邊部分包含75%的樣本總個數(shù)。上四分位數(shù):是從中位數(shù)到最大值之間的數(shù)組成的數(shù)組的中位數(shù),是把排序后的樣本數(shù)據(jù)集合,分成了左右兩部分,使左邊部分包含75%的樣本總個數(shù),右邊部分包含25%的樣本總個數(shù)。第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

四分位距:指上四分位數(shù)與下四分位數(shù)之差,也稱為四分位差。四分位距表明了數(shù)據(jù)在中位數(shù)周圍波動的情況,如果四分位距的值比較小,則說明數(shù)據(jù)比較集中在中位數(shù)附近;反之則比較分散。與中位數(shù)一樣,當(dāng)一組定距數(shù)據(jù)或定比數(shù)據(jù)包含有特大或特小的極端值時,用四分位距表示數(shù)據(jù)的離中趨勢比較合適。四分位距在描述數(shù)據(jù)的離散程度上要比全距好,反映了數(shù)組中50%的數(shù)據(jù)的離散程度,但它依然沒有利用全部數(shù)據(jù),還有50%的數(shù)據(jù)沒有考慮在內(nèi),同時,四分位距也不便于做進一步的數(shù)學(xué)運算。

百分位數(shù):如例5中37%的百分位數(shù)的含義是,把排序后的樣本數(shù)據(jù)集合,分成了左右兩部分,使左邊部分包含37%的樣本總個數(shù),右邊部分包含63%的樣本總個數(shù)。37%的百分位數(shù)記作。

分割點:如例8中輸出5相等組,那么相當(dāng)于輸出20%、40%、60%、80%的百分位數(shù)。第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析下面以下四分位數(shù)和37%的百分位數(shù)為例,講解具體的計算過程。在例8中,SPSS輸出了下四分位數(shù)和37%的百分位數(shù)的值,分別為69.00和76.87。計算步驟:①設(shè)n表示樣本總數(shù),下面先計算下四分數(shù)的位置,樣本數(shù)據(jù)排序后如表3.4所示,可見位置左邊的值為69,右邊的值為69。②代入公式

于是

SPSS的計算結(jié)果見表3.5中第二行右側(cè)所示。第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

同理,37%的百分位數(shù)的計算也是先求一下位置:代入下面的公式于是

第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

(3)樣本方差、樣本標(biāo)準(zhǔn)差樣本離差:每個樣本與樣本均值之差:,。樣本離差又稱為樣本中心化數(shù)據(jù)。樣本方差:離差平方和與n-1的比值,用表示其基本含義是通過樣本個數(shù)對“偏高情況”的影響,來較為客觀地反映樣本數(shù)據(jù)對樣本均值的平均偏高情況。樣本標(biāo)準(zhǔn)差s的定義為

第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

(4)平均值的標(biāo)準(zhǔn)誤差(S.E.mean)

從一個數(shù)量為N的總體中抽取了n個樣本,由這n個樣本的數(shù)據(jù)可以進行統(tǒng)計,常用的統(tǒng)計量是均值、標(biāo)準(zhǔn)差與變異系數(shù)。樣本均值是由n個樣本平均所得,部分消除了樣本的不均勻性并降低了偶然誤差所帶來的誤差。所以樣本均值這一數(shù)值要比單個的樣本數(shù)值更接近總體均值。我們要用這一組樣本的均值來估計總體的均值。但樣本均值也有誤差,樣本數(shù)量n越大,這樣計算得到均值的誤差就越小。當(dāng)樣本數(shù)量n達到總體數(shù)量N時,樣本均值也就成為了總體均值。用樣本均值來估計總體均值會有誤差,所以我們要估計一下這個誤差大小,用來表示這一誤差大小的就是均值標(biāo)準(zhǔn)誤差。它是由這n個樣本統(tǒng)計出來的標(biāo)準(zhǔn)差除以其樣本數(shù)n,然后再開方所得。由于當(dāng)X服從分布時,服從分布,因此,是總體均值的標(biāo)準(zhǔn)誤差。是樣本均值的標(biāo)準(zhǔn)差,即平均值的標(biāo)準(zhǔn)誤差(S.E.mean)。

第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

(5)峰度和偏度在統(tǒng)計分析中,許多方法是建立在數(shù)據(jù)總體是正態(tài)分布的基礎(chǔ)上的,這時就要知道數(shù)據(jù)總體的分布是否為正態(tài)分布。判斷一個分布是否為正態(tài)的方法很多,較簡單的情況,人們是從兩個方面考察一個分布與正態(tài)分布的偏差情況的,即這里介紹的峰度和偏度量法。 偏度(Skewness),是統(tǒng)計數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計數(shù)據(jù)分布非對稱程度的數(shù)字特征。偏度(Skewness)亦稱偏態(tài)、偏態(tài)系數(shù)。 峰度(Peakedness;Kurtosis)又稱峰態(tài)系數(shù),是表征概率密度分布曲線在平均值處峰值高低的特征數(shù)。設(shè)峰度以表示,正態(tài)分布的峰度為3。一般而言,以正態(tài)分布為參照,峰度可以描述分布形態(tài)的陡緩程度,若,則稱分布具有不足的峰度,若,則稱分布具有過度的峰度,如圖3.14所示。注意,個別的軟件會將峰度值減3。

第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

(6)變異系數(shù)方差和標(biāo)準(zhǔn)差雖然可以反映數(shù)據(jù)對平均值的離散情況,但它們對單位不同的數(shù)據(jù),或單位相同而兩個平均數(shù)相差較大的數(shù)據(jù),都無法比較差異的大小。而實際中,很多的變量有著不同的度量單位,只有剔除了度量單位的影響后,標(biāo)準(zhǔn)差之間的比較才有意義。例如,0.5秒對課程時間的誤差并不是那么大,但對于宇宙飛船探測等一些高精密科研指標(biāo)來說,誤差卻不可忽視。這時,就需要用變異系數(shù)來比較了。 變異系數(shù)定義為:標(biāo)準(zhǔn)差與均值之比。 樣本變異系數(shù)定義為:樣本標(biāo)準(zhǔn)差與樣本均值之比。從理論上講,只有對定比級數(shù)據(jù),如身高、時間、長度等才可以計算變異系數(shù),而一般按等級劃分的學(xué)科成績,如:優(yōu)、良、中、差,往往既不等距,又無絕對零點,所以嚴格來講,對學(xué)科成績不能計算變異系數(shù)。但當(dāng)測驗編制得較好,兩科成績的平均數(shù)又相差較大時,也可以勉強使用變異系數(shù)進行比較。

第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

(7)標(biāo)準(zhǔn)化數(shù)據(jù)為了考察樣本觀測值與樣本平均值之間距離的大小,把樣本數(shù)據(jù)的所有離差值除以樣本標(biāo)準(zhǔn)差,得到標(biāo)準(zhǔn)化數(shù)據(jù)

在調(diào)入數(shù)據(jù)后,點擊:【分析】→【描述統(tǒng)計】→【描述】,進入描述性分析模塊,此時在彈出的窗口中選擇左下角的“將標(biāo)準(zhǔn)化得分另存為變量”,則系統(tǒng)會將你選擇的一個或多個變量做標(biāo)準(zhǔn)化處理,并作為新的變量存入“數(shù)據(jù)視圖”窗口中,自動賦予標(biāo)準(zhǔn)化變量名,在以前的變量名前加Z。

§3.4樣本數(shù)據(jù)特征的圖形表示第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

3.4.1散點圖散點圖(Scatterplot)可以用來描述兩個甚至多個數(shù)量變量的關(guān)系。對兩個變量來說,在圖中,每一個點代表一個觀測值,而它的橫坐標(biāo)和縱坐標(biāo)則分別代表其相應(yīng)于兩個變量的取值,也可以把若干個變量都用縱坐標(biāo)表示。3.4.2表示頻次和頻率的餅圖與條形圖例9某水果店的每月費用開支比例如下表3.6所示,請繪制餅圖和條形圖。開支類型金額%

開支類型金額%員工月工資53.60

運輸費3.5非員工工資15.70

廣告費2.3辦公費用11.90

設(shè)備1.5包裝費5.00

其它6.5第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

(1)在調(diào)入數(shù)據(jù)后,點擊:【數(shù)據(jù)】→【加權(quán)】。(2)在加權(quán)個案模塊主窗口(圖3.15)中,選擇“加權(quán)個案”,箭頭被激活。(3)在窗口中選擇“某水果店費用”,用箭頭送入“頻率變量”框中。(4)點擊【確定】,完成數(shù)據(jù)加權(quán)操作。(5)點擊【分析】→【描述統(tǒng)計】→【頻率】,將要分析的變量放入右框中,如圖3.16所示。(6)在頻率分析模塊主窗口(圖3.5)中,可以不選擇默認左下角的“顯示頻率表格”復(fù)選框,然后點擊右上角的【圖表】按鈕。系統(tǒng)彈出“頻率:圖表”子窗口,然后選擇“餅圖”。如圖3.17所示。(7)重復(fù)上面的步驟,分別在圖3.17中,選擇“條形圖”和“直方圖”。點擊【確定】,系統(tǒng)輸出所指定的結(jié)果如下。

第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

2、餅圖與條形圖的概念解析(1)餅圖用餅圖來表示頻次與頻率適用于所有測度等級的數(shù)據(jù)。但是,要求不同的樣本值的個數(shù)(指不重復(fù)的樣本值的個數(shù))不能很多。否則,難以在有限的紙張上,把不同樣本值的頻次和頻率表示清楚。(2)條形圖表示頻次和頻率的條形圖的構(gòu)成是:①橫坐標(biāo)表示樣本數(shù)據(jù)的不同取值。如果樣本數(shù)據(jù)的測度等級是順序級以上的,橫坐標(biāo)上的樣本數(shù)據(jù),就應(yīng)當(dāng)從小到大排列。如果是刻度級的數(shù)據(jù),在從小到大的排列中,還要注意長度的刻度保持一致的比例。②縱坐標(biāo)表示相應(yīng)樣本值出現(xiàn)的頻次或頻率。從本意上來說,條形圖只適用于順序級以上的數(shù)據(jù)集合,因為其橫坐標(biāo)的原本概念是具有順序關(guān)系的。但是,人們也可以“強行”抹去橫坐標(biāo)的從左到右的順序概念,“規(guī)定”橫坐標(biāo)沒有大小之分。這樣,我們也可以用條形圖來表示名義級數(shù)據(jù)集合的頻次或頻率結(jié)構(gòu)。第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

(6)變異系數(shù)方差和標(biāo)準(zhǔn)差雖然可以反映數(shù)據(jù)對平均值的離散情況,但它們對單位不同的數(shù)據(jù),或單位相同而兩個平均數(shù)相差較大的數(shù)據(jù),都無法比較差異的大小。而實際中,很多的變量有著不同的度量單位,只有剔除了度量單位的影響后,標(biāo)準(zhǔn)差之間的比較才有意義。例如,0.5秒對課程時間的誤差并不是那么大,但對于宇宙飛船探測等一些高精密科研指標(biāo)來說,誤差卻不可忽視。這時,就需要用變異系數(shù)來比較了。 變異系數(shù)定義為:標(biāo)準(zhǔn)差與均值之比。 樣本變異系數(shù)定義為:樣本標(biāo)準(zhǔn)差與樣本均值之比。從理論上講,只有對定比級數(shù)據(jù),如身高、時間、長度等才可以計算變異系數(shù),而一般按等級劃分的學(xué)科成績,如:優(yōu)、良、中、差,往往既不等距,又無絕對零點,所以嚴格來講,對學(xué)科成績不能計算變異系數(shù)。但當(dāng)測驗編制得較好,兩科成績的平均數(shù)又相差較大時,也可以勉強使用變異系數(shù)進行比較。

§3.4樣本數(shù)據(jù)特征的圖形表示第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

3.4.3表示刻度級數(shù)據(jù)的莖葉圖、直方圖

例10某班男生的身高數(shù)據(jù)如下,請繪制莖葉圖與直方圖。1、SPSS操作示例(1)在錄入數(shù)據(jù)(或打開數(shù)據(jù)文件“CH3例10莖葉直方箱”)后,點擊:【分析】→【描述統(tǒng)計】→【探索】,用箭頭將“身高”變量送入“因變量列表”框中。此時系統(tǒng)窗口如圖3.20所示。圖中,左下角的“輸出”區(qū)域塊的默認值“兩者都”的含義是同時輸出統(tǒng)計量和圖形,本例選擇接受它。171182175177178181185168170175177180176172165160178186190176163183203180176172169168178186§3.4樣本數(shù)據(jù)特征的圖形表示第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析(2)點擊【繪圖】按鈕,系統(tǒng)默認值是輸出箱型圖和莖葉圖。本例接受這個默認值,并且在直方圖的復(fù)選框處也點上對號,如圖3.21所示。(3)點擊【繼續(xù)】回到主窗口,然后點擊【確定】。系統(tǒng)輸出統(tǒng)計結(jié)果和統(tǒng)計圖,圖3.22和圖3.23是該樣本數(shù)據(jù)集合的圖形統(tǒng)計結(jié)果。還可以選擇:【圖形】→【舊對話框】→【直方圖】,也可以生成相應(yīng)的直方圖。§3.4樣本數(shù)據(jù)特征的圖形表示第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析

2、直方圖與莖葉圖的概念解析

觀察刻度級樣本數(shù)據(jù)結(jié)構(gòu)還有莖葉圖與直方圖方法。直方圖(Histogram)是定量變量最常用的圖表示方法之一。例10的直方圖,如圖3.22所示,其作法是,把橫軸分成若干通常是等寬度的區(qū)間,然后計算數(shù)據(jù)在各個區(qū)間上的頻次(頻數(shù)),并在各區(qū)間上畫出高度與數(shù)據(jù)在相應(yīng)區(qū)間的頻數(shù)成比例的矩形條。縱坐標(biāo)當(dāng)然也可以是頻率,即把頻次除以樣本量,這并不改變圖的形狀,而僅僅使縱坐標(biāo)單位不同。直方圖條形圖用矩形條的高度,來表示橫坐標(biāo)相應(yīng)位置上的樣本值出現(xiàn)的頻次或頻率,能夠形象地展示樣本數(shù)據(jù)集合的數(shù)據(jù)結(jié)構(gòu)。但它也有一個弱點,對于刻度級的數(shù)據(jù)而言,當(dāng)數(shù)據(jù)的精度(相對)高,使得不重復(fù)的數(shù)據(jù)量非常大時,或使得重復(fù)數(shù)據(jù)相對少(即同一數(shù)據(jù)的頻次或頻率小)時,反而讓人看不清數(shù)據(jù)集合的結(jié)構(gòu).第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析 莖葉圖首先,我們來看一下莖葉圖的基本概念與適用范圍。莖葉圖適用于刻度級(定比級和定距級)數(shù)據(jù),但不適用于定類級數(shù)據(jù),定序級數(shù)據(jù)勉強可以,不過,提供不了比條形圖更多的信息。(1)適用范圍:適用于順序級以上的數(shù)據(jù)。(2)基本含義按照某個一致的規(guī)則,把所有的樣本值分成“莖節(jié)”和“葉”兩個部分?!扒o節(jié)”在左,“葉”在右?!扒o節(jié)”、“葉”之間,用小數(shù)點隔開。(3)“莖節(jié)”的寬度確定原則:莖節(jié)要有變化的。樣本值=“莖節(jié).葉”表達ד莖節(jié)”的寬度(4)莖節(jié)的長度莖節(jié)長度=允許的最大葉值-最小葉值+1如圖3.24所示,因為下方標(biāo)注了“Stemwidth:10.00”,即莖節(jié)的寬度為10,因此16.0表示的樣本值是160。把樣本數(shù)據(jù)集合中的所有不相同的“莖節(jié)”,按照從小到大的順序連接起來,就構(gòu)成了這個樣本數(shù)據(jù)集合的“莖”,顯然“莖節(jié)”的寬度就是“莖”的寬度。第三章SPSS概述和樣本數(shù)據(jù)的描述統(tǒng)計分析例11打開數(shù)據(jù)文件“CH3例8統(tǒng)計學(xué)成績50”,得到下面如圖3.25所示的莖葉圖,問:①Stemwidth:10是什么意思?②共顯示了多少個數(shù)據(jù)?③列出頭三個數(shù)據(jù)。Stem-and-LeafPlotFrequencyStem&Leaf1.004.92.005.132.005.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論