版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
多元統(tǒng)計學(xué)
Multivariatestatistics
沈琪shenqi@2/5/20231教師主講教師:沈琪E-mail:shenqi@
課程介紹2/5/20232教材《多元統(tǒng)計分析與SPSS應(yīng)用》,汪冬華等主編,華東理工大學(xué)出版社,2010年教參書籍《應(yīng)用統(tǒng)計學(xué)》,張建同、孫昌言、王世進主編,清華大學(xué)出版社,2010年?!稇?yīng)用多元統(tǒng)計分析》,(德)沃爾夫?qū)す吕?,(比)利奧波德·西馬著,陳詩一譯,北京大學(xué)出版社,2011年?!稇?yīng)用統(tǒng)計學(xué)》,馬慶國編著,科學(xué)出版社,2005年。《應(yīng)用多元統(tǒng)計分析》朱建平主編,科學(xué)出版社,2006年。《多元統(tǒng)計分析》,何曉群編著,人民大學(xué)出版社,2008年。課程介紹2/5/20233課堂資料下載內(nèi)容:補充資料、課件、案例討論、教學(xué)大
綱、復(fù)習(xí)要點等。公共Email:Msta2013@163.com
密碼:Msta2013
課程介紹2/5/20234內(nèi)容安排第一講多元描述統(tǒng)計分析和均值的比較檢驗第二講方差分析第三講相關(guān)分析第四講聚類分析第五講判別分析第六講主成分分析第七講因子分析第八講典型相關(guān)分析實驗教學(xué)課堂教學(xué)中穿插實驗教學(xué)教學(xué)內(nèi)容安排課程介紹2/5/20235多元統(tǒng)計分析是運用數(shù)理統(tǒng)計方法來研究解決多指標(biāo)問題的理論和方法。近30年來,隨著計算機應(yīng)用技術(shù)的發(fā)展和科研生產(chǎn)的迫切需要,多元統(tǒng)計分析技術(shù)被廣泛地應(yīng)用于多個領(lǐng)域,已經(jīng)成為解決實際問題的有效方法。隨著Internet的日益普及,各行業(yè)、單位生成、收集、存儲和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增,大量復(fù)雜信息層出不窮。引言2/5/20236引言顯然,大量信息在給人們帶來方便的同時也帶來一系列問題。信息量過大,超過了人們掌握、消化的能力;一些信息真?zhèn)坞y辯;信息組織形式的不一致性導(dǎo)致難以對信息進行有效統(tǒng)一處理;傳統(tǒng)的數(shù)據(jù)庫技術(shù)和數(shù)據(jù)處理手段已經(jīng)不能滿足要求;在Internet中進行信息的查找如大海撈針。2/5/20237引言多元分析的開端——1928年Wishart發(fā)表論文《多元正態(tài)總體樣本協(xié)差陣的精確分布》;20世紀(jì)30年代R.A.Fisher、H.Hotelling、S.N.Roy、許寶騄等人作了一系列得奠基性工作;20世紀(jì)40年代在心理、教育、生物等方面有不少得應(yīng)用,但由于計算量大,使其發(fā)展受到影響;20世紀(jì)50年代中期,隨著電子計算機得出現(xiàn)和發(fā)展,使多元分析方法得到廣泛得應(yīng)用;20世紀(jì)60年代通過應(yīng)用和實踐又完善和發(fā)展了理論,由于新的理論、新的方法不斷涌現(xiàn)又促使它的應(yīng)用范圍更加擴大;20世紀(jì)70年代初期在我國才受到各個領(lǐng)域的極大關(guān)注。在20世紀(jì)末與本世紀(jì)初,多元統(tǒng)計與人工智能和數(shù)據(jù)庫技術(shù)相結(jié)合,已在經(jīng)濟、商業(yè)、金融等行業(yè)得到了成功的應(yīng)用。2/5/20238引言一
統(tǒng)計學(xué)的生命力在于應(yīng)用統(tǒng)計學(xué)的發(fā)展過程中可以看出統(tǒng)計學(xué)產(chǎn)生于應(yīng)用,它在應(yīng)用中誕生,在應(yīng)用中成熟、獨立,在應(yīng)用中擴充自身的方法內(nèi)容,同時擴展了應(yīng)用領(lǐng)域,又在應(yīng)用中與其他學(xué)科緊密結(jié)合形成新的邊緣學(xué)科。它的生命力在于應(yīng)用。2/5/20239二
多元統(tǒng)計分析方法的應(yīng)用引言2/5/202310引言—應(yīng)用實例城鎮(zhèn)居民消費水平通常用八項指標(biāo)來描述,如人均糧食支出、人均副食支出、人均煙酒茶支出、人均衣著商品支出、人均日用品支出、人均燃料支出、人均非商品支出。這八項指標(biāo)存在一定的線性關(guān)系。為了研究城鎮(zhèn)居民的消費結(jié)構(gòu),需要將相關(guān)強的指標(biāo)歸并到一起,這實際就是對指標(biāo)進行聚類分析。2/5/202311在企業(yè)經(jīng)濟效益的評價中,涉及到的指標(biāo)往往很多,如百元固定資產(chǎn)原值實現(xiàn)產(chǎn)值、百元固定資產(chǎn)原值實現(xiàn)利稅、百元資金實現(xiàn)利稅、百元工業(yè)總產(chǎn)值實現(xiàn)利稅、百元銷售收入實現(xiàn)利稅、每噸標(biāo)準(zhǔn)煤實現(xiàn)工業(yè)產(chǎn)值、每千瓦時電力實現(xiàn)工業(yè)產(chǎn)值、全員勞動生產(chǎn)率、百元流動資金實現(xiàn)產(chǎn)值。如何將這些具有錯綜復(fù)雜關(guān)系的指標(biāo)綜合成幾個較少的因子,既有利于對問題進行分析和解釋,又能便于抓住主要矛盾做出科學(xué)的評價??捎弥鞒煞址治龊鸵蜃臃治龇āR浴獞?yīng)用實例2/5/202312第一講
(一)多元描述統(tǒng)計分析
descriptive
statistics
沈琪shenqi@2/5/202313描述統(tǒng)計—基本概念總體是根據(jù)一定目的確定的所要研究的事物的全體。它是由客觀存在的、具有某種共同性質(zhì)的許多個別事物構(gòu)成的整體??傮w單位(簡稱單位)是組成總體的各個個體。樣本是由總體的部分單位組成的集合。標(biāo)志總體各單位普遍具有的屬性或特征。2/5/202314說明現(xiàn)象的某一數(shù)量特征的概念也被稱為變量,變量的具體取值是變量值,統(tǒng)計數(shù)據(jù)就是統(tǒng)計變量的具體表現(xiàn)。連續(xù)型變量是指變量的取值在數(shù)軸上連續(xù)不斷,無法一一列舉,即在一個區(qū)間內(nèi)可以取任意實數(shù)值。離散型變量是指變量的其取值是整數(shù)值,可以一一列舉。描述統(tǒng)計—基本概念2/5/202315描述統(tǒng)計—數(shù)據(jù)統(tǒng)計數(shù)據(jù)是總體單位標(biāo)志或統(tǒng)計指標(biāo)的具體數(shù)量表現(xiàn)。定類尺度定序尺度定距尺度定比尺度2/5/202316橫截面數(shù)據(jù)又稱為靜態(tài)數(shù)據(jù),它是指在同一時間對同一總體內(nèi)不同單位的數(shù)量進行觀察而獲得的數(shù)據(jù)。描述統(tǒng)計—數(shù)據(jù)時間序列數(shù)據(jù)又稱為動態(tài)數(shù)據(jù),它是指在不同時間對同一總體的數(shù)量表現(xiàn)進行觀察而獲得的數(shù)據(jù)。2/5/202317描述統(tǒng)計—數(shù)據(jù)多元數(shù)據(jù)的表格形式設(shè)p個變量來記錄事物的特征,對于每個個體或單位,記錄下這些變量的測量值。我們用記號表示第i個樣本上第j個變量的測量值,即xij=第j個變量的第i項測量值2/5/202318描述統(tǒng)計—數(shù)據(jù)多元數(shù)據(jù)的矩陣形式X=(xij)n×p2/5/202319例題分析描述統(tǒng)計—數(shù)據(jù)消費者物價指數(shù)(CPI)是反映與居民生活有關(guān)的產(chǎn)品及勞務(wù)價格統(tǒng)計出來的物價變動指標(biāo),通常作為觀察通貨膨脹水平的重要指標(biāo)。商品零售價格指數(shù)是反映一定時期內(nèi)商品零售價格變動趨勢和程度的相對數(shù)。兩者都能為研究市場流通、進行國民經(jīng)濟核算提供依據(jù)。2/5/202320樣本數(shù)據(jù)的矩陣形式為:描述統(tǒng)計—數(shù)據(jù)2/5/202321描述統(tǒng)計—統(tǒng)計量樣本均值矩陣形式其中,2/5/202322樣本協(xié)方差描述統(tǒng)計—統(tǒng)計量矩陣形式其中,事實上,sjk是變量j和k的協(xié)方差當(dāng)j=k時,sjj是變量j的方差,也常記為sjk=skj,即S是對稱矩陣。2/5/202323樣本相關(guān)系數(shù)描述統(tǒng)計—統(tǒng)計量矩陣形式其中,R也為對稱矩陣2/5/202324描述統(tǒng)計—數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化公式其中,此時2/5/202325描述統(tǒng)計—SPSS應(yīng)用SPSS應(yīng)用2/5/202326描述統(tǒng)計—統(tǒng)計圖表統(tǒng)計表:把統(tǒng)計數(shù)據(jù)按一定的順序排列在表格上,就形成了統(tǒng)計表。它清楚地、有條理地顯示統(tǒng)計資料,直觀地反映統(tǒng)計分布特征,是統(tǒng)計分析的一種重要工具。2/5/202327描述統(tǒng)計—統(tǒng)計圖表利用統(tǒng)計圖表示數(shù)據(jù)時,首先要確定數(shù)據(jù)所屬類型是定性數(shù)據(jù)還是定量數(shù)據(jù)定性數(shù)據(jù)常用的圖形表示:條形圖餅圖環(huán)形圖定性數(shù)據(jù)常用的圖形表示:直方圖莖葉圖箱線圖散點圖氣泡圖雷達圖2/5/202328描述統(tǒng)計—案例分析案例2/5/202329第一講
(二)均值的比較檢驗沈琪shenqi@2/5/202330推斷樣本與總體或者兩個總體之間的差異是否顯著均值的比較檢驗—作用2/5/202331均值的比較檢驗—實例在企業(yè)市場結(jié)構(gòu)的研究中,起關(guān)鍵作用的指標(biāo)有市場分額、企業(yè)規(guī)模、資本收益率、總收益增長率等。為了研究市場結(jié)構(gòu)的變動,研究人員通常需要將調(diào)查所得的數(shù)據(jù)與歷史數(shù)據(jù)進行比較。通過均值比較檢驗,就能比較出現(xiàn)在的市場結(jié)構(gòu)與過去是否存在顯著性差異。在臨床上,醫(yī)生需要對病人治療前后的狀況進行控制。例如通過對比一組病人使用某種藥物后的身體指標(biāo),可以判斷該藥物對病人是否有效,效果是否顯著。2/5/202332均值的比較檢驗—內(nèi)容一
單一樣本的均值檢驗二
獨立樣本的均值檢驗三
配對樣本的均值檢驗2/5/202333-檢驗樣本所在總體的均值與給定的已知值之間是否存在顯著性差異單一樣本均值的檢驗2/5/202334只對單一變量的均值加以檢驗如檢驗今年新生的統(tǒng)計學(xué)平均成績是否和往年有顯著差異;推斷某地區(qū)今年的人均收入與往年的人均收入是否有顯著差異等等。要求樣本數(shù)據(jù)來自于服從正態(tài)分布的單一總體假設(shè)的基本形式:
當(dāng)然也可以有單側(cè)檢驗的假設(shè)形式。單一樣本均值的檢驗2/5/202335單一樣本均值的檢驗—基本步驟提出假設(shè)確定檢驗統(tǒng)計量若總體方差已知,此時可構(gòu)造標(biāo)準(zhǔn)正態(tài)分布Z檢驗統(tǒng)計量通??傮w方差都是未知的,此時總體方差由樣本方差代替,采用t分布構(gòu)造t檢驗統(tǒng)計量其中S為樣本標(biāo)準(zhǔn)差,定義為做出統(tǒng)計推斷2/5/202336!注意在SPSS中,給出的是總體方差未知時的t檢驗統(tǒng)計量,因為通??傮w方差是未知的。單一樣本均值的檢驗2/5/202337以學(xué)生的身高為例,已知某年級15個學(xué)生的身高數(shù)據(jù),如表所示,檢驗其平均身高是否與整個年級的平均身高165cm相同序號123456789101112131415身高175174168173164169170166158165156152156168160單一樣本均值的檢驗—案例2/5/202338提出假設(shè):確定檢驗統(tǒng)計量:由于總體方差未知,因此采用t檢驗統(tǒng)計量經(jīng)計算得:
=164.93,S=7.126,df=15-1=14,則該例為雙側(cè)檢驗,顯著性水平α=0.05,查t分布表可得臨界值。,說明t值落在接受區(qū)域內(nèi),即原假設(shè)與樣本描述的情況無顯著差異,不能拒絕原假設(shè)。因此可以得出結(jié)論:15個學(xué)生的平均身高與整個年級的平均身高無顯著差異。 單一樣本均值的檢驗—案例2/5/202339-比較兩個獨立沒有關(guān)聯(lián)的正態(tài)總體的均值是否有顯著性差異獨立樣本均值的檢驗2/5/202340獨立樣本的均值檢驗,實質(zhì)是總體均值是否相等的顯著性檢驗如分析兩個地區(qū)居民的人均收入、人均消費等指標(biāo)是否存在顯著性差異;男生與女生的身高是否存在顯著性差異。要求兩個樣本來自的總體為正態(tài)分布,且相互獨立如果兩總體相互獨立,則分別從兩總體得到的樣本也相互獨立。因為要檢驗兩總體的均值是否相等,需要通過樣本進行檢驗,所以稱為獨立樣本的均值檢驗。獨立樣本均值的檢驗2/5/202341提出假設(shè)確定檢驗統(tǒng)計量需要分為總體方差、是否已知兩種情況進行討論做出統(tǒng)計推斷獨立樣本均值的檢驗—步驟2/5/202342若總體方差已知,可構(gòu)造標(biāo)準(zhǔn)正態(tài)分布Z檢驗統(tǒng)計量獨立樣本均值的檢驗—檢驗統(tǒng)計量2/5/202343獨立樣本均值的檢驗—檢驗統(tǒng)計量若總體方差未知,可構(gòu)造t檢驗統(tǒng)計量當(dāng)時,構(gòu)造的t檢驗統(tǒng)計量為:
式中,,、分別為兩樣本標(biāo)準(zhǔn)差。2/5/202344當(dāng)時,構(gòu)造的t檢驗統(tǒng)計量為:檢驗統(tǒng)計量仍服從t分布,其修正的自由度為:獨立樣本均值的檢驗—檢驗統(tǒng)計量2/5/202345在統(tǒng)計分析中,如果兩個總體的方差相等,則稱之為滿足方差齊性。確定兩個獨立樣本的方差是否相等,是構(gòu)造和選擇檢驗統(tǒng)計量的關(guān)鍵,因此在決定要用哪一個t統(tǒng)計量公式前,必須進行方差齊性的檢驗。SPSS中利用LeveneF方差齊性檢驗方法檢驗兩個獨立總體的方差是否存在顯著性差異。!注意獨立樣本均值的檢驗2/5/202346提出假設(shè)確定檢驗統(tǒng)計量采用的是F檢驗統(tǒng)計量做出統(tǒng)計推斷拒絕域為:方差齊性的檢驗步驟2/5/202347仍以學(xué)生的身高為例,比較男生和女生的平均身高是否相等。男生12345678身高175174168164173169170166女生1234567身高158165156152156160168獨立樣本均值的檢驗—實例2/5/202348獨立樣本均值的檢驗—實例第一步,進行方差齊性檢驗已知:n1=8,n2=7。經(jīng)計算:于是,檢驗統(tǒng)計量F的值為:取顯著性水平α=0.05,查F分布表得臨界值為說明F值落在接受區(qū)域內(nèi),即不能拒絕原假設(shè),認(rèn)為男生的身高的方差與女生的身高的方差無顯著差異。2/5/202349第二步,在方差齊性的假定下,進行均值的比較檢驗此時,取顯著性水平=0.05,進行雙側(cè)檢驗,查t分布表可得臨界值。,說明t值落在拒絕區(qū)域內(nèi),應(yīng)該拒絕原假設(shè)。因此可以得出結(jié)論:男生和女生的平均身高有顯著差異。獨立樣本均值的檢驗—實例2/5/202350-比較兩個配對總體的均值是否有顯著性差異配對樣本均值的檢驗2/5/202351指不同的均值來自具有配對關(guān)系的不同樣本,此時樣本之間具有相關(guān)關(guān)系,配對樣本的兩個樣本值之間的配對是一一對應(yīng)的,并且兩個樣本具有相同的容量。如,一組病人治療前和治療后身體的指標(biāo);一個年級學(xué)生的期中成績和期末成績等等。配對樣本均值的檢驗什么是配對樣本2/5/202352配對樣本的數(shù)據(jù)形式配對樣本均值的檢驗觀察序號樣本1樣本2差值1x1y1D1=x1-y12x2y2D2=x2-y
2MMMMixiyiDi=xi
-y
iMMMMnxny
nDn=xn-y
n2/5/202353配對樣本均值的檢驗基本思想配對樣本均值的檢驗就是根據(jù)兩個配對樣本,推斷兩個總體的均值是否存在顯著性差異。其基本思想是:先求出每對配對樣本的觀測值之差,形成一個新的單樣本,再對差值求均值,檢驗差值的均值是否為0。若兩個樣本的均值沒有顯著性差異,則樣本之差的均值就接近為0,這類似于單一樣本均值的檢驗。配對樣本均值的檢驗也叫作配對樣本的t檢驗(Paired-SamplesTTest)。2/5/202354檢驗步驟提出假設(shè)確定檢驗統(tǒng)計量做出統(tǒng)計推斷配對樣本均值的檢驗2/5/202355配對樣本均值的檢驗檢驗統(tǒng)計量配對樣本均值檢驗要求兩個樣本的差值服從正態(tài)分布??傮w差值D服從正態(tài)分布,為總體差值的均值。t檢驗統(tǒng)計量為:式中,S為樣本差值的標(biāo)準(zhǔn)差,定義為:。2/5/202356配對樣本均值的檢驗例題分析
一個以減肥為主要目標(biāo)的健美俱樂部聲稱,參加其訓(xùn)練班至少可以使減肥者平均體重減重8.5kg以上。為了驗證該宣稱是否可信,調(diào)查人員隨機抽取了10名參加者,得到他們的體重記錄如下表:在α=0.05的顯著性水平下,調(diào)查結(jié)果是否支持該俱樂部的聲稱?訓(xùn)練前94.5101110103.59788.596.5101104116.5訓(xùn)練后8589.5101.5968680.58793.593102左側(cè)檢驗2/5/202357配對樣本均值的檢驗樣本差值計算表訓(xùn)練前訓(xùn)練后差值Di94.5101110103.59788.596.5101104116.58589.5101.5968680.58793.5931029.51189.57.51114.5合計—98.5配對樣本的t檢驗(例題分析)2/5/20
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 機械原理課程設(shè)計抄襲
- 大班魔術(shù)課程設(shè)計
- 2024年房產(chǎn)買賣居間與房產(chǎn)交易稅費籌劃服務(wù)合同3篇
- 2024年版:智能金融風(fēng)險管理系統(tǒng)建設(shè)合同
- 幼兒園小班探究課程設(shè)計
- 2024年電工實驗室建設(shè)合同
- 托班認(rèn)知領(lǐng)域課程設(shè)計
- 振動力學(xué)課程設(shè)計matlab
- 春游研學(xué)課程設(shè)計
- 2024年汽車用品汽運物流運輸服務(wù)合同3篇
- 40篇短文搞定高中英語3500單詞
- 智慧物業(yè)綜合管理系統(tǒng)
- 三年級語文上冊期末《句子》專項訓(xùn)練含答案
- 2024年中國遠洋海運集團招聘筆試參考題庫附帶答案詳解
- 2024年內(nèi)蒙古交通集團有限公司招聘筆試參考題庫附帶答案詳解
- 山東省聊城市文軒教育集團2023-2024學(xué)年九年級上學(xué)期期末化學(xué)模擬試卷
- 物業(yè)公司經(jīng)營規(guī)劃
- 2024年心腦血管藥物項目營銷策劃方案
- 攪拌站規(guī)劃設(shè)計方案
- 醫(yī)共體醫(yī)療質(zhì)量控制中心工作職責(zé)(終版改)
- 四川省綿陽市2023年九年級上學(xué)期期末化學(xué)試題附答案
評論
0/150
提交評論