版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、馬昕經(jīng)濟學教研室電話mail: maxin應用統(tǒng)計學教學目的:信息時代是數(shù)據(jù)時代。決策已從過去以經(jīng)驗為主轉(zhuǎn)變到科學決策。如何從大量數(shù)據(jù)中發(fā)現(xiàn)盡可能多的有用信息,從而把握事物特征,為科學決策提供依據(jù),這是本課程要解決的問題。本課程是在學生掌握統(tǒng)計分析的基本知識和技能之后,以進一步深化學生的量化分析能力為宗旨、以多元統(tǒng)計為中心的一門應用性課程。課程內(nèi)容:第一章 緒論第二章 向量、矩陣與多維正態(tài)分布第三章 方差分析第四章 回歸分析第五章 聚類分析第六章 判別分析第七章 主成分分析第八章 因子分析第九章 對應分析第十章 結(jié)構(gòu)方程模型教材:Jams M Lattin等著,多元數(shù)
2、據(jù)分析(英文版),機械工業(yè)出版社參考書何曉群多元統(tǒng)計分析,中國人民大學出版社,2004王學民應用多元分析,上海財經(jīng)大學出版社理查德約翰遜實用多元統(tǒng)計分析,清華大學出版社,2008(英文版)考核方法:作業(yè):30分期末考試(開卷) :70分教學資源位于: (key:ncepuedu2013):網(wǎng)盤課件課件例題數(shù)據(jù)2套模擬題一、多元數(shù)據(jù)分析的必要性數(shù)據(jù)分析從大量數(shù)據(jù)中發(fā)現(xiàn)盡可能多的有用信息,從而把握事物特征的過程事物特征的描述:變量/指標每個變量/指標數(shù)據(jù):反映事物某一方面的特征一般來說事物通常具有多面性,即有多方面特征例:學生的能力、物種、國家經(jīng)濟實力、企業(yè)競爭力僅從一個方面往往不足以反映事物特性
3、或個體之間的差異必須全面考慮事物的各個方面,才能對其正確認識。統(tǒng)計學:單變量/雙變量分析描述統(tǒng)計集中趨勢離散趨勢變量分布異常點推斷統(tǒng)計:從樣本統(tǒng)計量推斷總體參數(shù)參數(shù)估計:樣本均值估計總體均值,假設(shè)檢驗:總體均值或方差的檢驗,兩總體均值/方差相等的檢驗相關(guān)分析:兩個隨機變量間的(線性)相關(guān)程度一元回歸:一個隨機變量對另一變量間的依存關(guān)系Simpsons ParadoxNo relationship between sex and acceptance for either programmeSo no evidence of discriminationWhy?More females appl
4、y for the English programme, but it it hard to get intoMore males applied to Engineering, which has a higher acceptance rate than EnglishMust look deeper than single cross-tab to find this outEngineeringMaleFemaleAccept3010Refuse entry3010Total6020EnglishMaleFemaleAccept510Refuse entry1530Total2040兩
5、變量分析有時會得到虛假結(jié)果Simpsons ParadoxIn this example, the bivariate analysis (cross-tabulation or correlation) gave misleading resultsIntroducing another variable gave a better understanding of the dataIt even reversed the initial conclusions性別錄取率專業(yè)?Some Common Patterns in Point Clouds planes filaments clus
6、ters outliersData Analysis:Finding and Interpreting such Patterns具體方法聚類分析:按距離遠近分類判別分析:給定樣本定類親疏判別主成分分析、因子分析、對應分析:找出主要因素,化簡數(shù)據(jù)方差分析多元回歸分析結(jié)構(gòu)方程模型GroupingDiscriminating Principle Component, Factoring,CorrespondenceInferring推斷exploring探索數(shù)據(jù)模式Structural Equation Model課程重點強調(diào)方法的應用而非理論推導強調(diào)方法的內(nèi)涵與幾何解釋強調(diào)SPSS軟件的應用和結(jié)
7、果的解釋牢記:從數(shù)據(jù)中獲取信息沒有確定的方法具體問題具體分析:把握機理三、多元數(shù)據(jù)的描述數(shù)據(jù)的計量尺度(measurement scale):告訴我們從數(shù)據(jù)中可獲得哪些信息。品質(zhì)數(shù)據(jù):計算無意義定類尺度:按窮盡和互斥原則將對象某種特征歸類通常用虛擬變量表示:定序尺度對象特征等級或順序差別的測度三、多元數(shù)據(jù)的描述數(shù)值數(shù)據(jù)定距尺度:測度對象特征的間距,不能做絕對比較。定比尺度:即可測度間距,又可做絕對比較。數(shù)值數(shù)據(jù)的矩陣表示: 樣本數(shù)n,變量數(shù)p數(shù)據(jù)的矩陣描述注:若無特別說明,向量均指列向量四、統(tǒng)計基本知識回顧:單變量分析描述統(tǒng)計參數(shù)估計假設(shè)檢驗異常點均值的代表性目的:描述數(shù)據(jù)分布與正態(tài)分布的可能
8、偏離正態(tài)分布具有許多有利于統(tǒng)計的特性一般獨立隨機事件的分布都服從正態(tài)分布人的身高,產(chǎn)品質(zhì)量偏度:用來度量對稱性的指標峰度:刻畫一個分布陡峭或平緩程度的指標正態(tài)右偏左偏正態(tài)比正態(tài)更陡比正態(tài)平緩分布的偏度與峰度基本概念2、參數(shù)估計總體樣本變量觀測值華北電大的所有學生華北電大的所有學生中所有抽取的100名學生基本概念(續(xù))參數(shù)統(tǒng)計量精確度準確度偏誤標準差:小標準誤:小標準差:大標準誤:小標準誤差standard error標準差standard deviation抽樣推斷:從樣本統(tǒng)計量推斷總體參數(shù)參數(shù)估計:在未知總體參數(shù)的情況下,利用樣本統(tǒng)計量來估計總體參數(shù)的方法。參數(shù)點估計參數(shù)區(qū)間估計假設(shè)檢驗:先
9、對總體參數(shù)作一個假設(shè),然后通過搜集樣本數(shù)據(jù),用樣本統(tǒng)計量判斷對總體參數(shù)的假設(shè)是否成立參數(shù)估計:總體參數(shù)的點估計假設(shè)在總體X中, 為未知參數(shù)(均值、方差、成數(shù)等)。由樣本(x1、x2xn )構(gòu)造統(tǒng)計量 來估計未知參數(shù),稱 為的點估計量。 將某次抽樣的樣本觀測值,代入即得該估計量的一個點估計值 。方法 矩估計法 極大似然估計法 最小二乘法設(shè)為待估計的總體參數(shù), 為樣本統(tǒng)計量,則的優(yōu)良標準為:點估計量的優(yōu)良性標準指樣本統(tǒng)計量抽樣分布的平均值等于被估計的總體指標無偏性設(shè) 和 是總體指標的兩個無偏估計量,有效性若,則稱為比 更有效的估計量如果隨著樣本容量n的增大,樣本估計量在概率意義下越來越接近于總體真
10、實值,則稱該估計量是待估參數(shù)的一致估計量。一致性一致性是對一個估計量的最起碼要求?!叭绻阍趎趨于無窮大時還不能正確地得到它,那你就不應該做這件事”葛蘭杰n1n2n3n1n2n3置信度(1-)反映了估計的可靠程度。根據(jù)樣本指標和抽樣極限誤差可以得到滿足一定置信度的總體指標的可能范圍定義設(shè)總體參數(shù)為,L、U為由樣本確定的兩個統(tǒng)計量,對于給定的(01),有P(LU)=1-,則稱(L, U)為參數(shù)的置信度為1-的置信區(qū)間參數(shù)估計:參數(shù)的區(qū)間估計可靠度精確度為什么要做區(qū)間估計?任意抽出一個婦女,試猜測其體重,猜對贏50元,猜錯輸50元如何猜?輸贏概率如何?例:20個婦女的體重資料如表, 平均體重:12
11、3.6pound,標準差:15.5猜均值上下一個標準差:贏的概率?輸?shù)母怕什戮瞪舷聝蓚€標準差:輸贏概率?目的前提條件 置信度的置信區(qū)間估計總體均值正態(tài)總體方差已知估計總體均值正態(tài)總體方差未知(小樣本)估計總體均值 置信區(qū)間估計方法一覽表總體分布知,正態(tài)總體方差未知(大樣本)區(qū)間估計原理0.6827落在范圍內(nèi)的概率為68.27%樣本抽樣分布曲線原總體分布曲線置信度1-=0.6827區(qū)間估計原理0.9545落在范圍內(nèi)的概率為95.45%樣本抽樣分布曲線原總體分布曲線置信度1-=0.9545例 某保險公司從投保人中隨機抽取36人,計算出此36人平均年齡為39.5歲,已知投保人年齡近似正態(tài)分布,標準
12、差7.2歲,試以99%的可靠度求所有投保人平均年齡的置信區(qū)間。如果將可靠度降低到95%的水平呢?解:求所有投保人平均年齡的置信區(qū)間。現(xiàn)有一個點估計量在點估計量基礎(chǔ)上,構(gòu)造投保人平均年齡的置信區(qū)間關(guān)鍵是置信區(qū)間的寬度是多少。置信區(qū)間寬度取決于置信度和抽樣平均誤差:根據(jù)置信度查表得到在99%的置信度下,投保人年齡總體均值的置信區(qū)間為: (39.5-3.1, 39.5+3.1)36.442.6置信度95%,Z/2=1.96, =1.96*1.2=2.35, 置信區(qū)間(37.2,41.9)3、假設(shè)檢驗采用邏輯上的反證法先認為假設(shè)為真,觀察在此前提下所抽到樣本的出現(xiàn)是否合理。若合理則判斷假設(shè)可接受,反之拒絕假設(shè)。判斷是否合理的依據(jù)統(tǒng)計上的小概率原理(即這里的反證法是基于一定概率的反證法)。 假設(shè)檢驗的步驟提出原假設(shè)和備擇假設(shè):收集樣本數(shù)據(jù),確定適當?shù)臋z驗統(tǒng)計量及其分布規(guī)定顯著性水平,確定拒絕域和接受域計算檢驗統(tǒng)計量的值作出統(tǒng)計決策假設(shè)的三種形式:Z臨界點Z/2接受域-Z/2ZZ/2Z臨界點-Z拒絕域Z -ZZ臨界點Z拒絕域ZZ接受域Z Z在原假設(shè)為真的前提下,出現(xiàn)觀察到的樣本以及更極端樣本的概率。P值(P-value):拒絕原假設(shè)的最小顯著性水平。如果檢驗的統(tǒng)計量為t,c是從樣本得到的統(tǒng)計量的值。左側(cè)檢驗時,P值= ptc右側(cè)檢驗時,P值= ptc雙側(cè)檢驗中,P值=單側(cè)P值的2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 校長新年寄語祝福九年級(初三)同學
- 小學考試管理制度
- 買賣合同(供進口成套設(shè)備用)5篇
- 二零二五年度駕校應急處理與安全保障合同3篇
- 第17章-第1節(jié)-總需求曲線教材課程
- 《科幻小說賞析與寫作》 課件 第3、4章 “太空歌劇”的探索與開拓-《2001太空漫游》;“生命奇跡”的重述與復魅-《弗蘭肯斯坦》
- 二零二五年度網(wǎng)絡安全風險評估與維保服務合同3篇
- 2024年隴南市精神病康復醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點附帶答案
- 二零二五年度高端制造項目反擔保協(xié)議3篇
- 2024年陽江市人民醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點附帶答案
- 小學語文生本課堂教學設(shè)計
- 上海某建筑基礎(chǔ)及上部結(jié)構(gòu)加固工程施工方案磚木結(jié)構(gòu) 磚混結(jié)構(gòu)
- 精神病醫(yī)院財務后勤總務管理制度
- 停車場施工施工組織設(shè)計方案
- GB/T 37238-2018篡改(污損)文件鑒定技術(shù)規(guī)范
- 普通高中地理課程標準簡介(湘教版)
- 河道治理工程監(jiān)理通知單、回復單范本
- 超分子化學簡介課件
- 高二下學期英語閱讀提升練習(一)
- 易制爆化學品合法用途說明
- 【PPT】壓力性損傷預防敷料選擇和剪裁技巧
評論
0/150
提交評論