統(tǒng)計建模及R軟件 第一講 (2015)_第1頁
統(tǒng)計建模及R軟件 第一講 (2015)_第2頁
統(tǒng)計建模及R軟件 第一講 (2015)_第3頁
統(tǒng)計建模及R軟件 第一講 (2015)_第4頁
統(tǒng)計建模及R軟件 第一講 (2015)_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、統(tǒng)計建模與R軟件 郭廣報 數(shù)據(jù)分析與軟件課程意義如何讓數(shù)據(jù)說話!2課程教材和參考書目薛毅,陳立萍.統(tǒng)計建模與R軟件.清華大學(xué)出版社,2007Kabacoff著,高濤,肖楠等譯. R語言實戰(zhàn)(R inAction:Data analysis and graphics with R).人民郵電出版社,2013何曉群.多元統(tǒng)計分析(第三版).中國人民大學(xué)出版社,2012課程教材和資料李子奈.計量經(jīng)濟學(xué)(第三版).高等教育出版社,2010易丹輝.數(shù)據(jù)分析與Eviews應(yīng)用.中國人民大學(xué)出版社,2008吳喜之.統(tǒng)計學(xué)-從數(shù)據(jù)到結(jié)論(第4版).中國統(tǒng)計出版社,2013吳喜之.復(fù)雜數(shù)據(jù)統(tǒng)計方法基于R的應(yīng)用.

2、中國人民大學(xué)出版社,2012相關(guān)網(wǎng)站:國家統(tǒng)計局、統(tǒng)計之都、人大經(jīng)濟論壇統(tǒng)計之都/5人大經(jīng)濟論壇6課程內(nèi)容與進度序號123456789內(nèi)容統(tǒng)計建模概論R軟件的使用數(shù)據(jù)描述性分析參數(shù)估計假設(shè)檢驗回歸分析方差分析應(yīng)用多元分析計算機模擬7第一講 概論統(tǒng)計建模的概念及特點統(tǒng)計建模的步驟統(tǒng)計建模常用軟件統(tǒng)計建模大賽一、統(tǒng)計建模的概念及特點統(tǒng)計學(xué):收集、分析、展示和解釋數(shù)據(jù)的科學(xué)。統(tǒng)計建模:以計算機統(tǒng)計分析軟件為工具,利用各種統(tǒng)計分析方法對批量數(shù)據(jù)建立統(tǒng)計模型和探索處理的過程,用于揭示數(shù)據(jù)背后的因素,詮釋社會經(jīng)濟現(xiàn)象,或?qū)?jīng)濟和社會發(fā)展做出預(yù)測或判斷。統(tǒng)計建模的意義隨著計算機和

3、網(wǎng) 絡(luò)技術(shù)的快速普及和廣泛發(fā)展,我們 面對著數(shù)據(jù)和信息爆炸的挑戰(zhàn),如何迅速有效地將數(shù)據(jù)提升為信息、知識和智能,是統(tǒng)計工作者面臨的重要課 題。統(tǒng)計建模將統(tǒng)計方法、計算機技術(shù)完美結(jié)合,帶動以數(shù)據(jù)分析為導(dǎo)向的統(tǒng)計思維,發(fā)現(xiàn)和挖掘數(shù)據(jù)背后 的規(guī)律,為經(jīng)濟社會的發(fā)展提供更好更多的統(tǒng)計信息。統(tǒng)計建模的特點1. 模型只能是對客觀世界的一種近似,是現(xiàn)實的簡單化或理想化。統(tǒng)計建模的宗旨,就是設(shè)法建立 “有用的” 模型,而不是所謂“絕對正確的”模型。 Box(1976)“有用的”模型能抓住并凸顯現(xiàn)象中與分析目的最相關(guān)之主要特征,因此統(tǒng)計建模的成功與對主題領(lǐng)域的了解密切相關(guān)。例如:邊際消費傾向(或乘數(shù)-加速數(shù)模型)

4、Ct yt統(tǒng)計建模的特點2. 建模者應(yīng)根據(jù)目的來尋找合適的數(shù)據(jù)和建模方法 。數(shù)據(jù):數(shù)據(jù)的來源;數(shù)據(jù)的真實性;數(shù)據(jù)所含信息;數(shù)據(jù)是否適合建模。方法:同一個問題,可采用多種方法,也可能需要多種方法。一個好的建模(統(tǒng)計學(xué)實證文章)的三要素:ideadatamodel統(tǒng)計建模的特點3.統(tǒng)計建模是一個學(xué)習(xí)與實踐的過程統(tǒng)計學(xué):統(tǒng)計學(xué)基礎(chǔ)、多元統(tǒng)計分析、非參數(shù)統(tǒng)計、貝葉斯統(tǒng)計計量經(jīng)濟學(xué):時間序列、面板數(shù)據(jù)、微觀計量、非參數(shù)時間序列分析:一元、多元、波動建模、非線性專業(yè)領(lǐng)域背景知識統(tǒng)計分析軟件 :Matlab、R、SPSS、SAS統(tǒng)計建模的注意事項避免只用一種方法(未比較其他模型和交叉驗證),應(yīng)該避免沒有根據(jù)

5、或比較地任意假定模型形式。避免使用現(xiàn)成的經(jīng)濟、金融模型,比如Cobb-Douglas模型、索羅模型、拉姆齊模型等,要有創(chuàng)新不要過度夸大一個模型的功能,即使是諾貝爾經(jīng)濟獎獲得者也無法預(yù)測出任何一次經(jīng)濟危機?任何一個現(xiàn)成模型必須得經(jīng)受最新數(shù)據(jù)的考驗,否則必須被替代或修改:例如,線性非線性;一元多元;水平二階矩偏度和峰度經(jīng)驗:模仿權(quán)威文獻,適當(dāng)引入自己變量!避免使用31個省市自治區(qū)數(shù)據(jù)做除了描述之外的事情(如回歸等推斷)。慎用宏觀數(shù)據(jù),鼓勵用微觀或調(diào)查數(shù)據(jù)。盡量對原始數(shù)據(jù)進行分析,避免只使用匯總數(shù)據(jù)(均值,百分數(shù),比例)等加工過的數(shù)據(jù)建模前對建模根據(jù)要進行交代,對模型殘差要進行檢驗,分布假定必須要有

6、根據(jù)。避免任意使用大樣本結(jié)論于小樣本情況。統(tǒng)計建模的注意事項統(tǒng)計的本質(zhì)觀測/實驗數(shù)據(jù)理論/假說/模型例如: 奧肯定律是否適用于中國?菲利普斯曲線是否合理?持久收入假說是否正確?李嘉圖等價?p2明確問題數(shù)據(jù)收集數(shù)據(jù)預(yù)處理撰寫論文結(jié)果分析模型檢驗?zāi)P凸烙嬆P蜆?gòu)建二、統(tǒng)計建模的步驟1.明確問題許多數(shù)理統(tǒng)計雜志喜歡發(fā)表沒有任何數(shù)據(jù)背景的有關(guān)數(shù)學(xué)模型的文章;許多統(tǒng)計畢業(yè)生只會推導(dǎo)和證明各種模型,卻不擅長處理真實的問題和數(shù)據(jù);許多人面對著有限樣本,也假裝是大樣本,并且不經(jīng)驗證,據(jù)此得到結(jié)論;一些人不從數(shù)據(jù)出發(fā),在學(xué)習(xí)或者構(gòu)建了一個新模型后,就生搬硬套,尋找“適合”的數(shù)據(jù)來“證明”自己的模型有意義。廣州亞運

7、期間地鐵、公交和過江輪渡免費?長假期間高速免費?節(jié)假日火車票免費?火車梯形退票費問題;高鐵票價問題;小微企業(yè)相繼倒閉;溫州樓市泡沫及其破裂;沿海民工荒問題;富二代問題;放開二胎問題;放開二胎問題;企業(yè)稅負減免問題;人民幣升值問題;收入差距擴大問題;大學(xué)排行榜問題明確問題:以問題和數(shù)據(jù)為導(dǎo)向明確問題:以問題和數(shù)據(jù)為導(dǎo)向可以搜集哪些變量?哪些是控制變量?哪些是無法掌控的變量?哪些是需要重點研究的變量?適合構(gòu)建什么模型?模型結(jié)果與理論是否吻合?預(yù)測精度怎樣?未來的變化趨勢怎樣?有何政策含義?統(tǒng)計建模已經(jīng)幫這個世界解決許多真實且實際的問題(農(nóng)業(yè)、醫(yī)學(xué)、遺傳、工業(yè)、商業(yè)等)。各個領(lǐng)域都靠統(tǒng)計解決許多問題

8、,所以統(tǒng)計是問題導(dǎo)向,人們在“沒有標準答案的問題”中尋求近似可靠穩(wěn)定的模型提供解決方案!明確問題:以問題和數(shù)據(jù)為導(dǎo)向2.數(shù)據(jù)收集一手數(shù)據(jù):調(diào)查、實驗觀察二手數(shù)據(jù):書籍、網(wǎng)絡(luò)、年鑒統(tǒng)計建模時,一定要寫清數(shù)據(jù)來源!數(shù)據(jù)收集1.政府統(tǒng)計數(shù)據(jù)統(tǒng)計局網(wǎng)站或年鑒國家各部委,例如人民銀行、國稅總局、商務(wù)部等2.國際組織世界銀行世界發(fā)展指數(shù)數(shù)據(jù)庫國際貨幣基金組織IMFIFS 數(shù)據(jù)庫世界貿(mào)易組織WTO貿(mào)易統(tǒng)計年鑒國際清算銀行、亞洲開發(fā)銀行、泛美開發(fā)銀行、聯(lián)合國世界糧農(nóng)組織、聯(lián)合國環(huán)境署、聯(lián)合國教科文組織等數(shù)據(jù)收集3.權(quán)威商業(yè)機構(gòu)統(tǒng)計數(shù)據(jù)庫全球銀行、金融機構(gòu)信息庫BvD全球市場信息數(shù)據(jù)庫GMID亞洲經(jīng)濟數(shù)據(jù)庫(C

9、EIC ASIA)英國路透(Reuters)數(shù)據(jù)庫中經(jīng)網(wǎng)統(tǒng)計信息數(shù)據(jù)庫4.非政府組織的抽樣調(diào)查數(shù)據(jù):大學(xué)、科研院所組織的調(diào)查統(tǒng)計美國北卡萊羅納大學(xué)和中國疾病控制與預(yù)防中心聯(lián)合主辦的 “中國健康與營養(yǎng)調(diào)查(CHNS)高校常用數(shù)據(jù)庫1.國家統(tǒng)計局官網(wǎng)2.中經(jīng)網(wǎng)統(tǒng)計數(shù)據(jù)庫3.國研網(wǎng)統(tǒng)計數(shù)據(jù)庫4.CCER統(tǒng)計數(shù)據(jù)庫5.Wind數(shù)據(jù)庫6.BvD數(shù)據(jù)庫如果有些數(shù)據(jù)庫找不到,請與其它高校的同學(xué)或者朋友聯(lián)系,或者國外同學(xué)聯(lián)系國家統(tǒng)計局28國內(nèi)常用微觀數(shù)據(jù)庫1. CHIP數(shù)據(jù)中國社會科學(xué)院經(jīng)濟研究所收入分配課題組(李實、趙人偉老師主持,福特基金會贊助)于1988年、1995年和2002年,進行的全國調(diào)查中的中國

10、農(nóng)村和城市居民家庭收入分配調(diào)查得到的。1995年的調(diào)查覆蓋19個?。ㄊ?、自治區(qū)),調(diào)查了6931戶城鎮(zhèn)家庭和7998戶農(nóng)村家庭,分別涉及21696位城鎮(zhèn)居民和34739位農(nóng)村居民;2002年的調(diào)查覆蓋22個?。ㄊ?、自治區(qū)),調(diào)查了6835戶城鎮(zhèn)家庭和9200戶農(nóng)村家庭,分別涉及20632位城鎮(zhèn)居民和37969位農(nóng)村居民。國內(nèi)常用微觀數(shù)據(jù)庫2. CHNS(中國健康與營養(yǎng)調(diào)查)3.CHARLS(中國健康與養(yǎng)老追蹤調(diào)查)http:/ Health and Fertility Survey )這些通常需要先注冊,通過郵件獲得密碼、ID之類的才能繼續(xù)下載,所以可能需要點耐心。其中CFPS還需要寄信函到北

11、京才能取得密碼和ID。注意保密!禁止傳播!3.數(shù)據(jù)預(yù)處理缺失值(例如,一月份的工業(yè)增加值數(shù)據(jù))異常值(例如,國稅數(shù)據(jù)某直轄市為負數(shù))不一致(例如,名義值實際值、季節(jié)調(diào)整、人民幣美元轉(zhuǎn)換、時間長度不一致等)這些工作很可能非常費時而且極其瑣碎,但必須去做,否則后續(xù)的分析是不可能的。異常值判斷40302003 2004 2005 2006 2007 2008 2009 2010 2011 2012ORIGINAL2080104000-101601202003 2004 2005 2006 2007 2008 2009 2010 2011BJ原始數(shù)據(jù)不完善數(shù)據(jù)缺失怎么辦?刪除用同一變量其他值的均值或中

12、位數(shù)填補在各個變量之間建立模型(比如回歸模型,最近鄰方法等)來填補。R包:missForest。專門用于填補缺失值。采用隨機森林的方法,同時自動填補定量變量和分類變量。4. 模型構(gòu)建第一步:探索性分析。利用圖形(例如散點圖)、各種統(tǒng)計量(均值、標準差、最大值、最小值、負值等)、或者稍微復(fù)雜的探索方法來查看數(shù)據(jù)的關(guān)聯(lián)性、線性性、異方差性、多重共線性、聚類特征、分布形狀等。第二步:尋找適合的模型,例如,統(tǒng)計模型、計量經(jīng)濟模型、時間序列模型、多元統(tǒng)計分析。當(dāng)代計量經(jīng)濟模型體系單位根檢驗ARIMA(時間序列)模型SARIMA(季節(jié)時間序列)模型PANEL(面板數(shù)據(jù))模型、空間計量模型DS(離散選擇)模

13、型、有序響應(yīng)、計數(shù)模型LDV(受限因變量)模型(刪失、截斷模型)線性時間序列時間序列模型回歸模型單序列模型向量序列模型時間序列的加法、乘法模型,X12 季節(jié)調(diào)整組合模型截面數(shù)據(jù)回歸蒙特卡羅模擬技術(shù)非線性時間序列波動模型單位根檢驗時間序列回歸GAR(廣義自回歸)、BL(雙線性)模型TAR、STAR(門限自回歸、平滑轉(zhuǎn)移)模型ARCH、GARCH(自回歸條件異方差)模型SV(隨機波動)模型ACD、SCD(自回歸、隨機條件久期)模型研究VAR、VEC(向量自回歸、誤差修正)模型單方程(線性、可線性化非線性)回歸模型聯(lián)立方程模型(結(jié)構(gòu)、簡化型、遞歸模型)分位數(shù)回歸模型 單位根檢驗各種統(tǒng)計方法層出不窮,

14、學(xué)習(xí)永無止境,怎么辦?針對不同類型的數(shù)據(jù),如何選取合適的模型?遇到?jīng)]學(xué)過的模型,怎么辦?谷歌和百度!論壇或者QQ群!5.模型估計不同的模型有不同的估計方法和檢驗方法。常見的模型估計方法包括: 最小二乘(OLS)法 極大似然估計(MLE)法 廣義矩(GMM)法 分位數(shù)回歸方法 貝葉斯方法6.模型檢驗各種檢驗準則:經(jīng)濟意義檢驗:定性檢驗統(tǒng)計學(xué)檢驗:t檢驗、F檢驗、擬合優(yōu)度檢驗計量經(jīng)濟學(xué)檢驗:異方差、自相關(guān)、多重共線性等檢驗預(yù)測精度檢驗比較模型的標準算法模型交叉驗證(cross validation):拿一部分數(shù)據(jù)作為訓(xùn)練集(training set),得到模型,再用另一部分數(shù)據(jù)(稱為測試集,tes

15、ting set)來看誤差是多少。有時需要進行k折交叉驗證(k-foldcross validation),即把數(shù)據(jù)分成k份,每次拿k-1份作為訓(xùn)練集,用剩下的一份作為測試集,重復(fù)k次,得到k個誤差作出平均,以避免僅用一個測試集可能出現(xiàn)的偏差。顯然,交叉驗證的方法也適用于傳統(tǒng)模型之間或者在傳統(tǒng)模型和算法模型之間的比較。選擇模型不是最終目的,最終目的是解釋模型所產(chǎn)生的結(jié)果,而結(jié)果必須是應(yīng)用領(lǐng)域的結(jié)果,必須有實際意義。僅僅用統(tǒng)計術(shù)語說某個模型較好、某個變量顯著之類的話是不夠的。例如,恩格爾定律、邊際消費傾向、庫茲涅茨倒U假說。7.結(jié)果分析8.撰寫論文(分析報告)論文:學(xué)校的要求,建模比賽、課堂作業(yè)

16、、統(tǒng)計建模比賽、畢業(yè)論文分析報告:企業(yè)的要求論文結(jié)構(gòu)一、標題:寫出較確切的題目。二、摘要: 200300字,包括模型的主要特點、建模方法和主要結(jié)果。要求:既簡練又能說明整篇論文的內(nèi)容。三、關(guān)鍵詞:要能體現(xiàn)在整篇論文中的地位及作用。一般3-5個。論文撰寫四、正文1問題提出,問題分析。2模型建立:(1)提出假設(shè)條件,明確概 念,引進參數(shù);(2)模型構(gòu)建;(3)模型求解。3計算方法設(shè)計和計算機實現(xiàn)。4主要的結(jié)論或發(fā)現(xiàn)。5結(jié)果分析與檢驗(非常重要,容易被忽視)。6討論模型的優(yōu)缺點,結(jié)果的意義,不足與展望。論文撰寫五、參考文獻(權(quán)威性、準確性)六、附錄部分計算程序,框圖。各種求解演算過程,計算中間結(jié)果。

17、各種圖形、表格。其中統(tǒng)計建模比賽還需要提供數(shù)據(jù)包。數(shù)據(jù)包中應(yīng)包括所收集、使用的數(shù)據(jù),收集過程或數(shù)據(jù)出處,以及數(shù)據(jù)分析程序。統(tǒng)計建模范文:可參看獲獎?wù)撐暮贾菹律承律r(nóng)民工生活滿意度調(diào)查三、常用統(tǒng)計建模軟件統(tǒng)計軟件的種類很多。有些功能齊全,有些價格便宜;有些容易操作,有些需要更多的實踐才能掌握。還有些是專門的軟件,只處理某一類統(tǒng)計問題。網(wǎng)上可以獲得的統(tǒng)計或者計量軟件起碼有多達幾百種。面對太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。SPSS、EXCEL、SAS、Eviews、R語言、Matlab、Statistics,統(tǒng)計軟件統(tǒng)計軟件的種類很多。差異較大: 功能是否齊全? 價格是否便宜?是

18、否開源? 是否容易操作? 軟件是否太大? 是否專門性軟件?只處理某一類統(tǒng)計問題。面對太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。統(tǒng)計軟件Excel嚴格說來并不是統(tǒng)計軟件,但作為數(shù)據(jù)表格軟件,必然有一定統(tǒng)計計算功能。而且凡是有Microsoft Office 的 計 算 機 , 基 本 上 都 裝 有Excel。注意:有時在裝Office時沒有裝數(shù)據(jù)分析的功能,那就必須裝了才行。當(dāng)然,畫圖功能是都具備的。對于簡單分析,Excel 還算方便,但隨著問題的深入,Excel 就不那么“傻瓜”,需要使用函數(shù),甚至根本沒有相應(yīng)的方法了。統(tǒng)計軟件SPSS很受歡迎;容易操作;輸出漂亮;功能齊全;價格合

19、理;傻瓜化;它對于非專業(yè)統(tǒng)計工作者是很好的選擇。幫助功能很好。統(tǒng)計軟件SAS功能非常齊全(不如R齊全)的軟件;盡管價格相當(dāng)不菲,許多公司,特別是美國制藥公司,還是因為其功能眾多和某些美國政府機構(gòu)認可而使用;盡管現(xiàn)在已經(jīng)盡量“傻瓜化”(遠不如SPSS“傻”),但仍然需要一定的訓(xùn)練才可以進入??梢詫λ幊蹋粠椭到y(tǒng)很差,查尋不易;對于基本統(tǒng)計課程則不那么方便。統(tǒng)計軟件S-plus這是R出現(xiàn)之前統(tǒng)計學(xué)家最喜愛的軟件;功能齊全;強大的編程功能,使得研究人員可以編制自己的程序來實現(xiàn)自己的理論和方法;目前正在進行“傻瓜化”以爭取顧客。但仍然以編程方便為顧客所青睞。統(tǒng)計軟件MATLAB這也是應(yīng)用于各個領(lǐng)域的

20、以編程為主的軟件,在理工領(lǐng)域應(yīng)用最廣泛。編程類似于S和R。但是統(tǒng)計方法不多。Statistics Toolbox統(tǒng)計工具箱Econometrics Toolbox-計量經(jīng)濟學(xué)工具箱R免費,永遠正版R 資源公開(不是黑匣子)R可以在UNIX, Windows和Macos X上運行R 有優(yōu)秀的內(nèi)在幫助系統(tǒng)R有優(yōu)秀的畫圖功能學(xué)生能夠輕松地轉(zhuǎn)到商業(yè)支持的 S-Plus程序(如果需要使用商業(yè)軟件)R語言有一個強大的,容易學(xué)習(xí)的語法,有許多內(nèi)在的統(tǒng)計函數(shù)統(tǒng)計軟件R軟件通過用戶自編程序,R語言很容易延伸和擴大。它就是這樣成長的。R 是計算機編程語言,類似于UNIX語言,C語言,Pascal,Gauss語言等

21、。對于熟練的編程者, 它將覺得該語言比其他語言更熟悉。而對計算機初學(xué)者, 學(xué)習(xí)R語言使得學(xué)習(xí)下一步的其他編程不那么困難。那些傻瓜軟件(SAS,SPSS等)語言的語法則完全不同。R的優(yōu)點R的缺點沒有商業(yè)支持 (但有網(wǎng)上支持);需要編程,不夠傻瓜;速度不如C+或FORTRAN其它統(tǒng)計軟件Eviews:用于處理回歸和時間序列的經(jīng)濟類軟件Rats:專門處理時間序列數(shù)據(jù)Amos:結(jié)構(gòu)模型Nlogit:離散選擇模型和受限因變量模型Stata:面板數(shù)據(jù)模型功能很強大Gauss:運算速度最快的計量經(jīng)濟學(xué)軟件。計量經(jīng)濟學(xué)大牛的最愛。FORTRAN:這是應(yīng)用于各個領(lǐng)域的歷史很長的非常優(yōu)秀的數(shù)學(xué)編程軟件,功能強大,

22、也有一定的統(tǒng)計軟件包。計算速度比這里介紹的都快得多。但需要編程和編譯。操作不那么容易。軟件說明不要隨意貶低任何一款軟件,每一款軟件都有其強大之處!我到底該學(xué)什么軟件呢?糾結(jié)!傷其十指,不如斷其一指!四、統(tǒng)計建模大賽國家統(tǒng)計局組織,每年一次,命題作文。例如2013年參賽論文的主題是“環(huán)境” 。參賽者需結(jié)合自己的專業(yè)領(lǐng)域和研究方向為自己的參賽論文選取具體名稱。標題或者副標題中須帶有“環(huán)境”這一關(guān)鍵詞。選題可以是環(huán)境與經(jīng)濟、生態(tài)、健康、疾病、交通、城市化、能源、氣候等諸多方面相關(guān)的問題。建議多關(guān)注一些更為實際、具體的問題,例如某市中水系統(tǒng)使用比例問題、出租車油改氣對于大氣環(huán)境的影響、食品安全、城市綠

23、化率、拼車問題、居民對環(huán)境的認知、疾病發(fā)生發(fā)展、亞健康狀態(tài)研究等。四、統(tǒng)計建模大賽由參賽者自行搜集數(shù)據(jù),提出問題和假設(shè)條件,建立模型,運用統(tǒng)計分析方法和統(tǒng)計分析軟件進行模型求解,闡明主要結(jié)論及意義,并對結(jié)果進行分析與檢驗,討論模型的優(yōu)缺點和改進方向。研究數(shù)據(jù)可以從相關(guān)專業(yè)網(wǎng)站上獲取,也可以根據(jù)提出的問題自行設(shè)計的問卷,進行現(xiàn)場抽樣調(diào)查等方法取得。參賽者須公開數(shù)據(jù)來源,提交原始數(shù)據(jù)包和數(shù)據(jù)分析程序。大賽要求參賽者提交承諾書,承諾參賽論文是所有參賽隊員共同參與原創(chuàng)的。要求參賽論文使用正版統(tǒng)計分析軟件。四、統(tǒng)計建模大賽要求完成一篇包括模型的假設(shè)、建立和求解、計算方法的設(shè)計及計算機實現(xiàn)、結(jié)果的分析和檢

24、驗、模型的改進等方面的論文(即答卷)。大賽評獎標準:選題的有效性假設(shè)的合理性建模的創(chuàng)造性結(jié)果的正確性文字表述的清晰程度參賽人員構(gòu)成統(tǒng)計建模大賽要求以小組為單位, 每小組3人,要共同完成好統(tǒng)計的命 題作文,需要小組成員合理分工、密 切配合。典型的分工是: 數(shù)據(jù)收集和處理 統(tǒng)計分析方法和模型 論文寫 作,文筆較規(guī)范全國大學(xué)生統(tǒng)計建模比賽官方網(wǎng)站http:/ 一切根據(jù)數(shù)據(jù)。任何所采用的統(tǒng)計方法要說明條件和假定。任何輸出結(jié)果要有說明和解釋。數(shù)據(jù)準備基本數(shù)據(jù):包括機動車(貨運,大客車、小轎車、農(nóng)用車和工程車等)、非機動車(自行車、三輪車)、其他(如電動、加力自行車和機動三輪車,雖然可能非法)、殘疾人車、獸力車、行人等等;數(shù)據(jù)也應(yīng)該包括事故等級,事故個數(shù)、死亡人數(shù)、財產(chǎn)損失、受傷人數(shù)等;肇事者的職業(yè)、年齡、駕齡、教育程度、是否酒后駕車(很重要?。?、是否疲勞駕車、是否打手機、車速、路況(街道、普通公路、等級公路、高速公路)、事故時間段等等(這些都是交管部門的標準記錄)。數(shù)據(jù)應(yīng)該覆蓋至少10年(最好有月度數(shù)據(jù))。附加數(shù)據(jù):各省市自治區(qū)的相應(yīng)年份的經(jīng)濟資料,包括各種道路的里程、各種機動車的保有數(shù)等。影響因素與變量選擇1.找出各種車輛的各種事故的概率(及影響因素)、這些事故數(shù)量的影響變量(比如年齡因素、是否喝酒、山區(qū)或鬧市區(qū)、時間段、何種道路、車輛種類,等等)。2.找

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論