《統(tǒng)計與矩陣分析》配套教學(xué)課件_第1頁
《統(tǒng)計與矩陣分析》配套教學(xué)課件_第2頁
《統(tǒng)計與矩陣分析》配套教學(xué)課件_第3頁
《統(tǒng)計與矩陣分析》配套教學(xué)課件_第4頁
《統(tǒng)計與矩陣分析》配套教學(xué)課件_第5頁
已閱讀5頁,還剩113頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計與矩陣分析

——統(tǒng)計是什么統(tǒng)計是什么?在終極的分析中,一切知識都是歷史;在抽象的意義下,一切科學(xué)都是數(shù)學(xué);在理性的基礎(chǔ)上,所有判斷都是統(tǒng)計學(xué)。

C.R.Rao統(tǒng)計的定義一句話,統(tǒng)計學(xué)(statistics)是用以收集數(shù)據(jù),分析數(shù)據(jù)和由數(shù)據(jù)得出結(jié)論的一組概念、原則和方法。統(tǒng)計學(xué)是收集和分析數(shù)據(jù)的科學(xué)和藝術(shù)。

——不列顛百科全書統(tǒng)計思想的重要性統(tǒng)計不止是一種方法或技術(shù),還含有世界觀的成分,是看待世界上萬千事物的一種方法,我們常講某事從統(tǒng)計觀點看如何如何,就是這個意思。統(tǒng)計思想是一個發(fā)展過程。因此統(tǒng)計思想的養(yǎng)成,不單需要學(xué)習(xí)具體的知識還要能從發(fā)展的眼光,把這些知識連綴成一個有機的清晰的圖景,獲得一種歷史的厚重感。

——陳希孺牛頓力學(xué):機械宇宙觀,決定論統(tǒng)計思想:類似于物理學(xué),統(tǒng)計在否定中發(fā)展

拿破侖:拉普拉斯先生,我發(fā)現(xiàn)在你的論述中沒有提到上帝??!拉普拉斯:陛下,我不需要這個假設(shè)!量子物理:本質(zhì)上的不確定性統(tǒng)計思想的發(fā)展愛因斯坦:波爾先生,你真的相信上帝是擲篩子嗎?波爾:愛因斯坦博士,請不要指揮上帝應(yīng)該怎么做!統(tǒng)計學(xué)革命對二十世紀(jì)科學(xué)的影響統(tǒng)計學(xué)可以應(yīng)用于幾乎所有的領(lǐng)域:精算,農(nóng)業(yè),動物學(xué),人類學(xué),考古學(xué),審計學(xué),晶體學(xué),人口統(tǒng)計學(xué),牙醫(yī)學(xué),生態(tài)學(xué),經(jīng)濟計量學(xué),教育學(xué),選舉預(yù)測和策劃,工程,流行病學(xué),金融,水產(chǎn)漁業(yè)研究,遺傳學(xué),地理學(xué),地質(zhì)學(xué),歷史研究,人類遺傳學(xué),水文學(xué),工業(yè),法律,語言學(xué),文學(xué),勞動力計劃,管理科學(xué),市場營銷學(xué),醫(yī)學(xué)診斷,氣象學(xué),軍事科學(xué),核材料安全管理,眼科學(xué),制藥學(xué),物理學(xué),政治學(xué),心理學(xué),心理物理學(xué),質(zhì)量控制,宗教研究,社會學(xué),調(diào)查抽樣,分類學(xué),氣象改善,博彩等。統(tǒng)計結(jié)果可信嗎?誰會在1936選舉中獲勝?AlfLondon還是

F.D.R.(羅斯福)?LiteraryDigest(文摘)送出一千萬份問卷(返回二百四十萬份)后,預(yù)測London會贏.而Gallop(蓋洛普)只問了50000人說

Roosevelt(羅斯福)會贏.最后羅斯福和蓋洛普都贏了.文摘倒閉了.關(guān)于美國選舉的兩個例子(1)§1.1統(tǒng)計是什么?關(guān)于美國選舉的兩個例子(2)誰會在1948選舉中獲勝?ThomasDewey還是HarryTruman(杜魯門)?Crossley,Gallop(蓋洛普),Roper所有都預(yù)測Dewey會贏(每個機構(gòu)用了50000個問卷).最后(包括蓋洛普)他們都輸了,而杜魯門贏了.統(tǒng)計結(jié)果可信嗎?§1.1統(tǒng)計是什么?統(tǒng)計的特性統(tǒng)計的一個重要但又往往不易為人所理解的特點是統(tǒng)計從來不絕對地說“是”或者“不是”。統(tǒng)計只能夠說可能,而且往往提供某事可能發(fā)生的概率。統(tǒng)計只說可能性是實際世界的真實體現(xiàn)。真實世界充滿了不確定性。從某種意義來說,生活中唯一確定的事情就是其不確定性?!?.1統(tǒng)計是什么?大數(shù)據(jù)時代統(tǒng)計的意義數(shù)據(jù)(信息)公民權(quán)利人民知道的越多,政府官員才可能更加負責(zé)人——奧巴馬D信息之于民主,就如貨幣之于經(jīng)濟——托馬斯.杰斐遜如何讓數(shù)據(jù)說話(提供信息)?數(shù)據(jù)分析,數(shù)據(jù)挖掘如何讓數(shù)據(jù)說真話?大數(shù)據(jù)的挑戰(zhàn)大數(shù)據(jù)的挑戰(zhàn)大數(shù)據(jù):規(guī)模大、變化快、種類雜14Facebook:用戶規(guī)模超過10億,

每天新增數(shù)據(jù)量10TB四大微博(新浪,騰訊、搜狐和網(wǎng)易):用戶8億多,每天新增微博超過2億條,圖片2000萬張社交類應(yīng)用百度:每天新增日志數(shù)據(jù)量近1PB,數(shù)據(jù)總量近1000PBGoogle:每天新處理數(shù)據(jù)總量

已超過20PB搜索類應(yīng)用數(shù)據(jù)每18月翻一番,過去數(shù)據(jù)是確定的,

當(dāng)前伴隨人機物融合,網(wǎng)絡(luò)信息空間

大數(shù)據(jù)呈現(xiàn)

多樣性

和異構(gòu)性IDC報告:全球數(shù)據(jù)2009年0.8ZB,

2012年2.7ZB,預(yù)計2020年達35ZB預(yù)測:源自圖靈獎得主JimGray和IDC報告20082012.12012.32012.72011.3BigDataAcrosstheFederalGovernment美國:投資2億美元大數(shù)據(jù),支持DOD(國防部)、DHS

(國土安全部)、DOE(能源部)、VA、HHS、FDA)、NARA、NASA、NEH、NIH、NHLBI、NIBIB、NSF、NSA、USGS等15個部開展相應(yīng)領(lǐng)域的大數(shù)據(jù)項目研究WhitePaper:麥肯錫、CMU、達沃斯、IBM、聯(lián)合國分別發(fā)布白皮書歐盟:預(yù)算為5千萬歐元的FP7Call8專門征集針對大數(shù)據(jù)的研究項目中國:國家發(fā)改委將出臺大數(shù)據(jù)相關(guān)的支持計劃;科技部973計劃2014年重要支持方向:5.大數(shù)據(jù)計算的基礎(chǔ)研究大數(shù)據(jù)的挑戰(zhàn)相關(guān)還是因果?例1.1.廣告投入和銷售之間的關(guān)系。下表(數(shù)據(jù)ads.txt)顯示了某企業(yè)的廣告投入和銷售額之間的關(guān)系(萬元)。橫坐標(biāo)代表廣告投入,而縱坐標(biāo)代表銷售收入??吹贸鲇泻畏N關(guān)系嗎?相關(guān)還是因果?能否從該數(shù)據(jù)回答下面問題:這兩個變量是否有關(guān)系?如果有,它們的關(guān)系是否顯著?這些關(guān)系是什么關(guān)系,能否用數(shù)學(xué)模型來描述?這個關(guān)系是否帶有普遍性?這個關(guān)系是不是因果關(guān)系?相關(guān)還是因果?關(guān)于因果關(guān)系在可控制的試驗中,較容易找到因果關(guān)系;比如治療方式和療效的關(guān)系等但是,一般來說,變量之間有關(guān)系這個事實并不意味著一定存在明確的因果關(guān)系。比如利用公雞打鳴來預(yù)報太陽升起;雖然公雞打鳴絕對不是日出的原因(雖然打鳴發(fā)生在先)相關(guān)還是因果?R.A.Fisher吸煙致癌?。????不,這未必是真的!統(tǒng)計需要的知識數(shù)學(xué)的幾乎所有內(nèi)容(不一定事先知道需要什么)但每一個統(tǒng)計問題或者分支可能只用數(shù)學(xué)的很小一部分用計算機做統(tǒng)計計算其他(對象)領(lǐng)域的知識(如生物醫(yī)學(xué)、經(jīng)濟、行為、社會、金融等等)統(tǒng)計與矩陣分析統(tǒng)計與矩陣分析大數(shù)據(jù)分析=并行處理線性方法VS非線性方法參數(shù)模型VS非參數(shù)模型?總結(jié)學(xué)習(xí)統(tǒng)計的要點是把握統(tǒng)計思想,靈活運用統(tǒng)計思想。數(shù)據(jù)分析,通常是從不同角度揭示相關(guān)。

相關(guān)與因果的關(guān)系?線性與非線性,參數(shù)與非參數(shù)。參考書多元統(tǒng)計:RichardAJohnson,DeanWWichern:AppliedMultivariateStatisticalAnalysis數(shù)據(jù)的矩陣描述25ARRAYOFDATA26樣本DESCRIPTIVESTATISTICSSummarynumberstoassesstheinformationcontainedindataBasicdescriptivestatisticsSamplemeanSamplevarianceSamplestandarddeviationSamplecovarianceSamplecorrelationcoefficient27SAMPLEMEANAND

SAMPLEVARIANCE28SAMPLECOVARIANCEAND

SAMPLECORRELATIONCOEFFICIENT29STANDARDIZEDVALUES

(ORSTANDARDIZEDSCORES)CenteredatzeroUnitstandarddeviationSamplecorrelationcoefficientcanberegardedasasamplecovarianceoftwostandardizedvariables30PROPERTIESOFSAMPLECORRELATIONCOEFFICIENTValueisbetween-1and1MagnitudemeasurethestrengthofthelinearassociationSignindicatesthedirectionoftheassociationValueremainsunchangedifallxji’sandxjk’sarechangedtoyji=a

xji+bandyjk=c

xjk+d,respectively,providedthattheconstantsaandchavethesamesign31ARRAYSOFBASIC

DESCRIPTIVESTATISTICS32RANDOMVECTORSAND

RANDOMMATRICESRandomvectorVectorwhoseelementsarerandomvariablesRandommatrixMatrixwhoseelementsarerandomvariables33EXPECTEDVALUEOFA

RANDOMMATRIX34POPULATIONMEANVECTORS35COVARIANCE36STATISTICALLYINDEPENDENT37POPULATIONVARIANCE-COVARIANCEMATRICES38POPULATIONCORRELATIONCOEFFICIENTS39STANDARDDEVIATIONMATRIX40CORRELATIONMATRIXFROM

COVARIANCEMATRIX41PARTITIONINGCOVARIANCEMATRIX42PARTITIONINGCOVARIANCEMATRIX43LINEARCOMBINATIONSOF

RANDOMVARIABLES44EXAMPLEOFLINEARCOMBINATIONSOF

RANDOMVARIABLES45LINEARCOMBINATIONSOF

RANDOMVARIABLES46SAMPLEMEANVECTORANDCOVARIANCEMATRIX47PARTITIONINGSAMPLEMEANVECTOR48PARTITIONINGSAMPLE

COVARIANCEMATRIX49POPULATIONANDSAMPLE50總體(隨機變量或向量)——分布統(tǒng)計量(隨機變量或向量)——分布數(shù)據(jù)推導(dǎo)計算目標(biāo)橋梁出發(fā)點51RANDOMMATRIX52RANDOMSAMPLERowvectorsX1’,X2’,…,Xn’representindependentobservationsfromacommonjointdistributionwithdensityfunctionf(x)=f(x1,x2,…,xp)Mathematically,thejointdensityfunctionofX1’,X2’,…,Xn’is53RANDOMSAMPLEMeasurementsofasingletrial,suchasXj’=[Xj1,Xj2,…,Xjp],willusuallybecorrelatedThemeasurementsfromdifferenttrialsmustbeindependentTheindependenceofmeasurementsfromtrialtotrialmaynotholdwhenthevariablesarelikelytodriftovertime54RESULT155PROOFOFRESULT156PROOFOFRESULT157PROOFOFRESULT158SOMEOTHERESTIMATORS主成分分析59PRINCIPALCOMPONENTANALYSISExplainthevariance-covariancestructureofasetofvariablesthroughafewlinearcombinationsofthesevariablesObjectivesDatareductionInterpretationDoesnotneednormalityassumptioningeneral60PRINCIPALCOMPONENTS61RESULT(主成分解)62RESULT(總方差不變)63PROPORTIONOFTOTALVARIANCEDUETOTHEKTHPRINCIPALCOMPONENT64CONCEPTOFPRINCIPALCOMPONENTS65SAMPLEPRINCIPALCOMPONENTS66SAMPLEPRINCIPALCOMPONENTS67EXAMPLE:PAINEDTURTLES68EXAMPLE69EXAMPLE:TURTLEDATA70EXAMPLE:SCREEPLOT71EXAMPLE72幾何解釋73幾何解釋74幾何解釋75幾何解釋76幾何解釋77幾何解釋78幾何解釋79幾何解釋80樣本主成分81EXAMPLE:PAINEDTURTLES82EXAMPLE83EXAMPLE:SCREEPLOT84EXAMPLE85樣本主成分的近似平面解釋8687因子分析88HISTORYEarly20th-centuryattempttodefineandmeasureintelligenceDevelopedprimarilybyscientistsinterestedinpsychometricsAdventofcomputersgeneratedarenewedinterestEachapplicationmustbeexaminedonitsownmerits89ESSENCEOFFACTORANALYSISDescribe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論