數(shù)理統(tǒng)計的基本知識_第1頁
數(shù)理統(tǒng)計的基本知識_第2頁
數(shù)理統(tǒng)計的基本知識_第3頁
數(shù)理統(tǒng)計的基本知識_第4頁
數(shù)理統(tǒng)計的基本知識_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)理統(tǒng)計的基本知識引言到了十九世紀末二十世紀初,隨著近代數(shù)學(xué)和概率論的發(fā)展,才真正誕生了數(shù)理統(tǒng)計學(xué)這門學(xué)科.從歷史的典籍中,人們不難發(fā)現(xiàn)許多關(guān)于錢糧、戶口、地震、水災(zāi)等等的記載,說明人們很早就開始了統(tǒng)計的工作.但是當時的統(tǒng)計,只是對有關(guān)事實的簡單記錄和整理,而沒有在一定理論的指導(dǎo)下,作出超越這些數(shù)據(jù)范圍之外的推斷.數(shù)理統(tǒng)計學(xué)是一門應(yīng)用性很強的學(xué)科.它是研究怎樣以有效的方式收集、整理和分析帶有隨機性的數(shù)據(jù),以便對所考察的問題作出推斷和預(yù)測,直至為采取一定的決策和行動提供依據(jù)和建議.引言數(shù)理統(tǒng)計不同于一般的資料統(tǒng)計,它更側(cè)重于應(yīng)用隨機現(xiàn)象本身的規(guī)律性進行資料的收集、整理和分析.

由于大量隨機現(xiàn)象必然呈現(xiàn)出它的規(guī)律性,因而從理論上講,只要對隨機現(xiàn)象進行足夠多次觀察,被研究的隨機現(xiàn)象的規(guī)律性一定能清楚地呈現(xiàn)出來.但在客觀上只允許我們對隨機現(xiàn)象進行次數(shù)不多的觀察試驗,也就是說,我們獲得的只是局部觀察資料.引言數(shù)理統(tǒng)計方法具有“部分推斷整體”的特征.引言數(shù)理統(tǒng)計的基本思想:從所要研究對象的全體中,抽取一小部分進行觀測或試驗。以取得信息,從而對整體做出推斷。每個推斷必須伴隨一定的概率,以表明推斷的可靠性。(數(shù)理推斷)數(shù)理統(tǒng)計的基本任務(wù):以大數(shù)定律、中心極限定理為理論基礎(chǔ),根據(jù)實際掌握的部分信息對有關(guān)主體試驗的分布、數(shù)字特征做出估計并加以檢驗的數(shù)理推斷。

一個統(tǒng)計問題總有它明確的研究對象.1.總體研究對象的全體稱為總體(母體),總體中所包含的個體的個數(shù)稱為總體的容量.總體中每個成員稱為個體,總體有限總體無限總體一、總體和樣本在數(shù)理統(tǒng)計研究中,人們往往研究有關(guān)對象的某一項(或幾項)數(shù)量指標和.為此,對這一指標進行隨機試驗,觀察試驗結(jié)果全部觀察值,從而考察該數(shù)量指標的分布情況.

這時,每個具有的數(shù)量指標的全體就是總體.每個數(shù)量指標就是個體.某批燈泡的壽命該批燈泡壽命的全體就是總體國產(chǎn)轎車每公里的耗油量國產(chǎn)轎車每公里耗油量的全體就是總體一、總體和樣本因此在理論上可以把總體與概率分布等同起來.由于每個個體的出現(xiàn)是隨機的,所以相應(yīng)的數(shù)量指標的出現(xiàn)也帶有隨機性.從而可以把這種數(shù)量指標看作一個隨機變量X

,因此隨機變量X的分布就是該數(shù)量指標在總體中的分布.

總體就可以用一個隨機變量及其分布來描述.一、總體和樣本例如:研究某批燈泡的壽命時,關(guān)心的數(shù)量指標就是壽命,那么,此總體就可以用隨機變量X表示,或用其分布函數(shù)F(x)表示.某批燈泡的壽命總體

壽命X可用一概率(指數(shù))分布來刻劃一、總體和樣本F(x)

類似地,在研究某地區(qū)中學(xué)生的營養(yǎng)狀況時,若關(guān)心的數(shù)量指標是身高和體重,我們用X和Y分別表示身高和體重,那么此總體就可用二維隨機變量(X,Y)或其聯(lián)合分布函數(shù)F(x,y)來表示.

統(tǒng)計中,總體這個概念的要旨是:總體就是一個隨機變量或概率分布.一、總體和樣本總體分布一般是未知,或只知道是包含未知參數(shù)的分布,為推斷總體分布及各種特征,按一定規(guī)則從總體中抽取若干個體進行觀察試驗,以獲得有關(guān)總體的信息,這一抽取過程稱為

“抽樣”,所抽取的部分個體稱為樣本.

樣本中所包含的個體數(shù)目稱為樣本容量.2.樣本從國產(chǎn)轎車中抽5輛進行耗油量試驗樣本容量為5抽到哪5輛是隨機的一、總體和樣本

一旦取定一組樣本X1,…,Xn,得到n個具體的數(shù)(x1,x2,…,xn),稱為樣本的一次觀察值,簡稱樣本值

.n稱為這個樣本的容量.1.

代表性:

X1,X2,…,Xn中每一個與所考察的總體有相同的分布.2.

獨立性:

X1,X2,…,Xn是相互獨立的隨機變量.一、總體和樣本一、總體和樣本簡單樣本是一種理想化的樣本.如何才能得到簡單樣本呢?對于有限總體,若采用有放回抽取,則可得到簡單樣本;若采用無放回抽取,則無法保證每次抽取的獨立性,但若有限總體容量較樣本容量很大時,無放回抽取與有放回抽取區(qū)別很小,亦可采用無放回抽取得到簡單樣本.對于無限總體,抽取部分個體后放回與否對總體成分影響不大,因此可采用不放回抽取獲得簡單樣本.

簡單隨機樣本是應(yīng)用中最常見的情形,今后,當說到“X1,X2,…,Xn是取自某總體的樣本”時,若不特別說明,就指簡單隨機樣本.=F(x1)F(x2)…F(xn)

若總體的分布函數(shù)為F(x)、概率密度函數(shù)為f(x),則其簡單隨機樣本的聯(lián)合分布函數(shù)為其簡單隨機樣本的聯(lián)合概率密度函數(shù)為=f(x1)f(x2)…f(xn)

一、總體和樣本解:例1一、總體和樣本解:例2一、總體和樣本一、總體和樣本

事實上我們抽樣后得到的資料都是具體的、確定的值.如我們從某班大學(xué)生中抽取10人測量身高,得到10個數(shù),它們是樣本取到的值而不是樣本.我們只能觀察到隨機變量取的值而見不到隨機變量.3.總體、樣本、樣本值的關(guān)系一、總體和樣本總體(理論分布)?

樣本

樣本值統(tǒng)計是從手中已有的資料--樣本值,去推斷總體的情況---總體分布F(x)的性質(zhì).總體分布決定了樣本取值的概率規(guī)律,也就是樣本取到樣本值的規(guī)律,因而可以由樣本值去推斷總體.樣本是聯(lián)系二者的橋梁一、總體和樣本例3

為對某小麥雜交組合F2代的株高X進行研究,抽取容量為100的樣本,測試的原始數(shù)據(jù)記錄如下(單位:厘米),試根據(jù)以上數(shù)據(jù),畫出它的頻率直方圖,求隨機變量X的分布狀況.

87 88 111 91 73 70 92 98 105 9499 91 98 110 98 97 90 83 92 8886 94 102 99 89 104 94 94 92 9687 94 92 86 102 88 75 90 90 8084 91 82 94 99 102 91 96 94 9485 88 80 83 81 69 95 80 97 9296 109 91 80 80 94 102 80 86 9190 83 84 91 87 95 76 90 91 77103 89 88 85 95 92 104 92 95 8386 81 86 91 89 83 96 86 75 92二、分布密度的近似求法1.找出數(shù)據(jù)中最小值m=69,最大值M=111,極差為

M-m=422.數(shù)據(jù)分組,根據(jù)樣本容量n的大小,決定分組數(shù)k。一般規(guī)律30≤n≤405≤k≤640≤n≤606≤k≤860≤n≤1008≤k≤10100≤n≤50010≤k≤20二、分布密度的近似求法方法:整理原始數(shù)據(jù),加工為分組資料,作出頻率分布表,畫直方圖,提取樣本分布特征的信息.步驟如下:一般采取等距分組(也可以不等距分組),本例取k=9.本例測量單位為1厘米,組距為二、分布密度的近似求法組距=極差/組數(shù)3.確定組限和組中點值。注意:組的上限與下限應(yīng)比數(shù)據(jù)多一位小數(shù)。當取a=67.5,b=112.49(a略小于m,b略大于M,且a和b都比數(shù)據(jù)多一位小數(shù)),分組如下:一般根據(jù):各組中點值

組距=組的上限或下限[67.5,72.5)[72.5,77.5)[77.5,82.5)[82.5,87.5)[87.5,92.5)[92.5,97.5)[97.5,102.5)[102.5,107.5)[107.5,112.5)組中值分別為:707580859095100105110二、分布密度的近似求法組序區(qū)間范圍頻數(shù)fj頻率Wj=fj/n累計頻率Fj1[67.5,72.5)20.020.022[72.5,77.5)50.050.073[77.5,82.5)100.100.174[82.5,87.5)180.180.355[87.5,92.5)300.30.656[92.5,97.5)180.180.837[97.5,102.5)100.10.938[102.5,107.5)40.040.979[107.5,112.5)30.031.004.將數(shù)據(jù)分組,計算各組頻數(shù),作頻數(shù)、頻率分布表二、分布密度的近似求法5.作出頻率直方圖以樣本值為橫坐標,頻率/組距為縱坐標;以分組區(qū)間為底,以為高作小矩形.作頻率直方圖二、分布密度的近似求法從頻率直方圖可看到:靠近兩個極端的數(shù)據(jù)出現(xiàn)比較少,而中間附近的數(shù)據(jù)比較多,即中間大兩頭小的分布趨勢,——隨機變量分布狀況的最粗略的信息.在頻率直方圖中,每個矩形面積恰好等于樣本值落在該矩形對應(yīng)的分組區(qū)間內(nèi)的頻率,即頻率直方圖中的小矩形的面積近似地反映了樣本數(shù)據(jù)落在某個區(qū)間內(nèi)的可能性大小,故它可近似描述X的分布狀況.二、分布密度的近似求法三、分布函數(shù)的近似求法即不大于x的觀察值的頻率.三、分布函數(shù)的近似求法三、分布函數(shù)的近似求法例4抽取了某企業(yè)10個月的盈利額(單位:萬元)3.22.5-42.50322.542設(shè)X為月盈利額,求X的經(jīng)驗分布函數(shù)并畫圖.解:將樣本值由小到大排列為-4<0<2=2<2.5=2.5=2.5<3<3.2<4則其經(jīng)驗分布函數(shù)為三、分布函數(shù)的近似求法三、分布函數(shù)的近似求法對于任何實數(shù)x,等于在n次重復(fù)獨立試驗中事件的頻率,由頻率與概率的關(guān)系知,可作為總體X的分布函數(shù)F(x)的近似,且當樣本容量充分大時,幾乎為F(x).若總體X是離散型,圖形呈跳躍上升的階梯曲線(累計頻率曲線),若觀察值不重復(fù),則每次跳躍高度是1/n,若觀察值有重復(fù),則按重復(fù)次數(shù)的1/n倍跳躍.若總體是連續(xù)型,只要大致連接各階梯中點即可.

由樣本值去推斷總體情況,需要對樣本值進行“加工”,這就要構(gòu)造一些樣本的函數(shù),它把樣本中所含的(某一方面)的信息集中起來.1.統(tǒng)計量

這種不含任何未知參數(shù)的樣本的函數(shù)稱為統(tǒng)計量.它是完全由樣本決定的量.四、統(tǒng)計量定義例四、統(tǒng)計量未知,為來自X的樣本,則是統(tǒng)計量,不是統(tǒng)計量.注意:四、統(tǒng)計量1.統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論