2.數(shù)理統(tǒng)計基本概念_第1頁
2.數(shù)理統(tǒng)計基本概念_第2頁
2.數(shù)理統(tǒng)計基本概念_第3頁
2.數(shù)理統(tǒng)計基本概念_第4頁
2.數(shù)理統(tǒng)計基本概念_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第部分:數(shù)理統(tǒng)計(Statistics) 數(shù)理統(tǒng)計基本概念、數(shù)據(jù)的整理和描述 統(tǒng)計量及其分布 估計理論 假設(shè)檢驗 回歸分析1為什么要學(xué)習(xí)統(tǒng)計?在當(dāng)今這個信息時代,我們將隨時隨地成為信息的接收者,我們也隨時需要處理身邊和工作中的信息和數(shù)據(jù).如此眾多繁亂的信息,我們該如何”借來一雙慧眼”,看個清楚明白呢?桑普拉斯說:統(tǒng)計分析讓一切假象原形畢露。但是,統(tǒng)計中也有不少陷阱,蹩腳的數(shù)據(jù)分析師總是披著統(tǒng)計的外衣有意或無意地制造假象,許多年前的一本著作How to lie with statistics就對此有過幽默而深刻的描述,最近出版了中譯本名為統(tǒng)計陷阱,達萊爾.哈夫著,廖穎林譯,有興趣的朋友不妨一睹為

2、快。對于任何一個成功的應(yīng)用項目來說,一個真正的統(tǒng)計學(xué)家和數(shù)據(jù)分析專家是必不可少的,他會指引你繞過礁石和旋渦,到達成功的彼岸。2幾個統(tǒng)計故事1.1936年美國雜志預(yù)測在總統(tǒng)大選中哪位候選人會勝出?2.中國知識分子的壽命比正常人壽命少10年?3.學(xué)歷越高,收入越多,上網(wǎng)時間越長?31936年美國正從經(jīng)濟大恐慌中復(fù)蘇,全國仍有9百萬人失業(yè)當(dāng)年的美國總統(tǒng)大選,由民主黨員羅斯福與共和黨員蘭登進行角逐文學(xué)文摘(Literary Digest)雜志對結(jié)果進行了調(diào)查預(yù)測他們根據(jù)當(dāng)時的電話號碼簿及該雜志訂戶俱樂部會員名單,郵寄1千萬份問卷調(diào)查表,回收約240萬份工作人員獲得了大量的樣本,對此進行了精確的計算,根

3、據(jù)數(shù)據(jù)的整理分析結(jié)果,他們斷言:在總統(tǒng)選舉中,蘭登將以370161的優(yōu)勢,即以57%比43%,領(lǐng)先14個百分點擊敗羅斯福與之相反,一個名叫喬治蓋洛普的人,對文學(xué)文摘調(diào)查結(jié)果的可信度提出質(zhì)疑他也組織了抽樣調(diào)查,進行民意測驗他的預(yù)測與文學(xué)文摘截然相反,認為羅斯福必勝無疑結(jié)果,羅斯福贏得了2770萬張民眾選票,蘭登得到1600萬張選票;羅斯福贏得了除緬因州、佛蒙特州以外48個州的民眾選票,獲得選舉團523張選票的98強,而蘭登的選票低于2(8張)最終,羅斯福以62%比38%壓倒性地大勝蘭登這一結(jié)果使文學(xué)文摘銷聲匿跡,而蓋洛普則名聲大噪41.數(shù)理統(tǒng)計基本概念總體(population):具有相同性質(zhì)的

4、個體組成的集合。無限總體(infinite population):總體中包含的個體數(shù)目有無窮多個,這種總體稱為無限總體。5有限總體(finite population):總體中包含的個體數(shù)目有限,這種總體稱為有限總體。觀察值(observation):每一個體的某一個性狀、特性的測定數(shù)值叫做觀察值。參數(shù)(parameter):由總體的全部觀察值而算得的總體特征數(shù),如總體平均數(shù),稱為參數(shù)。6樣本(sample):從總體中抽出的一部分個體的集合。估計值(estimate):由樣本函數(shù)確定的總體相應(yīng)參數(shù)的函數(shù)值。隨機樣本(random sample):從總體中隨機抽取的樣本,滿足隨機性和等可能性。

5、樣本容量(sample size):樣本中包含的個體數(shù),用n表示。72.數(shù)據(jù)整理與描述2.1 數(shù)據(jù)資料的性質(zhì)與分類2.2 數(shù)據(jù)頻數(shù)或頻率分布表2.3 數(shù)據(jù)頻數(shù)或頻率分布圖82.1 數(shù)據(jù)資料的性質(zhì)與分類一、數(shù)量性狀資料數(shù)量性狀(quantitative trait)的度量有計數(shù)與量測兩種方式。1、不連續(xù)或間斷性變量(discontinuous or discrete variable):指用計數(shù)方法獲得的數(shù)據(jù)。2、連續(xù)性變量(continuous variable):指稱量、度量或測量方法得到的數(shù)據(jù)。9二、質(zhì)量性狀資料質(zhì)量性狀(qualitative trait):指能觀察而不能量測的性狀。1、

6、統(tǒng)計次數(shù)法2、給予每類性狀以相對數(shù)量的方法。102.2 數(shù)據(jù)頻數(shù)或頻率分布表一、間斷性變量資料的整理1、100個麥穗每穗小穗數(shù)的次數(shù)(頻數(shù))分布表1516171819206153225175112、200個稻穗每穗粒數(shù)的次數(shù)(頻數(shù))分布表次數(shù)(f)每穗粒數(shù)(y)合計313526303640414546505155566061656670717576808185311021324138251683220012二、連續(xù)性變量資料的整理對于此類情況,一般的處理步驟是:1、數(shù)據(jù)排序(sort)2、求極差(range) R=Max(1n)Min (1n)3、確定組數(shù)和組距(class interval)

7、組距R/組數(shù) 因而必須先確定組數(shù)。組數(shù)的確定,可參照以下的因素: (1)觀察值個數(shù)的多少;(2)極差的大??;(3)便于計算;(4)能反應(yīng)出資料的真實面貌。134、選定組限(class limit)和組中點值(組值,class value)首先選定第一組的中點值,這一點選定后,則該組組限確定,其余各組的中點值和組限也隨之確定。第一組的中點值以最接近最小觀察值為好,這樣可以避免第一組內(nèi)次數(shù)過多,能正確地反映資料的規(guī)律性。 每組有兩個組限,數(shù)值小的為下限(lower limit),數(shù)值大的為上限(upper limit)。5、觀察值按分組數(shù)列的各組組限歸組。14以140行水稻試驗的產(chǎn)量為例,(數(shù)據(jù)略

8、。)其中極差:R25475179g 觀察值的個數(shù)為140,可分816組,假定分為12組,則組距179/1214.9,為方便起見,組距定為15g。 數(shù)據(jù)分組頻數(shù)統(tǒng)計表如下:15140行水稻產(chǎn)量的頻數(shù)分布頻數(shù)(f)中點值(y)組限759010512013515016018019521022524025567.582.582.597.597.5112.5112.5127.5127.5142.5142.5157.5157.5172.5172.5187.5187.5202.5202.5217.5217.5232.5232.5247.5247.5262.52771317202521139321合計(n)1

9、4016三、屬性變量資料的整理把資料按各種質(zhì)量性狀進行分類,分類數(shù)等于組數(shù),然后根據(jù)各個體在質(zhì)量屬性上的具體表現(xiàn),分別歸入相應(yīng)的組中,即可得到屬性分布的規(guī)律性認識。下表是某水稻雜種二代植株米粒的分離情況:頻數(shù)(f)屬性分組(y)紅米非糯紅米糯稻白米非糯白米糯稻96373115合計(n)179172.3 數(shù)據(jù)頻數(shù)或頻率分布圖一、方柱形圖(直方圖)方柱形圖(histogram)適用于表示連續(xù)性變量的次數(shù)分布。橫軸為分組數(shù)列,縱軸為分布頻數(shù)。橫坐標(biāo)與縱坐標(biāo)的長度要有合適的比例(一般為5:4或6:5為好),繪成的圖形才能明顯表明頻數(shù)分布情況。18140行水稻產(chǎn)量頻數(shù)分布方柱形圖fy(產(chǎn)量,g/行)19

10、二、多邊形圖多邊形圖(polygon),以每組中點值為橫坐標(biāo),以頻數(shù)為縱坐標(biāo)。20三、條形圖條形圖(bar diagram)適用于間斷性變量和屬性變量資料。一般橫坐標(biāo)表示間斷的中點值或分類性狀,縱坐標(biāo)表示頻數(shù)。21四、餅圖餅圖(pie diagram)適用于間斷性和屬性資料,用以表示這些變量中各種屬性或各種間斷性數(shù)據(jù)觀察值在總觀察值個數(shù)中的百分比。22利用Excel作圖 利用Excel可以方便的作出各種數(shù)據(jù)資料的分布圖形。233. 常用樣本特征3.1 平均數(shù)3.2 變異數(shù)243.1 平均數(shù)3.1.1 平均數(shù)的意義和種類3.1.2 算術(shù)平均數(shù)的計算方法3.1.3 算術(shù)平均數(shù)的重要特性3.1.4

11、總體平均數(shù)253.1.1 平均數(shù)的意義和種類一、平均數(shù)的意義平均數(shù)(average)是數(shù)據(jù)的代表性,表示資料中觀察值的中心位置,并且可以資料的代表而于另一組資料相比較,借以明確兩者之間相差的情況。二、平均數(shù)的種類1、算術(shù)平均數(shù)(arithmetic mean):一個數(shù)量資料中各個觀察值的總和除以觀察值的個數(shù)所得的商,記作262、中位數(shù)(median):將資料內(nèi)所有觀察值從大到小排列,居中間位置的觀察值稱為中位數(shù),記作Md例如: 1、2、3、4、5的中位數(shù)是3 1、2、3、4、5、6的中位數(shù)是: (3+4)/2=3.5273、眾數(shù)(mode):資料中最常見的一數(shù),或次數(shù)最多一組的中點值,稱為眾數(shù)

12、,記為Mo。例如:在資料23、24、23、22、23、25、20、23、中 Mo234、幾何平均數(shù)(geometric mean):n個觀察值,其乘積開n次方,即為幾何平均數(shù),用G代表。283.1.2 算術(shù)平均數(shù)的計算方法1、直接以觀察值進行計算2、若樣本較大,且已分組,可采用加權(quán)法計算算術(shù)平均數(shù),即以組中值代表該組出現(xiàn)的觀察值以計算平均數(shù)。293.1.3 算術(shù)平均數(shù)的重要特性1、樣本各觀察值與其平均數(shù)的差數(shù)(簡稱離均差,deviation from mean)的總和為0。即:2、樣本各觀察值與其平均數(shù)的差數(shù)平方總和,較各個觀察值與任意其它數(shù)值的差數(shù)平方的總和為小,亦即離均差平方的總和最小。3

13、0算術(shù)平均數(shù)的局限性:算術(shù)平均數(shù)易于理解,計算簡單,使用廣泛。但其局限性也是顯而易見的,所有數(shù)據(jù)必須確切知道,易受兩個極端值得影響?;诖?,在某些場合,人們常常通過計算切尾均值來代替算術(shù)平均數(shù)。313.1.4 總體平均數(shù)總體平均數(shù)用來表示,其計算公式為:從公式中可以看出,除非是有限總體,否則總體平均數(shù)是無法通過計算得到的。323.2. 變異數(shù)3.2.1 極差3.2.2 方差3.2.3 標(biāo)準(zhǔn)差3.2.4 變異系數(shù)33 數(shù)據(jù)的代表值只是反映了數(shù)值資料的一個方面集中程度的特征,資料的另一方面和的特征是變異程度。請看下面的例子:A組資料:3、4、5、6、7 平均數(shù)為:5B組資料:1、3、5、7、9 平

14、均數(shù)仍為:5這里的平均數(shù)5對于A組資料的代表性好?還是對于B組資料的代表性好?34答案是十分清楚的??梢?,只表明了數(shù)據(jù)的集中程度是遠遠不夠的,還需要進一步說明數(shù)據(jù)的變異程度。只有通過變異程度的描述,才知道代表值的代表性。表示數(shù)據(jù)變異特征的數(shù)值叫變異數(shù)。常用的變異數(shù)有:極差、方差、標(biāo)準(zhǔn)差、變異系數(shù)等。353.2.1 極差極差(range),又稱全距,記為R,是資料中最大值與最小值之差。例如:A組資料的極差RA734B組資料的極差RB918極差的計算簡單,但是它只是兩個極端數(shù)據(jù)決定的,沒有地方充分利用資料的全部信息,而且易于受到資料中不正常的極端值的影響。所以用它來代表整個樣本的變異度是有缺陷的。

15、363.2.2 方差由于算術(shù)平均數(shù)的可信度比較高,我們設(shè)想用觀察值與算術(shù)平均數(shù)之間的差異來度量一組觀察值的變異性,但是這又遇到 的困難。為了解決這一矛盾,將離差平方后再相加就不再為0。從這個式子知道 愈大,則資料的變異程度也就愈大。 稱為離差的平方和(簡稱平方和),記為SS(Sum Of Square)。37樣本的平方和為總體的平方和為由于各個樣本所包含的觀察值數(shù)目不同,為便于比較,用觀察值數(shù)目除平方和,得到平均平方和,簡稱均方(mean square)或方差(variance)。樣本均方用s2表示,定義為:它是總體方差(2)無偏估計值。383.2.3 標(biāo)準(zhǔn)差一、標(biāo)準(zhǔn)差的定義標(biāo)準(zhǔn)差是方差的正平方根值,用以表示資料的變異度,其單位與觀察值的度量單位相同。樣本標(biāo)準(zhǔn)差的計算公式為:總體標(biāo)準(zhǔn)差用表示:39二、自由度的意義自由度(degree of freedom)最早是一個物理學(xué)上的名詞,它表示一個質(zhì)點在空間運動的自由程度。統(tǒng)計學(xué)借此來反映一批變量的約束條件。 例如一個有5個觀察值的樣本,因為受到統(tǒng)計數(shù)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論