lec01統(tǒng)計概述課件_第1頁
lec01統(tǒng)計概述課件_第2頁
lec01統(tǒng)計概述課件_第3頁
lec01統(tǒng)計概述課件_第4頁
lec01統(tǒng)計概述課件_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

應(yīng)用統(tǒng)計方法清華大學(xué)數(shù)學(xué)科學(xué)系

梁恒辦公室:數(shù)學(xué)系荷二辦公樓215#電

話:

Email:liangh@mail概率與統(tǒng)計分賭本問題甲、乙兩個賭徒進(jìn)行一場9局5勝制的賭博每人有本金100元,勝者得到全部200元。

當(dāng)賭博在甲3:1領(lǐng)先時,被迫停止時,200元本金如何分配?Pascal的求解統(tǒng)計和隨機(jī)(概率)的概念已經(jīng)深入到生活中的方方面面

降水概率,病人的存活率,彩票……對數(shù)據(jù)的理解

Polya關(guān)于醫(yī)生的玩笑:一名醫(yī)生安慰他的病人說:你患了一種非常嚴(yán)重的病,患這種病的人只有十分之一能活下來。但是你不用擔(dān)心,你到我這里來是十分幸運(yùn)的,因?yàn)椤y(tǒng)計觀念統(tǒng)計學(xué)與概率論的宗旨都是把不確定現(xiàn)象量化差別在于:概率論是數(shù)學(xué),其基本特征是從法則到結(jié)果(fromrulestoresults),而統(tǒng)計學(xué)是一門科學(xué),其基本特征是從結(jié)果到法則(fromresultstorules)。統(tǒng)計學(xué)研究的主要內(nèi)容是搜集和分析數(shù)據(jù)。通過對數(shù)據(jù)的分析,從中提煉有用的信息,達(dá)到對未知事務(wù)的推斷、對未來可能發(fā)生事件的預(yù)測等等。統(tǒng)計學(xué)能夠發(fā)揮作用的領(lǐng)域不勝枚舉

統(tǒng)計應(yīng)用問題例

1應(yīng)用問題例

2

莎士比亞的新詩應(yīng)用問題例

2

莎士比亞的新詩應(yīng)用問題例

2

莎士比亞的新詩應(yīng)用問題例

2

莎士比亞的新詩不同單詞使用的頻數(shù)莎士比亞作品中單詞使用的次數(shù)本約翰遜(哀歌)馬洛(四首詩)多恩(狂喜)新發(fā)現(xiàn)的詩基于莎士比亞作品的期望值08101796.97128574.21218653.333-4616585.365-9922121110.2410-19920171013.9620-291213142110.7730-391296168.8740-591314121813.7760-79109389.9980-9913131057.48不同單詞數(shù)243272252258258單詞總數(shù)411495487429…應(yīng)用問題例

2

莎士比亞的新詩應(yīng)用問題例

2

莎士比亞的新詩統(tǒng)計應(yīng)用問題例

3

小兒麻痹癥疫苗的有效性問題:小兒麻痹疫苗問世后,1954年進(jìn)行了一項(xiàng)研究以評價它在預(yù)防幼兒麻痹及死亡方面的有效性。兩組幼兒參加了這項(xiàng)研究。一組按規(guī)定接受三次疫苗,另一組則不接受疫苗。后一組作為證實(shí)疫苗有效性的對照是必須的。比較的最重要的判據(jù)是兩組中發(fā)生麻痹以及死亡的幼兒數(shù)。由于小兒麻痹癥發(fā)病率極低,兩組都需要大量的幼兒以保證有足夠的病例發(fā)生,從而為比較提供可靠的基礎(chǔ)。Meier的文章稱該項(xiàng)研究是“有史以來最大規(guī)模的公共衛(wèi)生試驗(yàn)”。兩組人數(shù)都略多于200000名小孩。和上一個例子一樣,決定每個小孩是否接受疫苗使用了隨機(jī)化的方法。這里使用的是分層隨機(jī)化。全美國的許多學(xué)校參加了這項(xiàng)計劃,在每個參加學(xué)校分別進(jìn)行隨機(jī)化抽樣,使得每個學(xué)校中接受疫苗(試驗(yàn)組)和沒有接受疫苗(對照組)的小孩數(shù)目大致相等。從而相對高發(fā)病率地區(qū)和相對低發(fā)病率地區(qū)的學(xué)校都有大致相等數(shù)目的隨機(jī)選擇的試驗(yàn)組和對照組小孩。統(tǒng)計應(yīng)用問題例

3

小兒麻痹癥疫苗的有效性每一位不接種的小孩接受三次生理鹽水(醫(yī)學(xué)上稱為安慰劑)的注射。該項(xiàng)試驗(yàn)中安慰劑的目的是為了使幼兒、家長、注射者,以及當(dāng)某一幼兒患病時為其治療的大夫都不知道這個小孩接受的是疫苗還是生理鹽水。兩組幼兒的發(fā)病率是否有本質(zhì)的差異?差異大小的點(diǎn)估計和區(qū)間估計是什么?回答這些問題是統(tǒng)計推斷的重要內(nèi)容。隨機(jī)化方法(思想)的應(yīng)用統(tǒng)計應(yīng)用問題例

4

吸煙與健康(吸煙者的死亡率)

問題:1951年到1959年期間,曾經(jīng)有過7次大規(guī)模的對吸煙男性死亡率的比較研究。1次在英國,1次在加拿大,5次在美國。除了一些微調(diào),研究計劃基本是一致的。首先,給選定組別的人送一份調(diào)查表,詢問最近及過去的吸煙習(xí)慣以及其他一些情況,如年齡等。啟動一套程序以保證一旦回答問卷的人死了,這一消息會馬上被報告、記錄,并得到死亡原因診斷(通過死亡證明書或尸體解剖報告)。研究涉及的人數(shù)最少有34000,最多達(dá)到448000。這些研究包含眾多的死亡率和死亡原因可以進(jìn)行比較的樣本(1)不同類型的吸煙者——不吸煙者、吸香煙者、吸雪茄者、吸煙斗者、混吸著;(2)給定類型的不同吸煙量;(3)給定吸煙類型和吸煙量,不同的開始吸煙的年齡;(4)通過戒煙的時間和戒煙前的吸煙量,對戒煙者分類。統(tǒng)計應(yīng)用問題例

4

吸煙與健康(吸煙者的死亡率)基于觀察的研究當(dāng)人們希望通過這些分組之間的比較得出結(jié)論時,他們發(fā)現(xiàn),吸煙研究與前面口感舒適度與小兒麻痹等研究之間有一個主要的邏輯上的差別。后兩種研究,研究人員能夠決定哪一組對象接受怎樣的試驗(yàn)??梢酝ㄟ^隨機(jī)化處理保證各組間除了試驗(yàn)方法以外沒有系統(tǒng)差異。可是在吸煙研究中,研究人員無法指定對象分組。分組依靠的是對象(即吸煙者)的吸煙習(xí)慣。這樣,除了吸煙以外,不同類型的吸煙者之間可能存在多方面的系統(tǒng)差異對死亡率產(chǎn)生影響。例如,吸雪茄和煙斗的人的年齡通常會比不吸煙者大得多。年輕人更傾向于吸香煙。眾所周知,中年以后的死亡率隨年齡逐步增高。所以,簡單的死亡率比較會有利于吸香煙者,而嚴(yán)重的不利于吸雪茄和煙斗的人。進(jìn)而,不同類型的吸煙者其飲食習(xí)慣、體育鍛煉以及其他眾多可因素都可能影響死亡率。為了避免這些偏差,研究人員嘗試將外部條件相似的人群按吸煙習(xí)慣分組,并調(diào)整死亡率。但是,這樣做大大提高了統(tǒng)計分析的復(fù)雜度,同時也缺乏充分的說服力。因?yàn)楹茈y證明考慮到了所有重要的外界因素使得樣本均勻,以及是否做了正確的度量和調(diào)整。類似吸煙的這種研究通常稱為是基于觀察的。它的意思是提醒人們,研究人員缺乏為了進(jìn)行比較而創(chuàng)造分組的能力,而是不得不受數(shù)據(jù)的限制。統(tǒng)計學(xué)有自己獨(dú)特的思維方式與方法對數(shù)據(jù)的考察(第一手?jǐn)?shù)據(jù))一個統(tǒng)計學(xué)者被邀請分析某落后地區(qū)一些人類測量學(xué)方面的數(shù)據(jù)。測定的10個特征中有一個是體重。原始的測量記錄為:7.6,6.5,8.1,7.4,…等。這里的重量單位是英石,1英石等于14磅。7.6*14=106.4磅…統(tǒng)計學(xué)者開始拿到的是經(jīng)過換算得到的以磅為單位的體重記錄。但是他認(rèn)為應(yīng)該查看原始記錄。在查看整個記錄時,他發(fā)現(xiàn)了一個奇異點(diǎn),所有的重量測量值里小數(shù)點(diǎn)后面從來沒有出現(xiàn)過7,8,9三個數(shù)字!進(jìn)一步調(diào)查發(fā)現(xiàn),這一地區(qū)在測量重量時將一英石分為7個單位,并非使用的10進(jìn)制。正確的體重轉(zhuǎn)換應(yīng)該是7*14+(6/7)*14=110磅…

1973年,共有8442男生,4321女生申請加州大學(xué)Berkeley分校的研究生院。男生錄取比例大約44%,女生錄取比例大約35%

Science7February1975:Vol.187no.4175pp.398-404SexBiasinGraduateAdmissions:DatafromBerkeleyP.J.Bickel,E.A.Hammel,J.W.O'Connell統(tǒng)計應(yīng)用問題例

5

解讀數(shù)據(jù)--研究生入學(xué)的性別歧視統(tǒng)計應(yīng)用問題例

5

解讀數(shù)據(jù)--研究生入學(xué)的性別歧視加州大學(xué)Berkeley分校6個最大專業(yè)研究生入學(xué)錄取比例,男生為44.5%,女生為30.3%。是否存在對女性考生的歧視?研究生入學(xué)的性別歧視觀察數(shù)據(jù)發(fā)現(xiàn)男生偏向報考容易的專業(yè),而女生則相反1.A、B兩個專業(yè)容易考取。51.5%的男生申請,女生申請率只有7.25%;2.其他四個專業(yè)較難考取,90%以上的女生申請這四個專業(yè)。簡單的看入學(xué)率是不合理的,簡單的看各系的錄取率同樣不全面。更合理的考察應(yīng)該是加權(quán)入學(xué)率,即綜合考慮到各系的規(guī)模和錄取率。男生的加權(quán)平均入學(xué)率=0.39;女生的加權(quán)平均入學(xué)率=0.43哪一組顯得更隨機(jī)一些擲硬幣的隨機(jī)性鑒別統(tǒng)計量的分布與經(jīng)驗(yàn)分布函數(shù)nn=2000;%samplesize作業(yè)與考試作業(yè)來源:課堂練習(xí)要求:課程報告總評分考試與考勤 60%作業(yè)與報告 40%課程安排9.19統(tǒng)計概述,條件概率9.26常用分布和數(shù)字特征、10.10參數(shù)點(diǎn)估計10.17貝葉斯估計和區(qū)間估計10.24假設(shè)檢驗(yàn)10.31似然比檢驗(yàn)11.07回歸分析11.14因子分析和典型相關(guān)分析11.21主成分分析11.28因子分析和聚類分析12.05神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)12.12MonteCarlo,重要度抽樣考試12.19條件概率的定義

條件概率舉例

某廠有甲、乙、丙三車間生產(chǎn)同一種產(chǎn)品,產(chǎn)量分別占總產(chǎn)量的60%,30%和10%。各車間的次品率分別是2%,5%,6%。(1)在這個廠的該種產(chǎn)品中任取一件,是次品的概率?(2)若發(fā)現(xiàn)一件產(chǎn)品為次品,該次品來自甲車間的概率?條件概率舉例考慮恰有兩個小孩的全部家庭,并且假定生男、生女是等可能的。若隨機(jī)地選一個家庭,發(fā)現(xiàn)該家庭有一個女孩,問這一家另一個小孩是男孩的概率是多少?樣本空間:{(男,男),(男,女),(女,男),(女,女)}設(shè)事件A為“其中一個是女孩”,事件B為“其中一個是男孩”

某家庭有一個女孩條件下,另一個小孩是男孩的概率為條件概率舉例考慮恰有兩個小孩的全部家庭,并且假定生男、生女是等可能的。如果從這些家庭的孩子中隨機(jī)地選擇一個孩子,并發(fā)現(xiàn)她為女孩,問在她家里另一個孩子是男孩的概率是多少?樣本空間:樣本空間:{男g(shù),男b,女g,女b}設(shè)事件A為“這個孩子是女孩”,事件B為“這個孩子有一個兄弟”

隨機(jī)選擇一個孩子,如果是女孩,那么這個女孩有一個兄弟的概率這是一個非常值得體會的例子,它說明正確理解概率統(tǒng)計學(xué)中“我們的抽樣對象到底是什么”的重要性。著名概率學(xué)者鐘開萊先生《初等概率論》中的一個例子條件概率的三個重要計算公式乘法公式例題全概率公式圖解

全概率公式例題例5確診率問題一地區(qū)某疾病的發(fā)病率是0.0004?,F(xiàn)有一種化驗(yàn)方法,對真正患病的人,其化驗(yàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論