第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化

上傳人：釋*** IP屬地：山東上傳時間：2024-12-06 格式：PPTX 頁數(shù)：52 大?。?.93MB 積分：1.2 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩47頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

1.基本概念

2.隨機(jī)抽樣7.1.2統(tǒng)計(jì)量的分布

1.標(biāo)準(zhǔn)正態(tài)分布

2.學(xué)生化t分布7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

1.基本概念（1）總體：研究對象的全體（2）個體：構(gòu)成總體的每個成員（3）樣本：從總體中抽出的部分個體組成的集合（4）樣本量：樣本中所含個體個數(shù)（5）統(tǒng)計(jì)量：不含未知參數(shù)的樣本函數(shù)7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣（1）隨機(jī)數(shù)如生成100個均值為170cm，標(biāo)準(zhǔn)差為9cm的學(xué)生身高的正態(tài)分布隨機(jī)數(shù)。Inimportnumpyasnpimportpandasaspdnp.random.seed(1)#設(shè)置隨機(jī)種子數(shù)以便重復(fù)結(jié)果N=100#隨機(jī)數(shù)個數(shù)x=np.random.normal(170,9,N);#X~N(170,3^2)=N(170,9)X=pd.DataFrame({'X':x.round(1)});X#形成數(shù)據(jù)框,保留1位小數(shù)7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣OutX0184.61164.52165.23160.34177.8.....95170.796166.997170.498164.499176.37.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣生成直方圖：7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣（2）隨機(jī)樣本：從上面的正態(tài)總體中隨機(jī)抽取樣本量為10的若干樣本（注意，每次抽取的樣本是不一樣的）7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布

1.標(biāo)準(zhǔn)正態(tài)分布若一組數(shù)據(jù)來自正態(tài)分布x

N(μ,σ2)，可用正態(tài)化變換將其轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布：根據(jù)中心極限定理可知，此時樣本的均值服從正態(tài)分布:對樣本均值進(jìn)行標(biāo)準(zhǔn)化也可得標(biāo)準(zhǔn)正態(tài)分布:7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布2.學(xué)生化t分布當(dāng)總體標(biāo)準(zhǔn)差σ未知時，可用樣本標(biāo)準(zhǔn)差s代替總體標(biāo)準(zhǔn)差，這時樣本均值的標(biāo)準(zhǔn)化變量t服從t分布:可以證明，t值服從t分布，當(dāng)n趨向無窮大時，t分布近似為標(biāo)準(zhǔn)正態(tài)分布N(0,1)。7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布2.學(xué)生化t分布7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布2.學(xué)生化t分布7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法

1.點(diǎn)估計(jì)2.區(qū)間估計(jì)7.2.2假設(shè)檢驗(yàn)的思想

1.假設(shè)檢驗(yàn)的基本思想

2.假設(shè)檢驗(yàn)的基本步驟7.2.3均值比較的t檢驗(yàn)

1.單樣本均值的t檢驗(yàn)

【Excel的基本操作】

2.兩樣本均值的t檢驗(yàn)

【Excel的基本操作】練習(xí)題77.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法點(diǎn)估計(jì)（pointestimation），用樣本統(tǒng)計(jì)量來估計(jì)相應(yīng)的總體參數(shù)樣本均值x→總體均值μ；樣本標(biāo)準(zhǔn)差s→總體標(biāo)準(zhǔn)差σ；樣本比例p→總體比例P

1.點(diǎn)估計(jì)參數(shù)的估計(jì)方法包括點(diǎn)估計(jì)和區(qū)間估計(jì)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法

1.點(diǎn)估計(jì)樣本X的各種統(tǒng)計(jì)量的點(diǎn)估計(jì)值：7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法2.區(qū)間估計(jì)區(qū)間估計(jì)（intervalestimation）是通過統(tǒng)計(jì)推斷找到包括樣本統(tǒng)計(jì)量在內(nèi)（有時以統(tǒng)計(jì)量為中心）的一個區(qū)間，該區(qū)間被認(rèn)為以多大概率（也稱可信度或置信度）可能性包含了總體參數(shù)。置信區(qū)間的一般公式：7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法2.區(qū)間估計(jì)總體標(biāo)準(zhǔn)差通常未知，可使用t統(tǒng)計(jì)量及其分布：運(yùn)用t分布構(gòu)造置信區(qū)間：7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法2.區(qū)間估計(jì)可用scipy包的模塊stats中的erval函數(shù)也可生成置信水平為1-α的置信區(qū)間：erval(b,df,loc,scale)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.2假設(shè)檢驗(yàn)的思想假設(shè)檢驗(yàn)(hypothesistesting)，又稱統(tǒng)計(jì)假設(shè)檢驗(yàn)，是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。顯著性檢驗(yàn)是假設(shè)檢驗(yàn)中最常用的一種方法，也是一種最基本的統(tǒng)計(jì)推斷形式常用的假設(shè)檢驗(yàn)方法有z檢驗(yàn)、t檢驗(yàn)、F檢驗(yàn)和方差分析等7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.2假設(shè)檢驗(yàn)的思想1.假設(shè)檢驗(yàn)的基本思想“小概率事件”原理，其統(tǒng)計(jì)推斷方法是帶有某種概率性質(zhì)的反證法。小概率思想小概率事件在一次試驗(yàn)中基本上不會發(fā)生反證法思想先提出檢驗(yàn)假設(shè)，再用適當(dāng)?shù)慕y(tǒng)計(jì)方法，利用小概率原理，確定假設(shè)是否成立。假定該假設(shè)H0正確小概率事件發(fā)生拒絕H0“小概率事件”發(fā)生的概率稱為檢驗(yàn)的顯著性水平，用α表示7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化（1）提出檢驗(yàn)假設(shè)提出檢驗(yàn)假設(shè)又稱零假設(shè)，符號是H0；備擇假設(shè)的符號是H1。H0：樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的；H1：樣本與總體或樣本與樣本間存在本質(zhì)差異；（2）給定顯著性水平

通常取α=0.05（3）選定相應(yīng)統(tǒng)計(jì)方法由樣本觀察值按相應(yīng)的公式計(jì)算出統(tǒng)計(jì)量的大小，如t值、F值等。（4）根據(jù)統(tǒng)計(jì)量計(jì)算相應(yīng)的概率p值下結(jié)論若p>α，不顯著，接受H0；若p≤

α，顯著，拒絕H07.2.2假設(shè)檢驗(yàn)的思想1.假設(shè)檢驗(yàn)的基本步驟7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)

7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)（2）實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)（2）實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)（2）實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)（2）實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)（2）實(shí)例分析——縱向比較檢驗(yàn)的p=0.0008<0.05，在顯著性水平

=0.05時拒絕H0，認(rèn)為廣州地區(qū)的人均GDP與5萬元有顯著差異，應(yīng)該是不少于5萬元的。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)【Excel的基本操作】（1）在透視表中選需要的數(shù)據(jù)，本例是2019年的珠三角人均GDP數(shù)據(jù)。（2）切換到“數(shù)據(jù)”選項(xiàng)卡，單擊“分析”組中的“數(shù)據(jù)分析”按鈕，將彈出數(shù)據(jù)分析對話框。在分析工具框中選擇“t-檢驗(yàn):成對雙樣本均值分析”。（3）給出總體均值：在C4:C24區(qū)域給出總體均值5。（4）輸入：變量1的區(qū)域：B3:B24變量2的區(qū)域：C3:C24假設(shè)平均差:0標(biāo)志:不選α(A):0.05（5）輸出選項(xiàng)：輸出區(qū)域:F47.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化【Excel的基本操作】7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化檢驗(yàn)的p=0.3508>0.05，在顯著性水平

=0.05時不拒絕H0，認(rèn)為廣州地區(qū)的人均GDP與10萬元無顯著差異。7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)【Excel的基本操作】7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)（2）實(shí)例分析——橫向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)（2）實(shí)例分析——橫向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)（2）實(shí)例分析——橫向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)（2）實(shí)例分析——橫向比較檢驗(yàn)的p=0.0405<0.05，在顯著性水平

=0.05時拒絕H0，認(rèn)為2019年廣東地區(qū)的人均GDP與5萬元有顯著差異，應(yīng)該是不少于5萬元的。檢驗(yàn)的p=0.0374<0.05，在顯著性水平

=0.05時拒絕H0，認(rèn)為2019年廣東地區(qū)的人均GDP與10萬元有顯著差異。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)（2）實(shí)例分析——橫向比較【Excel的基本操作】1）在透視表中選需要的數(shù)據(jù)，本例是2019年的珠三角人均GDP數(shù)據(jù)。2）切換到“數(shù)據(jù)”選項(xiàng)卡，單擊“分析”組中的“數(shù)據(jù)分析”按鈕，將彈出數(shù)據(jù)分析對話框。在分析工具框中選擇“t-檢驗(yàn):成對雙樣本均值分析”。3）給出總體均值：在D4:D24區(qū)域分別給出總體均值10。4）輸入：變量1的區(qū)域：B3:B24變量2的區(qū)域：D3:D24

假設(shè)平均差:0標(biāo)志:不選α(A):0.055）輸出選項(xiàng)：輸出區(qū)域:F47.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化【Excel的基本操作】7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)由于經(jīng)濟(jì)數(shù)據(jù)大都有趨勢波動，所以數(shù)據(jù)通常很難滿足正態(tài)性要求，這類數(shù)據(jù)的檢驗(yàn)通常要做些變換，如對數(shù)變換或秩變換（非參數(shù)方法），從而使數(shù)據(jù)更接近正態(tài)分布。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)對數(shù)處理7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)對數(shù)處理7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)對數(shù)處理檢驗(yàn)的p=0.1207>0.05，在顯著性水平=0.05時不拒絕H0，認(rèn)為廣州地區(qū)的人均GDP與5萬元無顯著差異。檢驗(yàn)的p=0.0374<0.05，在顯著性水平=0.05時拒絕H0，認(rèn)為2019年廣東地區(qū)的人均GDP與10萬元有顯著差異。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)要求兩組數(shù)據(jù)均應(yīng)服從正態(tài)分布要求兩組數(shù)據(jù)相應(yīng)的兩總體方差相等，即方差齊性。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)（1）正態(tài)性檢驗(yàn)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)（1）正態(tài)性檢驗(yàn)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)（1）正態(tài)性檢驗(yàn)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)（1）正態(tài)性檢驗(yàn)可以看出，深圳和珠海的GDP數(shù)據(jù)的分布基本上是正態(tài)的7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)（2）方差齊性檢驗(yàn)檢驗(yàn)不同地區(qū)GDP的變異有無顯著差異，即檢驗(yàn)兩總體方差是否相等，這里用的是levene方差齊性檢驗(yàn)。p＝0.8333>0.05，說明兩組數(shù)據(jù)的方差是一樣的。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)（3）均值的檢驗(yàn)(方差齊性時)要具體檢驗(yàn)以下假設(shè)：H0:

2;H1:

1≠

。由概率論知：7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)（3）均值的檢驗(yàn)(方差齊性時)當(dāng)H0

成立時，所以在給定了顯著性水平α后，由樣本數(shù)據(jù)算出t值及對應(yīng)的概率p值,

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化

文檔簡介

溫馨提示

最新文檔

評論

第7章 數(shù)據(jù)統(tǒng)計(jì)推斷及可視化

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化