第4章-數(shù)據(jù)挖掘基礎(chǔ)及可視化_第1頁(yè)
第4章-數(shù)據(jù)挖掘基礎(chǔ)及可視化_第2頁(yè)
第4章-數(shù)據(jù)挖掘基礎(chǔ)及可視化_第3頁(yè)
第4章-數(shù)據(jù)挖掘基礎(chǔ)及可視化_第4頁(yè)
第4章-數(shù)據(jù)挖掘基礎(chǔ)及可視化_第5頁(yè)
已閱讀5頁(yè),還剩64頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視4.1.1透視表的構(gòu)建1.Python基礎(chǔ)編程環(huán)境pandas有一個(gè)強(qiáng)大的數(shù)據(jù)透視函數(shù)pivot_table(),可以生成任意維度透視表。既可以進(jìn)行數(shù)據(jù)重塑,也可以進(jìn)行分組統(tǒng)計(jì),還可以實(shí)現(xiàn)Excel等電子表格的透視表功能,且更為靈活。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視4.1.1透視表的構(gòu)建1.無篩選透視表

2.有篩選透視表

3.透視表的分析4.1.2透視圖的繪制

4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建1.Python基礎(chǔ)編程環(huán)境pandas有一個(gè)強(qiáng)大的數(shù)據(jù)透視函數(shù)pivot_table(),可以生成任意維度透視表。既可以進(jìn)行數(shù)據(jù)重塑,也可以進(jìn)行分組統(tǒng)計(jì),還可以實(shí)現(xiàn)Excel等電子表格的透視表功能,且更為靈活。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建pivot_table有四個(gè)最重要的參數(shù)values(值)、index(行)、columns(列)、aggfunc(聚集函數(shù),默認(rèn)求均值),本文以這四個(gè)參數(shù)為中心講解pivot_table操作是如何進(jìn)行。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建1.無篩選透視表(1)縱向數(shù)據(jù)下面是用pandas的pivot_table函數(shù)實(shí)現(xiàn)Excel類似的透視功能。注意,如果不改變函數(shù)中的參數(shù)順序的話,也可以不寫參數(shù)名,只寫變量名。4.1數(shù)據(jù)的透視分析

第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建1.無篩選透視表Excel的基本操作1)在DAV_data.xlsx文檔中選取【數(shù)據(jù)】表單,選定數(shù)據(jù)中的任意一個(gè)單元格,單擊“插入”選項(xiàng)卡,單擊“表格”組“數(shù)據(jù)透視表”下拉按鈕,將彈出下圖所示的“創(chuàng)建數(shù)據(jù)透視表”對(duì)話框。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建1.無篩選透視表Excel的基本操作2)在新工作表的右邊將出現(xiàn)“數(shù)據(jù)透視表字段”任務(wù)窗框。在字段復(fù)選框中選中“年份”和“GDP”二項(xiàng),其中“GDP”取平均項(xiàng)、“年份”作為行字段,這時(shí)數(shù)據(jù)透視表會(huì)即時(shí)顯示相應(yīng)的結(jié)果,見下圖所示。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建1.無篩選透視表Excel的基本操作3)選擇A列的行標(biāo)簽數(shù)據(jù)和B列的平均值項(xiàng):GDP數(shù)據(jù),在“插入”菜單中選擇“圖表”組的“折線圖”下拉按鈕,將繪制上圖所示的折線圖。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化(2)橫向數(shù)據(jù)4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化(3)數(shù)據(jù)重塑

下面是采用Excel的透視表功能選擇交叉分組數(shù)據(jù)。在新工作表的右邊的“數(shù)據(jù)透視表字段”面板上選中“年份”、“地區(qū)”和“人均GDP”二項(xiàng),其中“人均GDP”取平均項(xiàng)、“年份”作為行字段,“地區(qū)”為列字段,這時(shí)數(shù)據(jù)透視表會(huì)即時(shí)顯示相應(yīng)的結(jié)果,見下圖所示。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建2.有篩選透視表有篩選的透視表相當(dāng)于Excel中的帶分頁(yè)的透視表。(1)橫向數(shù)據(jù)4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化(1)橫向數(shù)據(jù)4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化(2)縱向數(shù)據(jù)4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化(2)縱向數(shù)據(jù)4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建2.有篩選透視表Excel的基本操作在新工作表的右邊的“數(shù)據(jù)透視表字段”面板上選中“年份”、“地區(qū)”和“進(jìn)出口額”、“消費(fèi)總額”及“RD經(jīng)費(fèi)”五項(xiàng),其中“進(jìn)出口額”、“消費(fèi)總額”及“RD經(jīng)費(fèi)”取平均項(xiàng)、“年份”作為行字段,“地區(qū)”為篩選字段,這時(shí)數(shù)據(jù)透視表會(huì)即時(shí)顯示相應(yīng)的結(jié)果,見下圖所示。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建3.透視表的分析(1)單變量統(tǒng)計(jì)下面應(yīng)用透視表對(duì)單個(gè)變量求它們的基本統(tǒng)計(jì)量4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建3.透視表的分析Excel的基本操作在新工作表的右邊的“數(shù)據(jù)透視表字段”面板上選中“年份”、“地區(qū)”和“GDP”,其中“GDP”選取五次,分別設(shè)置值字段為計(jì)數(shù)、最小值、最大值、平均值和標(biāo)準(zhǔn)偏差,“年份”作為篩選字段,“地區(qū)”為行字段,這時(shí)數(shù)據(jù)透視表會(huì)即時(shí)顯示相應(yīng)的結(jié)果,見下圖所示。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建3.透視表的分析4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建3.透視表的分析(2)分組變量統(tǒng)計(jì)4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.1透視表的構(gòu)建3.透視表的分析(2)分組變量統(tǒng)計(jì)4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.2

透視圖的繪制透視圖即為對(duì)透視表的結(jié)果繪制相應(yīng)的統(tǒng)計(jì)圖,所以透視圖的繪制通常是在透視表的基礎(chǔ)上進(jìn)行。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.2

透視圖的繪制透視圖即為對(duì)透視表的結(jié)果繪制相應(yīng)的統(tǒng)計(jì)圖,所以透視圖的繪制通常是在透視表的基礎(chǔ)上進(jìn)行。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.2

透視圖的繪制Excel的基本操作1)選定【數(shù)據(jù)】清單中的任意一個(gè)單元格,單擊“插入”選項(xiàng)卡,單擊“表格”組“數(shù)據(jù)透視表”下拉按鈕,構(gòu)建透視表的工作表。2)在工作表的右邊將出現(xiàn)“數(shù)據(jù)透視表字段列表”任務(wù)窗框。在字段復(fù)選框中選中“地區(qū)”、“年份”和“GDP”三項(xiàng),其中“GDP”作為求和項(xiàng)、“年份”作為圖例字段、“地區(qū)”作為軸字段。3)在透視表的行標(biāo)簽中選取“廣州、深圳、珠?!比齻€(gè)地區(qū),在透視表的列標(biāo)簽中選取“2010、2015、2019”三個(gè)時(shí)段,形成下表的結(jié)果。4)選擇B4:D7單元格區(qū)域,切換到“插入”選項(xiàng)卡,在“圖表”組中單擊“柱形圖”按鈕,在子圖表類型中,選擇二維柱形圖,即可生成如下圖。4.1數(shù)據(jù)的透視分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.1.2

透視圖的繪制4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.1縱向數(shù)據(jù)探索分析1.絕對(duì)動(dòng)態(tài)數(shù)列

2.相對(duì)動(dòng)態(tài)數(shù)列

4.2.2

橫向數(shù)據(jù)探索分析1.頻數(shù)表與直方圖

2.數(shù)據(jù)的分布特征3.正態(tài)分布檢驗(yàn)圖

4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化探索性數(shù)據(jù)分析也是數(shù)據(jù)挖掘的基礎(chǔ)。當(dāng)面對(duì)一組陌生的數(shù)據(jù)時(shí),進(jìn)行探索性統(tǒng)計(jì)分析有助于我們掌握數(shù)據(jù)的基本情況。探索性數(shù)據(jù)分析是通過分析數(shù)據(jù)集以決定選擇哪種方法適合統(tǒng)計(jì)推斷的過程。對(duì)于一維數(shù)據(jù),它們是否近似地服從正態(tài)分布?是否呈現(xiàn)拖尾或截尾分布?其分布是對(duì)稱的,還是呈偏態(tài)的?分布是單峰、雙峰、還是多峰的?實(shí)現(xiàn)這一分析的主要過程是計(jì)算基本統(tǒng)計(jì)量和繪制基本可視化圖。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.1縱向數(shù)據(jù)探索分析1.絕對(duì)動(dòng)態(tài)數(shù)列把一系列同類的總量指標(biāo)按時(shí)間先后順序排列而形成的動(dòng)態(tài)數(shù)列,稱為絕對(duì)數(shù)動(dòng)態(tài)數(shù)列或絕對(duì)增長(zhǎng)量,說明事物在一定時(shí)期所增加的絕對(duì)數(shù)量??煞謩e計(jì)算累計(jì)增長(zhǎng)量和逐期增長(zhǎng)量。(1)定基數(shù)報(bào)告期指標(biāo)與某一固定期(基期)指標(biāo)之差,也稱累計(jì)增長(zhǎng)量(簡(jiǎn)稱定基數(shù))。定基數(shù)=ai-a1式中,ai為第i期指標(biāo),a1為第1期(基期)指標(biāo)。(2)環(huán)比數(shù)報(bào)告期的指標(biāo)與前一期指標(biāo)之差,也稱逐期增長(zhǎng)量(簡(jiǎn)稱環(huán)比數(shù))。環(huán)比數(shù)=ai-ai-1式中,ai為第i期指標(biāo),ai1為第i1期指標(biāo)。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.1縱向數(shù)據(jù)探索分析1.絕對(duì)動(dòng)態(tài)數(shù)列4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.1縱向數(shù)據(jù)探索分析2.相對(duì)動(dòng)態(tài)數(shù)列把一系列同類的相對(duì)指標(biāo)數(shù)值按時(shí)間先后順序排列而形成的動(dòng)態(tài)數(shù)列,稱為相對(duì)數(shù)動(dòng)態(tài)數(shù)列。它可以用來說明社會(huì)現(xiàn)象間的相對(duì)變化情況。(1)定基發(fā)展速度(定基比)

統(tǒng)一用某個(gè)時(shí)間的指標(biāo)做基數(shù),以各時(shí)間的指標(biāo)與之相比。

定基比=100*ai/a1

式中,ai為第i期指標(biāo),a1為第1期(基期)指標(biāo)。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.1縱向數(shù)據(jù)探索分析2.相對(duì)動(dòng)態(tài)數(shù)列把一系列同類的相對(duì)指標(biāo)數(shù)值按時(shí)間先后順序排列而形成的動(dòng)態(tài)數(shù)列,稱為相對(duì)數(shù)動(dòng)態(tài)數(shù)列。它可以用來說明社會(huì)現(xiàn)象間的相對(duì)變化情況。(2)環(huán)比發(fā)展速度(環(huán)基比)

以前一時(shí)間的指標(biāo)做基數(shù),以相鄰的后一時(shí)間的指標(biāo)與之相比。

環(huán)基比=100*ai/ai1

式中,ai為第i期指標(biāo),ai1為第i1期指標(biāo)。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.1縱向數(shù)據(jù)探索分析4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.1縱向數(shù)據(jù)探索分析Excel的基本操作(1)在透視表中選需要的數(shù)據(jù),本例是珠海的“進(jìn)出口額”數(shù)據(jù)。(2)在格子C4中輸入=B4-B$4,然后通過拉伸或復(fù)制擴(kuò)展到C23。(3)在格子D4中輸入=B4-B3,然后通過拉伸或復(fù)制擴(kuò)展到D23。(4)在格子E4中輸入=B4/B$4,然后通過拉伸或復(fù)制擴(kuò)展到E23。(5)在格子F4中輸入=B4/B3,然后通過拉伸或復(fù)制擴(kuò)展到F23。(6)以地區(qū)列A為橫坐標(biāo),進(jìn)出口額B列、定基數(shù)C列、環(huán)基數(shù)D列為縱坐標(biāo)分別繪制它們的面積圖4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.1縱向數(shù)據(jù)探索分析4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.1縱向數(shù)據(jù)探索分析4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析1.頻數(shù)表與直方圖(1)頻數(shù)表頻數(shù)表是統(tǒng)計(jì)中由于所觀測(cè)的數(shù)據(jù)較多,為簡(jiǎn)化計(jì)算,將這些數(shù)據(jù)按等間隔分組,然后按選舉唱票法數(shù)出落在每個(gè)組內(nèi)觀測(cè)值的個(gè)數(shù),稱為(組)頻數(shù)。這樣得到的表稱“頻數(shù)表”或“頻數(shù)分布表”。因?yàn)轭l數(shù)除以總頻數(shù)即頻率,所以頻數(shù)表或頻數(shù)分布表除以總頻數(shù)即得頻率表或頻率分布表。分析頻數(shù)分布的目的是要根據(jù)子樣中各個(gè)變值的頻率分布情況來推測(cè)母體中各個(gè)變值的頻率分布情況。利用pandas的cut函數(shù)將數(shù)據(jù)進(jìn)行分組,如將人均GDP分成10組,這時(shí)數(shù)據(jù)變成定性數(shù)據(jù)了,其中bins也可指定為分組區(qū)間。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析1.頻數(shù)表與直方圖(2)直方圖直方圖(histogram),又稱頻數(shù)分布圖,是一種統(tǒng)計(jì)報(bào)告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。直方圖是頻數(shù)表的圖形表示,是一個(gè)連續(xù)變量(定量變量)的概率分布的估計(jì),它是一種連續(xù)條形圖,一般用橫軸表示數(shù)據(jù)類型,縱軸表示頻數(shù)分布情況。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析1.頻數(shù)表與直方圖(2)直方圖直方圖用于表示連續(xù)型變量的頻數(shù)分布,常用于考察變量的分布是否服從某種分布類型,如正態(tài)分布或偏態(tài)分布。圖形以矩形的面積表示各組段的頻數(shù)(或頻率),各矩形的面積總和為總頻數(shù)(或等于1)。當(dāng)例數(shù)趨于無窮大時(shí),直方圖中頻率間的連線即為分布的密度曲線。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析1.頻數(shù)表與直方圖(2)直方圖直方圖用于表示連續(xù)型變量的頻數(shù)分布,實(shí)際應(yīng)用中常用于考察變量的分布是否服從某種分布類型,如正態(tài)分布。圖形以矩形的面積表示各組段的頻數(shù)(或頻率),各矩形的面積總和為總頻數(shù)(或等于1)。pandas里用來作直方圖的函數(shù)類型是hist,也可以用kde繪制概率密度圖。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2橫向數(shù)據(jù)探索分析Excel的基本操作(1)在透視表中選需要的數(shù)據(jù),本例是珠海的“進(jìn)出口額”數(shù)據(jù)。(2)切換到“數(shù)據(jù)”選項(xiàng)卡,單擊“分析”組中的“數(shù)據(jù)分析”按鈕,將彈出“數(shù)據(jù)分析”框,在分析工具框中選擇“直方圖”。(3)輸入輸入?yún)^(qū)域:B4:B423接受區(qū)域:空選擇標(biāo)志:不選(4)輸出選項(xiàng)80輸出區(qū)域:E4選定圖表輸出(5)單擊確定按鈕,得結(jié)果如下。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2橫向數(shù)據(jù)探索分析4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2橫向數(shù)據(jù)探索分析4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析1.頻數(shù)表與直方圖由頻數(shù)表和直方圖可看出頻數(shù)分布的兩個(gè)重要特征:集中趨勢(shì)和離散程度。身高有高有矮,但多數(shù)人身高集中在中間部分組段,以中等身高居多,此為集中趨勢(shì);由中等身高到較矮或較高的頻數(shù)分布逐漸減少,反映了離散程度。對(duì)于計(jì)量型資料,可從集中趨勢(shì)和離散程度兩個(gè)側(cè)面去分析其規(guī)律性。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析2.數(shù)據(jù)的分布特征當(dāng)數(shù)據(jù)量不斷增加時(shí),直方圖及頻數(shù)分布將趨向于總體的分布。(1)正態(tài)分布正態(tài)分布是數(shù)據(jù)分析中最主要分布。正態(tài)分布也是古典統(tǒng)計(jì)學(xué)的核心,它有兩個(gè)參數(shù):位置參數(shù)均值,尺度參數(shù)標(biāo)準(zhǔn)差。正態(tài)分布的圖形如倒立的鐘,且分布對(duì)稱?,F(xiàn)實(shí)生活中,很多變量是服從正態(tài)分布的,比如人的身高、體重和智商IQ。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析2.數(shù)據(jù)的分布特征正態(tài)分布的概率曲線函數(shù)有如下形式。它的圖形是對(duì)稱的鐘形曲線,常稱為正態(tài)曲線,記為x~N(μ,σ2)。可用正態(tài)化變換(也稱標(biāo)準(zhǔn)化變換)z=(x-μ)/σ,將一般正態(tài)分布x~N(μ,σ2)轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布z~N(0,1)。標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù)為4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析2.數(shù)據(jù)的分布特征①標(biāo)準(zhǔn)正態(tài)分布曲線4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析2.數(shù)據(jù)的分布特征②一般正態(tài)隨機(jī)數(shù)及分布圖

下面模擬生成一般正態(tài)分布隨機(jī)數(shù),如生成100個(gè)均值為170cm,標(biāo)準(zhǔn)差為10cm的人群身高正態(tài)分布隨機(jī)數(shù)。

正態(tài)分布是一種典型的對(duì)稱分布,而不是對(duì)稱分布的分布都可看做偏態(tài)分布。

4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析

4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析2.數(shù)據(jù)的分布特征當(dāng)數(shù)據(jù)量不斷增加時(shí),直方圖及頻數(shù)分布將趨向于總體的分布。(2)偏態(tài)分布偏態(tài)分布是與“正態(tài)分布”相對(duì),分布曲線左右不對(duì)稱的數(shù)據(jù)次數(shù)分布,是連續(xù)隨機(jī)變量概率分布的一種??梢酝ㄟ^峰度和偏度的計(jì)算,衡量偏態(tài)的程度??煞譃檎珣B(tài)和負(fù)偏態(tài),前者曲線右側(cè)偏長(zhǎng),左側(cè)偏短(稱為右偏態(tài)或正偏態(tài));后者曲線左側(cè)偏長(zhǎng),右側(cè)偏短(稱為左偏態(tài)或負(fù)偏態(tài))。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析假設(shè)Y是對(duì)數(shù)分布隨機(jī)數(shù),那么Z=log(Y)就為正態(tài)分布隨機(jī)數(shù)。4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析4.2

探索數(shù)據(jù)分析第4章數(shù)據(jù)挖掘基礎(chǔ)及可視化4.2.2

橫向數(shù)據(jù)探索分析(2)偏態(tài)分布有時(shí),為了使數(shù)據(jù)更適應(yīng)相應(yīng)的統(tǒng)計(jì)分布,經(jīng)常需要對(duì)數(shù)據(jù)進(jìn)行一些變量變換,最簡(jiǎn)單的變量變換是線性變換,這種變換不影響數(shù)據(jù)結(jié)構(gòu)。在經(jīng)濟(jì)管理中常用的數(shù)據(jù)變換是對(duì)數(shù)變換(如log(x)),因?yàn)榻?jīng)濟(jì)數(shù)據(jù)通常是指數(shù)增長(zhǎng)的,對(duì)數(shù)變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論