版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Python數(shù)據(jù)分析用分類數(shù)據(jù)繪圖Python數(shù)據(jù)分析商務(wù)數(shù)據(jù)分析與應(yīng)用專業(yè)教學(xué)資源庫PAGE2/6用分類數(shù)據(jù)繪圖用分類數(shù)據(jù)繪圖亢華愛(北京信息職業(yè)技術(shù)學(xué)院)摘要:Seaborn針對分類數(shù)據(jù)提供了專門的可視化函數(shù)。關(guān)鍵詞:分類數(shù)據(jù)散點圖;分類數(shù)據(jù)散點圖;分類數(shù)據(jù)的統(tǒng)計估算圖 概述數(shù)據(jù)集中的數(shù)據(jù)類型有很多種,除了連續(xù)的特征變量之外,最常見的就是類目型的數(shù)據(jù)類型了,比如人的性別、學(xué)歷、愛好等,這些數(shù)據(jù)類型都不能用連續(xù)的變量來表示,而是用分類的數(shù)據(jù)來表示。Seaborn針對分類數(shù)據(jù)提供了專門的可視化函數(shù),這些函數(shù)大致可以分為如下三種:?分類數(shù)據(jù)散點圖:swarmplot()與stripplot()。?分類數(shù)據(jù)的分布圖:boxplot()與violinplot()。?分類數(shù)據(jù)的統(tǒng)計估算圖:baiplot()與pointplot()。下面針對分類數(shù)據(jù)可繪制的圖形進(jìn)行簡單介紹,具體內(nèi)容如下。類別散點圖通過stripplot()函數(shù)可以畫一個散點圖,stripplot()函數(shù)的語法格式如下。seaborn.stripplot(x=None,y=None,hue=None,data=None,order=None,hue_order=None,jitter=False,dodge=False,orient=None,color=None,palette=None,size=5,edgecolor='gray',linewidth=0,ax=None,**kwargs)上述函數(shù)中常用參數(shù)的含義如下:(1)x,y,hue:用于繪制長格式數(shù)據(jù)的輸入。(2)data:用于繪制的數(shù)據(jù)集。如果x和y不存在,則它將作為寬格式,否則將作為長格式。(3)order,hue_order:用于繪制分類的級別。(4)jitter:表示抖動的程度(僅沿類別軸)。當(dāng)很多數(shù)據(jù)點重疊時,可以指定抖動的數(shù)量,或者設(shè)為True使用默認(rèn)值。為了讓大家更好地理解,接下來,通過stripplot0函數(shù)繪制一個散點圖,示例代碼如下。In[20]:tips=sns.load_dataset("tips")Sns.stripplot(x="dayn",y="total_bill",data=tips)Out[20]:<matplotlib.axes._subplots.AxesSubplotat0xd651668〉運行結(jié)果如圖6-28所示。從圖6-28中可以看出,圖表中的橫坐標(biāo)是分類的數(shù)據(jù),而且一些數(shù)據(jù)點會互相重疊,不易于觀察。為了解決這個問題,可以在調(diào)用stripplot0函數(shù)時傳入jitter參數(shù),以調(diào)整橫坐標(biāo)的位置,改后的示例代碼如下。In[21]:tips=sns.load_dataset("tips")sns.stripplot(x="day",y="total_bill",data=tips,jitter=True)Out[21]:<matplotlib.axes._subplots.AxesSubplotat0xd5fb390>運行結(jié)果如圖6-29所示。除此之外,還可調(diào)用swarmplot()函數(shù)繪制散點圖,該函數(shù)的好處是所有的數(shù)據(jù)點都不會重疊,可以很清晰地觀察到數(shù)據(jù)的分布情況,示例代碼如下。運行結(jié)果如圖6-30所示。In[22]:sns.swarmplot(x="day",y="total_bill",data=tips)Out[21]:<matplotlib.axes._subplots.AxesSubplotat0x6743c8>Out[22]:<matplotlib.axes?_subplots.AxesSubplotat0xd6743c8>圖6-30運行結(jié)果類別內(nèi)的數(shù)據(jù)分布要想查看各個分類中的數(shù)據(jù)分布,顯而易見,散點圖是不滿足需求的,原因是它不夠直觀。針對這種情況,我們可以繪制如下兩種圖形進(jìn)行查看:?箱形圖:利用箱形圖可以提供有關(guān)數(shù)據(jù)分散情況的信息,可以很直觀地查看數(shù)據(jù)的四分位分布(1/4分位,中位數(shù),3/4分位以及四分位距)。?提琴圖:箱形圖與核密度圖的結(jié)合,它可以展示任意位置的密度,可以很直觀地看到哪些位置的密度較高。接下來,針對Seaborn庫中箱形圖和提琴圖的繪制進(jìn)行簡單的介紹。1)繪制箱形圖seaborn中用于繪制箱形圖的函數(shù)為boxplot(),其語法格式如下:seaborn.boxplot(x=None,y=None,hue=None,data=None,order=None,hue_order=None,orient=None,color=None,palette=None,saturation=0.75,width=0.8,dodge=True,fliersize=5,linewidth=None,whis=1.5,notch=False,ax=None,**kwargs)常用參數(shù)的含義如下:(1)orient:表示數(shù)據(jù)垂直或水平顯示,取值為“v”丨“h”。(2)palette:用于設(shè)置不同級別色相的顏色變量。(3)saturation:用于設(shè)置數(shù)據(jù)顯示的顏色飽和度。使用boxplot()函數(shù)繪制箱形圖的具體示例如下。In[23]:sns.boxplot(x="day",y="total_bill",data=tips)Out[23]:<matplotlib.axes._subplots.AxesSubplotat0xfd60860>上述示例中,使用seaborn中內(nèi)置的數(shù)據(jù)集tips繪制了一個箱形圖,圖6-31中x軸的名稱為day,其刻度范圍是Thur~Sun(周四至周日),y軸的名稱為total_bill,刻度范圍為10?50左右。運行結(jié)果如圖6-31所示。Day圖6-31運行結(jié)果從圖6-31中可以看出,Thur列大部分?jǐn)?shù)據(jù)都小于30,不過有5個大于30的異常值,F(xiàn)ri列中大部分?jǐn)?shù)據(jù)都小于30,只有一個異常值大于40,Sat一列中有3個大于40的異常值,Sun一列中有兩個大于40的異常值。2)繪制提琴圖seaborn中用于繪制提琴圖的函數(shù)為violinplot(),其語法格式如下:seaborn.violinplot(x=None,y=None,hue=None,data=None,order=None,hue_order=None,bw='scott',cut=2,scale='area',scale_hue=True,gridsize=100,width=0.8,inner='box',split=False,dodge=True,orient=None,linewidth=None,color=None,palette=None,saturation=0.75,ax=None,**kwargs)通過violinplot()函數(shù)繪制提琴圖的示例代碼如下。In[24]:sns.violinplot(x="day",y="total_bill",data=tips)Out[24]:<matplotlib.axes._subplots.AxesSubplotat0x100f7ba8>上述示例中,使用seaborn中內(nèi)置的數(shù)據(jù)集tips繪制了一個提琴圖,圖6-32中x軸的名稱為day,y軸的名稱為total_bill。運行結(jié)果如圖6-32所示。圖6-32運行結(jié)果從圖6-32中可以看岀,Thur一列中位于5?25之間的數(shù)值較多,F(xiàn)ri列中位于5?30之間的數(shù)值較多,Sat一列中位于5?35之間的數(shù)值較多,Sun一列中位于5?40之間的數(shù)值較多。類別內(nèi)的統(tǒng)計估計要想查看每個分類的集中趨勢,則可以使用條形圖和點圖進(jìn)行展示。Seaborn庫中用于繪制這兩種圖表的具體函數(shù)如下:barplot()函數(shù):繪制條形圖。pointplot()函數(shù):繪制點圖。這些函數(shù)的API與上面那些函數(shù)都是一樣的,這里只講解函數(shù)的應(yīng)用,不再過多對函數(shù)的語法進(jìn)行講解了。1)繪制條形圖最常用的查看集中趨勢的圖形就是條形圖。默認(rèn)情況下,barplot()函數(shù)會在整個數(shù)據(jù)集上使用均值進(jìn)行估計。若每個類別中有多個類別時(使用了hue參數(shù)),則條形圖可以使用引導(dǎo)來計算估計的置信區(qū)間(是指由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間),并使用誤差條來表示置信區(qū)間。使用barplot()函數(shù)的示例如下,運行結(jié)果如圖6-33所示。圖6-33運行結(jié)果In[25]:sns.barplot(x="day",y="total_bill",data=tips)Out[25]:<matplotlib.axes._subplots.AxesSubplotat0x101cdb00>2)繪制點圖另外一種用于估計的圖形是點圖,可以調(diào)用pointplot()函數(shù)進(jìn)行繪制,該函數(shù)會用高度估計值對數(shù)據(jù)進(jìn)行描述,而不是顯示完整的條形,它只會繪制點估計和置信區(qū)間。通過pointplot()函數(shù)繪制點圖的示例如下,運行結(jié)果
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專利購買合同范本
- 中藥材種植技術(shù)服務(wù)合同
- 個人理財顧問合同「樣本」
- 二手教練車交易合同模板
- 三方資產(chǎn)轉(zhuǎn)讓合同標(biāo)準(zhǔn)范本
- 上海市租賃住房租賃合同
- 二手房裝修改造合同簡單范本
- 個人向公司借款合同范例
- 不可撤銷合同擔(dān)保協(xié)議范本大全
- 個人購房借款合同范本
- 【七上HK數(shù)學(xué)】安徽省蚌埠市固鎮(zhèn)縣2024-2025學(xué)年七年級上學(xué)期1月期末試卷數(shù)學(xué)試題
- 電信網(wǎng)和互聯(lián)網(wǎng)圖像篡改檢測技術(shù)要求與測試方法
- 2025屆江蘇省南京市鹽城市高三一模考試語文試題 課件
- 《水稻生長進(jìn)程》課件
- 2024版企業(yè)高管職務(wù)任命書3篇
- 青少年鑄牢中華民族共同體意識路徑研究
- 江蘇省南京市2024年中考英語試題(含解析)
- 學(xué)校農(nóng)業(yè)教育體驗項目方案
- 水利工程施工監(jiān)理規(guī)范(SL288-2014)用表填表說明及示例
- 部編版2023-2024學(xué)年六年級上冊語文期末測試試卷(含答案)
- 旅行社新人培訓(xùn)
評論
0/150
提交評論