![數(shù)據(jù)科學(xué)技術(shù)與應(yīng)用4數(shù)據(jù)可視化課件_第1頁(yè)](http://file4.renrendoc.com/view/d02ccb21f9fd055a8a8aadc265062148/d02ccb21f9fd055a8a8aadc2650621481.gif)
![數(shù)據(jù)科學(xué)技術(shù)與應(yīng)用4數(shù)據(jù)可視化課件_第2頁(yè)](http://file4.renrendoc.com/view/d02ccb21f9fd055a8a8aadc265062148/d02ccb21f9fd055a8a8aadc2650621482.gif)
![數(shù)據(jù)科學(xué)技術(shù)與應(yīng)用4數(shù)據(jù)可視化課件_第3頁(yè)](http://file4.renrendoc.com/view/d02ccb21f9fd055a8a8aadc265062148/d02ccb21f9fd055a8a8aadc2650621483.gif)
![數(shù)據(jù)科學(xué)技術(shù)與應(yīng)用4數(shù)據(jù)可視化課件_第4頁(yè)](http://file4.renrendoc.com/view/d02ccb21f9fd055a8a8aadc265062148/d02ccb21f9fd055a8a8aadc2650621484.gif)
![數(shù)據(jù)科學(xué)技術(shù)與應(yīng)用4數(shù)據(jù)可視化課件_第5頁(yè)](http://file4.renrendoc.com/view/d02ccb21f9fd055a8a8aadc265062148/d02ccb21f9fd055a8a8aadc2650621485.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)可視化數(shù)據(jù)可視化數(shù)據(jù)探索階段的重要方法數(shù)據(jù)以圖形圖像形式表示揭示隱藏的數(shù)據(jù)特征,直觀傳達(dá)關(guān)揵信息Matplotlib庫(kù)專門(mén)用于開(kāi)發(fā)二維(包括三維)圖表的工具包實(shí)現(xiàn)圖像元素精細(xì)化控制,繪制專業(yè)的分析圖表Pandas封裝了Matplotlib的主要繪圖功能Series和DataFrame提供繪圖函數(shù)簡(jiǎn)便快捷地創(chuàng)建標(biāo)準(zhǔn)化圖表認(rèn)識(shí)基本圖形按照數(shù)據(jù)值特性,可視圖形大致可以分為3類展示離散數(shù)據(jù):散點(diǎn)圖、柱狀圖、餅圖等;展示連續(xù)數(shù)據(jù):直方圖、箱須圖、折線圖、半對(duì)數(shù)圖等;展示數(shù)據(jù)的區(qū)域或空間分布:統(tǒng)計(jì)地圖、曲面圖等4.1.2 Pandas快速繪圖基本步驟導(dǎo)入matplotlib、Pandas準(zhǔn)備數(shù)據(jù)使用S
2、eries或DataFrame封裝數(shù)據(jù)繪圖調(diào)用Series.plot()或DataFrame.plot()函數(shù)完成繪圖例4-1: 繪制2010-2016年我國(guó)GDP折線圖import matplotlib.pyplot as plt #導(dǎo)入pyplot,用于圖形顯示from pandas import DataFramegdp = 41.3,48.9,54.0,59.5,64.4,68.9,74.4data = DataFrame(GDP: Trillion:gdp, index=2010,2011,2012,2013,2014,2015,2016) data.plot() plt.show(
3、) #顯示圖形4.1.2 Pandas快速繪圖例4-1(續(xù)): 繪制2010-2016年我國(guó)GDP折線圖data.plot(title=20102016 GDP,LineWidth=2, marker=o,linestyle=dashed,color=r, grid=True,alpha=0.9,use_index=True,yticks=35,40,45,50,55,60,65,70,75)參 數(shù) 名說(shuō) 明xx軸數(shù)據(jù),默認(rèn)值為Noneyy軸數(shù)據(jù),默認(rèn)值為Nonekind繪圖類型。line:折線圖,默認(rèn)值;bar:垂直柱狀圖;barh:水平柱狀圖;hist:直方圖;box:箱形圖;kde:Ke
4、rnel核密度估計(jì)圖;density與kde相同;pie:餅圖;scatter:散點(diǎn)圖title圖形標(biāo)題,字符串color畫(huà)筆顏色。用顏色縮寫(xiě),如r、b,或者RGB值,如#CECECE。主要顏色縮寫(xiě):b:blue、c:cyan、g:green、k:black、m:magenta、r:red、w:white、y:yellowgrid圖形是否有網(wǎng)格,默認(rèn)值為Nonefontsize坐標(biāo)軸(包括x軸和y軸)刻度的字體大小。整數(shù),默認(rèn)值為Nonealpha圖表的透明度,值為01,值越大顏色越深use_index默認(rèn)為T(mén)rue,用索引作為x軸刻度linewidth繪圖線寬linestyle繪圖線型。:實(shí)
5、線;:破折線;.:點(diǎn)畫(huà)線;: :虛線marker標(biāo)記風(fēng)格。.:點(diǎn);,:像素(極小點(diǎn));o:實(shí)心圈;v:倒三角;:上三角;:右三角;)plt.text(1.8,70,GDP keeps booming!,fontsize=larger)plt.xlabel(Year,fontsize=12)plt.ylabel(GDP:Trillion,fontsize=12)保存圖表到文件保存函數(shù)figure.savefig(filename,dpi,bbox_inches)plt.savefig(filename,dpi,bbox_inches)參數(shù)說(shuō)明:filename文件路徑及文件名,文件類型可以是jp
6、g、png、pdf、svg、ps等dpi圖片分辨率,每英寸點(diǎn)數(shù),默認(rèn)100bbox_inches圖表需保存的部分,設(shè)置為“tight”可以剪除當(dāng)前圖表周圍的空白部分將例4-2繪制圖形保存到當(dāng)前文件夾fig.savefig(2010-2012GDP.jpg,dpi=400,bbox_inches=tight)思考與練習(xí)1. 20122017年我國(guó)人均可支配收入為1.47, 1.62, 1.78, 1.94, 2.38, 2.60(單位:萬(wàn)元)。按照要求繪制以下圖形。1)模仿例4-1和4-3,繪制人均可支配收入折線圖。用小矩形標(biāo)記數(shù)據(jù)點(diǎn),紅色虛線,用注解標(biāo)注最高點(diǎn),圖標(biāo)題“Income chart
7、”,設(shè)置坐標(biāo)軸標(biāo)題,最后將圖形保存為JPG文件。一維數(shù)組訪問(wèn)。2)模仿例4-2,使用多個(gè)子圖分別繪制人均可支配收入的折線圖、箱須圖以及柱狀圖?!咎崾荆骸?)創(chuàng)建3個(gè)子圖分別使用(2,2,1)、(2,2,2)和(2,1,2)作為參數(shù)。2)使用plt.subplots_adjust()函數(shù)調(diào)整子圖間距離,以便添加圖標(biāo)題。4.2.1 繪制常用圖形函數(shù)繪圖散點(diǎn)圖柱狀圖折線圖直方圖密度圖餅圖箱須圖函數(shù)繪圖函數(shù) 描述了變量y隨自變量x的變化過(guò)程plt.plot()根據(jù)給定的x、y坐標(biāo)值繪圖例4-4:繪制 和 的函數(shù)圖給定x的范圍采樣生成x列表計(jì)算對(duì)應(yīng)y值import numpy as np #導(dǎo)入nump
8、y#生成x數(shù)組x = np.linspace(0,6.28,50) #start, end, num-pointsy=np.sin(x) #計(jì)算y=sin(x)數(shù)組plt.plot(x,y, color=r) #用紅色繪圖y=sin(x)plt.plot(x,np.exp(-x),c=b) #用藍(lán)色繪圖y=exp(-x)散點(diǎn)圖(Scatter diagram)描述兩個(gè)一維數(shù)據(jù)序列之間的關(guān)系將兩組數(shù)據(jù)分別作為點(diǎn)的橫坐標(biāo)和縱坐標(biāo)DataFrame.plot(kind=scatter,x,y,title, grid,xlim,ylim,label,.)DataFrame.plot.scatter(x
9、,y,title, grid,xlim,ylim,label,.)參數(shù)說(shuō)明:xDataFrame中x軸對(duì)應(yīng)的數(shù)據(jù)列名yDataFrame中y軸對(duì)應(yīng)的數(shù)據(jù)列名label圖例標(biāo)簽plt.scatter(x,y,.)Matplotlib的scatter函數(shù)也可以繪制散點(diǎn)圖圖元的設(shè)置需要采用獨(dú)立的語(yǔ)句散點(diǎn)圖繪制例4-5:繪制散點(diǎn)圖觀察學(xué)生身高和體重之間的關(guān)系stdata = pd.read_csv(datastudents.csv) #讀文件stdata.plot(kind=scatter,x=Height,y=Weight,title=Students Body Shape, marker=*,gr
10、id=True, xlim=150,200, ylim=40,80, label=(Height,Weight) #繪圖學(xué)生的身高與體重具有正相關(guān)性,但不顯著#將數(shù)據(jù)按男生和女生分組data1= datadataGender = 0 #篩選出男生data2= datadataGender = 1 #篩選出女生#分組繪制男生、女生的散點(diǎn)圖plt.figure()plt.scatter(data1Height,data1Weight,c=r,marker=s,label=Male) plt.scatter(data2Height,data2Weight,c=b,marker=,label=Fema
11、le) plt.xlim(150,200) #x軸范圍plt.ylim(40,80) #y軸范圍plt.title(Students Body Shape) #標(biāo)題plt.xlabel(Weight) #x軸標(biāo)題plt.ylabel(Height) #y軸標(biāo)題plt.grid() #網(wǎng)格線plt.legend(loc=upper right) #圖例顯示位置男女生身高、體重明顯存在差異性分組散點(diǎn)圖清晰顯示數(shù)據(jù)聚集特性使用不同的圖例標(biāo)識(shí)分組散點(diǎn)圖矩陣同時(shí)觀察多組數(shù)據(jù)之間的關(guān)系例4-6:繪制散點(diǎn)圖矩陣觀察學(xué)生各項(xiàng)信息之間的關(guān)系 身高、體重、年齡、成績(jī) pd.plotting.scatter_mat
12、rix(data,diagonal,.)參數(shù)說(shuō)明:data包含多列數(shù)據(jù)的DataFrame對(duì)象diagonal對(duì)角線上的圖形類型。通常放置該列數(shù)據(jù)的密度圖或直方圖data = stdataHeight, Weight,Age,Score #準(zhǔn)備數(shù)據(jù)pd.plotting.scatter_matrix(data,diagonal=kde,color=k) #繪圖柱狀圖(Bar Chart)用多個(gè)柱體描述單個(gè)總體處于不同狀態(tài)的數(shù)量柱體高度或長(zhǎng)度與該狀態(tài)下的數(shù)量成正比分為垂直柱狀形圖和水平柱狀圖Series.plot(kind,xerr,yerr,stacked,.)DataFrame.plot(k
13、ind,xerr,yerr,stacked,.)參數(shù)說(shuō)明:kindbar:垂直柱狀圖;barh:水平柱狀xerr,yerrx、y軸向誤差線stacked是否為堆疊圖,默認(rèn)為Falserot刻度標(biāo)簽旋轉(zhuǎn)度數(shù),值0360堆疊柱狀圖多個(gè)總體同一狀態(tài)的直條疊加柱狀圖繪制從population.csv文件中讀取人口數(shù)據(jù),繪制各性別的出生人口比較圖YearTotalBoysGirlsRatio年度出生人口總數(shù)男孩數(shù)女孩數(shù)男女比例#讀取數(shù)據(jù)data = pd.read_csv(datapopulation.csv, index_col =Year)data1 = dataBoys,Girlsmean = n
14、p.mean(data1,axis=0) #計(jì)算均值std = np.std(data1,axis=0) #計(jì)算標(biāo)準(zhǔn)差 #創(chuàng)建圖fig = plt.figure(figsize = (6,2) #設(shè)置圖片大小plt.subplots_adjust(wspace = 0.6) #設(shè)置兩個(gè)圖之間的縱向間隔#繪制均值的垂直和水平柱狀圖,標(biāo)準(zhǔn)差使用誤差線來(lái)表示ax1 = fig.add_subplot(1, 2, 1)mean.plot(kind=bar,yerr=std,color=cadetblue,title = Average of Births, rot=45)ax2 = fig.add_s
15、ubplot(1, 2, 2)mean.plot(kind=barh,xerr=std,color=cadetblue,title = Average of Births)#繪制復(fù)式柱狀圖和堆疊柱狀圖data1.plot(kind=bar,title = Births of Boys & Girls)data1.plot(kind=bar, stacked=True,title = Births of Boys & Girls)堆疊柱狀圖折線圖用線條描述事物的發(fā)展變化及趨勢(shì)普通折線圖:橫、縱坐標(biāo)軸上都使用算術(shù)刻度半對(duì)數(shù)折線圖:橫、縱坐標(biāo)分別使用算術(shù)刻度與對(duì)數(shù)刻度比較的兩種或多種事物的數(shù)據(jù)值域相
16、差較大指標(biāo)“相對(duì)增長(zhǎng)量”的變化關(guān)系從GDP.csv文件中讀取數(shù)據(jù),繪制國(guó)民經(jīng)濟(jì)生產(chǎn)總值GDP和居民人均可支配收入Income的折線圖與半對(duì)數(shù)折現(xiàn)圖data = pd.read_csv(GDP.csv, index_col = Year) #讀取數(shù)據(jù)#繪制GDP和Income的折線圖data.plot(title=GDP & Income,LineWidth=2,marker=o,linestyle=dashed, grid=True,use_index=True)#繪制GDP和Income的半對(duì)數(shù)折線圖data.plot(logy=True,LineWidth=2,marker=o,lines
17、tyle=dashed,color=G)無(wú)法反應(yīng)Income的變化直方圖(Histogram)描述總體的頻數(shù)分布情況將橫坐標(biāo)按區(qū)間個(gè)數(shù)等分每個(gè)區(qū)間上長(zhǎng)方形的高度表示該區(qū)間樣本的頻率,面積表示頻數(shù)Series.plot(kind=hist,bins,normed,.)參數(shù)說(shuō)明:bins橫坐標(biāo)區(qū)間個(gè)數(shù)normed是否標(biāo)準(zhǔn)化直方圖,默認(rèn)值False直方圖繪制例4-9:從student.csv文件中讀取學(xué)生信息,繪制身高分布直方圖。 將身高155185劃分為6個(gè)區(qū)間stdata = pd.read_csv(datastudents.csv) #讀文件stdataHeight.plot(kind=his
18、t,bins=6,title=Students Height Dstribution) #繪圖分箱的數(shù)量與數(shù)據(jù)集大小和分布本身相關(guān),通過(guò)改變分箱bins的數(shù)量,可以改變分布的離散化程度密度圖(Kernel Density Estimate)基于樣本數(shù)據(jù)擬合概率密度函數(shù)采用平滑的峰值函數(shù):核函數(shù)常用高斯核模擬真實(shí)的概率分布曲線與直方圖(標(biāo)準(zhǔn)化后)一起繪制,對(duì)比Series.plot(kind=kde,style,.)參數(shù)說(shuō)明:style風(fēng)格字符串,包括顏色和線型,如ko,r-stdataHeight.plot(kind=hist,bins=6,normed=True,title=Students
19、 Height Dstribution) #繪圖stdataHeight.plot(kind=kde,title=Students Height Dstribution, xlim=155,185,style = k-) #繪制密度圖在例4-9基礎(chǔ)上,增加密度圖餅圖(Pie Chart)描述總體的樣本值構(gòu)成比扇形圖反映部分與部分、部分與整體之間的數(shù)量關(guān)系Series.plot( kind=pie, explode,shadow,startangle,autopct,.)參數(shù)說(shuō)明:explode列表,表示各扇形塊離開(kāi)中心的距離shadow扇形塊是否有陰影,默認(rèn)Falsestartangle起始繪
20、制角度,默認(rèn)從x軸正方向逆時(shí)針開(kāi)始autopct百分比格式,可用format字符串或者format function, %1.1f%指小數(shù)點(diǎn)前后各1位(不足空格補(bǔ)齊)餅圖繪制例4-10:從advertising.csv中讀取營(yíng)銷數(shù)據(jù),繪制各類廣告投入占比的餅圖TVWeiboWeChatSales1230.137.869.222.1244.539.345.110.4317.245.969.39.3計(jì)算各類渠道的廣告總投入,繪制餅圖表示各類廣告占比#準(zhǔn)備數(shù)據(jù),計(jì)算各類廣告投入費(fèi)用總和data = pd.read_csv(data/advertising.csv)piedata = dataTV,W
21、eibo,WeChatdatasum = piedata.sum() #繪制餅圖datasum.plot( kind=pie, figsize=(6,6), title=Advertising Expenditure,fontsize=14, explode=0,0.2,0,shadow=True,startangle=60, autopct=%1.1f%)箱須圖(Box plot)表達(dá)數(shù)據(jù)的分位數(shù)分布,觀察異常值將樣本居中的50%值域用一個(gè)長(zhǎng)方形表示較小和較大的四分之一值域各用一根線表示異常值用“o”表示Series.plot(kind=box, .)例4-10:從advertising.csv中讀取營(yíng)銷數(shù)據(jù),繪制各類廣告投入投入的箱須圖data = pd.read_csv(dataAdvertising.csv)advdata = dataTV,Weibo,WeChat#繪制各類經(jīng)費(fèi)投入的箱須圖advdata.plot(kind=box, figsize=(6,6), title=Advertising Expenditure)箱須圖(Box plot)Pandas提供專門(mén)繪制箱須圖的函數(shù)boxplot方便將觀察樣本按照其他特征進(jìn)行分組對(duì)比DataFrame.boxplot( by, .)例4-10:從students.csv中讀取學(xué)生數(shù)據(jù),按性別繪制學(xué)生成績(jī)的箱須圖參
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國(guó)飼料中間體化學(xué)品行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球高速標(biāo)簽打印機(jī)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)汽車座椅加熱通風(fēng)線束行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球條形碼庫(kù)存管理系統(tǒng)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球生物基電池行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)農(nóng)場(chǎng)畜牧管理軟件行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球印刷級(jí)熱敏紙行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 擔(dān)保函保證合同
- 2025監(jiān)控售后維修合同
- 房屋買(mǎi)賣合同范文
- 2025年長(zhǎng)沙穗城軌道交通有限公司招聘筆試參考題庫(kù)含答案解析
- 2024年湖南有色金屬職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)驗(yàn)歷年參考題庫(kù)(頻考版)含答案解析
- 2025年山東華魯海運(yùn)有限公司招聘筆試參考題庫(kù)含答案解析
- 銀川經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)2024年綜合考核評(píng)價(jià)指標(biāo)表及評(píng)分細(xì)則
- 品管圈PDCA改善案例-降低住院患者跌倒發(fā)生率
- 《中小學(xué)校園食品安全和膳食經(jīng)費(fèi)管理工作指引》專題講座
- 廣東省茂名市2023-2024學(xué)年高一上學(xué)期物理期末試卷(含答案)
- 沙發(fā)市場(chǎng)需求與消費(fèi)特點(diǎn)分析
- 豐順縣縣級(jí)集中式飲用水水源地基礎(chǔ)狀況調(diào)查和風(fēng)險(xiǎn)評(píng)估報(bào)告
- 重慶市2023-2024學(xué)年七年級(jí)上學(xué)期期末考試數(shù)學(xué)試題(含答案)
- 《七律二首 送瘟神》教案- 2023-2024學(xué)年高教版(2023)中職語(yǔ)文職業(yè)模塊
評(píng)論
0/150
提交評(píng)論