精選數(shù)據(jù)挖掘與機器學(xué)習(xí)_第1頁
精選數(shù)據(jù)挖掘與機器學(xué)習(xí)_第2頁
精選數(shù)據(jù)挖掘與機器學(xué)習(xí)_第3頁
精選數(shù)據(jù)挖掘與機器學(xué)習(xí)_第4頁
精選數(shù)據(jù)挖掘與機器學(xué)習(xí)_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

精選數(shù)據(jù)挖掘與機器學(xué)習(xí)數(shù)據(jù)挖掘與機器學(xué)習(xí)什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘的實際工作是對大規(guī)模數(shù)據(jù)進行自動或半自動的分析,以提取過去未知的有價值的潛在信息特點:數(shù)據(jù)挖掘需要用到大局部機器學(xué)習(xí)方法有了機器學(xué)習(xí)之后,可以在金融、教育、醫(yī)療、城市、電商等等各個領(lǐng)域更好的進行挖掘圖像識別等領(lǐng)域數(shù)據(jù)挖掘的流程CONDA環(huán)境安裝conda:datasciencepackage&environmentmanager創(chuàng)立環(huán)境: condacreate--namepython3python=3切換環(huán)境: windows:activatepython3 linux/macos:sourceactivatepython3官方地址:/download/國外網(wǎng)絡(luò)不好,可以指定國內(nèi)鏡像。工具介紹jupyternotebookjupyternotebook:一款編程/文檔/筆記/展示軟件啟動命令:jupyternotebook安裝:condainstalljupyterjupyternotebook簡單操作演示matplotlib數(shù)據(jù)可視化工具1、什么是matplotlib2、matplotlib架構(gòu)3、matplotlib畫圖演示4、matplotlib的散點圖、直方圖、柱狀圖5、matplotlib案例演示6、更多的畫圖工具為什么要學(xué)習(xí)matplotlib1.能將數(shù)據(jù)進行可視化,更直觀的呈現(xiàn)2.使數(shù)據(jù)更加客觀、更具說服力可視化是在整個數(shù)據(jù)挖掘的關(guān)鍵輔助工具,可以清晰的理解數(shù)據(jù),從而調(diào)整我們的分析方法。什么是matplotlibmatplotlib是專門用于開發(fā)2D圖表(包括3D圖表)的使用起來及其簡單以漸進、交互式方式實現(xiàn)數(shù)據(jù)可視化安裝:condainstallmatplotlibmatplotlib架構(gòu)matplotlib的整體架構(gòu)由位于三個不同層級的三層組成。各層之間單向通信,即每一層只能與下一層通信。Backend層matplotlibAPI即位于該層,這些API用來在底層實現(xiàn)圖形元素的一個個類FigureCanvas對象實現(xiàn)了繪圖區(qū)域這一概念Renderer對象在FigureCanvas上繪圖Artist層圖形中所有能看到的元素都屬于Artist對象,即標題、軸標簽、刻度等組成圖形的所有元素都是Artist對象的實例Figure:對應(yīng)整個圖表示Axes:每個Axes對象只屬于一個Figure對象,由兩個ArtistAxis對象組成Axis:定義數(shù)值范圍等Scripting層主要用于數(shù)據(jù)分析和可視化pyplot操作或者改動Figure對象,例如創(chuàng)立Figure對象大局部工作是處理樣本文件的圖形與坐標的生成matplotlib根本要點API介紹:importmatplotlib.pyplotaspltplt.plot(x,y)#繪制折線圖plt.show()更多的效果設(shè)置圖片大小(想要一個高清無碼大圖)保存到本地調(diào)整x或者y的刻度的間距描述信息,比方x軸和y軸表示什么,這個圖表示什么線條的樣式(比方顏色,透明度等)標記出特殊的點(比方告訴別人最高點和最低點在哪里)給圖片添加一個水印(防偽,防止盜用)設(shè)置圖形大小以及保存圖片plt.figure(figsize=(),dpi=)figsize:指定圖的長寬dpi:圖像的清晰度返回fig對象plt.savefig("")調(diào)整X或者Y軸上的刻度那么問題來了:如果列表a表示10點到12點的每一分鐘的氣溫,如何繪制折線圖觀察每分鐘氣溫的變化情況?a=[random.randint(20,35)foriinrange(120)]注意:可以設(shè)置刻度上顯示的中文字體及字體大小My_font=font_manager.FontProperties(fname=〞a.ttf〞,size=〞larger〞)random.seed(10)能夠在10次執(zhí)行程序中使下面random產(chǎn)生的隨機數(shù)固定,即從第一次到第十次的數(shù)值相同。中文顯示解決方法為什么無法顯示中文:matplotlib默認不支持中文字符,因為默認的英文字體無法顯示漢字

查看linux/mac下面支持的字體:fc-list查看支持的字體fc-list:lang=zh查看支持的中文(冒號前面有空格)如何修改matplotlib的默認字體?通過matplotlib下的font_manager可以解決(windows/linux/mac)frommatplotlibimportfont_managerimportmatplotlib.pyplotaspltplt.rcParams['font.family']=['ArialUnicodeMS','sans-serif']終極-中文顯示解決方法步驟:1,搜索matplotlib安裝所在的位置linux/mac:sudofind/-name“*matplotlib〞windows:借助搜索軟件搜索“matplotlib〞對應(yīng)目錄C:\ProgramData\Anaconda3\Lib\site-packages\matplotlib2,拷貝simhei.ttf文件到(前面的目錄)/matplotlib/mpl-data/fonts/ttf目錄下3,修改(前面的目錄)/matplotlib/mpl-data/matplotlibrc文件①將font.family〔大致在119行〕的注釋取消掉②將font.sans-serif〔大致在211行〕的注釋取消掉,并在“:〞后面添加“simhei,〞4,刪除“.matplotlib〞目錄下的緩存(所有文件)5,重啟jupyter-notebook〔jupyter-notebook->kernal->Restart〕增加標題、x軸y軸描述信息plt.xlabel("時間",fontproperties=my_font)plt.ylabel("溫度",fontproperties=my_font)plt.title("溫度隨時間的變化情況",fontproperties=my_font)動手假設(shè)大家在30歲的時候,根據(jù)自己的實際情況,統(tǒng)計出來了你和你同桌各自從11歲到30歲每年交的女(男)朋友的數(shù)量如列表a和b,請在一個圖中繪制出該數(shù)據(jù)的折線圖,以便比擬自己和同桌20年間的差異,同時分析每年交女(男)朋友的數(shù)量走勢a=[1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]b=[1,0,3,1,2,2,3,3,2,1,2,1,1,1,1,1,1,1,1,1]要求:y軸表示個數(shù)x軸表示歲數(shù),比方11歲,12歲等圖形線條風(fēng)格在上一個案例中如果大家希望自定義繪制圖形的風(fēng)格怎么辦?為每條線添加圖例:子畫布〔分開顯示不同的內(nèi)容〕plt.subplots(nrows=1,ncols=2,figsize=(20,8),dpi=80)指定有兩個axes,共用20,8的fig返回fig對象和ax對象添加文本注釋(擴展) 在上一個案例中,假設(shè)你希望在圖中標記出自己和同桌交女(男)朋友最多的那一年所對應(yīng)的數(shù)據(jù),應(yīng)該怎么做?(添加文本注釋)plt.annotate('最高點',#顯示字符串xy=(23,6),#箭頭位置xytext=(26,6),#文本位置arrowprops=dict(facecolor='red',shrink=0.1,width=2)#facecolor:箭頭顏色;shrink:箭頭的起始和結(jié)束位置兩側(cè)的空白大?。粀idth:箭頭寬度)增加版權(quán)意識(擴展)假設(shè)你打算把自己的統(tǒng)計結(jié)果發(fā)布到網(wǎng)上供人瞻仰,但是很擔(dān)憂自己的圖片被人盜用,你應(yīng)該怎么做?(添加文字(水印)到圖中)fig.text(0.4,0.5,'傳智播客',fontsize=40,color='gray',alpha=0.4)0.4/0.5指畫布的百分比總結(jié)繪制了折線圖(plt.plot)設(shè)置了圖片的大小(plt.figure)實現(xiàn)了圖片的保存(plt.savefig)設(shè)置了xy軸上的刻度和字符串(xticks)解決了刻度稀疏和密集的問題(xticks)設(shè)置了標題,xy軸的label(title,xlabel,ylabel)設(shè)置了字體(font_manager.fontProperties,matplotlib.rc)在一個圖上繪制多個圖形(plt屢次plot即可)增加子畫布,分開顯示圖像(plt.subplots)10.為不同的圖形添加圖例更多圖形繪制matplotlib能夠繪制折線圖,散點圖,直方圖,箱線圖,餅圖等但是,我們需要知道不同的統(tǒng)計圖到底能夠表示出什么,以此來決定選擇哪種統(tǒng)計圖來更直觀的呈現(xiàn)我們的數(shù)據(jù)比照常用統(tǒng)計圖折線圖:以折線的上升或下降來表示統(tǒng)計數(shù)量的增減變化的統(tǒng)計圖特點:能夠顯示數(shù)據(jù)的變化趨勢,反映事物的變化情況。(變化)直方圖:由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。一般用橫軸表示數(shù)據(jù)范圍,縱軸表示分布情況。特點:繪制,連續(xù)性的數(shù)據(jù)展示一組或者多組數(shù)據(jù)的分布狀況(統(tǒng)計)條形圖:排列在工作表的列或行中的數(shù)據(jù)可以繪制到條形圖中。特點:繪制連離散的數(shù)據(jù),能夠一眼看出各個數(shù)據(jù)的大小,比擬數(shù)據(jù)之間的差異。(統(tǒng)計)散點圖:用兩組數(shù)據(jù)構(gòu)成多個坐標點,考察坐標點的分布,判斷兩變量之間是否存在某種關(guān)聯(lián)或總結(jié)坐標點的分布模式。特點:判斷變量之間是否存在數(shù)量關(guān)聯(lián)趨勢,展示離群點(分布規(guī)律)繪制散點圖技術(shù)要點:plt.scatter(x,y)散點圖的更多應(yīng)用場景不同條件(維度)之間的內(nèi)在關(guān)聯(lián)關(guān)系觀察數(shù)據(jù)的離散聚合程度繪制條形圖假設(shè)你獲取到了2023年內(nèi)地電影票房前20的電影(列表a)和電影票房數(shù)據(jù)(列表b),那么如何更加直觀的展示該數(shù)據(jù)?a=["戰(zhàn)狼2","速度與激情8","功夫瑜伽","西游伏妖篇","變形金剛5:最后的騎士","摔跤吧!爸爸","加勒比海盜5:死無對證","金剛:骷髏島","極限特工:終極回歸","生化危機6:終章","乘風(fēng)破浪","神偷奶爸3","智取威虎山","大鬧天竺","金剛狼3:殊死一戰(zhàn)","蜘蛛俠:英雄歸來","悟空傳","銀河護衛(wèi)隊2","情圣","新木乃伊",]b=[56.01,26.94,17.53,16.49,15.45,12.96,11.8,11.61,11.28,11.12,10.49,10.3,8.75,7.55,7.32,6.99,6.88,6.86,6.58,6.23]單位:億數(shù)據(jù)來源:http://58921.com/alltime/2023plt.barh(_x,b)可以反轉(zhuǎn)_x與b的顯示,即_x顯示在y軸,b顯示在x軸。假設(shè)你知道了列表a中電影分別在2023-09-14(b_14),2023-09-15(b_15),2023-09-16(b_16)三天的票房,為了展示列表中電影本身的票房以及同其他電影的數(shù)據(jù)比照情況,應(yīng)該如何更加直觀的呈現(xiàn)該數(shù)據(jù)?a=["猩球崛起3:終極之戰(zhàn)","敦刻爾克","蜘蛛俠:英雄歸來","戰(zhàn)狼2"]b_16=[15746,312,4497,319]b_15=[12357,156,2045,168]b_14=[2358,399,2358,362]數(shù)據(jù)來源:/movieday條形圖的應(yīng)用場景數(shù)量統(tǒng)計用戶數(shù)量分析業(yè)務(wù)比照繪制直方圖假設(shè)你獲取了250部電影的時長(列表a中),希望統(tǒng)計出這些電影時長的分布狀態(tài)(比方時長為100分鐘到120分鐘電影的數(shù)量,出現(xiàn)的頻率)等信息,你應(yīng)該如何呈現(xiàn)這些數(shù)據(jù)?a=[131,98,125,131,124,139,131,117,128,108,135,138,131,102,107,114,119,128,121,142,127,130,124,101,110,116,117,110,128,128,115,99,136,126,134,95,138,117,111,78,132,124,113,150,110,117,86,95,144,105,126,130,126,130,126,116,123,106,112,138,123,86,101,99,136,123,117,119,105,137,123,128,125,104,109,134,125,127,105,120,107,129,116,108,132,103,136,118,102,120,114,105,115,132,145,119,121,112,139,125,138,109,132,134,156,106,117,127,144,139,139,119,140,83,110,102,123,107,143,115,136,118,139,123,112,118,125,109,119,133,112,114,122,109,106,123,116,131,127,115,118,112,135,115,146,137,116,103,144,83,123,111,110,111,100,154,136,100,118,119,133,134,106,129,126,110,111,109,141,120,117,106,149,122,122,110,118,127,121,114,125,126,114,140,103,130,141,117,106,114,121,114,133,137,92,121,112,146,97,137,105,98,117,112,81,97,139,113,134,106,144,110,137,137,111,104,117,100,111,101,110,105,129,137,112,120,113,133,112,83,94,146,133,101,131,116,111,84,137,115,122,106,144,109,123,116,111,111,133,150]把數(shù)據(jù)分為多少組進行統(tǒng)計???組數(shù)要適當,太少會有較大的統(tǒng)計誤差,大多規(guī)律不明顯前面的問題問的是什么呢?問的是:哪些數(shù)據(jù)能夠繪制直方圖前面的問題中給出的數(shù)據(jù)都是統(tǒng)計之后的數(shù)據(jù),所以為了到達直方圖的效果,需要繪制條形圖所以:一般來說能夠使用plt.hist方法的的是那些沒有統(tǒng)計過的數(shù)據(jù)直方圖更多應(yīng)用場景用戶的年齡分布狀態(tài)一段時間內(nèi)用戶點擊次數(shù)的分布狀態(tài)用戶活潑時間的分布狀態(tài)餅圖APIplt.pie(x,labels=,autopct=,colors)x:數(shù)量,自動算百分比labels:每局部名稱aut

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論