Python數(shù)據(jù)挖掘與機器學(xué)習(xí)第2版課件第 2 章 Python數(shù)據(jù)分析與挖掘基礎(chǔ)

上傳人：y*** IP屬地：山東上傳時間：2024-11-12 格式：PPTX 頁數(shù)：143 大?。?.07MB 積分：15 舉報 版權(quán)申訴

Python數(shù)據(jù)挖掘與機器學(xué)習(xí)第2版課件第 2 章 Python數(shù)據(jù)分析與挖掘基礎(chǔ)_第2頁

Python數(shù)據(jù)挖掘與機器學(xué)習(xí)第2版課件第 2 章 Python數(shù)據(jù)分析與挖掘基礎(chǔ)_第3頁

Python數(shù)據(jù)挖掘與機器學(xué)習(xí)第2版課件第 2 章 Python數(shù)據(jù)分析與挖掘基礎(chǔ)_第4頁

Python數(shù)據(jù)挖掘與機器學(xué)習(xí)第2版課件第 2 章 Python數(shù)據(jù)分析與挖掘基礎(chǔ)_第5頁

已閱讀5頁，還剩138頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘與機器學(xué)習(xí)第2章python數(shù)據(jù)分析與挖掘基礎(chǔ)本章內(nèi)容Python基礎(chǔ)Python內(nèi)建數(shù)據(jù)結(jié)構(gòu)Numpy數(shù)值運算基礎(chǔ)Pandas統(tǒng)計分析基礎(chǔ)Matplotlib圖表繪制基礎(chǔ)Scikit-learn基礎(chǔ)10十一月202421.Python基礎(chǔ)Python是一個結(jié)合了解釋性、編譯性、互動性和面向?qū)ο蟮母呒壋绦蛟O(shè)計語言。其結(jié)構(gòu)簡單，語法定義清晰。Python最具特色的就是使用縮進來表示代碼塊，不需要使用大括號{}。Python3中有六種標(biāo)準(zhǔn)的數(shù)據(jù)類型：Number（數(shù)字）、String（字符串）、List（列表）、Tuple（元組）、Set（集合）和Dictionary（字典）。其中，不可變數(shù)據(jù)類型有Number、String和Tuple；可變數(shù)據(jù)類型有List、Dictionary和Set。Python中的變量是不需要聲明數(shù)據(jù)類型的，變量的“類型”是所指的內(nèi)存中被賦值對象的類型。同一變量可以反復(fù)賦值，而且可以是不同類型的變量。10十一月20243Python基礎(chǔ)操作符和表達式運算符用于執(zhí)行程序代碼運算，會針對一個以上的操作數(shù)進行運算。Python語言支持算術(shù)運算符、關(guān)系運算符和邏輯運算符。10十一月20244操作符描述+,-，*，/,%，//,**算術(shù)運算：加、減、乘、除、取模、整除、冪<,<=,>,>=,!=,==關(guān)系運算符and,or,not,邏輯運算符Python基礎(chǔ)字符串1.轉(zhuǎn)義字符字符串被定義為引號之間的字符集合，在Python中，字符串用單引號('),雙引號("),三引號(''')括起來。當(dāng)Python字符串中有一個反斜杠時表示一個轉(zhuǎn)義序列的開始，稱反斜杠為轉(zhuǎn)義符。10十一月20245表2-2轉(zhuǎn)義字符示例轉(zhuǎn)義序列說明\n換行\(zhòng)\反斜杠\”雙引號\t制表符Python允許用r+“

”的方式表示“

”內(nèi)部的字符串默認不轉(zhuǎn)義。Python基礎(chǔ)字符串2.字符串的運算Python特有的索引規(guī)則為：第一個字符的索引是0，后續(xù)字符索引依次遞增，或者從右向左編號，最后一個字符的索引號為-1，前面的字符依次減1，主要運算+*切片。3.字符串的常見方法屬性，見表2-4字符串的方法描述10十一月20246Python基礎(chǔ)11/10/2024表2-4字符串的常用方法描述方法/函數(shù)作用str.capitalize()返回字符串的副本，其首字符大寫str.count(sub[,start[,end]])

返回[start，end]范圍內(nèi)sub的非重疊出現(xiàn)次數(shù)，start和end可選str.endswith(sub[,start[,end]])返回布爾值，表示字符串是否以指定的sub結(jié)束，同類方法str.startswith()str.find(sub[,start[,end]])

返回字符串中首次出現(xiàn)子串sub的索引位置，start和end可選，若未找到sub，返回-1，類似方法str.index()str.split(sep=None)使用sep作為分隔符拆分字符串，返回字符串中單詞的列表str.strip([chars])刪除字符串前端和尾部chars指定的字符集，如果省略或None則刪除空白字符str.upper()/str.lower()將字符串中所有字符轉(zhuǎn)換為大寫/小寫Python基礎(chǔ)

流程控制條件語句ifcondition：if-block[elifcondition: elif-blockelse: else-block]10十一月20248其中，冒號(:)是語句塊開始標(biāo)記，[]內(nèi)為可選項。另外，在Python中，當(dāng)condition的值為False、0、None、””、（）、[]、{}時，會被解釋器解釋為假(False)。Python基礎(chǔ)

流程控制2.循環(huán)語句10十一月20249while語句語法格式：whilecondition:while-block【例2-4】求1+2+3+4+5的值。In[4]:sum=0i=1whilei<6:sum=sum+ii=i+1print("sumis%d."%sum)Out[4]:sumis15.Python基礎(chǔ)

流程控制2.循環(huán)語句10十一月202410for語句語法格式：for

Seq：for_block其中，v是循環(huán)變量，Seq是序列類型，涵蓋字符串、列表及元組。在每輪循環(huán)中，循環(huán)變量被設(shè)置為序列類型中的當(dāng)前對象，for_block是循環(huán)體，用來完成具體功能。Python基礎(chǔ)

流程控制2.循環(huán)語句10十一月202411for語句語法格式：for

Seq：for_block【例2-5】將下面數(shù)組中的奇數(shù)變成它的平方，偶數(shù)保持不變。In[5]:x=[1,2,3,4,8,7,22,33,88]print("原數(shù)據(jù)：",x)foriinrange(len(x)):if(x[i]%2)!=0:#判讀第i個元素是否為奇數(shù)

x[i]=x[i]*x[i]print("處理后：",x)Out[5]:原數(shù)據(jù)：

[1,2,3,4,8,7,22,33,88]處理后：

[1,2,9,4,8,49,22,1089,88]Python基礎(chǔ)函數(shù)是對程序邏輯進行過程化和結(jié)構(gòu)化的一種方法。有了函數(shù)，可將大塊的代碼巧妙合理地隔離成容易管理和維護的小塊。1.函數(shù)的定義函數(shù)定義語法格式如下所示：deffunction_name(arguments):function_block10十一月202412函數(shù)代碼塊以def關(guān)鍵詞開頭，后接函數(shù)標(biāo)識符名稱和圓括號()；function_name是用戶自定義的函數(shù)名稱；arguments是零個或多個參數(shù)，且任何傳入?yún)?shù)必須放在圓括號內(nèi)；最后必須跟一個冒號（:），函數(shù)體從冒號開始，并且縮進；function_block實現(xiàn)函數(shù)功能的語句塊。Python基礎(chǔ)10十一月202413【例2-6】定義函數(shù)計算n！。In[6]:deffac(n):s=1;foriinrange(2,n+1):s=s*ireturnsn=5print('%d!=%d'%(n,fac(n)))Out[6]:5!=120Python基礎(chǔ)2.lambda函數(shù)Python使用lambda來創(chuàng)建匿名函數(shù)。準(zhǔn)確地說，lambda只是一個表達式，函數(shù)體比def定義的函數(shù)簡單得多，在lambda表達式中只能封裝有限的邏輯。除此之外，lambda函數(shù)擁有自己的命名空間，且不能訪問自有參數(shù)列表之外或全局命名空間里的參數(shù)。10十一月202414【例2-7】定義一個lambda函數(shù)計算多項式1+2*x+y2+z*y的值。In[7]:polynominal=lambdax,y,z:1+2*x+y**2+z*ypolynominal(1,2,3)Out[7]:132Pyhton內(nèi)建數(shù)據(jù)結(jié)構(gòu)在Python中，最基本的數(shù)據(jù)結(jié)構(gòu)是序列。序列中的成員有序排列，可以通過下標(biāo)偏移量訪問到它的一個或幾個成員。除了前面已經(jīng)介紹過的字符串，最常見的序列是列表和元組。列表是Python中最具靈活性的有序集合對象類型。和字符串不同的是，列表具有可變長度、異構(gòu)以及任意嵌套列表的特點。列表是可變對象，支持在原處修改。10十一月2024152Pyhton內(nèi)建數(shù)據(jù)結(jié)構(gòu)

列表的常用方法（1）增加元素

L.append(v)（2）查找給定的元素L.index(x)（3）刪除列表中的元素L.remove(v)（4）列表元素倒排、統(tǒng)計和排序

L.reverse()用以倒排列表中的元素，L.count(x)實現(xiàn)返回x在列表中出現(xiàn)的次數(shù)。10十一月2024162Pyhton內(nèi)建數(shù)據(jù)結(jié)構(gòu)列表的推導(dǎo)式列表推導(dǎo)式提供了從序列創(chuàng)建列表的簡單途徑。通常應(yīng)用程序?qū)⒁恍┎僮鲬?yīng)用于某個推導(dǎo)序列的每個元素，用其獲得的結(jié)果作為生成新列表的元素，或者根據(jù)確定的判定條件創(chuàng)建子序列。10十一月202417語法格式為：[<expr1>forkinLif<expr2>]語義：

returnList=[]forkinL:if<expr2>:returnList.append(<expr1>)returnreturnList;2Pyhton內(nèi)建數(shù)據(jù)結(jié)構(gòu)元組

元組有很多用途，例如，坐標(biāo)(x,y)，數(shù)據(jù)庫中的員工記錄等等。元組和字符串一樣，不可改變，即不能給元組的一個獨立的元素賦值。元組用的是圓括號（），而列表用的是方括號[]。10十一月202418In[13]:tup=tuple('bar')#創(chuàng)建元組print('輸出元組tup：',tup)#輸出元組nested_tup=(4,5,6),(7,8)print('輸出元組tup：',nested_tup)#元素是元組的元組print('元組的連接',tup+tuple('wwy'))a,b,c=tup#元組的拆分print(a,b,c)print(tup.count(a))#統(tǒng)計某個數(shù)值在元組中出現(xiàn)的次數(shù)Out[13]:輸出元組tup：('b','a','r')輸出元組tup：((4,5,6),(7,8))元組的連接

('b','a','r','w','w','y')bar12Pyhton內(nèi)建數(shù)據(jù)結(jié)構(gòu)字典字典也稱映射，是一個由鍵/值對組成的非排序可變集合體。鍵值對在字典中以下面的方式標(biāo)記：dict={key1:value1,key2:value2}10十一月202419方法描述dict.get()返回指定鍵的值，若值不在字典中則返回defaultdict.items()以列表返回可遍歷的(鍵，值)元組數(shù)組dict.keys()以列表返回一個字典所有的鍵dict.values()以列表返回字典中的所有值2Pyhton內(nèi)建數(shù)據(jù)結(jié)構(gòu)集合是一個由唯一元素組成的非排序集合體。也就是說，集合中的元素沒有特定順序，也沒有重復(fù)項。集合可以使用大括號{}或者set()函數(shù)創(chuàng)建集合，但是，創(chuàng)建一個空集合必須用set()，因為{}是用來創(chuàng)建一個空字典。10十一月202420In[15]:set1=set([0,1,2,3,4])set2=set([1,3,5,7,9])print(set1.issubset(set2))print(set1.union(set2))print(set2.difference(set1))print(set1.issubset(set2))Out[15]:False{0,1,2,3,4,5,7,9}{9,5,7}FalseNumPy數(shù)值運算基礎(chǔ)Numpy是一個開源的Python科學(xué)計算庫，它是python科學(xué)計算庫的基礎(chǔ)庫，許多其他著名的庫（如Pandas、

Scikit-learn等）都要用到Numpy庫的一些功能。Numpy常用的導(dǎo)入格式：importnumpyasnp創(chuàng)建數(shù)組對象NumPy庫能將數(shù)據(jù)（列表、元組、數(shù)組或其他序列類型）轉(zhuǎn)換為ndarray數(shù)組。利用array函數(shù)創(chuàng)建數(shù)組對象專門創(chuàng)建數(shù)組的函數(shù)10十一月202421NumPy數(shù)值運算基礎(chǔ)利用array函數(shù)創(chuàng)建數(shù)組對象10十一月202422array函數(shù)的格式：np.array(object,dtype,ndmin)表2-6array函數(shù)的主要參數(shù)及說明參數(shù)名稱說明object接收array，表示想要創(chuàng)建的數(shù)組dtype接收data-type，表示數(shù)組所需的數(shù)據(jù)類型，默認為Nonendmin接收int，指定生成數(shù)組應(yīng)該具有的最小維數(shù)，默認為NoneNumPy數(shù)值運算基礎(chǔ)利用array函數(shù)創(chuàng)建數(shù)組對象importnumpyasnpdata1=[1,3,5,7]#列表w1=np.array(data1)print('w1:',w1)data2=(2,4,6,8)#元組w2=np.array(data2)print('w2:',w2)data3=[[1,2,3,4],[5,6,7,8]]#多維數(shù)組w3=np.array(data3)print('w3:',w3)10十一月202423NumPy數(shù)值運算基礎(chǔ)2.專門創(chuàng)建數(shù)組的函數(shù)10十一月202424表2-7常用專門創(chuàng)建數(shù)組的函數(shù)np.arange(n)類似range()函數(shù)，返回ndarray類型，元素從0到n-1np.ones(shape)根據(jù)shape生成一個全1數(shù)組，shape為元組類型np.zeros(shape)根據(jù)shape生成一個全0數(shù)組，shape為元組類型np.full(shape,val)根據(jù)shape生成一個值全為val的數(shù)組np.eye(n)創(chuàng)建一個對角線全為1其余元素為0的方陣np.linspace()指定開始值、終值和元素個數(shù)創(chuàng)建一維數(shù)組np.logspace()指定開始值、終值和元素個數(shù)創(chuàng)建一維等比數(shù)組NumPy數(shù)值運算基礎(chǔ)NumPy創(chuàng)建的ndarray對象屬性，主要有shape、size等屬性10十一月202425屬性說明ndim秩，即數(shù)據(jù)軸的個數(shù)shape數(shù)組的維度size數(shù)組元素個數(shù)dtype數(shù)據(jù)類型itemsize數(shù)組中每個元素的字節(jié)大小nbytes整個數(shù)組所需的字節(jié)數(shù)NumPy數(shù)值運算基礎(chǔ)生成隨機數(shù)在NumPy.random模塊中，提供了多種隨機數(shù)的生成函數(shù)。如randint生成指定范圍的隨機整數(shù)。用法：np.random.randint(low,high=None,size=None)10十一月202426arr1=np.random.randint(100,200,size=(2,4))print('arr1:\n',arr1)arr2=np.random.rand(5)print('arr2:\n',arr2)arr3=np.random.rand(3,2)print('arr3:\n',arr3)arr1:

[[117175143145]

[116158166192]]arr2:

[0.0591052

0.135920070.492438250.972930620.67059451]arr3:

[[0.717379740.39455845]

[0.945141410.34930551]

[0.927437750.26501378]]運行結(jié)果NumPy數(shù)值運算基礎(chǔ)生成隨機數(shù)函數(shù)10十一月202427函數(shù)說明seed確定隨機數(shù)生成器的種子permutation返回一個序列的隨機排列或返回一個隨機排列的范圍shuffle對一個序列進行隨機排序binomial產(chǎn)生二項分布的隨機數(shù)normal產(chǎn)生正態(tài)（高斯）分布的隨機數(shù)beta產(chǎn)生beta分布的隨機數(shù)chisquare產(chǎn)生卡方分布的隨機數(shù)gamma產(chǎn)生gamma分布的隨機數(shù)uniform產(chǎn)生在[0,1)中均勻分布的隨機數(shù)NumPy數(shù)值運算基礎(chǔ)2.3.4數(shù)組變換

數(shù)組重塑

reshape方法改變其數(shù)據(jù)維度，傳入的參數(shù)為新維度的元組。reshape的參數(shù)中的其中一個可以設(shè)置為-1，表示數(shù)組的維度可以通過數(shù)據(jù)本身來推斷。10十一月202428Out[23]:arr1:[01234567891011]arr2:[[0123][4567][891011]]arr3:[[012345][67891011]]In[23]:arr1=np.arange(12)print('arr1:\n',arr1)arr2=arr1.reshape(3,4)print('arr2:\n',arr2)arr3=arr1.reshape(2,-1)print('arr3:\n',arr3)NumPy數(shù)值運算基礎(chǔ)2.3.4數(shù)組變換

數(shù)組重塑

與reshape相反的方法是數(shù)據(jù)散開（ravel）或數(shù)據(jù)扁平化（flatten）。10十一月202429In[24]:arr1=np.arange(12).reshape(3,4)print('arr1:\n',arr1)arr2=arr1.ravel()print('arr2:',arr2)arr3=arr1.flatten()print('arr3:',arr3)Out[24]:arr1:[[0123][4567][891011]]arr2:[01234567891011]arr3:[01234567891011]NumPy數(shù)值運算基礎(chǔ)2.3.4數(shù)組變換

數(shù)組合并完成數(shù)組的組合，包括數(shù)組的橫向組合和縱向組合。NumPy利用hstack、vstack和concatenate函數(shù)完成數(shù)組的組合。橫向組合是將ndarray對象構(gòu)成的元組作為參數(shù)，傳給hstack函數(shù)。縱向組合是利用vstack將數(shù)組縱向合并。10十一月202430In[25]:arr1=np.arange(6).reshape(3,2)arr2=arr1*2arr3=np.hstack((arr1,arr2))print('橫向合并：\n',arr3)arr4=np.vstack((arr1,arr2))print('縱向合并：\n',arr4)Out[25]:橫向合并：

[[0102][2346][45810]]縱向合并：

[[01][23][45][02][46][810]]NumPy數(shù)值運算基礎(chǔ)2.3.4數(shù)組變換

數(shù)組合并concatenate函數(shù)可以實現(xiàn)數(shù)組的橫向或縱向合并，其中的參數(shù)axis=1時進行橫向合并，axis=0時進行縱向合并。10十一月202431In[26]:arr1=np.arange(6).reshape(3,2)arr2=arr1*2print('橫向組合為：\n',np.concatenate((arr1,arr2),axis=1))print('縱向組合為：\n',np.concatenate((arr1,arr2),axis=0))Out[26]:橫向組合為：

[[0102][2346][45810]]縱向組合為：

[[01][23][45][02][46][810]]NumPy數(shù)值運算基礎(chǔ)2.3.4數(shù)組變換數(shù)組分割：與數(shù)組合并相反，NumPy提供了hsplit、vsplit和split分別實現(xiàn)數(shù)組的橫向、縱向和指定方向的分割。10十一月202432同樣，split在參數(shù)axis=1時實現(xiàn)數(shù)組的橫向分割，axis=0時則進行縱向分割。NumPy數(shù)值運算基礎(chǔ)2.3.4數(shù)組變換數(shù)組轉(zhuǎn)置和軸對換數(shù)組轉(zhuǎn)置是數(shù)組重塑的一種特殊形式，可以通過transpose方法進行轉(zhuǎn)置。transpose方法需要傳入軸編號組成的元組。10十一月202433除了使用transpose外，可以直接利用數(shù)組的T屬性進行數(shù)組轉(zhuǎn)置。NumPy數(shù)值運算基礎(chǔ)數(shù)組的索引和切片一維數(shù)組的索引和切片一維數(shù)組的切片和索引與python的list索引類似10十一月202434In[29]:arr=np.arange(10)print(arr)print(arr[2])print(arr[-1])print(arr[1:4])Out[29]:[0123456789]29[123]NumPy數(shù)值運算基礎(chǔ)數(shù)組的索引和切片一維數(shù)組的索引和切片數(shù)組的切片返回的是原始數(shù)組的視圖，并不會產(chǎn)生新的數(shù)據(jù)，這就意味著在視圖上的操作會使原數(shù)組發(fā)生改變。如果需要的并非視圖而是要復(fù)制數(shù)據(jù)，則可以通過copy方法實現(xiàn)。10十一月202435In[30]:arr1=arr[-4:-1].copy()print(arr)print(arr1)Out[30]:[0123456789][678]NumPy數(shù)值運算基礎(chǔ)數(shù)組的索引和切片多維數(shù)組的索引對于多維數(shù)組，它的每一個維度都有一個索引，各個維度的索引之間用逗號分隔。也可以使用整數(shù)函數(shù)和布爾值索引訪問多維數(shù)組。10十一月202436In[31]:arr=np.arange(12).reshape(3,4)print(arr)print(arr[0,1:3])#索引第0行中第1列到第2列的元素print(arr[:,2])#索引第2列元素print('索引結(jié)果1：',arr[(0,1),(1,3)])#索引第1、2行中第0、2、3列的元素print('索引結(jié)果2：',arr[1:2,(0,2,3)])mask=np.array([1,0,1],dtype=np.bool)#mask是一個布爾數(shù)組，它索引第0,2行中第1列元素print('索引結(jié)果3：',arr[mask,1])Out[31]:[[0123][4567][891011]][12][2610]索引結(jié)果1：[17]索引結(jié)果2：[[467]]索引結(jié)果3：[19]NumPy數(shù)值運算基礎(chǔ)數(shù)組的運算數(shù)組的運算支持向量化運算，將本來需要在Python級別進行的運算，放到C語言的運算中，明顯地提高了程序的運算速度。1.數(shù)組和標(biāo)量間的運算數(shù)組之所以強大是因為不需要通過循環(huán)就可以完成批量計算，比如相同維度的數(shù)組的算術(shù)運算直接應(yīng)用到元素中。10十一月202437【例2-32】數(shù)組元素的追加。In[32]:a=[1,2,3]b=[]foriina:b.append(i*i)print('b數(shù)組：',b)wy=np.array([1,2,3])c=wy*2print('c數(shù)組：',c)Out[32]:b數(shù)組：[1,4,9]c數(shù)組：[246]NumPy數(shù)值運算基礎(chǔ)數(shù)組的運算2.ufunc函數(shù)ufunc函數(shù)全稱為通用函數(shù)，是一種能夠?qū)?shù)組中的所有元素進行操作的函數(shù)。ufunc函數(shù)是針對數(shù)組進行操作，而且以NumPy數(shù)組作為輸出。對一個數(shù)組進行重復(fù)運算時，使用ufunc函數(shù)比使用math庫中的函數(shù)效率更高。常用的ufunc函數(shù)運算有四則運算、比較運算和邏輯運算。10十一月202438NumPy數(shù)值運算基礎(chǔ)數(shù)組的運算2.ufunc函數(shù)常用的ufunc函數(shù)運算有四則運算、比較運算和邏輯運算。1）四則運算：加（+）、減（-）、乘（*）、除（/）、冪（**）。數(shù)組間的四則運算表示對每個數(shù)組中的元素分別進行四則運算，所以形狀必須相同。2）比較運算：>、<、==、>=、<=、!=。比較運算返回的結(jié)果是一個布爾數(shù)組，每個元素為每個數(shù)組對應(yīng)元素的比較結(jié)果。3）邏輯運算：np.any函數(shù)表示邏輯“or”，np.all函數(shù)表示邏輯“and”。運算結(jié)果返回布爾值。10十一月202439NumPy數(shù)值運算基礎(chǔ)數(shù)組的運算2.ufunc函數(shù)常用的ufunc函數(shù)運算有四則運算、比較運算和邏輯運算。10十一月202440In[33]:x=np.array([1,2,3])y=np.array([4,5,6])print('數(shù)組相加結(jié)果：',x+y)print('數(shù)組相減結(jié)果：',x-y)print('數(shù)組相乘結(jié)果：',x*y)print('數(shù)組冪運算結(jié)果：',x**y)Out[33]:數(shù)組相加結(jié)果：

[579]數(shù)組相減結(jié)果：

[-3-3-3]數(shù)組相乘結(jié)果：

[41018]數(shù)組冪運算結(jié)果：

[132729]NumPy數(shù)值運算基礎(chǔ)數(shù)組的運算2.ufunc函數(shù)常用的ufunc函數(shù)運算有四則運算、比較運算和邏輯運算。10十一月202441數(shù)組的比較運算。In[34]:x=np.array([1,3,6])y=np.array([2,3,4])print('比較結(jié)果(<)：',x<y)print('比較結(jié)果(>)：',x>y)print('比較結(jié)果(==)：',x==y)print('比較結(jié)果(>=)：',x>=y)print('比較結(jié)果(!=)：',x!=y)Out[34]:比較結(jié)果(<)：[TrueFalseFalse]比較結(jié)果(>)：[FalseFalseTrue]比較結(jié)果(==)：[FalseTrueFalse]比較結(jié)果(>=)：[FalseTrueTrue]比較結(jié)果(!=)：[TrueFalseTrue]NumPy數(shù)值運算基礎(chǔ)數(shù)組的運算2.ufunc函數(shù)ufunc函數(shù)的廣播機制廣播（broadcasting）是指不同形狀的數(shù)組之間執(zhí)行算術(shù)運算的方式。10十一月202442In[35]:arr1=np.array([[0,0,0],[1,1,1],[2,2,2]])arr2=np.array([1,2,3])print('arr1:\n',arr1)print('arr2:\n',arr2)print('arr1+arr2:\n',arr1+arr2)Out[35]:arr1:[[000][111][222]]arr2:[123]arr1+arr2:[[123][234][345]]NumPy數(shù)值運算基礎(chǔ)條件邏輯運算在NumPy中可以利用基本的邏輯運算就可以實現(xiàn)數(shù)組的條件運算。這種方法對大規(guī)模數(shù)組處理效率不高，也無法用于多維數(shù)組。NumPy提供的where方法可以解決這些問題。where的用法：np.where(condition,x,y)滿足條件(condition)，輸出x，不滿足則輸出y。10十一月202443NumPy數(shù)值運算基礎(chǔ)條件邏輯運算在NumPy中可以利用基本的邏輯運算就可以實現(xiàn)數(shù)組的條件運算。10十一月202444In[37]print(np.where([[True,False],[True,True]],[[1,2],[3,4]],[[9,8],[7,6]]))w=np.array([2,5,6,3,10])print(np.where(w>4))Out[37]array([[1,8],[3,4]])(array([1,2,4],dtype=int64),)NumPy數(shù)值運算基礎(chǔ)NumPy中的數(shù)據(jù)統(tǒng)計與分析1.排序

numpy.sort(a,axis,kind,order)

sort主要參數(shù)及其說明10十一月202445參數(shù)說明a要排序的數(shù)組kind排序算法，默認為“quicksort”order如果數(shù)組包含字段，則是要排序的字段axis按指定軸對數(shù)據(jù)集排序。axis=1為沿橫軸排序；axis=0為沿縱軸排序；axis=None,將數(shù)組平坦化之后進行排序NumPy數(shù)值運算基礎(chǔ)NumPy中的數(shù)據(jù)統(tǒng)計與分析1.排序

numpy.sort(a,axis,kind,order)

10十一月202446In[38]:arr=np.array([7,9,5,2,9,4,3,1,4,3])print('原數(shù)組：',arr)arr.sort()print('排序后：',arr)Out[38]:原數(shù)組：

[7952943143]排序后：

[1233445799]NumPy數(shù)值運算基礎(chǔ)NumPy中的數(shù)據(jù)統(tǒng)計與分析1.排序

numpy.sort(a,axis,kind,order)

10十一月202447帶軸向參數(shù)的sort排序。In[39]:arr=np.array([[4,2,9,5],[6,4,8,3],[1,6,2,4]])print('原數(shù)組：\n',arr)arr.sort(axis=1)#沿橫向排序print('橫向排序后：\n',arr)Out[39]:原數(shù)組：

[[4295][6483][1624]]橫向排序后：

[[2459][3468][1246]]NumPy數(shù)值運算基礎(chǔ)NumPy中的數(shù)據(jù)統(tǒng)計與分析1.排序

使用argsort和lexsort函數(shù)，可以在給定一個或多個鍵時，得到一個由整數(shù)構(gòu)成的索引數(shù)組，索引值表示數(shù)據(jù)在新的序列中的位置。10十一月202448使用argsort和lexsort函數(shù)進行排序。In[40]:arr=np.array([7,9,5,2,9,4,3,1,4,3])print('原數(shù)組：',arr)print('排序后：',arr.argsort())#返回值為數(shù)組排序后的下標(biāo)排列a=[2,5,8,4,3,7,6]b=[9,4,0,4,0,2,1]c=np.lexsort((a,b))print(c)Out[40]:原數(shù)組：

[7952943143]排序后：

[7369582014][4265310]NumPy數(shù)值運算基礎(chǔ)NumPy中的數(shù)據(jù)統(tǒng)計與分析2.重復(fù)數(shù)據(jù)與去重在數(shù)據(jù)統(tǒng)計分析中，需要提前將重復(fù)數(shù)據(jù)剔除。在NumPy中，可以通過unique函數(shù)找到數(shù)組中的唯一值并返回已排序的結(jié)果。

10十一月202449數(shù)組內(nèi)數(shù)據(jù)去重。In[41]:names=np.array(['紅色','藍色','黃色','白色','紅色'])print('原數(shù)組：',names)print('去重后的數(shù)組：',np.unique(names))Out[41]:原數(shù)組：

['紅色''藍色''黃色''白色''紅色']去重后的數(shù)組：

['白色''紅色''藍色''黃色']NumPy數(shù)值運算基礎(chǔ)NumPy中的數(shù)據(jù)統(tǒng)計與分析2.重復(fù)數(shù)據(jù)與去重10十一月202450統(tǒng)計分析中有時需要把一個數(shù)據(jù)重復(fù)若干次，在NumPy中主要使用tile和repeat函數(shù)實現(xiàn)數(shù)據(jù)重復(fù)?！纠?-42】使用tile函數(shù)實現(xiàn)數(shù)據(jù)重復(fù)。In[42]:arr=np.arange(5)print('原數(shù)組：',arr)wy=np.tile(arr,3)print('重復(fù)數(shù)據(jù)處理：\n',wy)Out[42]:原數(shù)組：

[01234]重復(fù)數(shù)據(jù)處理：

[012340123401234]NumPy數(shù)值運算基礎(chǔ)NumPy中的數(shù)據(jù)統(tǒng)計與分析2.重復(fù)數(shù)據(jù)與去重repeat函數(shù)的格式：numpy.repeat(A,reps,axis=None)其中參數(shù)“a”是需要重復(fù)的數(shù)組元素，參數(shù)“repeats”是重復(fù)次數(shù)，參數(shù)“axis”指定沿著哪個軸進行重復(fù)，axis=0表示按行進行元素重復(fù)；axis=1表示按列進行元素重復(fù)。10十一月202451In[43]:arr1=np.arange(5)print('原數(shù)組：',arr1)w1=np.tile(arr,3)print('原數(shù)組重復(fù)3次：\n',np.tile(arr1,3))arr2=np.array([[1,2,3],[4,5,6]])print('重復(fù)數(shù)據(jù)處理：\n',arr2.repeat(2,axis=0))Out[43]:原數(shù)組：

[01234]原數(shù)組重復(fù)3次：

[012340123401234]重復(fù)數(shù)據(jù)處理：

[[123][123][456][456]]NumPy數(shù)值運算基礎(chǔ)3.常用統(tǒng)計函數(shù)NumPy中提供了很多用于統(tǒng)計分析的函數(shù)，常見的有sum、mean、std、var、min和max等。幾乎所有的統(tǒng)計函數(shù)在針對二維數(shù)組的時候需要注意軸的概念。10十一月202452NumPy數(shù)值運算基礎(chǔ)3.常用統(tǒng)計函數(shù)10十一月202453【例2-44】NumPy中常用函數(shù)的使用。In[44]:arr=np.arange(20).reshape(4,5)print('創(chuàng)建的數(shù)組：\n',arr)print('數(shù)組的和：',np.sum(arr))print('數(shù)組縱軸的和：',np.sum(arr,axis=0))print('數(shù)組橫軸的和：',np.sum(arr,axis=1))print('數(shù)組的均值：',np.mean(arr))print('數(shù)組橫軸的均值：',np.mean(arr,axis=1))print('數(shù)組的標(biāo)準(zhǔn)差：',np.std(arr))print('數(shù)組橫軸的標(biāo)準(zhǔn)差：',np.std(arr,axis=1))Out[44]:創(chuàng)建的數(shù)組：

[[01234][56789][1011121314][1516171819]]數(shù)組的和：

190數(shù)組縱軸的和：[3034384246]數(shù)組橫軸的和：[10356085]數(shù)組的均值：

8.5數(shù)組橫軸的均值：[2.7.12.17.]數(shù)組的標(biāo)準(zhǔn)差：

4.766281297335398數(shù)組橫軸的標(biāo)準(zhǔn)差：[1.414213561.414213561.414213561.41421356]Pandas統(tǒng)計分析基礎(chǔ)Pandas（PythonDataAnalysisLibrary）是基于NumPy的數(shù)據(jù)分析模塊，它提供了大量標(biāo)準(zhǔn)數(shù)據(jù)模型和高效操作大型數(shù)據(jù)集所需的工具，可以說Pandas是使得Python能夠成為高效且強大的數(shù)據(jù)分析環(huán)境的重要因素之一。導(dǎo)入方式：importpandasaspd10十一月202454Pandas統(tǒng)計分析基礎(chǔ)Pandas中的數(shù)據(jù)結(jié)構(gòu)Pandas有三種數(shù)據(jù)結(jié)構(gòu)Series、DataFrame和Panel。Series類似于數(shù)組，DataFrame類似于表格，而Panel則可以視為Excel的多表單Sheet。10十一月202455Pandas統(tǒng)計分析基礎(chǔ)SeriesSeries是一種一維數(shù)組對象，包含了一個值序列，并且包含了數(shù)據(jù)標(biāo)簽，稱為索引（index），通過索引來訪問數(shù)組中的數(shù)據(jù)。Series的創(chuàng)建1）通過列表創(chuàng)建2）通過字典創(chuàng)建10十一月202456Pandas統(tǒng)計分析基礎(chǔ)Series的創(chuàng)建1）通過列表創(chuàng)建10十一月202457In[45]:importpandasaspdobj1=pd.Series([1,-2,3,-4])print(obj1)i=["a","c","d","a"]v=[2,4,5,7]obj2=pd.Series(v,index=i,name="col")print(obj2)Out[45]:011-2233-4dtype:int64a2c4d5a7Name:col,dtype:int64輸出的第一列為index，第二列為數(shù)據(jù)value。如果創(chuàng)建Series時沒有指定index，Pandas會采用整型數(shù)據(jù)作為該Series的index。所以Series有兩套描述某條數(shù)據(jù)的手段，即位置和標(biāo)簽。Pandas統(tǒng)計分析基礎(chǔ)Series的創(chuàng)建2）通過字典創(chuàng)建10十一月202458如果數(shù)據(jù)被存放在一個Python字典中，也可以直接通過這個字典來創(chuàng)建Series?！纠?-46】通過字典創(chuàng)建Series。In[46]:sdata={'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}obj3=pd.Series(sdata)print(obj3)Out[46]:Ohio35000Texas71000Oregon16000Utah5000dtype:int64Pandas統(tǒng)計分析基礎(chǔ)Series的創(chuàng)建2）通過字典創(chuàng)建10十一月202459對于許多應(yīng)用而言，Series域重要的一個功能是：它在算術(shù)運算中會自動對齊不同索引的數(shù)據(jù)。【例2-47】不同索引數(shù)據(jù)的自動對齊。In[47]:sdata={'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}obj1=pd.Series(sdata)states=['California','Ohio','Oregon','Texas']obj2=pd.Series(sdata,index=states)print(obj1+obj2)Out[47]:CaliforniaNaNOhio70000.0Oregon32000.0Texas142000.0UtahNaNdtype:float64Pandas統(tǒng)計分析基礎(chǔ)DataFrameDataFrame是一個表格型的數(shù)據(jù)結(jié)構(gòu)，它含有一組有序的列，每列可以是不同的值類型（數(shù)值、字符串、布爾值等）。DataFrame既有行索引也有列索引，它可以被看作由Series組成的字典（共用同一個索引）。構(gòu)建DataFrame的方式有很多，最常用的是直接傳入一個由等長列表或NumPy數(shù)組組成的字典來構(gòu)建DataFrame。10十一月202460Pandas統(tǒng)計分析基礎(chǔ)DataFrame10十一月202461【例2-49】DataFrame的索引。In[49]:data={'name':['張三','李四','王五','小明'],'sex':['female','female','male','male'],'year':[2001,2001,2003,2002],'city':['北京','上海','廣州','北京']}df1=pd.DataFrame(data,columns=['name','year','sex','city'])display(df1)Out[49]:Pandas統(tǒng)計分析基礎(chǔ)索引對象Pandas的索引對象負責(zé)管理軸標(biāo)簽和其他元數(shù)據(jù)（如軸名稱等）。構(gòu)建Series或DataFrame時，所用到的任何數(shù)組或其他序列的標(biāo)簽都會被轉(zhuǎn)換成一個Index。10十一月202462【例2-50】顯示DataFrame的索引和列。In[50]：display(df1)print(df1.index)print(df1.columns)Out[50]:

RangeIndex(start=0,stop=4,step=1)Index(['name','year','sex','city'],dtype='object')Pandas統(tǒng)計分析基礎(chǔ)索引對象1.重新索引索引對象是無法修改的，因此，重新索引是指對索引重新排序而不是重新命名，如果某個索引值不存在的話，會引入缺失值。10十一月202463重建索引In[51]:obj=pd.Series([7.2,-3.3,3.5,3.6],index=['b','a',

'd','c'])obj.reindex(['a','b','c','d','e'])Out[51]:a-3.3b7.2c3.6d3.5eNaNdtype:float64對于重建索引引入的缺失值，可以利用fill_value參數(shù)填充。Pandas統(tǒng)計分析基礎(chǔ)索引對象1.重新索引10十一月202464【例2-52】重建索引時填充缺失值。In[52]:obj.reindex(['a','b','c','d','e'],fill_value=0)Out[52]:a-3.3b7.2c3.6d3.5e0.0dtype:float64Pandas統(tǒng)計分析基礎(chǔ)索引對象1.重新索引10十一月202465對于順序數(shù)據(jù)，比如時間序列，重新索引時可能需要進行插值或填值處理，利用參數(shù)method選項可以設(shè)置：?

method=‘ffill’或‘pad’，表示前向值填充?

method=‘bfill’或‘backfill’，表示后向值填充【例2-53】缺失值的前向填充。In[53]:importnumpyasnpobj1=pd.Series(['blue','red','black'],index=[0,2,4])obj1.reindex(np.arange(6),method='ffill')Out[53]:0blue1blue2red3red4black5blackdtype:objectPandas統(tǒng)計分析基礎(chǔ)索引對象1.重新索引10十一月202466缺失值的后向填充則對空缺值用后面的數(shù)據(jù)值進行填充，參數(shù)method取值'backfill'。對于DataFrame，reindex可以修改行索引或列索引。如果僅傳入一個序列，則結(jié)果中的行會重建索引?！纠?-54】DataFrame數(shù)據(jù)。In[54]:df2=pd.DataFrame(np.arange(9).reshape(3,3),index=['a','c','d'],columns=['one','two','four'])display(df2)df2.reindex(index=['a','b','c','d'],columns=['one','two','three','four'])Out[54]:Pandas統(tǒng)計分析基礎(chǔ)索引對象1.重新索引10十一月202467默認對行索引重新排序。傳入fill_value=n用n代替缺失值?！纠?-55】傳入fill_value=n填充缺失值。In[55]:df2.reindex(index=['a','b','c','d'],columns=['one','two','three','four'],fill_value=100)Out[55]:

Pandas統(tǒng)計分析基礎(chǔ)更換索引在DataFrame數(shù)據(jù)中，如果不希望使用默認的行索引，則可以在創(chuàng)建時通過Index參數(shù)來設(shè)置。有時候希望將列數(shù)據(jù)作為索引，則可以通過set_index方法來實現(xiàn)。10十一月202468In[56]:df3=df1.set_index('city')

display(df3)Out[56]:與set_index方法相反的方法是reset_index方法。Pandas統(tǒng)計分析基礎(chǔ)查看DataFrame的常用屬性DataFrame的基礎(chǔ)屬性有values、index、columns、dtypes、ndim和shape，分別可以獲取DataFrame的元素、索引、列名、類型、維度和形狀。10十一月202469In[57]:print('信息表的所有值為：\n',df3.values)print('信息表的所有列為：\n',df3.columns)print('信息表的元素個數(shù)為：',df3.size)print('信息表的維度是：',df3.ndim)print('信息表的形狀為：',df3.shape)Out[57]:信息表的所有值為：

[['張三'2001'female']['李四'2001'female']['王五'2003'male']['小明'2002'male']]信息表的所有列為：

Index(['name','year','sex'],dtype='object')信息表的元素個數(shù)為：

12信息表的維度是：

2信息表的形狀為：

(4,3)Pandas統(tǒng)計分析基礎(chǔ)DataFrame數(shù)據(jù)的查詢在數(shù)據(jù)分析中，選取需要的數(shù)據(jù)進行分析處理是最基本操作。在Pandas中需要通過索引完成數(shù)據(jù)的選取。(1)選取列通過列索引標(biāo)簽或以屬性的方式可以單獨獲取DataFrame的列數(shù)據(jù)，返回的數(shù)據(jù)為Series類型數(shù)據(jù)。10十一月202470Pandas統(tǒng)計分析基礎(chǔ)DataFrame數(shù)據(jù)的查詢例題：選取列10十一月202471In[58]:w1=df3['name']print('選取1列數(shù)據(jù)：\n',w1)w2=df3[['name','year']]print('選取2列數(shù)據(jù)：\n',w2)Out[58]:選取1列數(shù)據(jù)：

city北京

張三上海

李四廣州

王五北京

小明Name:name,dtype:object選取2列數(shù)據(jù)：

nameyearcity北京

張三

2001上海

李四

2001廣州

王五

2003北京

小明

2002在選取列時注意不能使用切片方式。Pandas統(tǒng)計分析基礎(chǔ)DataFrame數(shù)據(jù)的查詢（2）選取行通過行索引或行索引位置的切片形式可以選取行數(shù)據(jù)。10十一月202472In[59]:display(df3)print('顯示前2行:\n',df3[:2])print('顯示2-3兩行:\n',df3[1:3])Out[59]:

顯示前2行:nameyearsexcity北京

張三

2001female上海

李四

2001female顯示2-3兩行:nameyearsexcity上海

李四

2001female廣州

王五

2003malePandas統(tǒng)計分析基礎(chǔ)10十一月202473除了上述方法獲取行之外，通過DataFrame提供的head和tail方法可以得到多行數(shù)據(jù)，但是用這兩種方法得到的數(shù)據(jù)都是從開始或者末尾獲取連續(xù)的數(shù)據(jù)，而利用sample可以隨機抽取數(shù)據(jù)并顯示。head（）#默認獲取前5行head（n）#獲取前n行tail（）#默認獲取后5行tail（n）#獲取后n行sample（n）#隨機抽取n行顯示Pandas統(tǒng)計分析基礎(chǔ)（3）選取行和列切片方法選取行有很大的局限性，如獲取單獨的幾行，可以通過Pandas提供的loc和iloc方法實現(xiàn)。DataFrame.loc(行索引名稱或條件，列索引名稱)DataFrame.iloc(行索引位置，列索引位置)10十一月202474In[60]:display(df3.loc[:,['name','year']])#顯示name和year兩列display(df3.iloc[[1,3]])#顯示第1和第3行display(df3.iloc[[1,3],[1,2]])Pandas統(tǒng)計分析基礎(chǔ)（4）布爾選擇在Pandas中可以對DataFrame中的數(shù)據(jù)進行布爾選擇，常用的布爾運算符為不等于（!=）、與(&)、或(|)等。10十一月202475【例2-61】布爾選擇。In[61]:df3[df3['year']==2001]Out[61]:Pandas統(tǒng)計分析基礎(chǔ)（5）DataFrame行和列的選取還可以通過query方法實現(xiàn)。

display(df5.query('year>2001'))display(df5.query('year>2001&year<2003'))10十一月202476Pandas統(tǒng)計分析基礎(chǔ)DataFrame數(shù)據(jù)的編輯（1）增加數(shù)據(jù)增加一行直接通過append方法傳入字典結(jié)構(gòu)數(shù)據(jù)即可。增加列時，只需為要增加的列賦值即可創(chuàng)建一個新的列。10十一月202477In[62]:data1={'city':'蘭州','name':'小軍','year':2005,'sex':'female'}df4=df3.append(data1,ignore_index=True)df4['age']=20df4['C']=[85,78,96,80,93]display(df4)Pandas統(tǒng)計分析基礎(chǔ)DataFrame數(shù)據(jù)的編輯（2）刪除數(shù)據(jù)刪除數(shù)據(jù)直接用drop方法，行列數(shù)據(jù)通過axis參數(shù)確定是刪除的是行還是列。10十一月202478In[63]:df3.drop('sex',axis=1,inplace=True)display(df3)display(df3.drop('北京'))Pandas統(tǒng)計分析基礎(chǔ)DataFrame數(shù)據(jù)的編輯（3）修改數(shù)據(jù)修改數(shù)據(jù)時直接對選擇的數(shù)據(jù)直接賦值即可。Replace：如DataFrame.replace({'B':'E','C':'F'})表示將表中的B替換為E，C替換為F。10十一月202479Pandas統(tǒng)計分析基礎(chǔ)Pandas數(shù)據(jù)運算算術(shù)運算:Pandas的數(shù)據(jù)對象在進行算術(shù)運算時，如果有相同索引則進行算術(shù)運算，如果沒有則會進行數(shù)據(jù)對齊，但會引入缺失值。10十一月202480In[64]:a=np.arange(6).reshape(2,3)b=np.arange(4).reshape(2,2)df1=pd.DataFrame(a,columns=['a','b','e'],index=['A','C'])print('df1:\n',df1)df2=pd.DataFrame(b,columns=['a','b'],index=['A','D'])print('df2:\n',df2)print('df1+df2:\n',df1+df2)Pandas統(tǒng)計分析基礎(chǔ)Pandas數(shù)據(jù)運算函數(shù)應(yīng)用和映射:在數(shù)據(jù)分析時，經(jīng)常會對數(shù)據(jù)進行較復(fù)雜的運算，此時需要定義函數(shù)。定義好的函數(shù)可以應(yīng)用到pandas數(shù)據(jù)中，其中有三種方法：map函數(shù)，將函數(shù)套用到Series的每個元素中；apply函數(shù)，將函數(shù)套用到DataFrame的行與列上，行與列通過axis參數(shù)設(shè)置；applymap函數(shù)，將函數(shù)套用到DataFrame的每個元素上。10十一月202481Pandas統(tǒng)計分析基礎(chǔ)Pandas數(shù)據(jù)運算map函數(shù)，將函數(shù)套用到Series的每個元素中；10十一月202482【例2-65】將水果價格表中的“元”去掉。In[65]:data={'fruit':['apple','grape','banana'],'price':['30元','43元','28元']}df1=pd.DataFrame(data)print(df1)deff(x):returnx.split('元')[0]df1['price']=df1['price'].map(f)print('修改后的數(shù)據(jù)表:\n',df1)Pandas統(tǒng)計分析基礎(chǔ)Pandas數(shù)據(jù)運算apply函數(shù)，將函數(shù)套用到DataFrame的行與列上，行與列通過axis參數(shù)設(shè)置；10十一月202483In[66]:df2=pd.DataFrame(np.random.randn(3,3),columns=['a','b','c'],

index=['app','win','mac'])print(df2)df2.apply(np.mean)Out[66]:abcapp2.3124720.866631-1.416253win0.2129320.5174180.239052mac0.4345401.856411-0.441800a0.986648b1.080154c-0.539667dtype:float64Pandas統(tǒng)計分析基礎(chǔ)Pandas數(shù)據(jù)運算applymap函數(shù)，將函數(shù)套用到DataFrame的每個元素上。10十一月202484【例2-67】applymap函數(shù)的用法。In[67]:print(df2)df2.applymap(lambdax:'%.3f'%x)Out[67]:Pandas統(tǒng)計分析基礎(chǔ)數(shù)據(jù)排序在Series中，通過sort_index方法對索引進行排序，默認為升序，降序排序時加參數(shù)ascending=False。通過sort_values方法對數(shù)值進行排序。10十一月202485【例2-68】Series的排序。In[68]:wy=pd.Series([1,-2,4,-4],index=['c','b','a','d'])print(wy)print('排序后的Series:\n',wy.sort_index())print('值排序后的Series:\n',wy.sort_values())Pandas統(tǒng)計分析基礎(chǔ)數(shù)據(jù)排序?qū)τ贒ataFrame數(shù)據(jù)排序，通過指定軸方向，使用sort_index函數(shù)對行或列索引進行排序，根據(jù)列進行排序，通過sort_values函數(shù)把列名傳給by參數(shù)即可。10十一月202486In[69]:print(df2)df2.sort_values(by='a')Out[69]:Pandas統(tǒng)計分析基礎(chǔ)數(shù)據(jù)匯總與統(tǒng)計1.數(shù)據(jù)匯總在DataFrame中，可以通過sum方法對每列進行求和匯總，與Excel中的sum函數(shù)類似。如果設(shè)置axis=1指定軸方向，可以實現(xiàn)按行匯總。10十一月202487In[70]:print('按列匯總:\n',df2.sum())print('按行匯總:\n',df2.sum(axis=1))Out[70]:按列匯總:a2.959945b3.240461c-1.619001dtype:float64按行匯總:app1.762850win0.969403mac1.849152dtype:float64Pandas統(tǒng)計分析基礎(chǔ)數(shù)據(jù)匯總與統(tǒng)計2.數(shù)據(jù)描述與統(tǒng)計描述性統(tǒng)計是用來概括、表述事物整體狀況以及事物間關(guān)聯(lián)、類屬關(guān)系的統(tǒng)計方法。利用describe方法會每個數(shù)值型列進行統(tǒng)計，通常在對數(shù)據(jù)的初步觀察時使用。10十一月202488In[71]:df2.describe()Pandas統(tǒng)計分析基礎(chǔ)數(shù)據(jù)匯總與統(tǒng)計2.數(shù)據(jù)描述與統(tǒng)計10十一月202489

Pandas中常用的描述性統(tǒng)計量方法名稱說明方法名稱說明min最小值max最大值mean均值ptp極差median中位數(shù)std標(biāo)準(zhǔn)差var方差cov協(xié)方差sem標(biāo)準(zhǔn)誤差mode眾數(shù)skew樣本偏度kurt樣本峰度quantile四分位數(shù)count非空值數(shù)目describe描述統(tǒng)計mad平均絕對離差Pandas統(tǒng)計分析基礎(chǔ)數(shù)據(jù)匯總與統(tǒng)計2.數(shù)據(jù)描述與統(tǒng)計10十一月202490對于類別型特征的描述性統(tǒng)計，可以使用頻數(shù)統(tǒng)計表。Pandas庫中通過unique方法獲取不重復(fù)的數(shù)組，利用value_counts方法實現(xiàn)頻數(shù)統(tǒng)計?！纠?-72】數(shù)據(jù)的頻數(shù)統(tǒng)計。In[72]:obj=pd.Series(['a','b','c','a','d','c'])print(obj.unique())print(obj.value_counts())Pandas統(tǒng)計分析基礎(chǔ)數(shù)據(jù)分組與聚合1.數(shù)據(jù)分組根據(jù)某個或某幾個字段對數(shù)據(jù)集進行分組，然后對每個分組進行分析與轉(zhuǎn)換是數(shù)據(jù)分析中常見的操作。Pandas提供了一個高效的groupby方法，配合agg或apply方法實現(xiàn)數(shù)據(jù)分組聚合的操作。DataFrame.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_keys=True,squeeze=False,**kwargs)10十一月202491Pandas統(tǒng)計分析基礎(chǔ)數(shù)據(jù)分組與聚合1.數(shù)據(jù)分組10十一月202492groupby方法的參數(shù)及其說明參數(shù)名稱參數(shù)說明by可以傳入函數(shù)、字典、Series等，用于確定分組的依據(jù)axis接收int，表示操作的軸方向，默認為0level接收int或索引名，代表標(biāo)簽所在級別，默認為Noneas_index接收boolean，表示聚合后的聚合標(biāo)簽是否以DataFrame索引輸出sort接收boolean，表示對分組依據(jù)和分組標(biāo)簽排序，默認為Truegroup_keys接收boolean，表示是否顯示分組標(biāo)簽的名稱，默認為Truesqueeze接收boolean，表示是否在允許情況下對返回數(shù)據(jù)降維，默認FalsePandas統(tǒng)計分析基礎(chǔ)數(shù)據(jù)分組與聚合1.數(shù)據(jù)分組10十一月202493In[73]:df=pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['yes','no','yes','yes','no'],'data1':np.random.randn(5),'data2':np.random.randn(5)})grouped=df['data1'].groupb

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Python數(shù)據(jù)挖掘與機器學(xué)習(xí)第2版課件第 2 章 Python數(shù)據(jù)分析與挖掘基礎(chǔ)

文檔簡介

溫馨提示

最新文檔

評論

Python數(shù)據(jù)挖掘與機器學(xué)習(xí)第2版 課件 第 2 章 Python數(shù)據(jù)分析與挖掘基礎(chǔ)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

Python數(shù)據(jù)挖掘與機器學(xué)習(xí)第2版課件第 2 章 Python數(shù)據(jù)分析與挖掘基礎(chǔ)