Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 3 章 認(rèn)識(shí)數(shù)據(jù)_第1頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 3 章 認(rèn)識(shí)數(shù)據(jù)_第2頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 3 章 認(rèn)識(shí)數(shù)據(jù)_第3頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 3 章 認(rèn)識(shí)數(shù)據(jù)_第4頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 3 章 認(rèn)識(shí)數(shù)據(jù)_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第3章認(rèn)識(shí)數(shù)據(jù)本章內(nèi)容屬性及其類型數(shù)據(jù)的基本統(tǒng)計(jì)描述數(shù)據(jù)可視化數(shù)據(jù)對(duì)象的相似性度量10十一月202421.屬性及其類型屬性:(Attribute)是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征。在文獻(xiàn)中,屬性、維(Dimension)、特征(Feature)和變量(Variable)表示相同的含義,可以在不同場(chǎng)合互換使用。屬性類型:屬性的取值范圍決定了屬性的類型。10十一月202431.屬性及其類型1.標(biāo)稱屬性標(biāo)稱屬性(NominalAttribute)的值是一些符號(hào)或事物的名稱。每個(gè)值代表某種類別、編碼或狀態(tài),因此標(biāo)稱屬性又可稱為是分類的(Categorical)。標(biāo)稱屬性的值是枚舉的,可以用數(shù)字表示這些符號(hào)或名稱。常見的標(biāo)稱屬性如姓名、籍貫、郵政編碼或婚姻狀態(tài)等。標(biāo)稱屬性的值不僅僅是不同的名字,它提供了足夠的信息用于區(qū)分對(duì)象。10十一月202441.屬性及其類型2.二元屬性二元屬性(BinaryAttribute)是標(biāo)稱屬性的特例,也是一種布爾屬性,對(duì)應(yīng)0和1兩個(gè)狀態(tài)。二元屬性分為對(duì)稱的和非對(duì)稱的。如果屬性的狀態(tài)結(jié)果是同等重要的,如拋硬幣的結(jié)果狀態(tài),則該屬性是對(duì)稱的二元屬性。一個(gè)非對(duì)稱的二元屬性其狀態(tài)的結(jié)果不是同樣重要的,如病毒檢測(cè)的陽性和陰性結(jié)果。為了方便,用1對(duì)重要結(jié)果(通常是稀有的)編碼,另一個(gè)用0編碼。10十一月202451.屬性及其類型3.序數(shù)屬性序數(shù)屬性(OrdinalAttribute)的可能值之間存在有意義的序或秩評(píng)定,但是相繼值之間的差是未知的。常見的序數(shù)屬性如上衣的尺寸有S、M、L、XL,可以用數(shù)字如1、2、3、4分別對(duì)應(yīng)屬性的取值。由于序數(shù)屬性是有序的,它的中位數(shù)是有意義的,因此序數(shù)屬性的中心趨勢(shì)度量可以是眾數(shù)和中位數(shù)。10十一月202461.屬性及其類型4.數(shù)值屬性數(shù)值屬性(NumericAttribute)是可以度量的量,用整數(shù)或?qū)崝?shù)值表示,常見的數(shù)值屬性如年齡。數(shù)值屬性可以是區(qū)間標(biāo)度的或比率標(biāo)度的。區(qū)分區(qū)間標(biāo)度和比率標(biāo)度的原則是該屬性是否有固有的零點(diǎn),如攝氏溫度沒有固定的零點(diǎn),其比值沒有意義。所以是區(qū)間標(biāo)度屬性,而開式溫度有固有的零點(diǎn),比值有意義,是比率標(biāo)度屬性。10十一月202472.數(shù)據(jù)的基本統(tǒng)計(jì)描述把握數(shù)據(jù)的分布對(duì)于成功的數(shù)據(jù)預(yù)處理是至關(guān)重要的。基本的數(shù)據(jù)統(tǒng)計(jì)描述可以識(shí)別數(shù)據(jù)的性質(zhì),并凸顯哪些數(shù)據(jù)應(yīng)被視為噪聲或離群點(diǎn)。數(shù)據(jù)的描述性統(tǒng)計(jì)主要包括數(shù)據(jù)的集中趨勢(shì)、離中趨勢(shì)、相對(duì)離散程度和分布的形狀四個(gè)方面。10十一月202482.數(shù)據(jù)的基本統(tǒng)計(jì)描述中心趨勢(shì)度量:在統(tǒng)計(jì)學(xué)中是指一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。中心趨勢(shì)度量就是尋找數(shù)據(jù)水平的代表值或中心值。中心趨勢(shì)度量包括均值、中位數(shù)、眾數(shù)和中列數(shù)。1.均值:數(shù)據(jù)集“中心”的最常用的數(shù)值度量是(算術(shù))均值。均值是描述數(shù)據(jù)集的最常用統(tǒng)計(jì)量,但它并非度量數(shù)據(jù)中心的最佳方法,主要原因是均值對(duì)噪聲數(shù)據(jù)很敏感。10十一月202492.數(shù)據(jù)的基本統(tǒng)計(jì)描述2.中位數(shù):中位數(shù)(Median)又稱中點(diǎn)數(shù)或中值。在概率論與統(tǒng)計(jì)學(xué)中,中位數(shù)一般用于數(shù)值型數(shù)據(jù)。在數(shù)據(jù)挖掘中可以把中位數(shù)推廣到序數(shù)型數(shù)據(jù)中。當(dāng)數(shù)據(jù)量很大時(shí),中位數(shù)的計(jì)算開銷會(huì)很大,此時(shí)可以采用近似估計(jì)的方法。假定數(shù)據(jù)可以根據(jù)數(shù)值劃分為區(qū)間,并且知道每個(gè)區(qū)間的數(shù)據(jù)個(gè)數(shù),可以使用如下公式計(jì)算中位數(shù):10十一月2024102.數(shù)據(jù)的基本統(tǒng)計(jì)描述例:某企業(yè)50名工人加工零件的數(shù)據(jù)如表3-1所示,計(jì)算加工零件數(shù)值的中位數(shù)。10十一月2024112.數(shù)據(jù)的基本統(tǒng)計(jì)描述3.眾數(shù):眾數(shù)(Mode)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值。具有一個(gè)、兩個(gè)或三個(gè)眾數(shù)的數(shù)據(jù)集分別稱為單峰(Unimodal)、雙峰(Bimodal)和三峰(Trimodal)。一般具有兩個(gè)或以上眾數(shù)的數(shù)據(jù)集是多峰的(Multimodal)。在極端情況下,如果每個(gè)數(shù)值只出現(xiàn)一次則它沒有眾數(shù)。對(duì)于非對(duì)稱的單峰型數(shù)據(jù)集,一般有下面的經(jīng)驗(yàn)關(guān)系:10十一月2024122.數(shù)據(jù)的基本統(tǒng)計(jì)描述4.中列數(shù):中列數(shù)(Midrange)是數(shù)據(jù)集中的最大值和最小值的平均值,也可以度量數(shù)值數(shù)據(jù)的中心趨勢(shì)。利用pandas統(tǒng)計(jì)中位數(shù)、均值和眾數(shù)。10十一月2024132.數(shù)據(jù)的基本統(tǒng)計(jì)描述數(shù)據(jù)散布度量用于評(píng)估數(shù)值數(shù)據(jù)散布或發(fā)散的程度。散布度量的測(cè)定是對(duì)統(tǒng)計(jì)資料分散狀況的測(cè)定,即找出各個(gè)變量值與集中趨勢(shì)的偏離程度通過度量散布趨勢(shì)。數(shù)據(jù)散布度量包括極差、分位數(shù)、四分位數(shù)、百分位數(shù)和四分位數(shù)極差。方差和標(biāo)準(zhǔn)差也可以描述數(shù)據(jù)分布的散布。10十一月2024142.數(shù)據(jù)的基本統(tǒng)計(jì)描述極差、四分位數(shù)和四分位數(shù)極差極差(Range)又稱范圍誤差或全距,是一組觀測(cè)值的最大值與最小值之間的差距。極差是標(biāo)志值變動(dòng)的最大范圍,它是測(cè)定標(biāo)志變動(dòng)的最簡(jiǎn)單的指標(biāo)。四分位數(shù)是將一組數(shù)據(jù)由小到大(或由大到小)排序后,用3個(gè)點(diǎn)將全部數(shù)據(jù)分為4等份,與這3個(gè)點(diǎn)位置上相對(duì)應(yīng)的數(shù)值稱為四分位數(shù),分別記為Q1(第一四分位數(shù)),說明數(shù)據(jù)中有25%的數(shù)據(jù)小于或等于Q1,Q2(第二四分位數(shù),即中位數(shù))說明數(shù)據(jù)中有50%的數(shù)據(jù)小于或等于Q2、Q3(第三四分位數(shù))說明數(shù)據(jù)中有75%的數(shù)據(jù)小于或等于Q3。其中,Q3到Q1之間的距離的差的一半又稱為分半四分位差,記為(Q3-Q1)/2。第1個(gè)和第3個(gè)分位數(shù)之間的距離為四分位數(shù)極差。10十一月2024152.數(shù)據(jù)的基本統(tǒng)計(jì)描述統(tǒng)計(jì)數(shù)據(jù)的分位數(shù)等統(tǒng)計(jì)量。10十一月202416importpandasaspddf=pd.DataFrame([[1,2],[7,-4],[3,9],[3,-4]],

index=['a','b','c','d'],columns=['one','two'])display(df)df.describe()2.數(shù)據(jù)的基本統(tǒng)計(jì)描述五數(shù)概括、盒圖與離群點(diǎn)五數(shù)概括法即用下面的五個(gè)數(shù)來概括數(shù)據(jù),分別是最小值、第1四分位數(shù)(Q1)、中位數(shù)(Q2)、第3四分位數(shù)(Q3)和最大值。10十一月2024172.數(shù)據(jù)的基本統(tǒng)計(jì)描述五數(shù)概括、盒圖與離群點(diǎn)盒圖的邊界分別為第一四分位數(shù)和第三四分位數(shù)在箱體上中位數(shù)即第二四分?jǐn)?shù)處畫垂線虛線被稱為觸須線,觸須線的端點(diǎn)為最小值和最大值利用四分位數(shù)間距IQR=Q3-Q1,找到界限,超出即為異常值。IQR左=Q1-1.5×IQRIQR右=Q3+1.5×IQR10十一月2024182.數(shù)據(jù)的基本統(tǒng)計(jì)描述五數(shù)概括、盒圖與離群點(diǎn)例:如數(shù)據(jù)集的第一四分位數(shù)為42,第三四分位數(shù)為50,計(jì)算盒圖的上、下界限,并判斷數(shù)據(jù)值65是否應(yīng)該認(rèn)為是一個(gè)異常值?由于箱線圖上限為50+1.5×8=62,由于65大于上限,可以判定是異常值。10十一月2024193.數(shù)據(jù)可視化數(shù)據(jù)可視化(DataVisualization)通過圖形清晰有效地表達(dá)數(shù)據(jù)。它將數(shù)據(jù)所包含的信息的綜合體,包括屬性和變量,抽象化為一些圖表形式。數(shù)據(jù)可視化方法包括:基于像素的技術(shù)幾何投影技術(shù)基于圖符的技術(shù)和基于圖形的技術(shù)幾何投影技術(shù)幫助發(fā)現(xiàn)多維數(shù)據(jù)集的有趣投影。

難點(diǎn):在二維顯示上可視化高維空間10十一月20242021m維的數(shù)據(jù)集,創(chuàng)建m個(gè)窗口一條記錄m維的值對(duì)應(yīng)m個(gè)像素在相應(yīng)的窗口中像素顏色反映了數(shù)據(jù)值Income(b)CreditLimit(c)transactionvolume(d)age3.數(shù)據(jù)可視化3.數(shù)據(jù)可視化幾何投影可視化技術(shù)幾何投影技術(shù)可以幫助用戶發(fā)現(xiàn)多維數(shù)據(jù)集的有趣投影。幾何投影技術(shù)的難點(diǎn)在于在二維顯示上可視化高維空間。散點(diǎn)圖使用笛卡爾坐標(biāo)顯示二維數(shù)據(jù)點(diǎn)。使用不同顏色或形狀表示不同的數(shù)據(jù)點(diǎn),可以增加第三維。10十一月2024223.數(shù)據(jù)可視化基于圖符的可視化技術(shù)基于圖符的(Icon-based)可視化技術(shù)使用少量圖符表示多維數(shù)據(jù)值。有兩種流行的基于圖符的技術(shù),即切爾諾夫臉和人物線條圖。10十一月202423把多達(dá)18個(gè)變量(維)的多維數(shù)據(jù)以卡通人臉顯示把多維數(shù)據(jù)映射到5-段任務(wù)線條圖,其中每個(gè)都畫有四肢和一個(gè)軀體,兩個(gè)維被映射到x和y,其余的映射到四肢角度或長(zhǎng)度。3.數(shù)據(jù)可視化層次可視化技術(shù)對(duì)于大型高維數(shù)據(jù)集很難實(shí)現(xiàn)可視化技術(shù)。層次可視化把大型的高維數(shù)據(jù)的所有維劃分成子集(子空間),這些子空間按層次可視化。10十一月2024243.數(shù)據(jù)可視化可視化復(fù)雜對(duì)象和關(guān)系早期的可視化技術(shù)主要用于分析數(shù)值數(shù)據(jù),然而現(xiàn)在出現(xiàn)了越來越多的非數(shù)值數(shù)據(jù),比如文本和社會(huì)網(wǎng)絡(luò)數(shù)據(jù),因此可視化這些非數(shù)值數(shù)據(jù)引起了更多廣泛的關(guān)注。標(biāo)簽云是一種用戶產(chǎn)生的標(biāo)簽統(tǒng)計(jì)量的可視化。在標(biāo)簽云中,標(biāo)簽通常按字母次序或用戶指定的次序列舉。10十一月2024253.數(shù)據(jù)可視化高維數(shù)據(jù)可視化主要分為降維方法和非降維方法。1.降維方法降維方法將高維數(shù)據(jù)投影到低維空間,盡量保留高維空間中原有的特性和聚類關(guān)系。常見的降維方法有主成分分析、多維度分析(Multi-DimensionalScaling,MDS)和自組織圖(Self-OrganizationMap,SOM)等。10十一月20242611/10/20243.數(shù)據(jù)可視化常用的數(shù)據(jù)降維方法如下3.數(shù)據(jù)可視化高維數(shù)據(jù)可視化主要分為降維方法和非降維方法。2.非降維方法非降維方法保留了高維數(shù)據(jù)在每個(gè)維度上的信息,可以展示所有的維度。各種非降維方法的主要區(qū)別在于如何對(duì)不同的維度進(jìn)行數(shù)據(jù)到圖像屬性的映射。10十一月2024283.數(shù)據(jù)可視化Python可視化在Python中,使用最多的數(shù)據(jù)可視化工具是Matplotlib,除此之外還有很多其他可選的可視化工具包,主要包括以下幾類。(1)Matplotlib以及基于Matplotlib開發(fā)的工具包:Pandas中的封裝MatplotlibAPI的畫圖功能,Seaborn和networkx等;(2)基于JavaScript和d3.js開發(fā)的可視化工具,如plotly等,這類工具可以顯示動(dòng)態(tài)圖且具有一定的交互性;(3)其他提供了Python調(diào)用接口的可視化工具,如OpenGL,GraphViz等,這一類工具各有特點(diǎn)且在特定領(lǐng)域應(yīng)用廣泛。10十一月2024293.數(shù)據(jù)可視化例3-8詞云繪制例3-9使用regplot函數(shù)繪制回歸圖11/10/20244.數(shù)據(jù)對(duì)象的相似性度量現(xiàn)實(shí)中,我們需要處理的數(shù)據(jù)具有著不同的形式和特征。而對(duì)數(shù)據(jù)相似性的度量又是數(shù)據(jù)挖掘分析中非常重要的環(huán)節(jié)。數(shù)據(jù)矩陣與相異性矩陣10十一月2024314.數(shù)據(jù)對(duì)象的相似性度量標(biāo)稱屬性的相似性度量10十一月202432兩個(gè)對(duì)象i和j之間的相異性根據(jù)不匹配率進(jìn)行計(jì)算,如下式:其中,m是匹配的數(shù)目,即對(duì)象i和j狀態(tài)相同的屬性數(shù),p是對(duì)象的屬性總數(shù)。4.數(shù)據(jù)對(duì)象的相似性度量10十一月202433二元屬性的相似性度量對(duì)象i對(duì)象j

10sum1qrq+r0sts+tsumq+sr+tp對(duì)于對(duì)稱的二元屬性,兩個(gè)狀態(tài)是同等重要的。如果對(duì)象i和j都用對(duì)稱的二元屬性刻畫,則i和j的相異性定義為:4.數(shù)據(jù)對(duì)象的相似性度量10十一月202434二元屬性的相似性度量對(duì)于對(duì)稱的二元屬性,兩個(gè)狀態(tài)是同等重要的。如果對(duì)象i和j都用對(duì)稱的二元屬性刻畫,則i和j的相異性定義為:對(duì)于非對(duì)稱二元屬性,只關(guān)心“正匹配”的情況,也就是只關(guān)心兩個(gè)對(duì)象屬性中,都是1的情況,因此負(fù)匹配數(shù)t被認(rèn)為是不重要的,可以忽略,如式3.9所示。4.數(shù)據(jù)對(duì)象的相似性度量10十一月202435請(qǐng)計(jì)算:d(Zhang,Wang)=?4.數(shù)據(jù)對(duì)象的相似性度量數(shù)值屬性的相似性度量10十一月202436(1)歐氏距離(2)曼哈頓距離歐式距離(EulideanDistance)又稱直線距離。i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)表示兩個(gè)數(shù)值屬性描述的對(duì)象。對(duì)象i和j之間的歐式距離為4.數(shù)據(jù)對(duì)象的相似性度量數(shù)值屬性的相似性度量10十一月202437(3)切比雪夫距離切比雪夫距離(ChebyshevDistance)是向量空間中的一種度量4.數(shù)據(jù)對(duì)象的相似性度量數(shù)值屬性的相似性度量10十一月202438(4)閔可夫斯基距離(5)漢明距離(HammingDistance)兩個(gè)等長(zhǎng)字符串s1與s2之間的漢明距離定義為將其中一個(gè)變?yōu)榱硗庖粋€(gè)所需要做的最小替換次數(shù)。4.數(shù)據(jù)對(duì)象的相似性度量序數(shù)屬性的相似性度量序數(shù)屬性的每個(gè)屬性值都代表了一種次序,所以,無論使用數(shù)字還是文字性的敘述,都可以表示成數(shù)字的形式。10十一月202439混合類型屬性的相似性以上幾種情況都是針對(duì)數(shù)據(jù)庫中單一類型的數(shù)據(jù),但是很多時(shí)候,遇到的一組數(shù)據(jù)可能擁有多種類型的屬性,也就是混合類型屬性。4.數(shù)據(jù)對(duì)象的相似性度量余弦相似性針對(duì)文檔數(shù)據(jù)的相似度測(cè)量一般使用余弦相似性。在處理文檔的時(shí)候,一般采用文檔所擁有的關(guān)鍵詞來刻畫一個(gè)文檔的特征。10十一月2024404.數(shù)據(jù)對(duì)象的相似性度量1.用Numpy實(shí)現(xiàn)常見的距離度量11/10/2024importnumpyasnp#歐式距離(Eulideandistance)defeuclidean(x,y):returnnp.sqrt(np.sum((x-y)**2))#曼哈頓距離(Manhattandistance)defmanhattan(x,y):returnnp.sum(np.abs(x-y))#切比雪夫距離(Chebyshevdistance)defchebyshev(x,y):returnnp.max(np.abs(x-y))#閔可夫斯基距離(Minkowskidistance)def

minkowski(x,y,p):return

np.sum(np.abs(x-y)**p)**(1/p)#漢明距離(Hammingdistance)defhamming(x,y):return

np.sum(x!=y)/len(x)#余弦距離defcos_similarity(x,y):returnnp.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))4.數(shù)據(jù)對(duì)象的相似性度量2.使用scipy的pdist進(jìn)行數(shù)據(jù)對(duì)象距離的計(jì)算11/10/2024scipy.spatial.distance.pdist(X,metric='euclidean',*args,**kwargs)參數(shù)X為m個(gè)在n維空間上的觀測(cè)值。Metric為使用的距離度量,常用的取值有‘canberra’,‘chebyshev’,‘cityblock’,‘correlation’,‘cosine’,‘dice’,‘euclidean’,‘hammi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論