《大數(shù)據(jù)導(dǎo)論》課件 嚴(yán)宣輝 第5-8章 大數(shù)據(jù)分析與挖掘-大數(shù)據(jù)的行業(yè)應(yīng)用_第1頁
《大數(shù)據(jù)導(dǎo)論》課件 嚴(yán)宣輝 第5-8章 大數(shù)據(jù)分析與挖掘-大數(shù)據(jù)的行業(yè)應(yīng)用_第2頁
《大數(shù)據(jù)導(dǎo)論》課件 嚴(yán)宣輝 第5-8章 大數(shù)據(jù)分析與挖掘-大數(shù)據(jù)的行業(yè)應(yīng)用_第3頁
《大數(shù)據(jù)導(dǎo)論》課件 嚴(yán)宣輝 第5-8章 大數(shù)據(jù)分析與挖掘-大數(shù)據(jù)的行業(yè)應(yīng)用_第4頁
《大數(shù)據(jù)導(dǎo)論》課件 嚴(yán)宣輝 第5-8章 大數(shù)據(jù)分析與挖掘-大數(shù)據(jù)的行業(yè)應(yīng)用_第5頁
已閱讀5頁,還剩484頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第5章

大數(shù)據(jù)分析與挖掘本章學(xué)習(xí)目標(biāo)了解數(shù)據(jù)分析的常用方法了解數(shù)據(jù)挖掘的典型算法培養(yǎng)分析問題的辯證觀,以及探索未知、追求卓越的品質(zhì)目錄5.1引言5.2描述性數(shù)據(jù)分析5.3回歸分析5.4關(guān)聯(lián)分析的簡介5.5分類算法的簡介5.6聚類算法的簡介5.7分布式數(shù)據(jù)挖掘算法5.8數(shù)據(jù)挖掘的典型應(yīng)用5.9小結(jié)5.1引言數(shù)據(jù)分析是指用傳統(tǒng)的統(tǒng)計(jì)學(xué)方法對收集的數(shù)據(jù)進(jìn)行分析,提取有用的信息并形成結(jié)論,然后對數(shù)據(jù)加以詳細(xì)的研究和概括總結(jié)的過程。數(shù)據(jù)分析可以劃分為描述性數(shù)據(jù)分析、探索性數(shù)據(jù)分析和驗(yàn)證性數(shù)據(jù)分析。其中,描述性數(shù)據(jù)分析主要是對數(shù)據(jù)做統(tǒng)計(jì)性描述,包括數(shù)據(jù)的頻數(shù)分析、集中趨勢分析、離散趨勢分析等;探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)中發(fā)現(xiàn)新的特征;而驗(yàn)證性數(shù)據(jù)分析則側(cè)重于對已有假設(shè)的證實(shí)或證偽。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中提取隱含的、先前未知的、有價值的知識和規(guī)律的過程。數(shù)據(jù)挖掘是深層次的數(shù)據(jù)分析,數(shù)據(jù)分析是淺層次的數(shù)據(jù)挖掘,數(shù)據(jù)挖掘更偏重于探索性數(shù)據(jù)分析,因?yàn)閿?shù)據(jù)挖掘的重點(diǎn)是從數(shù)據(jù)中發(fā)現(xiàn)知識和規(guī)律。5.1引言數(shù)據(jù)分析與數(shù)據(jù)挖掘的具體區(qū)別如下。(1)數(shù)據(jù)分析主要側(cè)重于通過觀察數(shù)據(jù)來對歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析;而數(shù)據(jù)挖掘通過從數(shù)據(jù)中發(fā)現(xiàn)知識和規(guī)律來對未來的某些可能性做出預(yù)測分析,其更注重分析數(shù)據(jù)間的內(nèi)在聯(lián)系。(2)數(shù)據(jù)分析往往從一個假設(shè)出發(fā),需要自行建立方程或模型來檢驗(yàn)是否與假設(shè)吻合;而數(shù)據(jù)挖掘一般不需要假設(shè),可以自動建立和訓(xùn)練模型,如關(guān)聯(lián)規(guī)則和聚類分析。(3)數(shù)據(jù)分析往往處理常規(guī)的數(shù)據(jù)類型,如數(shù)值型或標(biāo)稱型數(shù)據(jù);而數(shù)據(jù)挖掘能夠處理更多類型的數(shù)據(jù),如圖像、視頻、聲音、文本等多媒體數(shù)據(jù)。5.1引言圖5-1KDD過程示意圖從大量數(shù)據(jù)中提取對人們有用的信息是一個知識挖掘的過程,因此數(shù)據(jù)挖掘也被稱為“基于數(shù)據(jù)庫的知識發(fā)現(xiàn)”(KnowledgeDiscoveryinDatabase,KDD),是指從數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的過程。圖5-1所示為KDD的過程示意圖,整個KDD的過程可以被分為數(shù)據(jù)清洗與集成、數(shù)據(jù)選擇與轉(zhuǎn)換、數(shù)據(jù)分析與挖掘、模式評估與知識表示4個階段。5.2描述性數(shù)據(jù)分析所謂描述性數(shù)據(jù)分析是指用統(tǒng)計(jì)學(xué)方法,描述數(shù)據(jù)的統(tǒng)計(jì)特征量,分析數(shù)據(jù)的分布特性。主要包括數(shù)據(jù)的集中趨勢分析(CentralTendency)、數(shù)據(jù)離散趨勢分析(DispersionTendency)、數(shù)據(jù)的頻率分布(FrequencyDistribution)等。5.2描述性數(shù)據(jù)分析5.2.1數(shù)據(jù)的集中趨勢度量1.均值截?cái)嗑担喝サ糇罡咧岛妥畹椭岛笥?jì)算的均值,可以抵消少數(shù)極端值的影響,如薪水的截?cái)嗑悼梢韵呤杖霕O端值對平均薪資的影響。5.2描述性數(shù)據(jù)分析2.中位數(shù)中位數(shù)指的是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù),它是奇數(shù)個數(shù)據(jù)的中間值,或是偶數(shù)個數(shù)據(jù)的中間兩個值的平均值?!景咐?-1】求20個數(shù)57,55,85,24,33,49,94,2,8,51,71,30,91,6,47,50,65,43,41,7的中位數(shù)。首先對數(shù)據(jù)從小到大排序,結(jié)果為:2,6,7,8,24,30,33,41,43,47,49,50,51,55,57,65,71,85,91,94。中間兩個數(shù)為47和49,因此該組數(shù)據(jù)的中位數(shù)為48。相較于均值,中位數(shù)有著更好的抗干擾性,例如,在99個年收入10萬的人中加入一個年收入1000萬的人,可以把平均年收入提高到19.9萬,但這一均值實(shí)際上并沒有很好地反映出這個人群的年收入特征,而中位數(shù)對這個問題并沒有那么敏感。5.2描述性數(shù)據(jù)分析3.眾數(shù)眾數(shù)是指在一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù),即出現(xiàn)頻率最高的那個數(shù),眾數(shù)也被稱作數(shù)據(jù)的“?!?。圖5-2所示為對稱數(shù)據(jù)、右偏數(shù)據(jù)和左偏數(shù)據(jù)的中位數(shù)、均值和眾數(shù)的位置示意圖,可以觀察到以下現(xiàn)象:①對稱數(shù)據(jù)的中位數(shù)、均值和眾數(shù)是重合的;②右偏態(tài)(正偏態(tài))數(shù)據(jù)的均值位于中位數(shù)和眾數(shù)的右側(cè);③左偏態(tài)(負(fù)偏態(tài))數(shù)據(jù)的均值位于中位數(shù)和眾數(shù)的左側(cè)。5.2描述性數(shù)據(jù)分析3.眾數(shù)圖5-2對稱數(shù)據(jù)、右偏數(shù)據(jù)和左偏數(shù)據(jù)的中位數(shù)、均值和眾數(shù)的位置示意圖。提示:所謂左偏態(tài)和右偏態(tài)指的是均值相對于眾數(shù)的位置,均值在眾數(shù)左邊則為左偏態(tài),在眾數(shù)右邊則為右偏態(tài)。5.2描述性數(shù)據(jù)分析5.2.2數(shù)據(jù)的離散趨勢度量1.方差在統(tǒng)計(jì)描述中,方差用來計(jì)算每一個變量(觀察值)與平均值之間的差異,它是集合中每個數(shù)據(jù)與均值差的平方和。總體方差的計(jì)算公式為在實(shí)際計(jì)算中,總體均值難以得到時,應(yīng)用樣本統(tǒng)計(jì)量代替總體均值,經(jīng)校正后,樣本方差的計(jì)算公式為方差的值越大說明該數(shù)據(jù)集的波動越大。當(dāng)數(shù)據(jù)分布比較分散時,各個數(shù)據(jù)與平均值之差的平方和較大,方差就較大;當(dāng)數(shù)據(jù)分布比較集中時,各個數(shù)據(jù)與平均值之差的平方和較小,方差就較小。5.2描述性數(shù)據(jù)分析2.四分位數(shù)四分位數(shù)也稱四分位點(diǎn),將所有數(shù)值按大小順序排列并分成四等份,處于三個分割點(diǎn)位置的就是四分位數(shù),如圖5-3所示。(1)第一四分位數(shù)(Q1),又稱下四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。(2)第二四分位數(shù)(Q2),又稱中位數(shù),等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。(3)第三四分位數(shù)(Q3),又稱上四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。(4)四分位距(InterQuartileRange,IQR):第三四分位數(shù)與第一四分位數(shù)之差。圖5-3四分位數(shù)的示意圖5.2描述性數(shù)據(jù)分析2.四分位數(shù)例如,有一組數(shù)據(jù):6,7,15,36,39,40,41,42,43,47,49,將其分為四等份,根據(jù)四分位數(shù)的定義可知15是第一四分位數(shù),40是第二四分位數(shù),43是第三四分位數(shù)。5.2描述性數(shù)據(jù)分析3.五數(shù)概括數(shù)據(jù)分布形狀的完整概括可以用“五數(shù)概括”來描述,包括中位數(shù)、第二四分位數(shù)和第三四分位數(shù)、最小值和最大值。五數(shù)概括通常用箱形圖(盒圖)進(jìn)行可視化表示。箱形圖又稱盒圖,其將五數(shù)概括可視化,數(shù)據(jù)分布用一個盒子來表示,如圖5-4所示。圖5-4箱形圖示例5.2描述性數(shù)據(jù)分析3.五數(shù)概括在箱形圖中,盒子兩端是第一四分位數(shù)和第三“四分位數(shù)”,“中位數(shù)”在盒子里用一條線標(biāo)記出來,“外邊界”是盒子外面延伸到最大值和最小值的兩條線,也稱為“胡須”。例如,圖5-5所示為學(xué)生成績分布的箱形圖示例,可以從圖中觀察到學(xué)生的英語成績相對其他科目普遍較好,而數(shù)學(xué)成績則大多位于80分以下,成績集中在65~78之間。圖5-5學(xué)生成績分布的箱形圖示例5.2描述性數(shù)據(jù)分析4.離散系數(shù)離散系數(shù)又稱變異系數(shù),樣本的離散系數(shù)是樣本的標(biāo)準(zhǔn)差與樣本的平均值之比:

。在公式中,表示標(biāo)準(zhǔn)差。5.2描述性數(shù)據(jù)分析4.離散系數(shù)【案例5-2】表5-1中有兩組分別代表成人和幼兒身高的數(shù)據(jù),用離散系數(shù)比較這兩組數(shù)據(jù)的分布特性。表5-1成人與幼兒的數(shù)據(jù)兩組數(shù)據(jù)平均值相差很大,標(biāo)準(zhǔn)差不能判斷各自數(shù)據(jù)差異的大小。但通過計(jì)算離散系數(shù)可以看出,雖然成人組的標(biāo)準(zhǔn)差大于幼兒組,但是幼兒組的離散系數(shù)明顯大于成人組,因此可以說明,幼兒組的身高差異比成人組大。組別數(shù)據(jù)/cm均值標(biāo)準(zhǔn)差離散系數(shù)成人166,167,169,169,169,170,170,171,171,171,171,172,173,173,173,175,175,176,177,179171.853.330.0194幼兒67,68,69,70,70,71,71,71,72,72,72,72,72,72,73,74,75,76,76,77722.640.03675.2描述性數(shù)據(jù)分析5.2.3數(shù)據(jù)的偏態(tài)特性度量1.偏度偏度是描述分布偏離對稱程度的特征數(shù),也稱為偏態(tài)系數(shù),是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計(jì)數(shù)據(jù)分布非對稱程度的數(shù)字特征。5.2描述性數(shù)據(jù)分析1.偏度圖5-6所示為是偏度分別等于0、大于0和小于0的三類數(shù)據(jù)分布特性示意圖。圖5-6偏度與數(shù)據(jù)分布特性示意圖偏度大于0為正偏態(tài)(也稱右偏態(tài))分布,這種情況的數(shù)據(jù)平均值大于中位數(shù)(平均值在中位數(shù)右邊),中位數(shù)又大于眾數(shù)。曲線的形態(tài)是右側(cè)偏長、左側(cè)偏短。偏度小于0為負(fù)偏態(tài)(也稱左偏態(tài))分布,這種情況的數(shù)據(jù)平均值小于中位數(shù)(平均值在中位數(shù)左邊),中位數(shù)又小于眾數(shù)。曲線的形態(tài)是左側(cè)偏長、右側(cè)偏短。5.2描述性數(shù)據(jù)分析2.峰度峰度系數(shù)是用來反映頻數(shù)分布曲線頂端尖峭或扁平程度的指標(biāo)。通過對峰度系數(shù)的測量,我們能夠判定數(shù)據(jù)分布相對于正態(tài)分布是更陡峭還是平緩。5.2描述性數(shù)據(jù)分析2.峰度圖5-7所示為不同峰度的數(shù)據(jù)曲線的形狀示意圖。圖5-7不同峰度的數(shù)據(jù)曲線的形狀示意圖5.2描述性數(shù)據(jù)分析5.2.4使用Excel軟件對數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)使用Excel軟件可以很方便地對數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì),在使用該功能前,需要先在“加載項(xiàng)”對話框中勾選“分析工具庫”復(fù)選框,然后單擊“數(shù)據(jù)”菜單中的“數(shù)據(jù)分析”按鈕,在打開的“數(shù)據(jù)分析”對話框中選擇“描述統(tǒng)計(jì)”選項(xiàng),完成后即可實(shí)現(xiàn)該功能。在Excel中對數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)的示意圖如圖5-8所示。圖5-8在Excel中對數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)的示意圖5.3回歸分析所謂回歸分析,是在現(xiàn)有觀察數(shù)據(jù)的基礎(chǔ)上,利用數(shù)理統(tǒng)計(jì)方法建立因變量與自變量之間的回歸關(guān)系函數(shù)表達(dá)式(回歸方程)。這種技術(shù)通常用于預(yù)測分析、時間序列模型以及探索變量之間的因果關(guān)系?!盎貧w”一詞是由英國著名統(tǒng)計(jì)學(xué)家弗朗西斯高爾頓(FrancisGalton,1822—1911年)引入的,他是最先應(yīng)用統(tǒng)計(jì)方法研究兩個變量之間關(guān)系問題的人。弗朗西斯高爾頓對父母身高與兒女身高之間的關(guān)系很感興趣,并致力于該方面的研究。弗朗西斯高爾頓發(fā)現(xiàn),雖然有一個趨勢:父母高,兒女也高;父母矮,兒女也矮,但從平均意義上講,盡管父母雙親都異常高或異常矮,兒女的身高也并非普遍地異常高或異常矮,而是具有“回歸”于人口總平均身高的趨勢。5.3回歸分析在回歸分析中,當(dāng)研究的因果關(guān)系只涉及因變量和一個自變量時,叫作一元回歸分析;當(dāng)研究的因果關(guān)系涉及因變量和兩個或兩個以上的自變量時,叫作多元回歸分析。此外,在回歸分析中,又依據(jù)描述自變量與因變量之間關(guān)系的函數(shù)表達(dá)式是線性的還是非線性的,將回歸分析分為線性回歸分析和非線性回歸分析。5.3回歸分析5.3.1一元線性回歸模型回歸模型是用來描述因變量如何依賴自變量和隨機(jī)誤差項(xiàng)的方程,線性回歸通過使用最佳的擬合直線(也就是回歸線)來建立因變量和一個或多個自變量之間的聯(lián)系。5-9所示為一元線性回歸示意圖。在圖中,小圓點(diǎn)表示原始數(shù)據(jù),直線表示回歸線。圖5-9一元線性回歸示意圖5.3回歸分析5.3.1一元線性回歸模型5.3回歸分析5.3.1一元線性回歸模型最小二乘估計(jì)是求解線性回歸方程的最常用方法,最小二乘法的原理就是所選的樣本回歸函數(shù)使得所有y的估計(jì)值與真實(shí)值差的平方和最小?!景咐?-3】用Excel軟件進(jìn)行某家公司廣告費(fèi)與銷售額的一元線性回歸分析。某家公司每月的廣告費(fèi)和銷售額如表5-2所示。表5-2某家公司每月的廣告費(fèi)和銷售額廣告費(fèi)/萬元489871261069銷售額/萬元92022151723182510205.3回歸分析5.3.1一元線性回歸模型如果我們把廣告費(fèi)和銷售額畫在二維坐標(biāo)系內(nèi),就能夠得到一個散點(diǎn)圖,如果想探索廣告費(fèi)和銷售額的關(guān)系,可以利用一元線性回歸做出一條回歸線方程,結(jié)果(取小數(shù)點(diǎn)后4位)為

y=2.2516+1.9808x該例子中的樣本數(shù)據(jù)點(diǎn)與回歸線如圖5-10所示。圖5-10樣本數(shù)據(jù)點(diǎn)與回歸線5.3回歸分析5.3.1一元線性回歸模型我們用Excel軟件對該例子進(jìn)行回歸分析。首先在Excel表中輸入X和Y兩列數(shù)據(jù)(見圖5-11);接著在“數(shù)據(jù)”菜單中單擊“數(shù)據(jù)分析”按鈕,在打開的“數(shù)據(jù)分析”對話框中選擇“回歸”選項(xiàng),最后單擊“確定”按鈕,出現(xiàn)如圖5-12所示的對話框。5.3回歸分析5.3.1一元線性回歸模型圖5-11用Excel進(jìn)行回歸分析示意圖5.3回歸分析5.3.1一元線性回歸模型在“回歸”對話框中選中“Y值輸入?yún)^(qū)域”和“X值輸入?yún)^(qū)域”數(shù)值框,在“輸出選項(xiàng)”街區(qū)中單擊“新工作表組”單選按鈕,在“殘差”選區(qū)中勾選“線性擬合圖”復(fù)選框,單擊“確定”按鈕,則會在新工作表中出現(xiàn)計(jì)算結(jié)果,如圖5-12所示。其中Coefficients的兩個值2.25159915和1.98081023就是線性回歸方程的兩個系數(shù)(截距和斜率)。圖5-12回歸對話框5.3回歸分析5.3.1一元線性回歸模型圖5-13回歸分析結(jié)果5.3回歸分析5.3.1一元線性回歸模型表5-3回歸分析結(jié)果中部分參數(shù)的說明注:為了與圖5-13所示的回歸分析結(jié)果一致,表格中的變量均用正體字母表示。參數(shù)含義MultipleR表示自變量X和因變量Y的相關(guān)系數(shù),一般在-1~1之間,絕對值越靠近1則相關(guān)性越強(qiáng),越靠近0則相關(guān)性越弱RSquare(R2)是擬合優(yōu)度(GoodnessofFit)的統(tǒng)計(jì)量,擬合優(yōu)度是指回歸線對觀測值的擬合程度。R2的最大值為1。R2的值越接近1,說明回歸直線對觀測值的擬合程度越好;反之,R2的值越小,說明回歸直線對觀測值的擬合程度越差FF值越大,越能說明總體回歸關(guān)系越強(qiáng)SignificanceF顯著性指標(biāo),一般以小于0.05為顯著,小于0.01為非常顯著df自由度的個數(shù)SS離均差平方和MS方差tStatT檢驗(yàn),主要用于樣本含量較?。ㄈ鏽<30)且總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布5.3回歸分析5.3.2其他類型的回歸模型1.多元線性回歸模型在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸分析,多元線性回歸模型可以表示為對于多元線性回歸模型,同樣可以用最小二乘法估計(jì)回歸方程的參數(shù),具體過程不再贅述。5.3回歸分析5.3.2其他類型的回歸模型【案例5-4】用Excel軟件進(jìn)行多元線性回歸分析。表5-4所示為我國某個城市的用電量指標(biāo)統(tǒng)計(jì)表,將“年用電量”作為因變量Y,將“GDP”和“全社會投資額”作為自變量X,進(jìn)行多元線性回歸分析。。表5-4某個城市的用電量指標(biāo)統(tǒng)計(jì)表5.3回歸分析5.3.2其他類型的回歸模型用Excel軟件中的回歸分析工具,得到如圖5-14所示的結(jié)果。該例子的多元線性回歸方程為 年用電量=28925.98+0.046188×GDP+0.118491×全社會投資額從結(jié)果可以看到兩個自變量都通過了T-檢驗(yàn),SignificanceF的值為2.94929E-12,效果非常好。如果回歸模型的因變量是自變量的一次以上函數(shù)形式,回歸規(guī)律在圖形上表現(xiàn)為形態(tài)各異的各種曲線(見圖5-15),那么將其稱為非線性回歸。圖5-15非線性回歸的示意圖5.3回歸分析2.非線性回歸模型5.3回歸分析2.非線性回歸模型求解非線性回歸問題需要預(yù)先選擇適配的曲線類型,基本方法如下:(1)確定變量間的依存關(guān)系,根據(jù)實(shí)際資料做散點(diǎn)圖。(2)按照圖形的分布形狀選擇合適的非線性回歸模型(回歸函數(shù)的類型),常見的函數(shù)有多項(xiàng)式回歸、雙曲線函數(shù)、冪函數(shù)、二次函數(shù)和對數(shù)函數(shù)等。(3)用某種優(yōu)化方法確定回歸模型中的未知參數(shù)。5.4關(guān)聯(lián)分析的簡介關(guān)聯(lián)分析也稱為關(guān)聯(lián)規(guī)則挖掘(AssociationRulesMining),是指在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,發(fā)現(xiàn)對象之間隱含關(guān)系與規(guī)律的過程。關(guān)聯(lián)分析的一個典型例子是購物籃分析。商家通過對顧客購物行為的分析,可以發(fā)現(xiàn)顧客放入其購物籃中不同商品之間的聯(lián)系,以此分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時購買,挖掘商品之間的聯(lián)系,這種聯(lián)系的發(fā)現(xiàn)可以幫助零售商制定營銷策略。5.4關(guān)聯(lián)分析的簡介5.4.1“啤酒與尿布”的故事“啤酒與尿布”之間的聯(lián)系是關(guān)聯(lián)分析中的經(jīng)典案例,被人津津樂道。這個故事發(fā)生于20世紀(jì)90年代的美國沃爾瑪超市中,超市管理人員分析銷售數(shù)據(jù)時發(fā)現(xiàn)在某些特定的情況下,“啤酒”與“尿布”看上去毫無關(guān)系的兩件商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨(dú)特的現(xiàn)象引起了管理人員的注意。經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象時常出現(xiàn)在年輕的父親身上。在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親負(fù)責(zé)去超市購買尿布。父親在購買尿布時,往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃中的現(xiàn)象。5.4關(guān)聯(lián)分析的簡介5.4.1“啤酒與尿布”的故事沃爾瑪超市發(fā)現(xiàn)了這一獨(dú)特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以很容易地同時找到這兩件商品,沒想到這個舉措居然使啤酒和尿布的銷量都大幅增加了。在這個故事中,通過分析購物籃中的商品集合數(shù)據(jù),找出商品之間的聯(lián)系,發(fā)現(xiàn)客戶的購買模式,采取相應(yīng)舉措,從而獲得更多的商品銷售收入。5.4關(guān)聯(lián)分析的簡介5.4.2常用的關(guān)聯(lián)分析算法簡介常用的關(guān)聯(lián)分析算法包含Apriori算法、FP-Growth算法、灰色關(guān)聯(lián)分析法和Eclat算法等,表5-5所示為幾種常用的關(guān)聯(lián)分析算法。表5-5幾種常用的關(guān)聯(lián)分析算法算法名稱算法描述Apriori算法關(guān)聯(lián)分析經(jīng)典的算法,它可以用來找出數(shù)據(jù)集中頻繁出現(xiàn)的項(xiàng)集FP-Growth算法FP-Growth算法是一種對Apriori算法改進(jìn)的算法,它將提供頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到高效的數(shù)據(jù)結(jié)構(gòu)頻繁模式樹(FP-tree)上,減少候選頻繁項(xiàng)集的數(shù)量Eclat算法一種深度優(yōu)先算法,采用垂直數(shù)據(jù)表示形式,在概念格理論的基礎(chǔ)上利用基于前綴的等價關(guān)系將搜索空間劃分為較小的子空間灰色關(guān)聯(lián)分析法分析和確定各個因素之間的影響程度,或是基于若干個子因素(子序列)對主因素(母序列)的貢獻(xiàn)度而進(jìn)行的一種分析方法5.4關(guān)聯(lián)分析的簡介5.4.2常用的關(guān)聯(lián)分析算法簡介接下來用一個實(shí)例來介紹Apriori算法的基本原理。表5-6所示為去一家超市購物的幾名客戶購買的商品列表,表中的一條記錄被稱為“交易”,每個物品被稱為“項(xiàng)”。5-6客戶購買的商品列表訂單編號購買的商品T1牛奶、面包、尿布T2面包、尿布、啤酒、可樂T3牛奶、尿布、啤酒、雞蛋T4牛奶、面包、尿布、啤酒T5牛奶、面包、尿布、可樂5.4關(guān)聯(lián)分析的簡介1.Apriori算法的幾個術(shù)語首先結(jié)合表5-6中的數(shù)據(jù)介紹在Apriori算法中用到的幾個術(shù)語。1)支持度支持度指的是某個商品組合出現(xiàn)的次數(shù)與總次數(shù)之間的比例。在表5-6的5筆訂單中,“牛奶”出現(xiàn)了4次,那么在這5筆訂單中“牛奶”的支持度就是4/5;“牛奶+面包”出現(xiàn)了3次,那么“牛奶+面包”的支持度為3/5,可以表示為support({牛奶,面包})=3/55.4關(guān)聯(lián)分析的簡介2)置信度(confidence)置信度是指購買了商品A,會有多大的概率購買商品B。置信度是一個條件概率,就是在A發(fā)生的情況下,B發(fā)生的概率是多少。根據(jù)表5-6的數(shù)據(jù),可以觀察到:置信度(牛奶→啤酒)=2/4;置信度(啤酒→牛奶)=2/3,可以表示為

confidence(啤酒→牛奶)=2/35.4關(guān)聯(lián)分析的簡介3)提升度提升度表示的是A的出現(xiàn),對B出現(xiàn)的概率提升的程度。

lift(A→B)=confidence(A→B)/support(B)這個公式是用來衡量在A出現(xiàn)的情況下,是否會對B出現(xiàn)的概率有所提升。所以提升度有如下3種可能。(1)提升度

(A→B)>1:代表有提升。(2)提升度

(A→B)=1:代表沒有提升,也沒有下降。(3)提升度

(A→B)<1:代表有下降。5.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程首先我們把上面案例中的商品用ID來代表,將牛奶、面包、尿布、可樂、啤酒、雞蛋的ID分別設(shè)置為1~6,表5-6就變?yōu)楸?-7所示的形式。表5-7物品編號的客戶購買的商品列表訂單編號購買的商品T11、2、3T22、3、5、4T31、3、5、6T41、2、3、5T51、2、3、45.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程Apriori算法其實(shí)就是查找頻繁項(xiàng)集的過程,所以首先需要定義什么是頻繁項(xiàng)集。頻繁項(xiàng)集就是支持度大于或等于最小支持度閾值的項(xiàng)集,項(xiàng)集可以是單個的商品,也可以是商品的組合。小于最小支持度的項(xiàng)集就是非頻繁項(xiàng)集。在這個例子中,假設(shè)指定的最小支持度是0.5,接下來看Apriori算法是如何運(yùn)算的。首先計(jì)算單個商品的支持度,也就是得到k=1項(xiàng)的支持度(注:k=1表示項(xiàng)集的事件只包含1個元素),如表5-8所示。表5-8k=1項(xiàng)的支持度商品項(xiàng)集支持度14/524/535/542/553/561/55.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程因?yàn)樽钚≈С侄仁?.5,所以商品4、6不屬于頻繁項(xiàng)集,于是經(jīng)過篩選后的頻繁項(xiàng)集如表5-9所示。在這個基礎(chǔ)上,我們將表5-9中所列的商品(1、2、3和5)兩兩組合,得到k=2項(xiàng)的支持度,如表5-10所示。商品項(xiàng)集支持度14/524/535/553/5表5-9

大于最小支持度的k=1項(xiàng)(頻繁項(xiàng)集)5.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程表5-10k=2項(xiàng)的支持度商品項(xiàng)集支持度1,23/51,34/51,52/52,34/52,52/53,53/55.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程我們再篩掉小于最小值支持度0.5的商品組合,可以得到如表5-11所示的結(jié)果。表5-11大于最小支持度的k=2項(xiàng)商品項(xiàng)集支持度1,23/51,34/52,34/53,53/55.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程我們再將商品進(jìn)行K=3項(xiàng)的組合,可以得到如表5-12所示的結(jié)果。表5-12

k=3項(xiàng)的支持度商品項(xiàng)集支持度1,2,33/51,3,52/52,3,52/51,2,51/55.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程我們再篩掉小于最小值支持度0.5的商品組合,可以得到如表5-13所示的結(jié)果。表5-13頻繁項(xiàng)集的最終結(jié)果商品項(xiàng)集支持度1,2,33/5通過上面這個過程,我們最終可以得到K=3項(xiàng)的頻繁項(xiàng)集{1,2,3},也就是{牛奶、面包、尿布}的組合。5.4關(guān)聯(lián)分析的簡介3.Apriori算法的流程Apriori算法的流程如下。(1)K=1,計(jì)算K項(xiàng)集的支持度。(2)篩選掉小于最小支持度的項(xiàng)集。(3)如果項(xiàng)集為空,則對應(yīng)K-1項(xiàng)集的結(jié)果為最終結(jié)果。(4)否則K=K+1,重復(fù)1-3步。5.4關(guān)聯(lián)分析的簡介3.Apriori算法的缺點(diǎn)Apriori算法的缺點(diǎn)如下。(1)采用排列組合的方式,把所有可能的項(xiàng)集都組合出來了,可能產(chǎn)生大量的候選集。(2)每次計(jì)算都需要重新掃描數(shù)據(jù)集,來計(jì)算每個項(xiàng)集的支持度。如果這是一個大型的數(shù)據(jù)集,這種掃描會大大增加系統(tǒng)的開銷。為了改進(jìn)Apriori算法的不足,韓嘉煒等人于2000年提出FP-Growth算法,它將提供頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到高效的數(shù)據(jù)結(jié)構(gòu)FP-tree上,減少候選頻繁項(xiàng)集的數(shù)量。5.5分類算法的簡介分類算法的目標(biāo)是找到每個樣本到類別的對應(yīng)法則,前提是訓(xùn)練數(shù)據(jù)的類別是已存在的,即是有標(biāo)簽的數(shù)據(jù),屬于有監(jiān)督學(xué)習(xí)類型。其典型的應(yīng)用有信貸審批、故障診斷、欺詐檢測、客戶類型判別等。分類算法的流程分為兩大步驟(見圖5-16)。(1)模型構(gòu)建:用有標(biāo)簽的數(shù)據(jù)構(gòu)建分類模型。(2)預(yù)測:預(yù)測無標(biāo)簽數(shù)據(jù)的類別。圖5-16分類算法的流程示意圖5.5分類算法的簡介

主要的分類算法有:k最近鄰(K-NearestNeighbor,KNN)算法、決策樹(DecisionTree)算法、貝葉斯分類(BayesianClassification)算法、支持向量機(jī)(SupportVectorMachine,SVM)算法、人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)算法和邏輯回歸(LogisticRegression,LR)算法等。5.5分類算法的簡介5.5.1近鄰分類算法近鄰分類算法,或稱為KNN算法,它是數(shù)據(jù)挖掘分類技術(shù)中最經(jīng)典的算法之一。該算法由于簡單有效,已經(jīng)被廣泛應(yīng)用于眾多領(lǐng)域,并派生出了各種改進(jìn)版本,例如基于距離權(quán)重的KNN算法、基于特征權(quán)重的KNN算法和基于代表點(diǎn)的KNN算法(如KNNModel算法)等。5.5分類算法的簡介1.KNN算法的核心思想對于一個需要預(yù)測的輸入向量x,我們只需要在訓(xùn)練數(shù)據(jù)集中尋找k個與x最近的向量集合,然后把x的類別預(yù)測為這k個樣本中類別數(shù)最多的那一類。KNN算法的流程如下。步驟1:讀取數(shù)據(jù)集,并對數(shù)據(jù)進(jìn)行預(yù)處理。步驟2:設(shè)定參數(shù),如近鄰個數(shù)k。步驟3:對于每個要預(yù)測的測試樣本x,從訓(xùn)練數(shù)據(jù)集中找出最近的k個樣本,構(gòu)成x的近鄰集合NN。步驟4:確定NN中樣本的多數(shù)類別,并將其作為測試樣本x的類別。步驟5:測試完畢后計(jì)算評價指標(biāo),繼續(xù)設(shè)定不同的k值重新進(jìn)行訓(xùn)練,最后取評價指標(biāo)最優(yōu)的k值。5.5分類算法的簡介2.k值的設(shè)定k值的設(shè)定在KNN算法中十分關(guān)鍵。k取值過大易產(chǎn)生欠擬合效果,取值過小易產(chǎn)生過擬合效果。例如,在圖5-17中,圓要被決定賦予哪個類,是三角形還是正方形?如果k=3,由于三角形所占的比例為2/3,圓將被賦予三角形那個類,如果k=5,由于正方形的比例為3/5,因此圓將被賦予正方形那么類。圖5-17k值對近鄰分類結(jié)果的影響5.5分類算法的簡介5.k值的設(shè)定為了確定合適的k值,可以通過交叉驗(yàn)證法,從選取一個較小的k值開始,不斷增加k的值,然后計(jì)算驗(yàn)證集合的方差,最終找到一個比較合適的k值。如圖5-18所示,該圖為k值(K-Value)與分類錯誤率(Errorrate)的關(guān)系圖,圖中的曲線表示驗(yàn)證錯誤(Validationerror)曲線,從中可以看出,選擇k=10,可以讓分類效果更好。圖5-18用交叉驗(yàn)證法選擇k值的示意圖5.5分類算法的簡介5.5.2決策樹算法決策樹算法通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,對未知的數(shù)據(jù)進(jìn)行分類。決策樹的每個內(nèi)部節(jié)點(diǎn)代表在一個特征上的測試,每個分枝代表該測試的一個輸出,而每個樹葉結(jié)點(diǎn)存放著一個類標(biāo)號。對于一個決策樹算法,最關(guān)鍵的是節(jié)點(diǎn)的分枝策略(將節(jié)點(diǎn)劃分為子節(jié)點(diǎn)的策略),其中包含兩個要點(diǎn)。(1)如何選擇最優(yōu)劃分特征。(2)如何在最優(yōu)劃分特征上確定分裂點(diǎn)。節(jié)點(diǎn)的最優(yōu)特征選擇策略,在于選取對訓(xùn)練數(shù)據(jù)具有最強(qiáng)分類能力的特征,目的是使決策樹的分枝節(jié)點(diǎn)所包含的樣本盡可能屬于同一類別,即節(jié)點(diǎn)的“純度”越來越高。5.5分類算法的簡介5.5.2決策樹算法常見的ID3算法基于信息增益作為最優(yōu)分裂屬性選擇的度量,C4.5算法基于信息增益比作為最優(yōu)分裂屬性選擇的度量,CART算法基于基尼指數(shù)作為最優(yōu)分裂屬性選擇的度量。例如,有如表5-14所示的西瓜數(shù)據(jù)集,用ID3算法構(gòu)建的一個判斷西瓜好壞的決策樹如圖5-19所示。表5-14西瓜數(shù)據(jù)集5.5分類算法的簡介5.5.2決策樹算法圖5-19用ID3算法構(gòu)建的一個判斷西瓜好壞的決策樹5.6聚類算法的簡介聚類的目的是把大型數(shù)據(jù)劃分成不同的簇,它所針對的是無標(biāo)簽類別的數(shù)據(jù),因此聚類屬于無監(jiān)督學(xué)習(xí)類型。所謂“簇”,是指數(shù)據(jù)對象的集合,同一簇中的對象之間彼此相似,不同簇之間的對象相異。圖5-20所示為聚類算法的示意圖。圖5-20聚類算法的示意圖6聚類算法的簡介聚類算法有非常廣泛的應(yīng)用場景,其應(yīng)用示意圖如圖5-21所示。(1)客戶細(xì)分:發(fā)現(xiàn)顧客中獨(dú)特的群組,然后利用他們的特性發(fā)展目標(biāo)營銷項(xiàng)目。(2)土地利用:在土地觀測數(shù)據(jù)庫中發(fā)現(xiàn)相似的區(qū)域。(3)保險(xiǎn):識別平均索賠額度較高的機(jī)動車輛保險(xiǎn)客戶群組。(4)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn):運(yùn)用聚類算法發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)。5.6聚類算法的簡介(a)客戶細(xì)分

(b)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)圖5-21聚類算法的應(yīng)用示意圖5.6聚類算法的簡介5.6.1主要的聚類算法類型目前主要的聚類算法可以分為四大類型。1.劃分聚類算法2.層次聚類算法3.基于密度的聚類算法4.基于網(wǎng)格的聚類算法5.6聚類算法的簡介1.劃分聚類算法給定一個有n個對象的數(shù)據(jù)集,劃分聚類算法將構(gòu)造數(shù)據(jù)劃分成k個(k≤n)。每一個劃分就代表一個簇,并要求每一個簇至少包含一個對象,每一個對象屬于且僅屬于一個簇。代表算法:k均值聚類算法、k-medoids聚類算法和CLARANS算法等。5.6聚類算法的簡介2.層次聚類算法層次聚類是將所有的樣本自底向上合并成一棵“樹”,或自頂向下分裂成一棵“樹”的過程,這兩類過程分別被稱為“凝聚的層次聚類”和“分裂的層次聚類”。凝聚的層次聚類:采用自底向上的策略,它首先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到某個終結(jié)條件被滿足。分裂的層次聚類:采用自頂向下的策略,它首先將所有對象置于一個簇中,然后逐漸細(xì)分為越來越小的簇,直到某個終結(jié)條件被滿足。代表算法:BRICH算法、CURE算法和ROCK等算法。5.6聚類算法的簡介3.基于密度的聚類算法基于密度的聚類算法的指導(dǎo)思想是,只要一個區(qū)域中的點(diǎn)的密度大于某個域值,就把它加到與之相近的聚類中去。這類算法能克服基于距離的聚類算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點(diǎn),它可發(fā)現(xiàn)任意形狀的聚類,且對噪聲數(shù)據(jù)不敏感。代表算法:DBSCAN算法、OPTICS算法和DENCLUE等算法。5.6聚類算法的簡介4.基于網(wǎng)格的聚類算法該算法使用多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu),它將對象的空間量化為有限數(shù)目的單元,這些單元形成了網(wǎng)格結(jié)構(gòu),所有的聚類操作都在該結(jié)構(gòu)上進(jìn)行。代表算法:CLIQUE算法、STING等算法。5.6聚類算法的簡介單擊此處添加文本具體內(nèi)容,簡明扼要的闡述您的觀點(diǎn)。圖5-22所示為目前常見的聚類算法和典型的代表算法的歸類和總結(jié),供讀者參考。圖5-22目前常見的聚類算法和典型的代表算法法的歸類和總結(jié)5.6聚類算法的簡介5.6.2k均值聚類算法k均值聚類算法的每個簇的中心由簇中對象的平均值表示,所以稱之為k均值聚類算法。該算法初始確定k個簇中心,然后把每個點(diǎn)歸類到其最近的簇中心,然后重新計(jì)算新的簇中心,通過迭代的方法不斷地更新簇中心,其基本流程示意圖如圖5-23所示。圖5-23k均值聚類算法的基本流程示意圖5.6聚類算法的簡介5.6.2k均值聚類算法1.k均值聚類算法的基本流程k均值聚類算法的基本流程如下。算法名稱:k均值聚類算法。輸入:k表示簇?cái)?shù)目,D表示包含n個樣本的數(shù)據(jù)集。輸出:簇中心集合。算法流程如下。步驟1:從數(shù)據(jù)集中隨機(jī)取k個對象,將其作為k個簇的初始聚類中心。步驟2:計(jì)算剩下的對象到k個簇中心的相似度,將這些對象分別劃分到相似度最高的簇。步驟3:根據(jù)聚類結(jié)果,更新k個簇的中心,計(jì)算方法是取簇中所有對象各自維度的算術(shù)平均值。5.6聚類算法的簡介5.6.2k均值聚類算法步驟4:將數(shù)據(jù)集中的全部元素按照新的中心重新聚類。步驟5:滿足算法的停止條件,轉(zhuǎn)至步驟6;否則轉(zhuǎn)至步驟3。步驟6:輸出聚類結(jié)果。k均值聚類算法的停止條件可以有如下多種。(1)設(shè)定迭代次數(shù)。(2)聚類中心不再變化。(3)前后兩次聚類結(jié)果的目標(biāo)函數(shù)(如采用聚類質(zhì)量度量指標(biāo))變化很小。5.6聚類算法的簡介5.6.2k均值聚類算法2.k均值聚類算法的優(yōu)缺點(diǎn)均值聚類算法的優(yōu)點(diǎn)是效率相對較高,其時間復(fù)雜度為O(tkn),其中n為樣本數(shù),k為簇?cái)?shù),t為迭代次數(shù),通常情況下,k、t<<n。k均值聚類算法的缺點(diǎn)主要表現(xiàn)在如下方面。(1)只有在數(shù)據(jù)樣本的均值有定義的情況下才能使用。(2)必須事先給定簇的數(shù)量k。(3)不能處理噪聲和離群點(diǎn)。(4)不適于發(fā)現(xiàn)非凸形狀的簇。例如,對于如圖5-24所示的流形數(shù)據(jù),的效果就很差。圖5-24流形數(shù)據(jù)的聚類示意圖5.6聚類算法的簡介5.6.3層次聚類算法的簡介層次聚類算法通過計(jì)算不同類別數(shù)據(jù)點(diǎn)間的相似度來創(chuàng)建一棵有層次的嵌套聚類樹,不同類別的原始數(shù)據(jù)點(diǎn)是樹的最底層,樹的頂層是一個聚類的根節(jié)點(diǎn)。層次聚類算法分為兩類:自上而下和自下而上。自下而上的算法在一開始就將每個數(shù)據(jù)點(diǎn)視為一個單一的聚類,然后依次合并類,直到所有類合并成一個包含所有數(shù)據(jù)點(diǎn)的單一聚類。AGNES(AGglomerativeNESting)算法和DIANA(DIvisiveANAlysis)算法分別是傳統(tǒng)的凝聚型層次聚類算法和分裂型層次聚類算法的代表,圖5-25演示了這兩種算法在一個包含5個樣本的數(shù)據(jù)集{a,b,c,d,e}上的處理過程。6聚類算法的簡介6.3層次聚類算法的簡介圖5-25中的凝聚型層次聚類算法AGNES算法的流程如下。(1)首先將每個數(shù)據(jù)點(diǎn)作為一個單個簇,如圖5-27中的a、b、c、d和e分別為初始的5個簇。(2)接著根據(jù)選擇的度量方法計(jì)算兩兩簇之間的相似度(或稱為鄰近度)。圖5-25兩種層次聚類算法的處理過程示意圖5.6聚類算法的簡介5.6.3層次聚類算法的簡介(3)對所有簇中最為相似的兩個簇進(jìn)行組合,形成具有最小平均連接的簇,如a和b連接為一個簇,d和e連接為一個簇。(4)重復(fù)迭代步驟(2)和(3)直到簇中所有的對象滿足最開始的簇?cái)?shù)目為止。分裂型層次聚類算法以相反的方法處理。初始時所有的對象形成一個簇,然后根據(jù)某種規(guī)則將該簇分裂;分裂的過程反復(fù)進(jìn)行,直到最終每個簇只包含一個樣本。層次聚類算法計(jì)算兩個簇之間相似度的常用方法有單鏈、全鏈和組平均方法。(1)單鏈:兩個簇的相似度為兩個簇中任意兩個點(diǎn)之間的最短距離。(2)全鏈:兩個簇的相似度為兩個簇中任意兩個點(diǎn)之間的最長距離。5.6聚類算法的簡介5.6.3層次聚類算法的簡介(3)組平均:兩個簇的相似度為兩個簇中任意兩個點(diǎn)之間的平均距離。層次聚類算法的優(yōu)點(diǎn)是比較簡單、容易理解,不需要設(shè)置復(fù)雜的參數(shù)。在某些應(yīng)用中,想把數(shù)據(jù)分成不同層次的組群,使之形成層次結(jié)構(gòu),在這種應(yīng)用場景中,層次聚類算法就很適用。例如,在進(jìn)化研究中,可以利用層次聚類算法按照動物的生物學(xué)特征對它們分組,使其形成物種的層次結(jié)構(gòu),從而發(fā)現(xiàn)進(jìn)化路徑。5.7分布式數(shù)據(jù)挖掘算法將傳統(tǒng)的數(shù)據(jù)挖掘算法應(yīng)用于大數(shù)據(jù)時,數(shù)據(jù)量的劇增,使得計(jì)算時間和對內(nèi)存空間的占用量迅速增加,通常難以正常執(zhí)行。為了解決這樣的困境,分布式計(jì)算模型的引入就成為一種必然。分布式計(jì)算將計(jì)算任務(wù)分解成許多個小部分,分配給多臺計(jì)算機(jī)協(xié)作處理,這樣就可以節(jié)約整體的計(jì)算時間,大大提高了計(jì)算效率。Hadoop所提供的MapReduce計(jì)算模型能夠?qū)⒂?jì)算任務(wù)分配到集群中的多臺服務(wù)器上執(zhí)行,每臺服務(wù)器可以從本地讀取數(shù)據(jù)完成對子任務(wù)的計(jì)算,最后將中間結(jié)果進(jìn)行合并計(jì)算。因此,分布式存儲在集群中的大數(shù)據(jù)就不必非得讀取到同一個節(jié)點(diǎn)進(jìn)行集中處理,大大節(jié)約了數(shù)據(jù)傳輸量,并且可以協(xié)同集群中的多臺服務(wù)器共同完成計(jì)算任務(wù),減少了計(jì)算時間。7分布式數(shù)據(jù)挖掘算法MapReduce能夠解決的問題有一個共同特點(diǎn):任務(wù)可以被分解為多個子問題,且這些子問題相對獨(dú)立,可以并行處理這些子問題。在實(shí)際應(yīng)用中,這類問題非常多,在谷歌的相關(guān)論文中提到了MapReduce的一些典型應(yīng)用,包括分布式grep、URL訪問頻率的統(tǒng)計(jì)、Web連接圖的反轉(zhuǎn)、倒排索引的構(gòu)建、分布式排序等問題。Mahout是Apache的一個開源項(xiàng)目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序,并且Mahout還提供了對ApacheHadoop的支持,把諸多經(jīng)典的算法轉(zhuǎn)換到MapReduce的計(jì)算框架下,大大提高了算法可處理的數(shù)據(jù)量和處理性能,使這些算法可以更高效地運(yùn)行在分布式環(huán)境中。5.7分布式數(shù)據(jù)挖掘算法Mahout最大的優(yōu)點(diǎn)就是基于Hadoop的實(shí)現(xiàn),把很多以前運(yùn)行在單機(jī)上的算法,轉(zhuǎn)化成了MapReduce模式,這樣大大提升了算法可處理的數(shù)據(jù)量和處理性能。從Mahout所實(shí)現(xiàn)的MapReduce算法可以看出,許多經(jīng)典的數(shù)據(jù)挖掘算法可以被改造成分布式算法在Hadoop平臺上執(zhí)行,但要求這些算法在執(zhí)行過程中能夠被劃分成多個相互獨(dú)立的子任務(wù)并行執(zhí)行。5.8數(shù)據(jù)挖掘的典型應(yīng)用經(jīng)過了大約30多年的發(fā)展,數(shù)據(jù)挖掘技術(shù)取得了輝煌的成果,逐步形成了一套基本的理論基礎(chǔ),主要包括:分類、聚類、異常檢測、模式挖掘和規(guī)則提取等。目前,隨著大數(shù)據(jù)時代的來臨,無論是數(shù)據(jù)的變化速率,還是數(shù)據(jù)的種類都在不斷更新,數(shù)據(jù)挖掘變得越來越復(fù)雜但也越來越重要。在大數(shù)據(jù)時代,數(shù)據(jù)挖掘技術(shù)與其他大數(shù)據(jù)處理技術(shù)之間相輔相成、協(xié)調(diào)發(fā)展,被廣泛應(yīng)用于人類社會的各個方面。接下來介紹數(shù)據(jù)挖掘的一些典型應(yīng)用領(lǐng)域和案例。5.8數(shù)據(jù)挖掘的典型應(yīng)用5.8.1數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用隨著基因測序技術(shù)和生物信息學(xué)的發(fā)展,越來越多的生物信息數(shù)據(jù)產(chǎn)生。生物信息學(xué)是一門存儲、分析和利用生物學(xué)數(shù)據(jù)(如基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、蛋白質(zhì)組數(shù)據(jù)、微生物數(shù)據(jù)、代謝組數(shù)據(jù)、陣列芯片,數(shù)據(jù)以及通過濕法實(shí)驗(yàn)生成的數(shù)據(jù))信息的科學(xué)。目前,通過數(shù)據(jù)挖掘技術(shù)對生物信息數(shù)據(jù)進(jìn)行挖掘并有效利用,變得越來越重要。在動植物研究領(lǐng)域,對不同的物種數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合分析,研究不同物種之間的進(jìn)化關(guān)系。對同一物種的不同組學(xué)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合分析,全面系統(tǒng)地對此物種的生物學(xué)機(jī)制進(jìn)行研究。在生物醫(yī)學(xué)領(lǐng)域,使用數(shù)據(jù)挖掘技術(shù)有助于在生物醫(yī)學(xué)產(chǎn)業(yè)的特定領(lǐng)域內(nèi)進(jìn)行全面的研究,并且使研究人員可以更好地了解生物學(xué)機(jī)制,以便在醫(yī)療保健和生命知識領(lǐng)域發(fā)現(xiàn)新的治療方法。5.8數(shù)據(jù)挖掘的典型應(yīng)用5.8.2數(shù)據(jù)挖掘在市場營銷領(lǐng)域中的應(yīng)用在市場營銷中,經(jīng)常需要使用數(shù)據(jù)挖掘技術(shù)。例如,利用聚類分析能夠了解消費(fèi)者的消費(fèi)行為,從而推斷出其消費(fèi)動機(jī)與消費(fèi)習(xí)慣,進(jìn)而讓企業(yè)實(shí)現(xiàn)精準(zhǔn)營銷。如果要設(shè)計(jì)一款新產(chǎn)品,需要先進(jìn)行市場調(diào)查,以收集消費(fèi)者的偏好和習(xí)慣,根據(jù)市場定位找到合適的目標(biāo)人群,等到產(chǎn)品設(shè)計(jì)出來還需要針對不同的地點(diǎn)進(jìn)行投放,并收集消費(fèi)者的反饋。所有這些過程都需要使用數(shù)據(jù)挖掘技術(shù)進(jìn)行詳細(xì)分析,以便營銷人員能夠設(shè)計(jì)有針對性的營銷計(jì)劃。在市場營銷領(lǐng)域中的數(shù)據(jù)挖掘技術(shù),可以實(shí)現(xiàn)客戶細(xì)分、交叉營銷、客戶獲取、客戶維護(hù)等功能。5.8數(shù)據(jù)挖掘的典型應(yīng)用1.客戶細(xì)分客戶細(xì)分是指按照一定的標(biāo)準(zhǔn)或規(guī)范,將企業(yè)所處理的異質(zhì)用戶群體劃分為多個同質(zhì)的子群體,子群體中的用戶具有相同或相似的價值或個人行為特征,而不同群體中的用戶具有不同的價值或個人行為特征。很顯然,這可以運(yùn)用數(shù)據(jù)挖掘中的聚類算法,根據(jù)用戶的特性將整個用戶群體劃分為多個類別。5.8數(shù)據(jù)挖掘的典型應(yīng)用2.交叉營銷交叉營銷是指企業(yè)向用戶提供當(dāng)前消費(fèi)產(chǎn)品以外的產(chǎn)品的營銷活動。數(shù)據(jù)挖掘技術(shù)(如推薦系統(tǒng))可以對用戶的個人數(shù)據(jù)進(jìn)行分析,向其推薦可能感興趣的其他商品或服務(wù)。例如,當(dāng)用戶登錄淘寶或京東時,網(wǎng)站會向用戶推薦可能感興趣的商品,其實(shí)這就是根據(jù)用戶之前購買、評價或?yàn)g覽商品的記錄,通過背后的智能推薦算法得出的推薦結(jié)果。5.8數(shù)據(jù)挖掘的典型應(yīng)用3.客戶獲取客戶獲取是公司開拓新市場的關(guān)鍵途徑。雖然營銷人員可以使用許多傳統(tǒng)方法來進(jìn)行大規(guī)模的營銷活動,但如果他們能夠?qū)@取到的大量市場信息作為其活動計(jì)劃的一部分,他們的成功概率肯定會更大。數(shù)據(jù)挖掘技術(shù)可以幫助營銷人員選擇潛在用戶,營銷人員所要做的就是將數(shù)據(jù)挖掘技術(shù)提供的潛在用戶與他們感興趣的活動聯(lián)系起來。5.8數(shù)據(jù)挖掘的典型應(yīng)用4.客戶維護(hù)由于市場需求日益激烈,獲取新用戶的成本越來越高,維護(hù)原有用戶的價值也越來越高。公司需要知道哪些用戶有可能選擇其他公司,他們可以使用決策樹算法來預(yù)測和分析用戶群體,以找出哪類用戶最有可能選擇其他公司。5.8數(shù)據(jù)挖掘的典型應(yīng)用5.8.3數(shù)據(jù)挖掘在教育領(lǐng)域中的應(yīng)用基于教育大數(shù)據(jù)的數(shù)據(jù)挖掘,利用數(shù)據(jù)挖掘技術(shù),如分類、聚類、回歸和模式挖掘等,對學(xué)習(xí)結(jié)果、學(xué)習(xí)內(nèi)容、學(xué)習(xí)資源與教學(xué)行為等教育原始數(shù)據(jù)進(jìn)行挖掘,達(dá)到預(yù)測學(xué)生的發(fā)展趨勢、促進(jìn)學(xué)生有效學(xué)習(xí)的目標(biāo)。通過數(shù)據(jù)挖掘技術(shù),可以發(fā)現(xiàn)學(xué)生的心理和行為習(xí)慣,然后根據(jù)數(shù)據(jù)分析對學(xué)校的管理模式進(jìn)行優(yōu)化和改進(jìn),可以幫助教師找到更好的管理模式,從而形成良性的師生關(guān)系。此外,數(shù)據(jù)挖掘技術(shù)還可以分析學(xué)生的成績,發(fā)現(xiàn)學(xué)生在學(xué)習(xí)中的薄弱環(huán)節(jié),幫助教師進(jìn)行有針對性的指導(dǎo),提高學(xué)校的整體教學(xué)質(zhì)量。教育大數(shù)據(jù)挖掘的具體應(yīng)用體現(xiàn)在對教育活動各方面的評估、預(yù)測和干預(yù)中。其中,評估可以用于評價教學(xué)效果、發(fā)現(xiàn)問題學(xué)生、評價教育管理水平和進(jìn)行學(xué)校間的對比分析等;預(yù)測是指學(xué)生的分類、學(xué)生模型的構(gòu)建,預(yù)測學(xué)生的成績和升學(xué)率等;干預(yù)是指對教師的教學(xué)方法提供改進(jìn)意見。此外,教育大數(shù)據(jù)挖掘在教育領(lǐng)域中的應(yīng)用還包括協(xié)作學(xué)習(xí)、教學(xué)效果評價、課程開發(fā)、題庫建設(shè)和考試成績分析等。5.8數(shù)據(jù)挖掘的典型應(yīng)用5.8.3數(shù)據(jù)挖掘在教育領(lǐng)域中的應(yīng)用例如,南京理工大學(xué)的“暖心飯卡工程”活動受到各界的關(guān)注。2015年3月,南京理工大學(xué)教育發(fā)展基金會工作人員對學(xué)生在日常生活中的數(shù)據(jù)進(jìn)行了調(diào)查和采集,該項(xiàng)調(diào)查共涉及16000余名南京理工大學(xué)當(dāng)前在校學(xué)習(xí)的本科生,采集的數(shù)據(jù)為在2015年9月中旬至2015年11月中旬期間學(xué)生的飯卡刷卡記錄,將每個月在食堂的消費(fèi)總額不足420元的學(xué)生確立為補(bǔ)助對象,不需要學(xué)生申報(bào),直接將補(bǔ)助打入學(xué)生的飯卡。這次針對學(xué)生生活行為的數(shù)據(jù)挖掘,不僅在教育大數(shù)據(jù)的基礎(chǔ)上實(shí)現(xiàn)了“精準(zhǔn)扶貧”,而且對學(xué)生真正做到了“人文關(guān)懷”,體現(xiàn)出了數(shù)據(jù)挖掘技術(shù)的價值。5.8數(shù)據(jù)挖掘的典型應(yīng)用5.8.4數(shù)據(jù)挖掘在金融領(lǐng)域中的應(yīng)用目前,金融領(lǐng)域中的各類數(shù)據(jù)正在快速增長,這使得數(shù)據(jù)挖掘在金融領(lǐng)域中的應(yīng)用更加廣泛。數(shù)據(jù)挖掘在金融領(lǐng)域中的應(yīng)用主要包括研究和設(shè)計(jì)金融數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù),以及為相關(guān)金融機(jī)構(gòu)建立相應(yīng)的數(shù)據(jù)倉庫,從而實(shí)現(xiàn)金融數(shù)據(jù)的收集和存儲,進(jìn)而對金融數(shù)據(jù)進(jìn)行分析和挖掘,幫助金融機(jī)構(gòu)開放和發(fā)展相關(guān)業(yè)務(wù)。5.8數(shù)據(jù)挖掘的典型應(yīng)用1.貸款償還預(yù)測貸款是銀行最重要的業(yè)務(wù)之一,做好貸款償還預(yù)測,有助于銀行相關(guān)業(yè)務(wù)的順利發(fā)展。金融機(jī)構(gòu)需要提升貸前審查和貸后監(jiān)控能力,尤其要關(guān)注網(wǎng)絡(luò)借貸的風(fēng)險(xiǎn),加強(qiáng)信息共享,以防范網(wǎng)絡(luò)借貸的欺詐風(fēng)險(xiǎn)。例如,某家金融機(jī)構(gòu)在分析信貸申請人的相關(guān)信息時,利用相應(yīng)的數(shù)據(jù)挖掘模型,對每個申請人的過往信息數(shù)據(jù)進(jìn)行有效的整合、分析和提取,得到申請人相應(yīng)的評價指標(biāo),從而得出綜合結(jié)論,供相關(guān)工作人員進(jìn)行規(guī)范的判斷。事實(shí)表明,通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用,該金融機(jī)構(gòu)的貸款違約率不到該部門以往違約率的50%。由此可見,在貸款、還款預(yù)測中,對貸款申請人過去的信息數(shù)據(jù)進(jìn)行提取和分析,并與數(shù)據(jù)倉庫中所有貸款人的信息數(shù)據(jù)進(jìn)行對比,從而得到申請人的最大違約概率,并以最大風(fēng)險(xiǎn)概率進(jìn)行二次計(jì)算評估,從而得到申請人相關(guān)信息數(shù)據(jù)的最終發(fā)展趨勢,進(jìn)而匹配最終的還款能力,確定是否放款。5.8數(shù)據(jù)挖掘的典型應(yīng)用2.客戶信用評估良好的客戶信用政策有利于銀行相關(guān)業(yè)務(wù)的順利發(fā)展。但在銀行的實(shí)際數(shù)據(jù)挖掘中發(fā)現(xiàn),需要充分運(yùn)用特征選擇等方法,有效地識別各種因素、選擇重要因素、剔除非相關(guān)因素,從而制定最準(zhǔn)確的客戶信貸政策。例如,某家金融機(jī)構(gòu)在信貸業(yè)務(wù)中,要做好潛在客戶的信用評估工作,從而盡可能地降低貸款風(fēng)險(xiǎn)。在客戶信用體系的建設(shè)中,該機(jī)構(gòu)首先將其內(nèi)部系統(tǒng)與相關(guān)信用系統(tǒng)進(jìn)行交互,形成有效的決策機(jī)制,處理相關(guān)的信用申請信息。隨著數(shù)據(jù)挖掘技術(shù)的應(yīng)用,該機(jī)構(gòu)在處理相關(guān)客戶的信用數(shù)據(jù)和提供相應(yīng)的信用評分方面實(shí)現(xiàn)了高效率和高準(zhǔn)確性,這使得該機(jī)構(gòu)在一個月內(nèi)能夠處理近100000份申請材料。根據(jù)該機(jī)構(gòu)的相關(guān)數(shù)據(jù)報(bào)告,在相關(guān)數(shù)據(jù)挖掘技術(shù)的幫助下,該公司在一年內(nèi)貸款支付的不規(guī)范行為整體上減少了55%。這說明在數(shù)據(jù)挖掘技術(shù)的幫助下,不僅信貸業(yè)務(wù)處理的速度得到了提高,而且信貸業(yè)務(wù)處理的質(zhì)量也得到了提升。5.9本章小結(jié)本章首先介紹了數(shù)據(jù)的描述性分析方法,包括數(shù)據(jù)的集中趨勢度量、離散趨勢度量和數(shù)據(jù)的偏態(tài)特性度量和回歸分析等;接著介紹了一些經(jīng)典的關(guān)聯(lián)分析規(guī)則、分類和聚類算法,包括Apriori算法、近鄰分類算法、決策樹算法和k均值聚類算法等。最后,本章還介紹了數(shù)據(jù)挖掘技術(shù)在多個領(lǐng)域中的典型應(yīng)用。謝謝第6章

數(shù)據(jù)可視化演講人2025/1/9本章學(xué)習(xí)目標(biāo)了解數(shù)據(jù)可視化的基礎(chǔ)知識。了解常見的數(shù)據(jù)可視化工具和軟件。了解若干數(shù)據(jù)可視化工具的使用方法,并能實(shí)現(xiàn)簡單的編程。培養(yǎng)“用數(shù)據(jù)說話,讓數(shù)據(jù)發(fā)聲”的理念,以及多角度看待問題和解決問題的能力。目錄6.1引言6.2數(shù)據(jù)可視化的案例6.3圖形元素和視覺通道6.4數(shù)據(jù)可視化的常用方法6.5數(shù)據(jù)可視化常用工具簡介6.6本章小結(jié)6.1引言1.1什么是數(shù)據(jù)可視化所謂數(shù)據(jù)可視化,是指運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像顯示,并進(jìn)行交互處理的理論、方法和技術(shù)。它可以將枯燥的數(shù)據(jù)映射為形象生動的圖形、符號、顏色和紋理等,提高數(shù)據(jù)識別效率,高效地傳遞有用信息。在人類文明的初期,特別是文字被創(chuàng)造并廣泛使用之前,人們是用圖形或符號來傳遞信息的。隨著文字的發(fā)明和使用,人類通過書寫來存儲和傳遞信息。當(dāng)計(jì)算機(jī)出現(xiàn)后,數(shù)據(jù)的生成、存儲和傳遞格式得到解放,徹底改變了數(shù)據(jù)的存儲和表示形式。在大數(shù)據(jù)時代,數(shù)據(jù)可視化技術(shù)的應(yīng)用,就是“讓數(shù)據(jù)說話”。作為一種新的數(shù)據(jù)表現(xiàn)形式和信息媒介,數(shù)據(jù)可視化可以把復(fù)雜抽象的數(shù)據(jù)信息,以合適的視覺元素及視角呈現(xiàn),方便大家理解、記憶和傳遞。在大數(shù)據(jù)時代,數(shù)據(jù)的復(fù)雜性和體量大大增加,可視化和可視化分析可以有效地篩選與精練數(shù)據(jù),利用圖形清晰有效地傳達(dá)與溝通信息,幫助人們更好地探索和理解復(fù)雜的數(shù)據(jù),成為人們理解數(shù)據(jù)、發(fā)現(xiàn)知識和規(guī)律不可或缺的手段。6.1引言6.1.2數(shù)據(jù)可視化的若干案例1.斯諾的標(biāo)點(diǎn)地圖流行病學(xué)標(biāo)點(diǎn)地圖是指用標(biāo)點(diǎn)的方法將發(fā)病或死亡病例標(biāo)記在地圖上,以顯示疾病的地理分布,是地理流行病學(xué)研究中常用的地圖之一。1854年,倫敦暴發(fā)霍亂,10天內(nèi)奪去了500多人的生命。根據(jù)當(dāng)時流行的觀點(diǎn),霍亂是經(jīng)空氣傳播的。但是約翰斯諾(JohnSnow)醫(yī)生并不相信這種說法,他認(rèn)為霍亂是經(jīng)水傳播的。斯諾利用標(biāo)點(diǎn)地圖(見圖6-1)研究了當(dāng)?shù)氐乃植己突魜y患者分布之間的關(guān)系,發(fā)現(xiàn)在寬街一口水井的供水范圍內(nèi)霍亂的出現(xiàn)率明顯較高,最終憑借此線索找到該次霍亂爆發(fā)的原因:一個被污染的水泵。洞悉真相的斯諾趕緊通知政府關(guān)掉了那個水泵,疫情立馬就停了。6.1引言1.斯諾的標(biāo)點(diǎn)地圖圖6-11854年斯諾制作的倫敦霍亂標(biāo)點(diǎn)地圖6.1引言2.南丁格爾的玫瑰圖兼為護(hù)士和統(tǒng)計(jì)學(xué)家的弗羅倫斯南丁格爾,為了調(diào)查戰(zhàn)爭期間士兵死亡的真正原因。根據(jù)1854年4月—1856年3月期間士兵死亡的數(shù)據(jù),創(chuàng)建出美麗的統(tǒng)計(jì)玫瑰圖(見圖6-2),形象地展示了士兵死亡的真正原因和戰(zhàn)地醫(yī)療救護(hù)的作用。這種圖表形式也被稱作“南丁格爾的玫瑰”,是一種圓形的直方圖,南丁格爾自己常稱這類圖為雞冠花圖,并且用以表達(dá)軍隊(duì)醫(yī)院季節(jié)性的死亡率,對象是那些不太能理解傳統(tǒng)統(tǒng)計(jì)報(bào)表的公務(wù)人員。她的方法打動了當(dāng)時的高層,包括軍方人士和維多利亞女王本人,于是醫(yī)療改良的提案得到了支持。6.1引言2.南丁格爾的玫瑰圖這張圖描述了1854年4月—1856年3月期間士兵的死亡情況,左右兩張玫瑰圖被時間點(diǎn)“1855年3月”隔開,左右兩張玫瑰圖都包含了12個月的數(shù)據(jù)。右邊的玫瑰圖所示為1854年4月—1855年3月的士兵死亡情況,左邊的玫瑰圖所示為1855年4月—1856年3月的士兵死亡情況,圖6-2統(tǒng)計(jì)玫瑰圖6.1引言2.南丁格爾的玫瑰圖圖中用3種顏色表示3種不同的情況,藍(lán)色代表可預(yù)防和可緩解的疾病治療不及時造成的死亡,紅色代表戰(zhàn)場陣亡,黑色代表其他死亡原因。圖表各扇區(qū)角度相同,用半徑及扇區(qū)面積來表示死亡人數(shù),可以清晰地看出每個月因各種原因死亡的人數(shù)。顯然,1854—1855年,因醫(yī)療條件而造成的死亡人數(shù)遠(yuǎn)遠(yuǎn)大于戰(zhàn)死沙場的人數(shù),這種情況直到1856年初才得到緩解。南丁格爾的這張圖表及其他圖表生動有力地說明了在戰(zhàn)地開展醫(yī)療救護(hù)和促進(jìn)傷兵醫(yī)療工作的必要性,打動了當(dāng)局者,增加了戰(zhàn)地醫(yī)院,改善了軍隊(duì)醫(yī)院的條件,為挽救士兵生命做出了巨大的貢獻(xiàn)。6.1引言3.數(shù)據(jù)可視化大屏圖6-3所示為數(shù)據(jù)可視化大屏的示例,圖中展示了某個電商平臺的“數(shù)據(jù)可視化大屏”界面,通過這種“數(shù)據(jù)可視化大屏”,可以實(shí)時查看系統(tǒng)的數(shù)據(jù)變化,觀察系統(tǒng)的運(yùn)行狀態(tài),幫助管理人員快速決策。隨著大數(shù)據(jù)的發(fā)展,“數(shù)據(jù)可視化大屏”在各個行業(yè)的應(yīng)用越來越廣泛,尤其是在政府、商業(yè)、金融、制造等行業(yè)的業(yè)務(wù)場景中。例如,作為傳遞信息的有效手段,“數(shù)據(jù)可視化大屏”在城市智能運(yùn)營中心、應(yīng)急指揮中心、公安監(jiān)控中心、電力調(diào)度中心、金融交易大廳等部門和機(jī)構(gòu)中發(fā)揮著重要作用。它具有日常監(jiān)測、分析判斷、應(yīng)急指揮、匯報(bào)展示等多種功能,在提高科學(xué)管理水平方面發(fā)揮著重要作用。6.1引言3.數(shù)據(jù)可視化大屏圖6-3數(shù)據(jù)可視化大屏的示例6.1引言6.1.3數(shù)據(jù)可視化的作用在大數(shù)據(jù)時代,隨著數(shù)據(jù)量的快速增長,以及數(shù)據(jù)復(fù)雜性的不斷增加,對數(shù)據(jù)進(jìn)行觀察、分析和挖掘的難度越來越大。數(shù)據(jù)可視化可以提供多種數(shù)據(jù)分析的圖形方法,直觀地傳達(dá)數(shù)據(jù)的關(guān)鍵特征,從而實(shí)現(xiàn)對復(fù)雜數(shù)據(jù)的深入洞察。數(shù)據(jù)可視化方法,就是借助圖形化手段來表示枯燥的數(shù),從而更清晰有效地傳達(dá)與溝通信息。一方面,它將枯燥的數(shù)據(jù)更形象、更生動地進(jìn)行展示,以使數(shù)據(jù)的呈現(xiàn)更加直觀,方便用戶查看;另一方面,它還是一種發(fā)現(xiàn)未知信息的處理過程,它讓用戶可以觀察、發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律和價值。數(shù)據(jù)可視化的作用可以總結(jié)為以下幾個方面。(1)反映信息的模式、數(shù)據(jù)的關(guān)聯(lián)或趨勢。(2)發(fā)現(xiàn)隱含在數(shù)據(jù)中的規(guī)律。(3)實(shí)現(xiàn)人與數(shù)據(jù)之間形象的信息傳遞。(4)幫助決策者直觀地觀察和分析數(shù)據(jù)。6.2數(shù)據(jù)可視化的案例【COVID-19數(shù)據(jù)集可視化分析】本案例對機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)競賽平臺Kaggle提供的COVID-19數(shù)據(jù)集進(jìn)行可視化分析。本案例的數(shù)據(jù)集是由Kaggle提供的COVID-19數(shù)據(jù)集,該數(shù)據(jù)集(文件名為covid_19_data.csv)包含2020年1月22日—2021年5月30日全世界各個國家新冠肺炎疫情的統(tǒng)計(jì)數(shù)據(jù),其格式如圖6-4所示,數(shù)據(jù)集包括8個字段:SNo、ObservationDate、Province/State、Country/Region、LastUpdate、Confirmed、Deaths、Recovered。其中Confirmed、Deaths和Recovered分別表示確診人數(shù)、死亡人數(shù)和治愈人數(shù)(單位:個)。6.2數(shù)據(jù)可視化的案例6.2.1數(shù)據(jù)集的簡介圖6-4COVID-19數(shù)據(jù)集的格式6.2數(shù)據(jù)可視化的案例6.2.2發(fā)展趨勢圖為了觀察一段時間內(nèi)數(shù)據(jù)的發(fā)展趨勢,首先將數(shù)據(jù)按日期進(jìn)行匯總,形成如圖6-5所示的格式。其中,mortality%和recovery%分別表示死亡率和治愈率。圖6-5按日期匯總后的數(shù)據(jù)格式6.2數(shù)據(jù)可視化的案例6.2.2發(fā)展趨勢圖對圖6-5所示的數(shù)據(jù)按日期匯總,使用折線圖繪制發(fā)展趨勢圖,如圖6-6所示。圖中,橫軸表示日期,縱軸表示病例數(shù)量。從中可以看出,2020年1月—2021年5月,全球確診人數(shù)大幅上升,但與治愈人數(shù)相比,死亡人數(shù)很低。圖6-6發(fā)展趨勢圖6.2數(shù)據(jù)可視化的案例6.2.2發(fā)展趨勢圖圖6-7治愈率與死亡率趨勢圖接著用折線圖繪制2020年1月—2021年5月期間的治愈率和死亡率趨勢圖,如圖6-7所示。圖中,橫軸表示日期,縱軸表示百分比。從圖中可以看出,平均治愈率為51.15%,平均死亡率為3.4%。6.2數(shù)據(jù)可視化的案例6.2.3人數(shù)分布圖為了分析各個國家疫情數(shù)據(jù)的分布情況,對原始數(shù)據(jù)按國家進(jìn)行分組匯總,形成如圖6-8所示的數(shù)據(jù)格式。圖6-9按國家分組匯總的數(shù)據(jù)格式6.2數(shù)據(jù)可視化的案例6.2.3人數(shù)分布圖圖6-10用餅圖展示全球確診人數(shù)最多的10個國家的確診比例接著用餅圖展示2020年1月—2021年5月期間全球確診人數(shù)最多的10個國家的確診比例,如圖6-10所示。從中可以看出美國(US)、印度(India)和巴西(Brazil)的確診比例位列前三名。6.3圖形元素和視覺通道數(shù)據(jù)可視化任務(wù)是將數(shù)據(jù)中的變量對應(yīng)到圖形屬性的映射,常見的表現(xiàn)形式是用圖表構(gòu)建從數(shù)據(jù)到幾何標(biāo)記對象的圖形屬性映射,圖表中還可能包含數(shù)據(jù)的統(tǒng)計(jì)變換,最后將其繪制在某個特定的坐標(biāo)系中。圖形語法是數(shù)據(jù)可視化所使用的語法,是一種抽象級別較高的對圖表的描述方法。其基本思路是把圖表的主體看成數(shù)據(jù)和幾何圖形的視覺特征綁定的結(jié)果,并將其應(yīng)用于不同的坐標(biāo)系,通過這樣的方式將其組成不同的圖形類別。圖形語法由圖形元素、圖形屬性和映射三個要素組成。6.3圖形元素和視覺通道1.圖形元素圖6-10圖形元素圖形元素是在可視化過程中使用的幾何圖形,基本的圖形元素有點(diǎn)、線、面,這幾個基本的圖形元素,可以組成更多的圖形元素,如點(diǎn)線的連接、多邊形等,如圖6-10所示。6.3圖形元素和視覺通道2.圖形屬性圖形屬性也被稱為“視覺通道”,用于控制圖形元素的視覺特征。常用的視覺通道有:位置、大小、顏色、長度、形狀、角度等,如圖6-11所示。圖6-11

常用的視覺通道6.3圖形元素和視覺通道3.映射數(shù)據(jù)到圖形屬性的映射,簡單來說就是選擇什么圖形元素和視覺通道來表現(xiàn)某種類型的數(shù)據(jù)。最基本的數(shù)據(jù)類型可分為離散型和連續(xù)型兩類。(1)離散型數(shù)據(jù)可以用位置、顏色、形狀和圖案等來表現(xiàn)。(2)連續(xù)型數(shù)據(jù)可以用坐標(biāo)軸位置、長度、角度和面積等來表現(xiàn)。

圖6-12所示為視覺通道表現(xiàn)力排序的示意圖,從上到下分別按照表現(xiàn)力從高到低遞減。圖6-12視覺通道表現(xiàn)力排序的示意圖6.3圖形元素和視覺通道【案例6-1】商品銷售數(shù)據(jù)可視化圖表的表現(xiàn)形式接下來,我們用一個商品銷售數(shù)據(jù)的可視化圖表案例,更具體形象地展現(xiàn)圖形元素和視覺通道的表現(xiàn)方法?!景咐?-1】商品銷售數(shù)據(jù)可視化圖表的表現(xiàn)形式。現(xiàn)有如表6-1所示的某家超市商品銷售的示例數(shù)據(jù),該數(shù)據(jù)包括商品類別、年份和銷售額三個屬性。其中,商品類別和年份是表示類別的離散型數(shù)據(jù)(維度),銷售額是表示數(shù)值的連續(xù)型數(shù)據(jù)(指標(biāo))。6.3圖形元素和視覺通道【案例6-1】商品銷售數(shù)據(jù)可視化圖表的表現(xiàn)形式表6-1商品銷售的示例數(shù)據(jù)商品類別年份/年銷售額/萬元日用品201930日用品202050日用品202160日用品202290零食201980零食202090零食2021130零食2022140生鮮201930生鮮202040生鮮202150生鮮2022506.3圖形元素和視覺通道【案例6-1】商品銷售數(shù)據(jù)可視化圖表的表現(xiàn)形式接下來我們要用多種圖表形式,將本案例的數(shù)據(jù)映射到圖形元素和圖形屬性。(1)比較三種商品類別銷售額的可視化圖表,如圖6-13所示。圖6-13比較三種商品類別銷售額的可視化圖表

6.3圖形元素和視覺通道【案例6-1】商品銷售數(shù)據(jù)可視化圖表的表現(xiàn)形式圖6-13(a)使用象形的圖形元素代表不同的“商品類別”,視覺通道選用不同的顏色代表各個類別的“銷售額”。圖6-13(b)使用圓形作為統(tǒng)一的圖形元素,視覺通道選用不同的顏色代表不同的“商品類別”,并以面積大小代表各個類別的“銷售額”。圖6-13(c)使用條形作為統(tǒng)一的圖形元素結(jié)合標(biāo)簽代表不同的“商品類別”,視覺通道選用長度代表各個類別的“銷售額”。圖6-13(d)使用扇形作為統(tǒng)一的圖形元素,視覺通道選用不同的顏色代表不同的“商品類別”,角度代表“銷售額”。6.3圖形元素和視覺通道【案例6-1】商品銷售數(shù)據(jù)可視化圖表的表現(xiàn)形式(2)

比較不同年份的銷售額的可視化圖表如圖6-14所示。圖6-14(a)使用柱狀圖,結(jié)合標(biāo)簽和顏色代表不同的“年份”,長度代表“銷售額”。圖6-15(b)使用折線圖表現(xiàn)各年的銷售額,以及銷售額的動態(tài)變化趨勢圖6-14比較不同年份的銷售額的可視化圖表6.3圖形元素和視覺通道【案例6-1】商品銷售數(shù)據(jù)可視化圖表的表現(xiàn)形式(3)綜合商品類別、年份和銷售額的可視化圖表,如圖6-15所示。圖6-15綜合商品類別、年份和銷售額的可視化圖表6.3圖形元素和視覺通道【案例6-1】商品銷售數(shù)據(jù)可視化圖表的表現(xiàn)形式圖6-15(a)使用折線圖,同時以不同顏色的線代表不同的“商品類別”。從效果上看,該圖表便于查看各個“商品類別”的銷售趨勢,以及對比各個“年份”的銷售表現(xiàn)。圖6-15(b)使用堆壘柱狀圖,按顏色分割成三個“商品類別”,柱形的高度表示“銷售額”。從效果上看,這幅圖便于進(jìn)行各個“年份”的“銷售額”合計(jì)對比,以及參看各個“年份”的“銷售額”是如何由“商品類別”構(gòu)成的。6.4數(shù)據(jù)可視化的常用方法6.4數(shù)據(jù)可視化的常用方法可視化的數(shù)據(jù)根據(jù)屬性或變量的類型可以分為數(shù)值型數(shù)據(jù)和類屬型數(shù)據(jù),根據(jù)數(shù)據(jù)集的類型,可以分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),如圖6-16所示。圖6-16可視化的數(shù)據(jù)類型針對不同類型的數(shù)據(jù),有多種多樣的展現(xiàn)形式,可以將其歸納為趨勢型數(shù)據(jù)可視化方法、對比型數(shù)據(jù)可視化方法、比例型數(shù)據(jù)可視化方法和關(guān)系型數(shù)據(jù)可視化方法等。6.4.1趨勢型數(shù)據(jù)可視化方法趨勢型數(shù)據(jù)可以使用散點(diǎn)圖、折線圖、階梯圖和時間序列圖等進(jìn)行可視化呈現(xiàn)。1.散點(diǎn)圖散點(diǎn)圖使用數(shù)據(jù)值作為x軸和y軸坐標(biāo)來繪制點(diǎn),即散點(diǎn)圖數(shù)據(jù)點(diǎn)(x,y)在直角坐標(biāo)系平面上的分布圖。在回歸分析中,可以選擇合適的函數(shù)對數(shù)據(jù)點(diǎn)進(jìn)行擬合,從而判斷兩個變量之間是否存在某種關(guān)聯(lián)或總結(jié)坐標(biāo)點(diǎn)的分布模式。散點(diǎn)圖將序列顯示為一組點(diǎn),其值由點(diǎn)在圖表中的位置表示,散點(diǎn)圖的樣例如圖6-17所示。6.4.1趨勢型數(shù)據(jù)可視化方法1.散點(diǎn)圖圖6-18

散點(diǎn)圖的樣例6.4.1趨勢型數(shù)據(jù)可視化方法2.折線圖折線圖用線段順序連接空間中的各個數(shù)據(jù)點(diǎn),折線圖與散點(diǎn)圖對比,其更突出表現(xiàn)數(shù)據(jù)點(diǎn)的變化趨勢,而散點(diǎn)圖突出表現(xiàn)數(shù)據(jù)點(diǎn)的分布情況,前者不能做回歸分析,而后者可以。折線圖的樣例如圖6-18所示。圖6-19折線圖的樣例6.4.1趨勢型數(shù)據(jù)可視化方法3.階梯圖階梯圖又稱瀑布圖,它用一種無規(guī)律、間歇型階躍的方式表達(dá)數(shù)值的變化,可以用于數(shù)據(jù)的變化和構(gòu)成情況的分析(如保險(xiǎn)產(chǎn)品、電價、水價等)中。階梯圖的樣例如圖6-19所示。圖6-19階梯圖樣例6.4.1趨勢型數(shù)據(jù)可視化方法4.時間序列圖時間序列圖用于顯示給定度量隨時間變化的趨勢,它是以時間為橫軸,以觀察變量為縱軸,用以反映時間與數(shù)量之間的關(guān)系,反映觀察變量變化發(fā)展的趨勢及偏差的統(tǒng)計(jì)圖。時間序列圖的樣例如圖6-20所示。

圖6-20時間序列圖的樣例6.4.2對比型數(shù)據(jù)可視化方法對比型數(shù)據(jù)可以使用柱狀圖、面積圖、雷達(dá)圖、氣泡圖等進(jìn)行可視化呈現(xiàn)。1.柱狀圖柱狀圖是一種以長方形的長度為變量的統(tǒng)計(jì)圖表,它使用垂直或水平的柱子顯示類別之間的數(shù)值關(guān)系,用于描述分類數(shù)據(jù),并統(tǒng)計(jì)每一個分類中的數(shù)據(jù),柱狀圖的樣例如圖6-21所示。圖6-21柱狀圖的樣例6.4.2對比型數(shù)據(jù)可視化方法2.面積圖面積圖是在折線圖的基礎(chǔ)上形成的,它將折線圖中折線與坐標(biāo)軸之間的區(qū)域用顏色進(jìn)行填充,這個填充即我們所說的面積,顏色的填充可以更好地突出趨勢信息,面積圖的樣例如圖6-22所示。圖6-22面積圖的樣例6.4.2對比型數(shù)據(jù)可視化方法3.雷達(dá)圖雷達(dá)圖,又稱網(wǎng)狀圖或星狀圖,它形似雷達(dá)界面,雷達(dá)圖用于同時對多個數(shù)據(jù)進(jìn)行對比分析和對同一數(shù)據(jù)在不同時期的變化進(jìn)行分析,可以有效地表示數(shù)據(jù)的聚合值,也就是數(shù)據(jù)在各個方向上達(dá)到的峰值,雷達(dá)圖的樣例如圖6-23所示。圖6-23雷達(dá)圖的樣例6.4.2對比型數(shù)據(jù)可視化方法4.氣泡圖氣泡圖通常用于比較和展示不同類別之間的關(guān)系(如分析數(shù)據(jù)之間的相關(guān)性),通過氣泡的位置及面積大小進(jìn)行比較,氣泡圖的樣例如圖6-24所示。圖6-24氣泡圖的樣例6.4.3比例型數(shù)據(jù)可視化方法比例型數(shù)據(jù)可以使用餅圖、堆壘柱狀圖和堆壘面積圖等進(jìn)行可視化呈現(xiàn)。1.餅圖餅圖用于表示不同分類的占比情況,通過弧度大小來對比各種分類。餅圖為將一個圓餅按照分類的占比劃分成多個區(qū)塊,整個圓餅代表數(shù)據(jù)的總量,每個區(qū)塊代表該分類占總體的比例大小,所有區(qū)塊的和等于100%。餅圖的樣例如圖6-25所示。圖6-25餅圖的樣例6.4.3比例型數(shù)據(jù)可視化方法2.堆壘柱狀圖堆壘柱狀圖顯示單個項(xiàng)目與整體之間的關(guān)系,它表現(xiàn)各個類別的每個數(shù)值所占總數(shù)值的大小。堆壘柱狀圖以二維垂直堆積矩形顯示數(shù)值。當(dāng)有多個數(shù)據(jù)系列并且希望強(qiáng)調(diào)總數(shù)值時,可以使用堆壘柱狀圖。堆壘柱狀圖的樣例如圖6-26所示。圖6-26堆壘柱狀圖的樣例6.4.3比例型數(shù)據(jù)可視化方法3.堆壘面積圖堆疊面積圖將多個數(shù)據(jù)系列按順序疊加顯示,對每個區(qū)域以不同的顏色填充,適用于展示多個類別或者多個變量的累積量或者占比情況。堆壘面積圖的樣例如圖6-27所示。圖6-27堆壘面積圖的樣例6.4.4分布型數(shù)據(jù)可視化方法分布型數(shù)據(jù)可以使用直方圖、箱型圖、概率密度圖等進(jìn)行可視化呈現(xiàn)。4.4分布型數(shù)據(jù)可視化方法1.直方圖直方圖又稱質(zhì)量分布圖,是一種統(tǒng)計(jì)報(bào)告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況,一般用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。直方圖是數(shù)值數(shù)據(jù)分布的精確圖形表示,為了構(gòu)建直方圖,需要將值的范圍均勻分段(分成多個箱),然后計(jì)算每個箱中有多少值,最后在坐標(biāo)軸上繪制每個箱中分布的值的數(shù)量。直方圖的樣例如圖6-28所示。圖6-29直方圖的樣例6.4.4分布型數(shù)據(jù)可視化方法2.箱形圖箱形圖又稱盒狀圖或箱線圖,是一種用來顯示一組數(shù)據(jù)分散情況的統(tǒng)計(jì)圖,因形狀如箱子而得名,在各種領(lǐng)域經(jīng)常被使用。箱形圖于1977年由美國著名統(tǒng)計(jì)學(xué)家約翰·圖基(JohnTukey)發(fā)明,它能顯示一組數(shù)據(jù)的最大值、最小值、中位數(shù)及第一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論