大數(shù)據(jù)應用基礎聚類算法2_第1頁
大數(shù)據(jù)應用基礎聚類算法2_第2頁
大數(shù)據(jù)應用基礎聚類算法2_第3頁
大數(shù)據(jù)應用基礎聚類算法2_第4頁
大數(shù)據(jù)應用基礎聚類算法2_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

聚類分析1注意我們考核非常松盡可能全部高于80分。2一個簡單的聚類例子這是按照顏色進行一維聚類。實踐中,維度經常多于一個。3基本特點聚類(clustering)是指根據(jù)“物以類聚”原理,將本身尚未歸類的樣本根據(jù)多個維度(多個屬性)聚集成不同的組,這樣的一組數(shù)據(jù)對象的集合叫做簇或群組。怎樣聚類算成功呢?經過劃分后,使得:屬于同一群組的樣本之間彼此足夠相似,屬于不同群組的樣本應該足夠不相似。4分類與聚類的區(qū)別分類(Classification)有訓練過程。分類是事先定義好類別,類別數(shù)不變。分類器需要由人工標注的分類訓練數(shù)據(jù)集訓練得到,屬于有指導學習范疇。而聚類則是沒有訓練過程。在進行聚類前,并不知道將要劃分成幾個組和什么樣的組。聚類則沒有事先預定的類別,類別數(shù)不確定。聚類不需要人工標注和預先訓練分類器,類別在聚類過程中自動生成。5聚類分析的主要應用領域作為獨立的工具來分析數(shù)據(jù)發(fā)現(xiàn)離群點為其他算法做數(shù)據(jù)預處理6聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案

7聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案

例子:如圖,按照收入和年齡把客戶聚類為兩類8聚類的其他應用按照血型對學生進行分班確定婚禮客人如何排座位9離群點檢測離群點檢測和聚類是高度相關的。聚類是發(fā)現(xiàn)數(shù)據(jù)集中的主要群體,而離群點檢測則試圖識別那些顯著偏離多數(shù)實例的異常情況。離群點檢測可以用聚類方法,但也可以用其它方法,例如:分類方法。其常見的目的是:信用卡欺詐檢測。這需要把和正常交易明顯不同的交易識別出來。例如,盜竊卡的人的購物地點和所購商品都很不同于真正的卡主、也不同于大多數(shù)顧客。比如,其一次購物量比卡主大得多,并且購物地點遠離卡主的通常的購物地點。10聚類算法的分類類聚類算法主要包括:劃分方法((PartitioningMethod):包括K均值方法等等層次方法((HierarchicalMethod)基于密度的方法(Density-based)基于網格的方法(Grid-based)基于模型的方法(Model-based)其中,前兩種方法法最常用。11K均值算法K-means算法是無可可爭議的使使用最多的的算法。它是劃分方方法的一種種。它原理簡單單,容易實實現(xiàn)。它適合使用用數(shù)值型屬屬性,而不不是類別型型屬性。它的一個不不足之處是是:對于離兩個群組組的中心都都很近的點點,你會不不知道該放放到哪個群群組中。這其實也也是其他一一些聚類算算法的局限限性。12K均值算法的步驟驟K均值算法,,概括起來來有五個步步驟:設定一個數(shù)數(shù)K,表明總共共有幾個群群簇(組));從所有實例中中隨機選擇K個實例,分別代表一一個群簇的的初始中心;對剩余的每個實例,,根據(jù)其與各各個組的初始中心的距離,將它們分配到離自己最近近的一個群群簇中;然后,更新群簇中心,即:重新新計算得出出每個群簇簇的新的中中心點;這個過程不斷重復(即:重復復第3、4步),直到每個群群簇中心不再變化,即直到所所有實例在K組分布中都都找到離自自己最近的群簇。13K均值算法——什么是中心心值14K均值算法的的步驟注意看C點,它離上上面的群的的新的的距距離中心比比離下面那那個群的新新的中心更更近,所以以它被重新新劃分到上上面那個群群了。15K均值算法的步驟驟16K均值算法的的應用:圖圖像壓縮群的個數(shù)越越少,意味味著圖像被被轉化成顏顏色數(shù)量很很少的圖像像了。17K均值算法的的應用:圖圖像壓縮原理和上面面人物照片片是一致的的。18K均值算法可以用用于三個維維度前面圖像壓壓縮的例子子是基于一一個維度。。這里抽象展展示了基于于三個維度度的聚類。。19如何在軟件中為K均值算法設設定參數(shù)在軟件中,,通常都要要設定群的個數(shù)。還可以指定距離的度量量方式。例如如選擇歐幾幾里德距離離或曼哈頓頓距離。大大多數(shù)聚類類分析都使使用距離度度量來衡量量兩個實例例之間的遠遠近。20如何在軟件件中為K均值算法設設定參數(shù)此外,還可可以設定聚聚類時采用哪些屬性同時,數(shù)據(jù)標準化是聚類分析析中最重要要的一個數(shù)數(shù)據(jù)預處理理步驟。如果果之前沒做做過標準化化,可以現(xiàn)現(xiàn)在進行。。21如何評價聚聚類分析的的結果?這方面和分分類算法有有一個顯著著不同:分類算法的的評判有訓訓練集、驗驗證集的客客觀參照。。而聚類結果果的評判缺乏很明確確、客觀的、、統(tǒng)計學意意義上的參照依據(jù)。對于聚類,,業(yè)務專家從實踐踐角度的評評估是最重重要的評價價層面。如如果多數(shù)業(yè)業(yè)務專家對對于聚類的的結果都看看不懂,那那么這個結結果很可能能是值得懷懷疑的。如果聚類的的結果比較較容易理解解、解釋,,業(yè)務人員員會更能實實施這個結結果。22聚類之前的的預處理——特征篩選在實踐中,,聚類中的的輸入變量不不能太多,尤其是在在樣本數(shù)量量有限的情情況下。否則:運算耗時;;更重要的是是變量之間間的相關性性會損害聚聚類效果;;變量太多會使人難難以理解每每個群的實實際含義。。因此,通常常會采用相關性分析、結合合業(yè)務知識識進行變量量篩選等方方法來降維維。然后根根據(jù)少量幾幾個維度進進行聚類類。被篩掉的變變量可以在在聚類完成成后再用于于對每個群群的進一步步分析,比比如描述性性統(tǒng)計、分分類算法。。23聚類之前的的預處理——異常值K-means對數(shù)據(jù)的噪噪聲和異常值比較敏感。。這些個別數(shù)數(shù)據(jù)對于平平均值的影影響非常大大。為此,我們們可以:直接刪除那那些比其他他任何數(shù)據(jù)據(jù)點都要遠遠離聚類中中心點的異異常值。與此類似地地,在聚類類之后,有些些群體內樣樣本數(shù)量太太少、這種種群體在實實際應用中中可以忽略略不計。采用隨機抽樣。。這樣,作作為稀有事事件的數(shù)據(jù)據(jù)噪聲和異異常值能被被抽進樣本本的概率會會

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論