分類技術前沿問題-知識管理與數(shù)據(jù)分析試驗室課件_第1頁
分類技術前沿問題-知識管理與數(shù)據(jù)分析試驗室課件_第2頁
分類技術前沿問題-知識管理與數(shù)據(jù)分析試驗室課件_第3頁
分類技術前沿問題-知識管理與數(shù)據(jù)分析試驗室課件_第4頁
分類技術前沿問題-知識管理與數(shù)據(jù)分析試驗室課件_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

分類技術概論及前沿問題2022/12/201知識管理與數(shù)據(jù)分析實驗室分類技術概論及前沿問題2022/12/171知識管理與數(shù)據(jù)分主要內(nèi)容2022/12/20知識管理與數(shù)據(jù)分析實驗室2數(shù)據(jù)分類技術概況1數(shù)據(jù)分類方法介紹2各種方法比較評述3

分類技術前沿問題—人臉識別4主要內(nèi)容2022/12/17知識管理與數(shù)據(jù)分析實驗室2數(shù)據(jù)分數(shù)據(jù)分類的簡含義我們都曾經(jīng)有這樣的經(jīng)驗,在人流攢動的電影院門口等待相約而至的朋友,通過找尋與識別,能夠在人群中一下子發(fā)現(xiàn)熟悉的臉,其實這個過程就是一個數(shù)據(jù)分類的過程。相較于要發(fā)現(xiàn)的知識完全未知的無監(jiān)督學習,數(shù)據(jù)分類是一種典型的有監(jiān)督的機器學習方法,目的是從一組已知類別的數(shù)據(jù)中發(fā)現(xiàn)分類模型,以預測新數(shù)據(jù)的未知類別。2022/12/20知識管理與數(shù)據(jù)分析實驗室3數(shù)據(jù)分類的簡含義我們都曾經(jīng)有這樣的經(jīng)驗,在人流攢動的電影院門2022/12/20知識管理與數(shù)據(jù)分析實驗室4用剛才我們提到的尋找朋友的過程舉例,首先從自己熟知的朋友身上提取特點,比如臉型、身材、穿著等,這就形成了一個簡單的分類模型。然后在電影院門前對每一個發(fā)現(xiàn)的陌生人進行判斷,“是朋友”或者“不是朋友”,從而對新數(shù)據(jù)進行了預測?!蘹x2022/12/17知識管理與數(shù)據(jù)分析實驗室4用剛才我們提到分類技術的應用2022/12/20知識管理與數(shù)據(jù)分析實驗室5信用卡審批科學研究銀行醫(yī)療商業(yè)圖形處理有效性分析故障檢測醫(yī)療診斷目標市場定位工業(yè)●●●數(shù)據(jù)分類技術分類技術的應用2022/12/17知識管理與數(shù)據(jù)分析實驗室5數(shù)據(jù)分類的過程2022/12/20知識管理與數(shù)據(jù)分析實驗室6一個完整的數(shù)據(jù)分類過程一般包括模型構(gòu)造、模型測試和模型應用三個步驟,具體來說,我們可以將數(shù)據(jù)分成兩個數(shù)據(jù)集,分別是訓練集和測試集,用于模型構(gòu)造和模型測試。整體的步驟說明如下。

數(shù)據(jù)分類的過程2022/12/17知識管理與數(shù)據(jù)分析實驗室62022/12/20知識管理與數(shù)據(jù)分析實驗室71模型構(gòu)造在這個階段,分析樣本的類別和其具備的一些特征之間的依賴關系,并將這種關系用特定的模型表示出來。2模型測試測試的過程是對測試數(shù)據(jù)依次進行檢測,根據(jù)模型確定樣本的類別,與實際類別相比較,相同即是結(jié)果正確。3模型應用這個過程與模型測試基本相同,只是輸入的數(shù)據(jù)是未知的,例如,在電影院門口觀察陌生人,在其中尋找朋友。數(shù)據(jù)分類的過程詳解2022/12/17知識管理與數(shù)據(jù)分析實驗室71模型構(gòu)造2模2022/12/20知識管理與數(shù)據(jù)分析實驗室8數(shù)據(jù)分類方法介紹2數(shù)據(jù)分類方法介紹1各種方法評述3分類技術前沿問題—人臉識別42022/12/17知識管理與數(shù)據(jù)分析實驗室8數(shù)據(jù)分類方法介數(shù)據(jù)分類方法介紹

現(xiàn)在我們使用的分類方法中比較常用的有決策樹方法、神經(jīng)網(wǎng)絡方法、遺傳算法、支持向量機,除此以外還有粗糙集理論以及貝葉斯分類等方法,上圖詳細列出了現(xiàn)階段正在使用的各種分類方法,下面將對重要方法進行介紹。2022/12/20知識管理與數(shù)據(jù)分析實驗室9數(shù)據(jù)分類方法介紹現(xiàn)在我們使用的分類方法中比較常用2022/12/20知識管理與數(shù)據(jù)分析實驗室10決策樹分類法

所謂“決策樹”,顧名思義,它具有樹狀結(jié)構(gòu),根據(jù)層次的不同,節(jié)點分為根節(jié)點、內(nèi)部節(jié)點和葉節(jié)點三類,每個節(jié)點對應一個樣本集,根節(jié)點作為“樹根”,對應的是整個樣本集,內(nèi)部節(jié)點類似于樹干枝杈,對應樣本子集,葉節(jié)點就相當于樹葉了,對應一個類標志。根節(jié)點和內(nèi)部節(jié)點含有一個對于樣本屬性的測試,根據(jù)測試的結(jié)果將樣本集劃分為兩個或者多個子集,每個子集形成一個分支,由葉節(jié)點內(nèi)的類標志來標識,就像樹不斷分散的枝杈莖葉一樣,如右圖所示。2022/12/17知識管理與數(shù)據(jù)分析實驗室10決策樹分類法我們用制造廠商經(jīng)常使用會員分類案例來進一步說明決策樹的使用方法,在分類模型中,以年齡作為屬性,根節(jié)點對應的是整個樣本集即所有參與某自行車廠商調(diào)查的顧客,內(nèi)部節(jié)點對應樣本子集,比如年齡在67歲以上的顧客群體。根節(jié)點和內(nèi)部節(jié)點含有一個對于樣本屬性的測試,即對年齡加以限制的測試。使用1000個會員事例訓練模型后得到的決策樹分類如下:2022/12/20知識管理與數(shù)據(jù)分析實驗室11圖中矩形表示一個拆分節(jié)點,矩形中文字是拆分條件。矩形顏色深淺代表此節(jié)點包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點包含所有的1000個事例,顏色最深。節(jié)點中的條包含兩種顏色,紅色和藍色,分別表示此節(jié)點中的事例購買和不購買自行車的比例。這樣一來,便可以通過條件得出在哪個年齡段的哪些地區(qū)的人,最容易購買自行車,至此建立了模型。隨后可以從新導入一批已知數(shù)據(jù)進行模型測試,完成這個步驟,如果模型可用,便將其他的會員在分類模型中查找就可預測會員購買自行車的概率有多大,隨后自行車廠商就可以有選擇性的投遞廣告冊。我們用制造廠商經(jīng)常使用會員分類案例來進一步說明決策樹的使用方神經(jīng)網(wǎng)絡分類法

人類的大腦有近1000億個神經(jīng)元和十倍于此的神經(jīng)膠質(zhì)細胞。神經(jīng)網(wǎng)絡是一種具有若干連續(xù)處理結(jié)點的并行計算系統(tǒng),它建立了一種數(shù)學模型,試圖去模仿人類的大腦。

神經(jīng)網(wǎng)絡將每一個連接看作一個處理單元,這些處理單元結(jié)點通常稱作神經(jīng)元,來表明腦神經(jīng)之間的關系。2022/12/20知識管理與數(shù)據(jù)分析實驗室12神經(jīng)網(wǎng)絡分類法人類的大腦有近1000億個神經(jīng)元和十倍2022/12/20知識管理與數(shù)據(jù)分析實驗室13

神經(jīng)元采用一系列數(shù)學函數(shù),通過匯總和轉(zhuǎn)換對數(shù)據(jù)進行處理,一個神經(jīng)元的功能有限,但若干個神經(jīng)元連接起來形成系統(tǒng)后,就可以創(chuàng)建一個智能模型,神經(jīng)元可以有許多種不同的方式互連,為了更精確地擬合需要對建立模型的數(shù)據(jù)反復訓練若干次,甚至上千次。下圖是神經(jīng)網(wǎng)絡算法模擬人類大腦神經(jīng)元的詳細示例。2022/12/17知識管理與數(shù)據(jù)分析實驗室13神2022/12/20知識管理與數(shù)據(jù)分析實驗室14

為了更具體地明確神經(jīng)網(wǎng)絡算法的概念,我們用銀行對用戶劃分推廣不同的信用卡案例做分析。下圖中每個橢圓型節(jié)點接受輸入數(shù)據(jù),將數(shù)據(jù)處理后輸出。輸入層節(jié)點接受客戶信息的輸入,然后將數(shù)據(jù)傳遞給隱藏層,隱藏層將數(shù)據(jù)傳遞給輸出層,輸出層輸出客戶屬于哪類信用卡。這類似于人腦神經(jīng)元受到刺激時,神經(jīng)脈沖從一個神經(jīng)元傳遞到另一個神經(jīng)元。在大量客戶事例輸入后,模型會不斷調(diào)整,使之更吻合真實情況,就像是人腦通過在同一脈沖反復刺激下改變神經(jīng)鍵連接強度來進行學習。2022/12/17知識管理與數(shù)據(jù)分析實驗室14為了2022/12/20知識管理與數(shù)據(jù)分析實驗室15遺傳算法

“物競天擇,適者生存”是達爾文生物進化論的基本原理,解釋了物種總是向著更適應自然界的方向進化的規(guī)律,只有適應自然環(huán)境的個體才能幸存下來,繁衍后代,適應力差的會在競爭中被淘汰。遺傳算法(GeneticAlgorithms)從字面上看便是繼承生物學的,它模擬大自然中種群在選擇壓力下的演化,從而得到問題的一個近似解。2022/12/17知識管理與數(shù)據(jù)分析實驗室15遺傳算法2022/12/20知識管理與數(shù)據(jù)分析實驗室16遺傳算法流程在遺傳算法中,對于一個最優(yōu)化問題,一定數(shù)量的候選解(稱為個體)的抽象表示(稱為染色體)使得種群向更好的解進化。進化從完全隨機個體的種群開始,之后一代一代發(fā)生。在每一代中,整個種群的適應度被評價,從當前種群中隨機地選擇多個個體,通過自然選擇和突變產(chǎn)生新的生命種群,該種群在算法的下一次迭代中成為當前種群,具體的流程見右圖。2022/12/17知識管理與數(shù)據(jù)分析實驗室16遺傳算法流程2022/12/20知識管理與數(shù)據(jù)分析實驗室17為了使理解更加容易,我們引用網(wǎng)絡上面一個有趣的例子。首先,我們知道生物個體長什么樣子很大程度上是由染色體上的基因決定的。同樣,如果我們把100個半透明三角形組成的東西看成一個生物個體,比如扇貝,我們也可以說它的樣子是由這些三角形的具體位置和顏色決定的。所以,我們可以把一個一個的半透明三角形看作是這些扇貝的“基因”。而組成扇貝的這100個基因就組成了每個扇貝個體的“染色體”。程序的目的,是讓由100個三角形組成的扇貝,最終看上去像是Firefox的圖標,我們模擬生物界的繁衍行為,選擇兩個原有的扇貝,然后從這兩個扇貝的染色體中隨機選取一共100個基因組成新個體的染色體。在定義好基因,寫好繁衍、變異、評價適應性、淘汰和終止的代碼之后,我們隨機產(chǎn)生一個適當大小的種群,然后讓它這樣一代代的繁衍、變異和淘汰下去,到最后終止時會看到右上角圖的結(jié)果。2022/12/17知識管理與數(shù)據(jù)分析實驗室17為了使理解更2022/12/20知識管理與數(shù)據(jù)分析實驗室18支持向量機簡單概括,支持向量機用線性分類器劃分樣本空間,但是也可以處理線性不可分的情況。可分的時候存在超平面把訓練集一分為二,支持向量機能找到一個最優(yōu)的決策面,把訓練集最好地分割成兩類樣本,對于線性不可分的情況則是用核函數(shù)把樣本映射到一個高維空間中,然后在這個空間中尋找超平面分割兩種類別,正如右圖所示,左邊的是復雜的低維空間樣本分散,線性不可分,但通過核函數(shù)的映射,可以建立一個簡單的高維空間,在里面尋找到超平面。2022/12/17知識管理與數(shù)據(jù)分析實驗室18支持向量機簡2022/12/20知識管理與數(shù)據(jù)分析實驗室19統(tǒng)計分類法統(tǒng)計分類貝葉斯分類算法回歸算法貝葉斯網(wǎng)絡線性回歸邏輯回歸樸素貝葉斯2022/12/17知識管理與數(shù)據(jù)分析實驗室19統(tǒng)計分類法統(tǒng)2022/12/20知識管理與數(shù)據(jù)分析實驗室20粗糙集理論1982年,波蘭科學家Z.Pawlak提出了粗糙集理論,用來表示不精確或者不確定的概念。眾所周知,精確的概念有確定的邊界或者說外延,比如說“人”,而不精確的概念外延是沒有確定邊界的,比如“發(fā)達國家”。粗糙集理論把一個集合的個體分為肯定屬于、肯定不屬于以及無法確定三類,通過上近似和下近似(見下圖)運算,一個不精確的概念可以用一組精確的概念表示出來。2022/12/17知識管理與數(shù)據(jù)分析實驗室20粗糙集理論12022/12/20知識管理與數(shù)據(jù)分析實驗室21K-近鄰算法K-近鄰算法把一組已知類別的歷史數(shù)據(jù)作為訓練樣本集,根據(jù)已知樣本的類別對新樣本進行分類。它的思想如下:首先,計算新樣本與訓練樣本之間的距離,找到距離最近的K個鄰居,然后根據(jù)這些鄰居所屬的類別來判斷新樣本的類別,如果它們都屬于同一個類別,那么新樣本也是這個類別的,否則,對每個候選類別進行評分,按照某種規(guī)則確定新樣本的類別。下圖以不同像素焦距的相機價格舉例,要求出新樣本的價格,可以通過訓練樣本的值進行判斷。鄰居新樣本2022/12/17知識管理與數(shù)據(jù)分析實驗室21K-近鄰算法2022/12/20知識管理與數(shù)據(jù)分析實驗室22各種方法評述3數(shù)據(jù)分類方法介紹1數(shù)據(jù)分類方法介紹2分類技術前沿問題—人臉識別42022/12/17知識管理與數(shù)據(jù)分析實驗室22各種方法評述2022/12/20知識管理與數(shù)據(jù)分析實驗室23評價分類方法的標準上文中介紹了許多分類方法,不同的分類方法有自己的特點,分類的效果和數(shù)據(jù)有關,有的數(shù)據(jù)噪聲大,有的存在缺失,有的分布系數(shù),有的屬性間的相關性強,有的屬性是離散的,有的屬性是連續(xù)的或者混合的,因此,通用的分類方法并不存在。對于一個分類方法進行評價要考慮一下幾個方面的問題。準確度效率魯棒性擴展性可簡單表示數(shù)據(jù)質(zhì)量不一提升分類效果2022/12/17知識管理與數(shù)據(jù)分析實驗室23評價分類方法2022/12/20知識管理與數(shù)據(jù)分析實驗室24常用分類方法評述分類方法優(yōu)點缺點具體算法決策樹分類的準確率高學習速度比較快能表示成容易理解的分類規(guī)則能夠使用數(shù)據(jù)庫的SQL語句來實現(xiàn)決策樹很難基于多個變量的組合發(fā)現(xiàn)規(guī)則不同決策樹分支之間的分裂不平滑當類別多時,準確度下降

ID3,CART,C4.5,SLIQSPRINT,CHAID,See5,SPSS,CBA,FACT,OCL等神經(jīng)網(wǎng)絡分類精度高能發(fā)現(xiàn)非線性的模式不需預先對試驗樣本的統(tǒng)計分布作假設良好的自組織自適應性、并行處理、分布存儲和高度容錯模型的構(gòu)造是黑箱錯做,學習與決策過程難理解結(jié)果難表示為簡單分類樣本數(shù)據(jù)要求是數(shù)值類型,分類型數(shù)據(jù)要做離散化處理結(jié)果與網(wǎng)絡的拓撲結(jié)構(gòu)和權(quán)系數(shù)有關RBF,NeuroRule,ANFIS,FuNe,Fuzzy,RuleNet,RuleMiner,PNL,SNNSNeuralWare,brainmaker等遺傳算法群體收縮,隱含的并行處理通用性和魯棒性概率轉(zhuǎn)移準則學習速度比較慢結(jié)果與編碼方式、遺傳算子、運行參數(shù)關系密切基因編碼和目標函數(shù)的選擇比較復雜Discipulus,Evolver,GNUEvolver2022/12/17知識管理與數(shù)據(jù)分析實驗室24常用分類方法2022/12/20知識管理與數(shù)據(jù)分析實驗室25粗糙集不需要預先知道額外信息算法簡單、易于操作基于集合論,難以直接處理連續(xù)屬性當屬性值的個數(shù)多時,規(guī)則表示復雜產(chǎn)生的規(guī)則需要合并處理Datalogic,K-DYS,Grobian,RosettaRoughEnough,KDD-rLERS貝葉斯分類可以處理不完整和有噪聲的數(shù)據(jù),解決數(shù)據(jù)不一致問題用圖形方法描述數(shù)據(jù)間的相互關系,可理解性強具有不確定的只是表達形式,豐富的概率表達能力簡單貝葉斯分類假設屬性是相互獨立的NB,TAN,DxpressERGO,HUGIN等K-近鄰簡單、應用范圍廣可以通過SQL語言實現(xiàn)模型不需要預先構(gòu)造需要大量的訓練集數(shù)據(jù)搜索鄰居樣本的計算量大距離函數(shù)的確定比較困難分類的結(jié)果與參數(shù)有關TiMBL2022/12/17知識管理與數(shù)據(jù)分析實驗室25粗糙集不需要2022/12/20知識管理與數(shù)據(jù)分析實驗室26支持向量機適合小樣本給出學習結(jié)果的推廣能力的界能有效地處理非線性分類和非線性回歸計算量與樣本向量的維數(shù)幾乎無關解決多類別的分類比較困難核函數(shù)的選擇和參數(shù)設定比較復雜KXEN,BSVM,LIBSVMKernelMachine回歸分析有數(shù)學理論為依據(jù)需要確定模型的參數(shù)數(shù)據(jù)的分布不一定符合預先的假設不能處理離散型數(shù)據(jù)模型難以用簡單的形式描述LDA,QDA,NN,LOGFDA,PDA,MDA,POL多策略分析包括兩種以上的分類方法大多有圖形界面,使用方便由用戶選擇具體的分類方法,需要驚醒多次測試MLC++,JAM等2022/12/17知識管理與數(shù)據(jù)分析實驗室26支持向量機適2022/12/20知識管理與數(shù)據(jù)分析實驗室27分類技術前沿問題—人臉識別4數(shù)據(jù)分類方法介紹1數(shù)據(jù)分類方法介紹2各種方法評述32022/12/17知識管理與數(shù)據(jù)分析實驗室27分類技術前沿2022/12/20知識管理與數(shù)據(jù)分析實驗室28人臉識別系統(tǒng)定義人臉識別作為圖像分析與理解的一個應用領域,在近些年得到了研究界及向光領域的充分重視,在公安(罪犯識別等)、安全驗證系統(tǒng)、信用卡驗證、醫(yī)學、檔案管理、視頻會議、人機交互系統(tǒng)等方面都有著巨大應用前景。特別是在奧運會中,人臉識別技術了很大發(fā)展。右圖是北京奧運會中人臉識別系統(tǒng)的日常運行。2022/12/17知識管理與數(shù)據(jù)分析實驗室28人臉識別系統(tǒng)2022/12/20知識管理與數(shù)據(jù)分析實驗室29人臉識別的步驟輸入圖像預處理:歸一化人臉辨識:確定眼睛位置,尋找驗證人臉特征提取人臉識別識別結(jié)果在人臉識別領域內(nèi),近期比較前沿的技術為S.Rowels等人提出的LLE算法,此算法主要在特征提取中起作用,不僅能夠有效地發(fā)現(xiàn)數(shù)據(jù)的非線性結(jié)構(gòu),同時還具有平移、旋轉(zhuǎn)不變性。四川大學采用這種非線性降維方法提取人臉特征,然后將提取出來的特征輸入到BP神經(jīng)網(wǎng)絡進行訓練得到人臉的類間判別信息,最后進行人臉識別,該方法承接國家自然科學基金委的奧運重點項目,研究結(jié)果已經(jīng)在北京奧運會中得以體現(xiàn)。2022/12/17知識管理與數(shù)據(jù)分析實驗室29人臉識別的步2022/12/20知識管理與數(shù)據(jù)分析實驗室30四川大學LLE與BP神經(jīng)網(wǎng)絡算法流程利用四川大學的新近研究方法進行人臉識別的流程圖如右圖:訓練部分,將人臉庫的圖像進行光照預處理;再進行LLE運算得到低維人臉特征,然后送到BP神經(jīng)網(wǎng)絡進行訓練(三層BP神經(jīng)網(wǎng)絡)。識別部分,將待識別人臉預處理后,LLE降維后用BP網(wǎng)絡識別得到結(jié)果。2022/12/17知識管理與數(shù)據(jù)分析實驗室30四川大學LL2022/12/20知識管理與數(shù)據(jù)分析實驗室31附錄最新前沿性工作介紹(電子版)《基于LLE和BP神經(jīng)網(wǎng)絡的人臉識別》運用該方法的管理學博士碩士論文(代表性)《數(shù)據(jù)挖掘技術中分類算法的比較分析》2022/12/17知識管理與數(shù)據(jù)分析實驗室31附錄最新前沿2022/12/20知識管理與數(shù)據(jù)分析實驗室32謝謝!2022/12/17知識管理與數(shù)據(jù)分析實驗室32謝謝!分類技術概論及前沿問題2022/12/2033知識管理與數(shù)據(jù)分析實驗室分類技術概論及前沿問題2022/12/171知識管理與數(shù)據(jù)分主要內(nèi)容2022/12/20知識管理與數(shù)據(jù)分析實驗室34數(shù)據(jù)分類技術概況1數(shù)據(jù)分類方法介紹2各種方法比較評述3

分類技術前沿問題—人臉識別4主要內(nèi)容2022/12/17知識管理與數(shù)據(jù)分析實驗室2數(shù)據(jù)分數(shù)據(jù)分類的簡含義我們都曾經(jīng)有這樣的經(jīng)驗,在人流攢動的電影院門口等待相約而至的朋友,通過找尋與識別,能夠在人群中一下子發(fā)現(xiàn)熟悉的臉,其實這個過程就是一個數(shù)據(jù)分類的過程。相較于要發(fā)現(xiàn)的知識完全未知的無監(jiān)督學習,數(shù)據(jù)分類是一種典型的有監(jiān)督的機器學習方法,目的是從一組已知類別的數(shù)據(jù)中發(fā)現(xiàn)分類模型,以預測新數(shù)據(jù)的未知類別。2022/12/20知識管理與數(shù)據(jù)分析實驗室35數(shù)據(jù)分類的簡含義我們都曾經(jīng)有這樣的經(jīng)驗,在人流攢動的電影院門2022/12/20知識管理與數(shù)據(jù)分析實驗室36用剛才我們提到的尋找朋友的過程舉例,首先從自己熟知的朋友身上提取特點,比如臉型、身材、穿著等,這就形成了一個簡單的分類模型。然后在電影院門前對每一個發(fā)現(xiàn)的陌生人進行判斷,“是朋友”或者“不是朋友”,從而對新數(shù)據(jù)進行了預測?!蘹x2022/12/17知識管理與數(shù)據(jù)分析實驗室4用剛才我們提到分類技術的應用2022/12/20知識管理與數(shù)據(jù)分析實驗室37信用卡審批科學研究銀行醫(yī)療商業(yè)圖形處理有效性分析故障檢測醫(yī)療診斷目標市場定位工業(yè)●●●數(shù)據(jù)分類技術分類技術的應用2022/12/17知識管理與數(shù)據(jù)分析實驗室5數(shù)據(jù)分類的過程2022/12/20知識管理與數(shù)據(jù)分析實驗室38一個完整的數(shù)據(jù)分類過程一般包括模型構(gòu)造、模型測試和模型應用三個步驟,具體來說,我們可以將數(shù)據(jù)分成兩個數(shù)據(jù)集,分別是訓練集和測試集,用于模型構(gòu)造和模型測試。整體的步驟說明如下。

數(shù)據(jù)分類的過程2022/12/17知識管理與數(shù)據(jù)分析實驗室62022/12/20知識管理與數(shù)據(jù)分析實驗室391模型構(gòu)造在這個階段,分析樣本的類別和其具備的一些特征之間的依賴關系,并將這種關系用特定的模型表示出來。2模型測試測試的過程是對測試數(shù)據(jù)依次進行檢測,根據(jù)模型確定樣本的類別,與實際類別相比較,相同即是結(jié)果正確。3模型應用這個過程與模型測試基本相同,只是輸入的數(shù)據(jù)是未知的,例如,在電影院門口觀察陌生人,在其中尋找朋友。數(shù)據(jù)分類的過程詳解2022/12/17知識管理與數(shù)據(jù)分析實驗室71模型構(gòu)造2模2022/12/20知識管理與數(shù)據(jù)分析實驗室40數(shù)據(jù)分類方法介紹2數(shù)據(jù)分類方法介紹1各種方法評述3分類技術前沿問題—人臉識別42022/12/17知識管理與數(shù)據(jù)分析實驗室8數(shù)據(jù)分類方法介數(shù)據(jù)分類方法介紹

現(xiàn)在我們使用的分類方法中比較常用的有決策樹方法、神經(jīng)網(wǎng)絡方法、遺傳算法、支持向量機,除此以外還有粗糙集理論以及貝葉斯分類等方法,上圖詳細列出了現(xiàn)階段正在使用的各種分類方法,下面將對重要方法進行介紹。2022/12/20知識管理與數(shù)據(jù)分析實驗室41數(shù)據(jù)分類方法介紹現(xiàn)在我們使用的分類方法中比較常用2022/12/20知識管理與數(shù)據(jù)分析實驗室42決策樹分類法

所謂“決策樹”,顧名思義,它具有樹狀結(jié)構(gòu),根據(jù)層次的不同,節(jié)點分為根節(jié)點、內(nèi)部節(jié)點和葉節(jié)點三類,每個節(jié)點對應一個樣本集,根節(jié)點作為“樹根”,對應的是整個樣本集,內(nèi)部節(jié)點類似于樹干枝杈,對應樣本子集,葉節(jié)點就相當于樹葉了,對應一個類標志。根節(jié)點和內(nèi)部節(jié)點含有一個對于樣本屬性的測試,根據(jù)測試的結(jié)果將樣本集劃分為兩個或者多個子集,每個子集形成一個分支,由葉節(jié)點內(nèi)的類標志來標識,就像樹不斷分散的枝杈莖葉一樣,如右圖所示。2022/12/17知識管理與數(shù)據(jù)分析實驗室10決策樹分類法我們用制造廠商經(jīng)常使用會員分類案例來進一步說明決策樹的使用方法,在分類模型中,以年齡作為屬性,根節(jié)點對應的是整個樣本集即所有參與某自行車廠商調(diào)查的顧客,內(nèi)部節(jié)點對應樣本子集,比如年齡在67歲以上的顧客群體。根節(jié)點和內(nèi)部節(jié)點含有一個對于樣本屬性的測試,即對年齡加以限制的測試。使用1000個會員事例訓練模型后得到的決策樹分類如下:2022/12/20知識管理與數(shù)據(jù)分析實驗室43圖中矩形表示一個拆分節(jié)點,矩形中文字是拆分條件。矩形顏色深淺代表此節(jié)點包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點包含所有的1000個事例,顏色最深。節(jié)點中的條包含兩種顏色,紅色和藍色,分別表示此節(jié)點中的事例購買和不購買自行車的比例。這樣一來,便可以通過條件得出在哪個年齡段的哪些地區(qū)的人,最容易購買自行車,至此建立了模型。隨后可以從新導入一批已知數(shù)據(jù)進行模型測試,完成這個步驟,如果模型可用,便將其他的會員在分類模型中查找就可預測會員購買自行車的概率有多大,隨后自行車廠商就可以有選擇性的投遞廣告冊。我們用制造廠商經(jīng)常使用會員分類案例來進一步說明決策樹的使用方神經(jīng)網(wǎng)絡分類法

人類的大腦有近1000億個神經(jīng)元和十倍于此的神經(jīng)膠質(zhì)細胞。神經(jīng)網(wǎng)絡是一種具有若干連續(xù)處理結(jié)點的并行計算系統(tǒng),它建立了一種數(shù)學模型,試圖去模仿人類的大腦。

神經(jīng)網(wǎng)絡將每一個連接看作一個處理單元,這些處理單元結(jié)點通常稱作神經(jīng)元,來表明腦神經(jīng)之間的關系。2022/12/20知識管理與數(shù)據(jù)分析實驗室44神經(jīng)網(wǎng)絡分類法人類的大腦有近1000億個神經(jīng)元和十倍2022/12/20知識管理與數(shù)據(jù)分析實驗室45

神經(jīng)元采用一系列數(shù)學函數(shù),通過匯總和轉(zhuǎn)換對數(shù)據(jù)進行處理,一個神經(jīng)元的功能有限,但若干個神經(jīng)元連接起來形成系統(tǒng)后,就可以創(chuàng)建一個智能模型,神經(jīng)元可以有許多種不同的方式互連,為了更精確地擬合需要對建立模型的數(shù)據(jù)反復訓練若干次,甚至上千次。下圖是神經(jīng)網(wǎng)絡算法模擬人類大腦神經(jīng)元的詳細示例。2022/12/17知識管理與數(shù)據(jù)分析實驗室13神2022/12/20知識管理與數(shù)據(jù)分析實驗室46

為了更具體地明確神經(jīng)網(wǎng)絡算法的概念,我們用銀行對用戶劃分推廣不同的信用卡案例做分析。下圖中每個橢圓型節(jié)點接受輸入數(shù)據(jù),將數(shù)據(jù)處理后輸出。輸入層節(jié)點接受客戶信息的輸入,然后將數(shù)據(jù)傳遞給隱藏層,隱藏層將數(shù)據(jù)傳遞給輸出層,輸出層輸出客戶屬于哪類信用卡。這類似于人腦神經(jīng)元受到刺激時,神經(jīng)脈沖從一個神經(jīng)元傳遞到另一個神經(jīng)元。在大量客戶事例輸入后,模型會不斷調(diào)整,使之更吻合真實情況,就像是人腦通過在同一脈沖反復刺激下改變神經(jīng)鍵連接強度來進行學習。2022/12/17知識管理與數(shù)據(jù)分析實驗室14為了2022/12/20知識管理與數(shù)據(jù)分析實驗室47遺傳算法

“物競天擇,適者生存”是達爾文生物進化論的基本原理,解釋了物種總是向著更適應自然界的方向進化的規(guī)律,只有適應自然環(huán)境的個體才能幸存下來,繁衍后代,適應力差的會在競爭中被淘汰。遺傳算法(GeneticAlgorithms)從字面上看便是繼承生物學的,它模擬大自然中種群在選擇壓力下的演化,從而得到問題的一個近似解。2022/12/17知識管理與數(shù)據(jù)分析實驗室15遺傳算法2022/12/20知識管理與數(shù)據(jù)分析實驗室48遺傳算法流程在遺傳算法中,對于一個最優(yōu)化問題,一定數(shù)量的候選解(稱為個體)的抽象表示(稱為染色體)使得種群向更好的解進化。進化從完全隨機個體的種群開始,之后一代一代發(fā)生。在每一代中,整個種群的適應度被評價,從當前種群中隨機地選擇多個個體,通過自然選擇和突變產(chǎn)生新的生命種群,該種群在算法的下一次迭代中成為當前種群,具體的流程見右圖。2022/12/17知識管理與數(shù)據(jù)分析實驗室16遺傳算法流程2022/12/20知識管理與數(shù)據(jù)分析實驗室49為了使理解更加容易,我們引用網(wǎng)絡上面一個有趣的例子。首先,我們知道生物個體長什么樣子很大程度上是由染色體上的基因決定的。同樣,如果我們把100個半透明三角形組成的東西看成一個生物個體,比如扇貝,我們也可以說它的樣子是由這些三角形的具體位置和顏色決定的。所以,我們可以把一個一個的半透明三角形看作是這些扇貝的“基因”。而組成扇貝的這100個基因就組成了每個扇貝個體的“染色體”。程序的目的,是讓由100個三角形組成的扇貝,最終看上去像是Firefox的圖標,我們模擬生物界的繁衍行為,選擇兩個原有的扇貝,然后從這兩個扇貝的染色體中隨機選取一共100個基因組成新個體的染色體。在定義好基因,寫好繁衍、變異、評價適應性、淘汰和終止的代碼之后,我們隨機產(chǎn)生一個適當大小的種群,然后讓它這樣一代代的繁衍、變異和淘汰下去,到最后終止時會看到右上角圖的結(jié)果。2022/12/17知識管理與數(shù)據(jù)分析實驗室17為了使理解更2022/12/20知識管理與數(shù)據(jù)分析實驗室50支持向量機簡單概括,支持向量機用線性分類器劃分樣本空間,但是也可以處理線性不可分的情況。可分的時候存在超平面把訓練集一分為二,支持向量機能找到一個最優(yōu)的決策面,把訓練集最好地分割成兩類樣本,對于線性不可分的情況則是用核函數(shù)把樣本映射到一個高維空間中,然后在這個空間中尋找超平面分割兩種類別,正如右圖所示,左邊的是復雜的低維空間樣本分散,線性不可分,但通過核函數(shù)的映射,可以建立一個簡單的高維空間,在里面尋找到超平面。2022/12/17知識管理與數(shù)據(jù)分析實驗室18支持向量機簡2022/12/20知識管理與數(shù)據(jù)分析實驗室51統(tǒng)計分類法統(tǒng)計分類貝葉斯分類算法回歸算法貝葉斯網(wǎng)絡線性回歸邏輯回歸樸素貝葉斯2022/12/17知識管理與數(shù)據(jù)分析實驗室19統(tǒng)計分類法統(tǒng)2022/12/20知識管理與數(shù)據(jù)分析實驗室52粗糙集理論1982年,波蘭科學家Z.Pawlak提出了粗糙集理論,用來表示不精確或者不確定的概念。眾所周知,精確的概念有確定的邊界或者說外延,比如說“人”,而不精確的概念外延是沒有確定邊界的,比如“發(fā)達國家”。粗糙集理論把一個集合的個體分為肯定屬于、肯定不屬于以及無法確定三類,通過上近似和下近似(見下圖)運算,一個不精確的概念可以用一組精確的概念表示出來。2022/12/17知識管理與數(shù)據(jù)分析實驗室20粗糙集理論12022/12/20知識管理與數(shù)據(jù)分析實驗室53K-近鄰算法K-近鄰算法把一組已知類別的歷史數(shù)據(jù)作為訓練樣本集,根據(jù)已知樣本的類別對新樣本進行分類。它的思想如下:首先,計算新樣本與訓練樣本之間的距離,找到距離最近的K個鄰居,然后根據(jù)這些鄰居所屬的類別來判斷新樣本的類別,如果它們都屬于同一個類別,那么新樣本也是這個類別的,否則,對每個候選類別進行評分,按照某種規(guī)則確定新樣本的類別。下圖以不同像素焦距的相機價格舉例,要求出新樣本的價格,可以通過訓練樣本的值進行判斷。鄰居新樣本2022/12/17知識管理與數(shù)據(jù)分析實驗室21K-近鄰算法2022/12/20知識管理與數(shù)據(jù)分析實驗室54各種方法評述3數(shù)據(jù)分類方法介紹1數(shù)據(jù)分類方法介紹2分類技術前沿問題—人臉識別42022/12/17知識管理與數(shù)據(jù)分析實驗室22各種方法評述2022/12/20知識管理與數(shù)據(jù)分析實驗室55評價分類方法的標準上文中介紹了許多分類方法,不同的分類方法有自己的特點,分類的效果和數(shù)據(jù)有關,有的數(shù)據(jù)噪聲大,有的存在缺失,有的分布系數(shù),有的屬性間的相關性強,有的屬性是離散的,有的屬性是連續(xù)的或者混合的,因此,通用的分類方法并不存在。對于一個分類方法進行評價要考慮一下幾個方面的問題。準確度效率魯棒性擴展性可簡單表示數(shù)據(jù)質(zhì)量不一提升分類效果2022/12/17知識管理與數(shù)據(jù)分析實驗室23評價分類方法2022/12/20知識管理與數(shù)據(jù)分析實驗室56常用分類方法評述分類方法優(yōu)點缺點具體算法決策樹分類的準確率高學習速度比較快能表示成容易理解的分類規(guī)則能夠使用數(shù)據(jù)庫的SQL語句來實現(xiàn)決策樹很難基于多個變量的組合發(fā)現(xiàn)規(guī)則不同決策樹分支之間的分裂不平滑當類別多時,準確度下降

ID3,CART,C4.5,SLIQSPRINT,CHAID,See5,SPSS,CBA,FACT,OCL等神經(jīng)網(wǎng)絡分類精度高能發(fā)現(xiàn)非線性的模式不需預先對試驗樣本的統(tǒng)計分布作假設良好的自組織自適應性、并行處理、分布存儲和高度容錯模型的構(gòu)造是黑箱錯做,學習與決策過程難理解結(jié)果難表示為簡單分類樣本數(shù)據(jù)要求是數(shù)值類型,分類型數(shù)據(jù)要做離散化處理結(jié)果與網(wǎng)絡的拓撲結(jié)構(gòu)和權(quán)系數(shù)有關RBF,NeuroRule,ANFIS,FuNe,Fuzzy,RuleNet,RuleMiner,PNL,SNNSNeuralWare,brainmaker等遺傳算法群體收縮,隱含的并行處理通用性和魯棒性概率轉(zhuǎn)移準則學習速度比較慢結(jié)果與編碼方式、遺傳算子、運行參數(shù)關系密切基因編碼和目標函數(shù)的選擇比較復雜Discipulus,Evolver,GNUEvolver2022/12/17知識管理與數(shù)據(jù)分析實驗室24常用分類方法2022/12/20知識管理與數(shù)據(jù)分析實驗室57粗糙集不需要預先知道額外信息算法簡單、易于操作基于集合論,難以直接處理連續(xù)屬性當屬性值的個數(shù)多時,規(guī)則表示復雜產(chǎn)生的規(guī)則需要合并處理Datalogic,K-DYS,Grobian,RosettaRoughEnough,KDD-rLERS貝葉斯分類可以處理不完整和有噪聲的數(shù)據(jù),解決數(shù)據(jù)不一致問題用圖形方法描述數(shù)據(jù)間的相互關系,可理解性強具有不確定的只是表達形式,豐富的概率表達能力簡單貝葉斯分類假設屬性是相互獨立的NB,TAN,DxpressERGO,HUGIN等K-近鄰簡單、應用范圍廣可以通過SQL語言實現(xiàn)模型不需要預先構(gòu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論