文本挖掘算法總結(jié)_第1頁(yè)
文本挖掘算法總結(jié)_第2頁(yè)
文本挖掘算法總結(jié)_第3頁(yè)
文本挖掘算法總結(jié)_第4頁(yè)
文本挖掘算法總結(jié)_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第 PAGE29 頁(yè) 共 NUMPAGES29 頁(yè)文本挖掘算法總結(jié)文本數(shù)據(jù)挖掘算法應(yīng)用小結(jié) 1、基于概率統(tǒng)計(jì)的貝葉斯分類 2、ID3 決策樹分類 3、基于粗糙集理論Rough Set的確定型知識(shí)挖掘 4、基于k-means聚類 5、無(wú)限細(xì)分的模糊聚類Fuzzy Clustering 6、SOM神經(jīng)元網(wǎng)絡(luò)聚類 7、基于Meaning的文本相似度計(jì)算 8、文本模糊聚類計(jì)算 9、文本k-means聚類 10、文本分類 11、關(guān)聯(lián)模式發(fā)現(xiàn) 12、序列模式發(fā)現(xiàn) 13、PCA主成分分析p 1、基于概率統(tǒng)計(jì)的貝葉斯分類 算法概述:貝葉斯公式是由英國(guó)數(shù)學(xué)家( Thomas Bayes 1702-1763 )創(chuàng)

2、造,用來(lái)描述兩個(gè)條件概率之間的關(guān)系,比如 P(A|B) 為當(dāng)“B”事件發(fā)生時(shí)“A”事件發(fā)生的概率,按照乘法法則: P(AB)=P(A)*P(B|A)=P(B)*P(A|B),可導(dǎo)出 貝葉斯公式:P(A|B)=P(B|A)*P(A)/P(B) 貝葉斯分類基本思想為:設(shè)決策變量為D,D1,D2,Di,Dk為n條記錄組成的樣本空間S的一個(gè)劃分,將n條記錄劃分成k個(gè)記錄集合,如果以P(Di)表示事件Di發(fā)生的概率,且P(Di) 0 ( i=1,2,k)。對(duì)于任一事件x,P(x)0,則有: 貝葉斯分類的基本原理,就是利用貝葉斯條件概率公式,將事件X視為多個(gè)條件屬性Cj各種取值的組合,當(dāng)x事件發(fā)生時(shí)決策屬

3、性Di發(fā)生的條件概率。貝葉斯分類是一種概率型分類知識(shí)挖掘方法,不能百分之百地確定X事件發(fā)生時(shí)Di一定發(fā)生。 解決問題:預(yù)測(cè)所屬分類的概率。通過已知n條樣本集記錄,計(jì)算各種條件屬性組發(fā)生的概率,得出“貝葉斯分類”規(guī)則,給定一個(gè)未知“標(biāo)簽”記錄,選擇最大概率為其所屬“分類”。 2、ID3 決策樹分類 算法概述:ID3算法是J.Ross Quinlan在1975提出的分類算法,當(dāng)時(shí)還沒有“數(shù)據(jù)挖掘”的概念。該算法以信息論為基礎(chǔ),以信息熵和信息增益度來(lái)確定分枝生成決策樹D-Tree。ID3算法以決策樹D-Tree構(gòu)建分類知識(shí)模型,D-Tree中最上面的節(jié)點(diǎn)為根節(jié)點(diǎn)Root,每個(gè)分支是一個(gè)新的決策節(jié)點(diǎn),

4、或者是樹的葉子。每個(gè)決策節(jié)點(diǎn)代表一個(gè)問題或決策,每一個(gè)葉子節(jié)點(diǎn)代表一種可能的分類結(jié)果,沿決策樹在每個(gè)節(jié)點(diǎn)都會(huì)遇到一個(gè)測(cè)試,對(duì)每個(gè)節(jié)點(diǎn)上問題的不同取值導(dǎo)致不同的分支,最后會(huì)到達(dá)一個(gè)葉子節(jié)點(diǎn)為確定所屬分類。 解決問題:預(yù)測(cè)所屬分類。通過已知樣本集記錄,生成一顆“分類知識(shí)樹”, 給定一個(gè)未知“標(biāo)簽”記錄,通過“分類知識(shí)樹”來(lái)確定其所屬分類。 3、基于粗糙集理論Rough Set的確定型知識(shí)挖掘 算法概述:1982年波蘭學(xué)者Z.Paw lak 提出了粗糙集理論Rough Sets Theory,它是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,能有效分析p 不精確、不一致(Inconsistent)、不完整(

5、Inplete) 等各種不完備信息,利用數(shù)據(jù)進(jìn)行分析p 和推理,從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律。粗糙集理論是繼概率論、模糊集、證據(jù)理論之后的又一個(gè)處理不確定性事物的數(shù)學(xué)工具。粗糙集理論是建立在分類機(jī)制的基礎(chǔ)上的,它將分類理解為在特定空間上的等價(jià)關(guān)系,而等價(jià)關(guān)系構(gòu)成了對(duì)該空間的劃分。粗糙集理論將知識(shí)理解為對(duì)數(shù)據(jù)的劃分,每一被劃分的集合稱為概念。其主要思想是利用已知的知識(shí)庫(kù),將不精確或不確定的知識(shí)用已知的知識(shí)庫(kù)中的知識(shí)來(lái)(近似) 刻畫。 解決問題:預(yù)測(cè)所屬分類。粗糙集分類將樣本空間S劃分為上近似集(Upper approximation)、下近似集(Lower approximation)、邊

6、界集(Boundary region),挖掘條件屬性C與決策屬性D集合所包含的不可分記錄(不能再細(xì)分,該集合中的所有記錄都屬于某一決策屬性Di的取值),這些記錄形成不可辨識(shí)的關(guān)系(Indiscernibility relation),由此確定分類規(guī)則: IF THEN 即,如果滿條件C,則其所屬分類為Di。IF中的條件C可以是單一條件,也可以是組合and(并且)組合條件。 BIC給出的是“最小分類規(guī)則”。所謂“最小分類規(guī)則”是,最少的條件組合。例如一個(gè)人屬于“高”、“富”、“帥”,條件為:“身高”、“財(cái)富”、“工資性收入”、“財(cái)產(chǎn)性收入”、“產(chǎn)業(yè)收入”、“臉型”、“眼睛大小”、“鼻梁形狀”、“

7、英俊”等條件來(lái)判別,通過“粗糙集”分類計(jì)算,得出最小分類規(guī)則可能是 “IF 財(cái)富=XXX1 and 身高=185cm and 相貌=英俊” 其他條件可以忽略不計(jì),這就是“最小分類規(guī)則”。 “粗糙集”分類規(guī)則為“百分之百確定型”分類規(guī)則,這是對(duì)樣本集的統(tǒng)計(jì)結(jié)果,如果出現(xiàn)非“樣本集”中出現(xiàn)過的條件變量屬性,將無(wú)法得出“粗糙集”,可轉(zhuǎn)而使用概率型“貝葉斯分類”進(jìn)行計(jì)算。 4、基于k-means聚類 算法概述:給定一個(gè)包括n條記錄、每條記錄有m個(gè)屬性 的樣本集,再給出分類數(shù)k,要求將樣本集中的記錄,按記錄間的相似性大?。ɑ蚓嚯x遠(yuǎn)近),將相似性最大(或距離最近)的記錄劃分到k個(gè)類中,相同分類中記錄間的距

8、離要盡可能地小,而分類之間的距離要盡可能地大。 BIC改進(jìn)了常規(guī)的k-means聚類算法,在聚類過程中,同時(shí)計(jì)算分類質(zhì)量(類內(nèi)均差 、類間均距和),并求解最優(yōu)聚類max。 解決問題:將n條記錄聚成k個(gè)分類。對(duì)n個(gè)樣本集記錄,指定分類個(gè)數(shù)k,為k個(gè)分類指定初始迭代記錄為k個(gè)分類中心,通過計(jì)算其他記錄對(duì)k個(gè)分類中心的距離,對(duì)不斷變換分類、變換類中心,收斂都當(dāng)分類不再變化時(shí),計(jì)算結(jié)束。由此,將n個(gè)樣本集記錄分配到k個(gè)分類中,得到k個(gè)分類中心指標(biāo)。 5、無(wú)限細(xì)分的模糊聚類Fuzzy Clustering 算法概述:在實(shí)際解決聚類問題時(shí),很多數(shù)事物是“模糊”的,其特征屬性A無(wú)法確進(jìn)行量化,如:人的相貌、

9、人與人之間的關(guān)系、人的性格、購(gòu)買商品的意愿等,這就需要用模糊數(shù)學(xué)來(lái)進(jìn)行相似性計(jì)算。模糊數(shù)學(xué)是伴隨著上世紀(jì)五六十年代興起的控制論、信息論、系統(tǒng)論(俗稱“老三論”)而形成的一種決策方法,是美國(guó)加利福尼亞大學(xué)伯克利分校Lotfi Zadeh教授于1965年創(chuàng)立的。 模糊聚類基本計(jì)算步驟為: (1)將樣本集中的n條記錄變換成n x n的模糊相似矩陣;(2)通過傳遞包卷積計(jì)算將模糊相似矩陣變換成等價(jià)相似矩陣;(3)最后通過截矩陣將n條記錄分成1-n個(gè)分類。 K-means聚類需事先確定聚類數(shù)k,而模糊聚類Fuzzy Clustering無(wú)需事先確定聚類數(shù)k,可以從最小的k=1(所有學(xué)習(xí)集中的n條記錄為1

10、個(gè)分類),到k=n(所有學(xué)習(xí)集中的n條記錄各為1個(gè)分類)。 解決問題:將n條記錄聚成1-n個(gè)分類。模糊聚類Fuzzy Clustering算法完全基于數(shù)據(jù)自然狀況進(jìn)行聚類,可產(chǎn)生聚類的解集合(k=1,2,n),因此,可以在解集合中求解最優(yōu)聚類max,這對(duì)觀察分析p 樣本集的數(shù)據(jù)性態(tài)非常有用,可供觀察不同情況下的“聚類”狀況。 6、SOM神經(jīng)元網(wǎng)絡(luò)聚類 算法概述:人類對(duì)事物的認(rèn)知是一個(gè)不斷積累的過程,通過對(duì)事物的觀察,不斷地認(rèn)識(shí)和修正因果關(guān)系,最后逐漸穩(wěn)定為認(rèn)知規(guī)則。醫(yī)學(xué)證明,人眼的視網(wǎng)膜、脊髓和海馬中存一種側(cè)抑制現(xiàn)象,即,當(dāng)一個(gè)神經(jīng)細(xì)胞興奮后,會(huì)對(duì)其周圍的神經(jīng)細(xì)胞產(chǎn)生抑制作用。這種側(cè)抑制使神經(jīng)

11、細(xì)胞之間呈現(xiàn)出競(jìng)爭(zhēng),開始時(shí)可能多個(gè)細(xì)胞同時(shí)興奮,但一個(gè)興奮程度最強(qiáng)的神經(jīng)細(xì)胞對(duì)周圍神經(jīng)細(xì)胞的抑制作用也最強(qiáng),其結(jié)果使其周圍神經(jīng)細(xì)胞興奮程度減弱,從而該神經(jīng)細(xì)胞是這次競(jìng)爭(zhēng)的“勝者”,其它神經(jīng)細(xì)胞在競(jìng)爭(zhēng)中失敗。 1981年芬蘭學(xué)者kohonen提出一個(gè)稱為自組織特征映射(Self Organization Feature Map-SOM或SOFM)網(wǎng)絡(luò),前述大腦神經(jīng)細(xì)胞興奮規(guī)律等,在該網(wǎng)絡(luò)中都得到了反應(yīng)。在競(jìng)爭(zhēng)層神經(jīng)元之間的連線,它們是模擬生物神經(jīng)網(wǎng)絡(luò)層內(nèi)神經(jīng)元相互抑制現(xiàn)象的權(quán)值,這類抑制性權(quán)值滿足一定的分布關(guān)系,如距離近的抑制強(qiáng),距離遠(yuǎn)的抑制弱。 通過上述可知,SOM聚類算法設(shè)計(jì)的核心思想是體現(xiàn)

12、神經(jīng)元在認(rèn)知過程中的3個(gè)特性: (1)根據(jù)樣本比較,逐步積累、不斷修正、漸近穩(wěn)定特性? (2)神經(jīng)元之間的側(cè)抑由近到遠(yuǎn)、逐步衰弱制特性? (3)神經(jīng)元興奮區(qū)域隨認(rèn)知次數(shù)逐步縮小范圍特性? BIC采用歐氏距離作為輸入模式Xi與各輸出神經(jīng)元Wj之間的相似度,選擇具有最小距離的神經(jīng)元為興奮神經(jīng)元;采用(1-ti/tm)作為學(xué)習(xí)衰減函數(shù),其中ti 為當(dāng)前學(xué)習(xí)次數(shù)(第幾次樣本訓(xùn)練),tm 為總的學(xué)習(xí)數(shù),以此來(lái)體現(xiàn)上述特性“1”;采用(1-ti/T)、C/Wij作為神經(jīng)元側(cè)抑制函數(shù),其中C為設(shè)定的常數(shù)、Wij為被選中的神經(jīng)元與其他神經(jīng)元最遠(yuǎn)距離,來(lái)體現(xiàn)上述特性“2”、“3”。 解決問題:將n條記錄按m個(gè)輸

13、出神經(jīng)元聚成m個(gè)分類。模仿人類的學(xué)習(xí)方法,對(duì)事物的認(rèn)識(shí)是一個(gè)由淺入深、逐步學(xué)習(xí)、修正的過程,將對(duì)各種要素組態(tài)的認(rèn)識(shí)逐步穩(wěn)定到認(rèn)知領(lǐng)域,由此進(jìn)行“聚類”。 7、基于Meaning的文本相似度計(jì)算 算法概述:給出一組n個(gè)文檔D,BIC為每個(gè)文檔計(jì)算出一組最具有代表性的詞組,同時(shí),計(jì)算出相互間內(nèi)容接近度及接近序列。 BIC的Meaning挖掘與自動(dòng)搜索不同于現(xiàn)有Baidu、Google人工輸入【關(guān)鍵詞】:p 的搜索方式,現(xiàn)有搜索引擎不考慮語(yǔ)義和語(yǔ)境,只考慮詞W與文檔D的包含關(guān)系和詞在文檔內(nèi)的頻數(shù)TF,因此,【關(guān)鍵詞】:p 的搜索與文檔內(nèi)容無(wú)關(guān)。 例如:“姚明”是中國(guó)籃球的驕傲,但“姚明”還投身于公益

14、事業(yè),如果在搜索引擎中輸入“姚明”,不見得搜索的文檔內(nèi)容只包含與籃球相關(guān)的內(nèi)容,還可能包括公益及其他包含“姚明”的文檔,可見,【關(guān)鍵詞】:p 搜索具有不確定性。如果在搜索引擎輸入一組詞 “姚明”、“得分”、“籃板”,搜出文檔是籃球比賽內(nèi)容的概率更大,顯然 ,形成的交集縮小了搜索范圍,但組詞 “姚明”、“得分”、“籃板”是經(jīng)過人思考給出的。 BIC通過計(jì)算得出文檔代表詞組,相當(dāng)于人工輸入 “姚明”、“得分”、“籃板”,同時(shí)計(jì)算詞在句子中語(yǔ)序關(guān)系的發(fā)生概率與馬爾科夫鏈,因此,能夠更好地確定搜索詞的語(yǔ)義和語(yǔ)境,通過對(duì)文檔間的相關(guān)性(接近度)進(jìn)行聚類計(jì)算,可按Meaning“接近度”進(jìn)行自動(dòng)搜索而無(wú)需

15、人工干預(yù),并隨文檔內(nèi)容的變化而自動(dòng)跟蹤Meaning變化,使搜索更加準(zhǔn)確、更加自動(dòng)化,讓搜索“隨用戶的心而動(dòng)”。 BIC可用于基于Meaning計(jì)算的搜索、輿情分析p 、特定情報(bào)分析p 、垂直搜索和相似內(nèi)容推薦等文本挖掘。 解決問題:計(jì)算兩個(gè)文本的相似度。 8、文本模糊聚類計(jì)算 算法概述:基于模糊聚類算法,BIC首先計(jì)算將n個(gè)文本組成相似矩陣(第i個(gè)文本文檔對(duì)第j個(gè)文本文檔的相似度),然后將相似矩陣變成模糊相似矩陣,通過求模糊相似矩陣的等價(jià)矩陣和截矩陣,將n個(gè)文本文檔分成1-n個(gè)分類,同時(shí),按相同分類中的文本具有最接近的內(nèi)容相似度Min,不同文本分類間具有最大差異Max,來(lái)求解按文本內(nèi)容進(jìn)行最

16、優(yōu)分類方案。 解決問題:在不確定將文本劃分成幾類的情況下,將n個(gè)文本聚成1-n個(gè)分類,以此來(lái)觀察“聚類”效果。 9、文本k-means聚類 算法概述:基于k-means聚類,在BIC平臺(tái)上,用戶上傳或輸入n個(gè)文本,確定希望分類數(shù)量k和k個(gè)分類樣本,BIC將以k個(gè)樣本作為初始迭代點(diǎn)進(jìn)行k-means聚類計(jì)算,將n個(gè)文本分成k個(gè)分類。 解決問題:在已經(jīng)確定了k個(gè)分類的情況下,將文本劃分到k個(gè)“分類”中。 10、文本分類 算法概述:通過“文本模糊聚類”或“文本k-means”聚類,BIC不僅將n個(gè)文本按內(nèi)容相似度進(jìn)行分類,同時(shí)挖掘出各個(gè)分類的“分類代表詞組”,以后,用戶任意給出一個(gè)文本,BIC將根據(jù)

17、其對(duì)各個(gè)“分類代表詞組”的相似度,選擇最相似的分類MaxSimi,將該待分類文檔分配到MaxSimi類。 解決問題:在已經(jīng)完成文本聚類的情況下,將不確定的文本劃分到“分類”中。 11、關(guān)聯(lián)模式發(fā)現(xiàn) 算法概述:關(guān)聯(lián)分析p 的目的是挖掘隱藏的關(guān)聯(lián)(Association) 模型,最著名的關(guān)聯(lián)模式應(yīng)用是挖掘“購(gòu)物籃”問題,是從發(fā)現(xiàn)購(gòu)買行中,發(fā)現(xiàn)商品之間的關(guān)聯(lián)關(guān)系。 給定一組交易記錄: 每筆交易ID包含m個(gè)商品,n條記錄組成二維表,構(gòu)成 矩陣,BIC可計(jì)算得出任意兩商品組合的Confidence(A-B)=P(A | B)置信度和支持度Support(A-B)=P(A U B),可用于分析p 商品之間

18、的關(guān)聯(lián)性“購(gòu)物籃”問題。 BIC的關(guān)聯(lián)模式發(fā)現(xiàn)是一個(gè)快速、交互式Apriore計(jì)算過程:從發(fā)現(xiàn)最基本的2個(gè)Item關(guān)聯(lián)高頻項(xiàng)集開始,計(jì)算支持度Support(A-B)=P(A U B)和置信度Confidence(A-B)=P(A | B),逐步計(jì)算和發(fā)現(xiàn)2、3、4 Item關(guān)聯(lián)頻繁項(xiàng)集。 因?yàn)椋?(1)任何求解高頻關(guān)聯(lián)事務(wù)T中的項(xiàng)數(shù)Item必然大于等于2,如果只有1個(gè)Item不存在關(guān)聯(lián);(2)任何交易記錄T中無(wú)論有多少個(gè)Item組合,如果存在大于2個(gè)Item的高頻組合,都必然存在2關(guān)聯(lián)的高頻真子集。 如:交易記錄T1=Item1,Item2,交易記錄T2=Item1,Item3,Item4,

19、Item2,則T1為T2的非空真子集T1T2。 所以,如果存在3關(guān)聯(lián)的高頻Item組合,必然存在2關(guān)聯(lián)的高頻組合;如果存在4關(guān)聯(lián)的Item高頻組合,必然存在3關(guān)聯(lián)高頻組合。BIC就是通過最基本的2關(guān)聯(lián)高頻項(xiàng)集發(fā)現(xiàn)開始,逐步縮小記錄集合,逐步發(fā)現(xiàn)所有任意數(shù)量Item組合的高頻項(xiàng)集。因此,BIC的關(guān)聯(lián)計(jì)算是一個(gè)快速、交互式計(jì)算的Apriore算法。 解決問題:從樣本集中發(fā)現(xiàn)有較強(qiáng)“置信度”的關(guān)聯(lián)規(guī)則。 12、序列模式發(fā)現(xiàn) 算法概述:算法原理同“關(guān)聯(lián)分析p ”,但統(tǒng)計(jì)點(diǎn)在于事物(或商品購(gòu)買)發(fā)生的先后序列。 如商品購(gòu)買行為預(yù)測(cè):汽車改裝愛好者,購(gòu)買某種品牌增壓器的人,很多人后來(lái)還購(gòu)買了活塞環(huán)、又購(gòu)買

20、了某品牌機(jī)油,通過序列分析p ,發(fā)現(xiàn)其購(gòu)買序列、預(yù)測(cè)下一步購(gòu)買行為;如疾病診斷:患有某種疾病的人,先出現(xiàn)A癥狀、后出現(xiàn)B癥狀、又出現(xiàn)C癥狀,通過出現(xiàn)癥狀的序列分析p ,發(fā)現(xiàn)疾病發(fā)生、發(fā)展的序列模式,對(duì)疾病進(jìn)行診斷;如Web訪問行為模式發(fā)現(xiàn):每個(gè)IP訪問網(wǎng)站都是一個(gè)Web會(huì)話Session,每個(gè)Session由一系列的URL序列組成,通過Session計(jì)統(tǒng)計(jì)得到高頻URL序列,預(yù)測(cè)用戶的訪問行為;不限于上述例子,還包括生物進(jìn)化序列模式、DNA序列、地震、火災(zāi)、戰(zhàn)爭(zhēng)沖突爆發(fā)序列模式預(yù)測(cè)等,序列規(guī)律是大量存在的,只要有足夠的統(tǒng)計(jì)數(shù)據(jù),都可以通過BIC發(fā)現(xiàn)最率并進(jìn)行預(yù)測(cè)。 序列模式發(fā)現(xiàn)與關(guān)聯(lián)模式發(fā)現(xiàn)在

21、算法上很相似,但序列模式強(qiáng)調(diào)Item的先后順序,而關(guān)聯(lián)模式發(fā)現(xiàn)不關(guān)心順序,只看是否在一個(gè)事物T中2個(gè)Item(或多個(gè))是否同時(shí)出現(xiàn)。 BIC的序列模式發(fā)現(xiàn)是一個(gè)快速、交互式Apriore計(jì)算過程:從發(fā)現(xiàn)2個(gè)Item序列高頻序列開始,計(jì)置信度Confidence(A-B)=P(A | B),逐步計(jì)算和發(fā)現(xiàn)2、3、4Item序列頻繁序列。 因?yàn)椋?(1)任何求解高頻序列事務(wù)T中的項(xiàng)數(shù)Item必然大于等于2,如果只有1個(gè)Item不存在關(guān)聯(lián);(2)任何事務(wù)記錄T中無(wú)論有多少個(gè)Item序列組合,如果存在大于2個(gè)Item的高頻序列組合,都必然存在2序列的高頻序列真子集。 如:事務(wù)序列記錄T1=Item1,

22、Item2,事務(wù)序列記錄T2=Item1,Item3,Item4,Item2,則T1為T2的非空真子集T1T2。 所以,如果存在3個(gè)Item序列的高頻Item組合,必然存在2序列的高頻序列組合,如果存在4個(gè)Item的高頻序列組合,必然存在3高頻序列組合。BIC就是通過最基本的2序列高頻序列發(fā)現(xiàn)開始,逐步縮小記錄集合,逐步發(fā)現(xiàn)所有任意數(shù)量Item組合的高頻序列組合。因此,BIC的序列計(jì)算是一個(gè)*快速、交互式計(jì)算的Apriore算法。 解決問題:序列模式發(fā)現(xiàn)的目的是挖掘事務(wù)發(fā)生、發(fā)展的序列 (Sequencing)模式,從樣本集發(fā)現(xiàn)有較強(qiáng)“置信度”的序列規(guī)則。 13、PCA主成分分析p 算法概述:

23、假設(shè)一個(gè)事物由多種因素構(gòu)成,設(shè)有n個(gè)樣本,每個(gè)樣本共有m個(gè)屬性(指標(biāo)、構(gòu)成要素),構(gòu)成一個(gè)nm階的成分?jǐn)?shù)據(jù)矩陣, PCA算法的目的是: (1)降低維度 當(dāng)矩陣X的維數(shù)m較大時(shí),在m維空間中考察問題比較麻煩,需要降低維度,在不影響對(duì)事物評(píng)價(jià)的基礎(chǔ)上,選擇較少的幾個(gè)主要指標(biāo)P(p 0 ( i=1,2,k)。對(duì)于任一事件x,P(x)0,則有:貝葉斯分類的基本原理,就是利用貝葉斯條件概率公式,將事件X視為多個(gè)條件屬性Cj各種取值的組合,當(dāng)x事件發(fā)生時(shí)決策屬性Di發(fā)生的條件概率。貝葉斯分類是一種概率型分類知識(shí)挖掘方法,不能百分之百地確定X事件發(fā)生時(shí)Di一定發(fā)生。解決問題:預(yù)測(cè)所屬分類的概率。通過已知n條

24、樣本集記錄,計(jì)算各種條件屬性組發(fā)生的概率,得出“貝葉斯分類”規(guī)則,給定一個(gè)未知“標(biāo)簽”記錄,選擇最大概率為其所屬“分類”。2、ID3 決策樹分類算法概述:ID3算法是J.Ro Quinlan在1975提出的分類算法,當(dāng)時(shí)還沒有“數(shù)據(jù)挖掘”的概念。該算法以信息論為基礎(chǔ),以信息熵和信息增益度來(lái)確定分枝生成決策樹D-Tree。ID3算法以決策樹D-Tree構(gòu)建分類知識(shí)模型,D-Tree中最上面的節(jié)點(diǎn)為根節(jié)點(diǎn)Root,每個(gè)分支是一個(gè)新的決策節(jié)點(diǎn),或者是樹的葉子。每個(gè)決策節(jié)點(diǎn)代表一個(gè)問題或決策,每一個(gè)葉子節(jié)點(diǎn)代表一種可能的分類結(jié)果,沿決策樹在每個(gè)節(jié)點(diǎn)都會(huì)遇到一個(gè)測(cè)試,對(duì)每個(gè)節(jié)點(diǎn)上問題的不同取值導(dǎo)致不同的

25、分支,最后會(huì)到達(dá)一個(gè)葉子節(jié)點(diǎn)為確定所屬分類。解決問題:預(yù)測(cè)所屬分類。通過已知樣本集記錄,生成一顆“分類知識(shí)樹”, 給定一個(gè)未知“標(biāo)簽”記錄,通過“分類知識(shí)樹”來(lái)確定其所屬分類。3、基于粗糙集理論Rough Set的確定型知識(shí)挖掘算法概述:1982年波蘭學(xué)者Z.Paw lak 提出了粗糙集理論Rough Sets Theory,它是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,能有效分析p 不精確、不一致(Inconsistent)、不完整(Inplete) 等各種不完備信息,利用數(shù)據(jù)進(jìn)行分析p 和推理,從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律。粗糙集理論是繼概率論、模糊集、證據(jù)理論之后的又一個(gè)處理不確定性事

26、物的數(shù)學(xué)工具。粗糙集理論是建立在分類機(jī)制的基礎(chǔ)上的,它將分類理解為在特定空間上的等價(jià)關(guān)系,而等價(jià)關(guān)系構(gòu)成了對(duì)該空間的劃分。粗糙集理論將知識(shí)理解為對(duì)數(shù)據(jù)的劃分,每一被劃分的集合稱為概念。其主要思想是利用已知的知識(shí)庫(kù),將不精確或不確定的知識(shí)用已知的知識(shí)庫(kù)中的知識(shí)來(lái)(近似) 刻畫。 解決問題:預(yù)測(cè)所屬分類。粗糙集分類將樣本空間S劃分為上近似集(Upper approximation)、下近似集(Lower approximation)、邊界集(Boundary region),挖掘條件屬性C與決策屬性D集合所包含的不可分記錄(不能再細(xì)分,該集合中的所有記錄都屬于某一決策屬性Di的取值),這些記錄形成

27、不可辨識(shí)的關(guān)系(Indiscernibility relation),由此確定分類規(guī)則: IF THEN 即,如果滿條件C,則其所屬分類為Di。IF中的條件C可以是單一條件,也可以是組合and(并且)組合條件。BIC給出的是“最小分類規(guī)則”。所謂“最小分類規(guī)則”是,最少的條件組合。例如一個(gè)人屬于“高”、“富”、“帥”,條件為:“身高”、“財(cái)富”、“工資性收入”、“財(cái)產(chǎn)性收入”、“產(chǎn)業(yè)收入”、“臉型”、“眼睛大小”、“鼻梁形狀”、“英俊”等條件來(lái)判別,通過“粗糙集”分類計(jì)算,得出最小分類規(guī)則可能是“IF 財(cái)富=XXX1 and 身高=185cm and 相貌=英俊” 其他條件可以忽略不計(jì),這就是

28、“最小分類規(guī)則”?!按植诩狈诸愐?guī)則為“百分之百確定型”分類規(guī)則,這是對(duì)樣本集的統(tǒng)計(jì)結(jié)果,如果出現(xiàn)非“樣本集”中出現(xiàn)過的條件變量屬性,將無(wú)法得出“粗糙集”,可轉(zhuǎn)而使用概率型“貝葉斯分類”進(jìn)行計(jì)算。4、基于k-means聚類算法概述:給定一個(gè)包括n條記錄、每條記錄有m個(gè)屬性 的樣本集,再給出分類數(shù)k,要求將樣本集中的記錄,按記錄間的相似性大小(或距離遠(yuǎn)近),將相似性最大(或距離最近)的記錄劃分到k個(gè)類中,相同分類中記錄間的距離要盡可能地小,而分類之間的距離要盡可能地大。 BIC改進(jìn)了常規(guī)的k-means聚類算法,在聚類過程中,同時(shí)計(jì)算分類質(zhì)量(類內(nèi)均差 、類間均距 和 ),并求解最優(yōu)聚類max

29、。解決問題:將n條記錄聚成k個(gè)分類。對(duì)n個(gè)樣本集記錄,指定分類個(gè)數(shù)k,為k個(gè)分類指定初始迭代記錄為k個(gè)分類中心,通過計(jì)算其他記錄對(duì)k個(gè)分類中心的距離,對(duì)不斷變換分類、變換類中心,收斂都當(dāng)分類不再變化時(shí),計(jì)算結(jié)束。由此,將n個(gè)樣本集記錄分配到k個(gè)分類中,得到k個(gè)分類中心指標(biāo)。5、無(wú)限細(xì)分的模糊聚類Fuzzy Clustering 算法概述:在實(shí)際解決聚類問題時(shí),很多數(shù)事物是“模糊”的,其特征屬性A無(wú)法確進(jìn)行量化,如:人的相貌、人與人之間的關(guān)系、人的性格、購(gòu)買商品的意愿等,這就需要用模糊數(shù)學(xué)來(lái)進(jìn)行相似性計(jì)算。模糊數(shù)學(xué)是伴隨著上世紀(jì)五六十年代興起的控制論、信息論、系統(tǒng)論(俗稱“老三論”)而形成的一種

30、決策方法,是美國(guó)加利福尼亞大學(xué)伯克利分校Lotfi Zadeh教授于1965年創(chuàng)立的。 模糊聚類基本計(jì)算步驟為:(1)將樣本集中的n條記錄變換成n x n的模糊相似矩陣;(2)通過傳遞包卷積計(jì)算將模糊相似矩陣變換成等價(jià)相似矩陣; (3)最后通過截矩陣將n條記錄分成1-n個(gè)分類。K-means聚類需事先確定聚類數(shù)k,而模糊聚類Fuzzy Clustering無(wú)需事先確定聚類數(shù)k,可以從最小的k=1(所有學(xué)習(xí)集中的n條記錄為1個(gè)分類),到k=n(所有學(xué)習(xí)集中的n條記錄各為1個(gè)分類)。解決問題:將n條記錄聚成1-n個(gè)分類。模糊聚類Fuzzy Clustering算法完全基于數(shù)據(jù)自然狀況進(jìn)行聚類,可產(chǎn)

31、生聚類的解集合 max(k=1,2,n),因此,可以在解集合中求解最優(yōu)聚類 ,這對(duì)觀察分析p 樣本集的數(shù)據(jù)性態(tài)非常有用,可供觀察不同情況下的“聚類”狀況。6、SOM神經(jīng)元網(wǎng)絡(luò)聚類算法概述:人類對(duì)事物的認(rèn)知是一個(gè)不斷積累的過程,通過對(duì)事物的觀察,不斷地認(rèn)識(shí)和修正因果關(guān)系,最后逐漸穩(wěn)定為認(rèn)知規(guī)則。醫(yī)學(xué)證明,人眼的視網(wǎng)膜、脊髓和海馬中存一種側(cè)抑制現(xiàn)象,即,當(dāng)一個(gè)神經(jīng)細(xì)胞興奮后,會(huì)對(duì)其周圍的神經(jīng)細(xì)胞產(chǎn)生抑制作用。這種側(cè)抑制使神經(jīng)細(xì)胞之間呈現(xiàn)出競(jìng)爭(zhēng),開始時(shí)可能多個(gè)細(xì)胞同時(shí)興奮,但一個(gè)興奮程度最強(qiáng)的神經(jīng)細(xì)胞對(duì)周圍神經(jīng)細(xì)胞的抑制作用也最強(qiáng),其結(jié)果使其周圍神經(jīng)細(xì)胞興奮程度減弱,從而該神經(jīng)細(xì)胞是這次競(jìng)爭(zhēng)的“勝者

32、”,其它神經(jīng)細(xì)胞在競(jìng)爭(zhēng)中失敗。 1981年芬蘭學(xué)者kohonen提出一個(gè)稱為自組織特征映射(Self Organization Feature Map-SOM或SOFM)網(wǎng)絡(luò),前述大腦神經(jīng)細(xì)胞興奮規(guī)律等,在該網(wǎng)絡(luò)中都得到了反應(yīng)。在競(jìng)爭(zhēng)層神經(jīng)元之間的連線,它們是模擬生物神經(jīng)網(wǎng)絡(luò)層內(nèi)神經(jīng)元相互抑制現(xiàn)象的權(quán)值,這類抑制性權(quán)值滿足一定的分布關(guān)系,如距離近的抑制強(qiáng),距離遠(yuǎn)的抑制弱。通過上述可知,SOM聚類算法設(shè)計(jì)的核心思想是體現(xiàn)神經(jīng)元在認(rèn)知過程中的3個(gè)特性: (1)根據(jù)樣本比較,逐步積累、不斷修正、漸近穩(wěn)定特性? (2)神經(jīng)元之間的側(cè)抑由近到遠(yuǎn)、逐步衰弱制特性? (3)神經(jīng)元興奮區(qū)域隨認(rèn)知次數(shù)逐步縮小范

33、圍特性?BIC采用歐氏距離作為輸入模式Xi與各輸出神經(jīng)元Wj之間的相似度,選擇具有最小距離的神經(jīng)元為興奮神經(jīng)元;采用(1-ti/tm)作為學(xué)習(xí)衰減函數(shù),其中ti 為當(dāng)前學(xué)習(xí)次數(shù)(第幾次樣本訓(xùn)練),tm 為總的學(xué)習(xí)數(shù),以此來(lái)體現(xiàn)上述特性“1”; 采用(1-ti/T)、C/Wij作為神經(jīng)元側(cè)抑制函數(shù),其中C為設(shè)定的常數(shù)、Wij為被選中的神經(jīng)元與其他神經(jīng)元最遠(yuǎn)距離,來(lái)體現(xiàn)上述特性“2”、“3”。解決問題:將n條記錄按m個(gè)輸出神經(jīng)元聚成m個(gè)分類。模仿人類的學(xué)習(xí)方法,對(duì)事物的認(rèn)識(shí)是一個(gè)由淺入深、逐步學(xué)習(xí)、修正的過程,將對(duì)各種要素組態(tài)的認(rèn)識(shí)逐步穩(wěn)定到認(rèn)知領(lǐng)域,由此進(jìn)行“聚類”。7、基于Meaning的文本

34、相似度計(jì)算 算法概述:給出一組n個(gè)文檔D具有代表性的詞組,BIC為每個(gè)文檔計(jì)算出一組最,同時(shí),計(jì)算出相互間內(nèi)容接近度及接近序列。BIC的Meaning挖掘與自動(dòng)搜索不同于現(xiàn)有Baidu、Google人工輸入【關(guān)鍵詞】:p 的搜索方式,現(xiàn)有搜索引擎不考慮語(yǔ)義和語(yǔ)境,只考慮詞W與文檔D的包含關(guān)系和詞在文檔內(nèi)的頻數(shù)TF,因此,【關(guān)鍵詞】:p 的搜索與文檔內(nèi)容無(wú)關(guān)。 例如:“姚明”是中國(guó)籃球的驕傲,但“姚明”還投身于公益事業(yè),如果在搜索引擎中輸入“姚明”,不見得搜索的文檔內(nèi)容只包含與籃球相關(guān)的內(nèi)容,還可能包括公益及其他包含“姚明”的文檔,可見,【關(guān)鍵詞】:p 搜索具有不確定性。如果在搜索引擎輸入一組詞

35、 “姚明”、“得分”、“籃板”,搜出文檔是籃球比賽內(nèi)容的概率更大,顯然 ,形成的交集縮小了搜索范圍,但組詞 “姚明”、“得分”、“籃板”是經(jīng)過人思考給出的。 BIC通過計(jì)算得出文檔代表詞組明”、“得分”、“籃板”,同時(shí)計(jì)算詞,相當(dāng)于人工輸入 “姚在句子中語(yǔ)序關(guān)系的發(fā)生概率與馬爾科夫鏈,因此,能夠更好地確定搜索詞的語(yǔ)義和語(yǔ)境,通過對(duì)文檔間的相關(guān)性(接近度)進(jìn)行聚類計(jì)算,可按Meaning“接近度”進(jìn)行自動(dòng)搜索而無(wú)需人工干預(yù),并隨文檔內(nèi)容的變化而自動(dòng)跟蹤Meaning變化,使搜索更加準(zhǔn)確、更加自動(dòng)化,讓搜索“隨用戶的心而動(dòng)”。BIC可用于基于Meaning計(jì)算的搜索、輿情分析p 、特定情報(bào)分析p

36、、垂直搜索和相似內(nèi)容推薦等文本挖掘。解決問題:計(jì)算兩個(gè)文本的相似度。8、文本模糊聚類計(jì)算算法概述:基于模糊聚類算法,BIC首先計(jì)算將n個(gè)文本組成相似矩陣檔對(duì)第j個(gè)文本文檔的相似度),然后將相似矩陣似矩陣變成模糊相似矩陣(第i個(gè)文本文 ,通過求模糊相 的等價(jià)矩陣和截矩陣,將n個(gè)文本文檔分成1-n個(gè)分類,同時(shí),按相同分類中的,不同文本分類間具有最大差異Max,來(lái)求解文本具有最接近的內(nèi)容相似度Min 按文本內(nèi)容進(jìn)行最優(yōu)分類方案。解決問題:在不確定將文本劃分成幾類的情況下,將n個(gè)文本聚成1-n個(gè)分類,以此來(lái)觀察“聚類”效果。9、文本k-means聚類算法概述:基于k-means聚類,在BIC平臺(tái)上,用

37、戶上傳或輸入n個(gè)文本,確定希望分類數(shù)量k和k個(gè)分類樣本,BIC將以k個(gè)樣本作為初始迭代點(diǎn)進(jìn)行k-means聚類計(jì)算,將n個(gè)文本分成k個(gè)分類。解決問題:在已經(jīng)確定了k個(gè)分類的情況下,將文本劃分到k個(gè)“分類”中。10、文本分類算法概述:通過“文本模糊聚類”或“文本k-means”聚類,BIC不僅將n個(gè)文本按內(nèi)容相似度進(jìn)行分類,同時(shí)挖掘出各個(gè)分類的“分類代表詞組”,以后,用戶任意給出一個(gè)文本,BIC將根據(jù)其對(duì)各個(gè)“分類代表詞組”的相似度,選擇最相似的分類MaxSimi,將該待分類文檔分配到MaxSimi類。解決問題:在已經(jīng)完成文本聚類的情況下,將不確定的文本劃分到“分類”中。11、關(guān)聯(lián)模式發(fā)現(xiàn)算法概

38、述:關(guān)聯(lián)分析p 的目的是挖掘隱藏的關(guān)聯(lián)(Aociation) 模型,最著名的關(guān)聯(lián)模式應(yīng)用是挖掘“購(gòu)物籃”問題,是從發(fā)現(xiàn)購(gòu)買行中,發(fā)現(xiàn)商品之間的關(guān)聯(lián)關(guān)系。 給定一組交易記錄:每筆交易ID包含m個(gè)商品BIC可計(jì)算得出任意兩商品,n條記錄組成二維表,構(gòu)成 矩陣,組合的Confidence(A-B)=P(A | B)置信度和支持度Support(A-B)=P(A U B),可用于分析p 商品之間的關(guān)聯(lián)性“購(gòu)物籃”問題。BIC的關(guān)聯(lián)模式發(fā)現(xiàn)是一個(gè)快速、交互式Apriore計(jì)算過程:從發(fā)現(xiàn)最基本的2個(gè)Item關(guān)聯(lián)高頻項(xiàng)集開始,計(jì)算支持度Support(A-B)=P(A U B)和置信度Confidence

39、(A-B)=P(A | B),逐步計(jì)算和發(fā)現(xiàn)2、3、4Item關(guān)聯(lián)頻繁項(xiàng)集。 因?yàn)椋?(1)任何求解高頻關(guān)聯(lián)事務(wù)T中的項(xiàng)數(shù)Item必然大于等于2,如果只有1個(gè)Item不存在關(guān)聯(lián);(2)任何交易記錄T中無(wú)論有多少個(gè)Item組合,如果存在大于2個(gè)Item的高頻組合,都必然存在2關(guān)聯(lián)的高頻真子集。如:交易記錄T1=Item1,Item2,交易記錄T2=Item1,Item3,Item4,Item2,則T1為T2的非空真子集T1T2。所以,如果存在3關(guān)聯(lián)的高頻Item組合,必然存在2關(guān)聯(lián)的高頻組合;如果存在4關(guān)聯(lián)的Item高頻組合,必然存在3關(guān)聯(lián)高頻組合。BIC就是通過最基本的2關(guān)聯(lián)高頻項(xiàng)集發(fā)現(xiàn)開始,

40、逐步縮小記錄集合,逐步發(fā)現(xiàn)所有任意數(shù)量Item組合的高頻項(xiàng)集。因此,BIC的關(guān)聯(lián)計(jì)算是一個(gè)快速、交互式計(jì)算的Apriore算法。解決問題:從樣本集中發(fā)現(xiàn)有較強(qiáng)“置信度”的關(guān)聯(lián)規(guī)則。12、序列模式發(fā)現(xiàn)算法概述:算法原理同“關(guān)聯(lián)分析p ”,但統(tǒng)計(jì)點(diǎn)在于事物(或商品購(gòu)買)發(fā)生的先后序列。 如商品購(gòu)買行為預(yù)測(cè):汽車改裝愛好者,購(gòu)買某種品牌增壓器的人,很多人后來(lái)還購(gòu)買了活塞環(huán)、又購(gòu)買了某品牌機(jī)油,通過序列分析p ,發(fā)現(xiàn)其購(gòu)買序列、預(yù)測(cè)下一步購(gòu)買行為; 如疾病診斷:患有某種疾病的人,先出現(xiàn)A癥狀、后出現(xiàn)B癥狀、又出現(xiàn)C癥狀,通過出現(xiàn)癥狀的序列分析p ,發(fā)現(xiàn)疾病發(fā)生、發(fā)展的序列模式,對(duì)疾病進(jìn)行診斷;如Web訪問行為模式發(fā)現(xiàn):每個(gè)IP訪問網(wǎng)站都是一個(gè)Web會(huì)話Seion,每個(gè)Seion由一系列的URL序列組成,通過Seion計(jì)統(tǒng)計(jì)得到高頻URL序列,預(yù)測(cè)用戶的訪問行為; 不限于上述例子,還包括生物進(jìn)化序列模式、DNA序列、地震、火災(zāi)、戰(zhàn)爭(zhēng)沖突爆發(fā)序列模式預(yù)測(cè)等,序列規(guī)律是大量存在的,只要有足夠的統(tǒng)計(jì)數(shù)據(jù),都可以通過BIC發(fā)現(xiàn)最率并進(jìn)行預(yù)測(cè)。序列模式發(fā)現(xiàn)與關(guān)聯(lián)模式發(fā)現(xiàn)在算法上很相似,但序列模式強(qiáng)調(diào)Item的先后

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論