干貨:輕松看懂?dāng)?shù)據(jù)挖掘中的十大經(jīng)典算法_第1頁(yè)
干貨:輕松看懂?dāng)?shù)據(jù)挖掘中的十大經(jīng)典算法_第2頁(yè)
干貨:輕松看懂?dāng)?shù)據(jù)挖掘中的十大經(jīng)典算法_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

【計(jì)算機(jī)論文】干貨:輕松看懂?dāng)?shù)據(jù)挖掘中的十大經(jīng)典算法

(電子商務(wù)研究中心訊)隨著移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,所有的連接都在產(chǎn)生數(shù)據(jù),從數(shù)據(jù)中挖掘到的信息價(jià)值早已超乎人們的想象。在市場(chǎng)導(dǎo)向與國(guó)家大數(shù)據(jù)戰(zhàn)略的推動(dòng)下,大數(shù)據(jù)已成為企業(yè)發(fā)展必不可少的新動(dòng)能。調(diào)查顯示,在2016年,幾乎40%的公司在使用大數(shù)據(jù)技術(shù),30%的公司表示在未來(lái)一年內(nèi)采用大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)的發(fā)展又離不開(kāi)數(shù)據(jù)挖掘,那。。。什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(英語(yǔ):Datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-DiscoveryinDatabases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘如此重要,如何進(jìn)行數(shù)據(jù)挖掘呢?當(dāng)然是知識(shí)!知識(shí)將成為比數(shù)據(jù)更重要的資產(chǎn)復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授肖仰華博士在他近期所作的《知識(shí)圖譜與認(rèn)知智能》報(bào)告中指出:前幾年大數(shù)據(jù)時(shí)代到來(lái)的時(shí)候,大家都說(shuō)“得數(shù)據(jù)者得天下”。去年,微軟研究院的沈向陽(yáng)博士曾經(jīng)說(shuō)過(guò)“懂語(yǔ)言者得天下”。而我曾經(jīng)論述過(guò),機(jī)器要懂語(yǔ)言,背景知識(shí)不可或缺。因此,在這個(gè)意義下,將是“得知識(shí)者得天下”。如果說(shuō)數(shù)據(jù)是石油,那么知識(shí)就好比是石油的萃取物。那么問(wèn)題來(lái)了?你需要哪些知識(shí)?數(shù)據(jù)挖掘是個(gè)復(fù)雜的過(guò)程,它需要統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、模式識(shí)別等多學(xué)科的交叉融合來(lái)實(shí)現(xiàn)。數(shù)據(jù)挖掘過(guò)程中用到的算法也很多,下圖是對(duì)這些算法的一個(gè)總體梳理:接下來(lái)我們就來(lái)說(shuō)說(shuō)這傳說(shuō)中的十大經(jīng)典算法:篇幅有限,為了保證閱讀質(zhì)量,本文只講解前三個(gè)。其余的算法講解會(huì)不定期更新的呦,想學(xué)習(xí)的小伙伴看過(guò)來(lái)???十大經(jīng)典算法圖解(一)01決策樹(shù)(C4.5算法)決策樹(shù)(DecisionTree),又稱為判定樹(shù),是數(shù)據(jù)挖掘技術(shù)中的一種重要的分類方法,它是一種以樹(shù)結(jié)構(gòu)(包括二叉樹(shù)和多叉樹(shù))形式來(lái)表達(dá)的預(yù)測(cè)分析模型。根據(jù)一些特征(feature)進(jìn)行分類,每個(gè)節(jié)點(diǎn)提一個(gè)問(wèn)題,通過(guò)判斷,將數(shù)據(jù)分為若干類,再繼續(xù)提問(wèn)。這些問(wèn)題是根據(jù)已有數(shù)據(jù)學(xué)習(xí)出來(lái)的,再投入新數(shù)據(jù)的時(shí)候,就可以根據(jù)這棵樹(shù)上的問(wèn)題,將數(shù)據(jù)劃分到合適的葉子上。決策樹(shù)生長(zhǎng)算法流程(以C4.5算法為例):C4.5算法實(shí)例圖解:兩周內(nèi)的天氣及網(wǎng)球俱樂(lè)部顧客光顧情況02聚類(K-means算法)什么是聚類?什么是K-means?K-means算法流程圖解:Setp1:確定初始質(zhì)心Setp2:計(jì)算距離&劃分簇Setp3:迭代計(jì)算中心點(diǎn)Setp4:收斂03關(guān)聯(lián)規(guī)則(Apriori算法)關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,其中,X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(antecedent或left-hand-side,LHS)和后繼(consequent或right-hand-side,RHS)。其中,關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。關(guān)聯(lián)規(guī)則經(jīng)典算法及優(yōu)缺點(diǎn)比較:Apriori算法是種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。它的核心是基于兩階段頻集思想的遞推算法,該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在Apriori算法中,尋找最大項(xiàng)目集(頻繁項(xiàng)集)的基本思

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論