數(shù)據(jù)挖掘?qū)W習(xí)報(bào)告

上傳人：d*** IP屬地：天津上傳時(shí)間：2021-06-02 格式：DOCX 頁(yè)數(shù)：8 大?。?5.51KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩3頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘?qū)W習(xí)報(bào)告引言數(shù)據(jù)挖掘是通過(guò)分析每個(gè)數(shù)據(jù)，從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)，主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示 3 個(gè)步驟。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。二、基本概念數(shù)據(jù)挖掘，在人工智能領(lǐng)域，習(xí)慣上又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)基本步驟。知識(shí)發(fā)現(xiàn)過(guò)程由以下三個(gè)階段組成： ( 1) 數(shù)據(jù)準(zhǔn)備，(2)數(shù)據(jù)挖掘，(3)結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互。數(shù)據(jù)挖掘是通過(guò)分析每個(gè)數(shù)據(jù)，從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)，主要有數(shù)據(jù)準(zhǔn)備、規(guī) 律尋找和規(guī)律表示 3 個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取

2、所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集；規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來(lái)；規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來(lái)。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析，等等。并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如，使用數(shù)據(jù)庫(kù)管理系統(tǒng)查找個(gè)別的記錄，或通過(guò)因特網(wǎng)的搜索引擎查找特定的 Web 頁(yè)面，則是信息檢索領(lǐng) 域的任務(wù)。雖然這些任務(wù)是重要的，可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu)，但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來(lái)創(chuàng)建索引結(jié)構(gòu)，從而有效地組織和檢索信息。盡管如此，數(shù)據(jù)挖掘技術(shù)也已用來(lái)增強(qiáng)信息檢索

3、系統(tǒng)的能力。 1、數(shù)據(jù)挖掘的基本步驟數(shù)據(jù)挖掘的步驟會(huì)隨不同領(lǐng)域的應(yīng)用而有所變化，每一種數(shù)據(jù)挖掘技術(shù)也會(huì)有各自的特性和使用步驟，針對(duì)不同問(wèn)題和需求所制定的數(shù)據(jù)挖掘過(guò)程也會(huì)存在差異。此外，數(shù)據(jù)的完整程度、專業(yè)人員支持的程度等都會(huì)對(duì)建立數(shù)據(jù)挖掘過(guò)程有所影響。這些因素造成了數(shù)據(jù)挖掘在各不同領(lǐng)域中的運(yùn)用、規(guī)劃，以及流程的差異性，即使同一產(chǎn)業(yè)，也會(huì)因?yàn)榉治黾夹g(shù)和專業(yè)知識(shí)的涉入程度不同而不同，因此對(duì)于數(shù)據(jù)挖掘過(guò)程的系統(tǒng)化、標(biāo)準(zhǔn)化就顯得格外重要。如此一來(lái)，不僅可以較容易地跨領(lǐng)域應(yīng)用，也可以結(jié)合不同的專業(yè)知識(shí)，發(fā)揮數(shù)據(jù)挖掘的真正精神。數(shù)據(jù)挖掘完整的步驟如下：理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源( understa

4、nding)。獲取相關(guān)知識(shí)與技術(shù)( acquisition )。整合與檢查數(shù)據(jù)( integration and checking)。去除錯(cuò)誤或不一致的數(shù)據(jù)( data cleaning)。建立模型和假設(shè)( model and hypothesis developmen)t 。實(shí)際數(shù)據(jù)挖掘工作( data mining)。測(cè)試和驗(yàn)證挖掘結(jié)果( testing and verification)。解釋和應(yīng)用( interpretation and use)。由上述步驟可看出，數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作，事實(shí)上許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過(guò)程中，有 80%的時(shí)間和精力

5、是花費(fèi)在數(shù)據(jù)預(yù)處理階段，其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合，以及數(shù)據(jù)表的鏈接。可見(jiàn)，在進(jìn)行數(shù)據(jù)挖掘技術(shù)的分析之前，還有許多準(zhǔn)備工作要完成。2、數(shù)據(jù)挖掘十大經(jīng)典算法1. C4.5:是機(jī)器學(xué)習(xí)算法中的一種分類決策樹(shù)算法，其核心算法是ID3算法。2. K-mea ns算法：是一種聚類算法。3.SVM :種監(jiān)督式學(xué)習(xí)的方法，廣泛運(yùn)用于統(tǒng)計(jì)分類以及回歸分析中4. Apriori ：是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。5. EM ：最大期望值法。6. pagerank是google算法的重要內(nèi)容。7. Adaboost是一種迭代算法，其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器然

6、后把弱分類器集合起來(lái)，構(gòu)成一個(gè)更強(qiáng)的最終分類器。8. KNN:是一個(gè)理論上比較成熟的的方法，也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)方法之一。9. Naive Bayes：在眾多分類方法中，應(yīng)用最廣泛的有決策樹(shù)模型和樸素貝葉斯 (Naive Bayes)10. Cart：分類與回歸樹(shù)，在分類樹(shù)下面有兩個(gè)關(guān)鍵的思想，第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法，第二個(gè)是用驗(yàn)證數(shù)據(jù)進(jìn)行減枝。下面我們著重研究一下動(dòng)態(tài)規(guī)劃法。三、動(dòng)態(tài)規(guī)劃法動(dòng)態(tài)規(guī)劃是運(yùn)籌學(xué)的一個(gè)分支，是求解決策過(guò)程最優(yōu)化的數(shù)學(xué)方法。 20世紀(jì) 50年代初美國(guó)數(shù)學(xué)家R.E.Bellman等人在研究多階段決策過(guò)程(multistep decision pro

7、cess的優(yōu) 化問(wèn)題時(shí)，提出了著名的最優(yōu)化原理 (principle of optimality) ，把多階段過(guò)程轉(zhuǎn)化為一系列單階段問(wèn)題，利用各階段之間的關(guān)系，逐個(gè)求解，創(chuàng)立了解決這類過(guò)程優(yōu)化問(wèn)題的新方法動(dòng)態(tài)規(guī)劃。一)基本思想動(dòng)態(tài)規(guī)劃算法通常用于求解具有某種最優(yōu)性質(zhì)的問(wèn)題。在這類問(wèn)題中，可能會(huì)有許多可行解。每一個(gè)解都對(duì)應(yīng)于一個(gè)值，我們希望找到具有最優(yōu)值的解。動(dòng)態(tài)規(guī)劃算法與分治法類似，其基本思想也是將待求解問(wèn)題分解成若干個(gè)子問(wèn)題，先求解子問(wèn)題，然后從這些子問(wèn)題的解得到原問(wèn)題的解。與分治法不同的是，適合于用動(dòng)態(tài)規(guī)劃求解的問(wèn)題，經(jīng)分解得到子問(wèn)題往往不是互相獨(dú)立的。若用分治法來(lái)解這類問(wèn)

8、題，則分解得到的子問(wèn) 題數(shù)目太多，有些子問(wèn)題被重復(fù)計(jì)算了很多次。如果我們能夠保存已解決的子問(wèn)題的答案，而在需要時(shí)再找出已求得的答案，這樣就可以避免大量的重復(fù)計(jì)算，節(jié)省時(shí)間。我們可以用一個(gè)表來(lái)記錄所有已解的子問(wèn)題的答案。不管該子問(wèn)題以后是否被用到，只要它被計(jì)算過(guò)，就將其結(jié)果填入表中。這就是動(dòng)態(tài)規(guī)劃法的基本思路。具體的動(dòng)態(tài)規(guī)劃算法多種多樣，但它們具有相同的填表格式。(二)基本結(jié)構(gòu) 多階段決策問(wèn)題中，各個(gè)階段采取的決策，一般來(lái)說(shuō)是與時(shí)間有關(guān)的，決策依賴于當(dāng)前狀態(tài)，又隨即引起狀態(tài)的轉(zhuǎn)移，一個(gè)決策序列就是在變化的狀態(tài)中產(chǎn)生出來(lái)的，故有“動(dòng)態(tài)”的含義，稱這種解決多階段決策最優(yōu)化問(wèn)題的方法為動(dòng)態(tài)

9、規(guī)劃方法。動(dòng)態(tài)規(guī)劃程序設(shè)計(jì)是對(duì)解最優(yōu)化問(wèn)題的一種途徑、一種方法，而不是一種特殊算法不象前面所述的那些搜索或數(shù)值計(jì)算那樣，具有一個(gè)標(biāo)準(zhǔn)的數(shù)學(xué)表達(dá)式和明確清晰的解題方法。動(dòng)態(tài)規(guī)劃程序設(shè)計(jì)往往是針對(duì)一種最優(yōu)化問(wèn)題，由于各種問(wèn)題的性質(zhì)不同，確定最優(yōu)解的條件也互不相同，因而動(dòng)態(tài)規(guī)劃的設(shè)計(jì)方法對(duì)不同的問(wèn)題，有各具特色的解題方法，而不存在一種萬(wàn)能的動(dòng)態(tài)規(guī)劃，可以解決各類最優(yōu)化問(wèn)題。因此在學(xué)習(xí)時(shí)，除了要對(duì)基本概念和方法正確理解外，必須具體問(wèn)題具體分析處理，以豐富的想象力去建立模型，用創(chuàng)造性的技巧去求解。(三)基本模型根據(jù)上例分析和動(dòng)態(tài)規(guī)劃的基本概念，可以得到動(dòng)態(tài)規(guī)劃的基本模型如下：(1) 確定

10、問(wèn)題的決策對(duì)象。(2) 對(duì)決策過(guò)程劃分階段。(3) 對(duì)各階段確定狀態(tài)變量。(4) 根據(jù)狀態(tài)變量確定費(fèi)用函數(shù)和目標(biāo)函數(shù)。(5) 建立各階段狀態(tài)變量的轉(zhuǎn)移過(guò)程，確定狀態(tài)轉(zhuǎn)移方程。四、應(yīng)用舉例用動(dòng)態(tài)規(guī)劃實(shí)現(xiàn)導(dǎo)彈攔截。某國(guó)為了防御敵國(guó)的導(dǎo)彈襲擊，開(kāi)發(fā)出一種導(dǎo)彈攔截系統(tǒng)。但是這種導(dǎo)彈攔截系統(tǒng) 有一個(gè)缺陷：雖然它的第一發(fā)炮彈能夠到達(dá)任意的高度，但是以后每一發(fā)炮彈都不能高于前一發(fā)的高度。某天，雷達(dá)捕捉到敵國(guó)的導(dǎo)彈來(lái)襲。由于該系統(tǒng)還在試用階段，所以只有一套系統(tǒng)，因此有可能不能攔截所有的導(dǎo)彈。輸入導(dǎo)彈依次飛來(lái)的高度（雷達(dá)給出的高度數(shù)據(jù)是不大于30000的正整數(shù)），計(jì)算這套系統(tǒng)最多能攔截多少導(dǎo)彈，并依次輸出被

11、攔截的導(dǎo)彈飛來(lái)時(shí)候的高度。SAMPLE INPUT:389 207 155 300 299 170 158 65SAMPLE OUTPUT:6389 300 299 170 158 65因?yàn)橹挥幸惶讓?dǎo)彈攔截系統(tǒng)，并且這套系統(tǒng)除了第一發(fā)炮彈能到達(dá)任意高度外，以后的每一發(fā)炮彈都不能高于前一發(fā)炮彈的高度；所以，被攔截的導(dǎo)彈應(yīng)該按飛來(lái)的高度組成一個(gè)非遞增序列。題目要求我們計(jì)算這套系統(tǒng)最多能攔截的導(dǎo)彈數(shù)，并依次輸出被攔截導(dǎo)彈的高度，實(shí)際上就是要求我們?cè)趯?dǎo)彈依次飛來(lái)的高度序列中尋找一個(gè)最長(zhǎng) 非遞增子序列。設(shè)X=x 1 ,x 2 ,x n為依次飛來(lái)的導(dǎo)彈序列，Y=y 1 ,y 2 , ,y k為問(wèn)

12、題的最優(yōu)解（即X的最長(zhǎng)非遞增子序列），s為問(wèn)題的狀態(tài)（表示導(dǎo)彈攔截系統(tǒng)當(dāng)前發(fā)送炮彈能夠到達(dá)的最大高度，初值為s=x第一發(fā)炮彈能夠到達(dá)任意的高度）。如果y 1 =x1 ，即飛來(lái)的第一枚導(dǎo)彈被成功攔截。那么，根據(jù)題意 “每一發(fā)炮彈都不能高于前一發(fā) 的高度”問(wèn)題的狀態(tài)將由s=x變成sx 1 （ x 1為第一枚導(dǎo)彈的高度）；在當(dāng)前狀態(tài) 下，序列丫 1 =y 2 ,y k也應(yīng)該是序列X 1 =x 2 ,x n 的最長(zhǎng)非遞增子序列（大家用反證法很容易證明）。也就是說(shuō)，在當(dāng)前狀態(tài) s1假設(shè)系統(tǒng)最多能攔截的導(dǎo)彈數(shù)為dmax (即問(wèn)題的最優(yōu)值)，貝U dmax = max(D(i)所以，要計(jì)算問(wèn)題的最優(yōu)值d

13、max ,需要分別計(jì)算出D(1)、D(2)、D(n)的值，然后將它們進(jìn)行比較，找出其中的最大值。根據(jù)上面分析出來(lái)的遞歸方程，我們完全可以設(shè)計(jì)一個(gè)遞歸函數(shù)，采用自頂向下的方法計(jì)算 D(i) 的值。然后，對(duì) i 從 1 到 n 分別調(diào)用這個(gè)遞歸函數(shù)，就可以計(jì)算出 D(1)、D(2)、D(n)。但這樣將會(huì)有大量的子問(wèn)題被重復(fù)計(jì)算。比如在調(diào)用遞歸函數(shù)計(jì)算 D(1) 的時(shí)候，可能需要先計(jì)算 D(5) 的值;之后在分別調(diào)用遞歸函數(shù)計(jì)算 D(2) 、D(3) 、D(4) 的時(shí)候，都有可能需要先計(jì)算 D(5) 的值。如此一來(lái)，在整個(gè)問(wèn)題的求解過(guò)程中， D(5) 可能會(huì)被重復(fù)計(jì)算很多次，從而造成了冗余，降

14、低了程序的效率。其實(shí)，通過(guò)以上分析，我們已經(jīng)知道：D(n)=1。如果將n作為階段對(duì)問(wèn)題進(jìn)行劃分，根據(jù)問(wèn)題的動(dòng)態(tài)規(guī)劃遞歸方程，我們可以采用自底向上的方法依次計(jì)算出D(n-1) 、D(n-2)、D(1)的值。這樣，每個(gè) D(i)的值只計(jì)算一次，并在計(jì)算的同時(shí)把計(jì)算結(jié)果保存下來(lái)，從而避免了有些子問(wèn)題被重復(fù)計(jì)算的情況發(fā)生，提高了程序的效率。算法代碼如下：for(i=n-2;i=0;i-)/ 從后往前計(jì)算 di值for(j=i+1;jn;j+)if(arrayj=arrayi)&(didj+1)di=dj+1;dmax = 0;xh = 1;for(i=0;idmax)dmax = di;xh = i;coutdmaxendl;/輸出結(jié)果 coutarrayxh);int temp = xh;for(i=xh+1;in;i+)if(di=dtemp-1)temp = i;couta

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘?qū)W習(xí)報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘?qū)W習(xí)報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔