學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)得到的收獲和啟發(fā)_第1頁(yè)
學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)得到的收獲和啟發(fā)_第2頁(yè)
學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)得到的收獲和啟發(fā)_第3頁(yè)
學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)得到的收獲和啟發(fā)_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)得到的收獲和啟發(fā)中山大學(xué)信科院數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、新穎的、潛在有用的,以及最終可理解的模式的過(guò)程。它是一門(mén)涉及面很廣的交叉學(xué)科,包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、模式識(shí)別、粗糙集、模糊數(shù)學(xué)等相關(guān)技術(shù)。一、數(shù)據(jù)挖掘的主要內(nèi)容(一)數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘包括四個(gè)步驟:(1)確定業(yè)務(wù)對(duì)象;(2)數(shù)據(jù)準(zhǔn)備(包括數(shù)據(jù)選擇,數(shù)據(jù)預(yù)處理,數(shù)據(jù)轉(zhuǎn)換);(3)數(shù)據(jù)挖掘(選擇合適的數(shù)據(jù)挖掘算法);(4)結(jié)果的解釋評(píng)估(可視化的表示)。數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理要占整個(gè)數(shù)據(jù)挖掘過(guò)程的60%的工作量,數(shù)據(jù)預(yù)處理包括:數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)

2、據(jù)規(guī)約。其中:數(shù)據(jù)清理包括:(1)平滑噪聲數(shù)據(jù)(又稱(chēng)臟數(shù)據(jù)),包含錯(cuò)誤或存在偏離期望的孤立點(diǎn)值(可采用分箱、聚類(lèi)、回歸技術(shù));(2)填寫(xiě)空缺值或不完整數(shù)據(jù)(有些感興趣的屬性缺少屬性值,或僅包含聚類(lèi)數(shù)據(jù))(可采用填充平均值、全局常量或者是采用回歸和基于貝葉斯方法的工具來(lái)填充);(3)解決數(shù)據(jù)不一致(對(duì)同一屬性采用不同的度量單位,比如對(duì)于成績(jī)采用百分制或是等級(jí)制)(可采用知識(shí)工程工具處理)。重復(fù)的元組也需要數(shù)據(jù)清理。數(shù)據(jù)集成:將數(shù)據(jù)由多個(gè)源合成一致的數(shù)據(jù)存儲(chǔ),如數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)立方體或一般文件。一般需要考慮三個(gè)問(wèn)題:模式的集成,冗余屬性的相關(guān)性分析,數(shù)據(jù)值沖突的檢測(cè)與處理。 模式的集成:也是一個(gè)實(shí)體

3、識(shí)別問(wèn)題。比如數(shù)據(jù)分析者或計(jì)算機(jī)如何確信一個(gè)數(shù)據(jù)庫(kù)中的customer_id和另一個(gè)數(shù)據(jù)庫(kù)中的customer_number指的是同一實(shí)體。通常,數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)可以幫助避免這個(gè)錯(cuò)誤。冗余屬性的相關(guān)性分析:給定兩個(gè)屬性,根據(jù)可用的數(shù)據(jù),通過(guò)分析可以度量一個(gè)屬性可以在多大程度上蘊(yùn)含另一個(gè)屬性。數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成適合挖掘的形式。包括:平滑、聚集、數(shù)據(jù)概化、規(guī)范化和屬性構(gòu)造。數(shù)據(jù)規(guī)約:可以用來(lái)得到數(shù)據(jù)集的規(guī)約表示,它比原始數(shù)據(jù)小得多,但仍接近于保持原始數(shù)據(jù)的完整性。在規(guī)約后的數(shù)據(jù)集上挖掘?qū)⒏行АV饕椒ㄓ校簲?shù)據(jù)立方體聚簇、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值壓縮、離散化和概念分層。DM的數(shù)據(jù)源有:關(guān)

4、系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)(legacy)數(shù)據(jù)庫(kù),以及Web數(shù)據(jù)源等等。(二)數(shù)據(jù)挖掘的主要功能和算法1.關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則挖掘是描述兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性,就稱(chēng)為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個(gè)閾值來(lái)度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。2.分類(lèi)學(xué)習(xí):分類(lèi)就是找出一個(gè)類(lèi)別的概念描述,它代表了這類(lèi)數(shù)據(jù)的整體信息,即該類(lèi)的內(nèi)涵描述,并用這種描

5、述來(lái)構(gòu)造模型,一般用規(guī)則或決策樹(shù)模式表示。分類(lèi)是利用訓(xùn)練數(shù)據(jù)集通過(guò)一定的算法模型而求得分類(lèi)規(guī)則。分類(lèi)可被用于規(guī)則描述和預(yù)測(cè)。目前比較常見(jiàn)的分類(lèi)算法有K最近鄰居算法(K Nearest Neighbor Algorithm)、決策樹(shù)算法、貝葉斯分類(lèi)和支持向量機(jī)算法(Support Vector Machine)等等。3.聚類(lèi)分析:聚類(lèi)就是把數(shù)據(jù)按照相似性歸納成若干類(lèi)別,同一類(lèi)中的數(shù)據(jù)彼此相似,不同類(lèi)中的數(shù)據(jù)相異。聚類(lèi)分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。目前聚類(lèi)分析的的類(lèi)型和代表算法主要有:(1) 基于劃分的聚類(lèi)算法:K均值算法。它需要指定聚類(lèi)個(gè)數(shù)K和K個(gè)

6、初始點(diǎn),通過(guò)平方差指標(biāo)找出K個(gè)聚類(lèi),但有時(shí)為了減少平方差會(huì)將一個(gè)大的聚類(lèi)分裂為幾個(gè)小的聚類(lèi)。(2) 自底向上的層次聚類(lèi)算法:Cure算法。用一定數(shù)量的記錄來(lái)代表一個(gè)類(lèi),然后將它們縮為類(lèi)的中心。在每一步,那些有最大相似度的聚類(lèi)被合并,直到聚類(lèi)的個(gè)數(shù)為k。Cure算法能夠挖掘任意形狀的聚類(lèi)。(3) 基于密度的聚類(lèi)算法:Dbscan算法?;舅枷胧菍?duì)于一個(gè)聚類(lèi)中的每一個(gè)對(duì)象,在其給定半徑的領(lǐng)域中包含的對(duì)象不能少于某一給定的最小數(shù)目,然后對(duì)具有密度連接特性的對(duì)象進(jìn)行聚類(lèi)。一個(gè)聚類(lèi)能夠被其中的任意一個(gè)核心對(duì)象所確定。Dbscan算法可以挖掘任意形狀的聚類(lèi),對(duì)數(shù)據(jù)輸入順序不敏感,并且具有處理異常數(shù)據(jù)(噪聲

7、)的能力。(4) 基于網(wǎng)格和密度的聚類(lèi)算法:Clique算法。由于把數(shù)據(jù)空間劃分為網(wǎng)格,所以算法效率高,可以處理高維數(shù)據(jù)。但在劃分網(wǎng)格時(shí)沒(méi)有或者很少考慮數(shù)據(jù)的分布,而且用一個(gè)網(wǎng)格內(nèi)的統(tǒng)計(jì)信息來(lái)代替該網(wǎng)格內(nèi)的所有點(diǎn),從而降低了聚類(lèi)質(zhì)量。4.預(yù)測(cè):預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對(duì)未來(lái)數(shù)據(jù)的種類(lèi)及特征進(jìn)行預(yù)測(cè)。預(yù)測(cè)關(guān)心的是精度和不確定性,通常采用預(yù)測(cè)方差來(lái)度量。預(yù)測(cè)的主要方法有統(tǒng)計(jì)學(xué)中的回歸分析等等。5.時(shí)序模式:時(shí)序模式是指通過(guò)時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用已知的數(shù)據(jù)預(yù)測(cè)未來(lái)的值,但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。6.偏差分析:在偏差中包括很

8、多有用的知識(shí),數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗(yàn)的基本方法就是尋找觀察結(jié)果與參照之間的差別二、學(xué)習(xí)體會(huì)數(shù)據(jù)挖掘的對(duì)象是某一專(zhuān)業(yè)領(lǐng)域中積累的數(shù)據(jù);挖掘過(guò)程是一個(gè)人機(jī)交互、多次反復(fù)的過(guò)程。該學(xué)科應(yīng)用廣泛,當(dāng)前主要集中應(yīng)用在電信(客戶分析),零售(銷(xiāo)售預(yù)測(cè)),農(nóng)業(yè)(行業(yè)數(shù)據(jù)預(yù)測(cè)),網(wǎng)絡(luò)日志(網(wǎng)頁(yè)定制),銀行(客戶欺詐),電力(客戶呼叫),生物(基因),天體(星體分類(lèi)),化工,醫(yī)藥等方面。當(dāng)前它能解決的問(wèn)題典型在于:數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)(Database Marketing)、客戶群體劃分(Customer Segmentation & Classifi

9、cation)、背景分析(Profile Analysis)、交叉銷(xiāo)售(Cross-selling)等市場(chǎng)分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等,在許多領(lǐng)域得到了成功的應(yīng)用。本人在財(cái)政部門(mén)工作,主要負(fù)責(zé)預(yù)算執(zhí)行分析工作,經(jīng)常要統(tǒng)計(jì)海量的財(cái)政預(yù)算收支數(shù)據(jù),通過(guò)統(tǒng)計(jì)結(jié)果反映預(yù)算執(zhí)行的狀況,為領(lǐng)導(dǎo)提供決策參考。例如在分析預(yù)算收入方面需要統(tǒng)計(jì)分析各月度各季度收入走勢(shì)、各種行業(yè)收入增減情況、各稅種收入變化情況、預(yù)算收入與經(jīng)濟(jì)運(yùn)行間的關(guān)聯(lián)情況等,分析預(yù)算支出方面需要統(tǒng)計(jì)分析預(yù)算執(zhí)行率的快慢、

10、各支出口徑增減變化情況、預(yù)算支出進(jìn)度、民生支出基本支出建設(shè)支出對(duì)社會(huì)經(jīng)濟(jì)的影響、財(cái)政結(jié)余資金的構(gòu)成及其產(chǎn)生的原因等??梢哉f(shuō),統(tǒng)計(jì)數(shù)據(jù)、分析數(shù)據(jù)、提煉觀點(diǎn)貫穿于本人整個(gè)工作過(guò)程之中。通過(guò)學(xué)習(xí)本課程,給本人工作提供了很大的指導(dǎo)意義,是本人在統(tǒng)計(jì)時(shí)有了更系統(tǒng)的概念和手段,能解決以前在統(tǒng)計(jì)和分析數(shù)據(jù)時(shí)遇到的很多問(wèn)題。例如,收到稅務(wù)、經(jīng)貿(mào)、工商等部門(mén)提供的數(shù)據(jù)后,存在大量的噪音數(shù)據(jù)和冗余數(shù)據(jù),很不利于數(shù)據(jù)的準(zhǔn)確分析。因此本人會(huì)將各個(gè)部門(mén)提供的數(shù)據(jù)合并成一張表把不必要的數(shù)據(jù)去掉,這個(gè)過(guò)程就相當(dāng)于數(shù)據(jù)清理和數(shù)據(jù)集成了。然后根據(jù)需要統(tǒng)計(jì)數(shù)據(jù)(如統(tǒng)計(jì)各種經(jīng)濟(jì)指標(biāo)與財(cái)政執(zhí)行之間的關(guān)聯(lián)等),把統(tǒng)計(jì)結(jié)果做成更加直觀的

11、圖表,再綜合各種客觀情況,評(píng)價(jià)數(shù)據(jù)的質(zhì)量,在此基礎(chǔ)上再利用數(shù)據(jù)起草預(yù)算執(zhí)行報(bào)告,這樣報(bào)告的可靠性和質(zhì)量會(huì)提高很多。數(shù)據(jù)挖掘技術(shù)應(yīng)用廣泛,作用很大,很有發(fā)展前景,未來(lái)的發(fā)展趨勢(shì)主要有:1.專(zhuān)業(yè)開(kāi)發(fā)語(yǔ)言出現(xiàn)(DMQL)。研究專(zhuān)門(mén)用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言,并使其走向形式化和標(biāo)準(zhǔn)化。2.尋求數(shù)據(jù)挖掘過(guò)程中更優(yōu)秀的可視化方法。(EXCEL中的透視圖)3.研究基于網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)。特別是在因特網(wǎng)上建立DMKD服務(wù)器,并且與數(shù)據(jù)庫(kù)服務(wù)器配合,實(shí)現(xiàn)網(wǎng)絡(luò)(遠(yuǎn)程)數(shù)據(jù)挖掘。(WEB數(shù)據(jù)挖掘)4.加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的開(kāi)采(如對(duì)圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開(kāi)采)5.挖掘軟件的適用性更加靈活。如果一次挖掘不能實(shí)現(xiàn)相應(yīng)的目標(biāo),可以進(jìn)行交互式、動(dòng)態(tài)性、分層挖掘等,即交互挖掘技術(shù)的發(fā)展。6.出現(xiàn)功能較強(qiáng)大的專(zhuān)用數(shù)據(jù)挖掘軟件。將來(lái)的幾個(gè)熱點(diǎn)發(fā)展方向包括網(wǎng)站的數(shù)據(jù)挖掘、生物信息或基因的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘等,這些領(lǐng)域具有獨(dú)特的數(shù)據(jù)性質(zhì),需要由獨(dú)特的專(zhuān)用軟件來(lái)支持。7. 空間數(shù)據(jù)挖掘(Spatial Data Mining)將有所突破。在SDM的理論和方法方面,重要的研究方向有:背景知識(shí)概念樹(shù)的自動(dòng)生成、不確定性情況下的數(shù)據(jù)挖掘、遞增式數(shù)據(jù)挖掘、柵格矢量一體化數(shù)據(jù)挖掘、多分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論