DM 1 概述 數(shù)據(jù)預處理_第1頁
DM 1 概述 數(shù)據(jù)預處理_第2頁
DM 1 概述 數(shù)據(jù)預處理_第3頁
DM 1 概述 數(shù)據(jù)預處理_第4頁
DM 1 概述 數(shù)據(jù)預處理_第5頁
已閱讀5頁,還剩121頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘概述Dr.Qingyuan

BaiSchoolofComputerScienceFacultyofMathematicsandComputerScience,FuzhouUniversityEmail:baiqy@1References1.ProceedingsinVLDB,AAAI,IJCAI,SIGMOD/SIGPODS,ICDE/ICDT.2.Jiawei

Han(/~hanj/)3.DBLP(rmatik.uni-trier.de/~ley/db/index.html)4.國內(nèi)外相關網(wǎng)站/論壇(1)21世紀人工智能論壇()(2)www.cs.ualberta.ca/~tszhu/webmining/(3)研學論壇(/index.html)(4)數(shù)據(jù)挖掘討論組()2數(shù)據(jù)挖掘數(shù)據(jù)挖掘是在數(shù)據(jù)大量積累,數(shù)據(jù)豐富,而知識貧乏,希望從數(shù)據(jù)中發(fā)現(xiàn)知識的方法。集數(shù)據(jù)庫、統(tǒng)計學、人工智能等技術形成一個新學科可處理雜亂的數(shù)據(jù)、定性和定量混合數(shù)據(jù)、模糊數(shù)據(jù)、不確定數(shù)據(jù)和不完整的的數(shù)據(jù)。機器學習、人工智能用各種方法解決了一些方法問題,但實用性不夠(僅在小數(shù)量數(shù)據(jù)實驗可行)。3

數(shù)據(jù)挖掘與其他學科的關系

4數(shù)據(jù)挖掘相關的領域KDD(知識發(fā)現(xiàn))機器學習數(shù)據(jù)庫統(tǒng)計學人工智能模糊邏輯方法和粗糙集方法神經(jīng)元網(wǎng)絡模式識別可視技術5數(shù)據(jù)挖掘希望回答的問題信貸中信用評估、信用卡評級、信用卡欺詐銷售一個產(chǎn)品,廣告、材料的郵寄對象保留何種客戶、爭取潛在客戶,交叉銷售股票違規(guī)操作、欺詐行為

貨架貨物的擺放國民經(jīng)濟各指標間的關系疾病、癥狀、藥物、療效之間的關系DNA序列的相似分析導致各種疾病的特定基因序列模式6數(shù)據(jù)挖掘發(fā)展歷程從80年代中后期,數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的方法、技術和系統(tǒng),從不同角度、不同領域和不同學科進行了研究和實踐,主要的學科有數(shù)據(jù)庫、統(tǒng)計學和機器學習。由于知識發(fā)現(xiàn)和數(shù)據(jù)挖掘日益成熟和廣泛發(fā)展,1989年在美國底特律召開的IJCAI會議上,召開KDDworkshop,1991年MIT出版社出版了一本書“KnowledgeDiscoveryinDatabases”。7此后KDD和DM成為研究的熱點,并有很大發(fā)展和進步,1994年召開了一個國際會議(KDD94),并于1996年由MIT出版社又出版了一本書“AdvancesinKnowledgeDiscoveryandDataMining”。1996年出第一本專著,97年有6-7本,2006年有幾百本,中文(翻譯,編著)30本以上,國外各大學研究生、大學生均有數(shù)據(jù)挖掘課程。我國也陸續(xù)出書,開設課程。數(shù)據(jù)挖掘發(fā)展歷程8從1995年正式召開第一次國際KDD會議(KDD’95)后,每年召一次。前四次均由美國AAAI組織,1999年提到ACM,成立了SIGKDD。使KDD學術上上了一個檔次。亞太地區(qū)也緊跟世界潮流,1997年在新加坡召開了第一次亞太KDD會議,其中,1999年4月在北京召開了第三屆亞太KDD會議(PAKDD99)。第五屆PAKDD2001年4月16日在我國香港召開。第十五屆(2011)在深圳召開。數(shù)據(jù)挖掘發(fā)展歷程9國外有許多研究小組和機構。自1998年開始,我國許多單位的研究小組開展了KDD的研究與開發(fā)工作,我國各大科研資助項目(如“國家自然科學基金”,“973”、“863”、“攻關”)都設立了KDD的研究課題。一些企業(yè)也有此類項目研制和開發(fā)。數(shù)據(jù)挖掘發(fā)展歷程10通用工具(非特定領域)SASEnterpriseMinerMinerSPSSClementineSGIMineSetOracleDarwinIBMIntelligentMinerAngoss

KnowledgeSeeker綜合工具BusinessObjectCognosScenarioDataMining工具、軟件、產(chǎn)品11面向應用的工具(特定領域)KD1(重點在零售業(yè))Options&Choise(重點在保險業(yè))HNC(重點在欺詐行為探查)UnicaModel1(重點在市場)IntelligentMiner(數(shù)據(jù)挖掘,文本挖掘)MinesetDBminerBODataMining工具、軟件、產(chǎn)品12有許多預測機構都看好數(shù)據(jù)挖掘和KDD技術。權威預測機構Gartner報告中列舉了在今后3~5年內(nèi)對工業(yè)將產(chǎn)生重要影響的五項關鍵技術,其中KDD和人工智能排名第一。世界有名的GartnerGroup咨詢公司預計:不久的將來先進大型企業(yè)會設置“統(tǒng)一數(shù)據(jù)分析專家”,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘一定會擴展開來!微軟專家也認為數(shù)據(jù)挖掘會成為21世紀的重要技術之一,也有研究小組。在中國微軟研究院有相應的研究小組。數(shù)據(jù)挖掘的前景與趨勢13金融業(yè)(銀行信貸、信用評估、信用卡等級、保險、證卷分析、監(jiān)管、預警,外匯管理……)電信(各通信公司幾乎都啟動)商場(客戶分析、貨物擺放、交叉銷售…)地稅(異常發(fā)現(xiàn)…)醫(yī)療(醫(yī)院在HIS基礎上除建立全面的電子病例,就是建立數(shù)據(jù)挖掘系統(tǒng))客戶關系管理(CRM)國內(nèi)企業(yè)數(shù)據(jù)挖掘項目14數(shù)據(jù)挖掘概述1.KDD定義、過程、分類2.成功因素3.數(shù)據(jù)挖掘技術4.數(shù)據(jù)挖掘的方法論5.應用情況151KDD定義、過程、分類1/7KDD定義KDD過程KDD分類16KDD

(KnowledgeDiscovery

inDatabase,)定義:2/7

KDD是從數(shù)據(jù)集

中識別

出有效的、新穎的、潛在有用的,以及最終可理解的

模式的非平凡過程。數(shù)據(jù)挖掘(DM)是KDD中一個重要環(huán)節(jié)17數(shù)據(jù)集:是一組事實F(如關系數(shù)據(jù)庫中的記錄);模式:是一個用語言L來表示的一個表達式E,它可用來描述數(shù)據(jù)集F的某個子集FE,E作為一個模式要求它比對數(shù)據(jù)子集FE的枚舉要簡潔(所用的描述信息量要少);過程:是指KDD是一個多階段的過程,包括數(shù)據(jù)準備、模式搜索、知識評價,以及上述過程的反復求精;該過程是非平凡的,是指整個過程是自動的、智能的(如計算所有數(shù)據(jù)的總和、平均值都不能算作是一個KDD過程);KDD定義3/718有效性:是指發(fā)現(xiàn)的模式應用于新的數(shù)據(jù)時要具有一定的可信度;新穎性:要求發(fā)現(xiàn)的模式應該是新的、用戶未知的或未預料到的;潛在有用性:是指發(fā)現(xiàn)的知識將來具有實際效用,如用戶根據(jù)發(fā)現(xiàn)的知識進行商業(yè)決策可以產(chǎn)生一定的經(jīng)濟效益;最終可理解性:要求所發(fā)現(xiàn)的模式容易被用戶理解。KDD

定義4/7

19KDD過程5/7

KDD過程可分為三個階段:數(shù)據(jù)準備(datapreparation)、數(shù)據(jù)挖掘,以及

結果的解釋評價(interpretationandevaluation),如圖所示。

可視化用戶界面

數(shù)據(jù)庫

目標數(shù)據(jù)

預處理好的數(shù)據(jù)

轉換后數(shù)據(jù)挖掘出的知識

有用的知識

選擇/抽樣

預處理

數(shù)據(jù)轉換

數(shù)據(jù)挖掘

解釋評價

20過程6/71.數(shù)據(jù)的選擇與抽樣根據(jù)用戶的需要從數(shù)據(jù)庫中選擇或抽樣的一部分數(shù)據(jù)。2.數(shù)據(jù)預處理(1)數(shù)據(jù)的過濾:除噪聲去冗余(2)數(shù)據(jù)的添補3.數(shù)據(jù)轉換:數(shù)據(jù)轉換的主要目的是消減數(shù)據(jù)維數(shù)或維數(shù)縮減4.數(shù)據(jù)挖掘:挖掘方法的使用5.結果的評價(1)可視化表示(2)解釋(3)知識的使用6.循環(huán)21數(shù)據(jù)挖掘分類7/7(1)根據(jù)數(shù)據(jù)挖掘任務分數(shù)據(jù)挖掘有如下幾種:分類、數(shù)據(jù)總結、數(shù)據(jù)聚類、關聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關系(或依賴模型發(fā)現(xiàn))、異常和趨勢發(fā)現(xiàn)等等。(2)根據(jù)數(shù)據(jù)挖掘的數(shù)據(jù)庫或數(shù)據(jù)源分數(shù)據(jù)挖掘有以下幾種:關系數(shù)據(jù)庫、面向對象數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質數(shù)據(jù)庫、以及萬維網(wǎng)(WWW)。(3)根據(jù)數(shù)據(jù)挖掘所采用的技術分數(shù)據(jù)挖掘可大致分為:統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡方法和數(shù)據(jù)庫方法。222.成功因素1/2(1)問題的明確(2)一定數(shù)量和質量的數(shù)據(jù)(3)領域專家的配合(結果的判斷)(4)合適的方法和算法

(5)決策者的決心232.成功因素2/2

問題:1、數(shù)據(jù)數(shù)量與質量(積累、選擇、清理)2、解決問題不明確3、領域專家參與不夠4、領導決心不夠(多人投入,少數(shù)人使用)難點:1、數(shù)據(jù)量大:紀錄多、分類多、屬性多2、大部分是NP-Hard難解問題3、找出方法,多為啟發(fā)式方法243.數(shù)據(jù)挖掘所用的技術1/11數(shù)據(jù)庫技術:1、海量數(shù)據(jù)的存儲2、海量數(shù)據(jù)的檢索統(tǒng)計技術:1、相關分析;2、回歸分析(多元回歸、自回歸等);3、關聯(lián)規(guī)則;4、貝葉斯分析(貝葉斯分類,貝葉斯網(wǎng)絡)

5、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)

6、序列分析、時間序列分析253.數(shù)據(jù)挖掘所用的技術2/11機器學習技術:

1、歸納學習:2、神經(jīng)網(wǎng)絡3、遺傳算法4、基于示例的學習(推理)5、聚類數(shù)學方法:

1、粗糙集(RoughSets)2、模糊邏輯方法;搜索與檢索方法:

1、有效的搜索引擎2、有效的文本(信息)檢索可視化技術WebMining(網(wǎng)絡挖掘)

TextMining(文本挖掘)

263.數(shù)據(jù)挖掘技術3/11數(shù)據(jù)預處理概念描述關聯(lián)規(guī)則分類與預測聚類技術文本挖掘Web挖掘27數(shù)據(jù)預處理4/11數(shù)據(jù)清理:缺值、噪聲(不是真正的數(shù)據(jù))、數(shù)據(jù)不完整(缺數(shù)據(jù))、數(shù)據(jù)不一致(計量單位不同,符號不同,同義詞)、數(shù)據(jù)冗余、孤立點(例外,特殊值)數(shù)據(jù)變換:通過平滑、聚集、概化、規(guī)范化等將數(shù)據(jù)轉換成適合數(shù)據(jù)挖掘的形式數(shù)據(jù)集成:通過數(shù)據(jù)去重、清理、規(guī)范化,按照要求集合成一個新的數(shù)據(jù)集。數(shù)據(jù)歸約:通過各種方法使數(shù)據(jù)集變小,有意義。數(shù)據(jù)離散化:離散化是將連續(xù)屬性值化為標號使取值數(shù)量減少,或用一個區(qū)間代替區(qū)間內(nèi)所有可能的值,雖然離散化失去了細節(jié)值,但可使概念更清晰。28②概念描述5/11從數(shù)據(jù)分析角度看,數(shù)據(jù)挖掘分描述式數(shù)據(jù)挖掘和預測式數(shù)據(jù)挖掘。描述式DM:以簡潔概要方式描述數(shù)據(jù),并給出數(shù)據(jù)的一般性質。預測式DM:分析數(shù)據(jù),建立一個或一組模型,預測新數(shù)據(jù)行為。概念描述是描述式DM的最基本形式,它以簡潔匯總的形式描述給定的任務相關數(shù)據(jù)集。概念(類)描述由特征化和比較(區(qū)分)組成。特征化給出數(shù)據(jù)匯集的簡潔匯總,有基于立方體的OLAP方法和面向屬性的歸納方法。對比給出兩個或多個數(shù)據(jù)匯集的比較,是對兩組可比較的類進行概化和特征描述,然后進行比較。29③關聯(lián)規(guī)則6/11通過各種方法找出一些事物與另一些事物的關聯(lián),這種關聯(lián)有一定支持度和一定可信度。如:年收入20萬,年齡30-40,無房=>

購買汽車,購買房子(s=10,c=70)購買鞋,蘭球=>

運動衣,牛奶(s=5,c=50)

X=>Y(s,c)30④分類與預測7/11用特定的方法把一些數(shù)據(jù)對象歸于預先設定的某一類,或預測某對象的未來值或趨勢。這些特定方法是通過對樣本數(shù)據(jù)的學習得到模型或函數(shù),樣本數(shù)據(jù)的類是給定的。分類是有指導的學習。分類方法有:決策樹,人工神經(jīng)網(wǎng)絡,k-近鄰,貝葉斯方法,案例推理,遺傳算法,粗糙集方法,模糊方法。預測方法有:回歸方法(線性,非線性,二元或多元回歸)。31⑤聚類技術8/11按照對象的特點進行歸類,歸類的過程稱聚類,得到的類,稱簇,簇內(nèi)對象相似性大,簇間相異性大。聚類過程不需要訓練,即不需要樣例,是無指導的學習。聚類的方法有:分劃方法,分層方法,基于密度方法基于網(wǎng)格方法基于模型方法孤立點分析32⑥文本挖掘9/11對文本文本分類文本摘要文本信息抽取文本特征抽取文本學習模型文本自動分類系統(tǒng)文本自動摘要系統(tǒng)對中文文本分類:分詞問題33⑦Web挖掘10/11基于內(nèi)容挖掘(WebContentsMining)信息過濾、網(wǎng)頁分類、信息抽取(InformationExtraction)基于結構挖掘(WebStructureMining)確定一個網(wǎng)絡范圍、模式集成/匹配基于使用挖掘(WebUsageMining)個性化服務:信息推薦、用戶行為分析/預測文本挖掘是Web挖掘的基礎。34WebContentMiningWebcontentminingdescribestheautomaticsearchofinformationresourceavailableonline,andinvolvesminingwebdatacontents.TheaimistofindtheknowledgefromtheunstructureddataresidinginWebdocuments.TheWebdocumentusuallycontainsseveraltypesofdata,suchastext,image,audio,video,metadataandhyperlinks.Theyareeithersemi-structured,orunstructuredtextdata.35WebStructureMiningThegoalofWebstructureminingistogeneratestructuralsummaryabouttheWebsiteandWebpageandtodiscoverthelinkstructureofthehyperlinksattheinter-documentlevel.Webstructureminingcanalsohaveanotherdirection–discoveringthestructureofWebdocumentitself.Thistypeofstructureminingcanbeusedtorevealthestructure(schema)ofWebpages,thiswouldbegoodfornavigationpurposeandmakeitpossibletointegrateWebpageschemes.36WebUsageMiningWebusageminingtriestodiscoverytheusefulinformationfromthesecondarydataderivedfromtheinteractionsoftheuserswhilesurfingontheWeb.ItfocusesonthetechniquesthatcouldpredictuserbehaviorwhiletheuserinteractswithWeb.Predictionoftheuser’sbehaviorwithinthesite;AdjustmentoftheWebsitetotheinterestsofitsusers.373.數(shù)據(jù)挖掘技術11/11數(shù)據(jù)挖掘技術的應用同一方法可解決不同問題同一問題可用不同方法解決多種方法的結合、融合(多策略方法)38

4數(shù)據(jù)挖掘的方法論1/9目前比較流行的數(shù)據(jù)挖掘方法論1.NCR,SPSS等大公司提出的CRISP-DM(CrossIndustryStandardProcessforDataMining)方法論。2.SAS提出的SEMMA(Sample,Explore,Modify,ModelAccess)方法論3.IBM提出的通用數(shù)據(jù)挖掘方法(Thegenericdataminingmethod)歸納為:KDD的5(6,7)大步驟39CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘標準)1999年CRISP-DM報告給出下列步驟:

(1)BusinessUnderstanding(2)DataUnderstanding(3)DataPreparation(4)Modeling(5)Evaluation(6)Deployment這是許多KDD開發(fā)者遵循的準則之一.40(1)BusinessUnderstanding

企務問題理解在數(shù)據(jù)挖掘之前收集與該項目有關的信息,確定數(shù)據(jù)挖掘要解決那類問題。資源的評估:硬件、軟件資源、數(shù)據(jù)資源、人力資源(管理人員、業(yè)務人員、技術人員)數(shù)據(jù)評估:數(shù)據(jù)數(shù)量、數(shù)據(jù)質量項目成功估計、成功后的效益、相應人員(分析、維護)的增加。41如:一個電信領域的數(shù)據(jù)挖掘項目問題可為:一些優(yōu)質客戶有什么特征?哪些是不良客戶,他們有什么特征?在欠費客戶中,哪些是惡意的欠費?哪些是善意的欠費?哪些客戶可能會有最好的潛力?通過什么樣的標準來細分客戶?如何來衡量客戶帶來的價值?哪些是高價值客戶?如何去保住他們。保住一個客戶比爭取一個客戶將花較小的代價。42(2)DataUnderstanding理解數(shù)據(jù)

從哪里進行數(shù)據(jù)的收集數(shù)據(jù)來源有那些各數(shù)據(jù)源數(shù)據(jù)描述:格式、含義數(shù)據(jù)質量外來數(shù)據(jù)有那些對數(shù)據(jù)的含義一定要有深刻的理解才有可能從中找出(挖掘)規(guī)律和知識。43(3)DataPreparation準備數(shù)據(jù)數(shù)據(jù)選擇數(shù)據(jù)清理數(shù)據(jù)重構數(shù)據(jù)整合規(guī)格化:定出范圍標準化:解決不一致數(shù)據(jù)準備會占用整個項目50%以上時間44(4)Modeling建立模型

各種數(shù)據(jù)挖掘方法數(shù)據(jù)匯總概念描述關聯(lián)規(guī)則相關分析分類與預測聚類45挖掘結果(獲得知識的)評估挖掘過程的評估來決定是否要反復,KDD是迭代過程(6)Deployment方案實施發(fā)布挖掘結果(獲得知識的)評估決定實施計劃(5)Evaluation方案評估

46CRISP-DM各階段占用時間和重要性

(取自數(shù)據(jù)倉庫及其在電信領域中的應用段云峰等著)1%10%方案實施2%10%建立模型和模型評估15%50%數(shù)據(jù)準備3%20%數(shù)據(jù)理解79%10%問題理解占項目成功的重要性花費時間47

5.應用市場分析、預測和管理行銷策略、客戶關系管理(CRM)、購貨籃分析、市場分割風險分析、預測和管理風險預報、客戶挽留、改進的保險業(yè)、質量控制、競爭分析欺詐檢測和管理證券違規(guī)操作、稅務偷漏、瞞報、信用卡欺詐行為判斷信用評估銀行信貸評估、信用卡評估485應用宏觀經(jīng)濟(經(jīng)濟指標之間關聯(lián),經(jīng)濟指標的預測、預警)電信金融情報(文本挖掘、新聞組、電子郵件、文檔)DNA數(shù)據(jù)分析醫(yī)療診斷中藥配伍規(guī)律零售業(yè)科學(天氣預報、災難預測…)495應用情況

銀行17%生物/基因8%E商務/Web15%欺詐檢測8%保險6%投資/股票4%藥品5%零售業(yè)6%科學數(shù)據(jù)8%電信11%其他11%50經(jīng)常使用的數(shù)據(jù)挖掘工具調(diào)查51從技術看數(shù)據(jù)挖掘使用技術情況[784votestotal](Feb2005)

DecisionTrees/Rules(107)決策樹

14%Clustering(101)聚類

13%Regression(90)回歸

11%Statistics(80)統(tǒng)計

10%Visualization(63)可視化

8%NeuralNets(61)神經(jīng)網(wǎng)絡

8%Associationrules(54)關聯(lián)規(guī)則

7%NearestNeighbor(34)最近鄰

4%SVM(Supportvectormachine)(31)支持向量機

4%Bayesian(30)貝葉斯

4%Sequence/Timeseriesanalysis(26)序列/時間序列分析

3%Boosting(25)增強

3%Hybridmethods(23)混合方法

3%Bagging(20)袋裝

3%Geneticalgorithms(19)遺傳算法

2%Other(20)其他

3%52數(shù)據(jù)挖掘系統(tǒng)的典型架構數(shù)據(jù)倉庫數(shù)據(jù)清理與數(shù)據(jù)集成過濾

數(shù)據(jù)庫數(shù)據(jù)庫、數(shù)據(jù)倉庫管理系統(tǒng)數(shù)據(jù)挖掘引擎模型、模式評價可視化用戶界面數(shù)據(jù)挖掘方法庫其它數(shù)據(jù)源用戶知識庫53數(shù)據(jù)挖掘系統(tǒng)的典型架構54SAS提出的數(shù)據(jù)挖掘方法論

SEMMA(Sample,Explore,Modify,ModelAccess)1.Sample數(shù)據(jù)取樣2.Explore數(shù)據(jù)特征的探索、分析和預處理3.Modify問題明確化,數(shù)據(jù)調(diào)整和技術選擇4.Model模型研發(fā)、知識發(fā)現(xiàn)5.Assess模型和知識的綜合評價55SAS給出數(shù)據(jù)挖掘項目實施的方法論1.定義業(yè)務問題2.系統(tǒng)環(huán)境評估3.數(shù)據(jù)準備4.數(shù)據(jù)挖掘:應用SEMMA方法論5.模型實施6.回顧與評價56IBM提出的通用數(shù)據(jù)挖掘方法

(Thegenericdataminingmethod)1.明確地定義商務問題2.確定要使用的數(shù)據(jù)挖掘模型3.按模型的要求確定數(shù)據(jù)源并進行數(shù)據(jù)準備4.評估數(shù)據(jù)質量5.根據(jù)商務或技術問題的性質,選擇一種數(shù)據(jù)挖掘技術或幾種數(shù)據(jù)挖掘技術組合6.理解挖掘結果,并從挖掘結果中檢驗新模式7.將挖掘結果應用到具體業(yè)務中57數(shù)據(jù)挖掘產(chǎn)品(1)IntelligentMiner(IBM)多種數(shù)據(jù)挖掘算法較強的伸縮性工具包:神經(jīng)網(wǎng)絡,統(tǒng)計方法,數(shù)據(jù)準備,和數(shù)據(jù)可視化工具與IBMDB2關系數(shù)據(jù)庫系統(tǒng)的緊密集成EnterpriseMiner(SAS)各種統(tǒng)計分析工具數(shù)據(jù)倉庫工具和多種挖掘算法Mirosoft

SQLServer2000將DB、OLAP和數(shù)據(jù)挖掘集成在一起支持OLE-DB58數(shù)據(jù)挖掘產(chǎn)品(2)MineSet

(SGI)多種數(shù)據(jù)挖掘算法和高級統(tǒng)計工具先進的可視化工具Clementine(SPSS)為終端用戶和開發(fā)人員提供了集成的數(shù)據(jù)挖掘開發(fā)環(huán)境多種數(shù)據(jù)挖掘算法和可視化工具DBMiner(DBMinerTechnologyInc.)多個數(shù)據(jù)挖掘模塊:發(fā)現(xiàn)驅動的OLAP分析,關聯(lián)規(guī)則,分類和聚類高效的關聯(lián)規(guī)則與序列模式挖掘功能,可視化分類工具能對關系型數(shù)據(jù)庫和數(shù)據(jù)倉庫進行挖掘59數(shù)據(jù)預處理Dr.Qingyuan

BaiSchoolofComputerScienceFacultyofMathematicsandComputerScience,FuzhouUniversityEmail:baiqy@60我們受噪聲數(shù)據(jù)、空缺數(shù)據(jù)、不一致數(shù)據(jù)困擾沒有數(shù)據(jù)的質量就沒有挖掘結果的質量就沒有信息和知識的質量為提高數(shù)據(jù)質量我們要研究數(shù)據(jù)的預處理Motivation:61數(shù)據(jù)預處理數(shù)據(jù)表示數(shù)據(jù)質量不好的原因數(shù)據(jù)預處理必要性數(shù)據(jù)預處理的方法62數(shù)值型:整數(shù)(4,9),實數(shù)(3.25)文字型:人名,地名,物品,事物類別型:球類(藍,排,足,乒乓…),顏色(紅,藍…二值型:性別,通斷,(特殊的類別型)連續(xù)型:身高(0.5—2.58)離散型:可為類別型,也可為數(shù)字型定量型:產(chǎn)品價格(20—100元)

定性型:高,矮周期型:股票每周的走勢。非周期型:暴雨的發(fā)生一種為可度量:尺寸,面積。一種為不可度量:語義型,標稱型(顏色)數(shù)據(jù)表示數(shù)據(jù)類型63一個事務往往有多個屬性,這樣的一個事務稱樣本樣本,有時也稱元組/對象/記錄由一組特征或屬性(變量,域)表示:

X=(x1,x2……xn)xi:可為各種數(shù)據(jù)類型,可取各種值。如:物品=(編號,名稱,產(chǎn)地,型號,價格,庫存量)

張三=(身份證號碼,性別,年齡,教育程度,職業(yè),收入,有車……)

天氣=(溫度,濕度,風力,氣壓,……)數(shù)據(jù)表示樣本的表示樣本屬性64量大:百萬級以上紀錄,100GB,TB,PB特征多:千級特征,文本表示類別多:千級(漢字),萬級漢字,指紋

了解數(shù)據(jù)、樣本的表示以及數(shù)據(jù)的規(guī)模,處理方法就不一樣。選擇數(shù)據(jù)分析和數(shù)據(jù)挖掘的方法要根據(jù)數(shù)據(jù)情況而定。數(shù)據(jù)表示大數(shù)據(jù)集65數(shù)據(jù)預處理數(shù)據(jù)表示數(shù)據(jù)質量不好的原因數(shù)據(jù)預處理必要性數(shù)據(jù)預處理的方法66數(shù)據(jù)質量不好的原因缺值噪聲數(shù)據(jù)不完整數(shù)據(jù)不一致數(shù)據(jù)冗余例外數(shù)據(jù)(孤立點,特殊值)67缺值缺值可能是缺整個對象或對象的屬性丟失原始數(shù)據(jù)就忘掉了輸入傳輸丟失原來認為不重要,后來分析時認為需要68噪聲數(shù)據(jù)不正確,數(shù)據(jù)屬性不正確原因:

收集(錄入,設備)錯誤,設備受干擾,人為錄入錯誤。傳輸錯誤。69數(shù)據(jù)不完整不同時間(時期)的數(shù)據(jù)如1986年經(jīng)濟指標為100項目,2004年為150項,或100項,已與原來不一樣了。數(shù)據(jù)來源不同

各單位報上的匯總數(shù)據(jù)不一樣。原來的數(shù)據(jù)用途與現(xiàn)在的用途不一樣。收集數(shù)據(jù)不全面

數(shù)據(jù)收集時以為不要的數(shù)據(jù)。在分析階段覺得非常必要。如:病人診斷數(shù)據(jù)、經(jīng)濟報表。70數(shù)據(jù)不一致數(shù)據(jù)集成自不同的數(shù)據(jù)源,用的度量不同(米,公分,英尺)不同數(shù)據(jù)源集成,用的編碼不一樣如男,女(M,F;1,0)

名稱的不一樣。計算機,電腦;磁盤(磁碟)71數(shù)據(jù)冗余數(shù)據(jù)本身的冗余,記錄完全一樣。屬性冗余:有的樣本,有多個屬性,一個屬性包含另一個屬性,有些屬性是多余的。無關屬性:存在某個屬性,但在處理過程中,它不起作用。如分析一個人能力,他的電話號碼就沒作用。72噪聲是孤立點孤立點不是噪聲孤立點是真實數(shù)據(jù)孤立點與常規(guī)數(shù)據(jù)不一樣如:股票交易中的違規(guī)操作,信用卡消費的異常,醫(yī)療診斷數(shù)據(jù)中異常癥狀,欺詐行為。這是數(shù)據(jù)挖掘重要研究課題。例外(孤立點,特殊值)73數(shù)據(jù)預處理數(shù)據(jù)表示數(shù)據(jù)質量不好的原因數(shù)據(jù)預處理必要性數(shù)據(jù)預處理的方法74數(shù)據(jù)預處理必要性不預處理,數(shù)據(jù)處理時結論會不正確(不準);不預處理,數(shù)據(jù)占用空間大,處理時間長。75數(shù)據(jù)預處理數(shù)據(jù)表示數(shù)據(jù)收集、傳輸和處理數(shù)據(jù)預處理必要性數(shù)據(jù)預處理的方法76數(shù)據(jù)預處理方法一數(shù)據(jù)清理二數(shù)據(jù)變換三數(shù)據(jù)集成四數(shù)據(jù)歸約五數(shù)據(jù)離散化和概念分層77一、數(shù)據(jù)清理數(shù)據(jù)清理數(shù)據(jù)要解決下列問題:1缺值2含噪聲(不是真正的數(shù)據(jù))3數(shù)據(jù)不完整(缺數(shù)據(jù))4數(shù)據(jù)不一致(計量單位不同、符號不同、同義詞)5數(shù)據(jù)冗余6孤立點(例外、特殊值)去除由于不同數(shù)據(jù)源整合,需要對數(shù)據(jù)進行清理。781缺值解決方法忽略(去掉)缺值的元組人工填補用一個全局性的常數(shù)填上用平均值填上用同類元組屬性平均值填補用推導方法得到值(回歸,貝葉斯方法,決策樹,EM算法)//EM(ExpectationMaximization)最大期望方法各種解決缺值的方法雖有一定風險,它利用了已有的知識,是可行的。792解決噪聲的方法1)分箱(平滑)用分箱方法,將數(shù)據(jù)平滑了,用平滑值代替一個箱的值。噪聲被平滑掉了或被淹沒了。2)聚類用聚類方法對數(shù)據(jù)聚成多個類,不在類中的數(shù)據(jù)認為是噪聲。3)回歸用一個回歸方程來平滑數(shù)據(jù),把偏得太遠的數(shù)據(jù)校正過來。4)用計算機與人工相結合的方法找出垃圾數(shù)據(jù),對數(shù)據(jù)設限(非限內(nèi)數(shù)據(jù)為噪聲數(shù)據(jù))。801)分箱分箱方法

通過考察“鄰居”(即周圍的值)來平滑存儲數(shù)據(jù)的值。存儲的值被分到一些“桶”或箱中,由于分箱方法參考的是臨近的值,稱局部平滑。分箱方法要定義深度分箱方法箱里的值用平滑值代替。分箱方法平滑值由許多方法來確定:

平均值方法,中值方法,邊界值方法811)分箱一組價格數(shù)據(jù)排序為:{4,8,9,15,21,21,24,25,26,28,29,34}

分成等深的箱:-箱1:4,8,9,15-箱2:21,21,24,25-箱3:26,28,29,34

用箱平均值平滑:-箱1:9,9,9,9-箱2:23,23,23,23-箱3:29,29,29,29用箱的邊界平滑:-箱1:4,4,4,15-箱2:21,21,21,25-箱3:26,26,26,3482

2)聚類

用聚類方法聚了許多簇,簇內(nèi)的數(shù)據(jù)為有用數(shù)

據(jù),簇外為孤立點或噪聲。83

3)回歸

回歸主要是對數(shù)值屬性,用一個合適的函數(shù)來平滑數(shù)據(jù),消除噪聲。有線性回歸,多元回歸。

線性回歸

Y=

+X

xyy=x+1X1

y1

y1’用回歸方程算出的值來替代原來的值的,如給X1,用Y1’替代Y1.84回歸方程系數(shù)的計算

線性回歸:

Y=+X其中,,稱回歸系數(shù),可用最小二乘法來求。

=y

–xx=

y=853解決數(shù)據(jù)不一致在由多數(shù)據(jù)源集成為統(tǒng)一的數(shù)據(jù)庫和數(shù)據(jù)倉庫時就會出現(xiàn)數(shù)據(jù)不一致問題和數(shù)據(jù)冗余。表示不同(不同數(shù)據(jù)源對同類數(shù)據(jù)稱呼不一樣)、度量不同(元,萬元)、編碼的不同、幣制的不同、公制和英制不同……等。解決不一致只能靠元數(shù)據(jù),用實體識別方法來處理。如用戶名部處樣本男女客戶名單位事例MF864解決數(shù)據(jù)冗余數(shù)據(jù)冗余有的是數(shù)據(jù)重復,有的是屬性多余。前者去掉數(shù)據(jù),后者去掉屬性。去掉數(shù)據(jù)冗余方法:可用匹配方法,配合上的數(shù)據(jù)說明完全一樣,是冗余,可去掉一個實體識別方法,由于不同數(shù)據(jù)源要集成在一起,不同系統(tǒng)一個實體可能表示方式不同,但可能是同一件事情,在集成時要僅保留一個。實體識別一般用元數(shù)據(jù)或一些知識規(guī)則。去掉屬性冗余方法:可用相關分析874解決數(shù)據(jù)冗余有些數(shù)據(jù)可以通過相關分析,看一個屬性在多大程度上蘊含另一屬性,可用相關分析,兩個正相關性大的屬性,可能是一個屬性蘊含另一個屬性,可以去掉一個。屬性A和B相關由下面公式度量:

n是元組的個數(shù)分別是A,B的平均值,分別是A,B的標準差A,B的相關性度量88

上式大于0,為正相關,等于0不相關,小于0,是負相關。正相關性越大,一個變化(增大)另一個也跟著變化(增大),一個蘊含另一個可能性大,可能是數(shù)據(jù)屬性的冗余,可去掉一個。如一個是customer_id,另一個屬性是cust_number,它們相關性大,確實是冗余。895孤獨點問題孤獨點我們定義為異常點。可能為噪聲,可能為真實值。有時要忽略它,有時要研究它。為此要研究異常點的檢測方法。統(tǒng)計方法基于距離的方法基于偏差的方法90二數(shù)據(jù)變換(1/5)將數(shù)據(jù)轉換成適合數(shù)據(jù)挖掘的形式,涉及如下內(nèi)容1平滑:排除數(shù)據(jù)中的噪聲。采用前面的分箱、聚類和回歸方法。用分箱的平均數(shù)替代整個箱,用聚類值替代實際值。用回歸線上數(shù)據(jù)替代實際值2聚集:對數(shù)據(jù)進行匯總和聚集,如可聚集日銷售量為月銷售量、年銷售量等,聚集也常用來為多粒度分析構造數(shù)據(jù)立方體。3概化:用概念分層來對數(shù)據(jù)進行概化,即用高層次的概念來替代低層次“原始”數(shù)據(jù),如:用省名替代許多小地方名,用青年、中年、老年替代具體25,27,31歲,48,51歲,67,75歲

平滑是屬于數(shù)據(jù)清理,聚集和概化屬于數(shù)據(jù)歸約。91二數(shù)據(jù)變換(2/5)4.規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間,如[0.0,1.0]區(qū)間。方法有:最?。畲笠?guī)范化零-均值規(guī)范化小數(shù)定標規(guī)范化5.屬性/特征構造由給定的屬性構造和添加新的屬性92二數(shù)據(jù)變換規(guī)范化(3/5)1)最?。畲笠?guī)范化:對原始數(shù)據(jù)進行線性的變換。假定minA,maxA分別為屬性A的最小、最大值,值區(qū)間為[minA,maxA],將A的值映射到新區(qū)間[new_minA,new_maxA]中的V’。93二數(shù)據(jù)變換規(guī)范化(3/5)如個人的收入屬性income,minA=12000元,

maxA=98000元收入的區(qū)間[12000,98000].如某人收入為73000元(V),就難看出其狀況?,F(xiàn)在我們規(guī)范化區(qū)間定為[0.0,1.0],用公式計算為:

V’=[(73000-12000)/(98000-12000)](1.0-0.0)=0.716其收入在最高檔的71%。另外這種處理會為分析帶來方便。94二數(shù)據(jù)變換規(guī)范化(4/5)2)零-均值規(guī)范化(z-scorenormalization)屬性A的值基于A的平均值和標準差來規(guī)范化如的收入屬性income,其平均值為54000標準差為16000,如某人收入為v=73000元

V’=(73000-54000)/16000=1.225.95二數(shù)據(jù)變換規(guī)范化(5/5)3)小數(shù)定標規(guī)范化小數(shù)定標規(guī)范化是通過移動屬性A的小數(shù)點的位置進行規(guī)范化。小數(shù)點的移動位數(shù)取決于A的最大值。最大值標規(guī)范化后也要小于1。公式中的將j由A的最大值決定。J的選擇使Max()<1如A的最大值為678,則j為3,678就規(guī)范化為0.678j的選擇是取決于A的最大值,大于最大值的最小10的整數(shù)冪。96二數(shù)據(jù)變換屬性/特征構造由給定的屬性構造和添加新的屬性,以幫助提高精度和對高維數(shù)據(jù)結構的理解,如我們可能根據(jù)高和寬屬性而添加面積屬性。這有利于分析。屬性的構造根據(jù)問題和需要而定,不是一個特定的規(guī)律。97三數(shù)據(jù)集成

來自不同數(shù)據(jù)源,集成為統(tǒng)一的數(shù)據(jù)庫和數(shù)據(jù)倉庫時就會出現(xiàn):

1.數(shù)據(jù)不一致

2.數(shù)據(jù)冗余

3.數(shù)據(jù)沖突集成過程采用上述方法對不同的數(shù)據(jù)源進行了數(shù)據(jù)清理,然后經(jīng)數(shù)據(jù)變換后按照要求集成一個新的數(shù)據(jù)集或數(shù)據(jù)倉庫,供數(shù)據(jù)挖掘用。98四數(shù)據(jù)歸約是當數(shù)據(jù)集非常大,在海量數(shù)據(jù)進行數(shù)據(jù)分析或數(shù)據(jù)挖掘時需要非常多的時間,有時不現(xiàn)實,甚至是不可能的。將數(shù)據(jù)歸約成小規(guī)模數(shù)據(jù)集,分析和挖掘都可有效進行。原數(shù)據(jù)集歸約數(shù)據(jù)集歸約方法99四數(shù)據(jù)歸約數(shù)據(jù)歸約必要性:一個數(shù)據(jù)倉庫或一個海量數(shù)據(jù)集可能存儲TG的數(shù)據(jù),在這樣一個完整的數(shù)據(jù)集上分析和挖掘將需要很長時間。能否把數(shù)據(jù)集變小,但仍接近于保持原數(shù)據(jù)的完整性。用數(shù)據(jù)歸約方法得到數(shù)據(jù)集的歸約表示,它小得多,接近于保持原數(shù)據(jù)的完整性。在歸約后的數(shù)據(jù)集上進行數(shù)據(jù)挖掘更有效,并能產(chǎn)生相同(或幾乎相同)的分析結果。

100四數(shù)據(jù)歸約歸約的策略為數(shù)據(jù)立方體聚集維歸約值歸約數(shù)據(jù)壓縮1011數(shù)據(jù)立方體聚集數(shù)據(jù)立方體聚集常常為聯(lián)機分析用,是實際上也可為數(shù)據(jù)挖掘服務。用聚集的數(shù)據(jù)代替細節(jié)數(shù)據(jù),來減少數(shù)據(jù)量。年=1999年=1998年=1997季度銷售額Q1224,000Q2408,000Q3350,000Q4586,000年銷售額

1,568,0002,356,0003,594,0001022維(屬性,特征)歸約

維(也就是屬性)有時數(shù)據(jù)可能包含百計(甚至千計)的屬性,但在進行數(shù)據(jù)挖掘大部分屬性與數(shù)據(jù)挖掘任務無關的,有些是冗余的,有些次要的。利用去掉無關屬性和冗余屬性來減少數(shù)據(jù)規(guī)模,就是維歸約,為了分析一些特定屬性對某些事務的影響,去掉非指定的屬性。使分析問題更清晰,明了。盡管領域專家可以判斷一些無關屬性,但這是困難和費時的,必須給出一些方法來判斷,來刪去一些冗余和無關屬性。1032維歸約維歸約的方法:

1)去冗余屬性

2)去無關屬性

3)去次要屬性

4)決策樹方法

5)屬性重要性判斷方法

6)特征選擇方法1041)去冗余屬性用前面介紹的相關性分析方法,可能一個屬性就另一屬性的冗余。1052)去無關屬性特征選擇方法:基于應用領域的知識和數(shù)據(jù)挖掘的目標,分析者可選擇一個初始特征子集。認為其他屬性無關。這種方法有危險性:可能會漏掉潛在有用的屬性。1063)去次要屬性(找相關特征)用特定方法來判斷屬性的重要性,來對屬性排隊,取前面n個屬性,后面去掉(可定義閾值,或保留個數(shù))。有一些排隊方法和選擇策略。1.逐漸向前選擇策略(選好策略)

{A1,A2,A3,A4,A5,A6}{}起點{A1}A1最好{A1,A4}{A1,A4,A6}終點,歸約屬性集。該方法實際上是判斷屬性好壞計算,并有排序或給出閾值。1073)去次要屬性(找相關特征)2.逐漸向后選擇策略(去差策略)

{A1,A2,A3,A4,A5,A6}{A1,A2,A3,A4,A5,A6}A2差{A1,A3,A4,A5,A6}{A1,A4,A5,A6}{A1,A4,A6}歸約屬性集。該方法實際上是判斷屬性好壞計算,并有排序或給出閾值。1084)決策樹

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論