版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
主講:王名揚信息學院《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》2參考書目
《數(shù)據(jù)挖掘:概念與技術》韓家煒著(機械)網(wǎng)絡資源
中文(推薦)
日文
英文(課程)一引例網(wǎng)站怎么知道讀者可能會對這些物品感興趣?這是因為網(wǎng)站采用了新的技術來了解顧客的潛在需求,比如:網(wǎng)站從顧客的購買清單中發(fā)現(xiàn)你與張三具有相似的興趣愛好和購買習慣,但是有些書張三已經(jīng)買了,而你卻還沒買,網(wǎng)站會認定你對這些書可能感興趣,而對你進行推薦。
網(wǎng)站這種推薦并非漫無邊際,而是有一定技術依據(jù)的,這種技術就是數(shù)據(jù)挖掘技術(DM)。例1如果你在當當?shù)馁彆W(wǎng)站購買過書籍或音像制品,以后再瀏覽該網(wǎng)站時經(jīng)??吹筋愃频奶崾荆骸安履赡軙矚g”,然后就可以在網(wǎng)頁的某個位置看到網(wǎng)站推薦的圖書的名稱及其相關鏈接。從這個銷售數(shù)據(jù)中可以得出什么結(jié)論?某超市Post機上記錄如下的銷售數(shù)據(jù):例2啤酒與尿布的故事顧客購買商品1面包,黃油,尿布,啤酒2咖啡,糖,小甜餅,鮭魚,啤酒3面包,黃油,咖啡,尿布,啤酒,雞蛋4面包,黃油,鮭魚,雞5雞蛋,面包,黃油6鮭魚,尿布,啤酒7面包,茶,糖雞蛋8咖啡,糖,雞,雞蛋9面包,尿布,啤酒,鹽10茶,雞蛋,小甜餅,尿布,啤酒從數(shù)據(jù)挖掘的角度會得到如下的很強的關聯(lián)規(guī)則:簡單分析發(fā)現(xiàn),有6個顧客買了啤酒,而其中5個人買了尿布,或說,5個買了尿布的顧客都買了啤酒。規(guī)則1:“買啤酒”“買尿布”。置信度為5/6規(guī)則2:“買尿布”“買啤酒”。置信度為5/5結(jié)論:“買尿布的顧客很可能會買啤酒”。對決策者的啟示:商品的擺放設計和銷售策略。二什么是數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?DataInformationKnowledgeWisdom存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結(jié)構(gòu)Tofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experience數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規(guī)則。簡單的說,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘的定義(從數(shù)據(jù)中發(fā)現(xiàn)知識的角度):為什么會出現(xiàn)數(shù)據(jù)挖掘?時代背景:我們生活在一個網(wǎng)絡化時代,通信、計算機和網(wǎng)絡技術正改變整個人類社會。網(wǎng)絡化時代給我們帶來大量的數(shù)據(jù):
商務環(huán)境(CRM):電子商務的Web數(shù)據(jù)社交平臺數(shù)據(jù):facebook、twitter、微博(評論挖掘、商品營銷、事件預測等)、人人網(wǎng)等金融:銀行卡交易數(shù)據(jù)科學計算:天氣、地理環(huán)境等為什么會出現(xiàn)數(shù)據(jù)挖掘?數(shù)據(jù)爆炸性增長帶來的契機與挑戰(zhàn)。。。。視頻:《你知道嗎?》推薦電影《永無止境》:講述一位落魄的作家?guī)扃辏昧艘环N可以迅速提升智力的神奇藍色藥物,然后他將這種高智商用于炒股。庫珀是怎么炒股的呢?就是他能在短時間掌握無數(shù)公司資料和背景,也就是將世界上已經(jīng)存在的海量數(shù)據(jù)(包括公司財報、電視、幾十年前的報紙、互聯(lián)網(wǎng)、小道消息等)挖掘出來,串聯(lián)起來,甚至將FaceBook、Twitter的海量社交數(shù)據(jù)挖掘得到普通大眾對某種股票的感情傾向,通過海量信息的挖掘、分析,使一切內(nèi)幕都不是內(nèi)幕,使一切趨勢都在眼前,結(jié)果在10天內(nèi)他就贏得了200萬美元,神奇的表現(xiàn)讓身邊的職業(yè)投資者目瞪口呆。13數(shù)據(jù)爆炸.知識貧乏激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M行更高層次的分析,以便更好地利用這些數(shù)據(jù)。
目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏知識的手段,導致“數(shù)據(jù)爆炸.知識貧乏”的尷尬現(xiàn)象。14數(shù)據(jù).信息.知識數(shù)據(jù)僅是人們用各種工具和手段觀察外部世界得到的原始材料;信息雖給出數(shù)據(jù)中有一定意義的東西,但往往和任務無直接聯(lián)系,不能作為判斷、決策和行動的依據(jù);知識是人們作出正確的判斷、決策和采取正確行動的依據(jù)。15數(shù)據(jù)的豐富帶來了對強有力的數(shù)據(jù)分析工具的需求!16數(shù)據(jù)倉庫與數(shù)據(jù)挖掘解決方法:數(shù)據(jù)倉庫技術和數(shù)據(jù)挖掘技術
數(shù)據(jù)倉庫和聯(lián)機分析處理技術(存儲);數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識/規(guī)則/規(guī)律/模式/約束(分析)。17課程目錄第一章數(shù)據(jù)挖掘的基本概念;第二章
數(shù)據(jù)倉庫的基本概念;第三章聯(lián)機分析處理;第四章數(shù)據(jù)預處理;第五章概念描述:特征化與比較;第六章挖掘大型數(shù)據(jù)庫中的關聯(lián)規(guī)則;第七章分類與預測;第八章聚類分析18學習目的:掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本原理,學會用信息分析的方法思考問題。
掌握一些算法的基本思想,以便今后在實踐中處理特定問題時使用。第一章數(shù)據(jù)挖掘的基本概念第一章數(shù)據(jù)挖掘的基本概念
數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的功能——可以挖掘什么類型的模式
數(shù)據(jù)挖掘的典型應用一、數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規(guī)則。簡單的說,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的信息。數(shù)據(jù)挖掘的定義(從數(shù)據(jù)中發(fā)現(xiàn)知識角度):23
這個定義包括以下幾層含義:
數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持
特定的問題。數(shù)據(jù)挖掘的定義:24它把人們對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。
在這種需求牽引下,匯聚了不同領域的研究者,尤其是數(shù)據(jù)庫技術、人工智能技術、數(shù)理統(tǒng)計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數(shù)據(jù)挖掘這一新興的研究領域,形成新的技術熱點。
數(shù)據(jù)挖掘是一門交叉學科:數(shù)據(jù)挖掘:多學科的匯合數(shù)據(jù)挖掘數(shù)據(jù)庫技術統(tǒng)計學其它學科信息科學機器學習可視化人工智能科學計算幾個相關概念
機器學習:將一些已知的并被成功解決的問題作為范例輸入計算機,由計算機通過學習這些范例總結(jié)并生成相應的規(guī)則,以解決某一類的問題;
知識工程:不同于機器學習,直接給計算機輸入已被代碼化的規(guī)則,由計算機使用這些規(guī)則解決問題,如專家系統(tǒng)。20世紀80年代末,出現(xiàn)一個新的術語:數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD,KnowledgeDiscoveryinDatabase)。
KDD泛指所有從源數(shù)據(jù)中發(fā)掘模式或聯(lián)系的方法,用以描述整個數(shù)據(jù)發(fā)掘的過程,包括最開始的制定業(yè)務目標到最終的結(jié)果分析;
并用數(shù)據(jù)挖掘(DM,DataMining)來描述進行數(shù)據(jù)挖掘的子過程。幾個相關概念28知識發(fā)現(xiàn)的過程和步驟
知識發(fā)現(xiàn)的主要過程:A.
確定業(yè)務對象B.
數(shù)據(jù)準備C.
數(shù)據(jù)挖掘D.
結(jié)果分析E.
知識的同化29數(shù)據(jù)挖掘:一個
KDD過程挖掘數(shù)據(jù):過程的核心.DataCleaning數(shù)據(jù)整理DataIntegration數(shù)據(jù)集成數(shù)據(jù)庫DataWarehouse數(shù)據(jù)倉庫相關任務數(shù)據(jù)Task-relevantData挑選采掘數(shù)據(jù)DataMining模式評估PatternEvaluation29知識二、數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘可以挖掘的一些常用模式如下:關聯(lián)分析(描述);聚類分析(描述);分類(預測);孤立點分析(預測)數(shù)據(jù)挖掘的功能:數(shù)據(jù)挖掘的功能:1)關聯(lián)分析關聯(lián)規(guī)則挖掘:反映一個事件和其他事件之間依賴或關聯(lián)的知識。廣泛的用于購物籃或事務數(shù)據(jù)分析。例:2)聚類分析聚類分析:最大化類內(nèi)的相似性和最小化類間的相似性(無監(jiān)督的學習方法)找出數(shù)據(jù)集中的共性和差異,并將具有共性的對象聚合在相應的類中。“物以類聚,人以群分”示例:撲克牌的劃分(b)(a)(c)(d)圖
十六張牌基于不同相似性度量的劃分結(jié)果3)分類挖掘分類:反映同類事物共同性質(zhì)的特征型知識和不同事物之間的差異型特征知識(有監(jiān)督的學習方法)通過分析訓練集中的數(shù)據(jù),為每個類別建立分類分析模型;然后用這個分類分析模型對數(shù)據(jù)庫中的其他記錄進行分類。示例:垃圾郵件的識別屬于分類問題,所有訓練用郵件預先被定義好類標號信息,即訓練集中的每封郵件預先被標記為垃圾郵件或合法郵件信息,需要利用已有的訓練郵件建立預測模型,然后利用預測模型來對未來未知郵件進行預測。決策樹方法得到規(guī)則規(guī)則的應用例如:信用卡的使用規(guī)則1:Ifrefund=noandmaritalstatus=marriedthencheat=no3)分類挖掘聚類與分類的主要區(qū)別:
聚類是一種無指導的觀察式學習,沒有預先定義的類;
而分類問題是有指導的示例式學習,有預先定義的類。聚類分類監(jiān)督(指導)與否無指導學習(沒有預先定義的類)有指導學習(有預先定義的類)是否建立模型或訓練否,旨在發(fā)現(xiàn)空間實體的屬性間的函數(shù)關系。是,具有預測功能4)孤立點分析孤立點分析:對差異和極端特例的描述孤立點:事物偏離常規(guī)的異常現(xiàn)象,如標準類外的特例,數(shù)據(jù)聚類外的離群值等;異常檢測通過構(gòu)建正常行為模型(稱為特征描述),來檢測與特征描述嚴重偏離的新的模式。應用信用卡欺詐檢測移動電話欺詐檢測醫(yī)療分析(異常)三、數(shù)據(jù)挖掘的應用電信:客戶細分銀行:聚類(細分),交叉銷售百貨公司/超市:購物籃分析
(關聯(lián)規(guī)則)保險:客戶細分,交叉銷售,流失(原因分析)信用卡:
欺詐探測,細分電子商務:
網(wǎng)站日志分析稅務部門:偷漏稅行為探測警察機關:犯罪行為分析醫(yī)學:
醫(yī)療保健數(shù)據(jù)挖掘的應用:英國電信需要發(fā)布一種新的產(chǎn)品,需要通過直郵的方式向客戶推薦這種產(chǎn)品。。。。。。使直郵的回應率提高了100%電信GUS(英國的日用品零售商店)需要準確的預測未來的商品銷售量,降低庫存成本。。。。。。通過數(shù)據(jù)挖掘的方法使庫存成本比原來減少了3.8%零售商店美國國內(nèi)稅務局需要提高對納稅人的服務水平。。。。。。合理安排稅務官的工作,為納稅人提供更迅捷、更準確的服務稅務局匯豐銀行需要對不斷增長的客戶群進行分類,對每種產(chǎn)品找出最有價值的客戶。。。。。。營銷費用減少了30%銀行美國國防財務部需要從每年上百萬比的軍火交易中發(fā)現(xiàn)可能存在的欺詐現(xiàn)象。。。。。。發(fā)現(xiàn)可能存在欺詐的交易,進行深入調(diào)查,節(jié)約了大量的調(diào)查成本財務部數(shù)據(jù)挖掘都干了些什么?卓越亞馬遜通過數(shù)據(jù)挖掘我們可以發(fā)現(xiàn)最有價值的客戶通過數(shù)據(jù)挖掘我們可以使組合銷售更有效率熟食罐頭鮭魚凍肉牛肉鮮貨通過數(shù)據(jù)挖掘我們可以留住那些最有價值的客戶通過數(shù)據(jù)挖掘我們可以用更小的成本發(fā)現(xiàn)欺詐現(xiàn)象數(shù)據(jù)挖掘的熱點應用主要熱點就目前來看,將來的幾個熱點包括:—網(wǎng)站的數(shù)據(jù)挖掘(WebSiteDataMining)—生物信息或基因(Bioinformatics/genomics)的數(shù)據(jù)挖掘—文本的數(shù)據(jù)挖掘(TextualMining)。網(wǎng)站的數(shù)據(jù)挖掘電子商務網(wǎng)站的困難——如何讓您的電子商務網(wǎng)站有效益。要想有效益就必須吸引客戶,增加能帶來效益的客戶忠誠度。電子商務業(yè)務的競爭比傳統(tǒng)的業(yè)務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網(wǎng)站轉(zhuǎn)換到競爭對手那邊,只需點擊幾下鼠標即可。網(wǎng)站的數(shù)據(jù)挖掘網(wǎng)站的內(nèi)容和層次、用詞、標題、獎勵方案、服務等任何一個地方都有可能成為吸引客戶、同時也可能成為失去客戶的因素。而同時電子商務網(wǎng)站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對這些數(shù)據(jù)進行分析和挖掘,充分了解客戶的喜好、購買模式,甚至是客戶一時的沖動,設計出滿足于不同客戶群體需要的個性化網(wǎng)站,進而增加其競爭力,幾乎變得勢在必行。若想在競爭中生存進而獲勝,就要比您的競爭對手更了解客戶。生物信息(基因信息)的數(shù)據(jù)挖掘生物信息或基因數(shù)據(jù)挖掘是近年來新興起的一個熱門領域,在商業(yè)上很難講有多大的價值,但是對于人類卻受益匪淺。如,通過基因挖掘,可以得到某種病的人的基因和正常人的基因到底差別多大?哪些基因具有相似的表達模式?哪些化合物(潛在藥物)的使用能顯著降低這些基因的表達?等等。文本數(shù)據(jù)挖掘人們很關心的另外一個話題是文本數(shù)據(jù)挖掘。在現(xiàn)實世界中,可獲取的大部分信息是以文本形式存儲在文本數(shù)據(jù)庫中的,由來自各種數(shù)據(jù)源的大量文檔組成,如新聞文檔、研究論文、書籍、數(shù)字圖書館、電子郵件,和Web頁面。由于電子形式的文本信息飛速增長,文本挖掘已經(jīng)成為信息領域的研究熱點。文本數(shù)據(jù)庫中存儲的數(shù)據(jù)可能是高度非結(jié)構(gòu)化的,如WWW上的網(wǎng)頁;也可能是半結(jié)構(gòu)化的,如e-mail消息和一些XML網(wǎng)頁;其他的則是良結(jié)構(gòu)化的,如書籍,包含大量結(jié)構(gòu)化的字段,如標題、作者、出版日期,出版社等,但同時也包含一些非結(jié)構(gòu)化成分,如摘要和內(nèi)容等。文本數(shù)據(jù)挖掘數(shù)據(jù)中的非結(jié)構(gòu)化成分使得對文本數(shù)據(jù)的挖掘不同于常規(guī)的數(shù)據(jù)挖掘。文本數(shù)據(jù)挖掘,可以實現(xiàn)對文本的預處理(如過濾)、文檔的聚類(話題檢測)、文檔的自動文摘生成。文檔的自動摘要生成:互聯(lián)網(wǎng)上的文本信息、機構(gòu)內(nèi)部的文檔及數(shù)據(jù)庫的內(nèi)容都在成指數(shù)級的速度增長,用戶在檢索信息的時候,可以得到成千上萬篇的返回結(jié)果,其中許多是與其信息需求無關或關系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶付出很多勞動,而且效果不好。
自動文摘能夠生成簡短的關于文檔內(nèi)容的指示性信息,將文檔的主要內(nèi)容呈現(xiàn)給用戶,以決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量的瀏覽時間。簡單地說自動文摘就是利用計算機自動地從原始文檔中提取全面準確地反映該文檔中心內(nèi)容的簡單連貫的短文。如火如荼的“大數(shù)據(jù)”幾乎在一夜之間,大數(shù)據(jù)(BigData)變成一個IT行業(yè)中最時髦的詞匯。實際上,大數(shù)據(jù)不是什么完完全全的新生事物,Google的搜索服務就是一個典型的大數(shù)據(jù)運用,根據(jù)客戶的需求,Google實時從全球海量的數(shù)字資產(chǎn)(或數(shù)字垃圾)中快速找出最可能的答案,呈現(xiàn)給你,就是一個最典型的大數(shù)據(jù)服務。如火如荼的“大數(shù)據(jù)”大數(shù)據(jù)的特征(4個V:Volume,Variety,Value,Velocity):第一,數(shù)據(jù)量巨大。從TB級別,躍升到PB級別。第二,數(shù)據(jù)類型繁多,網(wǎng)絡日志、視頻、圖片、地理位置、科學觀測記錄、短信、博客等;第三,價值密度低,以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒;第四,處理速度快?!按髷?shù)據(jù)”挖掘可以做什么2014年1月26日,百度地圖春節(jié)人口遷徙大數(shù)據(jù)正式上線。人們可以輸入城市名稱,查詢該城市在過去8小時的時間里,春運人口遷入和遷出的情況,查詢到該城市人口都遷移到什么城市,也可以查詢到該城市的遷入者都是從哪座城市過來的,還可查詢到該城市在過去8小時里遷入和遷出的熱門線路。百度“遷徙大地圖”“大數(shù)據(jù)”挖掘可以做什么更精準的用戶調(diào)研;更精準的用戶推薦。如:WeatherCo是美國一家能夠基于對人們查看天氣情況的時間、地點和頻次的分析預測消費者行為的機構(gòu)。該公司積累了超過75年的氣象信息,覆蓋北美等地區(qū)的天氣、云量等方面的數(shù)據(jù)?;谶@些大數(shù)據(jù),WeatherCo不僅能為用戶提供單純的天氣信息,而且可以通過數(shù)據(jù)挖掘,分析天氣會對用戶消費產(chǎn)生什么影響。這種對用戶消費行為的預判,不僅能讓用戶感受到一種全新的購物體驗,而且還可以吸引那些對廣告投放精準度要求較高的廣告主。超級營銷顧問“大數(shù)據(jù)”挖掘可以做什么Netflix在美國擁有2700萬訂閱用戶,每天用戶在Netflix上產(chǎn)生3000多萬個行為,同時用戶每天還會給出400多萬個評分以及300萬次搜索請求。借助這些數(shù)據(jù),Netfli
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年人教新課標九年級科學上冊階段測試試卷含答案
- 2025年蘇人新版八年級地理下冊月考試卷
- 2025年人教B版拓展型課程化學下冊月考試卷含答案
- 二零二五版企業(yè)員工宿舍租賃管理規(guī)范合同2篇
- 2025年度企業(yè)安全生產(chǎn)培訓合作協(xié)議合同范本4篇
- 二零二五版新能源項目暖通系統(tǒng)設計咨詢合同4篇
- 2025年二零二五農(nóng)業(yè)機械化項目設備采購及安裝合同4篇
- 二零二五版借貸房屋買賣合同違約責任免除合同4篇
- 2025年農(nóng)業(yè)信息化建設舊房購置合同書4篇
- 二零二五版影視配音合同范本集4篇
- 幼兒園學習使用人民幣教案教案
- 2023年浙江省紹興市中考科學真題(解析版)
- 語言學概論全套教學課件
- 大數(shù)據(jù)與人工智能概論
- 《史記》上冊注音版
- 2018年湖北省武漢市中考數(shù)學試卷含解析
- 測繪工程產(chǎn)品價格表匯編
- 《腎臟的結(jié)構(gòu)和功能》課件
- 裝飾圖案設計-裝飾圖案的形式課件
- 護理學基礎教案導尿術catheterization
- ICU護理工作流程
評論
0/150
提交評論