版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
主講:王名揚(yáng)信息學(xué)院《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》2參考書(shū)目
《數(shù)據(jù)挖掘:概念與技術(shù)》韓家煒著(機(jī)械)網(wǎng)絡(luò)資源
中文(推薦)
日文
英文(課程)一引例網(wǎng)站怎么知道讀者可能會(huì)對(duì)這些物品感興趣?這是因?yàn)榫W(wǎng)站采用了新的技術(shù)來(lái)了解顧客的潛在需求,比如:網(wǎng)站從顧客的購(gòu)買清單中發(fā)現(xiàn)你與張三具有相似的興趣愛(ài)好和購(gòu)買習(xí)慣,但是有些書(shū)張三已經(jīng)買了,而你卻還沒(méi)買,網(wǎng)站會(huì)認(rèn)定你對(duì)這些書(shū)可能感興趣,而對(duì)你進(jìn)行推薦。
網(wǎng)站這種推薦并非漫無(wú)邊際,而是有一定技術(shù)依據(jù)的,這種技術(shù)就是數(shù)據(jù)挖掘技術(shù)(DM)。例1如果你在當(dāng)當(dāng)?shù)馁?gòu)書(shū)網(wǎng)站購(gòu)買過(guò)書(shū)籍或音像制品,以后再瀏覽該網(wǎng)站時(shí)經(jīng)??吹筋愃频奶崾荆骸安履赡軙?huì)喜歡”,然后就可以在網(wǎng)頁(yè)的某個(gè)位置看到網(wǎng)站推薦的圖書(shū)的名稱及其相關(guān)鏈接。從這個(gè)銷售數(shù)據(jù)中可以得出什么結(jié)論?某超市Post機(jī)上記錄如下的銷售數(shù)據(jù):例2啤酒與尿布的故事顧客購(gòu)買商品1面包,黃油,尿布,啤酒2咖啡,糖,小甜餅,鮭魚(yú),啤酒3面包,黃油,咖啡,尿布,啤酒,雞蛋4面包,黃油,鮭魚(yú),雞5雞蛋,面包,黃油6鮭魚(yú),尿布,啤酒7面包,茶,糖雞蛋8咖啡,糖,雞,雞蛋9面包,尿布,啤酒,鹽10茶,雞蛋,小甜餅,尿布,啤酒從數(shù)據(jù)挖掘的角度會(huì)得到如下的很強(qiáng)的關(guān)聯(lián)規(guī)則:簡(jiǎn)單分析發(fā)現(xiàn),有6個(gè)顧客買了啤酒,而其中5個(gè)人買了尿布,或說(shuō),5個(gè)買了尿布的顧客都買了啤酒。規(guī)則1:“買啤酒”“買尿布”。置信度為5/6規(guī)則2:“買尿布”“買啤酒”。置信度為5/5結(jié)論:“買尿布的顧客很可能會(huì)買啤酒”。對(duì)決策者的啟示:商品的擺放設(shè)計(jì)和銷售策略。二什么是數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?DataInformationKnowledgeWisdom存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結(jié)構(gòu)Tofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experience數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則。簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)有用信息的過(guò)程。數(shù)據(jù)挖掘的定義(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的角度):為什么會(huì)出現(xiàn)數(shù)據(jù)挖掘?時(shí)代背景:我們生活在一個(gè)網(wǎng)絡(luò)化時(shí)代,通信、計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)正改變整個(gè)人類社會(huì)。網(wǎng)絡(luò)化時(shí)代給我們帶來(lái)大量的數(shù)據(jù):
商務(wù)環(huán)境(CRM):電子商務(wù)的Web數(shù)據(jù)社交平臺(tái)數(shù)據(jù):facebook、twitter、微博(評(píng)論挖掘、商品營(yíng)銷、事件預(yù)測(cè)等)、人人網(wǎng)等金融:銀行卡交易數(shù)據(jù)科學(xué)計(jì)算:天氣、地理環(huán)境等為什么會(huì)出現(xiàn)數(shù)據(jù)挖掘?數(shù)據(jù)爆炸性增長(zhǎng)帶來(lái)的契機(jī)與挑戰(zhàn)。。。。視頻:《你知道嗎?》推薦電影《永無(wú)止境》:講述一位落魄的作家?guī)扃辏昧艘环N可以迅速提升智力的神奇藍(lán)色藥物,然后他將這種高智商用于炒股。庫(kù)珀是怎么炒股的呢?就是他能在短時(shí)間掌握無(wú)數(shù)公司資料和背景,也就是將世界上已經(jīng)存在的海量數(shù)據(jù)(包括公司財(cái)報(bào)、電視、幾十年前的報(bào)紙、互聯(lián)網(wǎng)、小道消息等)挖掘出來(lái),串聯(lián)起來(lái),甚至將FaceBook、Twitter的海量社交數(shù)據(jù)挖掘得到普通大眾對(duì)某種股票的感情傾向,通過(guò)海量信息的挖掘、分析,使一切內(nèi)幕都不是內(nèi)幕,使一切趨勢(shì)都在眼前,結(jié)果在10天內(nèi)他就贏得了200萬(wàn)美元,神奇的表現(xiàn)讓身邊的職業(yè)投資者目瞪口呆。13數(shù)據(jù)爆炸.知識(shí)貧乏激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。
目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏知識(shí)的手段,導(dǎo)致“數(shù)據(jù)爆炸.知識(shí)貧乏”的尷尬現(xiàn)象。14數(shù)據(jù).信息.知識(shí)數(shù)據(jù)僅是人們用各種工具和手段觀察外部世界得到的原始材料;信息雖給出數(shù)據(jù)中有一定意義的東西,但往往和任務(wù)無(wú)直接聯(lián)系,不能作為判斷、決策和行動(dòng)的依據(jù);知識(shí)是人們作出正確的判斷、決策和采取正確行動(dòng)的依據(jù)。15數(shù)據(jù)的豐富帶來(lái)了對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的需求!16數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘解決方法:數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理技術(shù)(存儲(chǔ));數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)/規(guī)則/規(guī)律/模式/約束(分析)。17課程目錄第一章數(shù)據(jù)挖掘的基本概念;第二章
數(shù)據(jù)倉(cāng)庫(kù)的基本概念;第三章聯(lián)機(jī)分析處理;第四章數(shù)據(jù)預(yù)處理;第五章概念描述:特征化與比較;第六章挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則;第七章分類與預(yù)測(cè);第八章聚類分析18學(xué)習(xí)目的:掌握數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的基本原理,學(xué)會(huì)用信息分析的方法思考問(wèn)題。
掌握一些算法的基本思想,以便今后在實(shí)踐中處理特定問(wèn)題時(shí)使用。第一章數(shù)據(jù)挖掘的基本概念第一章數(shù)據(jù)挖掘的基本概念
數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的功能——可以挖掘什么類型的模式
數(shù)據(jù)挖掘的典型應(yīng)用一、數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則。簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的信息。數(shù)據(jù)挖掘的定義(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)角度):23
這個(gè)定義包括以下幾層含義:
數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持
特定的問(wèn)題。數(shù)據(jù)挖掘的定義:24它把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持。
在這種需求牽引下,匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計(jì)、可視化技術(shù)、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員,投身到數(shù)據(jù)挖掘這一新興的研究領(lǐng)域,形成新的技術(shù)熱點(diǎn)。
數(shù)據(jù)挖掘是一門(mén)交叉學(xué)科:數(shù)據(jù)挖掘:多學(xué)科的匯合數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)技術(shù)統(tǒng)計(jì)學(xué)其它學(xué)科信息科學(xué)機(jī)器學(xué)習(xí)可視化人工智能科學(xué)計(jì)算幾個(gè)相關(guān)概念
機(jī)器學(xué)習(xí):將一些已知的并被成功解決的問(wèn)題作為范例輸入計(jì)算機(jī),由計(jì)算機(jī)通過(guò)學(xué)習(xí)這些范例總結(jié)并生成相應(yīng)的規(guī)則,以解決某一類的問(wèn)題;
知識(shí)工程:不同于機(jī)器學(xué)習(xí),直接給計(jì)算機(jī)輸入已被代碼化的規(guī)則,由計(jì)算機(jī)使用這些規(guī)則解決問(wèn)題,如專家系統(tǒng)。20世紀(jì)80年代末,出現(xiàn)一個(gè)新的術(shù)語(yǔ):數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD,KnowledgeDiscoveryinDatabase)。
KDD泛指所有從源數(shù)據(jù)中發(fā)掘模式或聯(lián)系的方法,用以描述整個(gè)數(shù)據(jù)發(fā)掘的過(guò)程,包括最開(kāi)始的制定業(yè)務(wù)目標(biāo)到最終的結(jié)果分析;
并用數(shù)據(jù)挖掘(DM,DataMining)來(lái)描述進(jìn)行數(shù)據(jù)挖掘的子過(guò)程。幾個(gè)相關(guān)概念28知識(shí)發(fā)現(xiàn)的過(guò)程和步驟
知識(shí)發(fā)現(xiàn)的主要過(guò)程:A.
確定業(yè)務(wù)對(duì)象B.
數(shù)據(jù)準(zhǔn)備C.
數(shù)據(jù)挖掘D.
結(jié)果分析E.
知識(shí)的同化29數(shù)據(jù)挖掘:一個(gè)
KDD過(guò)程挖掘數(shù)據(jù):過(guò)程的核心.DataCleaning數(shù)據(jù)整理DataIntegration數(shù)據(jù)集成數(shù)據(jù)庫(kù)DataWarehouse數(shù)據(jù)倉(cāng)庫(kù)相關(guān)任務(wù)數(shù)據(jù)Task-relevantData挑選采掘數(shù)據(jù)DataMining模式評(píng)估PatternEvaluation29知識(shí)二、數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘可以挖掘的一些常用模式如下:關(guān)聯(lián)分析(描述);聚類分析(描述);分類(預(yù)測(cè));孤立點(diǎn)分析(預(yù)測(cè))數(shù)據(jù)挖掘的功能:數(shù)據(jù)挖掘的功能:1)關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則挖掘:反映一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)的知識(shí)。廣泛的用于購(gòu)物籃或事務(wù)數(shù)據(jù)分析。例:2)聚類分析聚類分析:最大化類內(nèi)的相似性和最小化類間的相似性(無(wú)監(jiān)督的學(xué)習(xí)方法)找出數(shù)據(jù)集中的共性和差異,并將具有共性的對(duì)象聚合在相應(yīng)的類中?!拔镆灶惥?,人以群分”示例:撲克牌的劃分(b)(a)(c)(d)圖
十六張牌基于不同相似性度量的劃分結(jié)果3)分類挖掘分類:反映同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異型特征知識(shí)(有監(jiān)督的學(xué)習(xí)方法)通過(guò)分析訓(xùn)練集中的數(shù)據(jù),為每個(gè)類別建立分類分析模型;然后用這個(gè)分類分析模型對(duì)數(shù)據(jù)庫(kù)中的其他記錄進(jìn)行分類。示例:垃圾郵件的識(shí)別屬于分類問(wèn)題,所有訓(xùn)練用郵件預(yù)先被定義好類標(biāo)號(hào)信息,即訓(xùn)練集中的每封郵件預(yù)先被標(biāo)記為垃圾郵件或合法郵件信息,需要利用已有的訓(xùn)練郵件建立預(yù)測(cè)模型,然后利用預(yù)測(cè)模型來(lái)對(duì)未來(lái)未知郵件進(jìn)行預(yù)測(cè)。決策樹(shù)方法得到規(guī)則規(guī)則的應(yīng)用例如:信用卡的使用規(guī)則1:Ifrefund=noandmaritalstatus=marriedthencheat=no3)分類挖掘聚類與分類的主要區(qū)別:
聚類是一種無(wú)指導(dǎo)的觀察式學(xué)習(xí),沒(méi)有預(yù)先定義的類;
而分類問(wèn)題是有指導(dǎo)的示例式學(xué)習(xí),有預(yù)先定義的類。聚類分類監(jiān)督(指導(dǎo))與否無(wú)指導(dǎo)學(xué)習(xí)(沒(méi)有預(yù)先定義的類)有指導(dǎo)學(xué)習(xí)(有預(yù)先定義的類)是否建立模型或訓(xùn)練否,旨在發(fā)現(xiàn)空間實(shí)體的屬性間的函數(shù)關(guān)系。是,具有預(yù)測(cè)功能4)孤立點(diǎn)分析孤立點(diǎn)分析:對(duì)差異和極端特例的描述孤立點(diǎn):事物偏離常規(guī)的異?,F(xiàn)象,如標(biāo)準(zhǔn)類外的特例,數(shù)據(jù)聚類外的離群值等;異常檢測(cè)通過(guò)構(gòu)建正常行為模型(稱為特征描述),來(lái)檢測(cè)與特征描述嚴(yán)重偏離的新的模式。應(yīng)用信用卡欺詐檢測(cè)移動(dòng)電話欺詐檢測(cè)醫(yī)療分析(異常)三、數(shù)據(jù)挖掘的應(yīng)用電信:客戶細(xì)分銀行:聚類(細(xì)分),交叉銷售百貨公司/超市:購(gòu)物籃分析
(關(guān)聯(lián)規(guī)則)保險(xiǎn):客戶細(xì)分,交叉銷售,流失(原因分析)信用卡:
欺詐探測(cè),細(xì)分電子商務(wù):
網(wǎng)站日志分析稅務(wù)部門(mén):偷漏稅行為探測(cè)警察機(jī)關(guān):犯罪行為分析醫(yī)學(xué):
醫(yī)療保健數(shù)據(jù)挖掘的應(yīng)用:英國(guó)電信需要發(fā)布一種新的產(chǎn)品,需要通過(guò)直郵的方式向客戶推薦這種產(chǎn)品。。。。。。使直郵的回應(yīng)率提高了100%電信GUS(英國(guó)的日用品零售商店)需要準(zhǔn)確的預(yù)測(cè)未來(lái)的商品銷售量,降低庫(kù)存成本。。。。。。通過(guò)數(shù)據(jù)挖掘的方法使庫(kù)存成本比原來(lái)減少了3.8%零售商店美國(guó)國(guó)內(nèi)稅務(wù)局需要提高對(duì)納稅人的服務(wù)水平。。。。。。合理安排稅務(wù)官的工作,為納稅人提供更迅捷、更準(zhǔn)確的服務(wù)稅務(wù)局匯豐銀行需要對(duì)不斷增長(zhǎng)的客戶群進(jìn)行分類,對(duì)每種產(chǎn)品找出最有價(jià)值的客戶。。。。。。營(yíng)銷費(fèi)用減少了30%銀行美國(guó)國(guó)防財(cái)務(wù)部需要從每年上百萬(wàn)比的軍火交易中發(fā)現(xiàn)可能存在的欺詐現(xiàn)象。。。。。。發(fā)現(xiàn)可能存在欺詐的交易,進(jìn)行深入調(diào)查,節(jié)約了大量的調(diào)查成本財(cái)務(wù)部數(shù)據(jù)挖掘都干了些什么?卓越亞馬遜通過(guò)數(shù)據(jù)挖掘我們可以發(fā)現(xiàn)最有價(jià)值的客戶通過(guò)數(shù)據(jù)挖掘我們可以使組合銷售更有效率熟食罐頭鮭魚(yú)凍肉牛肉鮮貨通過(guò)數(shù)據(jù)挖掘我們可以留住那些最有價(jià)值的客戶通過(guò)數(shù)據(jù)挖掘我們可以用更小的成本發(fā)現(xiàn)欺詐現(xiàn)象數(shù)據(jù)挖掘的熱點(diǎn)應(yīng)用主要熱點(diǎn)就目前來(lái)看,將來(lái)的幾個(gè)熱點(diǎn)包括:—網(wǎng)站的數(shù)據(jù)挖掘(WebSiteDataMining)—生物信息或基因(Bioinformatics/genomics)的數(shù)據(jù)挖掘—文本的數(shù)據(jù)挖掘(TextualMining)。網(wǎng)站的數(shù)據(jù)挖掘電子商務(wù)網(wǎng)站的困難——如何讓您的電子商務(wù)網(wǎng)站有效益。要想有效益就必須吸引客戶,增加能帶來(lái)效益的客戶忠誠(chéng)度。電子商務(wù)業(yè)務(wù)的競(jìng)爭(zhēng)比傳統(tǒng)的業(yè)務(wù)競(jìng)爭(zhēng)更加激烈,原因有很多方面,其中一個(gè)因素是客戶從一個(gè)電子商務(wù)網(wǎng)站轉(zhuǎn)換到競(jìng)爭(zhēng)對(duì)手那邊,只需點(diǎn)擊幾下鼠標(biāo)即可。網(wǎng)站的數(shù)據(jù)挖掘網(wǎng)站的內(nèi)容和層次、用詞、標(biāo)題、獎(jiǎng)勵(lì)方案、服務(wù)等任何一個(gè)地方都有可能成為吸引客戶、同時(shí)也可能成為失去客戶的因素。而同時(shí)電子商務(wù)網(wǎng)站每天都可能有上百萬(wàn)次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,充分了解客戶的喜好、購(gòu)買模式,甚至是客戶一時(shí)的沖動(dòng),設(shè)計(jì)出滿足于不同客戶群體需要的個(gè)性化網(wǎng)站,進(jìn)而增加其競(jìng)爭(zhēng)力,幾乎變得勢(shì)在必行。若想在競(jìng)爭(zhēng)中生存進(jìn)而獲勝,就要比您的競(jìng)爭(zhēng)對(duì)手更了解客戶。生物信息(基因信息)的數(shù)據(jù)挖掘生物信息或基因數(shù)據(jù)挖掘是近年來(lái)新興起的一個(gè)熱門(mén)領(lǐng)域,在商業(yè)上很難講有多大的價(jià)值,但是對(duì)于人類卻受益匪淺。如,通過(guò)基因挖掘,可以得到某種病的人的基因和正常人的基因到底差別多大?哪些基因具有相似的表達(dá)模式?哪些化合物(潛在藥物)的使用能顯著降低這些基因的表達(dá)?等等。文本數(shù)據(jù)挖掘人們很關(guān)心的另外一個(gè)話題是文本數(shù)據(jù)挖掘。在現(xiàn)實(shí)世界中,可獲取的大部分信息是以文本形式存儲(chǔ)在文本數(shù)據(jù)庫(kù)中的,由來(lái)自各種數(shù)據(jù)源的大量文檔組成,如新聞文檔、研究論文、書(shū)籍、數(shù)字圖書(shū)館、電子郵件,和Web頁(yè)面。由于電子形式的文本信息飛速增長(zhǎng),文本挖掘已經(jīng)成為信息領(lǐng)域的研究熱點(diǎn)。文本數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)可能是高度非結(jié)構(gòu)化的,如WWW上的網(wǎng)頁(yè);也可能是半結(jié)構(gòu)化的,如e-mail消息和一些XML網(wǎng)頁(yè);其他的則是良結(jié)構(gòu)化的,如書(shū)籍,包含大量結(jié)構(gòu)化的字段,如標(biāo)題、作者、出版日期,出版社等,但同時(shí)也包含一些非結(jié)構(gòu)化成分,如摘要和內(nèi)容等。文本數(shù)據(jù)挖掘數(shù)據(jù)中的非結(jié)構(gòu)化成分使得對(duì)文本數(shù)據(jù)的挖掘不同于常規(guī)的數(shù)據(jù)挖掘。文本數(shù)據(jù)挖掘,可以實(shí)現(xiàn)對(duì)文本的預(yù)處理(如過(guò)濾)、文檔的聚類(話題檢測(cè))、文檔的自動(dòng)文摘生成。文檔的自動(dòng)摘要生成:互聯(lián)網(wǎng)上的文本信息、機(jī)構(gòu)內(nèi)部的文檔及數(shù)據(jù)庫(kù)的內(nèi)容都在成指數(shù)級(jí)的速度增長(zhǎng),用戶在檢索信息的時(shí)候,可以得到成千上萬(wàn)篇的返回結(jié)果,其中許多是與其信息需求無(wú)關(guān)或關(guān)系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶付出很多勞動(dòng),而且效果不好。
自動(dòng)文摘能夠生成簡(jiǎn)短的關(guān)于文檔內(nèi)容的指示性信息,將文檔的主要內(nèi)容呈現(xiàn)給用戶,以決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量的瀏覽時(shí)間。簡(jiǎn)單地說(shuō)自動(dòng)文摘就是利用計(jì)算機(jī)自動(dòng)地從原始文檔中提取全面準(zhǔn)確地反映該文檔中心內(nèi)容的簡(jiǎn)單連貫的短文。如火如荼的“大數(shù)據(jù)”幾乎在一夜之間,大數(shù)據(jù)(BigData)變成一個(gè)IT行業(yè)中最時(shí)髦的詞匯。實(shí)際上,大數(shù)據(jù)不是什么完完全全的新生事物,Google的搜索服務(wù)就是一個(gè)典型的大數(shù)據(jù)運(yùn)用,根據(jù)客戶的需求,Google實(shí)時(shí)從全球海量的數(shù)字資產(chǎn)(或數(shù)字垃圾)中快速找出最可能的答案,呈現(xiàn)給你,就是一個(gè)最典型的大數(shù)據(jù)服務(wù)。如火如荼的“大數(shù)據(jù)”大數(shù)據(jù)的特征(4個(gè)V:Volume,Variety,Value,Velocity):第一,數(shù)據(jù)量巨大。從TB級(jí)別,躍升到PB級(jí)別。第二,數(shù)據(jù)類型繁多,網(wǎng)絡(luò)日志、視頻、圖片、地理位置、科學(xué)觀測(cè)記錄、短信、博客等;第三,價(jià)值密度低,以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒;第四,處理速度快?!按髷?shù)據(jù)”挖掘可以做什么2014年1月26日,百度地圖春節(jié)人口遷徙大數(shù)據(jù)正式上線。人們可以輸入城市名稱,查詢?cè)摮鞘性谶^(guò)去8小時(shí)的時(shí)間里,春運(yùn)人口遷入和遷出的情況,查詢到該城市人口都遷移到什么城市,也可以查詢到該城市的遷入者都是從哪座城市過(guò)來(lái)的,還可查詢到該城市在過(guò)去8小時(shí)里遷入和遷出的熱門(mén)線路。百度“遷徙大地圖”“大數(shù)據(jù)”挖掘可以做什么更精準(zhǔn)的用戶調(diào)研;更精準(zhǔn)的用戶推薦。如:WeatherCo是美國(guó)一家能夠基于對(duì)人們查看天氣情況的時(shí)間、地點(diǎn)和頻次的分析預(yù)測(cè)消費(fèi)者行為的機(jī)構(gòu)。該公司積累了超過(guò)75年的氣象信息,覆蓋北美等地區(qū)的天氣、云量等方面的數(shù)據(jù)?;谶@些大數(shù)據(jù),WeatherCo不僅能為用戶提供單純的天氣信息,而且可以通過(guò)數(shù)據(jù)挖掘,分析天氣會(huì)對(duì)用戶消費(fèi)產(chǎn)生什么影響。這種對(duì)用戶消費(fèi)行為的預(yù)判,不僅能讓用戶感受到一種全新的購(gòu)物體驗(yàn),而且還可以吸引那些對(duì)廣告投放精準(zhǔn)度要求較高的廣告主。超級(jí)營(yíng)銷顧問(wèn)“大數(shù)據(jù)”挖掘可以做什么Netflix在美國(guó)擁有2700萬(wàn)訂閱用戶,每天用戶在Netflix上產(chǎn)生3000多萬(wàn)個(gè)行為,同時(shí)用戶每天還會(huì)給出400多萬(wàn)個(gè)評(píng)分以及300萬(wàn)次搜索請(qǐng)求。借助這些數(shù)據(jù),Netfli
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024事業(yè)單位聘用合同糾紛處理與法律適用總結(jié)3篇
- 2024年多功能設(shè)備維護(hù)合作協(xié)議2篇
- 2024年度數(shù)據(jù)保密與信息安全認(rèn)證協(xié)議3篇
- 2025年拉薩貨運(yùn)上崗證考試題庫(kù)1387題
- 洛陽(yáng)文化旅游職業(yè)學(xué)院《黑臭水體治理技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 科技創(chuàng)新資金撥付管理
- 甘肅省隴南市2024-2025學(xué)年高一上學(xué)期期中考試歷史試卷(解析版)
- 信息技術(shù)部門(mén)組織結(jié)構(gòu)
- 城市綠化監(jiān)控系統(tǒng)安裝合同
- 2024年廢棄水塘承包合同最長(zhǎng)期限3篇
- 血透室安全隱患
- 菏澤學(xué)院教育科學(xué)研究方法(專升本)復(fù)習(xí)題
- 船運(yùn)居間協(xié)議合同范例
- 教育學(xué)原理項(xiàng)賢明第九章教師與學(xué)生
- 醫(yī)院高空墜物預(yù)防措施方案
- 2024-2025學(xué)年高二上學(xué)期期中家長(zhǎng)會(huì)-家校同頻共話成長(zhǎng) 課件
- 2024年度企業(yè)咨詢服務(wù)框架協(xié)議
- 齊魯工業(yè)大學(xué)《Web應(yīng)用開(kāi)發(fā)》2023-2024學(xué)年期末試卷
- 《方程的根與函數(shù)的零點(diǎn)》說(shuō)課稿
- 2023-2024學(xué)年廣東省湛江市赤坎區(qū)某中學(xué)七年級(jí)上學(xué)期期末數(shù)學(xué)試卷及參考答案
- 電影敘事與美學(xué)智慧樹(shù)知到期末考試答案章節(jié)答案2024年南開(kāi)大學(xué)
評(píng)論
0/150
提交評(píng)論