




免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)的挖掘摘要:大數(shù)據(jù)關(guān)注大量的,復(fù)雜的和增長(zhǎng)的有多樣的和自主來(lái)源的數(shù)據(jù)的集合。隨著網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)收集能力的快速發(fā)展,大數(shù)據(jù)擴(kuò)展到所有的科學(xué)和工程領(lǐng)域中去,包括物理學(xué)、生物學(xué)和生物醫(yī)學(xué)。本文介紹了一個(gè)HACE理論,這個(gè)理論描述了大數(shù)據(jù)革命的特征,從數(shù)據(jù)驅(qū)動(dòng)模型包括需求驅(qū)動(dòng)的信息來(lái)源聚集,挖掘和分析,用戶興趣建模和安全隱私方面的考慮。我們將在數(shù)據(jù)驅(qū)動(dòng)模型和大數(shù)據(jù)革命下分析這些挑戰(zhàn)性的課題。莫言博士獲得了2012年的諾貝爾文學(xué)獎(jiǎng)。這可能是這獎(jiǎng)項(xiàng)最具爭(zhēng)議的諾貝爾獎(jiǎng)。在谷歌搜索“Yan Mo Nobel Prize”,結(jié)果有1,050,000條網(wǎng)絡(luò)連接。最近莫言說(shuō)“對(duì)于所有支持和批評(píng),我都感謝?!痹谒?1年的寫(xiě)作生涯中,事實(shí)上他收到的多少的支持和批評(píng)呢?在各種新媒體中評(píng)論仍然持續(xù)出現(xiàn),我們總結(jié)在不同的實(shí)時(shí)媒體中所有種類(lèi)的觀點(diǎn),包括通過(guò)批評(píng)更新的和互相參考的評(píng)論?這種摘要程序是一個(gè)非常好的大數(shù)據(jù)處理的例子,正如信息來(lái)自多樣的、異構(gòu)的和自治的來(lái)源,這些具有復(fù)雜和進(jìn)化的關(guān)系以及持續(xù)的增長(zhǎng)。通過(guò)上面的例子,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,每天有大量字節(jié)的數(shù)據(jù)創(chuàng)造出來(lái),世界上百分之九十的數(shù)據(jù)是過(guò)去兩年中產(chǎn)生的。自從19世紀(jì)信息技術(shù)發(fā)明以后,我們的數(shù)據(jù)存儲(chǔ)能力從來(lái)沒(méi)有如此的力量和巨大。另外一個(gè)例子,在2012年10月4日,在奧巴馬和羅姆尼第一次總統(tǒng)辯論在兩小時(shí)內(nèi)引起了超過(guò)一千萬(wàn)條的推特。在所有這些推特中,那些特別的被討論最多的評(píng)論事實(shí)上透露了大眾的興趣,例如關(guān)于醫(yī)保和付款憑單的討論。這些網(wǎng)上討論提供了一種新的方法去感受公眾的興趣并且實(shí)時(shí)給出反饋,這幾乎對(duì)電視廣播這些普通媒體的比較。另外一個(gè)例子是Flicker,一個(gè)公共圖片分享網(wǎng)站,從2012年1月到3月間,平均每天收到180萬(wàn)張照片。假設(shè)每張照片是2MB,這就每天需要3.6TB的存儲(chǔ)量。的確,正如一句諺語(yǔ)說(shuō)的:“一張圖勝過(guò)一千句話?!比绻覀冇心芰?lái)駕馭這些大量的數(shù)據(jù),在Flicker的上百萬(wàn)張圖片對(duì)我們來(lái)說(shuō)就是一個(gè)財(cái)富寶庫(kù),用來(lái)探索人類(lèi)社會(huì),社會(huì)事件,公共事件和災(zāi)難等。以上的例子表明了大數(shù)據(jù)應(yīng)用的增長(zhǎng),在數(shù)據(jù)收集以驚人的速度增長(zhǎng)和以超過(guò)一般應(yīng)用軟件能力來(lái)采集和管理,并在可允許的時(shí)間內(nèi)完成。大數(shù)據(jù)應(yīng)用最基本的挑戰(zhàn)是探索廣闊的數(shù)據(jù)并提取出對(duì)未來(lái)動(dòng)向有用的信息和知識(shí),在許多情況下,知識(shí)的提取過(guò)程一定是很有效率的并且趨于實(shí)時(shí)的,因?yàn)榇鎯?chǔ)所有觀察過(guò)的數(shù)據(jù)幾乎是不可行的。比如,在射電天文學(xué)中的平方千米陣列在5公里范圍內(nèi)由10001500個(gè)15米直徑的碟形天線構(gòu)成。在解答基本的宇宙問(wèn)題中,它提供超過(guò)任何存在射電望遠(yuǎn)鏡100倍的靈敏視野。但是,每秒產(chǎn)生40GB的數(shù)據(jù)量,這些射電望遠(yuǎn)鏡產(chǎn)生的數(shù)據(jù)集是相當(dāng)大的。盡管研究人員確定從SKA數(shù)據(jù)中發(fā)現(xiàn)有趣的射電異常樣本,現(xiàn)有的辦法只能在掛線下工作,在實(shí)時(shí)處理這種大數(shù)據(jù)集市無(wú)計(jì)可施的。因此,這些空前的數(shù)據(jù)量需要有效地?cái)?shù)據(jù)分析和預(yù)測(cè)平臺(tái)來(lái)獲得這種大數(shù)據(jù)的快速響應(yīng)和實(shí)時(shí)分類(lèi)。本文剩余結(jié)構(gòu):在第二節(jié)中,中我們給出了一個(gè)建模大數(shù)據(jù)特征的HACE原理。第3節(jié)簡(jiǎn)單闡述數(shù)據(jù)挖掘中的重要挑戰(zhàn)。一些重要研究方案和作者在這個(gè)領(lǐng)域的研究項(xiàng)目將在第4節(jié)給出。在第5節(jié)將討論相關(guān)工作,最后將在第6節(jié)給出我們的結(jié)論。2 大數(shù)據(jù)特征:HACE原理大數(shù)據(jù)起始于大量數(shù)據(jù),異構(gòu)的,分散式的和離散控制的自治資源,從這些數(shù)據(jù)中追求去探索復(fù)雜和進(jìn)化的關(guān)系。這些特征使得大數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)是個(gè)極端的挑戰(zhàn)。從一個(gè)單純角度看,我們能想象很多盲人努力估計(jì)一頭大象的大小,在這背影下就是大數(shù)據(jù)。每個(gè)盲人的目標(biāo)是根據(jù)在這過(guò)程中收集的那部分信息,來(lái)描述大象。因?yàn)槊總€(gè)人的視角局限在他自己的區(qū)域,所以每個(gè)盲人獨(dú)立得出大象像繩子,水管或一堵墻的結(jié)論并不奇怪,這是取決于它的受限制的位置。為了使問(wèn)題變得更復(fù)雜,讓我們假設(shè)1)大象正在迅速生長(zhǎng),它的姿勢(shì)也會(huì)不停地變化,2)每個(gè)盲人有他自己的信息資源(可能是不可信的和無(wú)準(zhǔn)備的),這信息會(huì)告訴他關(guān)于大象的基本信息(例如,盲人之間交換他們對(duì)于大象的感覺(jué),這基于固定的知識(shí)交換)。這種探索大數(shù)據(jù)的方案相當(dāng)于從不同來(lái)源聚集異構(gòu)性的信息來(lái)幫助描繪出一個(gè)最有可能的圖景去揭示大象真正的實(shí)時(shí)姿勢(shì)。當(dāng)然,這個(gè)任務(wù)并不是像讓每個(gè)盲人描述他們對(duì)于大象的感受那么簡(jiǎn)單,然后得到一個(gè)專(zhuān)家用組合的視角畫(huà)出唯一的圖像,包括每個(gè)人可能講不同的語(yǔ)言(異構(gòu)的和分散的信息源)并且他們可能在信息交換過(guò)程中慎重地考慮信息隱私問(wèn)題。2.1具有異構(gòu)性的和不同維度的大數(shù)據(jù)大數(shù)據(jù)的一個(gè)基本特征是由異構(gòu)的和分散的大量數(shù)據(jù)代表。這是因?yàn)椴煌男畔⑹占邇A向于用他們自己的計(jì)劃和協(xié)議來(lái)記錄數(shù)據(jù),當(dāng)然不同的應(yīng)用也會(huì)產(chǎn)生不同的數(shù)據(jù)表現(xiàn)。例如,在生物醫(yī)學(xué)世界中,每個(gè)人都可以用簡(jiǎn)單的人口統(tǒng)計(jì)學(xué)的信息來(lái)代表,比如性別,年齡,家族病史等等。對(duì)一個(gè)人的X射線檢查和CT掃描中,圖像和視頻被用來(lái)表示結(jié)果,因?yàn)樗麄優(yōu)獒t(yī)生去仔細(xì)檢查提供可視的信息。對(duì)于DNA和基因檢測(cè),顯微鏡成像和序列被用來(lái)表現(xiàn)基因代碼信息,因?yàn)檫@是我們現(xiàn)在技術(shù)獲取數(shù)據(jù)的方式。在這種情況下,異構(gòu)的特征涉及對(duì)同一個(gè)體的不同方式描述,包括代表觀察每個(gè)個(gè)體的不同特征參考的是特征多樣性。想像出不同組織可能有他們自己的計(jì)劃來(lái)表達(dá)每個(gè)病人,如果我們?cè)噲D從所有的數(shù)據(jù)組合資源中完成數(shù)據(jù)聚合,那么數(shù)據(jù)的異構(gòu)性和不同維度問(wèn)題將變成主要的挑戰(zhàn)。2.2具有分布式和離散控制的自治資源分布式和離散控制的自治數(shù)據(jù)資源是大多數(shù)應(yīng)用的一個(gè)主要特征。自治是每個(gè)數(shù)據(jù)資源在不包括任何集中控制下產(chǎn)生和收集信息。這個(gè)類(lèi)似于萬(wàn)維網(wǎng)的設(shè)置,每個(gè)網(wǎng)絡(luò)服務(wù)器提供一定量的信息并且每個(gè)服務(wù)器不依賴其他服務(wù)器來(lái)完全實(shí)現(xiàn)功能。另一方面,如果整個(gè)系統(tǒng)不得不依賴任何集中控制模塊的話,龐大的數(shù)據(jù)也會(huì)使一個(gè)應(yīng)用變得易受攻擊或失靈。對(duì)于主要的大數(shù)據(jù)相關(guān)應(yīng)用,如谷歌,雅虎,臉譜,以及沃爾瑪,大量的服務(wù)器設(shè)置在全球來(lái)確保當(dāng)?shù)厥袌?chǎng)的無(wú)停的服務(wù)和快速反饋。這種自治的資源不只是技術(shù)設(shè)計(jì)的解決方案,也是不同國(guó)家和地區(qū)立法和慣例的結(jié)果。比如,沃爾瑪?shù)膩喼奘袌?chǎng)在季節(jié)性促銷(xiāo)活動(dòng),暢銷(xiāo)商品及顧客行為方面不同于北美市場(chǎng)。更特別地是,當(dāng)?shù)卣畻l規(guī)也會(huì)影響整個(gè)銷(xiāo)售管理的過(guò)程,使得針對(duì)當(dāng)?shù)厥袌?chǎng)的數(shù)據(jù)描述和數(shù)據(jù)庫(kù)的重組。2.3復(fù)合和進(jìn)化的關(guān)系當(dāng)大數(shù)據(jù)的數(shù)量增長(zhǎng)時(shí),數(shù)據(jù)底層的復(fù)合關(guān)系也在增長(zhǎng),在數(shù)據(jù)聚集信息的初始階段,重點(diǎn)是從每次觀察中發(fā)現(xiàn)最有價(jià)值的特點(diǎn)。就和使用一些領(lǐng)域的數(shù)據(jù)一樣,用來(lái)描述一個(gè)個(gè)體,比如年齡,性別,收入,教育和背景等。這種同樣的內(nèi)在表現(xiàn)方式,在沒(méi)有考慮他們社會(huì)關(guān)系下展現(xiàn)出每個(gè)個(gè)體的獨(dú)立實(shí)體,這也是人類(lèi)社會(huì)持續(xù)不斷增長(zhǎng)的重要因素之一,我們的朋友圈可能通過(guò)共同愛(ài)好或者通過(guò)生物關(guān)系建立起來(lái)的。這種社會(huì)關(guān)系不僅普遍存在于我們?nèi)粘5纳钪?,而且在虛擬世界中也很流行。比如,主流的社交網(wǎng)站,如臉譜或推特,都是以社交為主要特色的,比如朋友圈及伙伴關(guān)系。個(gè)體內(nèi)在的相互關(guān)系式整個(gè)數(shù)據(jù)表達(dá)及任何在數(shù)據(jù)上的推理變得復(fù)雜化了。在這種刻板刻畫(huà)的表現(xiàn)中,個(gè)體被認(rèn)為相似的,如果他們分享了相同的特征值,然而在樣板特色的表達(dá)中,兩個(gè)個(gè)體可以聯(lián)系在一起(通過(guò)他們的社交聯(lián)系),盡管他們可能每一在特征方面沒(méi)有任何共同點(diǎn)。在一個(gè)動(dòng)態(tài)的世界里,用于描述個(gè)體的特征和用于描述我們關(guān)系的社交網(wǎng)也可能會(huì)隨著時(shí)間和空間的及其他因素發(fā)展。如此的錯(cuò)綜復(fù)雜正成為大數(shù)據(jù)應(yīng)用的一部分,這是把復(fù)雜數(shù)據(jù)考慮進(jìn)來(lái)的關(guān)鍵,從而從大數(shù)據(jù)聚集中能發(fā)現(xiàn)有用的模式。3.大數(shù)據(jù)的數(shù)據(jù)挖掘挑戰(zhàn)對(duì)于一個(gè)智能數(shù)據(jù)庫(kù)系統(tǒng)處理大數(shù)據(jù)來(lái)說(shuō),最基本的是通過(guò)上述的HACE理論為描述特征而按比例增加大量異常的數(shù)據(jù)來(lái)提供方法。圖2展示出一個(gè)大數(shù)據(jù)處理的框架,它從里到外包括三層,第一層是數(shù)據(jù)訪問(wèn)和計(jì)算,第二層是處理數(shù)據(jù)隱私和區(qū)域知識(shí),第三層是大數(shù)據(jù)挖掘算法。第一層的挑戰(zhàn)主要是數(shù)據(jù)訪問(wèn)和算法計(jì)算程序。因?yàn)榇髷?shù)據(jù)一般存儲(chǔ)在不同的地方,而且數(shù)據(jù)量可能持續(xù)的增長(zhǎng),所以一個(gè)有效的計(jì)算平臺(tái)將不得不在計(jì)算時(shí)將分布式的大量數(shù)據(jù)存儲(chǔ)考慮其中。比如,經(jīng)典的數(shù)據(jù)挖掘算法需要將所以的數(shù)據(jù)下載到硬盤(pán)中,然而這正成為大數(shù)據(jù)的一個(gè)明顯的技術(shù)障礙,因?yàn)閺牟煌胤揭苿?dòng)這些數(shù)據(jù)代價(jià)是很昂貴的(比如,提供加強(qiáng)網(wǎng)絡(luò)交流和IO成本),盡管我們確實(shí)需要一個(gè)超大的硬盤(pán)來(lái)保存所有的數(shù)據(jù)來(lái)計(jì)算。第二層的挑戰(zhàn)圍繞在不同大數(shù)據(jù)應(yīng)用的語(yǔ)義和領(lǐng)域知識(shí)這方面。這樣的信息可以對(duì)挖掘過(guò)程提供額外的好處,但是也會(huì)增加大數(shù)據(jù)接收和挖掘算法帶來(lái)技術(shù)障礙。比如,取決于不同領(lǐng)域的應(yīng)用,數(shù)據(jù)隱私和在數(shù)據(jù)制作者和數(shù)據(jù)顧客間的分析的信息都顯著地不一樣。為應(yīng)用分享網(wǎng)絡(luò)傳感數(shù)據(jù),像水質(zhì)監(jiān)控,可能是不鼓勵(lì)的,然而暴露和分享手機(jī)用戶的地點(diǎn)信息對(duì)多數(shù)應(yīng)用,如果不是全部的話,是顯然不可接受的。另外對(duì)于以上隱私問(wèn)題,應(yīng)用的領(lǐng)域也可以為改善和指導(dǎo)大數(shù)據(jù)挖掘算法的設(shè)計(jì)提供額外的信息。例如,在市場(chǎng)中的菜籃子交易數(shù)據(jù),每一次交易都被認(rèn)為是獨(dú)立的,這些發(fā)現(xiàn)的知識(shí)是通過(guò)找出最相關(guān)項(xiàng)目來(lái)經(jīng)典表達(dá)的,可能還考慮到不同的時(shí)間和/或空間上的限制。在社交網(wǎng)絡(luò)中,另一方面是,用戶都聯(lián)系在一起,分析從屬結(jié)構(gòu)。然后知識(shí)由用戶團(tuán)體,在每一個(gè)團(tuán)隊(duì)中的領(lǐng)導(dǎo)及社交影響模型等來(lái)表達(dá)。因此,明白語(yǔ)義和應(yīng)用知識(shí)對(duì)低等級(jí)的數(shù)據(jù)接收和高等級(jí)的挖掘算法設(shè)計(jì)都是重要的。在第三層,數(shù)據(jù)挖掘的挑戰(zhàn)在于解決各種差異的算法設(shè)計(jì),包括由大數(shù)據(jù)量引起的差異,分布在不同數(shù)據(jù)分布的差異及聚合和動(dòng)態(tài)的數(shù)據(jù)特征引起的差異。在第三層的圈包含了三個(gè)階段。首先,稀少的,異構(gòu)的,不確定的,未完成的及多源的數(shù)據(jù)通過(guò)數(shù)據(jù)聚合技術(shù)進(jìn)行預(yù)處理。第二,復(fù)合的和動(dòng)態(tài)的數(shù)據(jù)在預(yù)處理后進(jìn)行挖掘。第三,包含在局部學(xué)習(xí)中的全局知識(shí)被測(cè)試,其中包括局部學(xué)習(xí)和模型聚合,相關(guān)的信息被反饋到預(yù)處理階段。然后,根據(jù)反饋,模型和參數(shù)將進(jìn)行調(diào)整。在整個(gè)處理過(guò)程中,我們將迎接圖2三層框架的尊敬挑戰(zhàn)。3.1第一層:大數(shù)據(jù)挖掘平臺(tái)在典型的數(shù)據(jù)挖掘系統(tǒng)中,挖掘程序需要為了數(shù)據(jù)分析和比較來(lái)加強(qiáng)計(jì)算單元。一個(gè)計(jì)算平臺(tái)因此也至少需要2種有效的資源:數(shù)據(jù)和計(jì)算處理器。對(duì)于小型的數(shù)據(jù)挖掘任務(wù),一個(gè)單獨(dú)的包含硬盤(pán)和CPU的臺(tái)式電腦,足以滿足數(shù)據(jù)挖掘的目標(biāo)。的確,許多數(shù)據(jù)挖掘算法是為這類(lèi)型的問(wèn)題設(shè)計(jì)的。對(duì)于中等規(guī)模的數(shù)據(jù)挖掘任務(wù),數(shù)據(jù)都非常的大(有可能是分布的),且不能存放到主內(nèi)存中。一般的解決方法是依靠并行計(jì)算或者集體挖來(lái)對(duì)不同來(lái)源的數(shù)據(jù)進(jìn)行取樣和聚集,然后用并行計(jì)算程序(比如消息傳遞接口)來(lái)執(zhí)行挖掘過(guò)程。對(duì)于大數(shù)據(jù)挖掘,因?yàn)閿?shù)據(jù)規(guī)模已遠(yuǎn)遠(yuǎn)超出一個(gè)個(gè)人電腦課處理的能力范圍,一個(gè)典型的大數(shù)據(jù)處理框架將依靠電腦群,這個(gè)群具有高性能的計(jì)算平臺(tái),一個(gè)數(shù)據(jù)挖掘任務(wù)正由一些在大量計(jì)算機(jī)節(jié)點(diǎn)上的并行程序工具來(lái)發(fā)展,如圖分解或者企業(yè)控制語(yǔ)言(它的角色是確保一個(gè)單獨(dú)的數(shù)據(jù)挖掘任務(wù),如從一個(gè)有百萬(wàn)條記錄的數(shù)據(jù)庫(kù)中找出一個(gè)最匹配詢問(wèn)的而一個(gè)記錄,能化為許多小任務(wù),沒(méi)一個(gè)小人運(yùn)行在一個(gè)活多個(gè)計(jì)算機(jī)節(jié)點(diǎn)上。例如,在撰寫(xiě)本文是,設(shè)置在田納西州橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室世界最強(qiáng)的超級(jí)電腦Titan,包含18688個(gè)節(jié)點(diǎn),每一個(gè)節(jié)點(diǎn)又有16核的CPU。這樣同時(shí)有硬件和軟件元的大數(shù)據(jù)系統(tǒng),沒(méi)有重要的產(chǎn)業(yè)股東的支持是很難實(shí)現(xiàn)的。事實(shí)上,幾十年來(lái),元件已經(jīng)基于存儲(chǔ)在相關(guān)數(shù)據(jù)庫(kù)的交易信息作出商業(yè)決斷。大數(shù)據(jù)挖掘?yàn)閭鹘y(tǒng)相關(guān)數(shù)據(jù)提供機(jī)會(huì)來(lái)打破依靠弱結(jié)構(gòu)數(shù)據(jù)的,如能挖掘出有用信息的微博,社交媒體,電郵,傳感器及圖片。多數(shù)商業(yè)智能公司,如IBM,甲骨文,天睿等等,都已經(jīng)特色化他們自己的產(chǎn)品來(lái)幫助用戶得到組織這些粉絲的數(shù)據(jù)源,結(jié)合用戶現(xiàn)有的數(shù)據(jù)來(lái)調(diào)整以新的見(jiàn)解和利用隱藏的關(guān)系。3.2第二層:大數(shù)據(jù)的語(yǔ)義和應(yīng)用知識(shí)大數(shù)據(jù)中的語(yǔ)義和應(yīng)用知識(shí)涉及到很多方面的規(guī)定,政策,用戶知識(shí)及領(lǐng)域信息。這一層兩個(gè)最重要的問(wèn)題是1)數(shù)據(jù)分析和隱私;2)領(lǐng)域和應(yīng)用知識(shí)。前者為解決數(shù)據(jù)如何保持,訪問(wèn)和分享問(wèn)題提供解答;然而后者重點(diǎn)在回答問(wèn)題,類(lèi)似于,“應(yīng)用底層是什么?”以及“知識(shí)或者平臺(tái)用戶從數(shù)據(jù)中打算發(fā)現(xiàn)什么?”這樣的問(wèn)題。3.2.1數(shù)據(jù)共享和數(shù)據(jù)隱私信息分享對(duì)于所有涉及多個(gè)部分的系統(tǒng)而言,是非常重要的。當(dāng)分享的動(dòng)機(jī)很明確是 ,真實(shí)世界關(guān)注的是大數(shù)據(jù)應(yīng)用與敏感的信息是相關(guān)的,如銀行交易和藥物記錄。簡(jiǎn)單的信息交換或傳遞不能分解隱私的關(guān)注。比如,知道了人們的地點(diǎn)和他們的選擇,一個(gè)人可以獲得很多當(dāng)?shù)氐姆?wù),但是一個(gè)個(gè)體過(guò)時(shí)的地址/移動(dòng)的曝光可能會(huì)有關(guān)于隱私的嚴(yán)重結(jié)果。未來(lái)保護(hù)隱私,通常有兩個(gè)辦法1)限制對(duì)數(shù)據(jù)的獲取,比如增加認(rèn)證或?qū)?shù)據(jù)入口的權(quán)限控制,這樣敏感信息就只被有限的用戶訪問(wèn)到,2)數(shù)據(jù)文件匿名,這樣敏感信息精確到個(gè)人的記錄。對(duì)于第一個(gè)方法,一般的問(wèn)題是設(shè)計(jì)安全的認(rèn)證或者訪問(wèn)權(quán)限機(jī)制,這樣沒(méi)有敏感信息可以被沒(méi)有被認(rèn)證的用戶胡亂處理。對(duì)于數(shù)據(jù)匿名化,主要任務(wù)是在數(shù)據(jù)中加入隨機(jī)處理,來(lái)保證大量的隱私目標(biāo)。例如,最普通的k匿名隱私方法用來(lái)確保數(shù)據(jù)庫(kù)中的每一個(gè)個(gè)體都必須不能被其他k-1個(gè)人識(shí)別出來(lái)。一般的匿名方法是用壓縮,統(tǒng)一化以及置換來(lái)生產(chǎn)數(shù)據(jù)的另一個(gè)改變后的版本,事實(shí)上是一些不確定的數(shù)據(jù)。信息共享方法的數(shù)據(jù)匿名化的一個(gè)重要好處是,一旦匿名化,數(shù)據(jù)可以在不同的平臺(tái)自由地共享,而不需要涉及限制的訪問(wèn)權(quán)控制。這自然引起了一個(gè)研究領(lǐng)域叫著隱私保存數(shù)據(jù)挖掘,其中不同的團(tuán)隊(duì),這每一個(gè)都擁有一些敏感數(shù)據(jù),都嘗試在不分析任何數(shù)據(jù)內(nèi)部敏感信息的情況下,達(dá)到一個(gè)普通的數(shù)據(jù)挖掘的目標(biāo)。在實(shí)踐中,這個(gè)隱私保存挖掘的目標(biāo)可以分解為來(lái)那個(gè)種方法,包括1)用特殊的交互協(xié)議,如YAO的協(xié)議,以獲得整個(gè)數(shù)據(jù)記得分布,而不是獲得每一個(gè)記錄的實(shí)際值,2)從匿名的數(shù)據(jù)得來(lái)的知識(shí)設(shè)計(jì)特別的數(shù)據(jù)挖掘方法(這個(gè)與不確定的數(shù)據(jù)挖掘方法在內(nèi)在是很相似的)。3.2.2領(lǐng)域和應(yīng)用知識(shí)領(lǐng)域和應(yīng)用知識(shí)為設(shè)計(jì)大數(shù)據(jù)挖掘算法和系統(tǒng)提供了重要的信息。在一個(gè)簡(jiǎn)單的案例中,領(lǐng)域知識(shí)可以為建模底層數(shù)據(jù)辨別正確的特征(例如,在診斷糖尿病中,血糖水平顯然比身體素質(zhì)是更好的特征)。領(lǐng)域和應(yīng)用知識(shí)通過(guò)大數(shù)據(jù)分析工具還可以幫助設(shè)定可達(dá)到的商業(yè)目標(biāo)。例如,股票市場(chǎng)數(shù)據(jù)是一個(gè)典型的領(lǐng)域,它每一秒都在持續(xù)產(chǎn)生大量的信息,如股價(jià),買(mǎi)入和賣(mài)出。市場(chǎng)不停地進(jìn)化,受不同隱私影響著,如領(lǐng)域和網(wǎng)絡(luò)新聞,政府報(bào)道和自然災(zāi)害等。一個(gè)引人興趣的大數(shù)據(jù)挖掘任務(wù)是設(shè)計(jì)一個(gè)大數(shù)據(jù)挖掘系統(tǒng)來(lái)預(yù)防在下一分鐘或兩分鐘后的市場(chǎng)的變化。盡管這個(gè)預(yù)測(cè)的準(zhǔn)確度比隨意的猜測(cè)僅僅好了那么一點(diǎn)點(diǎn),這個(gè)系統(tǒng)還將為開(kāi)發(fā)商帶領(lǐng)重要的商業(yè)價(jià)值。沒(méi)有正確的領(lǐng)域知識(shí),找到有效的模型或者方法來(lái)描述市場(chǎng)動(dòng)向顯然是一個(gè)挑戰(zhàn),而這類(lèi)知識(shí)通常超出了數(shù)據(jù)挖掘者的能力范圍,雖然最近的一些研究已經(jīng)顯示,利用社交網(wǎng)絡(luò),如推特,以高準(zhǔn)確度預(yù)測(cè)股票市場(chǎng)的上漲/下跌的趨勢(shì)還是有可能的。3.3第三層:大數(shù)據(jù)挖掘算法3.3.1局部學(xué)習(xí)和復(fù)合信息資源的模塊聚集就像大數(shù)據(jù)應(yīng)用由自治資源和分散的控制刻畫(huà),因?yàn)闈撛诘膫鬟f成本和隱私問(wèn)題,為了挖掘?qū)⒎植嫉臄?shù)據(jù)資源聚集到一個(gè)集中的點(diǎn)在系統(tǒng)上是昂貴的。另一方面,雖然我們可以再每一個(gè)分布的點(diǎn)落實(shí)挖掘活動(dòng),但是聚集在每一個(gè)點(diǎn)的數(shù)據(jù)的偏見(jiàn)導(dǎo)致決定和建模的偏見(jiàn),正如盲人摸象案例。在這種情況下,一個(gè)大數(shù)據(jù)挖掘系統(tǒng)不得不可以進(jìn)行信息交互和集合機(jī)制以確保所有的分布點(diǎn)(或者信息資源)可以合作來(lái)完成一個(gè)全局優(yōu)化目標(biāo)。對(duì)于確保從多樣化的信息資源中發(fā)現(xiàn)的模型或平臺(tái)可以統(tǒng)一化以滿足全局挖掘目標(biāo),模型挖掘和統(tǒng)計(jì)是非常重要的步驟。更具體地,全局挖掘可以由兩步(局部挖掘和全局統(tǒng)計(jì))對(duì)數(shù)據(jù),模型和知識(shí)層面的程序來(lái)完成。在數(shù)據(jù)層面,每一個(gè)當(dāng)?shù)氐狞c(diǎn)可以根據(jù)當(dāng)?shù)氐臄?shù)據(jù)源計(jì)算數(shù)據(jù)的統(tǒng)計(jì)資源,不同點(diǎn)之間交互統(tǒng)計(jì)結(jié)果以獲得一個(gè)全局的數(shù)據(jù)分布看法。在模型或平臺(tái)層面,每一個(gè)點(diǎn)在考慮到當(dāng)?shù)氐臄?shù)據(jù)情況下,執(zhí)行局部的挖掘活動(dòng)以發(fā)行局部的模式。通過(guò)多樣化資源間的交互,新的全局模式通過(guò)集合所有點(diǎn)的模式來(lái)合成。在知識(shí)層面,模型相關(guān)的分析研究了從不同數(shù)據(jù)資源集合來(lái)的模式間的關(guān)聯(lián),以確定數(shù)據(jù)資源相互之間怎樣的關(guān)聯(lián)關(guān)系,以及如何從自治資源構(gòu)建的模板中,形成準(zhǔn)確的決定。3.3.2從稀少的,不確定和未完成數(shù)據(jù)中挖掘稀少的,不確定的和未完成的數(shù)據(jù)是大數(shù)據(jù)應(yīng)用的最典型數(shù)據(jù)。稀少的是指,數(shù)據(jù)量太少不足以作出可靠的結(jié)論。通常這是數(shù)據(jù)緯度問(wèn)題的一個(gè)并發(fā)癥,其中高維空間的數(shù)據(jù)不能清晰地給出趨勢(shì)或分布。對(duì)于大多數(shù)的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,高緯少量的數(shù)據(jù)顯著地使來(lái)源于數(shù)據(jù)的模型的可靠性降低了。一般的方法是實(shí)用降緯的方法或者用特征選擇來(lái)減低數(shù)據(jù)緯度或者引入另外的樣本來(lái)減輕數(shù)據(jù)的匱乏,例如數(shù)據(jù)挖掘中的類(lèi)的無(wú)監(jiān)督學(xué)習(xí)方法。不確定數(shù)據(jù)是一種特別的數(shù)據(jù),其中每一個(gè)數(shù)據(jù)領(lǐng)域都不再是確定的,但是是屬于一定隨機(jī)/錯(cuò)誤的分布中。這主要關(guān)系到領(lǐng)域特別應(yīng)用,具有不確定數(shù)據(jù)朗讀和搜集的特點(diǎn)。例如,由GPS機(jī)制生產(chǎn)的數(shù)據(jù)內(nèi)在地是不確定的,主要因?yàn)檫@種裝備的技術(shù)障礙將數(shù)據(jù)的準(zhǔn)確性限定在一定的水平(如1米內(nèi))。因此,每個(gè)記錄地點(diǎn)由一個(gè)平均值和一個(gè)表示預(yù)期錯(cuò)誤的變量來(lái)表達(dá)。對(duì)于數(shù)據(jù)隱私相關(guān)的應(yīng)用,用戶可能會(huì)故意地在數(shù)據(jù)中加入隨意值/錯(cuò)誤來(lái)保證匿名化。一個(gè)人可能不太愿意讓你知道他/她的期望薪資,但是可以給出一個(gè)大概范圍,這個(gè)與前面說(shuō)的是類(lèi)似的。對(duì)于不確定的數(shù)據(jù),最大的挑戰(zhàn)是每一個(gè)數(shù)據(jù)項(xiàng)目被表示成樣本分布而不是一個(gè)單獨(dú)的值,所以大多數(shù)現(xiàn)有的數(shù)據(jù)挖掘算法
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年軟考網(wǎng)絡(luò)管理員研究試題及答案
- 山東省濟(jì)南市萊蕪區(qū)2025屆數(shù)學(xué)七下期末達(dá)標(biāo)檢測(cè)試題含解析
- 會(huì)計(jì)個(gè)人工作計(jì)劃成功案例分享
- 秋季學(xué)期學(xué)生社交能力培養(yǎng)計(jì)劃
- 開(kāi)展班級(jí)閱讀活動(dòng)的方案計(jì)劃
- 網(wǎng)絡(luò)架構(gòu)審計(jì)的必要性及試題及答案
- 供應(yīng)鏈管理優(yōu)化計(jì)劃
- 前臺(tái)文員專(zhuān)業(yè)知識(shí)更新計(jì)劃
- 理解網(wǎng)絡(luò)協(xié)議與試題及答案指導(dǎo)
- 2024年上海建橋?qū)W院輔導(dǎo)員考試真題
- 市政道路工程冬季施工方案及措施
- 2023年山東省濟(jì)寧市中考?xì)v史真題(原卷版)
- 電機(jī)控制與調(diào)速技術(shù)課件 項(xiàng)目四 步進(jìn)電動(dòng)機(jī)控制與調(diào)速技術(shù)
- 2024版保險(xiǎn)合同法律適用與條款解釋3篇
- 【MOOC】人格與精神障礙-學(xué)做自己的心理醫(yī)生-暨南大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 外科經(jīng)典換藥術(shù)
- 2024年支氣管哮喘臨床診療指南:課件精講
- 《滑翔傘模擬器控制系統(tǒng)的設(shè)計(jì)與研究》
- 公務(wù)員考試題庫(kù)及答案4000題
- 專(zhuān)題04 物質(zhì)結(jié)構(gòu)與性質(zhì)-2024年高考真題和模擬題化學(xué)分類(lèi)匯編(解析版)
- 林權(quán)投資合作協(xié)議范本
評(píng)論
0/150
提交評(píng)論