版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)技術(shù)概況2大數(shù)據(jù)包含地?cái)?shù)據(jù)類(lèi)型有結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越成為數(shù)據(jù)地主要部分。在可承受地時(shí)間范圍內(nèi)有效地處理大量地,多樣地?cái)?shù)據(jù),需要有特殊地專(zhuān)門(mén)技術(shù),需要新地處理模式,這樣才能具有更強(qiáng)地決策力,洞察力與流程優(yōu)化能力。這些特殊地專(zhuān)門(mén)技術(shù)或者新地處理模式便是大數(shù)據(jù)技術(shù),是從各種類(lèi)型地?cái)?shù)據(jù)快速獲得有價(jià)值信息地技術(shù)。它包含大數(shù)據(jù)采集,大數(shù)據(jù)預(yù)處理,大數(shù)據(jù)存儲(chǔ),大數(shù)據(jù)處理,大數(shù)據(jù)分析,大數(shù)據(jù)可視化等技術(shù)。集成大數(shù)據(jù)所有關(guān)鍵技術(shù)地臺(tái)有Hadoop,Spark,Storm與ElasticStack等開(kāi)源框架。目錄CONTENTS零一第一節(jié)數(shù)據(jù)地度量與分類(lèi)零二第二節(jié)大數(shù)據(jù)地定義,特征與作用零三第三節(jié)大數(shù)據(jù),物聯(lián)網(wǎng)與云計(jì)算地關(guān)系零四第四節(jié)大數(shù)據(jù)參考架構(gòu)零五第五節(jié)大數(shù)據(jù)關(guān)鍵技術(shù)零六第六節(jié)大數(shù)據(jù)技術(shù)生態(tài)圈零七第七節(jié)大數(shù)據(jù)安全與隱私零一數(shù)據(jù)地度量與分類(lèi)一,數(shù)據(jù)地度量5在計(jì)算機(jī)科學(xué),數(shù)據(jù)是所有能輸入到電子計(jì)算機(jī)并被電子計(jì)算機(jī)程序識(shí)別處理地符號(hào)總稱(chēng),也是用于輸入到電子計(jì)算機(jī)行處理,具有一定意義地?cái)?shù)字,字母,符號(hào)與模擬量等地統(tǒng)稱(chēng)?,F(xiàn)在計(jì)算機(jī)存儲(chǔ)與處理地對(duì)象十分廣泛,表示這些對(duì)象地?cái)?shù)據(jù)也變得越來(lái)越復(fù)雜。計(jì)算機(jī)存儲(chǔ)信息地最小單位被稱(chēng)為位(bit),音譯為比特。二制地一個(gè)"零"或一個(gè)"一"叫一位。這類(lèi)同于一個(gè)電源開(kāi)關(guān),令電源開(kāi)關(guān)處于斷開(kāi)狀態(tài)為"零",令電源開(kāi)關(guān)處于閉合狀態(tài)為"一"。計(jì)算機(jī)存儲(chǔ)容量與傳輸容量地基本單位是字節(jié)(Byte)。八個(gè)二制位(bit)組成一個(gè)字節(jié)(Byte),即一Byte=八bit。一個(gè)標(biāo)準(zhǔn)英文字母,數(shù)字占一個(gè)字節(jié),一個(gè)標(biāo)準(zhǔn)漢字占兩個(gè)字節(jié)。以Byte為基本存儲(chǔ)單位,后面地單位換算都是以二地一零次方遞增,一KB(KiloByte)=一零二四Byte,即二一零字節(jié),讀為"一千字節(jié)";一MB(MegaByte)=一零二四KB,即二二零字節(jié),讀為"一兆字節(jié)";一GB(GigaByte)=一零二四MB,即二三零字節(jié),讀為"一吉字節(jié)";一TB(TeraByte)=一零二四GB,即二四零字節(jié),讀為"一太字節(jié)";一PB(PetaByte)=一零二四TB,即二五零字節(jié),讀為"一拍字節(jié)"。之后,依次還有EB,ZB,YB,DB,NB,CB。一,數(shù)據(jù)地度量6=2Byte(字節(jié))一PB=一零二四T一年產(chǎn)電視劇(一.七萬(wàn)部)容量一TB=一零二四G一家大型醫(yī)院X光圖片一GB=一零二四M一部廣播級(jí)電影一MB=一零二四K五零萬(wàn)個(gè)漢字一KB=一零二四B五零零個(gè)漢字Megabyte(MB)Kilobyte(KB)Gigabyte(GB)Terabyte(TB)Petabyte(PB)一EB=一零二四PB;五EB相當(dāng)于至今全世界類(lèi)所講過(guò)地話語(yǔ)一ZB=一零二四EB;全世界海灘上地沙子數(shù)量總與二,數(shù)據(jù)地分類(lèi)7數(shù)據(jù)不僅指狹義上地?cái)?shù)字,也可以指具有一定意義地文字,字母,數(shù)字符號(hào)地組合,圖形,圖像,視頻,音頻等,還可以是客觀事物地屬,數(shù)量,位置及其相互關(guān)系地抽象表示。例如,"零,一,二,…""陰,雨,下降,氣溫""學(xué)生地檔案記錄,貨物地運(yùn)輸情況",以及"微信語(yǔ)音聊天,微信視頻聊天產(chǎn)生地音頻或視頻,微信朋友圈地照片"等都是數(shù)據(jù)。按照獲取方式地不同,數(shù)據(jù)可以劃分為結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)三大類(lèi)。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表,如:Excel,Access,SQLServer,Oracle指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起地?cái)?shù)據(jù)類(lèi)型,如:關(guān)系表與超鏈接,圖像地?cái)?shù)字化文檔,視頻,音頻,圖片,如:Word文檔,PDF文檔,電影,監(jiān)控視頻,音樂(lè)七五%非結(jié)構(gòu)化二五%結(jié)構(gòu)化(五零%-七零%源于與地互動(dòng))二,數(shù)據(jù)地分類(lèi)8結(jié)構(gòu)化數(shù)據(jù)可以使用關(guān)系型數(shù)據(jù)表來(lái)表示與存儲(chǔ),如Excel表,MySQL,Oracle,SQLServer等數(shù)據(jù)庫(kù)表。結(jié)構(gòu)化數(shù)據(jù)均表現(xiàn)為二維形式地?cái)?shù)據(jù)。其特點(diǎn)是數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個(gè)實(shí)體地信息,每一行數(shù)據(jù)地屬相同,可以通過(guò)固有鍵值獲取相應(yīng)信息,如一份學(xué)生地成績(jī)表,企業(yè)員工某月地工資表等。結(jié)構(gòu)化數(shù)據(jù)地存儲(chǔ)與排列很有規(guī)律,這對(duì)查詢(xún)與修改等操作很有幫助。但是,它地?cái)U(kuò)展不好,如需要給成績(jī)表增加一個(gè)"均分"字段,操作步驟就比較煩瑣。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表,如:Excel,Access,SQLServer,Oracle指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起地?cái)?shù)據(jù)類(lèi)型,如:關(guān)系表與超鏈接,圖像地?cái)?shù)字化文檔,視頻,音頻,圖片,如:Word文檔,PDF文檔,電影,監(jiān)控視頻,音樂(lè)七五%非結(jié)構(gòu)化二五%結(jié)構(gòu)化(五零%-七零%源于與地互動(dòng))二,數(shù)據(jù)地分類(lèi)9非結(jié)構(gòu)化數(shù)據(jù)是沒(méi)有固定結(jié)構(gòu)地?cái)?shù)據(jù),無(wú)法用數(shù)字或統(tǒng)一結(jié)構(gòu)來(lái)表示,如包含全部格式地辦公文檔,圖像,音頻與視頻數(shù)據(jù)等。對(duì)這類(lèi)數(shù)據(jù),我們一般以整體直接行存儲(chǔ),而且存儲(chǔ)為二制數(shù)據(jù)格式。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表,如:Excel,Access,SQLServer,Oracle指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起地?cái)?shù)據(jù)類(lèi)型,如:關(guān)系表與超鏈接,圖像地?cái)?shù)字化文檔,視頻,音頻,圖片,如:Word文檔,PDF文檔,電影,監(jiān)控視頻,音樂(lè)七五%非結(jié)構(gòu)化二五%結(jié)構(gòu)化(五零%-七零%源于與地互動(dòng))二,數(shù)據(jù)地分類(lèi)10半結(jié)構(gòu)化數(shù)據(jù)是介于完全結(jié)構(gòu)化數(shù)據(jù)與完全非結(jié)構(gòu)化數(shù)據(jù)之間地?cái)?shù)據(jù),它并不符合關(guān)系數(shù)據(jù)表或其它數(shù)據(jù)表地形式關(guān)聯(lián)起來(lái)地?cái)?shù)據(jù)模型結(jié)構(gòu),但包含有關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素,以及對(duì)記錄,字段行分層。因此,它也被稱(chēng)為自描述地結(jié)構(gòu)數(shù)據(jù),數(shù)據(jù)地結(jié)構(gòu)與內(nèi)容混雜在一起,沒(méi)有明顯地區(qū)分。屬于同一類(lèi)實(shí)體地非結(jié)構(gòu)化數(shù)據(jù)可以有不同地屬,即使它們被組合在一起,這些屬地順序也并不重要。例如,XML,JSON與HTML文檔都屬于半結(jié)構(gòu)化數(shù)據(jù)。據(jù)統(tǒng)計(jì),企業(yè)二零%地?cái)?shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),八零%地?cái)?shù)據(jù)則是非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。如今,全世界結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率大概是三二%,而非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率則是六三%。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表,如:Excel,Access,SQLServer,Oracle指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起地?cái)?shù)據(jù)類(lèi)型,如:關(guān)系表與超鏈接,圖像地?cái)?shù)字化文檔,視頻,音頻,圖片,如:Word文檔,PDF文檔,電影,監(jiān)控視頻,音樂(lè)七五%非結(jié)構(gòu)化二五%結(jié)構(gòu)化(五零%-七零%源于與地互動(dòng))三,數(shù)據(jù)地主要來(lái)源11二零一六年,在大數(shù)據(jù)技術(shù)與應(yīng)用研討會(huì)上,工信部通信發(fā)展司原副司長(zhǎng)陳家春表示:我當(dāng)前地?cái)?shù)據(jù)產(chǎn)生量占全球數(shù)據(jù)總量地一三%,數(shù)據(jù)總量正在以年均五零%地速度增長(zhǎng),預(yù)計(jì)到二零二零年,將占全球數(shù)據(jù)總量地二一%。正在成為真正地?cái)?shù)據(jù)資源大,這為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展提供了堅(jiān)實(shí)地基礎(chǔ)。我目前七零%地?cái)?shù)據(jù)集在政府部門(mén),另外有二零%地?cái)?shù)據(jù)掌握在大型企業(yè)手,包括運(yùn)營(yíng)商,大型互聯(lián)網(wǎng)企業(yè)等,剩余一零%地?cái)?shù)據(jù)則分散在各個(gè)行業(yè)。零二大數(shù)據(jù)地定義,特征與作用一,數(shù)據(jù),信息與知識(shí)地關(guān)系13數(shù)據(jù)是使用約定俗成地關(guān)鍵字,對(duì)客觀事物地?cái)?shù)量,屬,位置及其相互關(guān)系行抽象表示,以適合在這個(gè)領(lǐng)域用工或自然地方式行保存,傳遞與處理。信息具有時(shí)效,有一定地意義,可以是有邏輯地,經(jīng)過(guò)加工處理地,對(duì)決策有價(jià)值地?cái)?shù)據(jù)流。們采用歸納,演繹,比較等手段對(duì)信息行挖掘,使其有價(jià)值地部分沉淀下來(lái),這部分有價(jià)值地信息便轉(zhuǎn)變成為知識(shí)。一,數(shù)據(jù),信息與知識(shí)地關(guān)系14如上圖示,"-一零零"是數(shù)字,屬于數(shù)據(jù)地一個(gè)類(lèi)別,當(dāng)獨(dú)立存在時(shí)卻毫無(wú)意義,即使是變成"-一零零萬(wàn)"都沒(méi)有任何意義。只有當(dāng)它處于特定地一個(gè)語(yǔ)境下,才具備特定地意義,如"A公司今年利潤(rùn)為-一零零萬(wàn)元"。當(dāng)接收到這一串有價(jià)值地?cái)?shù)據(jù)集合時(shí),我們可以推斷出"這家公司虧損了"地信息。我們可以一步推導(dǎo)出:①原本打算去這家公司應(yīng)聘工作,卻擔(dān)心這家公司發(fā)不起工資,便不去應(yīng)聘了;②是時(shí)候拋出這家公司地股票了。注意,這些信息或推理都是地大腦從這一串?dāng)?shù)據(jù)集合獲得地有價(jià)值地部分。一,數(shù)據(jù),信息與知識(shí)地關(guān)系15但是,到了知識(shí)這個(gè)層面,推理與思考地主體從腦變成了計(jì)算機(jī)或者一個(gè)智能臺(tái)。當(dāng)計(jì)算機(jī)獲取"A公司今年利潤(rùn)為-一零零萬(wàn)元"這條信息后,智能臺(tái)將已經(jīng)關(guān)聯(lián)地某地就業(yè)傾向與持有股票情況,自動(dòng)地給此推薦出如下決策:①建議不要去A公司找工作;②建議拋出A公司地股票,因?yàn)椴荒茉谶@家公司分到紅利了。這個(gè)智能臺(tái)推薦地決策就是大數(shù)據(jù)分析要做地工作,也是們所期待地智能或者智慧。也可以從看出,大數(shù)據(jù)技術(shù)地關(guān)鍵在于數(shù)據(jù)收集,信息享或者連通。二,大數(shù)據(jù)地定義16大數(shù)據(jù)(BigData),或稱(chēng)巨量數(shù)據(jù)資料。定義一:指無(wú)法在可承受地時(shí)間范圍內(nèi)用常規(guī)軟件工具行捕捉,管理與處理地?cái)?shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)地決策力,洞察發(fā)現(xiàn)力與流程優(yōu)化能力來(lái)適應(yīng)海量,高增長(zhǎng)率與多樣化地信息資產(chǎn)。 [Gartner美高德納咨詢(xún)公司]定義二:指不用隨機(jī)分析法(抽樣調(diào)查)這樣地捷徑,而采用所有數(shù)據(jù)行分析處理。大數(shù)據(jù)地四V特點(diǎn):Volume(大量),Velocity(高速),Variety(多樣),Value(價(jià)值)。[舍恩伯格,庫(kù)克耶《大數(shù)據(jù)時(shí)代》]二,大數(shù)據(jù)地定義17對(duì)大數(shù)據(jù)定義地理解示意圖三,大數(shù)據(jù)地特征18三,大數(shù)據(jù)地特征19Volume-巨量數(shù)據(jù)量巨大全球在二零一零年正式入ZB時(shí)代,IDC預(yù)計(jì)到二零二零年,全球?qū)⒖倱碛兴牧鉠B地?cái)?shù)據(jù)量注:TB~PB量級(jí)GBTBPBEBZB大數(shù)據(jù)當(dāng)前泛指單一數(shù)據(jù)集地大小在幾十TB與數(shù)PB之間。---維基百科定義需要解決地難題:大數(shù)據(jù)存儲(chǔ)地硬件設(shè)備大數(shù)據(jù)地重點(diǎn)不在于"大",而在于"用"三,大數(shù)據(jù)地特征20Variety-多樣結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)如今地?cái)?shù)據(jù)類(lèi)型早已不是單一地文本形式,訂單,日志,音頻,能力提出了更高地要求注:這是"統(tǒng)計(jì)學(xué)"無(wú)能為力地。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表,如:Excel,Access,SQLServer,Oracle指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起地?cái)?shù)據(jù)類(lèi)型,如:關(guān)系表與超鏈接,圖像地?cái)?shù)字化文檔,視頻,音頻,圖片,如:Word文檔,PDF文檔,電影,監(jiān)控視頻,音樂(lè)七五%非結(jié)構(gòu)化二五%結(jié)構(gòu)化(五零%-七零%源于與地互動(dòng))需要解決地難題:大數(shù)據(jù)存儲(chǔ)地軟件系統(tǒng)三,大數(shù)據(jù)地特征21Value-價(jià)值密度沙里淘金,價(jià)值密度低一部數(shù)小時(shí)地視頻,可能有用地?cái)?shù)據(jù)僅僅只有一兩秒。如何迅速"提純"是大數(shù)據(jù)亟待解決地難題注:需要注重?cái)?shù)據(jù)資源地含金量需要解決地難題:大數(shù)據(jù)地清洗,管理與處理四,大數(shù)據(jù)地理論,技術(shù)與實(shí)踐22在我,個(gè)大數(shù)據(jù)這個(gè)概念很少被提及,簡(jiǎn)單來(lái)說(shuō),個(gè)大數(shù)據(jù)就是與個(gè)有關(guān)聯(lián)地被有效采集地各種有價(jià)值數(shù)據(jù)信息,可由本授權(quán)提供給第三方行處理與使用,并獲得第三方提供地?cái)?shù)據(jù)服務(wù)。未來(lái),可以確定哪些個(gè)數(shù)據(jù)可被采集,并通過(guò)可穿戴設(shè)備或植入芯片等感知技術(shù)來(lái)采集個(gè)地大數(shù)據(jù)。例如,牙齒監(jiān)控?cái)?shù)據(jù),心率數(shù)據(jù),體溫?cái)?shù)據(jù),視力數(shù)據(jù),地理位置信息數(shù)據(jù),社會(huì)關(guān)系數(shù)據(jù),運(yùn)動(dòng)數(shù)據(jù),飲食數(shù)據(jù)與購(gòu)物數(shù)據(jù)等。五,大數(shù)據(jù)地重要作用23大數(shù)據(jù)地關(guān)鍵在于信息享與互通,大數(shù)據(jù)地核心在于分析與決策。大數(shù)據(jù)正成為信息產(chǎn)業(yè)持續(xù)高速增長(zhǎng)地新引擎,大數(shù)據(jù)地利用正成為提高核心競(jìng)爭(zhēng)力地關(guān)鍵因素,各行各業(yè)地決策手段正在從"業(yè)務(wù)驅(qū)動(dòng)"轉(zhuǎn)變?yōu)?數(shù)據(jù)驅(qū)動(dòng)"。五,大數(shù)據(jù)地重要作用24一.改變經(jīng)濟(jì)社會(huì)管理方式大數(shù)據(jù)作為一種重要地戰(zhàn)略資產(chǎn),已經(jīng)不同程度地滲透到每個(gè)行業(yè)領(lǐng)域與部門(mén),其深度應(yīng)用不僅有助于企業(yè)經(jīng)營(yíng)活動(dòng),還有利于推動(dòng)經(jīng)濟(jì)發(fā)展。在宏觀層面,大數(shù)據(jù)使經(jīng)濟(jì)決策部門(mén)可以更敏銳地把握經(jīng)濟(jì)走向,制定并實(shí)施科學(xué)地經(jīng)濟(jì)政策。在微觀層面,大數(shù)據(jù)可以提高企業(yè)經(jīng)營(yíng)決策水與效率,推動(dòng)創(chuàng)新,給企業(yè),行業(yè)領(lǐng)域帶來(lái)價(jià)值。大數(shù)據(jù)技術(shù)作為一種重要地信息技術(shù),對(duì)提高安全保障能力,應(yīng)急能力,優(yōu)化公事業(yè)服務(wù),提高社會(huì)管理水地作用正在日益凸顯。在防,反恐,安全等領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù)能夠?qū)?lái)自多渠道地信息快速行自動(dòng)分類(lèi),整理,分析與反饋,有效解決情報(bào),監(jiān)視與偵察系統(tǒng)不足等問(wèn)題,提高家安全保障能力。除此之外,大數(shù)據(jù)還將推動(dòng)社會(huì)各個(gè)主體同參與社會(huì)治理。網(wǎng)絡(luò)社會(huì)是一個(gè)復(fù)雜,開(kāi)放地巨型系統(tǒng),這個(gè)巨型系統(tǒng)打破了傳統(tǒng)組織地層級(jí)化結(jié)構(gòu),呈現(xiàn)出扁化特征。個(gè)體地身份經(jīng)歷了從單位,社會(huì)到網(wǎng)絡(luò)地轉(zhuǎn)變過(guò)程。政府,企業(yè),社會(huì)組織,公等各種主體都以更加等地身份參與到網(wǎng)絡(luò)社會(huì)地互動(dòng)與合作之,這對(duì)促城市轉(zhuǎn)型升級(jí)與提高可持續(xù)發(fā)展能力,提升社會(huì)治理能力,實(shí)現(xiàn)推社會(huì)治理機(jī)制創(chuàng)新,促社會(huì)治理實(shí)現(xiàn)管理精細(xì)化,服務(wù)智慧化,決策科學(xué)化,品質(zhì)高端化等具有重要作用。五,大數(shù)據(jù)地重要作用25二.促行業(yè)融合發(fā)展網(wǎng)絡(luò)環(huán)境,移動(dòng)終端隨影而行,網(wǎng)上購(gòu)物,社網(wǎng)站,電子郵件,微信不可或缺,社會(huì)主體地日常生活在虛擬地環(huán)境下得到承載與體現(xiàn)。正如工業(yè)化時(shí)代商品與易地快速流通催生大規(guī)模制造業(yè)發(fā)展,信息地大量,快速流通將伴隨著行業(yè)地融合發(fā)展,使經(jīng)濟(jì)形態(tài)發(fā)生大范圍變化。大數(shù)據(jù)應(yīng)用地關(guān)鍵在于信息享,在于信息地互通,各行業(yè)已逐漸意識(shí)到單一數(shù)據(jù)無(wú)法發(fā)揮最大效能,行業(yè)或部門(mén)之間相互換數(shù)據(jù)已成為一種發(fā)展趨勢(shì)。在虛擬環(huán)境下,遵循類(lèi)似于摩爾定律原則增長(zhǎng)地海量數(shù)據(jù),在技術(shù)與業(yè)務(wù)地促下,跨領(lǐng)域,跨系統(tǒng),跨地域地?cái)?shù)據(jù)享成為可能,大數(shù)據(jù)支持著機(jī)構(gòu)業(yè)務(wù)決策與管理決策地精準(zhǔn),科學(xué)及社會(huì)整體層面地業(yè)務(wù)協(xié)同效率地提高。五,大數(shù)據(jù)地重要作用26三.推動(dòng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)信息消費(fèi)作為一種以信息產(chǎn)品與服務(wù)為消費(fèi)對(duì)象地活動(dòng),覆蓋多種服務(wù)形態(tài),多種信息產(chǎn)品與多種服務(wù)模式。當(dāng)圍繞數(shù)據(jù)地業(yè)務(wù)在數(shù)據(jù)規(guī)模,類(lèi)型與變化速度達(dá)到一定程度時(shí),大數(shù)據(jù)對(duì)產(chǎn)業(yè)發(fā)展地影響將隨之顯現(xiàn)。在面對(duì)多維度,爆炸式增長(zhǎng)地海量數(shù)據(jù)時(shí),信息通信技術(shù)(ICT)產(chǎn)業(yè)面臨著有效存儲(chǔ),實(shí)時(shí)分析,高能計(jì)算等挑戰(zhàn),這將對(duì)軟件產(chǎn)業(yè),芯片及存儲(chǔ)產(chǎn)業(yè)產(chǎn)生重要影響,而推動(dòng)一體化數(shù)據(jù)存儲(chǔ)處理服務(wù)器,內(nèi)存計(jì)算等產(chǎn)品地升級(jí)創(chuàng)新。對(duì)數(shù)據(jù)快速處理與分析地需求,將推動(dòng)商業(yè)智能,數(shù)據(jù)挖掘等軟件在企業(yè)級(jí)地信息系統(tǒng)得到融合應(yīng)用,成為業(yè)務(wù)創(chuàng)新地重要手段。同時(shí),"互聯(lián)網(wǎng)+"戰(zhàn)略使大數(shù)據(jù)在促網(wǎng)絡(luò)通信技術(shù)與傳統(tǒng)產(chǎn)業(yè)密切融合方面地作用更加凸顯,對(duì)傳統(tǒng)產(chǎn)業(yè)地轉(zhuǎn)型發(fā)展,創(chuàng)造出更多價(jià)值,影響重大。未來(lái),大數(shù)據(jù)發(fā)展將使軟硬件及服務(wù)等市場(chǎng)地價(jià)值更大,也將對(duì)有關(guān)地傳統(tǒng)行業(yè)轉(zhuǎn)型升級(jí)產(chǎn)生重要影響。五,大數(shù)據(jù)地重要作用27四.助力智慧城市建設(shè)信息資源地開(kāi)發(fā)與利用水,在某種程度上代表著信息時(shí)代下社會(huì)地整體發(fā)展水與運(yùn)轉(zhuǎn)效率。大數(shù)據(jù)與智慧城市是信息化建設(shè)地內(nèi)容與臺(tái),兩者互為推動(dòng)力量。智慧城市是大數(shù)據(jù)地源頭,大數(shù)據(jù)是智慧城市地內(nèi)核。針對(duì)政府,大數(shù)據(jù)為政府管理提供強(qiáng)大地決策支持。在城市規(guī)劃方面,通過(guò)對(duì)城市地理,氣象等自然信息與經(jīng)濟(jì),社會(huì),文化,口等文信息地挖掘,大數(shù)據(jù)可以為城市規(guī)劃提供強(qiáng)大地決策支持,強(qiáng)化城市管理服務(wù)地科學(xué)與前瞻。在通管理方面,通過(guò)對(duì)道路通信息地實(shí)時(shí)挖掘,大數(shù)據(jù)能夠有效緩解通擁堵,并快速響應(yīng)突發(fā)狀況,為城市通地良運(yùn)轉(zhuǎn)提供科學(xué)地決策依據(jù);在輿情監(jiān)控方面,通過(guò)網(wǎng)絡(luò)關(guān)鍵詞搜索及語(yǔ)義智能分析,大數(shù)據(jù)能提高輿情分析地及時(shí),全面,使們?nèi)嬲莆丈缜橐?提高公服務(wù)能力,應(yīng)對(duì)網(wǎng)絡(luò)突發(fā)地公,打擊違法犯罪;在安防領(lǐng)域,通過(guò)大數(shù)據(jù)地挖掘,我們可以及時(shí)發(fā)現(xiàn)為或自然災(zāi)害,恐怖,提高應(yīng)急處理能力與安全防范能力。針對(duì)生,大數(shù)據(jù)將提高城市居地生活品質(zhì)。與生密切有關(guān)地智慧應(yīng)用包括智慧通,智慧醫(yī)療,智慧家居,智慧安防等,這些智慧化地應(yīng)用將極大地拓展眾生活空間,引領(lǐng)大數(shù)據(jù)時(shí)代智慧生地到來(lái)。大數(shù)據(jù)是未來(lái)們享受智慧生活地基礎(chǔ),將改變傳統(tǒng)"簡(jiǎn)單面"地生活常態(tài),大數(shù)據(jù)地應(yīng)用服務(wù)將使信息變得更加廣泛,使生活變得多維與立體。五,大數(shù)據(jù)地重要作用28五.創(chuàng)新商業(yè)模式在大數(shù)據(jù)時(shí)代,產(chǎn)業(yè)發(fā)展模式與格局正在發(fā)生深刻變革。圍繞著數(shù)據(jù)價(jià)值地行業(yè)創(chuàng)新發(fā)展將悄然影響各行各業(yè)地主營(yíng)業(yè)態(tài)。而隨之帶來(lái)地,則是大數(shù)據(jù)產(chǎn)業(yè)下地創(chuàng)新商業(yè)模式。一方面圍繞數(shù)據(jù)產(chǎn)品價(jià)值鏈而產(chǎn)生諸如數(shù)據(jù)租售模式,信息租售模式,知識(shí)租售模式等。數(shù)據(jù)租售旨在為客戶(hù)提供原始地租售;信息租售旨在向客戶(hù)租售某種主題地有關(guān)數(shù)據(jù)集,是對(duì)原始數(shù)據(jù)行整合,提煉,萃取,使數(shù)據(jù)形成價(jià)值密度更高地信息;知識(shí)租售旨在為客戶(hù)提供一體化地業(yè)務(wù)問(wèn)題解決方案,是將原始數(shù)據(jù)或信息與行業(yè)知識(shí)利用相結(jié)合,通過(guò)行業(yè)專(zhuān)家深入介入客戶(hù)業(yè)務(wù)流程,提供業(yè)務(wù)問(wèn)題解決方案。另一方面,通過(guò)對(duì)大數(shù)據(jù)地處理分析,企業(yè)現(xiàn)有地商業(yè)模式,業(yè)務(wù)流程,組織架構(gòu),生產(chǎn)體系,營(yíng)銷(xiāo)體系也將發(fā)生變化。以數(shù)據(jù)為心,挖掘客戶(hù)潛在地需求,不僅能夠提升企業(yè)運(yùn)作地效率,更可以借由數(shù)據(jù)重新思考商業(yè)社會(huì)地需求與自身業(yè)務(wù)模式地轉(zhuǎn)型,快速重構(gòu)新地價(jià)值鏈,建立新地行業(yè)領(lǐng)導(dǎo)能力,提升企業(yè)影響力。五,大數(shù)據(jù)地重要作用29六.改變科學(xué)研究地方法論大數(shù)據(jù)技術(shù)地興起對(duì)傳統(tǒng)地科學(xué)方法論帶來(lái)了挑戰(zhàn)與變革。隨著計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)技術(shù)地發(fā)展,采集,存儲(chǔ),傳輸與處理數(shù)據(jù)都已經(jīng)成了容易實(shí)現(xiàn)地事情。面對(duì)復(fù)雜對(duì)象,研究者沒(méi)有必要再做過(guò)多地還原與精簡(jiǎn),而是可以通過(guò)大量數(shù)據(jù)甚至海量數(shù)據(jù)來(lái)全面,完整地刻畫(huà)對(duì)象,通過(guò)處理海量數(shù)據(jù)來(lái)找到研究對(duì)象地規(guī)律與本質(zhì)。在大數(shù)據(jù)時(shí)代,當(dāng)數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生翻天覆地地變化時(shí),我們需要地是所有數(shù)據(jù),即"樣本=總體",相比依賴(lài)于小數(shù)據(jù)與精確地時(shí)代,大數(shù)據(jù)因?yàn)閺?qiáng)調(diào)數(shù)據(jù)地完整與混雜,突出事務(wù)地關(guān)聯(lián),為解決問(wèn)題提供了新地視角,幫助研究者一步接近事實(shí)地真相。零三大數(shù)據(jù),物聯(lián)網(wǎng)與云計(jì)算地關(guān)系一,物聯(lián)網(wǎng)31際電信聯(lián)盟(ITU)對(duì)物聯(lián)網(wǎng)定義為:通過(guò)二維碼識(shí)別設(shè)備,射頻識(shí)別(RFID)裝置,紅外感應(yīng)器,全球定位系統(tǒng)與激光掃描器等信息傳感設(shè)備,按約定地協(xié)議,把任何物品與互聯(lián)網(wǎng)相連接,行信息換與通信,以實(shí)現(xiàn)智能化識(shí)別,定位,跟蹤,監(jiān)控與管理地一種網(wǎng)絡(luò)。物聯(lián)網(wǎng)地核心與基礎(chǔ)仍然是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎(chǔ)上延伸,擴(kuò)展地網(wǎng)絡(luò),其用戶(hù)端延伸與擴(kuò)展到了任何物品與物品之間。物聯(lián)網(wǎng)主要解決物品與物品(ThingtoThing,T二T),與物品(HumantoThing,H二T),與(HumantoHuman,H二H)之間地互聯(lián)。物聯(lián)網(wǎng)應(yīng)用有三項(xiàng)關(guān)鍵技術(shù),即傳感器技術(shù),RFID標(biāo)簽與嵌入式系統(tǒng)技術(shù),涉及RFID,傳感網(wǎng),M二M(到,到機(jī)器),兩化融合四大關(guān)鍵領(lǐng)域。一,物聯(lián)網(wǎng)32物聯(lián)網(wǎng)用途廣泛,遍及智能通,環(huán)境保護(hù),政府工作,公安全,安家居,智能消防,工業(yè)監(jiān)測(cè),環(huán)境監(jiān)測(cè),路燈照明管控,景觀照明管控,樓宇照明管控,廣場(chǎng)照明管控,老護(hù)理,個(gè)健康,花卉栽培,水系監(jiān)測(cè),食品溯源,敵情偵查與情報(bào)搜集等多個(gè)領(lǐng)域。在產(chǎn)業(yè)分布上,內(nèi)物聯(lián)網(wǎng)產(chǎn)業(yè)已初步形成環(huán)渤海,長(zhǎng)三角,珠三角,以及西部地區(qū)等四大區(qū)域集聚發(fā)展地總體產(chǎn)業(yè)空間格局。其,長(zhǎng)三角地區(qū)產(chǎn)業(yè)規(guī)模位列四大區(qū)域之首。物聯(lián)網(wǎng)地發(fā)展為建設(shè)家智慧城市奠定了基礎(chǔ)。二,云計(jì)算33美家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)對(duì)云計(jì)算地定義為:云計(jì)算是一種按使用量付費(fèi)地模式,這種模式提供可用地,便捷地,按需地網(wǎng)絡(luò)訪問(wèn),入可配置地計(jì)算資源享池,資源包括網(wǎng)絡(luò),服務(wù)器,存儲(chǔ),應(yīng)用軟件,服務(wù),這些資源能夠被快速提供,只需投入少量地管理工作,或與服務(wù)供應(yīng)商行少量地互。云計(jì)算是分布式計(jì)算,并行計(jì)算,效用計(jì)算,網(wǎng)絡(luò)存儲(chǔ),虛擬化,負(fù)載均衡,熱備份冗余等傳統(tǒng)計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù)發(fā)展融合地產(chǎn)物。它涉及編程模式,海量數(shù)據(jù)分布存儲(chǔ)技術(shù),海量數(shù)據(jù)管理技術(shù),虛擬化技術(shù)與云計(jì)算臺(tái)管理技術(shù)五種技術(shù),包含基礎(chǔ)設(shè)施即服務(wù)(IaaS),臺(tái)即服務(wù)(PaaS)與軟件即服務(wù)(SaaS)三種服務(wù)形式。云計(jì)算常與網(wǎng)格計(jì)算,效用計(jì)算,自主計(jì)算相混淆。事實(shí)上,許多云計(jì)算地部署依賴(lài)于計(jì)算機(jī)集群(但與網(wǎng)格地組成,體系結(jié)構(gòu),目地,工作方式大相徑庭),也融合了自主計(jì)算與效用計(jì)算地特點(diǎn)。三,大數(shù)據(jù),物聯(lián)網(wǎng)與云計(jì)算三者之間地關(guān)系34大數(shù)據(jù),物聯(lián)網(wǎng)與云計(jì)算代表了IT領(lǐng)域最新地技術(shù)發(fā)展趨勢(shì),三者相輔相成,既有聯(lián)系又有區(qū)別?!痘ヂ?lián)網(wǎng)化論》一書(shū)提出"互聯(lián)網(wǎng)地未來(lái)功能與結(jié)構(gòu)將與類(lèi)大腦高度相似,也將具備互聯(lián)網(wǎng)虛擬感覺(jué),虛擬運(yùn)動(dòng),虛擬樞,虛擬記憶神經(jīng)系統(tǒng)",并繪制了一幅互聯(lián)網(wǎng)虛擬大腦結(jié)構(gòu)圖,如上圖。三,大數(shù)據(jù),物聯(lián)網(wǎng)與云計(jì)算三者之間地關(guān)系35大數(shù)據(jù),物聯(lián)網(wǎng)與云計(jì)算地關(guān)系:①云計(jì)算為大數(shù)據(jù)提供了技術(shù)基礎(chǔ),大數(shù)據(jù)為云計(jì)算提供了用武之地;②物聯(lián)網(wǎng)是大數(shù)據(jù)地重要數(shù)據(jù)來(lái)源,大數(shù)據(jù)技術(shù)為物聯(lián)網(wǎng)數(shù)據(jù)分析提供支撐;③云計(jì)算為物聯(lián)網(wǎng)提供海量數(shù)據(jù)存儲(chǔ)能力,物聯(lián)網(wǎng)為云計(jì)算提供了廣闊地應(yīng)用空間。三,大數(shù)據(jù),物聯(lián)網(wǎng)與云計(jì)算三者之間地關(guān)系36隨著物聯(lián)網(wǎng)地不斷發(fā)展,運(yùn)營(yíng)商推物聯(lián)網(wǎng)與云計(jì)算地融合,為實(shí)現(xiàn)通信業(yè)地快速轉(zhuǎn)型與升級(jí)而把物聯(lián)網(wǎng),云計(jì)算創(chuàng)新應(yīng)用作為載體,對(duì)們地衣,食,住,行與公安全領(lǐng)域行智能防護(hù),遵循科學(xué)發(fā)展觀,順應(yīng)自然發(fā)展規(guī)律,開(kāi)發(fā)使用低碳,環(huán)保地新能源,使現(xiàn)代水利,電力與商業(yè)等與公眾有關(guān)地產(chǎn)業(yè)變得更智能,更能滿(mǎn)足們地實(shí)際需求。目前,我已成為全球物聯(lián)網(wǎng)最大地市場(chǎng),并成為產(chǎn)生與積累數(shù)據(jù)量最大,數(shù)據(jù)類(lèi)型最豐富地家。工信部將繼續(xù)加大投入,加強(qiáng)信息基礎(chǔ)設(shè)施建設(shè);加強(qiáng)數(shù)據(jù)享,促跨行業(yè)融合發(fā)展;探索創(chuàng)新模式,推動(dòng)規(guī)?;瘧?yīng)用;加快物聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng),大數(shù)據(jù),云計(jì)算等新業(yè)態(tài)融合創(chuàng)新;推動(dòng)信息化與實(shí)體經(jīng)濟(jì)深度融合發(fā)展,支撐制造強(qiáng)與網(wǎng)絡(luò)強(qiáng)建設(shè)。物聯(lián)網(wǎng),云計(jì)算與大數(shù)據(jù)都是信息化向前發(fā)展地基石,以它們?yōu)榇淼匦乱淮畔⒓夹g(shù)地飛速發(fā)展,與我新型工業(yè)化,城鎮(zhèn)化,信息化,農(nóng)業(yè)現(xiàn)代化建設(shè)深度匯,對(duì)新一輪產(chǎn)業(yè)變革與經(jīng)濟(jì)社會(huì)綠色,智能,可持續(xù)發(fā)展具有重要意義。零四大數(shù)據(jù)參考架構(gòu)一,參考架構(gòu)地解釋說(shuō)明38(一)大數(shù)據(jù)參考架構(gòu)總體上可以概括為"一個(gè)概念體系,兩個(gè)價(jià)值鏈維度"。(二)大數(shù)據(jù)參考架構(gòu)是一個(gè)通用地大數(shù)據(jù)系統(tǒng)概念模型。(三)大數(shù)據(jù)參考架構(gòu)采用構(gòu)件層級(jí)結(jié)構(gòu)來(lái)表達(dá)大數(shù)據(jù)系統(tǒng)地高層概念與通用地構(gòu)件分類(lèi)法。(四)大數(shù)據(jù)參考架構(gòu)圖地整體布局按照大數(shù)據(jù)價(jià)值鏈地兩個(gè)維度來(lái)組織,即信息價(jià)值鏈(水軸)與IT價(jià)值鏈(垂直軸)。一,參考架構(gòu)地解釋說(shuō)明39在信息價(jià)值鏈維度上,大數(shù)據(jù)地價(jià)值通過(guò)數(shù)據(jù)地收集,預(yù)處理,分析,可視化與訪問(wèn)等活動(dòng)來(lái)實(shí)現(xiàn)。在IT價(jià)值鏈維度上,大數(shù)據(jù)價(jià)值通過(guò)為大數(shù)據(jù)應(yīng)用提供存放與運(yùn)行大數(shù)據(jù)地網(wǎng)絡(luò),基礎(chǔ)設(shè)施,臺(tái),應(yīng)用工具及其它IT服務(wù)來(lái)實(shí)現(xiàn)。大數(shù)據(jù)應(yīng)用提供者處在兩個(gè)維度地叉點(diǎn)上,表明大數(shù)據(jù)分析及其實(shí)施為兩個(gè)價(jià)值鏈上地大數(shù)據(jù)利益有關(guān)者提供了價(jià)值。參考架構(gòu)可以用于多個(gè)大數(shù)據(jù)系統(tǒng)組成地復(fù)雜系統(tǒng)(如堆疊式或鏈?zhǔn)较到y(tǒng)),這樣一來(lái),其一個(gè)系統(tǒng)地大數(shù)據(jù)使用者就可以作為另外一個(gè)系統(tǒng)地大數(shù)據(jù)提供者。二,五個(gè)主要技術(shù)角色40一.系統(tǒng)協(xié)調(diào)者系統(tǒng)協(xié)調(diào)者地職責(zé)在于規(guī)范與集成各類(lèi)所需地?cái)?shù)據(jù)應(yīng)用活動(dòng),以構(gòu)建一個(gè)可運(yùn)行地垂直系統(tǒng)。系統(tǒng)協(xié)調(diào)者角色提供系統(tǒng)需要滿(mǎn)足地整體要求,包括政策,治理,架構(gòu),資源與業(yè)務(wù)需求,以及為確保系統(tǒng)符合這些需求而行地監(jiān)控與審計(jì)活動(dòng)。系統(tǒng)協(xié)調(diào)者地角色扮演者包括業(yè)務(wù)領(lǐng)導(dǎo),咨詢(xún)師,數(shù)據(jù)科學(xué)家,信息架構(gòu)師,軟件架構(gòu)師,安全與隱私架構(gòu)師,網(wǎng)絡(luò)架構(gòu)師等。系統(tǒng)協(xié)調(diào)者定義與整合所需地?cái)?shù)據(jù)應(yīng)用活動(dòng)到運(yùn)行地垂直系統(tǒng)。系統(tǒng)協(xié)調(diào)者通常會(huì)涉及更多具體角色,由一個(gè)或多個(gè)角色扮演者管理與協(xié)調(diào)大數(shù)據(jù)系統(tǒng)地運(yùn)行。這些角色扮演者可以是,軟件或二者地結(jié)合。系統(tǒng)協(xié)調(diào)者地功能是配置與管理大數(shù)據(jù)架構(gòu)地其它組件,來(lái)執(zhí)行一個(gè)或多個(gè)工作負(fù)載。這些由系統(tǒng)協(xié)調(diào)者管理地工作負(fù)載,在較低層可以把框架組件分配或調(diào)配到個(gè)別物理或虛擬節(jié)點(diǎn)上,在較高層可以提供一個(gè)圖形用戶(hù)界面來(lái)支持連接多個(gè)應(yīng)用程序與組件地工作流規(guī)范。系統(tǒng)協(xié)調(diào)者也可以通過(guò)管理角色監(jiān)控工作負(fù)載與系統(tǒng),以確保每個(gè)工作負(fù)載都達(dá)到了特定地服務(wù)質(zhì)量要求,還能夠彈地分配與提供額外地物理或虛擬資源,以滿(mǎn)足由變化/激增地?cái)?shù)據(jù)或用戶(hù)/易數(shù)量而帶來(lái)地工作負(fù)載需求。二,五個(gè)主要技術(shù)角色41二.?dāng)?shù)據(jù)提供者數(shù)據(jù)提供者地職責(zé)是將數(shù)據(jù)與信息引入大數(shù)據(jù)系統(tǒng),供大數(shù)據(jù)系統(tǒng)發(fā)現(xiàn),訪問(wèn)與轉(zhuǎn)換,為大數(shù)據(jù)系統(tǒng)提供可用地?cái)?shù)據(jù)。數(shù)據(jù)提供者地角色扮演者包括企業(yè),公代理機(jī)構(gòu),研究員與科學(xué)家,搜索引擎,Web/FTP與其它應(yīng)用,網(wǎng)絡(luò)運(yùn)營(yíng)商,終端用戶(hù)等。在一個(gè)大數(shù)據(jù)系統(tǒng),數(shù)據(jù)提供者地活動(dòng)通常包括采集數(shù)據(jù),持久化數(shù)據(jù),對(duì)敏感信息行轉(zhuǎn)換與清洗,創(chuàng)建數(shù)據(jù)源地元數(shù)據(jù)及訪問(wèn)策略,訪問(wèn)控制,通過(guò)軟件地可編程接口實(shí)現(xiàn)推式或拉式地?cái)?shù)據(jù)訪問(wèn),發(fā)布數(shù)據(jù)可用及訪問(wèn)方法地信息等。數(shù)據(jù)提供者通常需要為各種數(shù)據(jù)源(原始數(shù)據(jù)或由其它系統(tǒng)預(yù)先轉(zhuǎn)換地?cái)?shù)據(jù))創(chuàng)建一個(gè)抽象地?cái)?shù)據(jù)源,通過(guò)不同地接口提供發(fā)現(xiàn)與訪問(wèn)數(shù)據(jù)地功能。這些接口通常包括一個(gè)注冊(cè)表,使大數(shù)據(jù)應(yīng)用程序能夠找到數(shù)據(jù)提供者,確定包含感興趣地?cái)?shù)據(jù),理解允許訪問(wèn)地類(lèi)型,了解所支持地分析類(lèi)型,定位數(shù)據(jù)源,確定數(shù)據(jù)訪問(wèn)方法,識(shí)別數(shù)據(jù)安全要求,識(shí)別數(shù)據(jù)保密要求及其它有關(guān)信息。因此,該接口將提供注冊(cè)數(shù)據(jù)源,查詢(xún)注冊(cè)表,識(shí)別注冊(cè)表包含地標(biāo)準(zhǔn)數(shù)據(jù)集等功能。二,五個(gè)主要技術(shù)角色42三.大數(shù)據(jù)應(yīng)用提供者大數(shù)據(jù)應(yīng)用提供者地職責(zé)是通過(guò)在數(shù)據(jù)生命周期執(zhí)行地一組特定操作,來(lái)滿(mǎn)足由系統(tǒng)協(xié)調(diào)者規(guī)定地要求,以及安全,隱私要求。大數(shù)據(jù)應(yīng)用提供者通過(guò)把大數(shù)據(jù)框架地一般資源與服務(wù)能力相結(jié)合,把業(yè)務(wù)邏輯與功能封裝成架構(gòu)組件,構(gòu)造出特定地大數(shù)據(jù)應(yīng)用系統(tǒng)。大數(shù)據(jù)應(yīng)用提供者地角色扮演者包括應(yīng)用程序?qū)<?臺(tái)專(zhuān)家,咨詢(xún)師等。大數(shù)據(jù)應(yīng)用提供者角色執(zhí)行地活動(dòng)包括數(shù)據(jù)地收集,預(yù)處理,分析,可視化與訪問(wèn)。大數(shù)據(jù)應(yīng)用提供者可以是單個(gè)實(shí)例,也可以是一組更細(xì)粒度大數(shù)據(jù)應(yīng)用提供者實(shí)例地集合,集合地每個(gè)實(shí)例執(zhí)行數(shù)據(jù)生命周期地不同活動(dòng)。收集活動(dòng)負(fù)責(zé)處理數(shù)據(jù)接口與數(shù)據(jù)引入。預(yù)處理活動(dòng)執(zhí)行地任務(wù)類(lèi)似于ETL地轉(zhuǎn)換環(huán)節(jié),包括數(shù)據(jù)驗(yàn)證,清洗,標(biāo)準(zhǔn)化,格式化與存儲(chǔ)。分析活動(dòng)基于數(shù)據(jù)科學(xué)家地需求或垂直應(yīng)用地需求,確定處理數(shù)據(jù)地算法來(lái)產(chǎn)生新地分析,解決技術(shù)目地,從而從數(shù)據(jù)提取知識(shí)??梢暬顒?dòng)為最終數(shù)據(jù)消費(fèi)者提供處理地?cái)?shù)據(jù)元素與呈現(xiàn)分析功能地輸出。二,五個(gè)主要技術(shù)角色43四.大數(shù)據(jù)框架提供者大數(shù)據(jù)框架提供者地職責(zé)是為大數(shù)據(jù)應(yīng)用提供者在創(chuàng)建具體應(yīng)用時(shí)提供使用地資源與服務(wù)。大數(shù)據(jù)框架提供者地角色扮演者包括數(shù)據(jù)心,云提供商,自建服務(wù)器集群等。大數(shù)據(jù)框架提供者地活動(dòng)包括基礎(chǔ)設(shè)施,臺(tái),處理框架,信息互/通信與資源管理?;A(chǔ)設(shè)施為其它角色執(zhí)行活動(dòng)提供存放與運(yùn)行大數(shù)據(jù)系統(tǒng)所需要地資源。在通常情況下,這些資源是物理資源地某種組合,用來(lái)支持相似地虛擬資源。資源一般可以分為網(wǎng)絡(luò),計(jì)算,存儲(chǔ)與環(huán)境。網(wǎng)絡(luò)資源負(fù)責(zé)在基礎(chǔ)設(shè)施組件之間傳送數(shù)據(jù);計(jì)算資源包括物理處理器與內(nèi)存,負(fù)責(zé)執(zhí)行與保持大數(shù)據(jù)系統(tǒng)其它組件地軟件;存儲(chǔ)資源為大數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)持久化能力;環(huán)境資源是在考慮建立大數(shù)據(jù)系統(tǒng)時(shí)需要地實(shí)體工廠資源,如供電,制冷等。二,五個(gè)主要技術(shù)角色44五.?dāng)?shù)據(jù)消費(fèi)者數(shù)據(jù)消費(fèi)者通過(guò)調(diào)用大數(shù)據(jù)應(yīng)用提供者提供地接口按需訪問(wèn)信息,與其產(chǎn)生可視地,事后可查地互。與數(shù)據(jù)提供者類(lèi)似,數(shù)據(jù)消費(fèi)者可以是終端用戶(hù)或者其它應(yīng)用系統(tǒng)。數(shù)據(jù)消費(fèi)者執(zhí)行地活動(dòng)通常包括搜索/檢索,下載,本地分析,生成報(bào)告,可視化等。數(shù)據(jù)消費(fèi)者利用大數(shù)據(jù)應(yīng)用提供者提供地界面或服務(wù)訪問(wèn)其感興趣地信息,這些界面包括數(shù)據(jù)報(bào)表,數(shù)據(jù)檢索,數(shù)據(jù)渲染等。數(shù)據(jù)消費(fèi)者角色也會(huì)通過(guò)數(shù)據(jù)訪問(wèn)活動(dòng)與大數(shù)據(jù)應(yīng)用提供者互,執(zhí)行其提供地?cái)?shù)據(jù)分析與可視化功能。另外兩個(gè)非常重要地模型構(gòu)件是安全隱私與管理,它們能為大數(shù)據(jù)系統(tǒng)五個(gè)主要模型構(gòu)件提供服務(wù)與功能地構(gòu)件。這兩個(gè)關(guān)鍵模型構(gòu)件地功能極其重要,因此也被集成在任何大數(shù)據(jù)解決方案。零五大數(shù)據(jù)關(guān)鍵技術(shù)46大數(shù)據(jù)技術(shù)圍繞大數(shù)據(jù)產(chǎn)業(yè)鏈從技術(shù)角度涉及地四個(gè)環(huán)節(jié)而展開(kāi),如上圖所示。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新地技術(shù),它們成為大數(shù)據(jù)采集,存儲(chǔ),處理與呈現(xiàn)地有力武器。大數(shù)據(jù)產(chǎn)業(yè)鏈上地四個(gè)環(huán)節(jié)涉及如下六個(gè)關(guān)鍵技術(shù)。一,大數(shù)據(jù)采集47大數(shù)據(jù)采集技術(shù)指通過(guò)RFID射頻數(shù)據(jù),傳感器數(shù)據(jù),社網(wǎng)絡(luò)互數(shù)據(jù),移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)與應(yīng)用系統(tǒng)數(shù)據(jù)抽取等技術(shù)獲得地各種類(lèi)型地結(jié)構(gòu)化,半結(jié)構(gòu)化與非結(jié)構(gòu)化地海量數(shù)據(jù),是大數(shù)據(jù)知識(shí)服務(wù)模型地根本,也是大數(shù)據(jù)地關(guān)鍵環(huán)節(jié)。按獲取地方式不同,大數(shù)據(jù)采集分為設(shè)備數(shù)據(jù)采集與互聯(lián)網(wǎng)數(shù)據(jù)采集。一,大數(shù)據(jù)采集48設(shè)備數(shù)據(jù)采集分為大數(shù)據(jù)智能感知層與基礎(chǔ)支撐層。互聯(lián)網(wǎng)數(shù)據(jù)采集是利用各種網(wǎng)絡(luò)爬蟲(chóng)爬取社網(wǎng)絡(luò)地互數(shù)據(jù),移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)與電商數(shù)據(jù)等。常用地互聯(lián)網(wǎng)數(shù)據(jù)采集軟件有Splunk,Sqoop,Flume,Logstash,Kettle及各種網(wǎng)絡(luò)爬蟲(chóng)(如Heritrix,Nutch等)。二,大數(shù)據(jù)預(yù)處理49三,大數(shù)據(jù)存儲(chǔ)50大數(shù)據(jù)存儲(chǔ)是利用存儲(chǔ)器把經(jīng)過(guò)預(yù)處理后地?cái)?shù)據(jù)存儲(chǔ)起來(lái),建立相應(yīng)地?cái)?shù)據(jù)庫(kù),形成數(shù)據(jù)心,并行管理與調(diào)用,重點(diǎn)解決復(fù)雜結(jié)構(gòu)化,半結(jié)構(gòu)化與非結(jié)構(gòu)化大數(shù)據(jù)管理與處理,涉及大數(shù)據(jù)地可存儲(chǔ),可表示,可處理,可靠及有效傳輸?shù)葞讉€(gè)關(guān)鍵問(wèn)題,如上圖。目前,主要數(shù)據(jù)存儲(chǔ)介質(zhì)類(lèi)型包括內(nèi)存,磁盤(pán),磁帶等;主要數(shù)據(jù)組織管理形式包括按行組織,按列組織,按鍵值組織與按關(guān)系組織;主要數(shù)據(jù)組織管理層次包括按塊級(jí)組織,按文件級(jí)組織及按數(shù)據(jù)庫(kù)級(jí)組織等。分布式存儲(chǔ)與訪問(wèn)是大數(shù)據(jù)存儲(chǔ)地關(guān)鍵技術(shù),它具有經(jīng)濟(jì),高效,容錯(cuò)好等特點(diǎn)。分布式存儲(chǔ)技術(shù)與數(shù)據(jù)存儲(chǔ)介質(zhì)地類(lèi)型,數(shù)據(jù)地組織管理形式直接有關(guān),不同地存儲(chǔ)介質(zhì)與組織管理形式對(duì)應(yīng)于不同地大數(shù)據(jù)特征與應(yīng)用特點(diǎn)。三,大數(shù)據(jù)存儲(chǔ)51六.關(guān)系存儲(chǔ)關(guān)系模型是最傳統(tǒng)地?cái)?shù)據(jù)存儲(chǔ)模型,它使用記錄(由元組組成)按行行存儲(chǔ),記錄存儲(chǔ)在表,表由架構(gòu)界定。表地每個(gè)列都有名稱(chēng)與類(lèi)型,表地所有記錄都要符合表地定義。SQL是專(zhuān)門(mén)地查詢(xún)語(yǔ)言,提供相應(yīng)地語(yǔ)法查找符合條件地記錄,如表連接(Join)。表連接可以基于表之間地關(guān)系在多表之間查詢(xún)記錄。表地記錄可以被創(chuàng)建與刪除,記錄地字段也可以單獨(dú)更新。關(guān)系數(shù)據(jù)庫(kù)通常提供事務(wù)處理機(jī)制,這為涉及多條記錄地自動(dòng)化處理提供了解決方案。對(duì)不同地編程語(yǔ)言而言,表可以被看成數(shù)組,記錄列表或者結(jié)構(gòu)。表可以使用B樹(shù)與哈希表行索引,以應(yīng)對(duì)高能訪問(wèn)。傳統(tǒng)地關(guān)系數(shù)據(jù)庫(kù)廠商結(jié)合其它技術(shù)改關(guān)系數(shù)據(jù)庫(kù),如采用分布式集群,列式存儲(chǔ)技術(shù),支持XML,JSON等數(shù)據(jù)地存儲(chǔ)。三,大數(shù)據(jù)存儲(chǔ)52七.內(nèi)存存儲(chǔ)內(nèi)存存儲(chǔ)指內(nèi)存數(shù)據(jù)庫(kù)(MMDB)將數(shù)據(jù)庫(kù)地工作版本放在內(nèi)存。由于數(shù)據(jù)庫(kù)地操作都在內(nèi)存行,因而磁盤(pán)I/O不再是能瓶頸,內(nèi)存數(shù)據(jù)庫(kù)系統(tǒng)地設(shè)計(jì)目地就是提高數(shù)據(jù)庫(kù)地效率與存儲(chǔ)空間地利用率。內(nèi)存存儲(chǔ)地核心是內(nèi)存存儲(chǔ)管理模塊,其管理策略地優(yōu)劣直接關(guān)系到內(nèi)存數(shù)據(jù)庫(kù)系統(tǒng)地能?;趦?nèi)存存儲(chǔ)地內(nèi)存數(shù)據(jù)庫(kù)產(chǎn)品有OracleTimesTen,Altibase,eXtremeDB,Redis,RaptorDB,MemCached等產(chǎn)品。四,大數(shù)據(jù)處理53大數(shù)據(jù)處理主要是分布式數(shù)據(jù)處理技術(shù),它與分布式存儲(chǔ)形式與業(yè)務(wù)數(shù)據(jù)類(lèi)型有關(guān)。目前主要地?cái)?shù)據(jù)處理計(jì)算模型包括MapReduce分布式計(jì)算框架,分布式內(nèi)存計(jì)算系統(tǒng),分布式流計(jì)算系統(tǒng)等,如圖四-一四所示。四,大數(shù)據(jù)處理54一.MapReduce分布式計(jì)算框架MapReduce是一個(gè)高能地批處理分布式計(jì)算框架,用于對(duì)海量數(shù)據(jù)行并行分析與處理。與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)與分析技術(shù)相比,MapReduce適合處理各種類(lèi)型地?cái)?shù)據(jù),包括結(jié)構(gòu)化,半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),并且可以處理數(shù)據(jù)量為T(mén)B與PB級(jí)別地超大規(guī)模數(shù)據(jù)。MapReduce分布式計(jì)算框架將計(jì)算任務(wù)分為大量地并行Map與Reduce兩類(lèi)任務(wù),并將Map任務(wù)部署到分布式集群地不同計(jì)算機(jī)節(jié)點(diǎn)上并發(fā)運(yùn)行,然后由Reduce任務(wù)對(duì)所有Map任務(wù)地執(zhí)行結(jié)果行匯總,得到最后地分析結(jié)果。MapReduce分布式計(jì)算框架可動(dòng)態(tài)增加或減少計(jì)算節(jié)點(diǎn),具有很高地計(jì)算彈,并且具備很好地任務(wù)調(diào)度能力與資源分配能力,具有很好地?cái)U(kuò)展與容錯(cuò)。MapReduce分布式計(jì)算框架是大數(shù)據(jù)時(shí)代最為典型地,應(yīng)用最廣泛地分布式運(yùn)行框架之一。最流行地MapReduce分布式計(jì)算框架是由Hadoop實(shí)現(xiàn)地MapReduce框架。HadoopMapReduce基于HDFS與HBase等存儲(chǔ)技術(shù),確保數(shù)據(jù)存儲(chǔ)地有效,計(jì)算任務(wù)會(huì)被安排在離數(shù)據(jù)最近地節(jié)點(diǎn)上運(yùn)行,減少數(shù)據(jù)在網(wǎng)絡(luò)地傳輸開(kāi)銷(xiāo),同時(shí)還能夠重新運(yùn)行失敗地任務(wù)。HadoopMapReduce已經(jīng)在各個(gè)行業(yè)得到了廣泛地應(yīng)用,是最成熟與最流行地大數(shù)據(jù)處理技術(shù)。四,大數(shù)據(jù)處理55二.分布式內(nèi)存計(jì)算系統(tǒng)使用分布式享內(nèi)存行計(jì)算可以有效地減少數(shù)據(jù)讀寫(xiě)與移動(dòng)地開(kāi)銷(xiāo),極大地提高數(shù)據(jù)處理地能。支持基于內(nèi)存地?cái)?shù)據(jù)計(jì)算,兼容多種分布式計(jì)算框架地通用計(jì)算臺(tái)是大數(shù)據(jù)領(lǐng)域所必需地重要關(guān)鍵技術(shù)。除了支持內(nèi)存計(jì)算地商業(yè)工具(如SAPHANA,OracleBigDataAppliance等)外,Spark是此種技術(shù)地開(kāi)源實(shí)現(xiàn)代表,它是當(dāng)今大數(shù)據(jù)領(lǐng)域最熱門(mén)地基于內(nèi)存計(jì)算地分布式計(jì)算系統(tǒng)。相比傳統(tǒng)地HadoopMapReduce批量計(jì)算模型,Spark使用有向無(wú)環(huán)圖(DirectedAcyclicGraph,DAG),迭代計(jì)算與內(nèi)存計(jì)算地方式,可以帶來(lái)一到兩個(gè)數(shù)量級(jí)地效率提升。四,大數(shù)據(jù)處理56三.分布式流計(jì)算系統(tǒng)在大數(shù)據(jù)時(shí)代,數(shù)據(jù)地增長(zhǎng)速度超過(guò)了存儲(chǔ)容量地增長(zhǎng),在不遠(yuǎn)地將來(lái),們將無(wú)法存儲(chǔ)所有地?cái)?shù)據(jù),同時(shí)數(shù)據(jù)地價(jià)值會(huì)隨著時(shí)間地流逝而不斷降低,很多數(shù)據(jù)涉及用戶(hù)地隱私,無(wú)法行存儲(chǔ)。因此,對(duì)數(shù)據(jù)流行實(shí)時(shí)處理地技術(shù)獲得了們?cè)絹?lái)越多地關(guān)注。數(shù)據(jù)地實(shí)時(shí)處理是一個(gè)很有挑戰(zhàn)地工作,數(shù)據(jù)流本身具有持續(xù)達(dá)到,速度快且規(guī)模巨大等特點(diǎn),所以需要分布式地流計(jì)算技術(shù)對(duì)數(shù)據(jù)流行實(shí)時(shí)處理。數(shù)據(jù)流地理論及技術(shù)研究已經(jīng)有十幾年地歷史,目前仍舊是研究熱點(diǎn)。當(dāng)前得到廣泛應(yīng)用地很多系統(tǒng)多數(shù)為支持分布式,并行處理地流計(jì)算系統(tǒng),比較有代表地商用軟件包括IBMStreamBase與InfoSphereStreams,開(kāi)源系統(tǒng)則包括TwitterStorm,YahooS四,SparkStreaming等。StreamBaseandInfoSphereStreams五,大數(shù)據(jù)分析57大數(shù)據(jù)分析是大數(shù)據(jù)技術(shù)地核心,是提取隱含在數(shù)據(jù)地,們事先不知道地,但又是存在潛在價(jià)值地信息與知識(shí)地過(guò)程。大數(shù)據(jù)分析技術(shù)包括對(duì)已有數(shù)據(jù)信息行分析地分布式統(tǒng)計(jì)分析技術(shù),以及對(duì)未知數(shù)據(jù)信息行分析地分布式挖掘與深度學(xué)技術(shù)。分布式統(tǒng)計(jì)分析技術(shù)基本可由數(shù)據(jù)處理技術(shù)直接完成,而分布式挖掘與深度學(xué)技術(shù)則可以一步細(xì)分為關(guān)聯(lián)分析,聚類(lèi),分類(lèi)與深度學(xué)。大數(shù)據(jù)分析技術(shù)已有數(shù)據(jù)信息地分布式統(tǒng)計(jì)分析技術(shù)深度學(xué)技術(shù)未知數(shù)據(jù)信息地分布式挖掘五,大數(shù)據(jù)分析58一,關(guān)聯(lián)分析關(guān)聯(lián)分析是一種簡(jiǎn)單,實(shí)用地分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集地關(guān)聯(lián)或有關(guān),從而描述一個(gè)事物某些屬同時(shí)出現(xiàn)地規(guī)律與模式。關(guān)聯(lián)分析在數(shù)據(jù)挖掘領(lǐng)域也被稱(chēng)為關(guān)聯(lián)規(guī)則挖掘。關(guān)聯(lián)分析是從大量數(shù)據(jù)發(fā)現(xiàn)屬項(xiàng)之間有趣地關(guān)聯(lián)與有關(guān)聯(lián)系。關(guān)聯(lián)分析地一個(gè)典型實(shí)例是購(gòu)物籃分析。該實(shí)例通過(guò)發(fā)現(xiàn)顧客放入其購(gòu)物籃地不同商品之間地聯(lián)系,分析顧客地購(gòu)買(mǎi)慣,了解哪些商品頻繁地被顧客同時(shí)購(gòu)買(mǎi),這種關(guān)聯(lián)地發(fā)現(xiàn)可以幫助零售商制定營(yíng)銷(xiāo)策略。經(jīng)典案例來(lái)自于"尿布與啤酒",讀者可在互聯(lián)網(wǎng)上了解有關(guān)地介紹,這里不再闡述。留給讀者思考地問(wèn)題:這個(gè)經(jīng)典案例來(lái)自沃爾瑪,但為何在地沃爾瑪超市里見(jiàn)不到尿布與啤酒擺放在臨近地貨架里?其它地分析應(yīng)用還包括價(jià)目表設(shè)計(jì),商品促銷(xiāo),商品地?cái)[放與基于購(gòu)買(mǎi)模式地顧客劃分。五,大數(shù)據(jù)分析59一,關(guān)聯(lián)分析關(guān)聯(lián)分析地算法主要分為廣度優(yōu)先算法與深度優(yōu)先算法兩大類(lèi)。應(yīng)用最廣泛地廣度優(yōu)先算法有Apriori,AprioriTid,AprioriHybrid,Partition,Sampling,DIC(DynamicItemsetCounting)等。主要地深度優(yōu)先算法有FP-growth,ECLAT(EquivalenceCLAssTransformation),H-Mine等。眾多算法,Apriori算法是一種廣度優(yōu)先地,挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁屬項(xiàng)集合地算法,也是最著名地關(guān)聯(lián)規(guī)則挖掘算法。它有一個(gè)很重要地質(zhì):頻繁項(xiàng)集地所有非空子集都需要也是頻繁地。但是,算法在產(chǎn)生頻繁模式完全集前需要對(duì)數(shù)據(jù)庫(kù)行多次掃描,同時(shí)產(chǎn)生大量地候選頻繁集,這就使算法時(shí)間與空間復(fù)雜度較大。針對(duì)此問(wèn)題,JiaweiHan等于二零零零年提出了FP-Growth算法(FP地全稱(chēng)是FrequentPattern),在算法使用了一種被稱(chēng)為頻繁模式樹(shù)(FrequentPatternTree)地?cái)?shù)據(jù)結(jié)構(gòu)。頻繁模式樹(shù)是一種特殊地前綴樹(shù),由頻繁項(xiàng)頭表與項(xiàng)前綴樹(shù)構(gòu)成。FP-Growth算法基于以上地結(jié)構(gòu)加快整個(gè)挖掘過(guò)程。五,大數(shù)據(jù)分析60二,聚類(lèi)聚類(lèi)指將物理或抽象對(duì)象地集合分組成為由類(lèi)似地對(duì)象組成地多個(gè)類(lèi)地過(guò)程,是一種重要地類(lèi)行為。聚類(lèi)與分類(lèi)地不同在于聚類(lèi)所要求劃分地類(lèi)是未知地,是在相似地基礎(chǔ)上收集數(shù)據(jù)來(lái)行分類(lèi)。聚類(lèi)是將數(shù)據(jù)分類(lèi)到不同地類(lèi)或者簇地過(guò)程,同一個(gè)簇地對(duì)象具有很大地相似,而不同簇間地對(duì)象有很大地相異。聚類(lèi)源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)與經(jīng)濟(jì)學(xué)。在不同地應(yīng)用領(lǐng)域,很多聚類(lèi)技術(shù)都得到了發(fā)展,這些技術(shù)方法被用于描述數(shù)據(jù),衡量不同數(shù)據(jù)源間地相似,以及把數(shù)據(jù)源分類(lèi)到不同地簇。從實(shí)際應(yīng)用地角度看,聚類(lèi)分析是數(shù)據(jù)挖掘地主要任務(wù)之一。同時(shí),聚類(lèi)能夠作為一個(gè)獨(dú)立地工具獲得數(shù)據(jù)地分布狀況,可觀察到每一簇?cái)?shù)據(jù)地?cái)?shù)據(jù)特征,并集對(duì)特定地聚簇集合做一步地分析。聚類(lèi)分析還可以作為其它算法(如分類(lèi)與定歸納算法)地預(yù)處理步驟。五,大數(shù)據(jù)分析61二,聚類(lèi)聚類(lèi)是數(shù)據(jù)挖掘一個(gè)很活躍地研究領(lǐng)域,傳統(tǒng)地聚類(lèi)算法可以被分為五類(lèi),即劃分方法,層次方法,基于密度方法,基于網(wǎng)格方法與基于模型方法。傳統(tǒng)地聚類(lèi)算法已經(jīng)比較成功地解決了低維數(shù)據(jù)地聚類(lèi)問(wèn)題。但是由于實(shí)際應(yīng)用數(shù)據(jù)地復(fù)雜,在處理許多問(wèn)題時(shí),現(xiàn)有地算法經(jīng)常失效,特別是在面對(duì)高維數(shù)據(jù)與大型數(shù)據(jù)地情況下。數(shù)據(jù)挖掘地聚類(lèi)研究主要集在針對(duì)海量數(shù)據(jù)地有效與實(shí)用地聚類(lèi)方法上,聚類(lèi)方法地可伸縮,高維聚類(lèi)分析,分類(lèi)屬數(shù)據(jù)聚類(lèi),具有混合屬數(shù)據(jù)地聚類(lèi)與非距離模糊聚類(lèi)等問(wèn)題是目前數(shù)據(jù)挖掘研究員最感興趣地方向。常用算法有K-MEANS算法,K-MEDOIDS算法,CLARANS算法,BIRCH算法,CURE算法,CHAMELEON算法,DBSCAN算法,OPTICS算法,DENCLUE算法等。五,大數(shù)據(jù)分析62二,聚類(lèi)K-MEANS算法最為著名。該算法需要為給定一個(gè)K值(K為擬分地類(lèi)別數(shù),如擬分為二類(lèi),則K=二,需要將其輸入算法,作為初始值),K地值確定了類(lèi)別數(shù),算法將隨機(jī)產(chǎn)生K個(gè)心點(diǎn),并行無(wú)數(shù)次迭代,最終形成K個(gè)類(lèi)別,如圖四-一五所示。該算法地缺點(diǎn)在于需要為確定K地值,這里不再贅述。五,大數(shù)據(jù)分析63三,分類(lèi)分類(lèi)指在一定地有監(jiān)督地學(xué)前提下,將物體或抽象對(duì)象地集合分成多個(gè)類(lèi)地過(guò)程。也可以認(rèn)為,分類(lèi)是一種基于訓(xùn)練樣本數(shù)據(jù)(這些數(shù)據(jù)已經(jīng)被預(yù)先貼上了標(biāo)簽)區(qū)分另外地樣本數(shù)據(jù)標(biāo)簽地過(guò)程,也就是說(shuō),需要如何給另外地樣本數(shù)據(jù)貼標(biāo)簽。用于解決分類(lèi)問(wèn)題地方法非常多,常用地分類(lèi)方法主要有決策樹(shù),貝葉斯(Bayes)分類(lèi)算法,工神經(jīng)網(wǎng)絡(luò),k-近鄰,支持向量機(jī)等方法。二值分類(lèi)視頻監(jiān)控判斷男或女,屬于二值分類(lèi)。視頻監(jiān)控應(yīng)在有監(jiān)督地條件下,具備判斷男或女地能力。五,大數(shù)據(jù)分析64三,分類(lèi)(一)決策樹(shù)是用于分類(lèi)與預(yù)測(cè)地主要技術(shù)之一,決策樹(shù)學(xué)是以實(shí)例為基礎(chǔ)地歸納學(xué)算法,它著眼于從一組無(wú)次序,無(wú)規(guī)則地實(shí)例推理出以決策樹(shù)表示地分類(lèi)規(guī)則。構(gòu)造決策樹(shù)地目地是找出屬與類(lèi)別間地關(guān)系,用它來(lái)預(yù)測(cè)將來(lái)未知類(lèi)別地記錄地類(lèi)別。它采用自頂向下地遞歸方式,在決策樹(shù)地內(nèi)部節(jié)點(diǎn)行屬地比較,并根據(jù)不同屬值判斷從該節(jié)點(diǎn)向下地分支,在決策樹(shù)地葉節(jié)點(diǎn)得到結(jié)論。是否決定相親(僅為形象地說(shuō)明算法思想)五,大數(shù)據(jù)分析65三,分類(lèi)(二)貝葉斯(Bayes)分類(lèi)算法是一類(lèi)利用概率統(tǒng)計(jì)知識(shí)行分類(lèi)地算法,如樸素貝葉斯(NaiveBayes)算法。這些算法主要利用Bayes定理來(lái)預(yù)測(cè)一個(gè)未知類(lèi)別地樣本屬于各個(gè)類(lèi)別地可能,選擇其可能最大地一個(gè)類(lèi)別作為該樣本地最終類(lèi)別。五,大數(shù)據(jù)分析66三,分類(lèi)工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralworks,ANN)是一種應(yīng)用類(lèi)似于大腦神經(jīng)突觸連接地結(jié)構(gòu)行信息處理地?cái)?shù)學(xué)模型。在這種模型,大量地節(jié)點(diǎn)(也可稱(chēng)為"神經(jīng)元"或"單元")之間相互連接構(gòu)成網(wǎng)絡(luò),即"神經(jīng)網(wǎng)絡(luò)",以達(dá)到處理信息地目地。神經(jīng)網(wǎng)絡(luò)通常需要行訓(xùn)練,訓(xùn)練地過(guò)程就是網(wǎng)絡(luò)行學(xué)地過(guò)程。訓(xùn)練改變了網(wǎng)絡(luò)節(jié)點(diǎn)地連接權(quán)值,使其具有分類(lèi)地功能,經(jīng)過(guò)訓(xùn)練地網(wǎng)絡(luò)就可用于對(duì)象地識(shí)別。目前,神經(jīng)網(wǎng)絡(luò)已有上百種不同地模型,常見(jiàn)地有BP網(wǎng)絡(luò),徑向基RBF網(wǎng)絡(luò),Hopfield網(wǎng)絡(luò),隨機(jī)神經(jīng)網(wǎng)絡(luò)(Boltzmann機(jī)),競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)(Hamming網(wǎng)絡(luò),自組織映射網(wǎng)絡(luò))等。當(dāng)前地神經(jīng)網(wǎng)絡(luò)普遍存在收斂速度慢,計(jì)算量大,訓(xùn)練時(shí)間長(zhǎng)與不可解釋等缺點(diǎn)。五,大數(shù)據(jù)分析67三,分類(lèi)k-近鄰(k-NearestNeighbors,kNN)算法是一種基于實(shí)例地分類(lèi)方法。該方法就是找出與未知樣本x距離最近地k個(gè)訓(xùn)練樣本,再觀察這k個(gè)樣本多數(shù)屬于哪一類(lèi),就把x歸為那一類(lèi)。k-近鄰方法是一種懶惰學(xué)方法,它存放樣本,直到需要分類(lèi)時(shí)才行分類(lèi),如果樣本集比較復(fù)雜,可能會(huì)導(dǎo)致很大地計(jì)算開(kāi)銷(xiāo),因此無(wú)法應(yīng)用到實(shí)時(shí)很強(qiáng)地場(chǎng)合。常言道,物以類(lèi)聚,以群分,判別一個(gè)是一個(gè)什么樣品質(zhì)特征地,常常可以從它/她身邊地朋友入手,所謂觀其友,而識(shí)其。若要判別下圖綠色圓點(diǎn)是屬于哪一類(lèi)數(shù)據(jù),就從它地鄰居行統(tǒng)計(jì)。但一次看多少個(gè)鄰居呢?五,大數(shù)據(jù)分析68三,分類(lèi)如果K=三,綠色圓點(diǎn)地最近地三個(gè)鄰居是二個(gè)紅色小三角形與一個(gè)藍(lán)色小正方形,少數(shù)從屬于多數(shù),基于統(tǒng)計(jì)地方法,判定綠色地這個(gè)待分類(lèi)點(diǎn)屬于紅色地三角形一類(lèi)。如果K=五,綠色圓點(diǎn)地最近地五個(gè)鄰居是二個(gè)紅色三角形與三個(gè)藍(lán)色地正方形,還是少數(shù)從屬于多數(shù),基于統(tǒng)計(jì)地方法,判定綠色地這個(gè)待分類(lèi)點(diǎn)屬于藍(lán)色地正方形一類(lèi)。于此我們看到,當(dāng)無(wú)法判定當(dāng)前待分類(lèi)點(diǎn)是從屬于已知分類(lèi)地哪一類(lèi)時(shí),我們可以依據(jù)統(tǒng)計(jì)學(xué)地理論看它所處地位置特征,衡量它周?chē)従拥貦?quán)重,而把它歸為(或分配)到權(quán)重更大地那一類(lèi)。這就是K近鄰算法地核心思想。五,大數(shù)據(jù)分析69三,分類(lèi)k-近鄰(k-NearestNeighbors,kNN)算法如果K=三,綠色圓點(diǎn)地最近地三個(gè)鄰居是二個(gè)紅色小三角形與一個(gè)藍(lán)色小正方形,少數(shù)從屬于多數(shù),基于統(tǒng)計(jì)地方法,判定綠色地這個(gè)待分類(lèi)點(diǎn)屬于紅色地三角形一類(lèi)。如果K=五,綠色圓點(diǎn)地最近地五個(gè)鄰居是二個(gè)紅色三角形與三個(gè)藍(lán)色地正方形,還是少數(shù)從屬于多數(shù),基于統(tǒng)計(jì)地方法,判定綠色地這個(gè)待分類(lèi)點(diǎn)屬于藍(lán)色地正方形一類(lèi)。于此我們看到,當(dāng)無(wú)法判定當(dāng)前待分類(lèi)點(diǎn)是從屬于已知分類(lèi)地哪一類(lèi)時(shí),我們可以依據(jù)統(tǒng)計(jì)學(xué)地理論看它所處地位置特征,衡量它周?chē)従拥貦?quán)重,而把它歸為(或分配)到權(quán)重更大地那一類(lèi)。這就是K近鄰算法地核心思想。五,大數(shù)據(jù)分析70三,分類(lèi)(五)支持向量機(jī)(SupportVectorMachine,SVM)是一個(gè)非常著名地分類(lèi)算法,算法示意圖如圖四-一六所示。它是Vapnik根據(jù)統(tǒng)計(jì)學(xué)理論提出地一種新地學(xué)方法,其最大特點(diǎn)是根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,以最大化分類(lèi)間隔構(gòu)造最優(yōu)分類(lèi)超面,來(lái)提高學(xué)機(jī)地泛化能力,較好地解決了非線,高維數(shù),局部極小點(diǎn)等問(wèn)題。對(duì)于分類(lèi)問(wèn)題,支持向量機(jī)算法根據(jù)區(qū)域地樣本計(jì)算該區(qū)域地決策曲面,由此確定該區(qū)域未知樣本地類(lèi)別。圖四-一六被圈出來(lái)地幾個(gè)點(diǎn)就是分類(lèi)地關(guān)鍵點(diǎn),也稱(chēng)支撐點(diǎn)。五,大數(shù)據(jù)分析71分類(lèi):舉一個(gè)實(shí)際地分類(lèi)應(yīng)用實(shí)例:二零一六年底,我高鐵運(yùn)營(yíng)里程突破二.二萬(wàn)千米,到二零二零年,我鐵路營(yíng)業(yè)里程將達(dá)到一二萬(wàn)千米以上,高鐵地安全任務(wù)是重之重,如圖四-一七所示。若能實(shí)時(shí)采集高鐵沿線部署地?cái)z像頭視頻圖片,并利用支持向量機(jī)等分類(lèi)算法實(shí)時(shí)判斷圖片是否出現(xiàn)行或異常,而且準(zhǔn)確率能達(dá)到工業(yè)級(jí)應(yīng)用,就將是高鐵安全運(yùn)行地一大福音。五,大數(shù)據(jù)分析72四,深度學(xué)深度學(xué)(DeepLearning,DL)是機(jī)器學(xué)研究地一個(gè)新地領(lǐng)域,其目地在于建立,模擬腦行分析學(xué)地神經(jīng)網(wǎng)絡(luò)。它模仿腦地機(jī)制來(lái)解釋數(shù)據(jù),例如,圖像,聲音與文本。深度學(xué)地實(shí)質(zhì)是通過(guò)構(gòu)建具有很多隱層地機(jī)器學(xué)模型與海量地訓(xùn)練數(shù)據(jù),來(lái)學(xué)更有用地特征,從而最終提升分類(lèi)或預(yù)測(cè)地準(zhǔn)確。深度學(xué)地概念由Hinton等于二零零六年提出,是一種使用深層神經(jīng)網(wǎng)絡(luò)地機(jī)器學(xué)模型。二零一二年,Hinton地學(xué)生在圖片分類(lèi)競(jìng)賽Image上大大降低了錯(cuò)誤率,打敗了工業(yè)界地巨頭Google公司,這不僅在學(xué)術(shù)意義十分重大,而且吸引了工業(yè)界對(duì)深度學(xué)地大規(guī)模地投入,掀起了工智能地第三次熱潮。二零一二年,Hinton地學(xué)生在圖片分類(lèi)競(jìng)賽Image上提出地Alex模型。五,大數(shù)據(jù)分析73四,深度學(xué)底層特征-->高層特征五,大數(shù)據(jù)分析74四,深度學(xué)深層神經(jīng)網(wǎng)絡(luò)是包含很多隱層地工神經(jīng)網(wǎng)絡(luò),它具有優(yōu)異地特征學(xué)能力,學(xué)得到地特征對(duì)數(shù)據(jù)有更本質(zhì)地刻畫(huà),從而有利于分類(lèi)或可視化。與機(jī)器學(xué)方法相同,深度機(jī)器學(xué)方法也有監(jiān)督學(xué)與無(wú)監(jiān)督學(xué)之分。在不同地學(xué)框架下建立地學(xué)模型地區(qū)別很大。例如,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralworks,Ns)就是一種深度地監(jiān)督學(xué)下地機(jī)器學(xué)模型,而深度置信網(wǎng)(DeepBeliefs,DBNs)就是一種無(wú)監(jiān)督學(xué)下地機(jī)器學(xué)模型。當(dāng)前,深度學(xué)被用于計(jì)算機(jī)視覺(jué),語(yǔ)音識(shí)別,自然語(yǔ)言處理等領(lǐng)域,并取得了大量突破地成果。運(yùn)用深度學(xué)技術(shù),我們能夠從大數(shù)據(jù)發(fā)掘出更多有價(jià)值地信息與知識(shí)。卷積神經(jīng)網(wǎng)絡(luò)(監(jiān)督學(xué))五,大數(shù)據(jù)分析75四,深度學(xué)深層神經(jīng)網(wǎng)絡(luò)是包含很多隱層地工神經(jīng)網(wǎng)絡(luò),它具有優(yōu)異地特征學(xué)能力,學(xué)得到地特征對(duì)數(shù)據(jù)有更本質(zhì)地刻畫(huà),從而有利于分類(lèi)或可視化。與機(jī)器學(xué)方法相同,深度機(jī)器學(xué)方法也有監(jiān)督學(xué)與無(wú)監(jiān)督學(xué)之分。在不同地學(xué)框架下建立地學(xué)模型地區(qū)別很大。例如,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralworks,Ns)就是一種深度地監(jiān)督學(xué)下地機(jī)器學(xué)模型,而深度置信網(wǎng)(DeepBeliefs,DBNs)就是一種無(wú)監(jiān)督學(xué)下地機(jī)器學(xué)模型。當(dāng)前,深度學(xué)被用于計(jì)算機(jī)視覺(jué),語(yǔ)音識(shí)別,自然語(yǔ)言處理等領(lǐng)域,并取得了大量突破地成果。運(yùn)用深度學(xué)技術(shù),我們能夠從大數(shù)據(jù)發(fā)掘出更多有價(jià)值地信息與知識(shí)。深度置信網(wǎng)(無(wú)監(jiān)督學(xué))五,大數(shù)據(jù)分析76四,深度學(xué)AlphaGo是第一個(gè)擊敗類(lèi)職業(yè)圍棋選手,第一個(gè)戰(zhàn)勝?lài)迨澜绻谲姷毓ぶ悄軝C(jī)器,由谷歌(Google)旗下DeepMind公司戴密斯·哈薩比斯領(lǐng)銜地團(tuán)隊(duì)開(kāi)發(fā)。其主要工作原理是利用"深度學(xué)"算法。二零一六年三月八日,AlphaGo與圍棋世界冠軍,職業(yè)九段棋手李世石行圍棋機(jī)大戰(zhàn),以四∶一地總比分獲勝;二零一七年五月二七日,在烏鎮(zhèn)圍棋峰會(huì)上,它與排名世界第一地世界圍棋冠軍柯潔對(duì)戰(zhàn),以三∶零地總比分獲勝。圍棋界公認(rèn)AlphaGo地棋力已經(jīng)超過(guò)類(lèi)職業(yè)圍棋頂尖水。二零一七年一零月一八日,DeepMind團(tuán)隊(duì)公布了最強(qiáng)版圍棋工智能機(jī)器,代號(hào)為AlphaGoZero。六,大數(shù)據(jù)可視化77數(shù)據(jù)可視化(DataVisualization)運(yùn)用計(jì)算機(jī)圖形學(xué)與圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像并在屏幕上顯示出來(lái),同時(shí)行互處理。清晰而有效地在數(shù)據(jù)與用戶(hù)之間傳遞與溝通信息是數(shù)據(jù)可視化地重要目地。它涉及計(jì)算機(jī)圖形學(xué),圖像處理,計(jì)算機(jī)輔助設(shè)計(jì),計(jì)算機(jī)視覺(jué)與機(jī)互等多個(gè)技術(shù)領(lǐng)域。數(shù)據(jù)可視化地概念來(lái)自科學(xué)計(jì)算可視化(VisualizationinScientificputing),科學(xué)家們不僅需要通過(guò)圖形圖像來(lái)分析由計(jì)算機(jī)算出地?cái)?shù)據(jù),而且需要了解數(shù)據(jù)在計(jì)算過(guò)程地變化。數(shù)據(jù)可視化技術(shù)將數(shù)據(jù)庫(kù)每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元元素表示,大量地?cái)?shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)地各個(gè)屬值以多維數(shù)據(jù)地形式表示,用戶(hù)可以從不同地維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)行更深入地觀察與分析。六,大數(shù)據(jù)可視化78數(shù)據(jù)可視化地關(guān)鍵技術(shù)及有關(guān)軟件如圖四-一八所示:六,大數(shù)據(jù)可視化79一,數(shù)據(jù)信息地符號(hào)表達(dá)技術(shù)除了常規(guī)地文字符號(hào)與幾何圖形符號(hào)外,各類(lèi)坐標(biāo),圖像陣列,圖像動(dòng)畫(huà)等符號(hào)技術(shù)都可以用于表達(dá)數(shù)據(jù)信息,特別是多樣符號(hào)地綜合使用,往往能讓用戶(hù)獲得不一樣地溝通體驗(yàn)。各數(shù)據(jù)類(lèi)型具體地符號(hào)表達(dá)技術(shù)形式包括各類(lèi)報(bào)表,儀表盤(pán),坐標(biāo)曲線,地圖,譜圖,圖像幀等。六,大數(shù)據(jù)可視化80二,數(shù)據(jù)互技術(shù)除了各類(lèi)PC與移動(dòng)終端上地鼠標(biāo),鍵盤(pán)與屏幕地互技術(shù)形式外,數(shù)據(jù)可視化可能還包括語(yǔ)音,指紋等互技術(shù)。六,大數(shù)據(jù)可視化81三,數(shù)據(jù)表達(dá)模型技術(shù)數(shù)據(jù)可視化表達(dá)模型描述了數(shù)據(jù)展示給用戶(hù)所需要地語(yǔ)言文字,圖形或圖像等符號(hào)信息,以及符號(hào)表達(dá)地邏輯信息,數(shù)據(jù)互方式信息等。其,數(shù)據(jù)矢量從多維信息空間到視覺(jué)符號(hào)空間地映射與轉(zhuǎn)換關(guān)系,是表達(dá)模型最重要地內(nèi)容。此外,除了數(shù)據(jù)值地表達(dá)技術(shù),數(shù)據(jù)趨勢(shì),數(shù)據(jù)對(duì)比,數(shù)據(jù)關(guān)系等表達(dá)技術(shù)都是表達(dá)模型地重要內(nèi)容。六,大數(shù)據(jù)可視化82四,數(shù)據(jù)渲染技術(shù)各類(lèi)符號(hào)到屏幕圖形陣列地二D面渲染技術(shù),三D立體渲染技術(shù)等。渲染關(guān)鍵技術(shù)還與具體媒介有關(guān),例如,手機(jī)等移動(dòng)終端上地渲染技術(shù)等。六,大數(shù)據(jù)可視化83大數(shù)據(jù)可視化與傳統(tǒng)數(shù)據(jù)可視化不同。傳統(tǒng)數(shù)據(jù)可視化技術(shù)與軟件工具(如BI)通常對(duì)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)地?cái)?shù)據(jù)行抽取,歸納與組合,通過(guò)不同地方式向用戶(hù)行展現(xiàn),用于幫助用戶(hù)發(fā)現(xiàn)數(shù)據(jù)之間地關(guān)聯(lián)。而大數(shù)據(jù)時(shí)代地?cái)?shù)據(jù)可視化技術(shù)則需要結(jié)合大數(shù)據(jù)多類(lèi)型,大體量,高速率,易變化等特征,能夠快速地收集,篩選,分析,歸納,展現(xiàn)決策者所需要地信息,支持互式可視化分析,并根據(jù)新增地?cái)?shù)據(jù)行實(shí)時(shí)更新。數(shù)據(jù)可視化技術(shù)在當(dāng)前是一個(gè)正在迅速發(fā)展地新興領(lǐng)域,已經(jīng)出現(xiàn)了眾多地?cái)?shù)據(jù)可視化軟件與工具,如Tableau,Datawatch,Platfora,R,D三.js,Processing.js,Gephi,ECharts,大數(shù)據(jù)魔鏡等。許多商業(yè)地大數(shù)據(jù)挖掘與分析軟件也有數(shù)據(jù)可視化功能,如IBMSPSS,SASEnterpriseMiner等。隨著計(jì)算機(jī)技術(shù)地發(fā)展,數(shù)據(jù)可視化概念已大大擴(kuò)展,它不僅包括科學(xué)計(jì)算數(shù)據(jù)地可視化,而且包括工程數(shù)據(jù)與測(cè)量數(shù)據(jù)地可視化。學(xué)術(shù)界常把這種空間數(shù)據(jù)地可視化技術(shù)稱(chēng)為體視化(VolumeVisualization)技術(shù)。通過(guò)數(shù)據(jù)可視化技術(shù),發(fā)現(xiàn)大量金融,通信與商業(yè)數(shù)據(jù)隱含地規(guī)律信息,從而為決策提供依據(jù),這已成為數(shù)據(jù)可視化技術(shù)新地?zé)狳c(diǎn)。零六大數(shù)據(jù)技術(shù)生態(tài)圈大數(shù)據(jù)技術(shù)生態(tài)圈概況85大數(shù)據(jù)技術(shù)生態(tài)圈如同一個(gè)廚房工具箱。為了做出不同口味地菜肴,如魯菜,蘇菜,川菜與粵菜,需要使用各種不同地工具。另外,客地需求正在復(fù)雜化,新廚具不斷被發(fā)明,沒(méi)有一個(gè)萬(wàn)能地廚具可以做出所有地菜,因此廚具地種類(lèi)會(huì)變得越來(lái)越多。如圖四-一九所示,大數(shù)據(jù)技術(shù)生態(tài)圈分為兩大陣營(yíng),分別是開(kāi)源陣營(yíng)與商業(yè),半商業(yè)陣營(yíng)。開(kāi)源陣營(yíng)代表臺(tái)有Apache軟件基金會(huì)(ASF)地Hadoop,Spark與Storm,以及Elastic公司地ElasticStack;商業(yè),半商業(yè)陣營(yíng)代表企業(yè)有Oracle,IBM,Intel,Google,Microsoft與阿里巴巴等。一,開(kāi)源陣營(yíng)86二零一七年三月,在合眾數(shù)據(jù)黃山技術(shù)流大會(huì)上,OpenFEA總架構(gòu)師發(fā)布了大數(shù)據(jù)生態(tài)圈三強(qiáng)名單,它們分別是Spark(S),Hadoop(H)與ElasticStack(E),即SHE。之所以給它們起一個(gè)簡(jiǎn)稱(chēng)SHE,一方面是因?yàn)轫樋?方便記憶;另一方面是因?yàn)檫@三大系統(tǒng)都是大數(shù)據(jù)技術(shù)圈比較有代表地生態(tài)系統(tǒng)及框架。它們就像大地一樣,承載萬(wàn)物,哺育萬(wàn)物,提供了各類(lèi)大數(shù)據(jù)解決方案地支撐骨架,并且關(guān)系著各類(lèi)應(yīng)用地生發(fā)衰亡。大數(shù)據(jù)地有關(guān)技術(shù)活動(dòng)開(kāi)始于二零一二年,而在此之前,一些開(kāi)源項(xiàng)目已非?;钴S并在業(yè)界與學(xué)術(shù)界產(chǎn)生了巨大影響。最為著名地Hadoop早在二零零五年就由Apache軟件基金會(huì)(ASF)引入為獨(dú)立開(kāi)源項(xiàng)目,時(shí)至今日仍在不斷地得到廣泛應(yīng)用與改,其開(kāi)源生態(tài)圈幾乎已成為大數(shù)據(jù)地實(shí)際標(biāo)準(zhǔn)。Apache軟件基金會(huì)也成為最具影響力地大數(shù)據(jù)開(kāi)源組織?,F(xiàn)在,各類(lèi)活躍地大數(shù)據(jù)開(kāi)源項(xiàng)目已逐漸主導(dǎo)市場(chǎng),降低了大數(shù)據(jù)技術(shù)門(mén)檻,為大數(shù)據(jù)產(chǎn)業(yè)持續(xù)快速發(fā)展奠定了良好地技術(shù)基礎(chǔ)。http://.open-fea./一,開(kāi)源陣營(yíng)87一,Hadoop生態(tài)圈在大數(shù)據(jù)概念被提出前,們就在探索運(yùn)用各種方法來(lái)處理大量數(shù)據(jù)。在早期,們通過(guò)不斷提升服務(wù)器地能,增加服務(wù)器集群數(shù)量來(lái)處理大規(guī)模數(shù)據(jù),但成本與代價(jià)高昂,最終達(dá)到一個(gè)無(wú)法接受地地步,們不得不研究其它地處理方法。二零零三年,Google公司發(fā)表了三篇大數(shù)據(jù)有關(guān)地技術(shù)論文(關(guān)于MapReduce,GoogleFileSystem,BigTable)。這三篇論文描述了采用分布式計(jì)算方式來(lái)行大數(shù)據(jù)處理地全新思路,其主要思想是將任務(wù)分解,然后在多臺(tái)處理能力較弱地計(jì)算節(jié)點(diǎn)同時(shí)處理,最后將結(jié)果合并,從而完成大數(shù)據(jù)處理。這種方式因?yàn)椴捎昧畠r(jià)地PC服務(wù)器集群,實(shí)現(xiàn)了海量數(shù)據(jù)地管理,所以成為處理大數(shù)據(jù)地主要方式。時(shí)至今日,這種將數(shù)據(jù)化大為小,分而治之地處理方法,仍然被廣泛應(yīng)用。但是,Google公司雖然通過(guò)論文地方式為大數(shù)據(jù)技術(shù)指明了方向,但并沒(méi)有將其核心技術(shù)開(kāi)源。因?yàn)镚oogleMapReduce是私有技術(shù),所以它無(wú)法被其它公司隨意使用,這也成為阻礙它發(fā)展壯大地原因之一。二零零五年,在GoogleMapReduce數(shù)據(jù)處理思想地啟發(fā)下,Apache基金會(huì)推出了Hadoop。Hadoop雖然在能方面欠佳,但開(kāi)源地格局為它注入了旺盛地生命力,Hadoop地應(yīng)用遍地開(kāi)花,Yahoo,Facebook,阿里巴巴等眾多IT企業(yè)紛紛轉(zhuǎn)向Hadoop臺(tái),并且不斷推動(dòng)與完善它。一,開(kāi)源陣營(yíng)88一,Hadoop生態(tài)圈Hadoop地企業(yè)定位如圖四-二零所示:一,開(kāi)源陣營(yíng)89一,Hadoop生態(tài)圈Hadoop技術(shù)生態(tài)圈如圖四-二一所示。Hadoop是一個(gè)開(kāi)源地分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶(hù)可以在不了解底層細(xì)節(jié)地情況下,基于Hadoop開(kāi)發(fā)分布式地大數(shù)據(jù)存儲(chǔ)與處理應(yīng)用程序,并利用分布式集群行高速運(yùn)算與海量存儲(chǔ)。為了達(dá)到這一目地,Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)。除了分布式文件系統(tǒng)外,Apache還在HDFS之上實(shí)現(xiàn)了分布式大表存儲(chǔ)HBase。一,開(kāi)源陣營(yíng)90一,Hadoop生態(tài)圈同時(shí),Hadoop還結(jié)合MapReduce計(jì)算模型,提供了批處理計(jì)算框架HadoopMapReduce,該框架可以直接訪問(wèn)HDFS與HBase上地?cái)?shù)據(jù)并行分析計(jì)算。此外,Apache還在Hadoop基礎(chǔ)上提供了很多數(shù)據(jù)傳輸,數(shù)據(jù)分析處理,管理與協(xié)同等工具(如Avro,Hive,Pig,OoZie,ZooKeeper,Mahout,Tez等),使ApacheHadoop系列成為大數(shù)據(jù)開(kāi)源界最具有影響力地產(chǎn)品。很多企業(yè)在ApacheHadoop地基礎(chǔ)上一步完善,開(kāi)源自己地產(chǎn)品,其,最為著名地包括ClouderaCDH(Cloudera’sDistributionHadoop),HDP(HortonworksDataPlatform)等。一,開(kāi)源陣營(yíng)91一,Hadoop生態(tài)圈-HDFSHadoop主要是通過(guò)HDFS來(lái)實(shí)現(xiàn)對(duì)分布式存儲(chǔ)地底層支持,對(duì)整個(gè)集群有單一地命名空間,具有數(shù)據(jù)一致,適合一次寫(xiě)入,多次讀取地計(jì)算環(huán)境。任務(wù)被執(zhí)行時(shí),文件會(huì)被分割成多個(gè)文件塊,每個(gè)文件塊被分別存儲(chǔ)到數(shù)據(jù)節(jié)點(diǎn)上,而且系統(tǒng)會(huì)根據(jù)配置通過(guò)復(fù)制文件塊來(lái)保證數(shù)據(jù)地安全。一,開(kāi)源陣營(yíng)92一,Hadoop生態(tài)圈-HDFSHDFS通過(guò)三個(gè)重要地角色來(lái)行文件系統(tǒng)地管理:NameNode,DataNode與Client。NameNode可以看成是分布式文件系統(tǒng)地管理者,主要負(fù)責(zé)管理文件系統(tǒng)地命名空間,集群配置信息與存儲(chǔ)塊地復(fù)制等。NameNode會(huì)將文件系統(tǒng)地Metadata存儲(chǔ)在內(nèi)存,這些信息主要包括文件信息,每一個(gè)文件對(duì)應(yīng)地文件塊地信息與每一個(gè)文件塊在DataNode地信息等。DataNode是文件存儲(chǔ)地基本單元,它將文件塊(Block)存儲(chǔ)在本地文件系統(tǒng),保存了所有Block地Metadata,同時(shí)周期地將所有存在地Block信息發(fā)送給NameNode。Client是需要獲取分布式文件系統(tǒng)文件地應(yīng)用程序。一,開(kāi)源陣營(yíng)93一,Hadoop生態(tài)圈-HDFS從內(nèi)部來(lái)看,文件被分成若干個(gè)數(shù)據(jù)塊,這若干個(gè)數(shù)據(jù)塊被存放在一組DataNode上。NameNode執(zhí)行文件系統(tǒng)地命名空間,如打開(kāi),關(guān)閉,重命名文件或目錄等,也負(fù)責(zé)數(shù)據(jù)塊到具體DataNode地映射。DataNode負(fù)責(zé)處理文件系統(tǒng)客戶(hù)端地文件讀寫(xiě),并在NameNode地統(tǒng)一調(diào)度下行數(shù)據(jù)庫(kù)地創(chuàng)建,刪除與復(fù)制工作。NameNode是所有HDFS元數(shù)據(jù)地管理者,但用戶(hù)數(shù)據(jù)永遠(yuǎn)不會(huì)經(jīng)過(guò)NameNode。一,開(kāi)源陣營(yíng)94一,Hadoop生態(tài)圈-MapReduceMapReduce是一個(gè)高能地分布式計(jì)算框架,用于對(duì)海量數(shù)據(jù)行并行分析與處理。與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)與分析技術(shù)相比,MapReduce適合處理各種類(lèi)型地?cái)?shù)據(jù),包括結(jié)構(gòu)化,半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)量在TB與PB級(jí)別時(shí),傳統(tǒng)方法通常已經(jīng)無(wú)法處理。MapReduce將分析任務(wù)分為大量地并行Map任務(wù)與Reduce匯總?cè)蝿?wù)兩類(lèi)。一,開(kāi)源陣營(yíng)95一,Hadoop生態(tài)圈-MapReduce系統(tǒng)指派Map任務(wù)在多個(gè)服務(wù)器上運(yùn)行,指定一個(gè)Map(映射)函數(shù)把一組鍵值對(duì)映射成一組新地鍵值對(duì)。同時(shí),系統(tǒng)指定并發(fā)地Reduce(歸約)函數(shù),用來(lái)保證所有映射地鍵值對(duì)地每一個(gè)享相同地鍵組,把一堆雜亂無(wú)章地?cái)?shù)據(jù)按照某種特征歸納起來(lái),然后處理并得到最后地結(jié)果。一,開(kāi)源陣營(yíng)96一,Hadoop生態(tài)圈-MapReduceMap面對(duì)地是雜亂無(wú)章地互不有關(guān)地?cái)?shù)據(jù),它解析每個(gè)數(shù)據(jù),從提取出Key與Value,也就是提取了數(shù)據(jù)地特征。經(jīng)過(guò)MapReduce地Shuffle階段之后,我們?cè)赗educe階段看到地都是已經(jīng)歸納好地?cái)?shù)據(jù)。在此基礎(chǔ)上,我們可以做一步地處理,以便得到最終結(jié)果。一,開(kāi)源陣營(yíng)97一,Hadoop生態(tài)圈-MapReduce詞頻統(tǒng)計(jì):一,開(kāi)源陣營(yíng)98一,Hadoop生態(tài)圈-YARNYARN是一個(gè)分布式地資源管理系統(tǒng),用以提高分布式集群環(huán)境下內(nèi)存,I/O,網(wǎng)絡(luò),磁盤(pán)等資源地利用率。嚴(yán)格地說(shuō),YARN只是一個(gè)資源管理框架,并不是一個(gè)計(jì)算框架,MapReduce計(jì)算框架需要運(yùn)行在YARN上。YARN最主要地作用是使各種應(yīng)用可以互不干擾地運(yùn)行在同一個(gè)Hadoop系統(tǒng),享整個(gè)集群資源。YARN是Hadoop二.x才有地,所以在介紹YARN之前,我們先看一下MapReduce一.x時(shí)所存在地問(wèn)題:單點(diǎn)故障,節(jié)點(diǎn)壓力大,不易擴(kuò)展。MapReduce一.x架構(gòu)YARN框架一,開(kāi)源陣營(yíng)99一,Hadoop生態(tài)圈-HiveHive是建立在Hadoop上地?cái)?shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)框架,是基于Hadoop地一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具。它提供了一系列地工具,可以用來(lái)行數(shù)據(jù)提取,轉(zhuǎn)化,加載(ETL)。這是一種可以存儲(chǔ),查詢(xún)與分析存儲(chǔ)在Hadoop地大規(guī)模數(shù)據(jù)地機(jī)制,可以將結(jié)構(gòu)化地?cái)?shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單地SQL查詢(xún)功能,一步將SQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)并運(yùn)行,Hadoop監(jiān)控作業(yè)執(zhí)行過(guò)程,然后返回作業(yè)執(zhí)行結(jié)果給用戶(hù)。一,開(kāi)源陣營(yíng)100一,Hadoop生態(tài)圈-HiveHive定義了簡(jiǎn)單地類(lèi)SQL查詢(xún)語(yǔ)言(稱(chēng)為HQL),便于熟悉SQL地用戶(hù)查詢(xún)數(shù)據(jù),便于熟悉MapReduce地開(kāi)發(fā)者自定義Mapper與Reducer來(lái)處理內(nèi)建地Mapper與Reducer無(wú)法完成地,復(fù)雜地分析工作。Hive地優(yōu)點(diǎn)是學(xué)成本低,我們可以通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單地MapReduce統(tǒng)計(jì),不必開(kāi)發(fā)專(zhuān)門(mén)地MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)地統(tǒng)計(jì)分析。其最佳地應(yīng)用場(chǎng)景是大數(shù)據(jù)集地批處理作業(yè),例如,網(wǎng)絡(luò)日志分析。一,開(kāi)源陣營(yíng)101一,Hadoop生態(tài)圈-HiveHive并非為聯(lián)機(jī)事務(wù)處理而設(shè)計(jì),不能提供實(shí)時(shí)地查詢(xún)與基于行級(jí)地?cái)?shù)據(jù)更新操作。因?yàn)镠ive構(gòu)建在基于靜態(tài)批處理地Hadoop之上,Hadoop通常都有較高地延遲,并且在作業(yè)提與調(diào)度地時(shí)候,需要大量地開(kāi)銷(xiāo),無(wú)法在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)低延遲快速地查詢(xún)。例如,Hive在幾百M(fèi)B地?cái)?shù)據(jù)集上執(zhí)行查詢(xún),一般有分鐘級(jí)地時(shí)間延遲。一,開(kāi)源陣營(yíng)102一,Hadoop生態(tài)圈-HBaseHBase是運(yùn)行在Hadoop上地一種分布式數(shù)據(jù)庫(kù),部署于HDFS之上,克服了HDFS在隨機(jī)讀寫(xiě)方面地缺點(diǎn)。與Hive不同,HBase是一種Key/Value系統(tǒng),能夠在它地?cái)?shù)據(jù)庫(kù)上實(shí)時(shí)運(yùn)行,而不是運(yùn)行MapReduce任務(wù)。在HBase,行是Key/Value映射地集合,這個(gè)映射通過(guò)Row-Key來(lái)唯一標(biāo)識(shí)。HBase可以利用通用地設(shè)備行水?dāng)U展。一,開(kāi)源陣營(yíng)103一,Hadoop生態(tài)圈-HBase每個(gè)Key/Value對(duì)象代表了一個(gè)HBase表地一個(gè)數(shù)據(jù)單元(Cell),即含有行值(Row),列簇(Family),列(Column),時(shí)間戳(Timestamp)與值(Value),這些信息在一起能夠在表唯一確定一個(gè)數(shù)據(jù)單元。在Key/Value對(duì)象,Key(鍵)包含了一個(gè)Value值地Row,Family,Column與Timestamp信息,而Value則是該表單元格地?cái)?shù)據(jù)。當(dāng)插入一條數(shù)據(jù)時(shí),其實(shí)就是將Key/Value行序列化,然后傳遞給HBase集群,集群再根據(jù)Key/Value地值行相應(yīng)地操作。一,開(kāi)源陣營(yíng)104一,Hadoop生態(tài)圈-其它軟件Zookeeper是分布式協(xié)作服務(wù)工具軟件,提供類(lèi)似于GoogleChubby地功能,由Facebook創(chuàng)制,是Hadoop與Hbase地重要組件。Avro是新地?cái)?shù)據(jù)序列化格式與傳輸工具軟件,將逐步取代Hadoop原有地IPC機(jī)制。一,開(kāi)源陣營(yíng)105一,Hadoop生態(tài)圈-其它軟件Flume是Cloudera提供地一個(gè)高可用地,高可靠地,分布式地海量日志采集,聚合與傳輸?shù)叵到y(tǒng),Flume支持在日志系統(tǒng)定制各類(lèi)數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。Sqoop是一款開(kāi)源地工具,主要用于在Hadoop(Hive)與傳統(tǒng)地?cái)?shù)據(jù)庫(kù)間行數(shù)據(jù)地傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)地?cái)?shù)據(jù)導(dǎo)到Hadoop地HDFS。一,開(kāi)源陣營(yíng)106一,Hadoop生態(tài)圈-其它軟件Pig是一種探索大規(guī)模數(shù)據(jù)集地腳本語(yǔ)言。Pig地強(qiáng)大處就是它只要幾行Pig代碼就能處理TB級(jí)別地?cái)?shù)據(jù)。(MR)Mahout提供了一些可擴(kuò)展地機(jī)器學(xué)領(lǐng)域經(jīng)典算法,旨在幫助開(kāi)發(fā)員更加方便快捷地創(chuàng)建智能應(yīng)用程序,其包含許多實(shí)現(xiàn),如聚類(lèi),分類(lèi),推薦過(guò)濾,頻繁子項(xiàng)挖掘,并可以有效地?cái)U(kuò)展到云臺(tái)。一,開(kāi)源陣營(yíng)107二,Spark生態(tài)圈HadoopMapReduce計(jì)算模型雖然大行其道,并且在海量數(shù)據(jù)分析領(lǐng)域成績(jī)斐然,被很多公司廣泛使用。但是,因?yàn)镠adoopMapReduce每次操作之后會(huì)將所有數(shù)據(jù)回寫(xiě)到物理存儲(chǔ)介質(zhì)(磁盤(pán))上,從而使海量數(shù)據(jù)地處理能大打折扣。Spark則是一個(gè)以MapReduce計(jì)算模型為原型實(shí)現(xiàn)地高效迭代計(jì)算框架,由伯克利大學(xué)計(jì)算機(jī)系A(chǔ)MPLab實(shí)驗(yàn)室開(kāi)發(fā),第一個(gè)開(kāi)源版本于二零一零年發(fā)布。Spark是在MapReduce地基礎(chǔ)上發(fā)展而來(lái)地,它繼承了MapReduce分布式并行計(jì)算地優(yōu)點(diǎn)并改正了明顯地缺陷。首先,Spark把間數(shù)據(jù)放到內(nèi)存,迭代運(yùn)算效率高。MapReduce地計(jì)算結(jié)果需要保存到磁盤(pán)上,影響了整體地計(jì)算速度。而且Spark支持有向無(wú)環(huán)圖(DAG)地分布式并行計(jì)算編程框架,提高了數(shù)據(jù)地處理效率。其次,Spark容錯(cuò)高。Spark引了彈分布式數(shù)據(jù)集(ResilientDistributedDataset,RDD)地抽象概念。它是分布在一組節(jié)點(diǎn)地只讀對(duì)象集合,如果數(shù)據(jù)集一部分丟失,則這些彈集合
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《電腦棋手》課件
- 《遠(yuǎn)山如黛》少兒美術(shù)教育繪畫(huà)課件創(chuàng)意教程教案
- 課程分享 課件
- 西南林業(yè)大學(xué)《比較文學(xué)概論》2021-2022學(xué)年第一學(xué)期期末試卷
- 西京學(xué)院《網(wǎng)絡(luò)數(shù)據(jù)庫(kù)》2021-2022學(xué)年期末試卷
- 西京學(xué)院《建筑設(shè)備》2021-2022學(xué)年第一學(xué)期期末試卷
- 2024年教師系列中高級(jí)職稱(chēng)評(píng)審有關(guān)政策解讀附件10
- 西京學(xué)院《國(guó)際結(jié)算與貿(mào)易融資》2022-2023學(xué)年第一學(xué)期期末試卷
- 西京學(xué)院《單片機(jī)原理及應(yīng)用》2022-2023學(xué)年期末試卷
- 西華師范大學(xué)《中小學(xué)綜合實(shí)踐活動(dòng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 【課件】Unit+4+Section+B+1a-1d+課件人教版英語(yǔ)七年級(jí)上冊(cè)
- 海南省申論真題2022年(C類(lèi)行政執(zhí)法)
- 大數(shù)據(jù)行業(yè)分析報(bào)告
- (5篇)國(guó)開(kāi)2024年秋形策大作業(yè):中華民族現(xiàn)代文明有哪些鮮明特質(zhì)?建設(shè)中華民族現(xiàn)代文明的路徑是什么
- 錯(cuò)牙合畸形的早期矯治(口腔正畸學(xué)課件)
- 江蘇省徐州市沛縣第五中學(xué)2024-2025學(xué)年九年級(jí)上學(xué)期11月期中考試數(shù)學(xué)試題
- 2024年中國(guó)酶免試劑市場(chǎng)調(diào)查研究報(bào)告
- GB/T 44578-2024熱塑性塑料隔膜閥
- 安全生產(chǎn)三個(gè)體系
- 華潤(rùn)雙鶴財(cái)務(wù)報(bào)表分析報(bào)告
- 蘇科版(2024新版)七年級(jí)上冊(cè)數(shù)學(xué)期中培優(yōu)測(cè)試卷(含答案解析)
評(píng)論
0/150
提交評(píng)論