![氣象大數(shù)據(jù)資料_第1頁(yè)](http://file4.renrendoc.com/view/c31494be5e481a888bb601f57c4e9a59/c31494be5e481a888bb601f57c4e9a591.gif)
![氣象大數(shù)據(jù)資料_第2頁(yè)](http://file4.renrendoc.com/view/c31494be5e481a888bb601f57c4e9a59/c31494be5e481a888bb601f57c4e9a592.gif)
![氣象大數(shù)據(jù)資料_第3頁(yè)](http://file4.renrendoc.com/view/c31494be5e481a888bb601f57c4e9a59/c31494be5e481a888bb601f57c4e9a593.gif)
![氣象大數(shù)據(jù)資料_第4頁(yè)](http://file4.renrendoc.com/view/c31494be5e481a888bb601f57c4e9a59/c31494be5e481a888bb601f57c4e9a594.gif)
![氣象大數(shù)據(jù)資料_第5頁(yè)](http://file4.renrendoc.com/view/c31494be5e481a888bb601f57c4e9a59/c31494be5e481a888bb601f57c4e9a595.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1 引言在氣象行業(yè)內(nèi)部,氣象數(shù)據(jù)的價(jià)值已經(jīng)和正在被深入挖掘著。但是,不能將氣象預(yù)報(bào)產(chǎn)品的社會(huì)化推廣簡(jiǎn)單地認(rèn)為就是“氣象大數(shù)據(jù)的廣泛應(yīng)用”。大數(shù)據(jù)實(shí)際上是是一種混雜數(shù)數(shù)據(jù),氣象大大數(shù)據(jù)應(yīng)該是是指氣象行業(yè)業(yè)所擁有的以以及鎖接觸到到的全體數(shù)據(jù)據(jù),包括傳統(tǒng)統(tǒng)的氣象數(shù)據(jù)據(jù)和對(duì)外服務(wù)務(wù)提供的影視視音頻資料、網(wǎng)網(wǎng)頁(yè)資料、預(yù)預(yù)報(bào)文本以及及地理位置相相關(guān)數(shù)據(jù)、社社會(huì)經(jīng)濟(jì)共享享數(shù)據(jù)等等。傳統(tǒng)的”氣象數(shù)數(shù)據(jù)“,地面面觀(guān)測(cè)、氣象象衛(wèi)星遙感、天天氣雷達(dá)和數(shù)數(shù)值預(yù)報(bào)產(chǎn)品品四類(lèi)數(shù)據(jù)占占數(shù)據(jù)總量的的90%以上上,基本的氣氣象數(shù)據(jù)直接接用途是氣象象業(yè)務(wù)、天氣氣預(yù)報(bào)、氣候候預(yù)測(cè)以及氣氣象服務(wù)?!按蟠髷?shù)據(jù)應(yīng)用”與與目前的氣象象服務(wù)
2、有所不不同,前者是是氣象數(shù)據(jù)的的“深度應(yīng)用用”和“增值值應(yīng)用”,后后者是既定業(yè)業(yè)務(wù)數(shù)據(jù)加工工產(chǎn)品的社會(huì)會(huì)推廣應(yīng)用?!按髷?shù)據(jù)的核心心就是預(yù)測(cè)”,這這是大數(shù)據(jù)據(jù)時(shí)代的作作者舍恩伯格格的名言。天天氣和氣候系系統(tǒng)是典型的的非線(xiàn)性系統(tǒng)統(tǒng),無(wú)法通過(guò)過(guò)運(yùn)用簡(jiǎn)單的的統(tǒng)計(jì)分析方方法來(lái)對(duì)其進(jìn)進(jìn)行準(zhǔn)確的預(yù)預(yù)報(bào)和預(yù)測(cè)。人人們常說(shuō)的南南美叢林里一一只蝴蝶扇動(dòng)動(dòng)幾下翅膀,會(huì)會(huì)在幾周后引引發(fā)北美的一一場(chǎng)暴風(fēng)雪這這一現(xiàn)象,形形象地描繪了了氣象科學(xué)的的復(fù)雜性。運(yùn)運(yùn)用統(tǒng)計(jì)分析析方法進(jìn)行天天氣預(yù)報(bào)在數(shù)數(shù)十年前便已已被氣象科學(xué)學(xué)界否決了也就是說(shuō)說(shuō),目前經(jīng)典典的大數(shù)據(jù)應(yīng)應(yīng)用方法并不不適用于天氣氣預(yù)報(bào)業(yè)務(wù)?,F(xiàn)在,氣象行業(yè)業(yè)的公共服務(wù)務(wù)職
3、能越來(lái)越越強(qiáng),面向政政府提供決策策服務(wù),面向向公眾提供氣氣象預(yù)報(bào)預(yù)警警服務(wù),面向向社會(huì)發(fā)展,應(yīng)應(yīng)對(duì)氣候發(fā)展展節(jié)能減排。這這些決策信息息怎么來(lái)依賴(lài)賴(lài)于我們對(duì)氣氣象數(shù)據(jù)的處處理。氣象大數(shù)據(jù)應(yīng)該該在跨行業(yè)綜綜合應(yīng)用這一一“增值應(yīng)用用”價(jià)值挖掘掘過(guò)程中煥發(fā)發(fā)出的新的光光芒。2 大數(shù)據(jù)平臺(tái)臺(tái)的基本構(gòu)成成2.1 概述“大數(shù)據(jù)”是需需要新處理模模式才能具有有更強(qiáng)的決策策力、洞察發(fā)發(fā)現(xiàn)力和流程程優(yōu)化能力的的海量、高增增長(zhǎng)率和多樣樣化的信息資資產(chǎn)。大數(shù)據(jù)技術(shù)的戰(zhàn)戰(zhàn)略意義不在在于掌握龐大大的數(shù)據(jù)信息息,而在于對(duì)對(duì)這些含有意意義的數(shù)據(jù)進(jìn)進(jìn)行專(zhuān)業(yè)化處處理。換言之之,如果把大大數(shù)據(jù)比作一一種產(chǎn)業(yè),那那么這種產(chǎn)業(yè)業(yè)實(shí)現(xiàn)盈
4、利的的關(guān)鍵,在于于提高對(duì)數(shù)據(jù)據(jù)的“加工能能力”,通過(guò)過(guò)“加工”實(shí)實(shí)現(xiàn)數(shù)據(jù)的“增增值”。從技術(shù)上看,大大數(shù)據(jù)與云計(jì)計(jì)算的關(guān)系就就像一枚硬幣幣的正反面一一樣密不可分分。大數(shù)據(jù)必必然無(wú)法用單單臺(tái)的計(jì)算機(jī)機(jī)進(jìn)行處理,必必須采用分布布式架構(gòu)。它它的特色在于于對(duì)海量數(shù)據(jù)據(jù)進(jìn)行分布式式數(shù)據(jù)挖掘(SSaaS),但但它必須依托托云計(jì)算的分分布式處理、分分布式數(shù)據(jù)庫(kù)庫(kù)(PaaSS)和云存儲(chǔ)儲(chǔ)、虛擬化技技術(shù)(IaaaS)。大數(shù)據(jù)可通過(guò)許許多方式來(lái)存存儲(chǔ)、獲取、處處理和分析。每每個(gè)大數(shù)據(jù)來(lái)來(lái)源都有不同同的特征,包包括數(shù)據(jù)的頻頻率、量、速速度、類(lèi)型和和真實(shí)性。處處理并存儲(chǔ)大大數(shù)據(jù)時(shí),會(huì)會(huì)涉及到更多多維度,比如如治理、安
5、全全性和策略。選選擇一種架構(gòu)構(gòu)并構(gòu)建合適適的大數(shù)據(jù)解解決方案極具具挑戰(zhàn),因?yàn)闉樾枰紤]非非常多的因素素。氣象行業(yè)的數(shù)據(jù)據(jù)情況則更為為復(fù)雜,除了了“機(jī)器生成成”(可以理理解為遙測(cè)、傳傳感設(shè)備產(chǎn)生生的觀(guān)測(cè)數(shù)據(jù)據(jù),大量參與與氣象服務(wù)和和共享的信息息都以文本、圖圖片、視頻等等多種形式存存儲(chǔ),符合“大大數(shù)據(jù)”的44V特點(diǎn):VVolumee(大量)、VVelociity(高速速)、Varriety(多樣)、vveraciity(真實(shí)實(shí)性) 。這這些信息長(zhǎng)期期存儲(chǔ)于氣象象各部門(mén)的平平臺(tái)上未能加加以合理利用用。另一方面面,這些數(shù)據(jù)據(jù)本身就是分分散存儲(chǔ)于多多個(gè)服務(wù)器平平臺(tái)上,急需需應(yīng)用分布式式平臺(tái)統(tǒng)一管管理。因
6、此,我們亟需需一種結(jié)構(gòu)化化和基于模式式的方法來(lái)簡(jiǎn)簡(jiǎn)化定義完整整的大數(shù)據(jù)架架構(gòu)的任務(wù)。因因?yàn)樵u(píng)估一個(gè)個(gè)業(yè)務(wù)場(chǎng)景是是否存在大數(shù)數(shù)據(jù)問(wèn)題很重重要,所以我我們包含了一一些線(xiàn)索來(lái)幫幫助確定哪些些業(yè)務(wù)問(wèn)題適適合采用大數(shù)數(shù)據(jù)解決方案案。2.2 數(shù)據(jù)基基礎(chǔ)決定平臺(tái)臺(tái)框架2.2.1 從從分類(lèi)大數(shù)據(jù)據(jù)到選擇大數(shù)數(shù)據(jù)解決方案案RDBMS:關(guān)關(guān)系型數(shù)據(jù)庫(kù)庫(kù);ETL:數(shù)據(jù)清清晰、轉(zhuǎn)換、裝裝載的過(guò)程; ELT:數(shù)據(jù)清晰、裝裝載、轉(zhuǎn)換的的過(guò)程;CDC:增量數(shù)數(shù)據(jù)復(fù)制。有有同步和異步步兩種模式。結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)“非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)2.2.2 依依據(jù)大數(shù)據(jù)類(lèi)類(lèi)型對(duì)業(yè)務(wù)問(wèn)問(wèn)題進(jìn)行分類(lèi)類(lèi)根據(jù)氣象服務(wù)需需要,業(yè)務(wù)問(wèn)問(wèn)題可
7、分類(lèi)為為不同的大數(shù)數(shù)據(jù)問(wèn)題類(lèi)型型。以后,我我們將使用此類(lèi)型確定定合適的分類(lèi)類(lèi)模式(原子子或復(fù)合)和和合適的大數(shù)數(shù)據(jù)解決方案案。但第一步步是將業(yè)務(wù)問(wèn)問(wèn)題映射到它它的大數(shù)據(jù)類(lèi)類(lèi)型。下表列列出了常見(jiàn)的的業(yè)務(wù)問(wèn)題并并為每個(gè)問(wèn)題題分配了一種種大數(shù)據(jù)類(lèi)型型。2.2.3 使使用大數(shù)據(jù)類(lèi)類(lèi)型對(duì)大數(shù)據(jù)據(jù)特征進(jìn)行分分類(lèi)按特定方向分析析大數(shù)據(jù)的特特征會(huì)有所幫幫助,例如以以下特征:數(shù)數(shù)據(jù)如何收集集、分析和處處理。對(duì)數(shù)據(jù)進(jìn)行分類(lèi)類(lèi)后,就可以以將它與合適適的大數(shù)據(jù)模模式匹配:? 分析類(lèi)型 對(duì)數(shù)據(jù)據(jù)執(zhí)行實(shí)時(shí)分分析還是批量量分析。請(qǐng)仔仔細(xì)考慮分析析類(lèi)型的選擇,因?yàn)檫@這會(huì)影響一些些有關(guān)產(chǎn)品、工工具、硬件、數(shù)數(shù)據(jù)源和預(yù)期期的數(shù)據(jù)
8、頻率率的其他決策策。一些用例例可能需要混混合使用兩種種類(lèi)型: ? 臨近分析析;分析必須須實(shí)時(shí)或近實(shí)實(shí)時(shí)地完成。? 歷史分析針針對(duì)戰(zhàn)略性業(yè)業(yè)務(wù)決策的趨趨勢(shì)分析;分分析可采用批批量模式。 ? 處理方方法 要要應(yīng)用來(lái)處理理數(shù)據(jù)的技術(shù)術(shù)類(lèi)型(比如如預(yù)測(cè)、分析析、臨時(shí)查詢(xún)和報(bào)告)。業(yè)業(yè)務(wù)需求確定定了合適的處處理方法??煽山Y(jié)合使用各各種技術(shù)。處處理方法的選選擇,有助于于識(shí)別要在您您的大數(shù)據(jù)解解決方案中使使用的合適的的工具和技術(shù)術(shù)。? 數(shù)據(jù)頻率和和大小 預(yù)計(jì)有多少少數(shù)據(jù)和數(shù)據(jù)據(jù)到達(dá)的頻率率多高。知道道頻率和大小,有助于于確定存儲(chǔ)機(jī)機(jī)制、存儲(chǔ)格格式和所需的的預(yù)處理工具具。數(shù)據(jù)頻率率和大小依賴(lài)賴(lài)于數(shù)據(jù)源:? 按
9、需分析,與與社交媒體數(shù)數(shù)據(jù)一樣 ? 實(shí)時(shí)、持持續(xù)提供(天天氣數(shù)據(jù)、交交易數(shù)據(jù)) ? 時(shí)序(基基于時(shí)間的數(shù)數(shù)據(jù))? 數(shù)據(jù)類(lèi)型 要處理理數(shù)據(jù)類(lèi)型 交易、歷歷史、主數(shù)據(jù)據(jù)等。知道數(shù)數(shù)據(jù)類(lèi)型,有助于將數(shù)數(shù)據(jù)隔離在存存儲(chǔ)中。? 內(nèi)容格式(傳傳入數(shù)據(jù)的格格式)結(jié)構(gòu)化化(例如 RRDMBS)、非非結(jié)構(gòu)化(例例如音頻、視頻和圖圖像)或半結(jié)結(jié)構(gòu)化。格式式確定了需要要如何處理傳傳入的數(shù)據(jù),這這是選擇工具具、技術(shù)以及及從業(yè)務(wù)角度度定義解決方方案的關(guān)鍵。? 數(shù)據(jù)源 數(shù)據(jù)的來(lái)來(lái)源(生成數(shù)數(shù)據(jù)的地方),比比如 Webb 和社交媒媒體、機(jī)器生成、人類(lèi)類(lèi)生成等。識(shí)識(shí)別所有數(shù)據(jù)據(jù)源有助于從從業(yè)務(wù)角度識(shí)識(shí)別數(shù)據(jù)范圍圍。該圖顯示示
10、了使用最廣廣泛的數(shù)據(jù)源源。? 數(shù)據(jù)使用者者 處理理的數(shù)據(jù)的所所有可能使用用者的列表:? 業(yè)務(wù)流程? 業(yè)務(wù)用戶(hù)? 企業(yè)應(yīng)用程程序? 各種業(yè)務(wù)角角色中的各個(gè)個(gè)人員? 部分處理流流程? 其他數(shù)據(jù)存存儲(chǔ)庫(kù)或企業(yè)業(yè)應(yīng)用程序? 硬件 將在其上實(shí)實(shí)現(xiàn)大數(shù)據(jù)解解決方案的硬硬件類(lèi)型,包包括商用硬件件或最先進(jìn)的硬件。理理解硬件的限限制,有助于于指導(dǎo)大數(shù)據(jù)據(jù)解決方案的的選擇。2.3 數(shù)據(jù)分分類(lèi)決定應(yīng)用用方案將不同的數(shù)據(jù)類(lèi)類(lèi)型集成后,統(tǒng)統(tǒng)一按照大數(shù)數(shù)據(jù)進(jìn)行處理理,如下圖:2.4 大數(shù)據(jù)據(jù)平臺(tái)的邏輯輯層次邏輯構(gòu)成從框架架上展示了各各個(gè)組件的組組織方式。這這些層提供了了一種方法來(lái)來(lái)組織執(zhí)行特特定功能的組組件。這些層層只是
11、邏輯結(jié)結(jié)構(gòu);這并不不意味著支持持每層的功能能在獨(dú)立的機(jī)機(jī)器或獨(dú)立的的進(jìn)程上運(yùn)行行。大數(shù)據(jù)平臺(tái)通常常由以下邏輯輯層組成:1. 數(shù)據(jù)集成成層2. 數(shù)據(jù)存儲(chǔ)儲(chǔ)層3. 數(shù)據(jù)分析析層4. 數(shù)據(jù)使用用層2.4.1 大大數(shù)據(jù)集成層層要全面考慮來(lái)自自所有渠道的的,所有可用用于分析的數(shù)數(shù)據(jù)。要求團(tuán)團(tuán)隊(duì)中的數(shù)據(jù)據(jù)專(zhuān)家闡明執(zhí)執(zhí)行需求所需需的數(shù)據(jù)。這這些信息包括括:? 格式 結(jié)結(jié)構(gòu)化、半結(jié)結(jié)構(gòu)化或非結(jié)結(jié)構(gòu)化。? 速度和數(shù)據(jù)據(jù)量 數(shù)據(jù)據(jù)到達(dá)的速度度和傳送它的的速率因數(shù)據(jù)據(jù)源不同而不不同。 ? 收集點(diǎn) 收集數(shù)據(jù)的的位置,直接接或通過(guò)數(shù)據(jù)據(jù)提供程序,實(shí)實(shí)時(shí)或以批量量模式收集數(shù)據(jù)。數(shù)數(shù)據(jù)可能來(lái)自自某個(gè)主要來(lái)來(lái)源,比如天天氣條
12、件,也也有可能來(lái)自自一個(gè)輔助來(lái)來(lái)源,比如媒媒體贊助的天天氣頻道。? 數(shù)據(jù)源的位位置 數(shù)據(jù)據(jù)源可能位于于企業(yè)內(nèi)或外外部。識(shí)別您您具有有限訪(fǎng)訪(fǎng)問(wèn)權(quán)的數(shù)據(jù),因?yàn)闉閷?duì)數(shù)據(jù)的訪(fǎng)訪(fǎng)問(wèn)會(huì)影響可可用于分析的的數(shù)據(jù)范圍。2.4.2 大大數(shù)據(jù)存儲(chǔ)層層此層負(fù)責(zé)從數(shù)據(jù)據(jù)源獲取數(shù)據(jù)據(jù),并在必要要時(shí),將它轉(zhuǎn)轉(zhuǎn)換為適合符符合分析方式式的格式。例例如,可能需需要轉(zhuǎn)換一幅幅圖,才能將將它存儲(chǔ)在 Hadooop Disstribuuted FFile SSystemm (HDFFS) 存儲(chǔ)儲(chǔ)或關(guān)系數(shù)據(jù)據(jù)庫(kù)管理系統(tǒng)統(tǒng) (RDBBMS) 倉(cāng)倉(cāng)庫(kù)中,以供供進(jìn)一步處理理。規(guī)范 11和治理策略略要求為不同同的數(shù)據(jù)類(lèi)型型提供合適的的存儲(chǔ)。2
13、.4.3 大大數(shù)據(jù)分析層層分析層讀取數(shù)據(jù)據(jù)改動(dòng)和存儲(chǔ)儲(chǔ)層整理 (digesst) 的數(shù)數(shù)據(jù)。在某些些情況下,分分析層直接從從數(shù)據(jù)源訪(fǎng)問(wèn)問(wèn)數(shù)據(jù)。設(shè)計(jì)計(jì)分析層需要要認(rèn)真地進(jìn)行行事先籌劃和和規(guī)劃。必須須制定如何管管理以下任務(wù)務(wù)的決策:? 生成想要的的分析? 從數(shù)據(jù)中獲獲取洞察? 找到所需的的實(shí)體? 定位可提供供這些實(shí)體的的數(shù)據(jù)的數(shù)據(jù)據(jù)源? 理解執(zhí)行分分析需要哪些些算法和工具具。2.4.4 大大數(shù)據(jù)應(yīng)用層層此層使用了分析析層所提供的的輸出。使用用者可以是可可視化應(yīng)用程程序、人類(lèi)、業(yè)業(yè)務(wù)流程或服服務(wù)??梢暬治鰧拥慕Y(jié)結(jié)果可能具有有挑戰(zhàn)。3 大數(shù)據(jù)平臺(tái)臺(tái)的功能架構(gòu)構(gòu)3.1 組件構(gòu)構(gòu)成3.1.1 橫橫向?qū)?/p>
14、3.1.1.11 大數(shù)據(jù)集集成層大數(shù)據(jù)來(lái)源:? 企業(yè)遺留系系統(tǒng) 這些些系統(tǒng)是企業(yè)業(yè)應(yīng)用程序,執(zhí)執(zhí)行業(yè)務(wù)需要要的分析并獲獲取需要的洞察:? 氣象網(wǎng)絡(luò)設(shè)設(shè)備監(jiān)測(cè)系統(tǒng)統(tǒng)? 氣象信息共共享系統(tǒng)? MICAPPS? 網(wǎng)絡(luò)通信系系統(tǒng)CMA-Cast? 突發(fā)應(yīng)急系系統(tǒng)? 氣象預(yù)報(bào)系系統(tǒng)? 氣象服務(wù)系系統(tǒng)? 辦公自動(dòng)化化? ? ? Web 應(yīng)應(yīng)用程序開(kāi)發(fā)發(fā)-Webb 應(yīng)用程序序和其他數(shù)據(jù)據(jù)來(lái)源擴(kuò)充了了企業(yè)擁有的數(shù)據(jù)。這這些應(yīng)用程序序可使用自定定義的協(xié)議和和機(jī)制來(lái)公開(kāi)開(kāi)數(shù)據(jù)。? 數(shù)據(jù)管理系系統(tǒng) (DMMS) 數(shù)數(shù)據(jù)管理系統(tǒng)統(tǒng)存儲(chǔ)邏輯數(shù)數(shù)據(jù)、流程、策策略和各種其他類(lèi)型的文文檔:? Microosoft? Exce
15、el? 電子子表格? Microosoft Word 文檔? 這些文檔可可以轉(zhuǎn)換為可可用于分析的的結(jié)構(gòu)化數(shù)據(jù)據(jù)。文檔數(shù)據(jù)據(jù)可公開(kāi)為領(lǐng)域?qū)崒?shí)體,或者數(shù)數(shù)據(jù)改動(dòng)和存存儲(chǔ)層可將它它轉(zhuǎn)換為領(lǐng)域?qū)嶓w。 ? 數(shù)據(jù)存儲(chǔ)儲(chǔ) 數(shù)據(jù)存存儲(chǔ)包含企業(yè)業(yè)數(shù)據(jù)倉(cāng)庫(kù)、操操作數(shù)據(jù)庫(kù)和和事務(wù)數(shù)據(jù)庫(kù)庫(kù)。此數(shù)據(jù)通常是結(jié)結(jié)構(gòu)化數(shù)據(jù),可可直接使用或或輕松地轉(zhuǎn)換換來(lái)滿(mǎn)足需求求。這些數(shù)據(jù)據(jù)不一定存儲(chǔ)儲(chǔ)在分布式文文件系統(tǒng)中,具具體依賴(lài)于所所處的上下文文。? 智慧設(shè)備 智慧設(shè)備備能夠捕獲、處處理和傳輸使使用最廣泛的的協(xié)議和格式式的信息。這方面面的示例包括括智能電話(huà)、儀儀表和醫(yī)療設(shè)設(shè)備。這些設(shè)設(shè)備可用于執(zhí)執(zhí)行各種類(lèi)型型的分析。絕絕大多數(shù)智慧慧設(shè)
16、備都會(huì)執(zhí)執(zhí)行實(shí)時(shí)分析析,但從智慧慧設(shè)備傳來(lái)的的信息也可批批量分析。? 聚合的數(shù)據(jù)據(jù)提供程序 這些提供供程序擁有或或獲取數(shù)據(jù),并并以復(fù)雜的格格式和所需的頻率率通過(guò)特定的的過(guò)濾器公開(kāi)開(kāi)它。每天都都會(huì)產(chǎn)生海量量的數(shù)據(jù),它它們具有不同同的格式,以以不同的速度度生成,而且且通過(guò)各種數(shù)數(shù)據(jù)提供程序序、傳感器和和現(xiàn)有企業(yè)提提供。? 其他數(shù)據(jù)源源 有許多多數(shù)據(jù)來(lái)自自自動(dòng)化的來(lái)源源:? 地理信息:? 地圖? 地區(qū)詳細(xì)信信息? 位置詳細(xì)信信息? 經(jīng)濟(jì)熱點(diǎn)詳詳細(xì)信息(工工農(nóng)業(yè)旅游交交通教育醫(yī)療療金融等等)? 人類(lèi)生成的的內(nèi)容:? 社交媒體? 電子郵件? 博客? 在線(xiàn)信息? 傳感器數(shù)據(jù)據(jù):? 環(huán)境:天氣氣、降雨量、濕
17、濕度、光線(xiàn)? 電氣:電流流、能源潛力力等? 導(dǎo)航裝置? 電離輻射、亞亞原子粒子等等? 靠近、存在在等? 位置、角度度、位移、距距離、速度、加加速度? 聲音、聲震震動(dòng)等? 汽車(chē)、運(yùn)輸輸?shù)? 熱量、熱度度、溫度? 光學(xué)、光、成成像、見(jiàn)光度度? 化學(xué)? 壓力? 流動(dòng)、流體體、速度? 力、密度級(jí)級(jí)別等? 來(lái)自傳感器器供應(yīng)商的其其他數(shù)據(jù)3.1.1.22 大數(shù)據(jù)存存儲(chǔ)層因?yàn)閭魅氲臄?shù)據(jù)據(jù)可能具有不不同的特征,所所以數(shù)據(jù)改動(dòng)動(dòng)和存儲(chǔ)層中中的組件必須須能夠以各種種頻率、格式式、大小和在在各種通信渠渠道上讀取數(shù)數(shù)據(jù):? 數(shù)據(jù)獲取 從各種數(shù)數(shù)據(jù)源獲取數(shù)數(shù)據(jù),并將其其發(fā)送到數(shù)據(jù)據(jù)整理組件或或存儲(chǔ)在指定的位置置中。此組
18、件件必須足夠智智能,能夠選選擇是否和在在何處存儲(chǔ)傳傳入的數(shù)據(jù)。它它必須能夠確確定數(shù)據(jù)在存存儲(chǔ)前是否應(yīng)應(yīng)改動(dòng),或者者數(shù)據(jù)是否可可直接發(fā)送到到業(yè)務(wù)分析層層。? 數(shù)據(jù)整理 負(fù)責(zé)將數(shù)數(shù)據(jù)修改為需需要的格式,以以實(shí)現(xiàn)分析用用途。此組件件可擁有簡(jiǎn)單的轉(zhuǎn)轉(zhuǎn)換邏輯或復(fù)復(fù)雜的統(tǒng)計(jì)算算法來(lái)轉(zhuǎn)換源源數(shù)據(jù)。分析析引擎將會(huì)確確定所需的特特定的數(shù)據(jù)格格式。主要的的挑戰(zhàn)是容納納非結(jié)構(gòu)化數(shù)數(shù)據(jù)格式,比比如圖像、音音頻、視頻和和其他二進(jìn)制制格式。? 分布式數(shù)據(jù)據(jù)存儲(chǔ) 負(fù)負(fù)責(zé)存儲(chǔ)來(lái)自自數(shù)據(jù)源的數(shù)數(shù)據(jù)。通常,這這一層中提供供了多個(gè)數(shù)據(jù)存儲(chǔ)儲(chǔ)選項(xiàng),比如如分布式文件件存儲(chǔ) (DDFS)、云云、結(jié)構(gòu)化數(shù)數(shù)據(jù)源、NoSQL 等等。3.1.
19、1.33 分析層這是從數(shù)據(jù)中提提取業(yè)務(wù)洞察察的層:? 分析層實(shí)體體識(shí)別 負(fù)負(fù)責(zé)識(shí)別和填填充上下文實(shí)實(shí)體。這是一一個(gè)復(fù)雜的任任務(wù),需要高效的高性性能流程。數(shù)數(shù)據(jù)整理組件件應(yīng)為這個(gè)實(shí)實(shí)體識(shí)別組件件提供補(bǔ)充,將將數(shù)據(jù)修改為為需要的格式式。分析引擎擎將需要上下下文實(shí)體來(lái)執(zhí)執(zhí)行分析。? 分析引擎 使用其他他組件(具體體來(lái)講,包括括實(shí)體鑒別、模模型管理和分分析算法)來(lái)處理理和執(zhí)行分析析。分析引擎擎可具有支持持并行處理的的各種不同的的工作流、算算法和工具。? 模型管理 負(fù)責(zé)維護(hù)護(hù)各種統(tǒng)計(jì)模模型,驗(yàn)證和和檢驗(yàn)這些模模型,通過(guò)持持續(xù)培訓(xùn)模型來(lái)提高高準(zhǔn)確性。然然后,模型管管理組件會(huì)推推廣這些模型型,它們可供供實(shí)體
20、識(shí)別或或分析引擎組組件使用。3.1.1.44 使用層這一層使用了從從分析應(yīng)用程程序獲取的業(yè)業(yè)務(wù)洞察。分分析的結(jié)果由由組織內(nèi)的各各個(gè)用戶(hù)和組組織外部的實(shí)實(shí)體(比如客客戶(hù)、供應(yīng)商商、合作伙伴伴和提供商)使使用。此洞察察可用于針對(duì)對(duì)客戶(hù)提供產(chǎn)產(chǎn)品營(yíng)銷(xiāo)信息息。例如,借借助從分析中中獲取的洞察察,公司可以以使用客戶(hù)偏偏好數(shù)據(jù)和位位置感知,在在客戶(hù)經(jīng)過(guò)通通道或店鋪時(shí)時(shí)向他們提供供個(gè)性化的營(yíng)營(yíng)銷(xiāo)信息。該洞察可用于檢檢測(cè)欺詐,實(shí)實(shí)時(shí)攔截交易易,并將它們們與使用已存存儲(chǔ)在企業(yè)中中的數(shù)據(jù)構(gòu)建建的視圖進(jìn)行行關(guān)聯(lián)。在欺欺詐性交易發(fā)發(fā)生時(shí),可以以告知客戶(hù)可可能存在欺詐詐,以便及時(shí)時(shí)采取更正操操作。此外,可以根據(jù)據(jù)在數(shù)據(jù)
21、改動(dòng)動(dòng)層完成的分分析來(lái)觸發(fā)業(yè)業(yè)務(wù)流程。可可以啟動(dòng)自動(dòng)動(dòng)化的步驟 例如,如如果客戶(hù)接受受了一條可自自動(dòng)觸發(fā)的營(yíng)營(yíng)銷(xiāo)信息,則則需要?jiǎng)?chuàng)建一一個(gè)新訂單,如如果客戶(hù)報(bào)告告了欺詐,那那么可以觸發(fā)發(fā)對(duì)信用卡使使用的阻止。分析的輸出也可可由推薦引擎擎使用,該引引擎可將客戶(hù)戶(hù)與他們喜歡歡的產(chǎn)品相匹匹配。推薦引擎分析可可用的信息,并并提供個(gè)性化化且實(shí)時(shí)的推推薦。使用層還為內(nèi)部部用戶(hù)提供了了理解、找到到和導(dǎo)航企業(yè)業(yè)內(nèi)外的鏈鎖鎖信息的能力力。對(duì)于內(nèi)部部使用者,為為業(yè)務(wù)用戶(hù)構(gòu)構(gòu)建報(bào)告和儀儀表板的能力力使得利益相相關(guān)者能夠制制定精明的決決策并設(shè)計(jì)恰恰當(dāng)?shù)膽?zhàn)略。為為了提高操作作有效性,可可以從數(shù)據(jù)中中生成實(shí)時(shí)業(yè)業(yè)務(wù)警告,而
22、而且可以監(jiān)視視操作性的關(guān)關(guān)鍵績(jī)效指標(biāo)標(biāo):? 交易攔截器器 此組件件可實(shí)時(shí)攔截截高容量交易易,將它們轉(zhuǎn)轉(zhuǎn)換為一種容容易被分析層理解的的實(shí)時(shí)格式,以以便在傳入數(shù)數(shù)據(jù)上執(zhí)行實(shí)實(shí)時(shí)分析。事事務(wù)攔截器應(yīng)應(yīng)能夠集成并并處理來(lái)自各各種來(lái)源的數(shù)數(shù)據(jù),比如傳傳感器、智能能儀表、麥克克風(fēng)、攝像頭頭、GPS 設(shè)備、ATTM 和圖像像掃描儀??煽梢允褂酶鞣N種類(lèi)型的適配配器和 APPI 來(lái)連接接到數(shù)據(jù)源。也也可以使用各各種加速器來(lái)來(lái)簡(jiǎn)化開(kāi)發(fā),比比如實(shí)時(shí)優(yōu)化化和流分析,視視頻分析,銀銀行、保險(xiǎn)、零零售、電信和和公共運(yùn)輸領(lǐng)領(lǐng)域的加速器器,社交媒體體分析,以及及情緒分析。? 業(yè)務(wù)流程管管理流程 來(lái)自分析層層的洞察可供供業(yè)務(wù)流
23、程執(zhí)執(zhí)行語(yǔ)言 (BPEL)流程、API 或其他業(yè)務(wù)務(wù)流程使用,通通過(guò)自動(dòng)化上上游和下游 IT 應(yīng)用用程序、人員員和流程的功功能,進(jìn)一步步獲取業(yè)務(wù)價(jià)價(jià)值。? 實(shí)時(shí)監(jiān)視 可以使用用從分析中得得出的數(shù)據(jù)來(lái)來(lái)生成實(shí)時(shí)警警告。可以將將警告發(fā)送給感興趣趣的使用者和和設(shè)備,比如如智能電話(huà)和和平板電腦??煽梢允褂脧姆址治鼋M件生成成的數(shù)據(jù)洞察察,定義并監(jiān)監(jiān)視關(guān)鍵績(jī)效效指標(biāo),以便便確定操作有有效性。實(shí)時(shí)時(shí)數(shù)據(jù)可從各各種來(lái)源以?xún)x儀表板的形式式向業(yè)務(wù)用戶(hù)戶(hù)公開(kāi),以便便監(jiān)視系統(tǒng)的的健康或度量量營(yíng)銷(xiāo)活動(dòng)的的有效性。? 報(bào)告引擎 生成與傳傳統(tǒng)商業(yè)智能能報(bào)告類(lèi)似的的報(bào)告的能力力至關(guān)重要。用用戶(hù)可基于從分析析層中得到的的洞察,
24、創(chuàng)建建臨時(shí)報(bào)告、計(jì)計(jì)劃的報(bào)告或或自助查詢(xún)和和分析。? 推薦引擎 基于來(lái)自自分析層的分分析結(jié)果,推推薦引擎可向向購(gòu)物者提供供實(shí)時(shí)的、相關(guān)的和和個(gè)性化的推推薦,提高電電子商務(wù)交易易中的轉(zhuǎn)換率率和每個(gè)訂單單的平均價(jià)值值。該引擎實(shí)實(shí)時(shí)處理可用用信息并動(dòng)態(tài)態(tài)地響應(yīng)每個(gè)個(gè)用戶(hù),響應(yīng)應(yīng)基于用戶(hù)的的實(shí)時(shí)活動(dòng)、存存儲(chǔ)在 CRRM 系統(tǒng)中中的注冊(cè)客戶(hù)戶(hù)信息,以及及非注冊(cè)客戶(hù)戶(hù)的社交概況況。? 可視化和發(fā)發(fā)現(xiàn) 數(shù)據(jù)據(jù)可跨企業(yè)內(nèi)內(nèi)外的各種聯(lián)聯(lián)邦的數(shù)據(jù)源源進(jìn)行導(dǎo)航。數(shù)數(shù)據(jù)可能具有不同同的內(nèi)容和格格式,所有數(shù)數(shù)據(jù)(結(jié)構(gòu)化化、半結(jié)構(gòu)化化和非結(jié)構(gòu)化化)可組合來(lái)來(lái)進(jìn)行可視化化并提供給用用戶(hù)。此能力力使得組織能能夠?qū)⑵鋫鹘y(tǒng)統(tǒng)的企
25、業(yè)內(nèi)容容(包含在企企業(yè)內(nèi)容管理理系統(tǒng)和數(shù)據(jù)據(jù)倉(cāng)庫(kù)中)與與新的社交內(nèi)內(nèi)容(例如 tweett 和博客文文章)組合到到單個(gè)用戶(hù)界界面中。3.1.2 垂垂直層影響邏輯層(大大數(shù)據(jù)來(lái)源、數(shù)數(shù)據(jù)改動(dòng)和存存儲(chǔ)、分析和和使用層)的的所有組件的的各方面都包包含在垂直層層中:? 信息集成? 大數(shù)據(jù)治理理? 系統(tǒng)管理? 服務(wù)質(zhì)量3.1.2.11 信息集成成大數(shù)據(jù)應(yīng)用程序序從各種數(shù)據(jù)據(jù)起源、提供供程序和數(shù)據(jù)據(jù)源獲取數(shù)據(jù)據(jù),并存儲(chǔ)在在 HDFSS、NoSQQL 和 MMongoDDB 等數(shù)據(jù)據(jù)存儲(chǔ)系統(tǒng)中中。這個(gè)垂直直層可供各種種組件使用(例例如數(shù)據(jù)獲取取、數(shù)據(jù)整理理、模型管理理和交易攔截截器),負(fù)責(zé)責(zé)連接到各種種數(shù)據(jù)
26、源。集集成將具有不不同特征(例例如協(xié)議和連連接性)的數(shù)數(shù)據(jù)源的信息息,需要高質(zhì)質(zhì)量的連接器器和適配器??煽梢允褂眉铀偎倨鬟B接到大大多數(shù)已知和和廣泛使用的的來(lái)源。這些些加速器包括括社交媒體適適配器和天氣氣數(shù)據(jù)適配器器。各種組件件還可以使用用這一層在大大數(shù)據(jù)存儲(chǔ)中中存儲(chǔ)信息,從從大數(shù)據(jù)存儲(chǔ)儲(chǔ)中檢索信息息,以便處理理這些信息。大大多數(shù)大數(shù)據(jù)據(jù)存儲(chǔ)都提供供了服務(wù)和 API 來(lái)來(lái)存儲(chǔ)和檢索索該信息。3.1.2.22 大數(shù)據(jù)治治理數(shù)據(jù)治理涉及到到定義指南來(lái)來(lái)幫助企業(yè)制制定有關(guān)數(shù)據(jù)據(jù)的正確決策策。大數(shù)據(jù)治治理有助于處處理企業(yè)內(nèi)或或從外部來(lái)源源傳入的數(shù)據(jù)據(jù)的復(fù)雜性、量量和種類(lèi)。在在將數(shù)據(jù)傳入入企業(yè)進(jìn)行處處理、
27、存儲(chǔ)、分分析和清除或或歸檔時(shí),需需要強(qiáng)有力的的指南和流程程來(lái)監(jiān)視、構(gòu)建、存儲(chǔ)和保保護(hù)數(shù)據(jù)。除了正常的數(shù)據(jù)據(jù)治理考慮因因素之外,大大數(shù)據(jù)治理還還包含其他因因素:? 管理各種格格式的大量數(shù)數(shù)據(jù)。? 持續(xù)培訓(xùn)和和管理必要的的統(tǒng)計(jì)模型,以以便對(duì)非結(jié)構(gòu)構(gòu)化數(shù)據(jù)和分分析進(jìn)行預(yù)處處理。請(qǐng)記住,設(shè)設(shè)置處理非結(jié)結(jié)構(gòu)化數(shù)據(jù)時(shí)時(shí)的重要一步步。? 為外部數(shù)據(jù)據(jù)設(shè)置有關(guān)其其保留和使用用的策略和合合規(guī)性制度。? 定義數(shù)據(jù)歸歸檔和清除策策略。? 創(chuàng)建如何跨跨各種系統(tǒng)復(fù)復(fù)制數(shù)據(jù)的策策略。? 設(shè)置數(shù)據(jù)加加密策略。3.1.2.33 服務(wù)質(zhì)量量層此層復(fù)雜定義數(shù)數(shù)據(jù)質(zhì)量、圍圍繞隱私和安安全性的策略略、數(shù)據(jù)頻率率、每次抓取取的數(shù)據(jù)大小
28、小和數(shù)據(jù)過(guò)濾濾器:? 數(shù)據(jù)質(zhì)量? 完整地識(shí)別別所有必要的的數(shù)據(jù)元素? 以可接受的的新鮮度提供供數(shù)據(jù)的時(shí)間間軸? 依照數(shù)據(jù)準(zhǔn)準(zhǔn)確性規(guī)則來(lái)來(lái)驗(yàn)證數(shù)據(jù)的的準(zhǔn)確性? 采用一種通通用語(yǔ)言(數(shù)數(shù)據(jù)元組滿(mǎn)足足使用簡(jiǎn)單業(yè)業(yè)務(wù)語(yǔ)言所表表達(dá)的需求) ? 依據(jù)數(shù)數(shù)據(jù)一致性規(guī)規(guī)則驗(yàn)證來(lái)自自多個(gè)系統(tǒng)的的數(shù)據(jù)一致性性? 在滿(mǎn)足數(shù)據(jù)據(jù)規(guī)范和信息息架構(gòu)指南基基礎(chǔ)上的技術(shù)術(shù)符合性? 圍繞隱私和和安全的策略略需要策略來(lái)保護(hù)護(hù)敏感數(shù)據(jù)。從從外部機(jī)構(gòu)和和提供程序獲獲取的數(shù)據(jù)可可能包含敏感感數(shù)據(jù)(比如如 Faceebook 用戶(hù)的聯(lián)系系信息或產(chǎn)品品定價(jià)信息)。數(shù)數(shù)據(jù)可以來(lái)源源于不同的地地區(qū)和國(guó)家,但但必須進(jìn)行相相應(yīng)的處理。必必須制定有
29、關(guān)關(guān)數(shù)據(jù)屏蔽和和這類(lèi)數(shù)據(jù)的的存儲(chǔ)的決策策。考慮以下下數(shù)據(jù)訪(fǎng)問(wèn)策策略:? 數(shù)據(jù)可用性性? 數(shù)據(jù)關(guān)鍵性性? 數(shù)據(jù)真實(shí)性性? 數(shù)據(jù)共享和和發(fā)布? 數(shù)據(jù)存儲(chǔ)和和保留,包括括能否存儲(chǔ)外外部數(shù)據(jù)等問(wèn)問(wèn)題。如果能能夠存儲(chǔ)數(shù)據(jù),數(shù)據(jù)可存儲(chǔ)儲(chǔ)多長(zhǎng)時(shí)間?可存儲(chǔ)何種種類(lèi)型的數(shù)據(jù)據(jù)?? 數(shù)據(jù)提供程程序約束(政政策、技術(shù)和和地區(qū))? 社交媒體使使用條款(參參見(jiàn) 參考資資料)? 數(shù)據(jù)頻率提供新鮮數(shù)據(jù)的的頻率是多少少?它是按需需、連續(xù)還是是離線(xiàn)的?? 抓取的數(shù)據(jù)據(jù)大小此屬性有助于定定義可抓取的的數(shù)據(jù)以及每每次抓取后可可使用的數(shù)據(jù)據(jù)大小。? 過(guò)濾器標(biāo)準(zhǔn)過(guò)濾器會(huì)刪刪除不想要的的數(shù)據(jù)和數(shù)據(jù)據(jù)中的干擾數(shù)數(shù)據(jù),僅留下下分析所需的的數(shù)
30、據(jù)。3.1.2.44 系統(tǒng)管理理系統(tǒng)管理對(duì)大數(shù)數(shù)據(jù)至關(guān)重要要,因?yàn)樗嫔婕暗娇缙髽I(yè)業(yè)集群和邊界界的許多系統(tǒng)統(tǒng)。對(duì)整個(gè)大大數(shù)據(jù)生態(tài)系系統(tǒng)的健康的的監(jiān)視包括:? 管理系統(tǒng)日日志、虛擬機(jī)機(jī)、應(yīng)用程序序和其他設(shè)備備? 關(guān)聯(lián)各種日日志,幫助調(diào)調(diào)查和監(jiān)視具具體情形? 監(jiān)視實(shí)時(shí)警警告和通知? 使用顯示各各種參數(shù)的實(shí)實(shí)時(shí)儀表板? 引用有關(guān)系系統(tǒng)的報(bào)告和和詳細(xì)分析? 設(shè)定和遵守守服務(wù)水平協(xié)協(xié)議? 管理存儲(chǔ)和和容量? 歸檔和管理理歸檔檢索? 執(zhí)行系統(tǒng)恢恢復(fù)、集群管管理和網(wǎng)絡(luò)管管理? 策略管理3.2 功能應(yīng)應(yīng)用前面提到的技術(shù)術(shù)架構(gòu)的這些些層定義了各各種組件,并并對(duì)它們進(jìn)行行分類(lèi),這些些組件必須處處理某個(gè)給定定業(yè)務(wù)用
31、例的的功能性和非非功能性需求求。本文基于于層和組件的的概念,介紹紹了解決方案案中所用的典典型原子模式式和復(fù)合模式式。通過(guò)將所所提出的解決決方案映射到到此處提供的的模式,讓用用戶(hù)了解需要要如何設(shè)計(jì)組組件,以及從從功能角度考考慮,應(yīng)該將將它們放置在在何處。模式式有助于定義義大數(shù)據(jù)解決決方案的架構(gòu)構(gòu)。利用原子子模式和復(fù)合合模式可以幫幫助進(jìn)一步完完善大數(shù)據(jù)解解決方案的每每個(gè)組件的角角色和責(zé)任。3.3 原子模模式對(duì)于大數(shù)據(jù)上下下文中經(jīng)常出出現(xiàn)的問(wèn)題,原原子模式 有有助于識(shí)別數(shù)數(shù)據(jù)如何是被被使用、處理理、存儲(chǔ)和訪(fǎng)訪(fǎng)問(wèn)的。它們們還有助于識(shí)識(shí)別所需的組組件。訪(fǎng)問(wèn)、存存儲(chǔ)和處理來(lái)來(lái)自不同數(shù)據(jù)據(jù)源的多種數(shù)數(shù)據(jù)需要
32、不同同的方法。每每種模式都用用于滿(mǎn)足特定定的需求:例例如,可視化化、歷史數(shù)據(jù)據(jù)分析、社交交媒體數(shù)據(jù)和和非結(jié)構(gòu)化數(shù)數(shù)據(jù)的存儲(chǔ)??煽梢詫⒍喾N原原子模式結(jié)合合使用,組成成一個(gè)復(fù)合模模式。這些原原子模式?jīng)]有有進(jìn)行分層或或排序。例如如,可視化模模式可以與社社交媒體的數(shù)數(shù)據(jù)訪(fǎng)問(wèn)模式式直接交互,可可視化模式還還可以與高級(jí)級(jí)分析處理模模式進(jìn)行交互互。3.3.1 數(shù)數(shù)據(jù)使用組件件這種類(lèi)型的模式式處理使用數(shù)數(shù)據(jù)分析結(jié)果果的各種方式式。數(shù)據(jù)使用用模式可以滿(mǎn)滿(mǎn)足幾個(gè)需求求。3.3.1.11 可視化組組件可視化數(shù)據(jù)的傳傳統(tǒng)方式以圖圖表、儀表板板和摘要報(bào)告告為基礎(chǔ)。這這些傳統(tǒng)的方方法并不總是是用來(lái)可視化化數(shù)據(jù)的最佳佳方式
33、。大數(shù)據(jù)可視化的的典型需求(包包括新出現(xiàn)的的需求)如下下所示:? 執(zhí)行流數(shù)據(jù)據(jù)的實(shí)時(shí)分析析和顯示? 基于上下文文,以交互方方式挖掘數(shù)據(jù)據(jù)? 執(zhí)行高級(jí)搜搜索,并獲得得建議? 并行可視化化信息? 獲得先進(jìn)的的硬件,支持持未來(lái)的可視視化需求? 正在進(jìn)行研研究,以確定定人類(lèi)和機(jī)器器如何使用大大數(shù)據(jù)洞察。這這些挑戰(zhàn)包括括所涉及的數(shù)據(jù)量量,并且需要要將數(shù)據(jù)與上上下文相關(guān)聯(lián)聯(lián)。必須在適適當(dāng)?shù)纳舷挛奈闹酗@示洞察察。? 可視化數(shù)據(jù)據(jù)的目的是為為了更容易、更更直觀(guān)地使用用數(shù)據(jù),因此此報(bào)告和儀表表板可能提供全高高清的觀(guān)看效效果和 3-D 互動(dòng)視視頻,并且可可以為用戶(hù)提提供使用應(yīng)用用程序控制業(yè)業(yè)務(wù)活動(dòng)和結(jié)結(jié)果的能力。
34、3.3.1.22 即席發(fā)現(xiàn)現(xiàn)組件創(chuàng)建滿(mǎn)足所有業(yè)業(yè)務(wù)需求的標(biāo)標(biāo)準(zhǔn)報(bào)告往往往是不可行的的,因?yàn)槠髽I(yè)業(yè)的業(yè)務(wù)數(shù)據(jù)據(jù)查詢(xún)會(huì)有不不同的需求。用用戶(hù)在查找特特定信息時(shí),可可能需要獲得得根據(jù)問(wèn)題的的上下文執(zhí)行行即席查詢(xún)的的能力。即席分析可以幫幫助數(shù)據(jù)專(zhuān)家家和關(guān)鍵業(yè)務(wù)務(wù)用戶(hù)了解業(yè)業(yè)務(wù)數(shù)據(jù)的行行為。即席處處理中涉及的的復(fù)雜性來(lái)自自多種因素:多個(gè)數(shù)據(jù)源可用用于相同的域域。? 單一的查詢(xún)?cè)兛梢杂卸鄠€(gè)個(gè)結(jié)果。? 輸出可以是是靜態(tài)的,并并具有多種格格式(視頻、音音頻、圖形和和文本)。 ? 輸出可可以是動(dòng)態(tài)和和交互式的。3.3.1.33 數(shù)據(jù)轉(zhuǎn)儲(chǔ)儲(chǔ)組件在大數(shù)據(jù)的初步步探索中,許許多企業(yè)選擇擇使用現(xiàn)有的的分析平臺(tái)來(lái)來(lái)降低成
35、本,并并依賴(lài)于現(xiàn)有有的技能。加加強(qiáng)現(xiàn)有的數(shù)數(shù)據(jù)存儲(chǔ)有助助于拓寬可用用于現(xiàn)有分析析的數(shù)據(jù)的范范圍,包括駐駐留在組織邊邊界內(nèi)外的數(shù)數(shù)據(jù),比如社社交媒體數(shù)據(jù)據(jù),它可以豐豐富主數(shù)據(jù)。通通過(guò)拓寬數(shù)據(jù)據(jù)范圍,使之之包含現(xiàn)有存存儲(chǔ)中的新事事實(shí)表、維度度和主數(shù)據(jù),并并從社交媒體體獲取客戶(hù)數(shù)數(shù)據(jù),組織可可以獲得更深深入的客戶(hù)洞洞察。但要牢記的是,新新的數(shù)據(jù)集通通常比較大,而而現(xiàn)有的提取取、轉(zhuǎn)換和加加載工具可能能不足以處理理它。您可能能需要使用具具有大規(guī)模并并行處理能力力的高級(jí)工具具來(lái)解決數(shù)據(jù)據(jù)的數(shù)量、多多樣性、真實(shí)實(shí)性和速度特特征。3.3.1.44 信息推送送/通知組件件大數(shù)據(jù)洞察使人人類(lèi)、企業(yè)和和機(jī)器可以通通
36、過(guò)使用事件件通知而立即即采取行動(dòng)。通通知平臺(tái)必須須能夠處理及及時(shí)發(fā)送出去去的預(yù)計(jì)數(shù)量量的通知。這這些通知與大大量郵件或群群發(fā)短信不同同,因?yàn)閮?nèi)容容一般是特定定于使用者的的。例如,推推薦引擎可以以提供有關(guān)世世界各地的龐龐大客戶(hù)群的的洞察,而且且可以將通知知發(fā)送給這樣樣的客戶(hù)。3.3.1.55 自動(dòng)響應(yīng)應(yīng)組件從大數(shù)據(jù)獲得的的業(yè)務(wù)洞察,可可用于觸發(fā)或或啟動(dòng)其他業(yè)業(yè)務(wù)流程或事事務(wù)3.3.2 數(shù)數(shù)據(jù)處理組件件無(wú)論數(shù)據(jù)是處于于靜止?fàn)顟B(tài)還還是在運(yùn)動(dòng)中中,都可以處處理大數(shù)據(jù)。具具體情況取決決于分析的復(fù)復(fù)雜性,有可可能不需要對(duì)對(duì)數(shù)據(jù)進(jìn)行實(shí)實(shí)時(shí)處理。這這種模式解決決了對(duì)大數(shù)據(jù)據(jù)進(jìn)行實(shí)時(shí)、近近實(shí)時(shí)或批量量處理的方式
37、式。以下高級(jí)的大數(shù)數(shù)據(jù)處理類(lèi)別別適用于大多多數(shù)分析。這這些類(lèi)別通常常也適用于基基于 RDBBMS 的傳傳統(tǒng)系統(tǒng)。惟惟一的區(qū)別是是龐大規(guī)模的的數(shù)據(jù)、多樣樣性和速度。在在處理大數(shù)據(jù)據(jù)時(shí),要使用用機(jī)器學(xué)習(xí)、復(fù)復(fù)雜事件處理理、事件流處處理、決策管管理和統(tǒng)計(jì)模模型管理等技技術(shù)。3.3.2.11 歷史數(shù)據(jù)據(jù)分析組件傳統(tǒng)的歷史數(shù)據(jù)據(jù)分析僅限于于預(yù)定義的數(shù)數(shù)據(jù)時(shí)間段,這這通常取決于于數(shù)據(jù)保留策策略。由于處處理和存儲(chǔ)的的限制,超出出此時(shí)間段的的數(shù)據(jù)通常會(huì)會(huì)被歸檔或清清除?;?Hadooop 的系統(tǒng)統(tǒng)和其他等效效的系統(tǒng)可以以克服這些限限制,因?yàn)樗鼈兙哂胸S富富的存儲(chǔ)以及及分布式大規(guī)規(guī)模并行處理理能力。運(yùn)營(yíng)營(yíng)、業(yè)
38、務(wù)和數(shù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)數(shù)據(jù)被移動(dòng)到到大數(shù)據(jù)存儲(chǔ)儲(chǔ),您通過(guò)使使用大數(shù)據(jù)平平臺(tái)功能對(duì)它它們進(jìn)行處理理。歷史分析包括分分析給定時(shí)間間段、季節(jié)組組合和產(chǎn)品的的歷史趨勢(shì),并并與最新的可可用數(shù)據(jù)進(jìn)行行比較。為了了能夠存儲(chǔ)和和處理如此龐龐大的數(shù)據(jù),您您可以使用 HDFS、NoSQL、SSPSS? 和 InffoSpheere? BBigInssightss?。3.3.2.22 高級(jí)分析析組件大數(shù)據(jù)提供了很很多實(shí)現(xiàn)創(chuàng)意意洞察的機(jī)會(huì)會(huì)。不同的數(shù)數(shù)據(jù)集可以在在多種上下文文中存在關(guān)聯(lián)聯(lián)。發(fā)現(xiàn)這些些關(guān)系需要?jiǎng)?chuàng)創(chuàng)新的復(fù)雜算算法和技術(shù)。高級(jí)分析包括預(yù)預(yù)測(cè)、決策、推推理過(guò)程、模模擬、上下文文信息標(biāo)識(shí)和和實(shí)體解析。高高級(jí)分析的應(yīng)
39、應(yīng)用包括生物物統(tǒng)計(jì)數(shù)據(jù)分分析(例如,DDNA 分析析)、空間分分析、基于位位置的分析、科科學(xué)分析、研研究,等等。高高級(jí)分析要求求大量的計(jì)算算來(lái)管理大量量的數(shù)據(jù)。數(shù)據(jù)專(zhuān)家可以指指導(dǎo)您識(shí)別合合適的技術(shù)、算算法和數(shù)據(jù)集集,以及在給給定上下文中中解決問(wèn)題所所需的數(shù)據(jù)源源。比如 SSPSS、IInfoSpphere Streaams 和 InfoSSpheree BigIInsighhts 等工工具提供了這這類(lèi)功能。這這些工具訪(fǎng)問(wèn)問(wèn)存儲(chǔ)在大數(shù)數(shù)據(jù)存儲(chǔ)系統(tǒng)統(tǒng)(比如 BBigTabble、HBBase,等等等)中的非非結(jié)構(gòu)化數(shù)據(jù)據(jù)和結(jié)構(gòu)化數(shù)數(shù)據(jù)(例如,JJSON 數(shù)數(shù)據(jù))。3.3.2.33 預(yù)處理原原始數(shù)據(jù)
40、組件件大數(shù)據(jù)解決方案案主要由基于于 MapRReducee 的 Haadoop 系統(tǒng)和技術(shù)術(shù)組成,MaapReduuce 是開(kāi)開(kāi)箱即用的分分布式存儲(chǔ)和和處理解決方方案。然而,從從非結(jié)構(gòu)化數(shù)數(shù)據(jù)提取數(shù)據(jù)據(jù)(例如,圖圖像、音頻、視視頻、二進(jìn)制制提要,甚至至是文本)是是一項(xiàng)復(fù)雜的的任務(wù),需要要具有機(jī)器學(xué)學(xué)習(xí)能力并掌掌握自然語(yǔ)言言處理等技術(shù)術(shù)。另一個(gè)主主要挑戰(zhàn)是如如何驗(yàn)證這些些技術(shù)和算法法的輸出的準(zhǔn)準(zhǔn)確度和正確確性。要對(duì)任何數(shù)據(jù)執(zhí)執(zhí)行分析,數(shù)數(shù)據(jù)都必須是是某種結(jié)構(gòu)化化格式。從多多個(gè)數(shù)據(jù)源訪(fǎng)訪(fǎng)問(wèn)的非結(jié)構(gòu)構(gòu)化數(shù)據(jù)可以以按原樣存儲(chǔ)儲(chǔ),然后被轉(zhuǎn)轉(zhuǎn)化成結(jié)構(gòu)化化數(shù)據(jù)(例如如 JSONN),并被再再次存儲(chǔ)到大大數(shù)據(jù)
41、存儲(chǔ)系系統(tǒng)中。非結(jié)結(jié)構(gòu)化文本可可以轉(zhuǎn)換成半半結(jié)構(gòu)化或結(jié)結(jié)構(gòu)化數(shù)據(jù)。同同樣,圖像、音音頻和視頻數(shù)數(shù)據(jù)需要轉(zhuǎn)換換成可用于分分析的格式。此此外,使用預(yù)預(yù)測(cè)和統(tǒng)計(jì)算算法的高級(jí)分分析的準(zhǔn)確性性和正確性取取決于用來(lái)訓(xùn)訓(xùn)練其模型的的數(shù)據(jù)和算法法的數(shù)量。下面的列表顯示示了將非結(jié)構(gòu)構(gòu)化數(shù)據(jù)轉(zhuǎn)換換成結(jié)構(gòu)化數(shù)數(shù)據(jù)所需的算算法和活動(dòng): ? 文檔檔和文本分類(lèi)類(lèi)? 特征提取? 圖像和文本本分割? 關(guān)聯(lián)特征、變變量和時(shí)間,然然后提取包含含時(shí)間的值? 輸出的準(zhǔn)確確度檢查使用用了混淆矩陣陣(conffusionn matrrix)等技技術(shù)和其他手手動(dòng)活動(dòng)? 數(shù)據(jù)專(zhuān)家可可以幫助用戶(hù)戶(hù)選擇合適的的技術(shù)和算法法。3.3.2.44 即
42、席分析析組件處理大數(shù)據(jù)的即即席查詢(xún)所帶帶來(lái)的挑戰(zhàn)不不同于對(duì)結(jié)構(gòu)構(gòu)化數(shù)據(jù)執(zhí)行行即席查詢(xún)時(shí)時(shí)所面臨的挑挑戰(zhàn),由于數(shù)數(shù)據(jù)源和數(shù)據(jù)據(jù)格式不是固固定的,所以以需要使用不不同的機(jī)制來(lái)來(lái)檢索和處理理數(shù)據(jù)。雖然大數(shù)據(jù)供應(yīng)應(yīng)商可以處理理簡(jiǎn)單的即席席查詢(xún),但在在大多數(shù)情況況下,查詢(xún)是是復(fù)雜的,因因?yàn)楸仨氃谶\(yùn)運(yùn)行時(shí)動(dòng)態(tài)地地發(fā)現(xiàn)數(shù)據(jù)、算算法、格式和和實(shí)體解析。所所以需要利用用數(shù)據(jù)專(zhuān)家和和業(yè)務(wù)用戶(hù)的的專(zhuān)業(yè)知識(shí)來(lái)來(lái)定義下列任任務(wù)所需的分分析:? 識(shí)別并發(fā)現(xiàn)現(xiàn)計(jì)算和算法法? 識(shí)別并發(fā)現(xiàn)現(xiàn)數(shù)據(jù)源? 定義所需的的可以由計(jì)算算使用的格式式? 對(duì)數(shù)據(jù)執(zhí)行行并行計(jì)算3.3.3 數(shù)數(shù)據(jù)訪(fǎng)問(wèn)組件件在大數(shù)據(jù)解決方方案中,有許許多數(shù)據(jù)源,還
43、還有很多訪(fǎng)問(wèn)問(wèn)數(shù)據(jù)的方式式,本節(jié)將介介紹最常見(jiàn)的的幾種。3.3.3.11 web和和社交媒體訪(fǎng)訪(fǎng)問(wèn)組件Interneet 是提供供許多目前可可以獲得的洞洞察的數(shù)據(jù)源源。在幾乎所所有分析中,都都會(huì)用到 WWeb 和社社交媒體,但但獲得這種數(shù)數(shù)據(jù)需要不同同的訪(fǎng)問(wèn)機(jī)制制。在所有數(shù)據(jù)源中中,因?yàn)?WWeb 和社社交媒體的多多樣性、速度度和數(shù)量,所所以 Webb和社交媒體是最最為復(fù)雜的。網(wǎng)網(wǎng)站大約有 40-500 個(gè)類(lèi)別,每每一個(gè)類(lèi)別都都需要使用不不同的方式來(lái)來(lái)訪(fǎng)問(wèn)數(shù)據(jù)。本本節(jié)將列出這這些類(lèi)別,并并介紹一些訪(fǎng)訪(fǎng)問(wèn)機(jī)制。從從大數(shù)據(jù)的角角度講,高級(jí)級(jí)的類(lèi)別是商商業(yè)站點(diǎn)、社社交媒體站點(diǎn)點(diǎn),以及具有有特定和通用
44、用組件的站點(diǎn)點(diǎn)。有關(guān)的訪(fǎng)訪(fǎng)問(wèn)機(jī)制見(jiàn)圖圖 3。如果果需要的話(huà),在在完成預(yù)處理理后,可將所所訪(fǎng)問(wèn)的數(shù)據(jù)據(jù)存儲(chǔ)在數(shù)據(jù)據(jù)存儲(chǔ)中。Web 和社交交媒體訪(fǎng)問(wèn)需要執(zhí)行以下步步驟來(lái)訪(fǎng)問(wèn) Web 媒媒體信息。圖 大數(shù)據(jù)訪(fǎng)問(wèn)問(wèn)步驟非結(jié)構(gòu)化數(shù)據(jù)存存儲(chǔ)中的 WWeb 媒體體訪(fǎng)問(wèn)步驟 A-1. 爬網(wǎng)程序序讀取原始數(shù)數(shù)據(jù)。步驟 A-2. 數(shù)據(jù)被存存儲(chǔ)在非結(jié)構(gòu)構(gòu)化存儲(chǔ)中。Web 媒體訪(fǎng)訪(fǎng)問(wèn)為結(jié)構(gòu)化化存儲(chǔ)預(yù)處理理數(shù)據(jù)步驟 B-1. 爬網(wǎng)程序序讀取原始數(shù)數(shù)據(jù)。步驟 B-2. 對(duì)數(shù)據(jù)進(jìn)進(jìn)行預(yù)處理。步驟 B-3. 數(shù)據(jù)被存存儲(chǔ)在結(jié)構(gòu)化化存儲(chǔ)中。Web 媒體訪(fǎng)訪(fǎng)問(wèn)預(yù)處理非非結(jié)構(gòu)化數(shù)據(jù)據(jù)步驟 C-1. 在極少數(shù)數(shù)情況下,來(lái)來(lái)自供應(yīng)商的
45、的數(shù)據(jù)可以是是非結(jié)構(gòu)化數(shù)數(shù)據(jù)。 步驟驟 C-2. 對(duì)數(shù)據(jù)進(jìn)進(jìn)行預(yù)處理。步驟 C-3. 數(shù)據(jù)被存存儲(chǔ)在結(jié)構(gòu)化化存儲(chǔ)中。非結(jié)構(gòu)化或結(jié)構(gòu)構(gòu)化數(shù)據(jù)的 Web 媒媒體訪(fǎng)問(wèn)步驟 D-1. 數(shù)據(jù)供應(yīng)應(yīng)商提供結(jié)構(gòu)構(gòu)化或非結(jié)構(gòu)構(gòu)化數(shù)據(jù)。步驟 D-2. 數(shù)據(jù)被存存儲(chǔ)在結(jié)構(gòu)化化或非結(jié)構(gòu)化化存儲(chǔ)中。Web 媒體訪(fǎng)訪(fǎng)問(wèn)預(yù)處理非非結(jié)構(gòu)化數(shù)據(jù)據(jù)步驟 E-1. 不能使用用在存儲(chǔ)時(shí)未未經(jīng)過(guò)預(yù)處理理的非結(jié)構(gòu)化化數(shù)據(jù),除非非它是結(jié)構(gòu)化化格式的數(shù)據(jù)據(jù)。步驟 E-2. 對(duì)數(shù)據(jù)進(jìn)進(jìn)行預(yù)處理。步驟 E-3. 經(jīng)過(guò)預(yù)處處理的結(jié)構(gòu)化化數(shù)據(jù)被存儲(chǔ)儲(chǔ)在結(jié)構(gòu)化存存儲(chǔ)中。如圖所示,數(shù)據(jù)據(jù)可以直接存存儲(chǔ)在存儲(chǔ)器器中,或者可可以對(duì)它們進(jìn)進(jìn)行預(yù)處理,并并將
46、它們轉(zhuǎn)換換成一個(gè)中間間格式或標(biāo)準(zhǔn)準(zhǔn)格式,然后后再存儲(chǔ)它們們。在可以分析數(shù)據(jù)據(jù)之前,數(shù)據(jù)據(jù)格式必須可可用于實(shí)體解解析或用于查查詢(xún)所需數(shù)據(jù)據(jù)。這種經(jīng)過(guò)過(guò)預(yù)處理的數(shù)數(shù)據(jù)可以存儲(chǔ)儲(chǔ)在一個(gè)存儲(chǔ)儲(chǔ)系統(tǒng)中。雖然預(yù)處理通常常被認(rèn)為是微微不足道的,但但這項(xiàng)處理可可能非常復(fù)雜雜和耗時(shí)。3.3.3.22 物聯(lián)網(wǎng)設(shè)設(shè)備數(shù)據(jù)的訪(fǎng)訪(fǎng)問(wèn)組件設(shè)備生成的內(nèi)容容包括來(lái)自傳傳感器的數(shù)據(jù)據(jù)數(shù)據(jù)是從天天氣信息、電電氣儀表和污污染數(shù)據(jù)等數(shù)數(shù)據(jù)來(lái)源檢測(cè)測(cè)到的,并且且由傳感器捕捕獲。這些數(shù)數(shù)據(jù)可以是照照片、視頻、文文本和其他二二進(jìn)制格式。下圖說(shuō)明了處理理機(jī)器生成的的數(shù)據(jù)的典型型過(guò)程。圖 5. 設(shè)備備生成的數(shù)據(jù)據(jù)訪(fǎng)問(wèn)圖 5 說(shuō)明了了訪(fǎng)問(wèn)來(lái)自傳
47、傳感器的數(shù)據(jù)據(jù)的過(guò)程。由由傳感器捕獲獲的數(shù)據(jù)可以以發(fā)送到設(shè)備備網(wǎng)關(guān),設(shè)備備網(wǎng)關(guān)會(huì)對(duì)數(shù)數(shù)據(jù)執(zhí)行一些些初始預(yù)處理理,并緩沖高高速數(shù)據(jù)。機(jī)機(jī)器生成的數(shù)數(shù)據(jù)大多為二二進(jìn)制格式(音音頻、視頻和和傳感器讀數(shù)數(shù))或文本格格式。這樣的的數(shù)據(jù)最初可可以存儲(chǔ)在存存儲(chǔ)系統(tǒng)中,也也可以對(duì)它們們進(jìn)行預(yù)處理理,然后再存存儲(chǔ)它們。對(duì)對(duì)于分析來(lái)說(shuō)說(shuō),要求執(zhí)行行預(yù)處理。3.3.3.33 基礎(chǔ)數(shù)據(jù)據(jù)(觀(guān)測(cè)數(shù)據(jù)據(jù)和生產(chǎn)數(shù)據(jù)據(jù))的訪(fǎng)問(wèn)模模式可以存儲(chǔ)現(xiàn)有的的事務(wù)、運(yùn)營(yíng)營(yíng)和倉(cāng)庫(kù)數(shù)據(jù)據(jù),避免清除除或歸檔數(shù)據(jù)據(jù)(因?yàn)榇鎯?chǔ)儲(chǔ)和處理的限限制),或減減少在數(shù)據(jù)被被其他使用者者訪(fǎng)問(wèn)時(shí)對(duì)傳傳統(tǒng)存儲(chǔ)的負(fù)負(fù)載。對(duì)于大多數(shù)企業(yè)業(yè)而言,事務(wù)務(wù)、運(yùn)營(yíng)、主主數(shù)據(jù)
48、和倉(cāng)庫(kù)庫(kù)信息都是所所有分析的核核心。如果用用在 Intternett 上,或者者通過(guò)傳感器器和智能設(shè)備備提供的非結(jié)結(jié)構(gòu)化數(shù)據(jù)以以及外部數(shù)據(jù)據(jù)來(lái)增強(qiáng)此數(shù)數(shù)據(jù),那么可可以幫助組織織獲得準(zhǔn)確的的洞察,并執(zhí)執(zhí)行高級(jí)分析析。使用由多個(gè)數(shù)據(jù)據(jù)庫(kù)廠(chǎng)商提供供的標(biāo)準(zhǔn)連接接器,事務(wù)和和倉(cāng)庫(kù)數(shù)據(jù)可可以被推入存存儲(chǔ)。預(yù)處理理事務(wù)性數(shù)據(jù)據(jù)要容易得多多,因?yàn)閿?shù)據(jù)據(jù)大多是結(jié)構(gòu)構(gòu)化的。可以以使用簡(jiǎn)單的的提取、轉(zhuǎn)換換和加載流程程將事務(wù)數(shù)據(jù)據(jù)移動(dòng)到存儲(chǔ)儲(chǔ)中。事務(wù)數(shù)數(shù)據(jù)可以很容容易地轉(zhuǎn)換成成 JSONN 和 CSSV 等格式式。使用 SSqoop 等工具可以以更容易將事事務(wù)數(shù)據(jù)推入入存儲(chǔ)系統(tǒng),如如 HBasse 和 HHDFS。3
49、.3.4 數(shù)數(shù)據(jù)存儲(chǔ)組件件存儲(chǔ)模式有助于于確定適當(dāng)?shù)牡拇鎯?chǔ)各種數(shù)數(shù)據(jù)的類(lèi)型和和格式。數(shù)據(jù)據(jù)可以按原樣樣存儲(chǔ),根據(jù)據(jù)鍵值對(duì)存儲(chǔ)儲(chǔ),或者以預(yù)預(yù)定義的格式式存儲(chǔ)。分布式文件系統(tǒng)統(tǒng)(如 GFFS 和 HHDFS)都都能夠存儲(chǔ)任任何類(lèi)型的數(shù)數(shù)據(jù)。但是,高高效地檢索或或查詢(xún)數(shù)據(jù)的的能力會(huì)影響響性能。技術(shù)術(shù)的選擇很重重要。3.3.4.11 分布式非非結(jié)構(gòu)化數(shù)據(jù)據(jù)存儲(chǔ)組件大部分大數(shù)據(jù)是是非結(jié)構(gòu)化數(shù)數(shù)據(jù),而且可可以通過(guò)不同同的方式針對(duì)對(duì)不同的上下下文提取它所所擁有的信息息。大多數(shù)時(shí)時(shí)候,非結(jié)構(gòu)構(gòu)化數(shù)據(jù)必須須按原樣并以以其原始格式式進(jìn)行存儲(chǔ)。這樣的數(shù)據(jù)可以以存儲(chǔ)在分布布式文件系統(tǒng)統(tǒng)(如 HDDFS)和 NoSQL
50、L 文檔存儲(chǔ)儲(chǔ)(如 MoongoDBB)中。這些些系統(tǒng)提供了了檢索非結(jié)構(gòu)構(gòu)化數(shù)據(jù)的有有效方法。3.3.4.22 分布式結(jié)結(jié)構(gòu)化數(shù)據(jù)存存儲(chǔ)組件結(jié)構(gòu)化數(shù)據(jù)包括括從數(shù)據(jù)源到到達(dá)的已經(jīng)是是結(jié)構(gòu)化格式式的數(shù)據(jù),以以及經(jīng)過(guò)預(yù)處處理,被轉(zhuǎn)換換為 JSOON 數(shù)據(jù)等等格式的非結(jié)結(jié)構(gòu)化數(shù)據(jù)。必必須存儲(chǔ)已經(jīng)經(jīng)過(guò)轉(zhuǎn)換的數(shù)數(shù)據(jù),避免從從原始數(shù)據(jù)到到結(jié)構(gòu)化數(shù)據(jù)據(jù)的頻繁數(shù)據(jù)據(jù)轉(zhuǎn)換??梢允褂?Gooogle 的 BiggTablee 等技術(shù)來(lái)來(lái)存儲(chǔ)結(jié)構(gòu)化化數(shù)據(jù)。BiigTablle 是一個(gè)個(gè)大規(guī)模容錯(cuò)錯(cuò)式自我管理理系統(tǒng),包括括 TB 級(jí)級(jí)的內(nèi)存和 PB 級(jí)的的存儲(chǔ)。Hadoop 中的 HBBase 可可媲美 BiigTab
51、lle。它使用用了 HDFFS 作為底底層存儲(chǔ)。3.3.4.33 傳統(tǒng)數(shù)據(jù)據(jù)存儲(chǔ)組件對(duì)于存儲(chǔ)大數(shù)據(jù)據(jù)而言,傳統(tǒng)統(tǒng)的數(shù)據(jù)存儲(chǔ)儲(chǔ)并不是最佳佳選擇,但在在企業(yè)執(zhí)行初初步數(shù)據(jù)探索索的情況下,企企業(yè)可能會(huì)選選擇使用現(xiàn)有有的數(shù)據(jù)倉(cāng)庫(kù)庫(kù)、RDBMMS 系統(tǒng)和和其他內(nèi)容存存儲(chǔ)。這些現(xiàn)現(xiàn)有的存儲(chǔ)系系統(tǒng)可用來(lái)存存儲(chǔ)使用大數(shù)數(shù)據(jù)平臺(tái)消化化和過(guò)濾的數(shù)數(shù)據(jù)。不要認(rèn)認(rèn)為傳統(tǒng)的數(shù)數(shù)據(jù)存儲(chǔ)系統(tǒng)統(tǒng)適用于大數(shù)數(shù)據(jù)。3.3.4.44 云存儲(chǔ)組組件許多云計(jì)算基礎(chǔ)礎(chǔ)架構(gòu)供應(yīng)商商都有分布式式結(jié)構(gòu)化、非非結(jié)構(gòu)化的存存儲(chǔ)能力。從從傳統(tǒng)的配置置、維護(hù)、系系統(tǒng)管理、編編程和建模角角度講,大數(shù)數(shù)據(jù)技術(shù)有點(diǎn)點(diǎn)不同。此外外,實(shí)現(xiàn)大數(shù)數(shù)據(jù)解決方案案所需
52、的技能能既罕見(jiàn)又昂昂貴。探索大大數(shù)據(jù)技術(shù)的的企業(yè)可以使使用云解決方方案來(lái)提供大大數(shù)據(jù)的存儲(chǔ)儲(chǔ)、維護(hù)和系系統(tǒng)管理。要存儲(chǔ)的數(shù)據(jù)往往往是敏感數(shù)數(shù)據(jù),這些數(shù)數(shù)據(jù)包括醫(yī)療療記錄和生物物特征數(shù)據(jù)。您您需要考慮數(shù)數(shù)據(jù)安全性、數(shù)數(shù)據(jù)共享、數(shù)數(shù)據(jù)治理,以以及有關(guān)數(shù)據(jù)據(jù)的其他政策策,在考慮將將云作為大數(shù)數(shù)據(jù)存儲(chǔ)庫(kù)的的時(shí)候尤其如如此。傳輸大大量數(shù)據(jù)的能能力也是云存存儲(chǔ)的另一個(gè)個(gè)重要考慮因因素。3.4 復(fù)合模模式原子模式 側(cè)重重于提供執(zhí)行行各項(xiàng)功能所所需的能力。但但是,復(fù)合模模式 是基于于端到端的解決方方案進(jìn)行分類(lèi)類(lèi)的。每個(gè)復(fù)復(fù)合模式都要要考慮一個(gè)或或多個(gè)維度。在在將復(fù)合模式式應(yīng)用到每個(gè)個(gè)模式時(shí),會(huì)會(huì)有許多變化化。
53、可以將復(fù)復(fù)合模式映射射到一個(gè)或多多個(gè)原子模式式,以解決某某個(gè)給定的業(yè)業(yè)務(wù)問(wèn)題。本本文所述的復(fù)復(fù)合模式列表表是基于經(jīng)常常發(fā)生的典型型業(yè)務(wù)問(wèn)題,但但這不是復(fù)合合模式的完整整列表。3.4.1 存存儲(chǔ)和探索復(fù)復(fù)合組件如果業(yè)務(wù)問(wèn)題需需要存儲(chǔ)大量量新數(shù)據(jù)和現(xiàn)現(xiàn)有數(shù)據(jù),而而且先前由于于缺乏足夠的的存儲(chǔ)和分析析能力而一直直未使用這些些數(shù)據(jù),那么么這種模式就就非常有用。該該模式旨在緩緩解對(duì)現(xiàn)有數(shù)數(shù)據(jù)存儲(chǔ)的負(fù)負(fù)載。所存儲(chǔ)儲(chǔ)的數(shù)據(jù)可用用于初始勘探探和即席發(fā)現(xiàn)現(xiàn)。用戶(hù)可以以推演報(bào)告,通通過(guò)進(jìn)一步的的處理來(lái)分析析數(shù)據(jù)的質(zhì)量量和價(jià)值。您您可以使用 ETL 工工具來(lái)預(yù)處理理和凈化原始始數(shù)據(jù),然后后再進(jìn)行任何何類(lèi)型的分析析。
54、圖 6. 存儲(chǔ)儲(chǔ)和探索復(fù)合合模式圖 6 說(shuō)明了了這種模式的的多個(gè)維度。數(shù)數(shù)據(jù)的使用目目的可能只是是存儲(chǔ)它,或或處理和使用用它。僅存儲(chǔ)的示例是是,數(shù)據(jù)的獲獲取和存儲(chǔ)只只是為了將來(lái)來(lái)能夠滿(mǎn)足合合規(guī)性或法律律的要求。在在處理和使用用的情況下,分分析的結(jié)果可可以被處理和和使用。可以以從最近發(fā)現(xiàn)現(xiàn)的來(lái)源或從從現(xiàn)有的數(shù)據(jù)據(jù)存儲(chǔ)訪(fǎng)問(wèn)數(shù)數(shù)據(jù)。3.4.2 專(zhuān)專(zhuān)業(yè)分析和預(yù)預(yù)測(cè)分析組件件使用此模式的情情況是,使用用多種處理技技術(shù)執(zhí)行分析析,因此,可以用新洞察豐豐富現(xiàn)有數(shù)據(jù),或或創(chuàng)建可由各各種用戶(hù)使用用的輸出。該該分析可以在在事件發(fā)生的的同時(shí)實(shí)時(shí)發(fā)發(fā)生,或使用用批量模式,根根據(jù)收集到的的數(shù)據(jù)獲得洞洞察。作為可可以分析的靜靜態(tài)數(shù)據(jù)的示示例,某電信信公司可能構(gòu)構(gòu)建客戶(hù)流失失
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 合伙干股協(xié)議書(shū)
- 三農(nóng)政策下的鄉(xiāng)村旅游發(fā)展作業(yè)指導(dǎo)書(shū)
- 礦業(yè)與資源開(kāi)發(fā)技術(shù)作業(yè)指導(dǎo)書(shū)
- 技術(shù)服務(wù)合同
- 管理咨詢(xún)專(zhuān)業(yè)服務(wù)協(xié)議書(shū)
- 貸款擔(dān)保書(shū)的
- 三農(nóng)村合作社應(yīng)急管理方案
- 小學(xué)三年級(jí)口算題兩三位數(shù)乘除一位數(shù)
- 2025年陽(yáng)泉資格證模擬考試
- 小學(xué)六年級(jí)數(shù)學(xué)口算競(jìng)賽試題
- 智能RPA財(cái)務(wù)機(jī)器人開(kāi)發(fā)教程-基于來(lái)也UiBot 課件 第1章-機(jī)器人流程自動(dòng)化概述
- 2024-2025學(xué)年天津市河?xùn)|區(qū)高一上學(xué)期期末質(zhì)量檢測(cè)數(shù)學(xué)試卷(含答案)
- 信永中和筆試題庫(kù)及答案
- 甲流乙流培訓(xùn)課件
- 《視網(wǎng)膜靜脈阻塞》課件
- 2025《省建設(shè)工程檔案移交合同書(shū)(責(zé)任書(shū))》
- 《大學(xué)英語(yǔ)1》期末考試試卷及答案(專(zhuān)科)
- 《石油鉆井基本知識(shí)》課件
- 2024新滬教版英語(yǔ)(五四學(xué)制)七年級(jí)上單詞默寫(xiě)單
- 電力兩票培訓(xùn)
- TCCEAS001-2022建設(shè)項(xiàng)目工程總承包計(jì)價(jià)規(guī)范
評(píng)論
0/150
提交評(píng)論