版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第2章大數(shù)據(jù)系統(tǒng)的
基本結(jié)構(gòu)
學(xué)習(xí)任務(wù)大數(shù)據(jù)系統(tǒng)總體架構(gòu)
大數(shù)據(jù)技術(shù)框架
分布式大數(shù)據(jù)處理系統(tǒng)
123案例之二:在“北上廣”打拼是怎樣一種體驗?
42.1大數(shù)據(jù)系統(tǒng)總體架構(gòu)要分析一個大數(shù)據(jù)系統(tǒng)的總體架構(gòu),就要弄清楚兩個問題:一個大數(shù)據(jù)系統(tǒng)需要包含哪些模塊和哪些技術(shù)?這些不同模塊之間怎么協(xié)調(diào)起來完成一個關(guān)于大數(shù)據(jù)的任務(wù)?我們可以用自下而上的方式來思考一個大數(shù)據(jù)系統(tǒng)總體架構(gòu)是怎么樣的:在有了硬件之后,我們首先要考慮的就是數(shù)據(jù)怎么放,這就是大數(shù)據(jù)的存儲與管理技術(shù)。有了數(shù)據(jù)之后我們就應(yīng)該對數(shù)據(jù)進(jìn)行處理,這就要用到大數(shù)據(jù)的處理技術(shù)。2.1大數(shù)據(jù)系統(tǒng)總體架構(gòu)處理完了之后,客戶端又需要獲取到處理完的結(jié)果,這就要用到數(shù)據(jù)的查詢技術(shù)。在擁有了大量的數(shù)據(jù)之后,怎么對這些數(shù)據(jù)進(jìn)行分析與挖掘,得到有價值的信息、經(jīng)驗性的規(guī)律來指導(dǎo)政府或者商業(yè)上的決策,這就衍生了大數(shù)據(jù)分析與挖掘技術(shù)。最后,為了方便展示和觀察,將大數(shù)據(jù)處理分析的結(jié)果以形象的方式向人們展示,就誕生了大數(shù)據(jù)可視化技術(shù)。2.1大數(shù)據(jù)系統(tǒng)總體架構(gòu)大數(shù)據(jù)系統(tǒng)的總體架構(gòu)
2.1大數(shù)據(jù)系統(tǒng)總體架構(gòu)如上圖所示是大數(shù)據(jù)系統(tǒng)的總體架構(gòu),自下而上的過程以數(shù)據(jù)流的角度描述了一個大數(shù)據(jù)應(yīng)用的工作機(jī)制。一個企業(yè)或者一個部門將自己擁有的大量數(shù)據(jù)用分布式存儲的方式存放在大量的節(jié)點上,然后以關(guān)系型數(shù)據(jù)庫或者非關(guān)系型數(shù)據(jù)來管理這些數(shù)據(jù),應(yīng)對不同的需求使用不同的數(shù)據(jù)處理工具進(jìn)行分布式計算。2.1大數(shù)據(jù)系統(tǒng)總體架構(gòu)使用類似的方式簡化數(shù)據(jù)查詢和簡單處理的過程,降低數(shù)據(jù)分析人員的使用門檻,數(shù)據(jù)分析人員對數(shù)據(jù)進(jìn)行分析與挖掘,獲取有價值的信息用于指導(dǎo)未來的決策。最后將數(shù)據(jù)分析的結(jié)果以圖的方式形象的展示出來,方便所有人的查看與理解。2.2大數(shù)據(jù)技術(shù)框架大數(shù)據(jù)技術(shù)的框架可以概要描述為五橫一縱:所謂五橫,基本就是根據(jù)數(shù)據(jù)的流向自底向上劃分五層,分別為數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)分析層、數(shù)據(jù)訪問層及應(yīng)用層。一縱就是數(shù)據(jù)管理層,具體詳見下圖2.2所示。這張大數(shù)據(jù)架構(gòu)圖都可以對大數(shù)據(jù)系統(tǒng)進(jìn)行一定的映射。2.2大數(shù)據(jù)技術(shù)框架大數(shù)據(jù)技術(shù)框架
2.2大數(shù)據(jù)技術(shù)框架數(shù)據(jù)采集層:既包括傳統(tǒng)的將數(shù)據(jù)從來源端經(jīng)過抽取、轉(zhuǎn)換、加載到目的端的過程,也包括ETL(Extraction-Transformation-Loading)的離線采集、也有實時采集、互聯(lián)網(wǎng)爬蟲解析等等。數(shù)據(jù)處理層:根據(jù)數(shù)據(jù)處理場景要求不同,可以劃分為Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu)、MPP(MassivelyParallelProcessing)大規(guī)模并行處理、流處理等等。數(shù)據(jù)分析層:主要包含了分析引擎,比如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)。2.2大數(shù)據(jù)技術(shù)框架數(shù)據(jù)訪問層:主要是實現(xiàn)讀寫分離,將偏向應(yīng)用的查詢等能力與計算能力剝離,包括實時查詢、多維查詢、常規(guī)查詢等應(yīng)用場景。數(shù)據(jù)應(yīng)用層:根據(jù)企業(yè)的特點不同劃分不同類別的應(yīng)用,比如針對運營商,對內(nèi)有精準(zhǔn)營銷、客服投訴、基站分析等,對外有基于位置的客流、基于標(biāo)簽的廣告應(yīng)用等等。數(shù)據(jù)管理層:這是一縱,主要是實現(xiàn)數(shù)據(jù)的管理和運維,它橫跨多層,實現(xiàn)統(tǒng)一管理。2.2大數(shù)據(jù)技術(shù)框架下面進(jìn)一步解釋各層的詳細(xì)功能與應(yīng)用:1、數(shù)據(jù)收集層大數(shù)據(jù)收集層主要采用了大數(shù)據(jù)采集技術(shù),實現(xiàn)對數(shù)據(jù)的ETL操作,ETL,是英文Extract-Transform-Load的縮寫,數(shù)據(jù)從數(shù)據(jù)來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)到目的端。用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去,最后對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和處理。2.2大數(shù)據(jù)技術(shù)框架數(shù)據(jù)采集位于數(shù)據(jù)分析生命周期的重要一環(huán),它通過傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。由于采集的數(shù)據(jù)種類錯綜復(fù)雜,對于這種不同種類的數(shù)據(jù)。在現(xiàn)實生活中,數(shù)據(jù)產(chǎn)生的種類很多,并且不同種類的數(shù)據(jù)產(chǎn)生的方式不同。對于大數(shù)據(jù)采集的數(shù)據(jù)類型,主要有以下三類:2.2大數(shù)據(jù)技術(shù)框架互聯(lián)網(wǎng)數(shù)據(jù):主要包括互聯(lián)網(wǎng)平臺上的公開信息,主要通過網(wǎng)絡(luò)爬蟲和一些網(wǎng)站平臺提供的公共API(ApplicationProgrammingInterface,應(yīng)用程序接口),如推特Twitter和新浪微博API等方式從網(wǎng)站上獲取數(shù)據(jù)。這樣就可以將非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁數(shù)據(jù)從網(wǎng)頁中提取出來。并將其提取、清洗、轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),將其存儲為統(tǒng)一的本地文件數(shù)據(jù)。2.2大數(shù)據(jù)技術(shù)框架②系統(tǒng)日志數(shù)據(jù):許多公司的業(yè)務(wù)平臺每天都會產(chǎn)生大量的日志數(shù)據(jù)。對于這些日志信息,我們可以得到出很多有價值的數(shù)據(jù)。通過對這些日志信息進(jìn)行日志采集、收集,然后進(jìn)行數(shù)據(jù)分析,挖掘公司業(yè)務(wù)平臺日志數(shù)據(jù)中的潛在價值。為公司決策和公司后臺服務(wù)器平臺性能評估提高可靠的數(shù)據(jù)保證。系統(tǒng)日志采集系統(tǒng)做的事情就是收集日志數(shù)據(jù)提供離線和在線的實時分析使用。2.2大數(shù)據(jù)技術(shù)框架③數(shù)據(jù)庫數(shù)據(jù):有些企業(yè)會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲數(shù)據(jù)。除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。企業(yè)每時每刻產(chǎn)生的業(yè)務(wù)數(shù)據(jù),以數(shù)據(jù)庫一行記錄形式被直接寫入到數(shù)據(jù)庫中。2.2大數(shù)據(jù)技術(shù)框架2、數(shù)據(jù)存儲層當(dāng)大量的數(shù)據(jù)收集完后,我們需要對大數(shù)據(jù)進(jìn)行存儲。數(shù)據(jù)的存儲分為持久化存儲和非持久化存儲。持久化存儲表示把數(shù)據(jù)存儲在磁盤中,關(guān)機(jī)或斷電后,數(shù)據(jù)依然不會丟失。非持久化存儲表示把數(shù)據(jù)存儲在內(nèi)存中,讀寫速度快,但是關(guān)機(jī)或斷電后,數(shù)據(jù)丟失。2.2大數(shù)據(jù)技術(shù)框架對于持久化存儲而言,最關(guān)鍵的概念就是文件系統(tǒng)和數(shù)據(jù)庫系統(tǒng)。常見的分布式文件系統(tǒng)HDFS、對應(yīng)的分布式非關(guān)系型數(shù)據(jù)庫系統(tǒng)Hbase,以及另一個非關(guān)系型數(shù)據(jù)庫MongoDB。而支持非持久化的系統(tǒng),包括Redis、BerkeleyDB等,則為前述的存儲數(shù)據(jù)庫提供了緩存機(jī)制,可以大幅地提升系統(tǒng)的響應(yīng)速度,降低持久化存儲的壓力。2.2大數(shù)據(jù)技術(shù)框架3、數(shù)據(jù)處理層當(dāng)我們把數(shù)據(jù)收集好了、數(shù)據(jù)存儲以及讀寫也都沒有問題,我們手握著這一堆數(shù)據(jù)干嘛呢?除了保存原始數(shù)據(jù),做好數(shù)據(jù)備份之外,我們還需要考慮到利用他們產(chǎn)生更大的價值。那么首先我們需要對這些數(shù)據(jù)進(jìn)行處理。大數(shù)據(jù)處理分為兩類,批量處理(離線處理)和實時處理(在線處理)。2.2大數(shù)據(jù)技術(shù)框架在線處理就是指對實時響應(yīng)要求非常高的處理,如數(shù)據(jù)庫的一次查詢。而離線處理就是對實時響應(yīng)沒有要求的處理,如批量地壓縮文檔。通過消息機(jī)制可以提升處理的及時性。在離線批處理方面,Hadoop的MapReduce計算是一種非常適合的離線批處理框架。為了提升效率,下一代的更迅速的計算框架Spark提供了流式計算框架,進(jìn)一步提升處理的實時性。2.2大數(shù)據(jù)技術(shù)框架4、數(shù)據(jù)治理與建模層數(shù)據(jù)收集、數(shù)據(jù)存儲和數(shù)據(jù)處理是大數(shù)據(jù)架構(gòu)的基礎(chǔ)設(shè)置。一般情況下,完成以上三個層次的數(shù)據(jù)工作,已經(jīng)將數(shù)據(jù)轉(zhuǎn)化為基礎(chǔ)數(shù)據(jù),為上層的業(yè)務(wù)應(yīng)用提供支撐。但是大數(shù)據(jù)時代,數(shù)據(jù)類型多樣,單位價值稀疏的特點,要求對數(shù)據(jù)進(jìn)行治理和融合建模。2.2大數(shù)據(jù)技術(shù)框架通過利用R語言、Python等對數(shù)據(jù)進(jìn)行ETL預(yù)處理,然后再根據(jù)算法模型、業(yè)務(wù)模型進(jìn)行融合建模,從而更好地為業(yè)務(wù)應(yīng)用提供優(yōu)質(zhì)底層數(shù)據(jù)。在對數(shù)據(jù)進(jìn)行ETL處理和建模后,需要對獲取的數(shù)據(jù)進(jìn)行進(jìn)一步管理,可以采用相關(guān)的數(shù)據(jù)管理工具,包括元數(shù)據(jù)管理工具、數(shù)據(jù)質(zhì)量管理工具、數(shù)據(jù)標(biāo)準(zhǔn)管理工具等,實現(xiàn)數(shù)據(jù)的全方位管理。2.2大數(shù)據(jù)技術(shù)框架5、數(shù)據(jù)應(yīng)用層數(shù)據(jù)應(yīng)用層是大數(shù)據(jù)技術(shù)和應(yīng)用的目標(biāo)。通常包括信息檢索、關(guān)聯(lián)分析等功能。相當(dāng)多的開源項目為信息檢索的實現(xiàn)提供了可能。大數(shù)據(jù)架構(gòu)為大數(shù)據(jù)的業(yè)務(wù)應(yīng)用提供了一種通用的架構(gòu),還需要根據(jù)行業(yè)領(lǐng)域、公司技術(shù)積累以及業(yè)務(wù)場景,從業(yè)務(wù)需求、產(chǎn)品設(shè)計、技術(shù)選型到實現(xiàn)方案流程上具體問題具體分析,利用大數(shù)據(jù)可視化技術(shù),進(jìn)一步深入,形成更為明確的應(yīng)用,包括基于大數(shù)據(jù)交易與共享、基于開發(fā)平臺的大數(shù)據(jù)應(yīng)用、基于大數(shù)據(jù)的工具應(yīng)用等。2.3應(yīng)用案例之二
2.3應(yīng)用案例二:在“北上廣”打拼是怎樣一種體驗?1.北上廣的“飄”們都來自哪里?根據(jù)衛(wèi)計委年數(shù)據(jù),全國9433萬跨省流動人口,超過1/5涌入了北京、上海、廣州三個城市。特別是廣州,外來人口數(shù)量已經(jīng)超過了常住戶籍人口,而北京和上海,本地人和外地人的比例分別是1.6:1和1.44:1。2.3應(yīng)用案例之二
到“北上廣”等大都市去闖蕩、打拼,是很多年輕人的夢想。即便是在高房價、高物價、交通擁堵、空氣污染下被迫離開的人,也有相當(dāng)一部分重新回來。這些遠(yuǎn)離親人,選擇面對生活的艱苦和孤獨的年輕人,究竟是怎樣的群體,又過著什么樣的生活?通過大數(shù)據(jù)分析,你或許能了解一二。
“北上廣”的本地人與外地人數(shù)量(萬)詳見圖2.3。2.3應(yīng)用案例之二
“北上廣”的本地人與外地人數(shù)量(萬)
2.3應(yīng)用案例之二
從外來人口來源省份看,北京、上海、廣州分別在華北、華中、華南地區(qū)以吸收周邊鄰省人口為主。而作為人口流出大省的河南、湖北,則同時進(jìn)入了“北上廣”外來人口數(shù)量排名的前五,可見其南北通吃、勢力強(qiáng)大。2.3應(yīng)用案例之二
2.年紀(jì)輕、學(xué)歷高,或許更能站穩(wěn)腳跟?在“北上廣”,拼搏奮斗的核心人群在20-40歲之間,占整體外來人口比例都超過75%。但從年齡結(jié)構(gòu)比較,上海的年輕群體年齡段更為集中,北京45歲以上人群占比明顯大于其他,而廣州外來人口的年齡構(gòu)成則更偏向年輕化,見圖2.4。2.3應(yīng)用案例之二
外來人口年齡結(jié)構(gòu)2.3應(yīng)用案例之二
發(fā)現(xiàn)收入是他們生活質(zhì)量的重要因素之一,更是堅守或逃離“北上廣”的關(guān)鍵。從調(diào)查數(shù)據(jù)來看,影響收入最關(guān)鍵的因素被認(rèn)為是學(xué)歷。
詳見下圖外來人口學(xué)歷構(gòu)成。2.3應(yīng)用案例之二
“流動中國”調(diào)查數(shù)據(jù)顯示,廣州本科及以上學(xué)歷的青年人群比例確實遠(yuǎn)低于北京和上海,這或許是高學(xué)歷年輕人在廣州更“吃香”的一個原因。另外,在上海、廣州的外來年輕人和全國同齡流動人口一樣,以從事制造業(yè)為主,約占四成左右,其次是批發(fā)零售、建筑、社會服務(wù)等行業(yè)。不過,北京的情況較為不同,從事制造業(yè)的比重明顯較低,從事互聯(lián)網(wǎng)、金融、房地產(chǎn)的明顯高于其他二者。這與北京外來青年學(xué)歷層次較高及城市功能定位有關(guān)。2.3應(yīng)用案例之二
外來人口就業(yè)行業(yè)構(gòu)成
2.3應(yīng)用案例之二
3.一樣的“飄”,卻分出了上、中、下
在“北上廣”三地,外來人口的住房情況大體一致,均有過半數(shù)人租房居住。北京人均租房平均月支出超過全國平均水平70%,幾乎是用于食品的月支出的兩倍??梢娮夥康幕ㄤN最讓“北漂”們?nèi)馔础!傲鲃又袊闭{(diào)查數(shù)據(jù)中,廣州的老板們能給解決住宿的比例最高,這一點格外明顯。詳見圖2.7外來人群居住狀態(tài)。2.3應(yīng)用案例之二
外來人群的居住狀態(tài)2.3應(yīng)用案例之二
當(dāng)然,在不同歷史和政策背景下,“北上廣”三地也均形成了外來人口聚居的城中村,作為多數(shù)人“停泊”的首站。隨著房價持續(xù)上漲,北京的“蟻族”,上海的“蝸居”曾一度在公眾中流行。比較“北上廣”的城中村,著實是一個有趣的話題,下圖2.8外來人群的居住狀態(tài)及房屋空間變化呈現(xiàn)了其中的不同。2.3應(yīng)用案例之二
廣州的城中村散布在城市中的各個角落,規(guī)模和占地都較大;上海的則分布在內(nèi)環(huán)外靠近外圍地區(qū),且規(guī)模較小;北京城中村主要分布在城市建成區(qū)邊緣地帶,約為五環(huán)附近。2.3應(yīng)用案例之二
城中村區(qū)域分布及房屋空間變化
2.3應(yīng)用案例之二
而更為有趣的是,在大量外來人口涌入后,“北上廣”三地城中村內(nèi)房屋空間的變化。北京多為不斷下壓的空間。在北京圈層的外擴(kuò)中,內(nèi)城的城中村逐步被拆遷。城郊村在形態(tài)上更多的呈現(xiàn)一種原始聚集村落形式,多為一層或兩層的平房,每戶擁有自己的院落房屋,部分有地下室。2.3應(yīng)用案例之二
上海則多是不斷向內(nèi)擠壓空間。對于管治最為嚴(yán)格的上海,一方面迫于強(qiáng)硬的政策與監(jiān)管,一方面又擁有異常旺盛的住房需求,所以只能在漫長的“等待拆遷”中通過內(nèi)部擠壓的方法“塞”進(jìn)更多的人。村內(nèi)原有的樓梯間、獨立廚房、獨立洗手間、院落等均被改造和分隔成住房。相比較北京和上海,廣州的城市監(jiān)管較為松散,城中村多加向上加建房屋,表現(xiàn)出一種不斷加建的空間。2.3應(yīng)用案例之二
4.雖然可能并不幸福,但還是希望融入青年們的人際交往狀況又是如何?《中國流動人口發(fā)展報告》的結(jié)論是,北京、上海的外來青年中6.3%、11.4%很少與人交往。其中,上海的外來青年很少與取得上海戶籍的同鄉(xiāng)及本地
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 股份轉(zhuǎn)讓協(xié)議書:2025年度美容院3篇
- 二零二五年度重型貨車股權(quán)轉(zhuǎn)讓合同標(biāo)準(zhǔn)范本3篇
- 2025年度光伏發(fā)電項目搭設(shè)鋼管腳手架施工規(guī)范合同4篇
- 二零二五年度二手手機(jī)回收與翻新交易合同4篇
- 2025年度智能家居廚房承包合同書范本3篇
- 二零二五版綠色建筑評價合同范本3篇
- 2025年定值商鋪保險合同
- 2025年度專業(yè)二手車交易平臺車輛委托管理協(xié)議3篇
- 2024版地產(chǎn)銷售居間合同協(xié)議書范本(特色小鎮(zhèn))3篇
- 二零二五年度商業(yè)大樓樓頂綠化租賃合同3篇
- 中介費合同范本(2025年)
- 《kdigo專家共識:補(bǔ)體系統(tǒng)在腎臟疾病的作用》解讀
- 生產(chǎn)調(diào)度員崗位面試題及答案(經(jīng)典版)
- 交通運輸安全生產(chǎn)管理規(guī)范
- 2025春夏運動戶外行業(yè)趨勢白皮書
- 電力行業(yè) 電力施工組織設(shè)計(施工方案)
- 《法制宣傳之盜竊罪》課件
- 通信工程單位勞動合同
- 查對制度 課件
- 2024-2030年中國豬肉市場銷售規(guī)模及競爭前景預(yù)測報告~
- 2024年三人工程合伙協(xié)議書
評論
0/150
提交評論