




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章大數(shù)據(jù)技術(shù)3.1大數(shù)據(jù)的由來(lái)案例導(dǎo)讀——案例1:地震預(yù)測(cè)呼喚大數(shù)據(jù)每年,地震在全球范圍內(nèi)導(dǎo)致超過(guò)1.3萬(wàn)人死亡,500萬(wàn)人受傷或財(cái)產(chǎn)受損,每年造成的經(jīng)濟(jì)損失高達(dá)120億美元。多年以來(lái),科學(xué)家們主要依靠對(duì)震頻的監(jiān)測(cè)來(lái)預(yù)測(cè)地震。盡管還有很多潛在的地震預(yù)警信號(hào),如大氣條件的變化或大量蛇群的遷移,但基于這些信號(hào)做出的預(yù)測(cè)準(zhǔn)確率太低,無(wú)法在現(xiàn)實(shí)中實(shí)施??茖W(xué)家們利用大數(shù)據(jù)技術(shù)對(duì)來(lái)自衛(wèi)星和氣象領(lǐng)域的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,開(kāi)啟了一種全新的地震預(yù)測(cè)方法。該項(xiàng)技術(shù)可以幫助人類最早能提前30天預(yù)測(cè)到全球主要地震多發(fā)國(guó)家即將發(fā)生的震級(jí)6級(jí)以上的大地震,精準(zhǔn)度已經(jīng)達(dá)到90%。曾經(jīng)提前9天預(yù)測(cè)到了2015年3月3日在印尼發(fā)生的6.4級(jí)地震。案例1:地震預(yù)測(cè)呼喚大數(shù)據(jù)案例導(dǎo)讀——案例2:山東省淄博市高青縣:數(shù)字特產(chǎn)商城帶動(dòng)“亮村共富”“以數(shù)智點(diǎn)亮鄉(xiāng)村,帶動(dòng)產(chǎn)業(yè)發(fā)展,推動(dòng)鄉(xiāng)村振興”,高青縣緊緊抓住用好農(nóng)業(yè)數(shù)字時(shí)代重大機(jī)遇,立足農(nóng)業(yè)資源稟賦和產(chǎn)業(yè)化優(yōu)勢(shì),凝心聚力推進(jìn)數(shù)字鄉(xiāng)村體系建設(shè),以數(shù)字技術(shù)改造提升農(nóng)業(yè)全鏈條、農(nóng)村各領(lǐng)域和農(nóng)民新生活,推動(dòng)農(nóng)業(yè)向規(guī)?;⒏叨嘶⒕G色化、智慧化轉(zhuǎn)型升級(jí)。高青縣以農(nóng)業(yè)農(nóng)村大數(shù)據(jù)平臺(tái)為基礎(chǔ),服務(wù)經(jīng)營(yíng)主體和村民。利用大數(shù)據(jù)平臺(tái),獲取經(jīng)營(yíng)主體信息、生產(chǎn)信息、種植環(huán)境信息、土地利用信息、農(nóng)作物長(zhǎng)勢(shì)信息以及農(nóng)業(yè)投入品、農(nóng)機(jī)使用等數(shù)據(jù),對(duì)農(nóng)業(yè)產(chǎn)業(yè)的整體情況做實(shí)時(shí)、動(dòng)態(tài)分析,為經(jīng)營(yíng)主體提供適合農(nóng)作物生長(zhǎng)、適合市場(chǎng)需求的種植建議,運(yùn)用現(xiàn)代科技幫農(nóng)民把地種好、把農(nóng)產(chǎn)品賣好。通過(guò)大數(shù)據(jù)分析,反映消費(fèi)群體對(duì)優(yōu)質(zhì)農(nóng)產(chǎn)品的購(gòu)買需求和購(gòu)買能力以及喜歡的購(gòu)買渠道和方式,讓生產(chǎn)者看到優(yōu)質(zhì)農(nóng)產(chǎn)品帶來(lái)的溢價(jià)和復(fù)購(gòu)率,以市場(chǎng)和消費(fèi)者認(rèn)同的方式開(kāi)展標(biāo)準(zhǔn)化生產(chǎn),降低生產(chǎn)風(fēng)險(xiǎn),提高產(chǎn)品價(jià)值,促進(jìn)農(nóng)業(yè)產(chǎn)業(yè)發(fā)展。案例2:山東省淄博市高青縣:數(shù)字特產(chǎn)商城帶動(dòng)“亮村共富”案例導(dǎo)讀——案例2:山東省淄博市高青縣:數(shù)字特產(chǎn)商城帶動(dòng)“亮村共富”“這個(gè)變化,對(duì)于江蘇農(nóng)田算是利好?!苯眨暇┺r(nóng)業(yè)大學(xué)胡高教授團(tuán)隊(duì)聯(lián)合全國(guó)測(cè)報(bào)體系在國(guó)際著名生態(tài)學(xué)期刊《全球變化生物學(xué)》(英文名《GlobalChangeBiology》)上發(fā)表研究論文,揭示全球變暖背景下,降水和風(fēng)場(chǎng)條件的變化致使我國(guó)褐飛虱遷飛模式發(fā)生轉(zhuǎn)變,為遷飛害蟲(chóng)的準(zhǔn)確測(cè)報(bào)和科學(xué)防控提供了重要理論參考,為推動(dòng)農(nóng)業(yè)強(qiáng)國(guó)、助力鄉(xiāng)村全面振興、保障糧食安全做出積極貢獻(xiàn)。南京農(nóng)業(yè)大學(xué)胡高教授團(tuán)隊(duì)基于1978—2019年全國(guó)300多個(gè)站點(diǎn)的稻飛虱監(jiān)測(cè)數(shù)據(jù)和相關(guān)氣象資料,研究發(fā)現(xiàn),自2001年以來(lái),影響我國(guó)夏季盛行氣流和降水時(shí)空分布的重要大氣環(huán)流系統(tǒng)西太平洋副熱帶高壓(簡(jiǎn)稱副高)強(qiáng)度顯著增強(qiáng)、位置明顯西移。受此影響,我國(guó)長(zhǎng)江以南地區(qū)夏季西南氣流顯著變?nèi)?、降水增加,江淮地區(qū)降水顯著減弱,不利于褐飛虱的遠(yuǎn)距離遷飛,致使華南地區(qū)7月遷出褐飛虱的遷飛距離顯著變短,長(zhǎng)江下游地區(qū)褐飛虱遷入量顯著下降。本次研究發(fā)現(xiàn),由于褐飛虱遷飛模式的轉(zhuǎn)變,長(zhǎng)江下游不再成為褐飛虱7月份遷飛的主降區(qū)?!皩?duì)于江蘇包括南京來(lái)說(shuō),這個(gè)研究發(fā)現(xiàn)是好消息。對(duì)于害蟲(chóng)的防控,依托完整的網(wǎng)絡(luò)系統(tǒng),這些年,江蘇的褐飛虱蟲(chóng)害確實(shí)較少。”胡高說(shuō)。圖3-3為胡高教授團(tuán)隊(duì)在稻田里做研究。案例3:南京高?!翱萍荚瓌?chuàng)力”|追著害蟲(chóng)“跑”,用大數(shù)據(jù)預(yù)測(cè)遷飛趨勢(shì)案例導(dǎo)讀——案例4:亞馬遜公司利用大數(shù)據(jù)預(yù)測(cè)消費(fèi)者特征隨著互聯(lián)網(wǎng)的快速發(fā)展和數(shù)字經(jīng)濟(jì)的日益繁榮,大數(shù)據(jù)和人工智能(AI)已經(jīng)成為企業(yè)制定營(yíng)銷策略的重要工具。亞馬遜作為全球領(lǐng)先的電子商務(wù)平臺(tái),其營(yíng)銷策略也緊密結(jié)合了大數(shù)據(jù)和AI技術(shù),實(shí)現(xiàn)了精準(zhǔn)的目標(biāo)客戶定位和個(gè)性化的營(yíng)銷推廣。根據(jù)消費(fèi)者以往的搜索記錄和消費(fèi)記錄等大數(shù)據(jù),推算出消費(fèi)者的消費(fèi)偏好、經(jīng)濟(jì)水平、消費(fèi)習(xí)慣等,甚至可從瀏覽某件商品的時(shí)間推斷消費(fèi)者對(duì)某類商品和品牌的青睞程度,進(jìn)而分析消費(fèi)者購(gòu)買某種商品的可能性,當(dāng)可能性大于某個(gè)標(biāo)準(zhǔn)時(shí),亞馬遜公司就會(huì)自動(dòng)發(fā)貨。為了提高預(yù)判發(fā)貨的準(zhǔn)確性,降低物流成本,亞馬遜公司采取了一些措施。例如,剛上市的暢銷商品能吸引大量的消費(fèi)者購(gòu)買,往往會(huì)采用預(yù)判發(fā)貨;對(duì)于經(jīng)常在亞馬遜網(wǎng)站購(gòu)物且購(gòu)買力較強(qiáng)的消費(fèi)者,更加傾向于預(yù)判發(fā)貨。此外,還會(huì)根據(jù)消費(fèi)者瀏覽商品的時(shí)間、購(gòu)買商品的數(shù)量等推算其猶豫時(shí)間,對(duì)于猶豫時(shí)間較短的消費(fèi)者,也會(huì)預(yù)判發(fā)貨?;诖髷?shù)據(jù)的消費(fèi)者行為分析和市場(chǎng)趨勢(shì)預(yù)測(cè),亞馬遜可以為用戶提供個(gè)性化的推薦服務(wù)和定制化產(chǎn)品。例如,通過(guò)用戶的購(gòu)物歷史和瀏覽行為,可以向用戶推薦相關(guān)的產(chǎn)品、服務(wù)和內(nèi)容,提高用戶滿意度和忠誠(chéng)度。案例4:亞馬遜公司利用大數(shù)據(jù)預(yù)測(cè)消費(fèi)者特征3.1.1大數(shù)據(jù)是什么《華爾街日?qǐng)?bào)》將大數(shù)據(jù)、智能化生產(chǎn)和無(wú)線網(wǎng)絡(luò)革命稱為引領(lǐng)未來(lái)繁榮的三大技術(shù)變革。“世界經(jīng)濟(jì)論壇”報(bào)告指出大數(shù)據(jù)為新財(cái)富,價(jià)值堪比石油。因此,目前世界各國(guó)紛紛將開(kāi)發(fā)利用大數(shù)據(jù)作為奪取新一輪競(jìng)爭(zhēng)制高點(diǎn)的重要舉措。維基百科對(duì)大數(shù)據(jù)的定義簡(jiǎn)單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集。也就是說(shuō),大數(shù)據(jù)是一個(gè)體量特別大、數(shù)據(jù)類別特別多的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。Gartner的定義(3V定義)如下:大數(shù)據(jù)是大容量、高速度和多種類的信息資產(chǎn),需要新的處理形式來(lái)實(shí)現(xiàn)增強(qiáng)的決策、洞察力發(fā)現(xiàn)和流程優(yōu)化。目前對(duì)于大數(shù)據(jù)沒(méi)有統(tǒng)一的定義,一般認(rèn)為大數(shù)據(jù)(bigdata)指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)泛指大規(guī)模、超大規(guī)模的數(shù)據(jù)集,因可從中挖掘出有價(jià)值的信息而備受關(guān)注,但利用傳統(tǒng)方法無(wú)法進(jìn)行有效分析和處理。3.1.2大數(shù)據(jù)是怎么來(lái)的大數(shù)據(jù)概念起源于美國(guó),是由思科、威睿、甲骨文、IBM等公司倡議發(fā)展起來(lái)的。當(dāng)前,從IT技術(shù)到數(shù)據(jù)積累,都已經(jīng)發(fā)生重大變化?!按髷?shù)據(jù)”的名稱來(lái)自未來(lái)學(xué)家托夫勒所著的《第三次浪潮》。早在1980年,著名未來(lái)學(xué)家托夫勒在其所著的《第三次浪潮》中就熱情地將“大數(shù)據(jù)”稱頌為“第三次浪潮的華彩樂(lè)章”?!蹲匀弧冯s志在2008年9月推出了名為“大數(shù)據(jù)”的封面專欄。從2009年開(kāi)始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)技術(shù)行業(yè)中的熱門詞匯。最早應(yīng)用“大數(shù)據(jù)”的是麥肯錫(McKinsey)公司對(duì)“大數(shù)據(jù)”進(jìn)行收集和分析的設(shè)想,他們發(fā)現(xiàn)各種網(wǎng)絡(luò)平臺(tái)記錄的個(gè)人海量信息具備潛在的商業(yè)價(jià)值,于是投入大量人力物力進(jìn)行調(diào)研,在2011年6月發(fā)布了關(guān)于“大數(shù)據(jù)”的報(bào)告,該報(bào)告對(duì)“大數(shù)據(jù)”的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進(jìn)行了詳盡的分析。該公司在《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》報(bào)告中稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!丙溈襄a公司的報(bào)告得到了金融界的高度重視,而后逐漸受到了各行各業(yè)的關(guān)注。數(shù)據(jù)不再是社會(huì)生產(chǎn)的“副產(chǎn)物”,而是可被二次乃至多次加工的原料,從中可以探索更大的價(jià)值,數(shù)據(jù)變成了生產(chǎn)資料。大數(shù)據(jù)技術(shù)是以數(shù)據(jù)為本質(zhì)的新一代革命性信息技術(shù),在數(shù)據(jù)挖潛過(guò)程中,能夠帶動(dòng)理念、模式、技術(shù)及應(yīng)用實(shí)踐的創(chuàng)新。1.大數(shù)據(jù)概念的起源3.1.2大數(shù)據(jù)是怎么來(lái)的(1)信息科技進(jìn)步人們通過(guò)社會(huì)網(wǎng)絡(luò)、互聯(lián)網(wǎng)、健康、金融、經(jīng)濟(jì)、交通等活動(dòng)過(guò)程所產(chǎn)生的各類數(shù)據(jù),包括微博、病人醫(yī)療記錄、文字、圖形、視頻等信息,呈現(xiàn)出爆炸式增長(zhǎng)的趨勢(shì)。(2)互聯(lián)網(wǎng)誕生物聯(lián)網(wǎng)發(fā)展、社交網(wǎng)絡(luò)發(fā)展以及智能終端誕生都成為促進(jìn)數(shù)據(jù)爆炸式增長(zhǎng)的因素,數(shù)據(jù)的增長(zhǎng)大概遵循摩爾定律。摩爾定律即在信息技術(shù)更新?lián)Q代越來(lái)越快的情況下,集成電路上的晶體管數(shù)量增加一倍,性能提高一倍,價(jià)格降低一半。這是電子工業(yè)歷史上第一個(gè)被發(fā)現(xiàn)并得到公認(rèn)的“定律”,它揭示了電子技術(shù)和計(jì)算機(jī)技術(shù)的飛速發(fā)展。如在醫(yī)療領(lǐng)域,各類數(shù)字設(shè)備、科學(xué)實(shí)驗(yàn)與觀察所采集的數(shù)據(jù),如攝像頭不斷產(chǎn)生的數(shù)字信號(hào),醫(yī)療物聯(lián)網(wǎng)不斷產(chǎn)生的人的各項(xiàng)特征值,氣象業(yè)務(wù)系統(tǒng)采集設(shè)備所采集的海量數(shù)據(jù)等。(3)云計(jì)算技術(shù)的發(fā)展云計(jì)算一般由數(shù)量驚人的計(jì)算機(jī)群構(gòu)成,例如谷歌云計(jì)算擁有的服務(wù)器就超過(guò)100萬(wàn)臺(tái),如圖3-7所示,路由器和交換機(jī)讓谷歌的數(shù)據(jù)中心之間進(jìn)行對(duì)話,光纖網(wǎng)絡(luò)速度是平時(shí)家用網(wǎng)速的20萬(wàn)倍,云計(jì)算讓普通人體驗(yàn)每秒10萬(wàn)億次的運(yùn)算能力,如此強(qiáng)大的計(jì)算能力,可以模擬核爆炸,預(yù)測(cè)氣候變化和市場(chǎng)發(fā)展趨勢(shì)。2.大數(shù)據(jù)的來(lái)源3.1.3大數(shù)據(jù)的3V和5V特征3.1.2大數(shù)據(jù)是怎么來(lái)的1.Volume(數(shù)量)最初考慮到數(shù)據(jù)的容量,是指被大數(shù)據(jù)解決方案所處理的數(shù)據(jù)量大,并且在持續(xù)增長(zhǎng)。數(shù)據(jù)容量大能夠影響數(shù)據(jù)的獨(dú)立存儲(chǔ)和處理需求,同時(shí)還能對(duì)數(shù)據(jù)準(zhǔn)各、數(shù)據(jù)恢復(fù)、數(shù)據(jù)管理的操作產(chǎn)生影響。如今,存儲(chǔ)的數(shù)據(jù)數(shù)量正在急劇增長(zhǎng)中,我們存儲(chǔ)所有事物,包括:環(huán)境數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)等。有關(guān)數(shù)據(jù)量的對(duì)話已從TB級(jí)別轉(zhuǎn)向PB級(jí)別,并且不可避免地會(huì)轉(zhuǎn)向ZB級(jí)別??墒?,隨著可供企業(yè)使用的數(shù)據(jù)量不斷增長(zhǎng),可處理、理解和分析的數(shù)據(jù)的比例卻不斷下降。2.Variety(種類、多樣性)數(shù)據(jù)多樣性指的是大數(shù)據(jù)解決方案需要支持多種不同格式、不同類型的數(shù)據(jù)。數(shù)據(jù)多樣性給企業(yè)帶來(lái)的挑戰(zhàn)包括數(shù)據(jù)聚合、數(shù)據(jù)交換、數(shù)據(jù)處理和數(shù)據(jù)存儲(chǔ)等。隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的激增,企業(yè)中的數(shù)據(jù)也變得更加復(fù)雜,因?yàn)樗粌H包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來(lái)自網(wǎng)頁(yè)、互聯(lián)網(wǎng)日志文件(包括單擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動(dòng)和被動(dòng)系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。種類表示所有的數(shù)據(jù)類型。其中,爆發(fā)式增長(zhǎng)的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻等,用企業(yè)中主流的關(guān)系型數(shù)據(jù)庫(kù)是很難存儲(chǔ)的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。當(dāng)然,在這些數(shù)據(jù)中,有一些是過(guò)去就一直存在并保存下來(lái)的。和過(guò)去不同的是,除了存儲(chǔ),還需要對(duì)這些大數(shù)據(jù)進(jìn)行分析,并從中獲得有用的信息。例如監(jiān)控?cái)z像機(jī)中的視頻數(shù)據(jù)。近年來(lái),超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控?cái)z像機(jī),最初目的是防范盜竊,但現(xiàn)在也出現(xiàn)了使用監(jiān)控?cái)z像機(jī)的視頻數(shù)據(jù)來(lái)分析顧客購(gòu)買行為的案例。3.1.2大數(shù)據(jù)是怎么來(lái)的3.Velocity(速度/速率)數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個(gè)重要特征。在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)產(chǎn)生得很快,在極短的時(shí)間內(nèi)就能聚集起大量的數(shù)據(jù)集。從企業(yè)的角度來(lái)說(shuō),數(shù)據(jù)的速率代表數(shù)據(jù)從進(jìn)入企業(yè)邊緣到能夠馬上進(jìn)行處理的時(shí)間。處理快速的數(shù)據(jù)輸入流,需要企業(yè)設(shè)計(jì)出彈性的數(shù)據(jù)處理方案,同時(shí)也需要強(qiáng)大的數(shù)據(jù)存儲(chǔ)能力。有效處理大數(shù)據(jù)需要在數(shù)據(jù)變化的過(guò)程中對(duì)它的數(shù)量和種類執(zhí)行分析,而不只是在它靜止后執(zhí)行分析。根據(jù)數(shù)據(jù)源的不同,速度不可能一直很快。例如,核磁共振掃描圖像不會(huì)像高流量Web服務(wù)器的日志條目生成速度那么快。例如一分鐘內(nèi)能夠生成下列數(shù)據(jù):35萬(wàn)條推文、300小時(shí)的YouTube視頻、1.71億份電子郵件,以及330GB飛機(jī)引擎的傳感器數(shù)據(jù)。4.Veracity(真實(shí)和準(zhǔn)確)IBM在3V的基礎(chǔ)上又歸納總結(jié)了第四個(gè)V——Veracity(真實(shí)和準(zhǔn)確)?!爸挥姓鎸?shí)而準(zhǔn)確的數(shù)據(jù)才能讓對(duì)數(shù)據(jù)的管控和治理真正有意義。隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實(shí)性及安全性?!?.1.2大數(shù)據(jù)是怎么來(lái)的5.Value(價(jià)值)IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)說(shuō):“大數(shù)據(jù)是一個(gè)貌似不知道從哪里冒出來(lái)的大的動(dòng)力。但是實(shí)際上,大數(shù)據(jù)并不是新生事物。然而,它確實(shí)正在進(jìn)入主流,并得到重大關(guān)注,這是有原因的。廉價(jià)的存儲(chǔ)、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展、通過(guò)云和虛擬化存儲(chǔ)設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動(dòng)著大數(shù)據(jù)。大數(shù)據(jù)不是一個(gè)‘事物’,而是一個(gè)跨多個(gè)信息技術(shù)領(lǐng)域的動(dòng)力/活動(dòng)。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),其被設(shè)計(jì)用于:通過(guò)使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取價(jià)值(Value)。3.2大數(shù)據(jù)處理(二維碼)3.2.1大數(shù)據(jù)處理的基本流程(1)數(shù)據(jù)采集數(shù)據(jù)采集(數(shù)據(jù)獲取)是大數(shù)據(jù)處理的最初任務(wù),為大數(shù)據(jù)處理收集足夠的、未經(jīng)加工的原始數(shù)據(jù)。數(shù)據(jù)的來(lái)源包括內(nèi)部自有數(shù)據(jù)和外部他營(yíng)數(shù)據(jù)。(2)數(shù)據(jù)清洗對(duì)海量數(shù)據(jù)進(jìn)行分析時(shí),需要把原始數(shù)據(jù)導(dǎo)入一個(gè)大型分布式的數(shù)據(jù)庫(kù)中,并且做一些簡(jiǎn)單的清洗和預(yù)處理工作。(3)數(shù)據(jù)存儲(chǔ)在現(xiàn)代大數(shù)據(jù)處理中,海量數(shù)據(jù)的存儲(chǔ)是一門重要的學(xué)科,其研究的目標(biāo)包括如何有效地解決物理存儲(chǔ)媒介的問(wèn)題。(4)數(shù)據(jù)可視化數(shù)據(jù)可視化,是指依據(jù)圖形、圖像、計(jì)算機(jī)視覺(jué)以及用戶界面,通過(guò)對(duì)數(shù)據(jù)的表現(xiàn)形式進(jìn)行可視化的解釋。(5)深度學(xué)習(xí)目前人工智能立足于神經(jīng)網(wǎng)絡(luò),進(jìn)行深度學(xué)習(xí),其算法是利用輸入的數(shù)據(jù)自行模擬和構(gòu)建相應(yīng)的模型結(jié)構(gòu)。海量數(shù)據(jù)、高速并行運(yùn)算、更優(yōu)化的算法,促成AI發(fā)展的突破。3.2.1大數(shù)據(jù)處理的基本流程大數(shù)據(jù)技術(shù)框架3.2.1大數(shù)據(jù)處理的基本流程大數(shù)據(jù)處理的基本步驟3.2.1大數(shù)據(jù)處理的基本流程大數(shù)據(jù)處理的金字塔模型3.2.2大數(shù)據(jù)處理工具和技術(shù)發(fā)展趨勢(shì)現(xiàn)有的大數(shù)據(jù)處理工具大多是對(duì)開(kāi)源的Hadoop平臺(tái)進(jìn)行改進(jìn)并將其應(yīng)用于各種場(chǎng)景。Hadoop完整生態(tài)系統(tǒng)中各子系統(tǒng)都有相應(yīng)大數(shù)據(jù)處理的改進(jìn)產(chǎn)品。(1)大數(shù)據(jù)處理工具目前,大數(shù)據(jù)相關(guān)的技術(shù)和工具非常多,它們成為大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的有力武器,給企業(yè)提供了更多的選擇。隨著大數(shù)據(jù)的不斷發(fā)展和研究,大數(shù)據(jù)各個(gè)環(huán)節(jié)的技術(shù)發(fā)展呈現(xiàn)出新的趨勢(shì)。(3)大數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)云計(jì)算為大數(shù)據(jù)提供了可以彈性擴(kuò)展、相對(duì)便宜的存儲(chǔ)空間和計(jì)算資源,使得中小企業(yè)也可以像亞馬遜一樣通過(guò)云計(jì)算來(lái)完成大數(shù)據(jù)分析。云計(jì)算IT資源龐大、分布較為廣泛,是異構(gòu)系統(tǒng)較多的企業(yè)及時(shí)準(zhǔn)確處理數(shù)據(jù)的有力方式,甚至是唯一的方式。(2)基于云的數(shù)據(jù)分析平臺(tái)3.3大數(shù)據(jù)的應(yīng)用3.3大數(shù)據(jù)的應(yīng)用3.3大數(shù)據(jù)的應(yīng)用(1)商品零售大數(shù)據(jù)阿里巴巴公司根據(jù)淘寶網(wǎng)上中小企業(yè)的交易狀況篩選出財(cái)務(wù)健康和講究誠(chéng)信的企業(yè),對(duì)它們發(fā)放無(wú)須擔(dān)保的貸款。(3)證監(jiān)會(huì)大數(shù)據(jù)通過(guò)建立相關(guān)的模型,設(shè)定一定的預(yù)警指標(biāo),即相關(guān)指標(biāo)達(dá)到某個(gè)預(yù)警點(diǎn)時(shí),監(jiān)控系統(tǒng)會(huì)自動(dòng)報(bào)警。(2)消費(fèi)大數(shù)據(jù)亞馬遜“預(yù)測(cè)式發(fā)貨”的新專利,可以通過(guò)對(duì)用戶數(shù)據(jù)的分析,在他們正式下單購(gòu)物前,提前發(fā)出包裹。3.3大數(shù)據(jù)的應(yīng)用3.3大數(shù)據(jù)的應(yīng)用(4)金融大數(shù)據(jù)阿里“水文模型”會(huì)按小微企業(yè)類目、級(jí)別等統(tǒng)計(jì)商戶的相關(guān)“水文數(shù)據(jù)”。(6)制造業(yè)大數(shù)據(jù)當(dāng)軟件“察覺(jué)”風(fēng)扇速度、溫度、濕度或其他變量偏離規(guī)定數(shù)值時(shí),它就會(huì)自動(dòng)調(diào)節(jié)相應(yīng)的機(jī)構(gòu)。(5)金融服務(wù)大數(shù)據(jù)商所聯(lián)合中央氣象臺(tái)及相關(guān)金融機(jī)構(gòu)、產(chǎn)業(yè)主體,積極推進(jìn)該指數(shù)在保險(xiǎn)和場(chǎng)外衍生品等方面的應(yīng)用。3.3大數(shù)據(jù)的應(yīng)用3.3大數(shù)據(jù)的應(yīng)用(7)醫(yī)療大數(shù)據(jù)最新的百度靈醫(yī)智惠醫(yī)療大數(shù)據(jù)解決方案已幫助多家三甲醫(yī)院進(jìn)行數(shù)據(jù)治理及分析,充分挖掘數(shù)據(jù)潛力(9)公安大數(shù)據(jù)大數(shù)據(jù)可以幫助警方定位最易受到不法分子侵?jǐn)_的區(qū)域,創(chuàng)建一張犯罪高發(fā)地區(qū)熱點(diǎn)圖和時(shí)間表。(8)交通大數(shù)據(jù)用戶只需打開(kāi)百度地圖,搜索目的地,選擇駕車模式規(guī)劃路線,點(diǎn)擊“未來(lái)出行”按鍵,即可查看不同時(shí)間段的預(yù)估通行時(shí)間。3.3大數(shù)據(jù)的應(yīng)用3.3大數(shù)據(jù)的應(yīng)用(10)文化傳媒大數(shù)據(jù)系統(tǒng)將用戶視頻點(diǎn)播的基礎(chǔ)數(shù)據(jù)如評(píng)分、播放、快進(jìn)、時(shí)間等存儲(chǔ)在數(shù)據(jù)庫(kù)中,然后通過(guò)數(shù)據(jù)分析,推斷出用戶可能喜愛(ài)的影片,并為他提供定制化的推薦。(12)人體健康大數(shù)據(jù)可穿戴設(shè)備和智能
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 專項(xiàng)5 標(biāo)點(diǎn)(原卷版)
- 河北省石家莊市新樂(lè)一中2024-2025學(xué)年高一下學(xué)期第一次月考生物試題(原卷版+解析版)
- 商品陳列大全
- 2025年初中魯科版(五四學(xué)制)八年級(jí)上冊(cè)第四章第二節(jié)《探究凸透鏡成像規(guī)律》說(shuō)課稿
- 【國(guó)金證券】人形機(jī)器人行業(yè)研究:人形機(jī)器人從理想走進(jìn)現(xiàn)實(shí)
- 英語(yǔ)護(hù)士應(yīng)聘簡(jiǎn)歷
- 2025年廣東省初中學(xué)業(yè)水平考試模擬英語(yǔ)試題(原卷版+解析版)
- 《會(huì)計(jì)信息系統(tǒng)應(yīng)用》課件 學(xué)習(xí)情境2 系統(tǒng)管理和基礎(chǔ)設(shè)置
- 二零二五年度北京市電子產(chǎn)品寄存與智能監(jiān)控服務(wù)協(xié)議
- 二零二五年度辦公空間互換及增值服務(wù)合作協(xié)議
- GB/T 37136-2018電力用戶供配電設(shè)施運(yùn)行維護(hù)規(guī)范
- GB/T 210.1-2004工業(yè)碳酸鈉及其試驗(yàn)方法第1部分:工業(yè)碳酸鈉
- GB/T 19587-2017氣體吸附BET法測(cè)定固態(tài)物質(zhì)比表面積
- 《八段錦教學(xué)》課件
- 醫(yī)務(wù)人員行為規(guī)范及服務(wù)禮儀課件
- 行政職能-PPT課件
- 化工設(shè)計(jì)概論(第二版)完整版課件(全)
- 直播運(yùn)營(yíng)實(shí)戰(zhàn):淘寶直播運(yùn)營(yíng)課件
- 數(shù)據(jù)采集系統(tǒng)基本組成.ppt
- 建設(shè)工程項(xiàng)目施工安全管理流程圖
- (完整版)質(zhì)量目標(biāo)細(xì)化分解方案-橋梁工程
評(píng)論
0/150
提交評(píng)論