信息技術(shù)應(yīng)用 課件-第3章 大數(shù)據(jù)技術(shù)_第1頁
信息技術(shù)應(yīng)用 課件-第3章 大數(shù)據(jù)技術(shù)_第2頁
信息技術(shù)應(yīng)用 課件-第3章 大數(shù)據(jù)技術(shù)_第3頁
信息技術(shù)應(yīng)用 課件-第3章 大數(shù)據(jù)技術(shù)_第4頁
信息技術(shù)應(yīng)用 課件-第3章 大數(shù)據(jù)技術(shù)_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第三章大數(shù)據(jù)技術(shù)3.1大數(shù)據(jù)的由來案例導(dǎo)讀——案例1:地震預(yù)測(cè)呼喚大數(shù)據(jù)每年,地震在全球范圍內(nèi)導(dǎo)致超過1.3萬人死亡,500萬人受傷或財(cái)產(chǎn)受損,每年造成的經(jīng)濟(jì)損失高達(dá)120億美元。多年以來,科學(xué)家們主要依靠對(duì)震頻的監(jiān)測(cè)來預(yù)測(cè)地震。盡管還有很多潛在的地震預(yù)警信號(hào),如大氣條件的變化或大量蛇群的遷移,但基于這些信號(hào)做出的預(yù)測(cè)準(zhǔn)確率太低,無法在現(xiàn)實(shí)中實(shí)施??茖W(xué)家們利用大數(shù)據(jù)技術(shù)對(duì)來自衛(wèi)星和氣象領(lǐng)域的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,開啟了一種全新的地震預(yù)測(cè)方法。該項(xiàng)技術(shù)可以幫助人類最早能提前30天預(yù)測(cè)到全球主要地震多發(fā)國家即將發(fā)生的震級(jí)6級(jí)以上的大地震,精準(zhǔn)度已經(jīng)達(dá)到90%。曾經(jīng)提前9天預(yù)測(cè)到了2015年3月3日在印尼發(fā)生的6.4級(jí)地震。案例1:地震預(yù)測(cè)呼喚大數(shù)據(jù)案例導(dǎo)讀——案例2:山東省淄博市高青縣:數(shù)字特產(chǎn)商城帶動(dòng)“亮村共富”“以數(shù)智點(diǎn)亮鄉(xiāng)村,帶動(dòng)產(chǎn)業(yè)發(fā)展,推動(dòng)鄉(xiāng)村振興”,高青縣緊緊抓住用好農(nóng)業(yè)數(shù)字時(shí)代重大機(jī)遇,立足農(nóng)業(yè)資源稟賦和產(chǎn)業(yè)化優(yōu)勢(shì),凝心聚力推進(jìn)數(shù)字鄉(xiāng)村體系建設(shè),以數(shù)字技術(shù)改造提升農(nóng)業(yè)全鏈條、農(nóng)村各領(lǐng)域和農(nóng)民新生活,推動(dòng)農(nóng)業(yè)向規(guī)模化、高端化、綠色化、智慧化轉(zhuǎn)型升級(jí)。高青縣以農(nóng)業(yè)農(nóng)村大數(shù)據(jù)平臺(tái)為基礎(chǔ),服務(wù)經(jīng)營主體和村民。利用大數(shù)據(jù)平臺(tái),獲取經(jīng)營主體信息、生產(chǎn)信息、種植環(huán)境信息、土地利用信息、農(nóng)作物長勢(shì)信息以及農(nóng)業(yè)投入品、農(nóng)機(jī)使用等數(shù)據(jù),對(duì)農(nóng)業(yè)產(chǎn)業(yè)的整體情況做實(shí)時(shí)、動(dòng)態(tài)分析,為經(jīng)營主體提供適合農(nóng)作物生長、適合市場(chǎng)需求的種植建議,運(yùn)用現(xiàn)代科技幫農(nóng)民把地種好、把農(nóng)產(chǎn)品賣好。通過大數(shù)據(jù)分析,反映消費(fèi)群體對(duì)優(yōu)質(zhì)農(nóng)產(chǎn)品的購買需求和購買能力以及喜歡的購買渠道和方式,讓生產(chǎn)者看到優(yōu)質(zhì)農(nóng)產(chǎn)品帶來的溢價(jià)和復(fù)購率,以市場(chǎng)和消費(fèi)者認(rèn)同的方式開展標(biāo)準(zhǔn)化生產(chǎn),降低生產(chǎn)風(fēng)險(xiǎn),提高產(chǎn)品價(jià)值,促進(jìn)農(nóng)業(yè)產(chǎn)業(yè)發(fā)展。案例2:山東省淄博市高青縣:數(shù)字特產(chǎn)商城帶動(dòng)“亮村共富”案例導(dǎo)讀——案例2:山東省淄博市高青縣:數(shù)字特產(chǎn)商城帶動(dòng)“亮村共富”“這個(gè)變化,對(duì)于江蘇農(nóng)田算是利好?!苯眨暇┺r(nóng)業(yè)大學(xué)胡高教授團(tuán)隊(duì)聯(lián)合全國測(cè)報(bào)體系在國際著名生態(tài)學(xué)期刊《全球變化生物學(xué)》(英文名《GlobalChangeBiology》)上發(fā)表研究論文,揭示全球變暖背景下,降水和風(fēng)場(chǎng)條件的變化致使我國褐飛虱遷飛模式發(fā)生轉(zhuǎn)變,為遷飛害蟲的準(zhǔn)確測(cè)報(bào)和科學(xué)防控提供了重要理論參考,為推動(dòng)農(nóng)業(yè)強(qiáng)國、助力鄉(xiāng)村全面振興、保障糧食安全做出積極貢獻(xiàn)。南京農(nóng)業(yè)大學(xué)胡高教授團(tuán)隊(duì)基于1978—2019年全國300多個(gè)站點(diǎn)的稻飛虱監(jiān)測(cè)數(shù)據(jù)和相關(guān)氣象資料,研究發(fā)現(xiàn),自2001年以來,影響我國夏季盛行氣流和降水時(shí)空分布的重要大氣環(huán)流系統(tǒng)西太平洋副熱帶高壓(簡稱副高)強(qiáng)度顯著增強(qiáng)、位置明顯西移。受此影響,我國長江以南地區(qū)夏季西南氣流顯著變?nèi)?、降水增加,江淮地區(qū)降水顯著減弱,不利于褐飛虱的遠(yuǎn)距離遷飛,致使華南地區(qū)7月遷出褐飛虱的遷飛距離顯著變短,長江下游地區(qū)褐飛虱遷入量顯著下降。本次研究發(fā)現(xiàn),由于褐飛虱遷飛模式的轉(zhuǎn)變,長江下游不再成為褐飛虱7月份遷飛的主降區(qū)?!皩?duì)于江蘇包括南京來說,這個(gè)研究發(fā)現(xiàn)是好消息。對(duì)于害蟲的防控,依托完整的網(wǎng)絡(luò)系統(tǒng),這些年,江蘇的褐飛虱蟲害確實(shí)較少?!焙哒f。圖3-3為胡高教授團(tuán)隊(duì)在稻田里做研究。案例3:南京高校“科技原創(chuàng)力”|追著害蟲“跑”,用大數(shù)據(jù)預(yù)測(cè)遷飛趨勢(shì)案例導(dǎo)讀——案例4:亞馬遜公司利用大數(shù)據(jù)預(yù)測(cè)消費(fèi)者特征隨著互聯(lián)網(wǎng)的快速發(fā)展和數(shù)字經(jīng)濟(jì)的日益繁榮,大數(shù)據(jù)和人工智能(AI)已經(jīng)成為企業(yè)制定營銷策略的重要工具。亞馬遜作為全球領(lǐng)先的電子商務(wù)平臺(tái),其營銷策略也緊密結(jié)合了大數(shù)據(jù)和AI技術(shù),實(shí)現(xiàn)了精準(zhǔn)的目標(biāo)客戶定位和個(gè)性化的營銷推廣。根據(jù)消費(fèi)者以往的搜索記錄和消費(fèi)記錄等大數(shù)據(jù),推算出消費(fèi)者的消費(fèi)偏好、經(jīng)濟(jì)水平、消費(fèi)習(xí)慣等,甚至可從瀏覽某件商品的時(shí)間推斷消費(fèi)者對(duì)某類商品和品牌的青睞程度,進(jìn)而分析消費(fèi)者購買某種商品的可能性,當(dāng)可能性大于某個(gè)標(biāo)準(zhǔn)時(shí),亞馬遜公司就會(huì)自動(dòng)發(fā)貨。為了提高預(yù)判發(fā)貨的準(zhǔn)確性,降低物流成本,亞馬遜公司采取了一些措施。例如,剛上市的暢銷商品能吸引大量的消費(fèi)者購買,往往會(huì)采用預(yù)判發(fā)貨;對(duì)于經(jīng)常在亞馬遜網(wǎng)站購物且購買力較強(qiáng)的消費(fèi)者,更加傾向于預(yù)判發(fā)貨。此外,還會(huì)根據(jù)消費(fèi)者瀏覽商品的時(shí)間、購買商品的數(shù)量等推算其猶豫時(shí)間,對(duì)于猶豫時(shí)間較短的消費(fèi)者,也會(huì)預(yù)判發(fā)貨?;诖髷?shù)據(jù)的消費(fèi)者行為分析和市場(chǎng)趨勢(shì)預(yù)測(cè),亞馬遜可以為用戶提供個(gè)性化的推薦服務(wù)和定制化產(chǎn)品。例如,通過用戶的購物歷史和瀏覽行為,可以向用戶推薦相關(guān)的產(chǎn)品、服務(wù)和內(nèi)容,提高用戶滿意度和忠誠度。案例4:亞馬遜公司利用大數(shù)據(jù)預(yù)測(cè)消費(fèi)者特征3.1.1大數(shù)據(jù)是什么《華爾街日?qǐng)?bào)》將大數(shù)據(jù)、智能化生產(chǎn)和無線網(wǎng)絡(luò)革命稱為引領(lǐng)未來繁榮的三大技術(shù)變革?!笆澜缃?jīng)濟(jì)論壇”報(bào)告指出大數(shù)據(jù)為新財(cái)富,價(jià)值堪比石油。因此,目前世界各國紛紛將開發(fā)利用大數(shù)據(jù)作為奪取新一輪競(jìng)爭制高點(diǎn)的重要舉措。維基百科對(duì)大數(shù)據(jù)的定義簡單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過可容忍時(shí)間的數(shù)據(jù)集。也就是說,大數(shù)據(jù)是一個(gè)體量特別大、數(shù)據(jù)類別特別多的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。Gartner的定義(3V定義)如下:大數(shù)據(jù)是大容量、高速度和多種類的信息資產(chǎn),需要新的處理形式來實(shí)現(xiàn)增強(qiáng)的決策、洞察力發(fā)現(xiàn)和流程優(yōu)化。目前對(duì)于大數(shù)據(jù)沒有統(tǒng)一的定義,一般認(rèn)為大數(shù)據(jù)(bigdata)指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)泛指大規(guī)模、超大規(guī)模的數(shù)據(jù)集,因可從中挖掘出有價(jià)值的信息而備受關(guān)注,但利用傳統(tǒng)方法無法進(jìn)行有效分析和處理。3.1.2大數(shù)據(jù)是怎么來的大數(shù)據(jù)概念起源于美國,是由思科、威睿、甲骨文、IBM等公司倡議發(fā)展起來的。當(dāng)前,從IT技術(shù)到數(shù)據(jù)積累,都已經(jīng)發(fā)生重大變化。“大數(shù)據(jù)”的名稱來自未來學(xué)家托夫勒所著的《第三次浪潮》。早在1980年,著名未來學(xué)家托夫勒在其所著的《第三次浪潮》中就熱情地將“大數(shù)據(jù)”稱頌為“第三次浪潮的華彩樂章”。《自然》雜志在2008年9月推出了名為“大數(shù)據(jù)”的封面專欄。從2009年開始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)技術(shù)行業(yè)中的熱門詞匯。最早應(yīng)用“大數(shù)據(jù)”的是麥肯錫(McKinsey)公司對(duì)“大數(shù)據(jù)”進(jìn)行收集和分析的設(shè)想,他們發(fā)現(xiàn)各種網(wǎng)絡(luò)平臺(tái)記錄的個(gè)人海量信息具備潛在的商業(yè)價(jià)值,于是投入大量人力物力進(jìn)行調(diào)研,在2011年6月發(fā)布了關(guān)于“大數(shù)據(jù)”的報(bào)告,該報(bào)告對(duì)“大數(shù)據(jù)”的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進(jìn)行了詳盡的分析。該公司在《大數(shù)據(jù):創(chuàng)新、競(jìng)爭和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》報(bào)告中稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來?!丙溈襄a公司的報(bào)告得到了金融界的高度重視,而后逐漸受到了各行各業(yè)的關(guān)注。數(shù)據(jù)不再是社會(huì)生產(chǎn)的“副產(chǎn)物”,而是可被二次乃至多次加工的原料,從中可以探索更大的價(jià)值,數(shù)據(jù)變成了生產(chǎn)資料。大數(shù)據(jù)技術(shù)是以數(shù)據(jù)為本質(zhì)的新一代革命性信息技術(shù),在數(shù)據(jù)挖潛過程中,能夠帶動(dòng)理念、模式、技術(shù)及應(yīng)用實(shí)踐的創(chuàng)新。1.大數(shù)據(jù)概念的起源3.1.2大數(shù)據(jù)是怎么來的(1)信息科技進(jìn)步人們通過社會(huì)網(wǎng)絡(luò)、互聯(lián)網(wǎng)、健康、金融、經(jīng)濟(jì)、交通等活動(dòng)過程所產(chǎn)生的各類數(shù)據(jù),包括微博、病人醫(yī)療記錄、文字、圖形、視頻等信息,呈現(xiàn)出爆炸式增長的趨勢(shì)。(2)互聯(lián)網(wǎng)誕生物聯(lián)網(wǎng)發(fā)展、社交網(wǎng)絡(luò)發(fā)展以及智能終端誕生都成為促進(jìn)數(shù)據(jù)爆炸式增長的因素,數(shù)據(jù)的增長大概遵循摩爾定律。摩爾定律即在信息技術(shù)更新?lián)Q代越來越快的情況下,集成電路上的晶體管數(shù)量增加一倍,性能提高一倍,價(jià)格降低一半。這是電子工業(yè)歷史上第一個(gè)被發(fā)現(xiàn)并得到公認(rèn)的“定律”,它揭示了電子技術(shù)和計(jì)算機(jī)技術(shù)的飛速發(fā)展。如在醫(yī)療領(lǐng)域,各類數(shù)字設(shè)備、科學(xué)實(shí)驗(yàn)與觀察所采集的數(shù)據(jù),如攝像頭不斷產(chǎn)生的數(shù)字信號(hào),醫(yī)療物聯(lián)網(wǎng)不斷產(chǎn)生的人的各項(xiàng)特征值,氣象業(yè)務(wù)系統(tǒng)采集設(shè)備所采集的海量數(shù)據(jù)等。(3)云計(jì)算技術(shù)的發(fā)展云計(jì)算一般由數(shù)量驚人的計(jì)算機(jī)群構(gòu)成,例如谷歌云計(jì)算擁有的服務(wù)器就超過100萬臺(tái),如圖3-7所示,路由器和交換機(jī)讓谷歌的數(shù)據(jù)中心之間進(jìn)行對(duì)話,光纖網(wǎng)絡(luò)速度是平時(shí)家用網(wǎng)速的20萬倍,云計(jì)算讓普通人體驗(yàn)每秒10萬億次的運(yùn)算能力,如此強(qiáng)大的計(jì)算能力,可以模擬核爆炸,預(yù)測(cè)氣候變化和市場(chǎng)發(fā)展趨勢(shì)。2.大數(shù)據(jù)的來源3.1.3大數(shù)據(jù)的3V和5V特征3.1.2大數(shù)據(jù)是怎么來的1.Volume(數(shù)量)最初考慮到數(shù)據(jù)的容量,是指被大數(shù)據(jù)解決方案所處理的數(shù)據(jù)量大,并且在持續(xù)增長。數(shù)據(jù)容量大能夠影響數(shù)據(jù)的獨(dú)立存儲(chǔ)和處理需求,同時(shí)還能對(duì)數(shù)據(jù)準(zhǔn)各、數(shù)據(jù)恢復(fù)、數(shù)據(jù)管理的操作產(chǎn)生影響。如今,存儲(chǔ)的數(shù)據(jù)數(shù)量正在急劇增長中,我們存儲(chǔ)所有事物,包括:環(huán)境數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)等。有關(guān)數(shù)據(jù)量的對(duì)話已從TB級(jí)別轉(zhuǎn)向PB級(jí)別,并且不可避免地會(huì)轉(zhuǎn)向ZB級(jí)別。可是,隨著可供企業(yè)使用的數(shù)據(jù)量不斷增長,可處理、理解和分析的數(shù)據(jù)的比例卻不斷下降。2.Variety(種類、多樣性)數(shù)據(jù)多樣性指的是大數(shù)據(jù)解決方案需要支持多種不同格式、不同類型的數(shù)據(jù)。數(shù)據(jù)多樣性給企業(yè)帶來的挑戰(zhàn)包括數(shù)據(jù)聚合、數(shù)據(jù)交換、數(shù)據(jù)處理和數(shù)據(jù)存儲(chǔ)等。隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的激增,企業(yè)中的數(shù)據(jù)也變得更加復(fù)雜,因?yàn)樗粌H包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來自網(wǎng)頁、互聯(lián)網(wǎng)日志文件(包括單擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動(dòng)和被動(dòng)系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。種類表示所有的數(shù)據(jù)類型。其中,爆發(fā)式增長的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻等,用企業(yè)中主流的關(guān)系型數(shù)據(jù)庫是很難存儲(chǔ)的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。當(dāng)然,在這些數(shù)據(jù)中,有一些是過去就一直存在并保存下來的。和過去不同的是,除了存儲(chǔ),還需要對(duì)這些大數(shù)據(jù)進(jìn)行分析,并從中獲得有用的信息。例如監(jiān)控?cái)z像機(jī)中的視頻數(shù)據(jù)。近年來,超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控?cái)z像機(jī),最初目的是防范盜竊,但現(xiàn)在也出現(xiàn)了使用監(jiān)控?cái)z像機(jī)的視頻數(shù)據(jù)來分析顧客購買行為的案例。3.1.2大數(shù)據(jù)是怎么來的3.Velocity(速度/速率)數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個(gè)重要特征。在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)產(chǎn)生得很快,在極短的時(shí)間內(nèi)就能聚集起大量的數(shù)據(jù)集。從企業(yè)的角度來說,數(shù)據(jù)的速率代表數(shù)據(jù)從進(jìn)入企業(yè)邊緣到能夠馬上進(jìn)行處理的時(shí)間。處理快速的數(shù)據(jù)輸入流,需要企業(yè)設(shè)計(jì)出彈性的數(shù)據(jù)處理方案,同時(shí)也需要強(qiáng)大的數(shù)據(jù)存儲(chǔ)能力。有效處理大數(shù)據(jù)需要在數(shù)據(jù)變化的過程中對(duì)它的數(shù)量和種類執(zhí)行分析,而不只是在它靜止后執(zhí)行分析。根據(jù)數(shù)據(jù)源的不同,速度不可能一直很快。例如,核磁共振掃描圖像不會(huì)像高流量Web服務(wù)器的日志條目生成速度那么快。例如一分鐘內(nèi)能夠生成下列數(shù)據(jù):35萬條推文、300小時(shí)的YouTube視頻、1.71億份電子郵件,以及330GB飛機(jī)引擎的傳感器數(shù)據(jù)。4.Veracity(真實(shí)和準(zhǔn)確)IBM在3V的基礎(chǔ)上又歸納總結(jié)了第四個(gè)V——Veracity(真實(shí)和準(zhǔn)確)。“只有真實(shí)而準(zhǔn)確的數(shù)據(jù)才能讓對(duì)數(shù)據(jù)的管控和治理真正有意義。隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實(shí)性及安全性。”3.1.2大數(shù)據(jù)是怎么來的5.Value(價(jià)值)IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)說:“大數(shù)據(jù)是一個(gè)貌似不知道從哪里冒出來的大的動(dòng)力。但是實(shí)際上,大數(shù)據(jù)并不是新生事物。然而,它確實(shí)正在進(jìn)入主流,并得到重大關(guān)注,這是有原因的。廉價(jià)的存儲(chǔ)、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展、通過云和虛擬化存儲(chǔ)設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動(dòng)著大數(shù)據(jù)。大數(shù)據(jù)不是一個(gè)‘事物’,而是一個(gè)跨多個(gè)信息技術(shù)領(lǐng)域的動(dòng)力/活動(dòng)。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),其被設(shè)計(jì)用于:通過使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取價(jià)值(Value)。3.2大數(shù)據(jù)處理(二維碼)3.2.1大數(shù)據(jù)處理的基本流程(1)數(shù)據(jù)采集數(shù)據(jù)采集(數(shù)據(jù)獲?。┦谴髷?shù)據(jù)處理的最初任務(wù),為大數(shù)據(jù)處理收集足夠的、未經(jīng)加工的原始數(shù)據(jù)。數(shù)據(jù)的來源包括內(nèi)部自有數(shù)據(jù)和外部他營數(shù)據(jù)。(2)數(shù)據(jù)清洗對(duì)海量數(shù)據(jù)進(jìn)行分析時(shí),需要把原始數(shù)據(jù)導(dǎo)入一個(gè)大型分布式的數(shù)據(jù)庫中,并且做一些簡單的清洗和預(yù)處理工作。(3)數(shù)據(jù)存儲(chǔ)在現(xiàn)代大數(shù)據(jù)處理中,海量數(shù)據(jù)的存儲(chǔ)是一門重要的學(xué)科,其研究的目標(biāo)包括如何有效地解決物理存儲(chǔ)媒介的問題。(4)數(shù)據(jù)可視化數(shù)據(jù)可視化,是指依據(jù)圖形、圖像、計(jì)算機(jī)視覺以及用戶界面,通過對(duì)數(shù)據(jù)的表現(xiàn)形式進(jìn)行可視化的解釋。(5)深度學(xué)習(xí)目前人工智能立足于神經(jīng)網(wǎng)絡(luò),進(jìn)行深度學(xué)習(xí),其算法是利用輸入的數(shù)據(jù)自行模擬和構(gòu)建相應(yīng)的模型結(jié)構(gòu)。海量數(shù)據(jù)、高速并行運(yùn)算、更優(yōu)化的算法,促成AI發(fā)展的突破。3.2.1大數(shù)據(jù)處理的基本流程大數(shù)據(jù)技術(shù)框架3.2.1大數(shù)據(jù)處理的基本流程大數(shù)據(jù)處理的基本步驟3.2.1大數(shù)據(jù)處理的基本流程大數(shù)據(jù)處理的金字塔模型3.2.2大數(shù)據(jù)處理工具和技術(shù)發(fā)展趨勢(shì)現(xiàn)有的大數(shù)據(jù)處理工具大多是對(duì)開源的Hadoop平臺(tái)進(jìn)行改進(jìn)并將其應(yīng)用于各種場(chǎng)景。Hadoop完整生態(tài)系統(tǒng)中各子系統(tǒng)都有相應(yīng)大數(shù)據(jù)處理的改進(jìn)產(chǎn)品。(1)大數(shù)據(jù)處理工具目前,大數(shù)據(jù)相關(guān)的技術(shù)和工具非常多,它們成為大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的有力武器,給企業(yè)提供了更多的選擇。隨著大數(shù)據(jù)的不斷發(fā)展和研究,大數(shù)據(jù)各個(gè)環(huán)節(jié)的技術(shù)發(fā)展呈現(xiàn)出新的趨勢(shì)。(3)大數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)云計(jì)算為大數(shù)據(jù)提供了可以彈性擴(kuò)展、相對(duì)便宜的存儲(chǔ)空間和計(jì)算資源,使得中小企業(yè)也可以像亞馬遜一樣通過云計(jì)算來完成大數(shù)據(jù)分析。云計(jì)算IT資源龐大、分布較為廣泛,是異構(gòu)系統(tǒng)較多的企業(yè)及時(shí)準(zhǔn)確處理數(shù)據(jù)的有力方式,甚至是唯一的方式。(2)基于云的數(shù)據(jù)分析平臺(tái)3.3大數(shù)據(jù)的應(yīng)用3.3大數(shù)據(jù)的應(yīng)用3.3大數(shù)據(jù)的應(yīng)用(1)商品零售大數(shù)據(jù)阿里巴巴公司根據(jù)淘寶網(wǎng)上中小企業(yè)的交易狀況篩選出財(cái)務(wù)健康和講究誠信的企業(yè),對(duì)它們發(fā)放無須擔(dān)保的貸款。(3)證監(jiān)會(huì)大數(shù)據(jù)通過建立相關(guān)的模型,設(shè)定一定的預(yù)警指標(biāo),即相關(guān)指標(biāo)達(dá)到某個(gè)預(yù)警點(diǎn)時(shí),監(jiān)控系統(tǒng)會(huì)自動(dòng)報(bào)警。(2)消費(fèi)大數(shù)據(jù)亞馬遜“預(yù)測(cè)式發(fā)貨”的新專利,可以通過對(duì)用戶數(shù)據(jù)的分析,在他們正式下單購物前,提前發(fā)出包裹。3.3大數(shù)據(jù)的應(yīng)用3.3大數(shù)據(jù)的應(yīng)用(4)金融大數(shù)據(jù)阿里“水文模型”會(huì)按小微企業(yè)類目、級(jí)別等統(tǒng)計(jì)商戶的相關(guān)“水文數(shù)據(jù)”。(6)制造業(yè)大數(shù)據(jù)當(dāng)軟件“察覺”風(fēng)扇速度、溫度、濕度或其他變量偏離規(guī)定數(shù)值時(shí),它就會(huì)自動(dòng)調(diào)節(jié)相應(yīng)的機(jī)構(gòu)。(5)金融服務(wù)大數(shù)據(jù)商所聯(lián)合中央氣象臺(tái)及相關(guān)金融機(jī)構(gòu)、產(chǎn)業(yè)主體,積極推進(jìn)該指數(shù)在保險(xiǎn)和場(chǎng)外衍生品等方面的應(yīng)用。3.3大數(shù)據(jù)的應(yīng)用3.3大數(shù)據(jù)的應(yīng)用(7)醫(yī)療大數(shù)據(jù)最新的百度靈醫(yī)智惠醫(yī)療大數(shù)據(jù)解決方案已幫助多家三甲醫(yī)院進(jìn)行數(shù)據(jù)治理及分析,充分挖掘數(shù)據(jù)潛力(9)公安大數(shù)據(jù)大數(shù)據(jù)可以幫助警方定位最易受到不法分子侵?jǐn)_的區(qū)域,創(chuàng)建一張犯罪高發(fā)地區(qū)熱點(diǎn)圖和時(shí)間表。(8)交通大數(shù)據(jù)用戶只需打開百度地圖,搜索目的地,選擇駕車模式規(guī)劃路線,點(diǎn)擊“未來出行”按鍵,即可查看不同時(shí)間段的預(yù)估通行時(shí)間。3.3大數(shù)據(jù)的應(yīng)用3.3大數(shù)據(jù)的應(yīng)用(10)文化傳媒大數(shù)據(jù)系統(tǒng)將用戶視頻點(diǎn)播的基礎(chǔ)數(shù)據(jù)如評(píng)分、播放、快進(jìn)、時(shí)間等存儲(chǔ)在數(shù)據(jù)庫中,然后通過數(shù)據(jù)分析,推斷出用戶可能喜愛的影片,并為他提供定制化的推薦。(12)人體健康大數(shù)據(jù)可穿戴設(shè)備和智能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論