版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
云計算與大數(shù)據(jù)6第六節(jié)1、概念:
云是互聯(lián)網(wǎng)的一種比喻說法。云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進入可配置的計算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲,應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進行很少的交互。
通俗的理解,云是互聯(lián)網(wǎng)的一種比喻說法。之所以稱為“云”,是因為互聯(lián)網(wǎng)在某些方面具有現(xiàn)實中云的特征:云一般都較大;它的規(guī)??梢詣討B(tài)伸縮,它的邊界是模糊的;云在空中飄忽不定,無法也無需確定它的具體位置,但它確實存在于某處。云計算的核心思想,是將大量用網(wǎng)絡(luò)連接的計算資源統(tǒng)一管理和調(diào)度云存儲,構(gòu)成一個計算資源池向用戶按需服務(wù)。一、
云計算2、特點超大規(guī)模:“云”具有相當?shù)囊?guī)模,Google云計算已經(jīng)擁有100多萬臺服務(wù)器,Amazon、IBM、微軟和Yahoo等公司的“云”均擁有幾十萬臺服務(wù)器?!霸啤蹦苜x予用戶前所未有的計算能力。虛擬化:支持用戶在任意位置、使用各種終端獲取服務(wù)。所請求的資源來自“云”,而不是固定的有形的實體。高可靠性:“云”使用了數(shù)據(jù)多副本容錯、計算節(jié)點同構(gòu)可互換等措施來保障服務(wù)的高可靠性,使用云計算比使用本地計算機更加可靠。通用性:不針對特定的應(yīng)用,在“云”的支撐下可以構(gòu)造出千變?nèi)f化的應(yīng)用,同一片“云”可以同時支撐不同的應(yīng)用運行。高可伸縮性:“云”的規(guī)模可以動態(tài)伸縮,滿足應(yīng)用和用戶規(guī)模增長的需要。按需服務(wù)和及其廉價性:“云”是一個龐大的資源池,用戶按需購買。“云”的公用性和通用性使資源的利用率大幅提升;“云”設(shè)施可以建在電力資源豐富的地區(qū),從而大幅降低能源成本。因此“云”具有前所未有的性能價格比。一、
云計算3、云計算架構(gòu)一、
云計算1、按照服務(wù)方式分類(1)基礎(chǔ)設(shè)施即服務(wù)層(IaaS):以服務(wù)的形式提供虛擬硬件資源,如虛擬主機、存儲、網(wǎng)絡(luò)、數(shù)據(jù)庫等。用戶無需購買服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備,只需通過互聯(lián)網(wǎng)租賃即可搭建自己的應(yīng)用系統(tǒng)。(2)平臺即服務(wù)層(PaaS):是指云計算服務(wù)商把公有的能力進行提取,以開放的接口,提供給個人及第三方進行開發(fā)及使用。如提供互聯(lián)網(wǎng)應(yīng)用程序接口(API)或運行平臺,用戶基于服務(wù)引擎構(gòu)建該類服務(wù)。(3)軟件即服務(wù)層(SaaS):是一種通過
Internet
提供軟件的商業(yè)模式。廠商將應(yīng)用軟件統(tǒng)一部署在自己的服務(wù)器上,客戶可以根據(jù)自己實際需求,通過互聯(lián)網(wǎng)向廠商定購所需的應(yīng)用軟件服務(wù),按定購服務(wù)的多少和時間長短向廠商支付費用,并通過互聯(lián)網(wǎng)獲得廠商提供的服務(wù)。用戶不用再購買軟件,而改用向提供商租用基于Web的軟件來管理企業(yè)經(jīng)營活動,用戶也無需對軟件進行維護,服務(wù)提供商會全權(quán)管理和維護軟件。軟件廠商在向客戶提供互聯(lián)網(wǎng)應(yīng)用的同時,也提供軟件的離線操作和本地數(shù)據(jù)存儲,讓用戶隨時隨地都可以使用其定購的軟件和服務(wù)。對于許多小型企業(yè)來說,SaaS是采用先進技術(shù)的最好途徑,它消除了企業(yè)購買、構(gòu)建和維護基礎(chǔ)設(shè)施和應(yīng)用程序的需要。在這種模式下,客戶不再像傳統(tǒng)模式那樣花費大量投資用于硬件、軟件、人員,而只需要支出一定的租賃服務(wù)費用,通過互聯(lián)網(wǎng)便可以享受到相應(yīng)的硬件、軟件和維護服務(wù),享有軟件使用權(quán)和不斷升級,這是網(wǎng)絡(luò)應(yīng)用最具效益的營運模式。3、云計算架構(gòu)
國內(nèi)外主要的云計算服務(wù)提供商2、按照運營模式(部署方式)分類(1)私有云私有云是指企業(yè)自己使用的云,它所有提供的服務(wù)不是供外部人員使用,而是供企業(yè)內(nèi)部人員或分支機構(gòu)使用。私有云的部署比較適合于有眾多分支機構(gòu)的政府部門或大型企業(yè)。隨著這些大型企業(yè)數(shù)據(jù)中心的集中化,私有云將會成為企業(yè)部署
IT
系統(tǒng)的主流模式。(2)公共云公共云是指為外部用戶提供服務(wù)的云,它所有的服務(wù)是供外部人員使用,而不是企業(yè)自用。對于使用者而言,公共云的最大優(yōu)點是其所應(yīng)用的程序、服務(wù)及相關(guān)數(shù)據(jù)都存放在云服務(wù)提供商處,自己無需做相應(yīng)的投資和建設(shè)。是目前最流行的云計算模式。(3)混合云混合云把公用云模式與私有云模式結(jié)合在一起,是可供自己和用戶共同使用的云服務(wù)。相比較而言,混合云的部署方式對提供者的要求較高。企業(yè)可以將非關(guān)鍵的應(yīng)用部署到公有云上來降低成本,而將安全性要求很高、非常關(guān)鍵的核心應(yīng)用部署到完全私密的私有云上。3、云計算架構(gòu)
按照運營模式云計算可以分為公共云、私有云和混合云三種。公共云通常是指第三方提供商為用戶提供的通過Internet訪問使用的云,用戶可以使用相應(yīng)的云服務(wù)但并不擁有云計算資源;私有云是指企業(yè)自行搭建的云計算基礎(chǔ)架構(gòu),可以為企業(yè)自身或外部客戶提供獨享的云計算服務(wù),基礎(chǔ)架構(gòu)搭建方擁有云計算資源的自主權(quán);混合云是指既有私有云的基礎(chǔ)架構(gòu),也使用公共云服務(wù)的模式。云計算的運營模式分類云計算是智能制造的重要領(lǐng)域。制造企業(yè)所管理的大量數(shù)據(jù)與云計算平臺相結(jié)合,衍生出了另一個概念——云制造。
云制造是先進的信息技術(shù)、制造技術(shù)以及物聯(lián)網(wǎng)技術(shù)等交叉融合的產(chǎn)品,是制造即服務(wù)理念的體現(xiàn)。云制造依據(jù)包括云計算在內(nèi)的當代信息技術(shù)前沿理念,支持制造業(yè)利用當下環(huán)境中廣泛的網(wǎng)絡(luò)資源,為產(chǎn)品提供高附加值、低成本和全球化制造的服務(wù)。云制造將實現(xiàn)對產(chǎn)品開發(fā)、生產(chǎn)、銷售、使用等全生命周期的相關(guān)資源的整合,提供標準、規(guī)范、可共享的制造服務(wù)模式。
云制造為制造業(yè)信息化提供了一種嶄新的理念與模式,其應(yīng)用是一個長期的階段性漸進的過程。云制造的未來發(fā)展面臨著眾多關(guān)鍵技術(shù)的挑戰(zhàn),除了云計算、物聯(lián)網(wǎng)、高性能計算、嵌入式系統(tǒng)等技術(shù)的綜合集成以外,基于知識的制造資源云端化、制造云管理引擎、云制造的應(yīng)用協(xié)同、云制造可視化技術(shù)與用戶界面等技術(shù)均是未來需要攻克的重要技術(shù)。4、云計算的應(yīng)用:云制造
大數(shù)據(jù),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)主要解決,海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的分析計算問題。最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024(2的十次方)來計算:1Byte=8bit1
KB
=1,024Bytes=8192bit1
MB
=1,024KB=1,048,576Bytes1
GB
=1,024MB=1,048,576KB1
TB
=1,024GB=1,048,576MB1
PB
=1,024TB=1,048,576GB1
EB
=1,024PB=1,048,576TB1
ZB
=1,024EB=1,048,576PB1
YB
=1,024ZB=1,048,576EB1
BB
=1,024YB=1,048,576ZB1
NB
=1,024BB=1,048,576YB1
DB
=1,024NB=1,048,576BB二、工業(yè)大數(shù)據(jù)1、大數(shù)據(jù)(bigdata)的概念1.Volume(大量):
截止目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,而歷史上全人類總共說過的話的數(shù)據(jù)量大約是5EB。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。2.Velocity(高速):這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報告,預(yù)計到2020年,全球數(shù)據(jù)使用量將達到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的就是企業(yè)生命。天貓雙十一2017年3分01秒,天貓交易額超過100億。3.Variety(多樣):類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲的以數(shù)據(jù)庫/文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。4.Value(低價值密度):價值密度的高低與數(shù)據(jù)總量的大小成反比。也就是數(shù)據(jù)量越大,價值密度就越低,如何快速對有價值數(shù)據(jù)“提純”成為目前大數(shù)據(jù)背景下待解決的難題。二、工業(yè)大數(shù)據(jù)2、大數(shù)據(jù)的特點物流倉儲:大數(shù)據(jù)分析系統(tǒng)助力商家精細化運營、提升銷量、節(jié)約成本。零售:分析用戶消費習(xí)慣,為用戶購買商品提供方便,從而提升商品銷量。經(jīng)典案例,紙尿褲+啤酒。旅游:深度結(jié)合大數(shù)據(jù)能力與旅游行業(yè)需求,共建旅游產(chǎn)業(yè)智慧管理、智慧服務(wù)和智慧營銷的未來。商品廣告推薦:給用戶推薦可能喜歡的商品。保險:海量數(shù)據(jù)挖掘及風(fēng)險預(yù)測,助力保險行業(yè)精準營銷,提升精細化定價能力。金融:多維度體現(xiàn)用戶特征,幫助金融機構(gòu)推薦優(yōu)質(zhì)客戶,防范欺詐風(fēng)險。房產(chǎn):大數(shù)據(jù)全面助力房地產(chǎn)行業(yè),打造精準投策與營銷,選出更合適的地,建造更合適的樓,賣給更合適的人。二、工業(yè)大數(shù)據(jù)3、大數(shù)據(jù)的作用工業(yè)大數(shù)據(jù)是指在工業(yè)領(lǐng)域中,圍繞典型智能制造模式,從客戶需求到銷售、訂單、計劃、研發(fā)、設(shè)計、工藝、制造、采購、供應(yīng)、庫存、發(fā)貨和交付、售后服務(wù)、運維、報廢或回收再制造等整個產(chǎn)品全生命周期各個環(huán)節(jié)所產(chǎn)生的各類數(shù)據(jù)及相關(guān)技術(shù)和應(yīng)用的總稱。其以產(chǎn)品數(shù)據(jù)為核心,極大延展了傳統(tǒng)工業(yè)數(shù)據(jù)范圍,同時還包括工業(yè)大數(shù)據(jù)相關(guān)技術(shù)和應(yīng)用。二、工業(yè)大數(shù)據(jù)4、工業(yè)大數(shù)據(jù)的概念產(chǎn)品數(shù)據(jù):設(shè)計、建模、工藝、加工、測試、維護數(shù)據(jù)、產(chǎn)品結(jié)構(gòu)、零部件配置關(guān)系、變更記錄等。運營數(shù)據(jù):組織結(jié)構(gòu)、業(yè)務(wù)管理、生產(chǎn)設(shè)備、市場營銷、質(zhì)量控制、生產(chǎn)、采購、庫存、目標計劃、電子商務(wù)等。價值鏈數(shù)據(jù):客戶、供應(yīng)商、合作伙伴等。外部數(shù)據(jù):經(jīng)濟運行數(shù)據(jù)、行業(yè)數(shù)據(jù)、市場數(shù)據(jù)、競爭對手數(shù)據(jù)等。二、工業(yè)大數(shù)據(jù)4、工業(yè)大數(shù)據(jù)的種類
制造業(yè)企業(yè)需要管理的數(shù)據(jù)種類繁多,涉及大量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù):工業(yè)大數(shù)據(jù)除具有一般大數(shù)據(jù)的特征(數(shù)據(jù)量大、多樣、快速和價值密度低)外,還具有時序性、強關(guān)聯(lián)性、準確性、閉環(huán)性等特征。(1)數(shù)據(jù)容量大(Volume):數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價值和潛在的信息;工業(yè)數(shù)據(jù)體量比較大,大量機器設(shè)備的高頻數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)持續(xù)涌入,大型工業(yè)企業(yè)的數(shù)據(jù)集將達到PB級甚至EB級別。(2)多樣(Variety):指數(shù)據(jù)類型的多樣性和來源廣泛;工業(yè)數(shù)據(jù)分布廣泛,分布于機器設(shè)備、工業(yè)產(chǎn)品、管理系統(tǒng)、互聯(lián)網(wǎng)等各個環(huán)節(jié);并且結(jié)構(gòu)復(fù)雜,既有結(jié)構(gòu)化和半結(jié)構(gòu)化的傳感數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù)。(3)快速(Velocity):指獲得和處理數(shù)據(jù)的速度。工業(yè)數(shù)據(jù)處理速度需求多樣,生產(chǎn)現(xiàn)場級要求時限時間分析達到毫秒級,管理與決策應(yīng)用需要支持交互式或批量數(shù)據(jù)分析。(4)價值密度低(Value):工業(yè)大數(shù)據(jù)更強調(diào)用戶價值驅(qū)動和數(shù)據(jù)本身的可用性,包括:提升創(chuàng)新能力和生產(chǎn)經(jīng)營效率,及促進個性化定制、服務(wù)化轉(zhuǎn)型等智能制造新模式變革。二、工業(yè)大數(shù)據(jù)5、工業(yè)大數(shù)據(jù)的特征
(5)時序性(Sequence):工業(yè)大數(shù)據(jù)具有較強的時序性,如訂單、設(shè)備狀態(tài)數(shù)據(jù)等。(6)強關(guān)聯(lián)性(Strong-Relevance):一方面,產(chǎn)品生命周期同一階段的數(shù)據(jù)具有強關(guān)聯(lián)性,如產(chǎn)品零部件組成、工況、設(shè)備狀態(tài)、維修情況、零部件補充采購等;另一方面,產(chǎn)品生命周期的研發(fā)設(shè)計、生產(chǎn)、服務(wù)等不同環(huán)節(jié)的數(shù)據(jù)之間需要進行關(guān)聯(lián)。(7)準確性(Accuracy):主要指數(shù)據(jù)的真實性、完整性和可靠性,更加關(guān)注數(shù)據(jù)質(zhì)量,以及處理、分析技術(shù)和方法的可靠性。對數(shù)據(jù)分析的置信度要求較高,僅依靠統(tǒng)計相關(guān)性分析不足以支撐故障診斷、預(yù)測預(yù)警等工業(yè)應(yīng)用,需要將物理模型與數(shù)據(jù)模型結(jié)合,挖掘因果關(guān)系。(8)閉環(huán)性(Closed-loop):包括產(chǎn)品全生命周期橫向過程中數(shù)據(jù)鏈條的封閉和關(guān)聯(lián),以及智能制造縱向數(shù)據(jù)采集和處理過程中,需要支撐狀態(tài)感知、分析、反饋、控制等閉環(huán)場景下的動態(tài)持續(xù)調(diào)整和優(yōu)化。由于以上特征,工業(yè)大數(shù)據(jù)作為大數(shù)據(jù)的一個應(yīng)用行業(yè),在具有廣闊應(yīng)用前景的同時,對于傳統(tǒng)的數(shù)據(jù)管理技術(shù)與數(shù)據(jù)分析技術(shù)也提出了很大的挑戰(zhàn)。二、工業(yè)大數(shù)據(jù)5、工業(yè)大數(shù)據(jù)的特征
(5)時序性(Sequence):工業(yè)大數(shù)據(jù)具有較強的時序性,如訂單、設(shè)備狀態(tài)數(shù)據(jù)等。(6)強關(guān)聯(lián)性(Strong-Relevance):一方面,產(chǎn)品生命周期同一階段的數(shù)據(jù)具有強關(guān)聯(lián)性,如產(chǎn)品零部件組成、工況、設(shè)備狀態(tài)、維修情況、零部件補充采購等;另一方面,產(chǎn)品生命周期的研發(fā)設(shè)計、生產(chǎn)、服務(wù)等不同環(huán)節(jié)的數(shù)據(jù)之間需要進行關(guān)聯(lián)。(7)準確性(Accuracy):主要指數(shù)據(jù)的真實性、完整性和可靠性,更加關(guān)注數(shù)據(jù)質(zhì)量,以及處理、分析技術(shù)和方法的可靠性。對數(shù)據(jù)分析的置信度要求較高,僅依靠統(tǒng)計相關(guān)性分析不足以支撐故障診斷、預(yù)測預(yù)警等工業(yè)應(yīng)用,需要將物理模型與數(shù)據(jù)模型結(jié)合,挖掘因果關(guān)系。(8)閉環(huán)性(Closed-loop):包括產(chǎn)品全生命周期橫向過程中數(shù)據(jù)鏈條的封閉和關(guān)聯(lián),以及智能制造縱向數(shù)據(jù)采集和處理過程中,需要支撐狀態(tài)感知、分析、反饋、控制等閉環(huán)場景下的動態(tài)持續(xù)調(diào)整和優(yōu)化。由于以上特征,工業(yè)大數(shù)據(jù)作為大數(shù)據(jù)的一個應(yīng)用行業(yè),在具有廣闊應(yīng)用前景的同時,對于傳統(tǒng)的數(shù)據(jù)管理技術(shù)與數(shù)據(jù)分析技術(shù)也提出了很大的挑戰(zhàn)。二、工業(yè)大數(shù)據(jù)5、工業(yè)大數(shù)據(jù)的特征
二、工業(yè)大數(shù)據(jù)6、工業(yè)大數(shù)據(jù)的應(yīng)用
企業(yè)所積累的數(shù)據(jù)量以越來越快的速度在增加,很多企業(yè)也就順勢將大數(shù)據(jù)技術(shù)引入企業(yè)的生產(chǎn)經(jīng)營中。大數(shù)據(jù)在工業(yè)企業(yè)的應(yīng)用主要體現(xiàn)在三方面:
一是基于數(shù)據(jù)的產(chǎn)品價值挖掘。通過對產(chǎn)品及相關(guān)數(shù)據(jù)進行二次挖掘,創(chuàng)造新價值。
二是提升服務(wù)型生產(chǎn)。提升服務(wù)型生產(chǎn)就是增加服務(wù)在生產(chǎn)(產(chǎn)品)的價值比重。
三是創(chuàng)新商業(yè)模式。商業(yè)模式創(chuàng)新主要體現(xiàn)在兩個方面,一是基于工業(yè)大數(shù)據(jù),工業(yè)企業(yè)對外能提供什么樣的創(chuàng)新性商業(yè)服務(wù);二是在工業(yè)大數(shù)據(jù)背景下,能接受什么樣的新型的商業(yè)服務(wù)。
三、云計算與大數(shù)據(jù)的關(guān)系云計算與大數(shù)據(jù)之間是相輔相成,相得益彰的關(guān)系。大數(shù)據(jù)挖掘處理需要云計算作為平臺,而大數(shù)據(jù)涵蓋的價值和規(guī)律則能夠使云計算更好的與行業(yè)應(yīng)用結(jié)合并發(fā)揮更大的作用。云計算將計算資源作為服務(wù)支撐大數(shù)據(jù)的挖掘,而大數(shù)據(jù)的發(fā)展趨勢是對實時交互的海量數(shù)據(jù)查詢、分析提供了各自需要的價值信息。云計算是硬件資源的虛擬化,關(guān)鍵在于是集合這些大數(shù)據(jù);大數(shù)據(jù)是海量數(shù)據(jù)的高效處理,重點在于捕捉和計算。云計算的云計算技術(shù)就是一個容器,大數(shù)據(jù)正是存放在這個容器中的水,大數(shù)據(jù)是要依靠云計算技術(shù)來進行存儲和計算的。云計算將計算資源作為服務(wù)支撐大數(shù)據(jù)的挖掘,而大數(shù)據(jù)涵蓋的價值和規(guī)律則能夠使云計算更好的與行業(yè)應(yīng)用結(jié)合并發(fā)揮更大的作用;大數(shù)據(jù)的信息隱私保護是云計算大數(shù)據(jù)快速發(fā)展和運用的重要前提,而云計算與大數(shù)據(jù)相結(jié)合將成為人類認識事物的新的工具。
大數(shù)據(jù)的信息隱私保護是云計算大數(shù)據(jù)快速發(fā)展和運用的重要前提。沒有信息安全也就沒有云服務(wù)的安全。產(chǎn)業(yè)及服務(wù)要健康、快速的發(fā)展就需要得到用戶的信賴,就需要科技界和產(chǎn)業(yè)界更加重視云計算的安全問題,更加注意大數(shù)據(jù)挖掘中的隱私保護問題。從技術(shù)層面進行深度的研發(fā),嚴防和打擊病毒和黑客的攻擊。同時加快立法的進度,維護良好的信息服務(wù)的環(huán)境。全球互聯(lián)網(wǎng)流量數(shù)據(jù)二、云計算大數(shù)據(jù)平臺的主要技術(shù)框架(一)Hadoop簡介Hadoop是一個海量數(shù)據(jù)分布式處理的開源軟件框架,Hadoop能支持PB級海量數(shù)據(jù),可擴展性強??煽?、高效、可擴展和開源的特性,使Hadoop技術(shù)得到了迅猛發(fā)展,并在2008年成為Apache的頂級項目。從2003年Google公開發(fā)布MapReduce的思想,到2006年Amazon使用Hadoop成為全球最早提供成熟云計算服務(wù)的供應(yīng)商之一,再到如今IBM、微軟、DELL、EMC2、阿里巴巴、騰訊各大國內(nèi)外廠商都商用了自己的Hadoop平臺,Hadoop已經(jīng)取得了輝煌的成績,得到了越來越廣泛的應(yīng)用?;贖adoop的數(shù)據(jù)倉庫架構(gòu)設(shè)計(二)Spark簡介Spark是一款開源的基于內(nèi)存計算的分布式計算系統(tǒng),能夠?qū)Υ髷?shù)據(jù)進行快速分析處理。Spark項目2010年由加州伯克利大學(xué)AMP實驗室開發(fā),2014年2月,Spark成為Apache軟件基金會的頂級開源項目,Spark基于內(nèi)存計算實現(xiàn),加快了數(shù)據(jù)分析處理速度。HadoopMapReduce以批處理方式處理數(shù)據(jù),每個任務(wù)都需要HDFS的讀寫,耗時較大,在機器學(xué)習(xí)和數(shù)據(jù)庫查詢等數(shù)據(jù)計算過程中,Spark的處理速度可以達到HadoopMapReduce的100倍以上。因此,對于實時要求較高的分析處理,Spark較為適用;對于非實時的海量數(shù)據(jù)分析應(yīng)用,HadoopMapReduce更加合適。三、國內(nèi)外大數(shù)據(jù)/云計算平臺的應(yīng)用現(xiàn)狀(一)Hadoop的應(yīng)用1.國外企業(yè)Facebook、Amazon、Yahoo、Twitter和Hulu等互聯(lián)網(wǎng)信息提供商和電商基于Hadoop平臺為用戶提供快速的服務(wù)和精準的分析。IBM、甲骨文和HP等解決方案提供商、設(shè)備商,主要基于Hadoop架構(gòu)為企業(yè)客戶提供大數(shù)據(jù)應(yīng)用產(chǎn)品和解決方案。(1)百度搜索巨頭百度圍繞數(shù)據(jù)而生,通過語義分析精準理解搜索需求進而從海量數(shù)據(jù)中找準結(jié)果,以及精準的搜索引擎關(guān)鍵字廣告百度基于Hadoop的海量數(shù)據(jù)處理平臺,平均每天處理的任務(wù)數(shù)和數(shù)據(jù)量分別超過120000個和20PB。2.國內(nèi)企業(yè)在此方面,知名國內(nèi)企業(yè)有百度、阿里巴巴、騰訊(BAT)和華為、中興等。(2)阿里巴巴淘寶是目前中國最大的C2C電子商務(wù)平臺,也是國內(nèi)第一批采用Hadoop技術(shù)進行數(shù)據(jù)平臺升級的公司之一。從2008年開始,淘寶就開始研究基于Hadoop的數(shù)據(jù)處理平臺“云梯(CloudLadder)”云梯使用的Hadoop集群是全國最大的Hadoop集群之一,它支撐了淘寶整個數(shù)據(jù)分析工作,目前整個集群達到1700個節(jié)點,數(shù)據(jù)總?cè)萘?4.3PB,并且以每天255TB的速度不斷增長。(3)騰訊騰訊是中國互聯(lián)網(wǎng)行業(yè)的旗艦之一,騰訊業(yè)務(wù)已從最初的即時通信工具QQ擴展到涵蓋社交網(wǎng)絡(luò)、在線游戲、電子商務(wù)、新聞門戶、搜索等各類網(wǎng)絡(luò)服務(wù)。騰訊以其自主開發(fā)的臺風(fēng)(Typhoon)云計算平臺進行在線數(shù)據(jù)處理和離線批量數(shù)據(jù)處理。同時,騰訊內(nèi)部的技術(shù)團隊也應(yīng)用Hadoop技術(shù)解決一些海量數(shù)據(jù)環(huán)境下的特殊問題,例如網(wǎng)頁分析、數(shù)據(jù)挖掘等,騰
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《標準理解與實施》課件
- 《盾構(gòu)施工測量培訓(xùn)》課件
- 《員工安全教育講義》課件
- 《測序技術(shù)介紹》課件
- 單位管理制度集合大全職工管理篇
- 單位管理制度集粹選集員工管理篇十篇
- 單位管理制度匯編大全職工管理篇
- 單位管理制度合并匯編【職員管理篇】
- 《客服分析報告會》課件
- 單位管理制度分享合集【人力資源管理】十篇
- 社區(qū)獲得性肺炎診斷和治療指南
- 叉車定期檢驗研究報告
- 人教版一年級數(shù)學(xué)上冊期末無紙筆考試試卷(A卷)【含答案】
- 2,3-二甲苯酚的理化性質(zhì)及危險特性表
- 申報職稱:副教授演示課件
- 型濾池計算說明書
- 格力離心機技術(shù)服務(wù)手冊
- 水泥攪拌樁計算(完美)
- 旭化成離子交換膜的介紹
- JJRB輕鋼龍骨隔墻施工方案要點
- 石油石化用化學(xué)劑產(chǎn)品質(zhì)量認可實施細則
評論
0/150
提交評論