版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
項(xiàng)目8大數(shù)據(jù)在云端目錄1任務(wù)8.1:熟悉云時(shí)代背景下的大數(shù)據(jù)
【導(dǎo)讀案例】亞馬遜,數(shù)據(jù)在云端
【任務(wù)描述】
【知識(shí)準(zhǔn)備】大數(shù)據(jù)的云技術(shù)【作業(yè)】【實(shí)訓(xùn)操作】熟悉云端大數(shù)據(jù)的基礎(chǔ)設(shè)施2任務(wù)8.2:把握大數(shù)據(jù)發(fā)展的未來【導(dǎo)讀案例】亞馬遜,數(shù)據(jù)在云端討論:(1)亞馬遜既是非常著名的消費(fèi)者品牌,又是云計(jì)算基礎(chǔ)設(shè)施服務(wù)供應(yīng)商,你了解其中的關(guān)系嗎?(2)亞馬遜提供的主要的云計(jì)算服務(wù)是什么?(3)還有哪些著名的國(guó)際化企業(yè)在向社會(huì)提供云計(jì)算服務(wù)?(4)請(qǐng)簡(jiǎn)單記述你所知道的上一周內(nèi)發(fā)生的國(guó)
際、國(guó)內(nèi)或者身邊的大事?!救蝿?wù)描述】(1)了解大數(shù)據(jù)基礎(chǔ)設(shè)施的基本概念;(2)了解虛擬化的重要思想,了解計(jì)算虛擬化、存儲(chǔ)虛擬化和網(wǎng)絡(luò)虛擬化的具體內(nèi)容;(3)了解云計(jì)算的基本思想和主要內(nèi)容,了解云計(jì)算與大數(shù)據(jù)的關(guān)系?!局R(shí)準(zhǔn)備】大數(shù)據(jù)的云技術(shù)所謂基礎(chǔ)設(shè)施,是指在IT環(huán)境中,為具體應(yīng)用提供計(jì)算、存儲(chǔ)、互聯(lián)、管理等基礎(chǔ)功能的軟硬件系統(tǒng)。在信息技術(shù)發(fā)展的早期,IT基礎(chǔ)設(shè)施往往由一系列昂貴的,經(jīng)過特殊設(shè)計(jì)的軟硬件設(shè)備組成,存儲(chǔ)容量非常有限,系統(tǒng)之間也沒有高效的數(shù)據(jù)交換通道,應(yīng)用軟件直接運(yùn)行在硬件平臺(tái)上。在這種環(huán)境中,用戶不容易、也沒有必要去區(qū)分哪些部分屬于基礎(chǔ)設(shè)施,哪些部分是應(yīng)用軟件。然而,隨著對(duì)新應(yīng)用的需求不斷涌現(xiàn),IT基礎(chǔ)設(shè)施發(fā)生了翻天覆地的變化。云端大數(shù)據(jù)8.1.18.1.1云端大數(shù)據(jù)摩爾定律在過去的幾十年書寫了奇跡,并且這個(gè)奇跡還在延續(xù)。在這奇跡的背后,是越來越廉價(jià)、越來越高效的計(jì)算能力。有了強(qiáng)大的計(jì)算能力,人類可以處理更為龐大的數(shù)據(jù),而這又帶來對(duì)存儲(chǔ)的需求。再之后,就需要把并行計(jì)算的理論搬上臺(tái)面,更大限度地挖掘IT基礎(chǔ)設(shè)施的潛力。于是,網(wǎng)絡(luò)也蓬勃發(fā)展起來。由于硬件已經(jīng)變得前所未有的復(fù)雜,專門管理硬件資源、為上層應(yīng)用提供運(yùn)行環(huán)境的系統(tǒng)軟件也順應(yīng)歷史潮流,迅速發(fā)展壯大?;诖笠?guī)模數(shù)據(jù)的系列應(yīng)用正在悄然推動(dòng)著IT基礎(chǔ)設(shè)施的發(fā)展,尤其是大數(shù)據(jù)對(duì)海量、高速存儲(chǔ)的需求。為了對(duì)大規(guī)模數(shù)據(jù)進(jìn)行有效的計(jì)算,必須最大限度地利用計(jì)算和網(wǎng)絡(luò)資源。計(jì)算虛擬化和網(wǎng)絡(luò)虛擬化要對(duì)分布式、異構(gòu)的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源進(jìn)行有效的管理。8.1.1云端大數(shù)據(jù)1.什么是云計(jì)算所謂“云計(jì)算”(CloudComputing,圖8-1),是一種基于互聯(lián)網(wǎng)的計(jì)算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計(jì)算機(jī)和其他設(shè)備。云計(jì)算為我們提供了跨地域、高可靠、按需付費(fèi)、所見即所得、快速部署等能力,這些都是長(zhǎng)期以來IT行業(yè)所追尋的。隨著云計(jì)算的發(fā)展,大數(shù)據(jù)正成為云計(jì)算面臨的一個(gè)重大考驗(yàn),云計(jì)算能夠?yàn)橐环荽髷?shù)據(jù)解決方案提供三項(xiàng)必不可少的材料:外部數(shù)據(jù)集、可擴(kuò)展性處
理能力和大容量存儲(chǔ)。
圖8-1云計(jì)算8.1.1云端大數(shù)據(jù)云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說法。過去在圖中往往用云來表示電信網(wǎng),后來也用來表示互聯(lián)網(wǎng)和底層基礎(chǔ)設(shè)施的抽象。云計(jì)算是繼1980年代大型計(jì)算機(jī)到客戶端-服務(wù)器的大轉(zhuǎn)變之后的又一種巨變。用戶不再需要了解“云”中基礎(chǔ)設(shè)施的細(xì)節(jié),不必具有相應(yīng)的專業(yè)知識(shí),也無需直接進(jìn)行控制。云計(jì)算描述了一種基于互聯(lián)網(wǎng)的新的IT服務(wù)增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動(dòng)態(tài)易擴(kuò)展,而且經(jīng)常是虛擬化的資源,它意味著計(jì)算能力也可作為一種商品通過互聯(lián)網(wǎng)進(jìn)行流通。8.1.1云端大數(shù)據(jù)Wiki(維基)的定義是:云計(jì)算是一種通過因特網(wǎng)以服務(wù)的方式提供動(dòng)態(tài)可伸縮的虛擬化的資源的計(jì)算模式。美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)的定義是:云計(jì)算是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲(chǔ),應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。8.1.1云端大數(shù)據(jù)云計(jì)算是分布式計(jì)算(DistributedComputing)、并行計(jì)算(ParallelComputing)、效用計(jì)算(UtilityComputing)、網(wǎng)絡(luò)存儲(chǔ)(NetworkStorageTechnologies)、虛擬化(Virtualization)、負(fù)載均衡(LoadBalance)等傳統(tǒng)計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物。8.1.1云端大數(shù)據(jù)2.云計(jì)算的服務(wù)形式云計(jì)算按照服務(wù)的組織、交付方式的不同,有公有云、私有云、混合云之分。公有云向所有人提供服務(wù),典型的公有云提供商是亞馬遜,人們可以用相對(duì)低廉的價(jià)格方便地使用亞馬遜EC2的虛擬主機(jī)服務(wù)。私有云往往只針對(duì)特定客戶群提供服務(wù),比如一個(gè)企業(yè)內(nèi)部IT可以在自己的數(shù)據(jù)中心搭建私有云,并向企業(yè)內(nèi)部提供服務(wù)。目前也有部分企業(yè)整合了內(nèi)部私有云和公有云,統(tǒng)一交付云服務(wù),這就是混合云。8.1.1云端大數(shù)據(jù)云計(jì)算包括以下幾個(gè)層次的服務(wù):基礎(chǔ)設(shè)施即服務(wù)(IaaS),平臺(tái)即服務(wù)(PaaS)和軟件即服務(wù)(SaaS)。這里,分層體系架構(gòu)意義上的“層次”IaaS、PaaS和SaaS分別在基礎(chǔ)設(shè)施層、軟件開放運(yùn)行平臺(tái)層和應(yīng)用軟件層實(shí)現(xiàn)。IaaS(InfrastructureasaService):基礎(chǔ)設(shè)施級(jí)服務(wù)。消費(fèi)者通過因特網(wǎng)可以從完善的計(jì)算機(jī)基礎(chǔ)設(shè)施獲得服務(wù)。IaaS通過網(wǎng)絡(luò)向用戶提供計(jì)算機(jī)(物理機(jī)和虛擬機(jī))、存儲(chǔ)空間、網(wǎng)絡(luò)連接、負(fù)載均衡和防火墻等基本計(jì)算資源;用戶在此基礎(chǔ)上部署和運(yùn)行各種軟件,包括操作系統(tǒng)和應(yīng)用程序。例如,通過亞馬遜的AWS,用戶可以按需定制所要的虛擬主機(jī)和塊存儲(chǔ)等,在線配置和管理這些資源。8.1.1云端大數(shù)據(jù)PaaS(PlatformasaService):平臺(tái)級(jí)服務(wù)。PaaS實(shí)際上是指將軟件研發(fā)的平臺(tái)作為一種服務(wù),以SaaS的模式提交給用戶。因此,PaaS也是SaaS模式的一種應(yīng)用。但是,PaaS的出現(xiàn)可以加快SaaS的發(fā)展,尤其是加快SaaS應(yīng)用的開發(fā)速度。平臺(tái)通常包括操作系統(tǒng)、編程語言的運(yùn)行環(huán)境、數(shù)據(jù)庫(kù)和Web服務(wù)器,用戶在此平臺(tái)上部署和運(yùn)行自己的應(yīng)用。用戶不能管理和控制底層的基礎(chǔ)設(shè)施,只能控制自己部署的應(yīng)用。目前常見的PaaS提供商有CloudFoundry、谷歌的GAE等。8.1.1云端大數(shù)據(jù)SaaS(SoftwareasaService):軟件級(jí)服務(wù)。它是一種通過因特網(wǎng)提供軟件的模式,用戶無需購(gòu)買軟件,而是向提供商租用基于Web的軟件,來管理企業(yè)經(jīng)營(yíng)活動(dòng),例如郵件服務(wù)、數(shù)據(jù)處理服務(wù)、財(cái)務(wù)管理服務(wù)等。8.1.1云端大數(shù)據(jù)3.云計(jì)算與大數(shù)據(jù)信息技術(shù)的發(fā)展主要解決的是云計(jì)算中結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、處理與應(yīng)用。結(jié)構(gòu)化數(shù)據(jù)的特征是“邏輯性強(qiáng)”,每個(gè)“因”都有“果”。然而,現(xiàn)實(shí)社會(huì)中大量數(shù)據(jù)事實(shí)上沒有“顯現(xiàn)”的因果關(guān)系,如一個(gè)時(shí)刻的交通堵塞、天氣狀態(tài)、人的心理狀態(tài)等,它的特征是隨時(shí)、海量與彈性的,如一個(gè)突變天氣分析包含會(huì)有幾百個(gè)PB數(shù)據(jù)。而一個(gè)社會(huì)事件如喬布斯去世瞬間所產(chǎn)生在互聯(lián)網(wǎng)上的數(shù)據(jù)(微博、紀(jì)念文章、視頻等)也是突然爆發(fā)出來的。8.1.1云端大數(shù)據(jù)傳統(tǒng)的計(jì)算機(jī)設(shè)計(jì)與軟件都是以解決結(jié)構(gòu)化數(shù)據(jù)為主,對(duì)“非結(jié)構(gòu)”要求一種新的計(jì)算架構(gòu)?;ヂ?lián)網(wǎng)時(shí)代,尤其是社交網(wǎng)絡(luò)、電子商務(wù)與移動(dòng)通信把人類社會(huì)帶入一個(gè)以“PB”為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時(shí)代,它就是“大數(shù)據(jù)”(BigData)時(shí)代。8.1.1云端大數(shù)據(jù)云計(jì)算和大數(shù)據(jù)在很大程度上是相輔相成的,最大的不同在于:云計(jì)算是你在做的事情,而大數(shù)據(jù)是你所擁有的東西。以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段為知識(shí)生產(chǎn)提供了工具,而通過對(duì)大數(shù)據(jù)分析、預(yù)測(cè)會(huì)使得決策更加精準(zhǔn),兩者相得益彰。從另一個(gè)角度講,云計(jì)算是一種IT理念、技術(shù)架構(gòu)和標(biāo)準(zhǔn),而云計(jì)算也不可避免地會(huì)產(chǎn)生大量的數(shù)據(jù)。所以說,大數(shù)據(jù)技術(shù)與云計(jì)算的發(fā)展密切相關(guān),大型的云計(jì)算應(yīng)用不可或缺的就是數(shù)據(jù)中心的建設(shè),大數(shù)據(jù)技術(shù)是云計(jì)算技術(shù)的延伸。8.1.1云端大數(shù)據(jù)大數(shù)據(jù)為云計(jì)算大規(guī)模與分布式的計(jì)算能力提供了應(yīng)用的空間,解決了傳統(tǒng)計(jì)算機(jī)無法解決的問題。國(guó)內(nèi)有很多電商企業(yè),用小型機(jī)和Oracle公司對(duì)抗了好兒年,并請(qǐng)了全國(guó)最牛的Oracle專家不停地優(yōu)化其Oracle和小型機(jī),初期發(fā)展可能很快,但是后來由于數(shù)據(jù)量激增,業(yè)務(wù)開始受到嚴(yán)重影響,一個(gè)典型的例子就是某網(wǎng)上商城之前發(fā)生的大規(guī)模訪問請(qǐng)求宕機(jī)事件,因此他們開始逐漸放棄了Oracle或者M(jìn)S-SQL,并逐漸轉(zhuǎn)向MySQLx86的分布式架構(gòu)。目前的基本計(jì)算單元常常是普通的x86服務(wù)器,它們組成了一個(gè)大的云,而未來的云計(jì)算單元里可能有獨(dú)立的存儲(chǔ)單元、計(jì)算單元、協(xié)調(diào)單元,總體的效率會(huì)更高。8.1.1云端大數(shù)據(jù)海量的數(shù)據(jù)需要足夠的存儲(chǔ)來容納它,快速、低廉價(jià)格、綠色的數(shù)據(jù)中心部署成為關(guān)鍵。谷歌、臉書、Rackspace等公司都紛紛建設(shè)新一代的數(shù)據(jù)中心,大部分都采用更高效、節(jié)能、訂制化的云服務(wù)器,用于大數(shù)據(jù)存儲(chǔ)、挖掘和云計(jì)算業(yè)務(wù)。數(shù)據(jù)中心正在成為新時(shí)代知識(shí)經(jīng)濟(jì)的基礎(chǔ)設(shè)施。從海量數(shù)據(jù)中提取有價(jià)值的信息,數(shù)據(jù)分析使數(shù)據(jù)變得更有意義,并將影響政府、金融、零售、娛樂、媒體等各個(gè)領(lǐng)域,帶來革命性的變化。8.1.1云端大數(shù)據(jù)4.云基礎(chǔ)設(shè)施大數(shù)據(jù)解決方案的構(gòu)架離不開云計(jì)算的支撐。支撐大數(shù)據(jù)及云計(jì)算的底層原則是一樣的,即規(guī)?;?、自動(dòng)化、資源配置、自愈性,這些都是底層的技術(shù)原則。也可以說,大數(shù)據(jù)是構(gòu)建在云計(jì)算基礎(chǔ)架構(gòu)之上的應(yīng)用形式,因此它很難獨(dú)立于云計(jì)算架構(gòu)而存在。云計(jì)算下的海量存儲(chǔ)、計(jì)算虛擬化、網(wǎng)絡(luò)虛擬化、云安全及云平臺(tái)就像支撐大數(shù)據(jù)這座大樓的鋼筋水泥。只有好的云基礎(chǔ)架構(gòu)支持,大數(shù)據(jù)才能立起來,站得更高。8.1.1云端大數(shù)據(jù)虛擬化(Virttualization)是云計(jì)算所有要素中最基本,也是最核心的組成部分。和云計(jì)算在最近幾年才出現(xiàn)不同,虛擬化技術(shù)的發(fā)展其實(shí)已經(jīng)走過了半個(gè)多世紀(jì)(1956)。在虛擬化技術(shù)的發(fā)展初期,IBM是主力軍,它把虛擬化技術(shù)用在了大型機(jī)領(lǐng)域。1964年,IBM設(shè)計(jì)了名為CP-40的新型操作系統(tǒng),實(shí)現(xiàn)了虛擬內(nèi)存和虛擬機(jī)。到1965年,IBM推出了System/360Model67(見圖8-2)和TSS分時(shí)共享系統(tǒng)(TimeSharingSystem),允許很多遠(yuǎn)程用戶共享同一高性能計(jì)算設(shè)備的使用時(shí)間。1972年,IBM發(fā)布了用于創(chuàng)建靈活大型主機(jī)的虛擬機(jī)技術(shù),實(shí)現(xiàn)了根據(jù)動(dòng)態(tài)需求快速而有效地使用各種資源的效果。作為對(duì)大型機(jī)進(jìn)行邏輯分區(qū)以形成若干獨(dú)立虛擬機(jī)的一種方式。這些分區(qū)允許大型機(jī)進(jìn)行“多任務(wù)處理”——同時(shí)運(yùn)行多個(gè)應(yīng)用程序和進(jìn)程。由于當(dāng)時(shí)大型機(jī)是十分昂貴的資源,虛擬化技術(shù)起到了提高投資利用率的作用。8.1.1云端大數(shù)據(jù)圖8-2IBMSystem/3608.1.1云端大數(shù)據(jù)利用虛擬化技術(shù),允許在一臺(tái)主機(jī)上運(yùn)行多個(gè)操作系統(tǒng),讓用戶盡可能地充分利用昂貴的大型機(jī)資源。其后,虛擬化技術(shù)從大型機(jī)延伸到UNIX小型機(jī)領(lǐng)域,HP、Sun(已被Oracle收購(gòu))及IBM都將虛擬化技術(shù)應(yīng)用到其小型機(jī)中。1998年,VMware公司成立,這是在x86虛擬化技術(shù)發(fā)展史上很重要的一個(gè)里程碑。VMware發(fā)布的第一款虛擬化產(chǎn)品VMwareVirtualPlatform,通過運(yùn)行在WindowsNT上的VMware來啟動(dòng)Windows95,開啟了虛擬化在x86服務(wù)器上的應(yīng)用。8.1.1云端大數(shù)據(jù)相比于大型機(jī)和小型機(jī),x86服務(wù)器和虛擬化技術(shù)并不是兼容得很好。但是VMware針對(duì)x86平臺(tái)研發(fā)的虛擬化技術(shù)不僅克服了虛擬化技術(shù)層面的種種挑戰(zhàn),其提供的VMwareInfrastructure更是極大地方便了虛擬機(jī)的創(chuàng)建和管理。VMware對(duì)虛擬化技術(shù)的研究,開創(chuàng)了虛擬化技術(shù)的x86時(shí)代,在很長(zhǎng)一段時(shí)間內(nèi),服務(wù)器虛擬化市場(chǎng)都是VMware一枝獨(dú)秀。虛擬化技術(shù)中最核心的部分分別是計(jì)算虛擬化、存儲(chǔ)虛擬化和網(wǎng)絡(luò)虛擬化。計(jì)算虛擬化8.1.28.1.2計(jì)算虛擬化計(jì)算虛擬化,又稱平臺(tái)虛擬化或服務(wù)器虛擬化,它的核心思想是使在一個(gè)物理計(jì)算機(jī)上同時(shí)運(yùn)行多個(gè)操作系統(tǒng)成為可能。在虛擬化世界中,我們通常把提供虛擬化能力的物理計(jì)算機(jī)稱為宿主機(jī)(Hostmachine),而把在虛擬化環(huán)境中運(yùn)行的計(jì)算機(jī)稱為客戶機(jī)(Guestmachine)。宿主機(jī)和客戶機(jī)雖然運(yùn)行在同樣的硬件上,但是它們?cè)谶壿嬌蠀s是完全隔離的。這些虛擬計(jì)算機(jī)(以及物理計(jì)算機(jī))在邏輯上是完全隔離的,擁有各自獨(dú)立的軟、硬件環(huán)境。討論計(jì)算虛擬化,所涉及的計(jì)算機(jī)僅包含構(gòu)成一個(gè)最小計(jì)算單位所需的部件,其中包括處理器(CPU)和內(nèi)存,不包含任何可選的外接設(shè)備(例如,主板、硬盤、網(wǎng)卡、顯卡、聲卡等)。8.1.2計(jì)算虛擬化計(jì)算虛擬化是大數(shù)據(jù)處理不可缺少的支撐技術(shù),其作用體現(xiàn)在提高設(shè)備利用率、提高系統(tǒng)可靠性、解決計(jì)算單元管理問題等方面。將大數(shù)據(jù)應(yīng)用運(yùn)行在虛擬化平臺(tái)上,可以充分享受虛擬化帶來的管理紅利。例如,虛擬化可以支持對(duì)虛擬機(jī)的快照(Snapshot)操作,從而使得備份和恢復(fù)變得更加簡(jiǎn)單、透明和高效。此外,虛擬機(jī)還可以根據(jù)需要?jiǎng)討B(tài)遷移到其他物理機(jī)上,這一特性可以讓大數(shù)據(jù)應(yīng)用享受高可靠性和容錯(cuò)性。8.1.2計(jì)算虛擬化虛擬機(jī)(VirtualMachine,VM)是對(duì)物理計(jì)算機(jī)功能的一種軟件模擬(部分或完全的),其中的虛擬設(shè)備在硬件細(xì)節(jié)上可以獨(dú)立于物理設(shè)備。虛擬機(jī)的實(shí)現(xiàn)目標(biāo)通常是可以在其中不經(jīng)修改地運(yùn)行那些原本為物理計(jì)算機(jī)設(shè)計(jì)的程序。通常情況下,多臺(tái)虛擬機(jī)可以共存于一臺(tái)物理機(jī)上,以期獲得更高的資源使用率以及降低整體的費(fèi)用。虛擬機(jī)之間是互相獨(dú)立、完全隔離的。8.1.2計(jì)算虛擬化虛擬機(jī)管理器(虛擬機(jī)管理程序,VirtualMachineMonitor,VMM),通常又稱為Hypervisor,是在宿主機(jī)上提供虛擬機(jī)創(chuàng)建和運(yùn)行管理的軟件系統(tǒng)或固件。Hypervisor可以歸納為兩個(gè)類型:原生的Hypervisor和托管的Hypervisor。前者直接運(yùn)行在硬件上去管理硬件和虛擬機(jī),常見的有XenServer、KVM、VMwareESX/ESXi和微軟的Hyper-V。后者則運(yùn)行在常規(guī)的操作系統(tǒng)上,作為二層的管理軟件存在,而客戶機(jī)相對(duì)硬件來說則是在第三層運(yùn)行,常見的有VMwareWorkstation和VirtualBox。存儲(chǔ)虛擬化8.1.38.1.3存儲(chǔ)虛擬化關(guān)于大數(shù)據(jù),最容易想到的便是其數(shù)據(jù)量之龐大,如何高效地保存和管理這些海量數(shù)據(jù)是存儲(chǔ)面臨的首要問題。此外,大數(shù)據(jù)還有諸如種類結(jié)構(gòu)不一、數(shù)據(jù)源雜多、增長(zhǎng)速度快、存取形式和應(yīng)用需求多樣化等特點(diǎn)。存儲(chǔ)虛擬化最通俗的理解就是對(duì)一個(gè)或者多個(gè)存儲(chǔ)硬件資源進(jìn)行抽象,提供統(tǒng)一的、更有效率的全面存儲(chǔ)服務(wù)。從用戶的角度來說,存儲(chǔ)虛擬化就像一個(gè)存儲(chǔ)的大池子,用戶看不到,也不需要看到后面的磁盤、磁帶,也不必關(guān)心數(shù)據(jù)是通過哪條路徑存儲(chǔ)到硬件上的。8.1.3存儲(chǔ)虛擬化存儲(chǔ)虛擬化有兩大分類:塊虛擬化(Blockvirtualizatlon)和文件虛擬化(Filevirtualization)。塊虛擬化就是將不同結(jié)構(gòu)的物理存儲(chǔ)抽象成統(tǒng)一的邏輯存儲(chǔ)。這種抽象和隔離可以讓存儲(chǔ)系統(tǒng)的管理員為終端用戶提供更靈活的服務(wù)。文件虛擬化則是幫助用戶,使其在一個(gè)多節(jié)點(diǎn)的分布式存儲(chǔ)環(huán)境中,再也不用關(guān)心文件的具體物理存儲(chǔ)位置了。8.1.3存儲(chǔ)虛擬化1.傳統(tǒng)存儲(chǔ)系統(tǒng)時(shí)代計(jì)算機(jī)的外部存儲(chǔ)系統(tǒng)如果從1956年IBM造出第一塊硬盤算起,發(fā)展至今己經(jīng)有半個(gè)多世紀(jì)了。在這半個(gè)多世紀(jì)里,存儲(chǔ)介質(zhì)和存儲(chǔ)系統(tǒng)都取得了很大的發(fā)展和進(jìn)步。當(dāng)時(shí),IBM為RAMAC305系統(tǒng)造出的第一塊硬盤只有5MB的容量,而成本卻高達(dá)50000美元,平均每MB存儲(chǔ)需要10000美元。而現(xiàn)在的硬盤容量可高達(dá)幾個(gè)TB,成本則降至差不多8美分/GB。目前傳統(tǒng)存儲(chǔ)系統(tǒng)主要的三種架構(gòu),包括DASNAS和SAN。8.1.3存儲(chǔ)虛擬化(1)DAS(Direct-AttachedStorage,直連式存儲(chǔ))。顧名思義,這是一種通過總線適配器直接將硬盤等存儲(chǔ)介質(zhì)連接到主機(jī)上的存儲(chǔ)方式,在存儲(chǔ)設(shè)備和主機(jī)之間通常沒有任何網(wǎng)絡(luò)設(shè)備的參與??梢哉fDAS是最原始、最基本的存儲(chǔ)架構(gòu)方式,在個(gè)人電腦、服務(wù)器上也最為常見。DAS的優(yōu)勢(shì)在于架構(gòu)簡(jiǎn)單、成本低廉、讀寫效率高等;缺點(diǎn)是容量有限、難于共享,從而容易形成“信息孤島”。(2)NAS(Network-AttachedStorage,網(wǎng)絡(luò)存儲(chǔ)系統(tǒng))。NAS是一種提供文件級(jí)別訪問接口的網(wǎng)絡(luò)存儲(chǔ)系統(tǒng),通常采用NFS、SMB/CIFS等網(wǎng)絡(luò)文件共享協(xié)議進(jìn)行文件存取。NAS支持多客戶端同時(shí)訪問,為服務(wù)器提供了大容量的集中式存儲(chǔ),從而也方便了服務(wù)器間的數(shù)據(jù)共享。8.1.3存儲(chǔ)虛擬化(3)SAN(StorageAreaNetwork,存儲(chǔ)區(qū)域網(wǎng)絡(luò))。通過光纖交換機(jī)等高速網(wǎng)絡(luò)設(shè)備在服務(wù)器和磁盤陣列等存儲(chǔ)設(shè)備間搭設(shè)專門的存儲(chǔ)網(wǎng)絡(luò),從而提供高性能的存儲(chǔ)系統(tǒng)。SAN與NAS的基本區(qū)別,在于其提供塊(block)級(jí)別的訪問接口,一般并不同時(shí)提供一個(gè)文件系統(tǒng)。通常情況下,服務(wù)器需要通過SCSI等訪問協(xié)議將SAN存儲(chǔ)映射為本地磁盤、在其上創(chuàng)建文件系統(tǒng)后進(jìn)行使用。目前主流的企業(yè)級(jí)NAS或SAN存儲(chǔ)產(chǎn)品一般都可以提供TB級(jí)的存儲(chǔ)容量,當(dāng)然高端的存儲(chǔ)產(chǎn)品也可以提供高達(dá)幾個(gè)PB的存儲(chǔ)容量。8.1.3存儲(chǔ)虛擬化2.大數(shù)據(jù)時(shí)代的新挑戰(zhàn)相對(duì)于傳統(tǒng)的存儲(chǔ)系統(tǒng),大數(shù)據(jù)存儲(chǔ)一般與上層的應(yīng)用系統(tǒng)結(jié)合得更緊密。很多新興的大數(shù)據(jù)存儲(chǔ)都是專門為特定的大數(shù)據(jù)應(yīng)用設(shè)計(jì)和開發(fā)的,比如專門用來存放大量圖片或者小文件的在線存儲(chǔ),或者支持實(shí)時(shí)事務(wù)的高性能存儲(chǔ)等。因此,不同的應(yīng)用場(chǎng)景,其底層大
數(shù)據(jù)存儲(chǔ)的特點(diǎn)也不盡相同(見圖)。但
是,結(jié)合當(dāng)前主流的大數(shù)據(jù)存儲(chǔ)系統(tǒng),可
以總結(jié)出如下一些基本特點(diǎn):
圖8-3存儲(chǔ)系統(tǒng)8.1.3存儲(chǔ)虛擬化(1)大容量及高可擴(kuò)展性。大數(shù)據(jù)的主要來源包括社交網(wǎng)站、個(gè)人信息、科學(xué)研究數(shù)據(jù)、在線事務(wù)、系統(tǒng)日志以及傳感和監(jiān)控?cái)?shù)據(jù)等。各種應(yīng)用系統(tǒng)源源不斷地產(chǎn)生著大量數(shù)據(jù),尤其是社交類網(wǎng)站的興起,更加快了數(shù)據(jù)增長(zhǎng)的速度。大數(shù)據(jù)一般可達(dá)到幾個(gè)PB甚至EB級(jí)的信息量,傳統(tǒng)的NAS或SAN存儲(chǔ)一般很難達(dá)到這個(gè)級(jí)別的存儲(chǔ)容量。因此,除了巨大的存儲(chǔ)容量外,大數(shù)據(jù)存儲(chǔ)還必須擁有一定的可擴(kuò)容能力。擴(kuò)容包括Scale-up和Scale-out兩種方式。鑒于前者擴(kuò)容能力有限且成本一般較高,因此能夠提供Scale-out能力的大數(shù)據(jù)存儲(chǔ)己經(jīng)成為主流趨勢(shì)。8.1.3存儲(chǔ)虛擬化(2)高可用性。對(duì)于大數(shù)據(jù)應(yīng)用和服務(wù)來說,數(shù)據(jù)是其價(jià)值所在。因此,存儲(chǔ)系統(tǒng)的可用性至關(guān)重要。平均無故障時(shí)間(MTTF)和平均維修時(shí)間(MTTR)是衡量存儲(chǔ)系統(tǒng)可用性的兩個(gè)主要指標(biāo)。傳統(tǒng)存儲(chǔ)系統(tǒng)一般采用RAID、數(shù)據(jù)通道冗余等方式保證數(shù)據(jù)的高可用性和高可靠性。除了這些傳統(tǒng)的技術(shù)手段外,大數(shù)據(jù)存儲(chǔ)還會(huì)采用其他一些技術(shù)。比如,分布式存儲(chǔ)系統(tǒng)中多采用簡(jiǎn)單明了的多副本來實(shí)現(xiàn)數(shù)據(jù)冗余;針對(duì)RAID導(dǎo)致的數(shù)據(jù)冗余率過高或者大容量磁盤的修復(fù)時(shí)間過長(zhǎng)等問題,近年來學(xué)術(shù)界和工業(yè)界研究或采用了其他的編碼方式。8.1.3存儲(chǔ)虛擬化(3)高性能。在考量大數(shù)據(jù)存儲(chǔ)性能時(shí),吞吐率、延時(shí)和IOPS是其中幾個(gè)較為重要的指標(biāo)。對(duì)于一些實(shí)時(shí)事務(wù)分析系統(tǒng),存儲(chǔ)的響應(yīng)速度至關(guān)重要;而在其他一些大數(shù)據(jù)應(yīng)用場(chǎng)景中,每秒處理的事務(wù)數(shù)則可能是最重要的影響因素。大數(shù)據(jù)存儲(chǔ)系統(tǒng)的設(shè)計(jì)往往需要在大容量、高可擴(kuò)展性、高可用性和高性能等特性間做出一個(gè)權(quán)衡。(4)安全性。大數(shù)據(jù)具有巨大的潛在商業(yè)價(jià)值,這也是大數(shù)據(jù)分析和數(shù)據(jù)挖掘興起的重要原因之一。因此,數(shù)據(jù)安全對(duì)于企業(yè)來說至關(guān)重要。數(shù)據(jù)的安全性體現(xiàn)在存儲(chǔ)如何保證數(shù)據(jù)完整性和持久化等方面。在云計(jì)算、云存儲(chǔ)行業(yè)風(fēng)生水起的大背景下,如何在多租戶環(huán)境中保護(hù)好用戶隱私和數(shù)據(jù)安全成了大數(shù)據(jù)存儲(chǔ)面臨的一個(gè)亟待解決的新挑戰(zhàn)。8.1.3存儲(chǔ)虛擬化(5)自管理和自修復(fù)。隨著數(shù)據(jù)量的增加和數(shù)據(jù)結(jié)構(gòu)的多樣化,大數(shù)據(jù)存儲(chǔ)的系統(tǒng)架構(gòu)也變得更加復(fù)雜,管理和維護(hù)便成了一大難題。這個(gè)問題在分布式存儲(chǔ)中尤其突出因此,能夠?qū)崿F(xiàn)自我管理、監(jiān)測(cè)及自我修復(fù)將成為大數(shù)據(jù)存儲(chǔ)系統(tǒng)的重要特性之一。(6)成本。大數(shù)據(jù)存儲(chǔ)系統(tǒng)的成本包括存儲(chǔ)成本、使用成本和維護(hù)成本等。如何有效降低單位存儲(chǔ)給企業(yè)帶來的成本問題,在大數(shù)據(jù)背景下顯得極為重要。如果大數(shù)據(jù)存儲(chǔ)的成本降不下來,動(dòng)輒幾個(gè)TB或者PB的數(shù)據(jù)量將會(huì)讓很多中小型企業(yè)在大數(shù)據(jù)掘金浪潮中望洋興嘆。8.1.3存儲(chǔ)虛擬化(7)訪問接口的多樣化。同一份數(shù)據(jù)可能會(huì)被多個(gè)部門、用戶或者應(yīng)用來訪問、處理和分析。不同的應(yīng)用系統(tǒng)由于業(yè)務(wù)不同可能會(huì)采用不同的數(shù)據(jù)訪問方式。因此,大數(shù)據(jù)存儲(chǔ)系統(tǒng)需要提供多種接口來支持不同的應(yīng)用系統(tǒng)。8.1.3存儲(chǔ)虛擬化3.云存儲(chǔ)云存儲(chǔ)是由第三方運(yùn)營(yíng)商提供的在線存儲(chǔ)系統(tǒng),比如面向個(gè)人用戶的在線網(wǎng)盤和而向企業(yè)的文件、塊或?qū)ο蟠鎯?chǔ)系統(tǒng)等。云存儲(chǔ)的運(yùn)營(yíng)商負(fù)責(zé)數(shù)據(jù)中心的部署、運(yùn)營(yíng)和維護(hù)等工作,將數(shù)據(jù)存儲(chǔ)包裝成為服務(wù)的形式提供給客戶。云存儲(chǔ)作為云計(jì)算的延伸和重要組件之一,提供了“按需分配、按量計(jì)費(fèi)”的數(shù)據(jù)存儲(chǔ)服務(wù)。因此,云存儲(chǔ)的用戶不需要搭建自己的數(shù)據(jù)中心和基礎(chǔ)架構(gòu),也不需要關(guān)心底層存儲(chǔ)系統(tǒng)的管理和維護(hù)等工作,并可以根據(jù)其業(yè)務(wù)需求動(dòng)態(tài)地?cái)U(kuò)大或減小其對(duì)存儲(chǔ)容量的需求。8.1.3存儲(chǔ)虛擬化云存儲(chǔ)通過運(yùn)營(yíng)商來集中、統(tǒng)一地部署和管理存儲(chǔ)系統(tǒng),降低了數(shù)據(jù)存儲(chǔ)的成本,從而也降低了大數(shù)據(jù)行業(yè)的準(zhǔn)入門檻,為中小型企業(yè)進(jìn)軍大數(shù)據(jù)行業(yè)提供了可能性。比如,著名的在線文件存儲(chǔ)服務(wù)提供商Dropbox,就是基于AWS(AmazonWebScrvices)提供的在線存儲(chǔ)系統(tǒng)S3創(chuàng)立起來的。在云存儲(chǔ)興起之前,創(chuàng)辦類似于Dropbox這樣的初創(chuàng)公司幾乎不太可能。8.1.3存儲(chǔ)虛擬化云存儲(chǔ)背后使用的存儲(chǔ)系統(tǒng)其實(shí)多是采用分布式架構(gòu),而云存儲(chǔ)因其更多新的應(yīng)用場(chǎng)景,在設(shè)計(jì)上也遇到了新的問題和需求。比如,云存儲(chǔ)在管理系統(tǒng)和訪問接口上大都需要解決如何支持多租戶的訪問方式,而多租戶環(huán)境下就無可避免地要解決諸如安全、性能隔離等一系列問題。另外,云存儲(chǔ)和云計(jì)算一樣,都需要解決的一個(gè)共同難題就是關(guān)于信任(Trust)問題一一如何從技術(shù)上保證企業(yè)的業(yè)務(wù)數(shù)據(jù)放在第三方存儲(chǔ)服務(wù)提供商平臺(tái)上的隱私和安全,的確是一個(gè)必須解決的技術(shù)挑戰(zhàn)。8.1.3存儲(chǔ)虛擬化將存儲(chǔ)作為服務(wù)的形式提供給用戶,云存儲(chǔ)在訪問接口上一般都會(huì)秉承簡(jiǎn)潔易用的特性。比如,亞馬遜的S3存儲(chǔ)通過標(biāo)準(zhǔn)的HTTP協(xié)議、簡(jiǎn)單的REST接口進(jìn)行存取數(shù)據(jù),用戶分別通過Gct、Put、Delete等HTTP方法進(jìn)行數(shù)據(jù)塊的獲取、存放和刪除等操作。出于操作簡(jiǎn)便方面的考慮,亞馬遜S3服務(wù)并不提供修改或者重命名等操作;同時(shí),亞馬遜S3服務(wù)也并不提供復(fù)雜的數(shù)據(jù)目錄結(jié)構(gòu),而僅僅提供非常簡(jiǎn)單的層級(jí)關(guān)系;用戶可以創(chuàng)建一個(gè)自己的數(shù)據(jù)桶(bucket),而所有的數(shù)據(jù)則直接存儲(chǔ)在這個(gè)bucket中。另外,云存儲(chǔ)還需要解決用戶分享的問題。亞馬遜S3存儲(chǔ)中的數(shù)據(jù)直接通過唯一的URL進(jìn)行訪問和標(biāo)識(shí),因此,只要其他用戶經(jīng)過授權(quán)便可以通過數(shù)據(jù)的URL進(jìn)行訪問了。8.1.3存儲(chǔ)虛擬化存儲(chǔ)虛擬化是云存儲(chǔ)的一個(gè)重要的技術(shù)基礎(chǔ),是通過抽象和封裝底層存儲(chǔ)系統(tǒng)的物理特性,將多個(gè)互相隔離的存儲(chǔ)系統(tǒng)統(tǒng)一化為一個(gè)抽象的資源池的技術(shù)。通過存儲(chǔ)虛擬化技術(shù),云存儲(chǔ)可以實(shí)現(xiàn)很多新的特性。比如,用戶數(shù)據(jù)在邏輯上的隔離、存儲(chǔ)空間的精簡(jiǎn)配置等。8.1.3存儲(chǔ)虛擬化4.大數(shù)據(jù)存儲(chǔ)的其他需求大數(shù)據(jù)存儲(chǔ)的其他需求包括:(1)去重(Deduplication)。數(shù)據(jù)快速增長(zhǎng)是數(shù)據(jù)中心最大的挑戰(zhàn)。顯而易見,爆炸式的數(shù)據(jù)增長(zhǎng)會(huì)消耗巨大的存儲(chǔ)空間,迫使數(shù)據(jù)提供商去購(gòu)買更多的存儲(chǔ),然而卻未必能趕上數(shù)據(jù)的增長(zhǎng)速度。這里有幾個(gè)相關(guān)問題值得考慮:產(chǎn)生的數(shù)據(jù)是不是都被生產(chǎn)系統(tǒng)循環(huán)使用?如果不是,是不是可以把這些數(shù)據(jù)放到廉價(jià)的存儲(chǔ)系統(tǒng)中?怎么讓數(shù)據(jù)備份消耗的存儲(chǔ)更低?怎么讓備份的時(shí)間更快?數(shù)據(jù)備份后能保存的時(shí)間有多久(物理介質(zhì)原因)?備份后的數(shù)據(jù)能不能正常取出?8.1.3存儲(chǔ)虛擬化數(shù)據(jù)去重大概可以分為基于文件級(jí)別的去重和基于數(shù)據(jù)塊級(jí)別的去重。一般來講,數(shù)據(jù)切成chunk有兩種分類:定長(zhǎng)(Fixedsize)和變長(zhǎng)(Variablesize)。所謂定長(zhǎng)就是把一個(gè)接收到的數(shù)據(jù)流或者文件按照相同的大小切分,每個(gè)chunk都有一個(gè)獨(dú)立的“指紋”。從實(shí)現(xiàn)角度來講,定長(zhǎng)文件的切片實(shí)現(xiàn)和管理比較簡(jiǎn)單,但是數(shù)據(jù)去重復(fù)的比率較低。這個(gè)也是容易理解的,因?yàn)槊總€(gè)chunk在文件中都有固定的偏移。但是在最壞清況下,如果個(gè)文件在文件開始新增加或者減少一個(gè)字符,將導(dǎo)致所有chunk的“指紋”發(fā)生變化。最差結(jié)果是:備份兩個(gè)僅差一個(gè)字符的文件,導(dǎo)致重復(fù)數(shù)據(jù)刪除率等于零。這個(gè)顯然是不可接受的。8.1.3存儲(chǔ)虛擬化為此,變長(zhǎng)chunk技術(shù)應(yīng)運(yùn)而生,它不是簡(jiǎn)單地根據(jù)文件偏移來劃分chunk,而是根據(jù)“anchor”(某個(gè)標(biāo)記)來對(duì)數(shù)據(jù)分片。由于找的是特殊的標(biāo)記,而不是數(shù)據(jù)的偏移,因此能完美地解決定長(zhǎng)chunk中由于數(shù)據(jù)偏移略有變化而導(dǎo)致的低數(shù)據(jù)去重比率。8.1.3存儲(chǔ)虛擬化(2)分層存儲(chǔ)(TieredStorage)。眾所周知,性能好的存儲(chǔ)介質(zhì)往往價(jià)格也很高。如何通過組合高性能、高成本的小容量存儲(chǔ)介質(zhì)和低性能、低成本的大容量存儲(chǔ)介質(zhì),使其達(dá)到性能、價(jià)格、容量及功能上的最大優(yōu)化,這是一個(gè)經(jīng)典的存儲(chǔ)問題了。比如,計(jì)算機(jī)系統(tǒng)上通過從外部存儲(chǔ)(比如硬盤等)到內(nèi)存、緩存等一系列存儲(chǔ)介質(zhì)組成的存儲(chǔ)金字塔,很好地解決了CPU的數(shù)據(jù)訪問瓶頸問題。分層存儲(chǔ)是存儲(chǔ)系統(tǒng)領(lǐng)域試圖解決類似問題的一個(gè)技術(shù)手段。近年來,各種新存儲(chǔ)介質(zhì)的誕生,給存儲(chǔ)系統(tǒng)帶來了新的希望,尤其是Flash和SSD(Solid-StateDrive)存儲(chǔ)技術(shù)的成熟及其量化生產(chǎn),使其在存儲(chǔ)產(chǎn)品中得到越來越廣泛的使用。然而,企業(yè)存儲(chǔ),尤其是大數(shù)據(jù)存儲(chǔ),全部使用SSD作為存儲(chǔ)介質(zhì),其成本依然是個(gè)大問題。8.1.3存儲(chǔ)虛擬化為了能夠更好地發(fā)揮新的存儲(chǔ)介質(zhì)在讀、寫性能上的優(yōu)勢(shì),同時(shí)將存儲(chǔ)的總體成本控制在可接受的范圍之內(nèi),分層存儲(chǔ)系統(tǒng)便應(yīng)運(yùn)而生。分層存儲(chǔ)系統(tǒng)集SSD和硬盤等存儲(chǔ)媒介于一體,通過智能監(jiān)控和分析數(shù)據(jù)的訪問“熱度”,將不同熱度的數(shù)據(jù)自動(dòng)適時(shí)地動(dòng)態(tài)遷移到不同的存儲(chǔ)介質(zhì)上。經(jīng)常被訪問的數(shù)據(jù)將被遷移到讀、寫性能好的SSD存儲(chǔ)上,不常被訪問的數(shù)據(jù)則會(huì)被存放在性能一般且價(jià)格低廉的硬盤矩陣上。這樣,分層存儲(chǔ)系統(tǒng)在保證不增加太多成本的前提下,大大地提高了存儲(chǔ)系統(tǒng)的讀、寫性能。網(wǎng)絡(luò)虛擬化8.1.48.1.4網(wǎng)絡(luò)虛擬化網(wǎng)絡(luò)虛擬化,簡(jiǎn)單來講是指把邏輯網(wǎng)絡(luò)從底層的物理網(wǎng)絡(luò)分離開來,包括網(wǎng)卡的虛擬化、網(wǎng)絡(luò)的虛擬接入技術(shù)、覆蓋網(wǎng)絡(luò)交換,以及軟件定義的網(wǎng)絡(luò)等。這個(gè)概念的產(chǎn)生已經(jīng)比較久了,VLAN、VPN、VPLS等都可以歸為網(wǎng)絡(luò)虛擬化的技術(shù)。近年來,云計(jì)算的浪潮席卷IT界。幾乎所有的IT基礎(chǔ)構(gòu)架都在朝著云的方向發(fā)展。在云計(jì)算的發(fā)展中,虛擬化技術(shù)一直是重要的推動(dòng)因素。作為基礎(chǔ)構(gòu)架,服務(wù)器和存儲(chǔ)的虛擬化已經(jīng)發(fā)展得有聲有色,而同作為基礎(chǔ)構(gòu)架的網(wǎng)絡(luò)卻還是一直沿用老的套路。在這種環(huán)境下,網(wǎng)絡(luò)確實(shí)期待一次變革,使之更加符合云計(jì)算和互聯(lián)網(wǎng)發(fā)展的需求。8.1.4網(wǎng)絡(luò)虛擬化在云計(jì)算的大環(huán)境下,網(wǎng)絡(luò)虛擬化的定義沒有變,但是其包含的內(nèi)容卻大大增加了(例如動(dòng)態(tài)性、多租戶模式等)。網(wǎng)絡(luò)虛擬化涉及的技術(shù)范圍相當(dāng)寬泛,包括網(wǎng)卡的虛擬化、虛擬交換技術(shù)、網(wǎng)絡(luò)虛擬接入技術(shù)、覆蓋網(wǎng)絡(luò)交換,以及軟件定義的網(wǎng)絡(luò),等等。8.1.4網(wǎng)絡(luò)虛擬化1.網(wǎng)卡虛擬化多個(gè)虛擬機(jī)共享服務(wù)器中的物理網(wǎng)卡,需要一種機(jī)制既能保證I/O的效率,又能保證多個(gè)虛擬機(jī)對(duì)用物理網(wǎng)卡共享使用。I/O虛擬化的出現(xiàn)就是為了解決這類問題。I/O虛擬化包括了從CPU到設(shè)備的一攬子解決方案。從CPU的角度看,要解決虛擬機(jī)訪問物理網(wǎng)卡等I/O設(shè)備的性能問題,能做的就是直接支持虛擬機(jī)內(nèi)存到物理網(wǎng)卡的DMA操作。Intel的VT-d技術(shù)及AMD的IOMMU技術(shù)通過DMARemapping機(jī)制來解決這個(gè)問題。DMARemapping機(jī)制主要解決了兩個(gè)問題,一方面為每個(gè)VM創(chuàng)建了一個(gè)DMA保護(hù)域并實(shí)現(xiàn)了安全的隔離,另一方面提供一種機(jī)制是將虛擬機(jī)的物理地址翻譯為物理機(jī)的物理地址。8.1.4網(wǎng)絡(luò)虛擬化從虛擬機(jī)對(duì)網(wǎng)卡等設(shè)備訪問角度看,傳統(tǒng)虛擬化的方案是虛擬機(jī)通過Hypervisor來共享地訪問一個(gè)物理網(wǎng)卡,Hypervisor需要處理多虛擬機(jī)對(duì)設(shè)備的并發(fā)訪問和隔離等。具體的實(shí)現(xiàn)方式是通過軟件模擬多個(gè)虛擬網(wǎng)長(zhǎng)(完全獨(dú)立于物理網(wǎng)卡),所有的操作都在CPU與內(nèi)存進(jìn)行。這樣的方案滿足了多租戶模式的需求,但是犧牲了整體的性能,因?yàn)镠ypervisor很容易形成一個(gè)性能瓶頸。為了提高性能,一種做法是虛擬機(jī)繞過Hypervisor直接操作物理網(wǎng)卡,這種做法通常稱為PCIpassthrough,VMware、XEN和KVM都支持這種技術(shù)。但這種做法的問題是虛擬機(jī)通常需要獨(dú)占一個(gè)PCI插槽,不是一個(gè)完整的解決方案,成本較高且擴(kuò)展性不足。8.1.4網(wǎng)絡(luò)虛擬化最新的解決方案是物理設(shè)備(如網(wǎng)卡)直接對(duì)上層操作系統(tǒng)或Hypervisor提供虛擬化的功能,一個(gè)以太網(wǎng)卡可以對(duì)上層軟件提供多個(gè)獨(dú)立的虛擬的PCIe設(shè)備并提供虛擬通道來實(shí)現(xiàn)并發(fā)訪問;這些虛擬設(shè)備擁有各自獨(dú)立的總線地址,從而可以提供對(duì)虛擬機(jī)I/O的DMA支持。這樣一來,CPU得以從繁重的I/O中解放出來,能夠更加專注于核心的計(jì)算任務(wù)(例如大數(shù)據(jù)分析)。這種方法也是業(yè)界主流的做法和發(fā)展方向,目前已經(jīng)形成了標(biāo)準(zhǔn)。8.1.4網(wǎng)絡(luò)虛擬化2.虛擬交換機(jī)在虛擬化的早期階段,由于物理網(wǎng)卡并不具備為多個(gè)虛擬機(jī)服務(wù)的能力,為了將同一物理機(jī)上的多臺(tái)虛擬機(jī)接入網(wǎng)絡(luò),引入了一個(gè)虛擬交換機(jī)(VirtualSwitch)的概念。通常也稱為軟件交換機(jī),以區(qū)別于硬件實(shí)現(xiàn)的網(wǎng)絡(luò)交換機(jī)。虛擬機(jī)通過虛擬網(wǎng)片接入到虛擬交換機(jī),然后通過物理網(wǎng)卡外連到外部交換機(jī),從而實(shí)現(xiàn)了外部網(wǎng)絡(luò)接入,例如VMwarevSwitch(見圖8-4)就屬于這一類技術(shù)。8.1.4網(wǎng)絡(luò)虛擬化圖8-4VMwarevSwitch結(jié)構(gòu)圖8.1.4網(wǎng)絡(luò)虛擬化這樣的解決方案也帶來一系列的問題。首先,一個(gè)很大的顧慮就是性能問題,因?yàn)樗械木W(wǎng)絡(luò)交換都必須通過軟件模擬。研究表明:一個(gè)接入10~15臺(tái)虛擬機(jī)的軟件交換機(jī),通常需要消耗10%~15%的主機(jī)計(jì)算能力;隨著虛擬機(jī)數(shù)量的增長(zhǎng),性能問題無疑將更加嚴(yán)重。其次,由于虛擬交換機(jī)工作在二層,無形中也使得二層子網(wǎng)的規(guī)模變得更大。更大的子網(wǎng)意味著更大的廣播域,對(duì)性能和管理來說都是不小的挑戰(zhàn)。最后,由于越來越多的網(wǎng)絡(luò)數(shù)據(jù)交換在虛擬交換機(jī)內(nèi)進(jìn)行,傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控和安全管理工具無法對(duì)其進(jìn)行管理,也意味著管理和安全的復(fù)雜性大大增加了。8.1.4網(wǎng)絡(luò)虛擬化3.接入層的虛擬化在傳統(tǒng)的服務(wù)器虛擬化方案中,從虛擬機(jī)的虛擬網(wǎng)卡發(fā)出的數(shù)據(jù)包在經(jīng)過服務(wù)器的物理網(wǎng)片傳送到外部網(wǎng)絡(luò)的上聯(lián)交換機(jī)后,虛擬機(jī)的標(biāo)識(shí)信息被屏蔽掉了,上聯(lián)交換機(jī)只能感知從某個(gè)服務(wù)器的物理網(wǎng)卡流出的所有流量,而無法感知服務(wù)器內(nèi)某個(gè)虛擬機(jī)的流量,這桿就不能從傳統(tǒng)網(wǎng)絡(luò)設(shè)備層面來保證服務(wù)質(zhì)量和安全隔離。虛擬接入要解決的問題是要把虛擬機(jī)的網(wǎng)絡(luò)流量納入傳統(tǒng)網(wǎng)絡(luò)交換設(shè)備的管理之中,需要對(duì)虛擬機(jī)的流量做標(biāo)識(shí)。8.1.4網(wǎng)絡(luò)虛擬化4.覆蓋網(wǎng)絡(luò)虛擬化虛擬網(wǎng)絡(luò)并不是全新的概念,事實(shí)上我們熟知的VLAN就是一種已有的方案。VLAN的作用是在一個(gè)大的物理二層網(wǎng)絡(luò)里劃分出多個(gè)互相隔離的虛擬三層網(wǎng)絡(luò),這個(gè)方案在傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)中得到了廣泛的應(yīng)用。這里就引出了虛擬網(wǎng)絡(luò)的第一個(gè)需求:隔離;VLAN雖然很好地解決了這個(gè)需求。然而由于內(nèi)在的缺陷,VLAN無法滿足第二個(gè)需求,即可擴(kuò)展性(支持?jǐn)?shù)量龐大的虛擬網(wǎng)絡(luò))。隨著云計(jì)算的興起,一個(gè)數(shù)據(jù)中心需要支持上百萬的用戶,每個(gè)用戶需要的子網(wǎng)可能也不止一個(gè)。在這樣的需求背景下,VLAN已經(jīng)遠(yuǎn)遠(yuǎn)不敷使用,需要重新思考虛擬網(wǎng)絡(luò)的設(shè)計(jì)與實(shí)現(xiàn)。當(dāng)虛擬數(shù)據(jù)中心開始普及后,其本身的一些特性也帶來對(duì)網(wǎng)絡(luò)新的需求。8.1.4網(wǎng)絡(luò)虛擬化物理機(jī)的位置一般是相對(duì)固定的,虛擬化方案的一個(gè)很大的特性在于虛擬機(jī)可以遷移。當(dāng)遷移發(fā)生在不同網(wǎng)絡(luò)、不同數(shù)據(jù)中心之間時(shí),對(duì)網(wǎng)絡(luò)產(chǎn)生了新的要求,比如需要保證虛擬機(jī)的IP在遷移前后不發(fā)生改變,需要保證虛擬機(jī)內(nèi)運(yùn)行的應(yīng)用程序在遷移后仍可以跨越網(wǎng)絡(luò)和數(shù)據(jù)中心進(jìn)行通信等。這又引出了虛擬網(wǎng)絡(luò)的第三個(gè)需求:支持動(dòng)態(tài)遷移。覆蓋網(wǎng)絡(luò)虛擬化就是應(yīng)以上需求而生的,它可以更好地滿足云計(jì)算和下一代數(shù)據(jù)中心的需求,它為用戶虛擬化應(yīng)用帶來了許多好處(特別是對(duì)大規(guī)模的、分布式的數(shù)據(jù)處理),包括:①虛擬網(wǎng)絡(luò)的動(dòng)態(tài)創(chuàng)建與分配;②虛擬機(jī)的動(dòng)態(tài)遷移(跨子網(wǎng)、跨數(shù)據(jù)中心);③一個(gè)虛擬網(wǎng)絡(luò)可以跨多個(gè)數(shù)據(jù)中心;④將物理網(wǎng)絡(luò)與虛擬網(wǎng)絡(luò)的管理分離;⑤安全(邏輯抽象與完全隔離)。8.1.4網(wǎng)絡(luò)虛擬化5.軟件定義的網(wǎng)絡(luò)(SDN)OpenFlow和SDN盡管不是專門為網(wǎng)絡(luò)虛擬化而生,但是它們帶來的標(biāo)準(zhǔn)化和靈活性卻給網(wǎng)絡(luò)虛擬化的發(fā)展帶來無限可能。OpenFlow起源于斯坦福大學(xué)的CleanSlate項(xiàng)目組,其目的是要重新發(fā)明因特網(wǎng),旨在改變現(xiàn)有的網(wǎng)絡(luò)基礎(chǔ)架構(gòu)。2006年,斯坦福的學(xué)生MartinCasado領(lǐng)導(dǎo)的Ethane項(xiàng)目,試圖通過一個(gè)集中式的控制器,讓網(wǎng)絡(luò)管理員可以方便地定義基于網(wǎng)絡(luò)流的安全控制策略,并將這些安全策略應(yīng)用到各種網(wǎng)絡(luò)設(shè)備中,從而實(shí)現(xiàn)對(duì)整個(gè)網(wǎng)絡(luò)通信的安全控制。8.1.4網(wǎng)絡(luò)虛擬化受此項(xiàng)目啟發(fā),研究人員發(fā)現(xiàn)如果將傳統(tǒng)網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)轉(zhuǎn)發(fā)(Dataplane)和路由控制(Controlplane)兩個(gè)功能模塊相分離,通過集中式的控制器(Controller)以標(biāo)準(zhǔn)化的接口對(duì)各種網(wǎng)絡(luò)設(shè)備進(jìn)行管理和配置,這將為網(wǎng)絡(luò)資源的設(shè)計(jì)、管理和使用提供更多的可能性,從而更容易推動(dòng)網(wǎng)絡(luò)的革新與發(fā)展。8.1.4網(wǎng)絡(luò)虛擬化OpenFlow可能的應(yīng)用場(chǎng)景包括:①校園網(wǎng)絡(luò)中對(duì)實(shí)驗(yàn)性通信協(xié)議的支持;②網(wǎng)絡(luò)管理和訪問控制;③網(wǎng)絡(luò)隔離和VLAN;④基于WiFi的移動(dòng)網(wǎng)絡(luò);⑤非IP網(wǎng)絡(luò);⑥基于網(wǎng)絡(luò)包的處理。8.1.4網(wǎng)絡(luò)虛擬化6.對(duì)大數(shù)據(jù)處理的意義相對(duì)于普通應(yīng)用,大數(shù)據(jù)的分析與處理對(duì)網(wǎng)絡(luò)有著更高的要求,涉及從帶寬到延時(shí),從吞吐率到負(fù)載均衡,以及可靠性、服務(wù)質(zhì)量控制等方方面面。同時(shí)隨著越來越多的大數(shù)據(jù)應(yīng)用部署到云計(jì)算平臺(tái)中,對(duì)虛擬網(wǎng)絡(luò)的管理需求就越來越高。首先,網(wǎng)絡(luò)接入設(shè)備虛擬化的發(fā)展,在保證多租戶服務(wù)模式的前提下,還能同時(shí)兼顧高性能與低延時(shí)、低CPU占用率。其次,接入層的虛擬化保證了虛擬機(jī)在整個(gè)網(wǎng)絡(luò)中的可見性,使得基于虛擬機(jī)粒度(或大數(shù)據(jù)應(yīng)用粒度)的服務(wù)質(zhì)量控制成為可能。8.1.4網(wǎng)絡(luò)虛擬化覆蓋網(wǎng)絡(luò)的虛擬化,一方面使得大數(shù)據(jù)應(yīng)用能夠得到有效的網(wǎng)絡(luò)隔離,更好地保證了數(shù)據(jù)通信的安全;另一力面也使得應(yīng)用的動(dòng)態(tài)遷移更加便捷,保證了應(yīng)用的性能和可靠性。軟件定義的網(wǎng)絡(luò)更是從全局的視角來重新管理和規(guī)劃網(wǎng)絡(luò)資源,使得整體的網(wǎng)絡(luò)資源利用率得到優(yōu)化利用。總之,網(wǎng)絡(luò)虛擬化技術(shù)通過對(duì)性能、可靠性和資源優(yōu)化利用的貢獻(xiàn),間接提高了大數(shù)據(jù)系統(tǒng)的可靠性和運(yùn)行效率。數(shù)據(jù)即服務(wù)8.1.58.1.5數(shù)據(jù)即服務(wù)數(shù)據(jù)即服務(wù)(DataasaService,DaaS)是一個(gè)跨越大數(shù)據(jù)基礎(chǔ)設(shè)施和應(yīng)用的領(lǐng)域。過去的公司一般先獲得大數(shù)據(jù)集,然后再使用——通常難以獲得當(dāng)前數(shù)據(jù),或從互聯(lián)網(wǎng)上得到即時(shí)數(shù)據(jù)。但是現(xiàn)在,出現(xiàn)了各種各樣的數(shù)據(jù)即服務(wù)供應(yīng)商,例如鄧白氏公司為金融、地址以及其他形式的數(shù)據(jù)提供網(wǎng)絡(luò)編程接口,費(fèi)埃哲公司(FICO)提供財(cái)務(wù)信息,推特為其推文提供訪問權(quán)限等等。8.1.5數(shù)據(jù)即服務(wù)1.數(shù)據(jù)應(yīng)用這樣的數(shù)據(jù)源允許他人在其基礎(chǔ)上建立有趣的應(yīng)用程序,而這些應(yīng)用程序可以用于準(zhǔn)確預(yù)測(cè)總統(tǒng)選舉結(jié)果,或了解消費(fèi)者對(duì)品牌的感覺。也有公司提供垂直式、具體的數(shù)據(jù)即服務(wù),例如在線數(shù)據(jù)拍賣平臺(tái)BlueKai公司提供與消費(fèi)者資料相關(guān)的數(shù)據(jù),交通駕駛服務(wù)系統(tǒng)供應(yīng)商Inrix公司提供交通數(shù)據(jù),律商聯(lián)訊公司提供法律數(shù)據(jù)等。8.1.5數(shù)據(jù)即服務(wù)2.數(shù)據(jù)清理使用大數(shù)據(jù)的領(lǐng)域中,最乏味的大概就是數(shù)據(jù)清理和集成了,它卻十分關(guān)鍵。內(nèi)部和外部數(shù)據(jù)以各種格式存儲(chǔ),并且還包括錯(cuò)誤和重復(fù)的記錄。這樣的數(shù)據(jù)需要經(jīng)常清理才可以使用(或是實(shí)現(xiàn)多個(gè)數(shù)據(jù)源一起使用)。像企業(yè)數(shù)據(jù)集成解決方案提供商Informatica這樣的公司早就在這個(gè)領(lǐng)域里發(fā)揮作用了。就最簡(jiǎn)單的水平而言,數(shù)據(jù)清理涉及的任務(wù)包括刪除重復(fù)記錄和使地址字段正?;U雇磥?,數(shù)據(jù)清理很可能成為一項(xiàng)基于云計(jì)算的服務(wù)。8.1.5數(shù)據(jù)即服務(wù)3.數(shù)據(jù)保密隨著我們將更多的數(shù)據(jù)轉(zhuǎn)移到云中,并將自己的信息更多地公布到網(wǎng)上,人們對(duì)于數(shù)據(jù)保密的關(guān)注也與日俱增。盡管匿名數(shù)據(jù)往往無保密性可言,但據(jù)一項(xiàng)研究顯示,分析師們能夠看到電影觀賞的匿名數(shù)據(jù),并通過評(píng)價(jià)用戶張貼在互聯(lián)網(wǎng)電影數(shù)據(jù)庫(kù)上的影評(píng),來確定哪位用戶觀看了哪部電影。在最近幾個(gè)月里,臉書已經(jīng)加強(qiáng)了對(duì)用戶分享信息的控制。在未來,可能出現(xiàn)這樣的大數(shù)據(jù)應(yīng)用程序:不僅讓我們自己決定分享何種數(shù)據(jù),也幫助我們了解分享個(gè)人信息背后的隱藏含義——無論那些信息對(duì)我們是否進(jìn)行了個(gè)人識(shí)別。云的挑戰(zhàn)8.1.68.1.6云的挑戰(zhàn)當(dāng)然,許多人仍然對(duì)能否利用公共云基礎(chǔ)設(shè)施持有懷疑。過去,這項(xiàng)服務(wù)一直存在著三個(gè)潛在問題:企業(yè)覺得這項(xiàng)服務(wù)不安全。內(nèi)部基礎(chǔ)設(shè)施被認(rèn)為更有保障。許多大供應(yīng)商根本不提供軟件的互聯(lián)網(wǎng)/云版本。公司必須購(gòu)買硬件,自行運(yùn)行軟件或者雇用第三方做這件事。難以將大量數(shù)據(jù)從內(nèi)部系統(tǒng)中提取出來,存入云中。雖然第一個(gè)挑戰(zhàn)對(duì)于某些政府機(jī)構(gòu)來說確實(shí)存在,但確有從事云存儲(chǔ)服務(wù)的企業(yè)證實(shí)他們能安全存儲(chǔ)許多公司的機(jī)密數(shù)據(jù),網(wǎng)上提供的越來越多的類似應(yīng)用程序也正逐漸為企業(yè)所接受。8.1.6云的挑戰(zhàn)許多專家認(rèn)為,對(duì)于真正的海量數(shù)據(jù)來說,源于公司內(nèi)部部署的數(shù)據(jù)仍會(huì)保存在原處,源于云中的數(shù)據(jù)也是如此。但是隨著越來越多的業(yè)務(wù)線應(yīng)用程序在網(wǎng)上實(shí)現(xiàn)應(yīng)用,也會(huì)有越來越多的數(shù)據(jù)在云中生成,并保存在云中。借助大數(shù)據(jù),公司獲得了許多其他優(yōu)勢(shì):他們花費(fèi)在維護(hù)和部署硬件和軟件上的時(shí)間變少了,可以按需進(jìn)行擴(kuò)張。如果有公司需要擴(kuò)大計(jì)算資源或存儲(chǔ)量,就不需要耗費(fèi)數(shù)月時(shí)間,而只是分秒之間的事情。有了網(wǎng)上的應(yīng)用程序,其最新版本一經(jīng)開放用戶就可以立刻使用了。雖然公司的花費(fèi)受其選擇的公共云供應(yīng)商控制,但云供應(yīng)商之間的競(jìng)爭(zhēng)不斷推動(dòng)價(jià)格下降,顧客也依賴這些供應(yīng)商提供可靠的服務(wù)。8.1.6云的挑戰(zhàn)在計(jì)算虛擬化、存儲(chǔ)虛擬化和網(wǎng)絡(luò)虛擬化解決了云計(jì)算的基本問題之后,如何提高云計(jì)算的安全性,成為云計(jì)算中一個(gè)重要課題。云計(jì)算在數(shù)據(jù)安全方面引入的新問題,譬如在云計(jì)算基礎(chǔ)架構(gòu)服務(wù)層(IaaS),主要有:①新的安全問題,諸如信任問題(特指租客和云服務(wù)商之間),多租客之間的資源隔離問題;②對(duì)已有的安全攻擊,IaaS是否更容易被攻擊?或者存在新的技術(shù)方法去避免這些攻擊。8.1.6云的挑戰(zhàn)安全問題中的信任和隔離問題,源于云計(jì)算的新模型。在云計(jì)算基礎(chǔ)架構(gòu)層,虛擬化技術(shù)由于在資源整合、利用、管理等方面的優(yōu)勢(shì),成為IaaS中不可缺少的一部分。一般來講,管理計(jì)算資源的不再是操作系統(tǒng),取而代之的是虛擬機(jī)監(jiān)控器(VirtualMachineMonitor,VMM)。由于資源使用者和管理者角色的分離,衍生出IaaS使用者和IaaS提供者之間的信任問題。云資源的使用者稱為云租戶,比如,一個(gè)小型公司租賃了亞馬遜的EC2服務(wù)(主要指虛擬機(jī)),并在EC2上搭建了一個(gè)網(wǎng)站,那么這個(gè)公司就是亞馬遜EC2的租戶,而使用網(wǎng)站的用戶只是這個(gè)小公司的客戶。由于資源不由租客完全控制,那么租客就有疑問:怎么確定租賃的資源僅僅為我所用,而不被其他租客或者云管理員非法使用,導(dǎo)致數(shù)據(jù)的丟失或者泄露??梢?,數(shù)據(jù)隱私保護(hù)是非常重要的。8.1.6云的挑戰(zhàn)隱私保護(hù)、數(shù)據(jù)備份、災(zāi)難恢復(fù)、病毒防范、多點(diǎn)服務(wù)、數(shù)據(jù)加密、虛擬機(jī)隔離等等,這些都是云安全的研究課題?!咀鳂I(yè)】討論:【實(shí)訓(xùn)操作】熟悉云端大數(shù)據(jù)的基礎(chǔ)設(shè)施討論:目錄1任務(wù)8.1:熟悉云時(shí)代背景下的大數(shù)據(jù)2任務(wù)8.2:把握大數(shù)據(jù)發(fā)展的未來
【導(dǎo)讀案例】智能大數(shù)據(jù)分析成熱點(diǎn)
【任務(wù)描述】【知識(shí)準(zhǔn)備】數(shù)據(jù)科學(xué)的發(fā)展【作業(yè)】
【實(shí)訓(xùn)操作】ETI企業(yè)的大數(shù)據(jù)之旅【導(dǎo)讀案例】智能大數(shù)據(jù)分析成熱點(diǎn)討論:(1)(1)你認(rèn)為文中預(yù)測(cè)的大數(shù)據(jù)發(fā)展的10個(gè)方面,哪些方面已經(jīng)實(shí)現(xiàn)了?哪些方面尚未實(shí)現(xiàn)?(2)對(duì)于大數(shù)據(jù),如今“已經(jīng)少有人講重要性,更多是應(yīng)用、技術(shù)以及最底層的算法”,那么,應(yīng)用的熱點(diǎn)是什么?請(qǐng)簡(jiǎn)述之。(3)文中稱,“對(duì)于大數(shù)據(jù)研究的難點(diǎn),很多人把數(shù)據(jù)公開列在第一位”,你是否同意這樣的觀點(diǎn)?為什么?(4)請(qǐng)簡(jiǎn)單記述你所知道的上一周內(nèi)發(fā)生的國(guó)
際、國(guó)內(nèi)或者身邊的大事?!救蝿?wù)描述】(1)了解新興學(xué)科——數(shù)據(jù)科學(xué)的基礎(chǔ)知識(shí)和主要內(nèi)容。(2)熟悉數(shù)據(jù)工作者的技能要求、素質(zhì)要求、知識(shí)結(jié)構(gòu)和培養(yǎng)途徑。(3)認(rèn)識(shí)“數(shù)據(jù)開放”的重要意義,重視隱私保護(hù)和信息安全。(4)認(rèn)識(shí)投身大數(shù)據(jù)時(shí)代的積極意義,做大數(shù)據(jù)的先行者?!局R(shí)準(zhǔn)備】數(shù)據(jù)科學(xué)的發(fā)展每當(dāng)提及“數(shù)據(jù)科學(xué)”(datascience),人們總會(huì)聯(lián)想到另一個(gè)含義相近的名詞一一“商務(wù)智能”(BI)。而測(cè)量尺度和關(guān)鍵績(jī)效指標(biāo)(KPI)通常是在聯(lián)機(jī)分析處理模式(OLAP)中定義,使得商務(wù)智能報(bào)表的內(nèi)容能夠基于已定義的衡量標(biāo)準(zhǔn)。商務(wù)智能的典型技術(shù)和數(shù)據(jù)類型包括:標(biāo)準(zhǔn)和滿足特定需求的報(bào)表、信息面板、警報(bào)、查詢及細(xì)節(jié);結(jié)構(gòu)化數(shù)據(jù)、傳統(tǒng)數(shù)據(jù)源、易操作的數(shù)據(jù)集?!局R(shí)準(zhǔn)備】數(shù)據(jù)科學(xué)的發(fā)展另一方面,數(shù)據(jù)科學(xué)可以簡(jiǎn)單地理解為預(yù)測(cè)分析和數(shù)據(jù)挖掘,是統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)技術(shù)的結(jié)合,用于獲取數(shù)據(jù)中的推斷和洞察力。相關(guān)方法包括回歸分析、關(guān)聯(lián)規(guī)則(比如市場(chǎng)購(gòu)物籃分析)、優(yōu)化技術(shù)和仿真(比如蒙特卡羅仿真用于構(gòu)建場(chǎng)景結(jié)果)。數(shù)據(jù)科學(xué)的典型技術(shù)和數(shù)據(jù)類型包括:優(yōu)化模型、預(yù)測(cè)模型、預(yù)報(bào)、統(tǒng)計(jì)分析;結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)、多種類型數(shù)據(jù)源、超大數(shù)據(jù)集?!局R(shí)準(zhǔn)備】數(shù)據(jù)科學(xué)的發(fā)展商務(wù)智能和數(shù)據(jù)科學(xué)都是企業(yè)所需要的,用于應(yīng)對(duì)不斷出現(xiàn)的各種商業(yè)挑戰(zhàn)。商務(wù)智能和數(shù)據(jù)科學(xué)有不同的定位和范疇,商務(wù)智能更關(guān)注于過去的舊數(shù)據(jù),其結(jié)果的商業(yè)價(jià)值相對(duì)較低;而數(shù)據(jù)科學(xué)更著眼于新數(shù)據(jù)和對(duì)未來的預(yù)測(cè),其商業(yè)價(jià)值相對(duì)更高。但是,它們并不存在一個(gè)明確的劃分,只是各有偏重而己。數(shù)據(jù)科學(xué)8.2.18.2.1數(shù)據(jù)科學(xué)大數(shù)據(jù)需要數(shù)據(jù)科學(xué),數(shù)據(jù)科學(xué)要做到的不僅是存儲(chǔ)和管理,更重要的是預(yù)測(cè)式的分析(比如如果這樣做,會(huì)發(fā)生什么)。數(shù)據(jù)學(xué)科是統(tǒng)計(jì)學(xué)的論證,真正利用到統(tǒng)計(jì)學(xué)的力量,只有這樣才能夠從數(shù)據(jù)中獲得經(jīng)驗(yàn)和未來方向的指導(dǎo)。但是,數(shù)據(jù)科學(xué)并非簡(jiǎn)單的統(tǒng)計(jì)學(xué),需要新的應(yīng)用、新的平臺(tái)和新的數(shù)據(jù)觀,而不僅是現(xiàn)有的傳統(tǒng)的基礎(chǔ)架構(gòu)與軟件平臺(tái)。通常,數(shù)據(jù)科學(xué)的實(shí)踐需要三個(gè)一般領(lǐng)域的技能,即:商業(yè)洞察、計(jì)算機(jī)技術(shù)/編程和統(tǒng)計(jì)學(xué)/數(shù)學(xué)。而另一方面,不同的工作對(duì)象,他的具體技能集合會(huì)有所不同。為探索數(shù)據(jù)科學(xué)家應(yīng)該具有的職業(yè)技能,多個(gè)研究項(xiàng)目進(jìn)行了不同的探索,綜合得出數(shù)據(jù)科學(xué)從業(yè)人員相關(guān)的25項(xiàng)技能(見表8-1)。8.2.1數(shù)據(jù)科學(xué)表8-1數(shù)據(jù)科學(xué)中25項(xiàng)技能8.2.1數(shù)據(jù)科學(xué)表8-1數(shù)據(jù)科學(xué)中25項(xiàng)技能(續(xù))*被訪者要求指出他們對(duì)上述25項(xiàng)技能有多熟悉,使用這樣的量表:不知道(0),略知(20),新手(40),熟練(60),非常熟練(80),專家(100)。8.2.1數(shù)據(jù)科學(xué)1.數(shù)據(jù)科學(xué)技能和熟練程度表8-1中列出的這25項(xiàng)技能,反映了通常與數(shù)據(jù)科學(xué)家相關(guān)的技能集合。在進(jìn)行針對(duì)數(shù)據(jù)科學(xué)家的調(diào)查中,調(diào)查者要求數(shù)據(jù)專業(yè)人員指出他們?cè)?5項(xiàng)不同數(shù)據(jù)科學(xué)技能上的熟練程度。研究中,選擇“中等了解”水平作為數(shù)據(jù)專業(yè)人員擁有該技能的標(biāo)準(zhǔn)。“中等了解”說明一個(gè)數(shù)據(jù)專業(yè)人員能夠按照要求完成任務(wù),并且通常不需要他人的幫助。這項(xiàng)研究數(shù)據(jù)基于620名被訪的數(shù)據(jù)專業(yè)人士,具備某種技能的百分比反映了指出他在該技能上至少中等熟練程度的被訪問者比例職位角色,即:商業(yè)經(jīng)理=250;開發(fā)人員=222;創(chuàng)意人員=221;研究人員=353。8.2.1數(shù)據(jù)科學(xué)2.重要數(shù)據(jù)科學(xué)技能以擁有該技能的數(shù)據(jù)專業(yè)人員百分比對(duì)表8-1的25項(xiàng)技能進(jìn)行排序。分析表明,所有數(shù)據(jù)專業(yè)人員中最常見的數(shù)據(jù)科學(xué)十大技能是:統(tǒng)計(jì)–溝通(87%)技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(75%)數(shù)學(xué)&建模–數(shù)學(xué)(71%)商業(yè)–項(xiàng)目管理(71%)統(tǒng)計(jì)–數(shù)據(jù)挖掘和可視化工具(71%)統(tǒng)計(jì)–科學(xué)/科學(xué)方法(65%)統(tǒng)計(jì)–數(shù)據(jù)管理(65%)商業(yè)–產(chǎn)品設(shè)計(jì)和開發(fā)(59%)統(tǒng)計(jì)–統(tǒng)計(jì)學(xué)和統(tǒng)計(jì)建模(59%)商業(yè)–商業(yè)開發(fā)(53%)8.2.1數(shù)據(jù)科學(xué)許多重要的數(shù)據(jù)科學(xué)技能都屬于統(tǒng)計(jì)領(lǐng)域:所有的五項(xiàng)與統(tǒng)計(jì)相關(guān)的技能都出現(xiàn)在前10項(xiàng)中,包括溝通、數(shù)據(jù)挖掘和可視化工具、科學(xué)/科學(xué)方法、以及統(tǒng)計(jì)學(xué)和統(tǒng)計(jì)建模;另外,與商業(yè)洞察力相關(guān)的三項(xiàng)技能出現(xiàn)在前10,包括項(xiàng)目管理、產(chǎn)品設(shè)計(jì)以及開發(fā);而沒有編程技能出現(xiàn)在前10中。8.2.1數(shù)據(jù)科學(xué)3.因職業(yè)角色而異的十大技能下面,我們按不同的職業(yè)角色(商業(yè)經(jīng)理、開發(fā)人員、創(chuàng)意人員、研究人員)來看看他們的十大技能。分析中指出了對(duì)于每個(gè)職業(yè)角色的數(shù)據(jù)專業(yè)人士所擁有每項(xiàng)技能的頻率??梢钥吹?,一些重要數(shù)據(jù)科學(xué)技能在不同角色中是通用的。這包括溝通、管理結(jié)構(gòu)化數(shù)據(jù)、數(shù)學(xué)、項(xiàng)目管理、數(shù)據(jù)挖掘和可視化工具、數(shù)據(jù)管理、以及產(chǎn)品設(shè)計(jì)和開發(fā)。然而,除了這些相似之處還有相當(dāng)大的差異。8.2.1數(shù)據(jù)科學(xué)(1)商業(yè)經(jīng)理:那些認(rèn)為自己是商業(yè)經(jīng)理(尤其是領(lǐng)導(dǎo)者、商務(wù)人士和企業(yè)家)的數(shù)據(jù)專業(yè)人士中的十大數(shù)據(jù)科學(xué)技能是:統(tǒng)計(jì)–溝通(91%)商業(yè)–項(xiàng)目管理(86%)商業(yè)–商業(yè)開發(fā)(77%)技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(74%)商業(yè)–預(yù)算(71%)只與商業(yè)經(jīng)理相關(guān)的重要技能毫無疑問的是商業(yè)領(lǐng)域的。這些技能包括商業(yè)開發(fā)、預(yù)算、以及管理和兼容性。商業(yè)–產(chǎn)品設(shè)計(jì)和開發(fā)(70%)數(shù)學(xué)&建模–數(shù)學(xué)(65%)統(tǒng)計(jì)–數(shù)據(jù)管理(64%)統(tǒng)計(jì)--數(shù)據(jù)挖掘和可視化工具(64%)商業(yè)–管理和兼容性(61%)8.2.1數(shù)據(jù)科學(xué)(2)開發(fā)人員:那些認(rèn)為自己是開發(fā)工作者(尤其是開發(fā)者和工程師)的數(shù)據(jù)專業(yè)人士中的十大數(shù)據(jù)科學(xué)技能是:技術(shù)–管理結(jié)構(gòu)化數(shù)據(jù)(91%)統(tǒng)計(jì)–溝通(85%)統(tǒng)計(jì)–數(shù)據(jù)挖掘和可視化工具(76%)商業(yè)–產(chǎn)品設(shè)計(jì)(75%)數(shù)學(xué)&建模–數(shù)學(xué)(75%)統(tǒng)計(jì)–數(shù)據(jù)管理(75%)商業(yè)–項(xiàng)目管理(74%)編程–數(shù)據(jù)庫(kù)管理(73%)編程–后端編程(70%)編程–系統(tǒng)管理(65%)8.2.1數(shù)據(jù)科學(xué)只與開發(fā)者相關(guān)的技能是技術(shù)和編程。這些重要的技能包括后端編程、系統(tǒng)管理以及數(shù)據(jù)庫(kù)管理。雖然這些數(shù)據(jù)專業(yè)人員具備這些技能,但是他們中只有少數(shù)人擁有那些在大數(shù)據(jù)世界中很重要的,更加技術(shù)化、更加依賴編程的技能。例如,少于一半人掌握云管理(42%),大數(shù)據(jù)和分布式數(shù)據(jù)(48%)和NLP以及文本挖掘(42%)。思考這些百分比是否會(huì)隨著更多數(shù)據(jù)科學(xué)項(xiàng)目的畢業(yè)生開始就業(yè)而上升。8.2.1數(shù)據(jù)科學(xué)(3)創(chuàng)意人員:那些認(rèn)為自己是創(chuàng)意工作者(尤其是藝術(shù)家和黑客)的數(shù)據(jù)專業(yè)人士中的十大數(shù)據(jù)科學(xué)技能是:統(tǒng)計(jì)–溝通(87%)技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(79%)商業(yè)–項(xiàng)目管理(77%)統(tǒng)計(jì)–數(shù)據(jù)挖掘和可視化工具(77%)數(shù)學(xué)&建模–數(shù)學(xué)(75%)這里并沒有指針對(duì)創(chuàng)意人員的重要技能。事實(shí)上,他們的重要數(shù)據(jù)科學(xué)技能列表與那些研究者緊密匹配,十項(xiàng)中有八項(xiàng)一致。商業(yè)–產(chǎn)品設(shè)計(jì)和開發(fā)(68%)統(tǒng)計(jì)–科學(xué)/科學(xué)方法(68%)統(tǒng)計(jì)–數(shù)據(jù)管理(67%)統(tǒng)計(jì)–統(tǒng)計(jì)學(xué)和統(tǒng)計(jì)建模(63%)商業(yè)–商業(yè)開發(fā)(58%)8.2.1數(shù)據(jù)科學(xué)(4)研究人員:那些認(rèn)為自己是研究工作者(尤其是研究員、科學(xué)家和統(tǒng)計(jì)學(xué)家)的數(shù)據(jù)專業(yè)人士中的十大數(shù)據(jù)科學(xué)技能是:統(tǒng)計(jì)–溝通(90%)統(tǒng)計(jì)–數(shù)據(jù)挖掘和可視化工具(81%)數(shù)學(xué)&建模–數(shù)學(xué)(80%)統(tǒng)計(jì)–科學(xué)/科學(xué)方法(78%)統(tǒng)計(jì)–統(tǒng)計(jì)學(xué)和統(tǒng)計(jì)建模(75%)研究人員的重要數(shù)據(jù)科學(xué)技能主要在統(tǒng)計(jì)領(lǐng)域。另外,只在研究工作者上體現(xiàn)的重要數(shù)據(jù)科學(xué)技能是高度定量性質(zhì),包括機(jī)器學(xué)習(xí)和最優(yōu)化。技術(shù)–處理結(jié)構(gòu)化數(shù)據(jù)(73%)統(tǒng)計(jì)–數(shù)據(jù)管理(69%)商業(yè)–項(xiàng)目管理(68%)技術(shù)–機(jī)器學(xué)習(xí)(58%)數(shù)學(xué)–最優(yōu)化(56%)8.2.1數(shù)據(jù)科學(xué)4.按職業(yè)角色的重要技能上述研究所列舉的重要數(shù)據(jù)科學(xué)技能取決于你正在考慮成為哪種類型的數(shù)據(jù)專業(yè)人員。雖然一些技能看起來在不同專業(yè)人士間通用(尤其是溝通、處理結(jié)構(gòu)化數(shù)據(jù)、數(shù)學(xué)、項(xiàng)目管理、數(shù)據(jù)挖掘和可視化工具、數(shù)據(jù)管理,以及產(chǎn)品設(shè)計(jì)和開發(fā)),但是其他數(shù)據(jù)科學(xué)技能對(duì)特定領(lǐng)域也有獨(dú)特之處。開發(fā)人員的重要技能包含編程技能,研究人員則包含數(shù)學(xué)相關(guān)的技能,當(dāng)然商業(yè)經(jīng)理的重要技能包含商業(yè)相關(guān)的技能。這些結(jié)果對(duì)數(shù)據(jù)專業(yè)人員感興趣的領(lǐng)域和他們的招聘者及組織都有影響。數(shù)據(jù)專業(yè)人員可以使用結(jié)果來了解不同類型工作需要具備的技能種類。如果你有較強(qiáng)的統(tǒng)計(jì)能力,你可能會(huì)尋找一個(gè)有較強(qiáng)研究成分的工作。了解你的技能并找那些對(duì)應(yīng)的工作。數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者8.2.28.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者通常,企業(yè)自身業(yè)務(wù)所產(chǎn)生的數(shù)據(jù),再加上政府公開的統(tǒng)計(jì)數(shù)據(jù),還有與數(shù)據(jù)聚合商等其他公司結(jié)成的戰(zhàn)略聯(lián)盟等,通過這些手段就可以獲得業(yè)務(wù)上所需的數(shù)據(jù)了。從技術(shù)方面來看,硬盤價(jià)格下降,NoSQL數(shù)據(jù)庫(kù)等技術(shù)的出現(xiàn),使得和過去相比,大量數(shù)據(jù)能夠以廉價(jià)高效的方式進(jìn)行存儲(chǔ)。此外,像Hadoop這樣能夠在通用性服務(wù)器上工作的分布式處理技術(shù)的出現(xiàn),也使得對(duì)龐大的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理的工作比以往更快速且更廉價(jià)。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者然而,就算所擁有的工具再完美,工具本身是不可能讓數(shù)據(jù)產(chǎn)生價(jià)值的。事實(shí)上,我們還需要能夠運(yùn)用這些工具的專門人才,他們能夠從堆積如山的大量數(shù)據(jù)中找到金礦,并將數(shù)據(jù)的價(jià)值以易懂的形式傳達(dá)給決策者,最終得以在業(yè)務(wù)上實(shí)現(xiàn),具備這些技能的人才就是數(shù)據(jù)科學(xué)家(datascientist)和數(shù)據(jù)工作者。數(shù)據(jù)科學(xué)家很可能是如今最熱門的頭銜之一,他們是數(shù)據(jù)科學(xué)行業(yè)的高層人才。數(shù)據(jù)科學(xué)家會(huì)利用最新的科技手段處理原始數(shù)據(jù),進(jìn)行必要的分析,并以一種信息化的方式將獲得的知識(shí)展示給他的同事。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者1.大數(shù)據(jù)生態(tài)系統(tǒng)中的關(guān)鍵角色大數(shù)據(jù)的出現(xiàn),催生了新的數(shù)據(jù)生態(tài)系統(tǒng)。為了提供有效的數(shù)據(jù)服務(wù),它需要3種典型角色。表8-2介紹了這3種角色,以及每種角色具有代表性的專業(yè)人員舉例。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者表8-2新數(shù)據(jù)生態(tài)系統(tǒng)中的三個(gè)關(guān)鍵角色8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者典型的分析型項(xiàng)目需要多種角色。值得注意的是,數(shù)據(jù)科學(xué)家自身結(jié)合了多種以前被分離的技能,成為一個(gè)單一的角色。以前是不同的人用于一個(gè)項(xiàng)日的各個(gè)方面,比如,有的人去應(yīng)對(duì)業(yè)務(wù)線上的終端用戶,另外的具有技術(shù)和定量專長(zhǎng)的人去解決分析問題。數(shù)據(jù)科學(xué)家是這些方面的結(jié)合體,有助于提供連續(xù)性的分析過程。對(duì)數(shù)據(jù)科學(xué)家的關(guān)注,源于大家逐步認(rèn)識(shí)到,谷歌、亞馬遜、臉書等公司成功的背后,存在著這樣的一批專業(yè)人才。這些互聯(lián)網(wǎng)公司對(duì)于大量數(shù)據(jù)不是僅進(jìn)行存儲(chǔ)而已,而是將其變?yōu)橛袃r(jià)值的金礦―例如,搜索結(jié)果、定向廣告、準(zhǔn)確的商品推薦、可能認(rèn)識(shí)的好友列表等。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者數(shù)據(jù)科學(xué)是一個(gè)很久之前就存在的詞匯,但數(shù)據(jù)科學(xué)家卻是幾年前突然出現(xiàn)的一個(gè)新詞。關(guān)于這個(gè)詞的起源說法不一,其中在《數(shù)據(jù)之美》(TobySegaran、JeffHammerbacher編著)一書中,對(duì)于臉書的數(shù)據(jù)科學(xué)家,有如下敘述:“在臉書,我們發(fā)現(xiàn)傳統(tǒng)的頭銜如商業(yè)分析師、統(tǒng)計(jì)學(xué)家、工程師和研究科學(xué)家都不能確切地定義我們團(tuán)隊(duì)的角色。該角色的工作是變化多樣的:在任意給定的一天,團(tuán)隊(duì)的一個(gè)成員可以用Python實(shí)現(xiàn)一個(gè)多階段的處理管道流、設(shè)計(jì)假設(shè)檢驗(yàn)、用工具R在數(shù)據(jù)樣本上執(zhí)行回歸測(cè)試、在Hadoop上為數(shù)據(jù)密集型產(chǎn)品或服務(wù)設(shè)計(jì)和實(shí)現(xiàn)算法,或者把我們分析的結(jié)果以清晰簡(jiǎn)潔的方式展示給企業(yè)的其他成員。為了掌握完成這多方面任務(wù)需要的技術(shù),我們創(chuàng)造了‘?dāng)?shù)據(jù)科學(xué)家’這種角色?!薄?.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者僅僅在幾年前,數(shù)據(jù)科學(xué)家還不是一個(gè)正式確定的職業(yè),然而很快,這個(gè)職業(yè)就已經(jīng)被譽(yù)為“今后10年IT行業(yè)最重要的人才”了。谷歌首席經(jīng)濟(jì)學(xué)家、加州大學(xué)伯克利分校教授哈爾·范里安(1948-)在2008年10月與麥肯錫總監(jiān)JamesManyika先生的對(duì)話中,曾經(jīng)講過下面一段話?!拔铱偸钦f,在未來10年里,最有意思的工作將是統(tǒng)計(jì)學(xué)家。人們都認(rèn)為我在開玩笑。但是,過去誰能想到電腦工程師會(huì)成為20世紀(jì)90年代最有趣的工作?在未來10年里,獲取數(shù)據(jù)一一以便能理解它、處理它、從中提取價(jià)值、使其形象化、傳送它一一的能力將成為一種極其重要的技能,不僅在專業(yè)層面上是這樣,而且在教育層面(包括對(duì)中小學(xué)生、高中生和大學(xué)生的教育)也是如此。由于如今我們已真正擁有實(shí)質(zhì)上免費(fèi)的和無所不在的數(shù)據(jù),因此,與此互補(bǔ)的稀缺要素是理解這些數(shù)據(jù)并從中提取價(jià)值的能力?!?.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者范里安教授在當(dāng)初的對(duì)話中使用的是statisticians(統(tǒng)計(jì)學(xué)家)一詞,雖然當(dāng)時(shí)他沒有使用數(shù)據(jù)科學(xué)家這個(gè)詞,但這里所指的,正是現(xiàn)在我們所討論的數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家的關(guān)鍵活動(dòng)包括:將商業(yè)挑戰(zhàn)構(gòu)建成數(shù)據(jù)分析問題;在大數(shù)據(jù)上設(shè)計(jì)、實(shí)現(xiàn)和部署統(tǒng)計(jì)模型和數(shù)據(jù)挖掘方法;獲取有助于引領(lǐng)可操作建議的洞察力。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者2.數(shù)據(jù)科學(xué)家所需的技能數(shù)據(jù)科學(xué)家這一職業(yè)并沒有固定的定義,但大體上指的是這樣的人才:“是指運(yùn)用統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、分布式處理等技術(shù),從大量數(shù)據(jù)中提取出對(duì)業(yè)務(wù)有意義的信息,以易懂的形式傳達(dá)給決策者,并創(chuàng)造出新的數(shù)據(jù)運(yùn)用服務(wù)的人才?!?.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者數(shù)據(jù)科學(xué)家所需的技能如下。(1)計(jì)算機(jī)科學(xué)。一般來說,數(shù)據(jù)科學(xué)家大多要求具備編程、計(jì)算機(jī)科學(xué)相關(guān)的專業(yè)背景。簡(jiǎn)單來說,就是對(duì)處理大數(shù)據(jù)所必需的Hadoop、Mahout等大規(guī)模并行處理技術(shù)與機(jī)器學(xué)習(xí)相關(guān)的技能。(2)數(shù)學(xué)、統(tǒng)計(jì)、數(shù)據(jù)挖掘等。除了數(shù)學(xué)、統(tǒng)計(jì)方面的素養(yǎng)之外,還需要具備使用SPSS、SAS等主流統(tǒng)計(jì)分析軟件的技能。其中,面向統(tǒng)計(jì)分析的開源編程語言及其運(yùn)行環(huán)境R最近備受矚目。R的強(qiáng)項(xiàng)不僅在于其包含了豐富的統(tǒng)計(jì)分析庫(kù),而且具備將結(jié)果進(jìn)行可視化的高品質(zhì)圖表生成功能,并可以通過簡(jiǎn)單的命令來運(yùn)行。此外,它還具備稱為CRAN(TheComprehensiveRArchiveNetwork)的包擴(kuò)展機(jī)制,通過導(dǎo)入擴(kuò)展包就可以使用標(biāo)準(zhǔn)狀態(tài)下所不支持的函數(shù)和數(shù)據(jù)集。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者(3)數(shù)據(jù)可視化。信息的質(zhì)量很大程度上依賴于其表達(dá)方式。對(duì)數(shù)字羅列所組成的數(shù)據(jù)中所包含的意義進(jìn)行分析,開發(fā)Web原型,使用外部API將圖表、地圖等其他服務(wù)統(tǒng)一起來,從而使分析結(jié)果可視化,這是對(duì)于數(shù)據(jù)科學(xué)家來說十分重要的技能之一。將數(shù)據(jù)與設(shè)計(jì)相結(jié)合,讓晦澀難懂的信息以易懂的形式進(jìn)行圖形化展現(xiàn)的信息圖最近正受到越來越多的關(guān)注,這也是數(shù)據(jù)可視
化的手法之一。
圖8-5信息圖的示例8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者作為參考,下面節(jié)選了臉書和推特的數(shù)據(jù)科學(xué)家招聘啟事。對(duì)于現(xiàn)實(shí)中的企業(yè)需要怎樣的技能,這則啟事應(yīng)該可以為大家提供一些更實(shí)際的體會(huì)。臉書招聘數(shù)據(jù)科學(xué)家臉書計(jì)劃為數(shù)據(jù)科學(xué)團(tuán)隊(duì)招聘數(shù)據(jù)科學(xué)家。應(yīng)聘該崗位的人,將擔(dān)任軟件工程師、量化研究員的工作。理想的候選人應(yīng)對(duì)在線社交網(wǎng)絡(luò)的研究有濃厚興趣,能夠找出創(chuàng)造最佳產(chǎn)品過程中所遇到的課題,并對(duì)解決這些課題擁有熱情。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者職務(wù)內(nèi)容確定重要的產(chǎn)品課題,并與產(chǎn)品工程團(tuán)隊(duì)密切合作尋求解決方案通過對(duì)數(shù)據(jù)運(yùn)用合適的統(tǒng)計(jì)技術(shù)來解決課題將結(jié)論傳達(dá)給產(chǎn)品經(jīng)理和工程師推進(jìn)新數(shù)據(jù)的收集以及對(duì)現(xiàn)有數(shù)據(jù)源的改良。對(duì)產(chǎn)品的實(shí)驗(yàn)結(jié)果進(jìn)行分析和解讀找到測(cè)量、實(shí)驗(yàn)的最佳實(shí)踐方法,傳達(dá)給產(chǎn)品工程團(tuán)隊(duì)必要條件相關(guān)技術(shù)領(lǐng)域的碩士或博士學(xué)位,或者具備4年以上相關(guān)工作經(jīng)驗(yàn)對(duì)使用定量手段解決分析性課題擁有豐富的經(jīng)驗(yàn)8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者能夠輕松操作和分析來自各方的、復(fù)雜且大量的多維數(shù)據(jù)對(duì)實(shí)證性研究以及解決數(shù)據(jù)相關(guān)的難題擁有極大的熱情能對(duì)各種精度級(jí)別的結(jié)果采用靈活的分析手段具備以實(shí)際、準(zhǔn)確且可行的方法傳達(dá)復(fù)雜定量分析的能力至少熟練掌握一種腳本語言,如Python、PHP等精通關(guān)系型數(shù)據(jù)庫(kù)和SQL對(duì)R、MATLAB、SAS等分析工具具備專業(yè)知識(shí)具備處理大量數(shù)據(jù)集的經(jīng)驗(yàn),以及使用MapReduce、Hadoop、Hive等分布式計(jì)算工具的經(jīng)驗(yàn)8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者推特招聘數(shù)據(jù)科學(xué)家(負(fù)責(zé)增加用戶數(shù)量)關(guān)于業(yè)務(wù)內(nèi)容推特計(jì)劃招聘能夠?yàn)樵黾悠溆脩魯?shù)提供信息和方向、具備行動(dòng)力和高超技能的人才。應(yīng)聘者需要具備統(tǒng)計(jì)和建模方面的專業(yè)背景,以及大規(guī)模數(shù)據(jù)集處理方面的豐富經(jīng)驗(yàn)。我們期待應(yīng)聘者所具有的判斷力能夠在多個(gè)層面上決定推特產(chǎn)品群的方向。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者職責(zé)使用Hadoop、Pig編寫MapReduce格式的數(shù)據(jù)分析能夠針對(duì)臨時(shí)數(shù)據(jù)挖掘流程和標(biāo)準(zhǔn)數(shù)據(jù)挖掘流程編寫復(fù)雜的SQL查詢能夠使用SQL、Pig、腳本語言、統(tǒng)計(jì)軟件包編寫代碼以口頭及書面形式對(duì)分析結(jié)果進(jìn)行總結(jié)并做出報(bào)告每天對(duì)數(shù)TB規(guī)模、10億條以上事務(wù)級(jí)別的大規(guī)模結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者必要條件計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)的碩士學(xué)位或者同等的經(jīng)驗(yàn)2年以上數(shù)據(jù)分析經(jīng)驗(yàn)大規(guī)模數(shù)據(jù)集及Hadoop等MapReduce架構(gòu)方面的經(jīng)驗(yàn)?zāi)_本語言及正則表達(dá)式等方面的經(jīng)驗(yàn)對(duì)離散數(shù)學(xué)、統(tǒng)計(jì)、概率方面感興趣將業(yè)務(wù)需求映射到工程系統(tǒng)方面的經(jīng)驗(yàn)8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者3.數(shù)據(jù)科學(xué)家所需的素質(zhì)僅僅四、五年前,對(duì)數(shù)據(jù)科學(xué)家的需求還僅限于谷歌、亞馬遜等互聯(lián)網(wǎng)企業(yè)中。然而在最近,重視數(shù)據(jù)分析的企業(yè),無論是哪個(gè)行業(yè),都在積極招募數(shù)據(jù)科學(xué)家。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者通常,數(shù)據(jù)科學(xué)家所需要具備的素質(zhì)有以下這些:(1)溝通能力:即便從大數(shù)據(jù)中得到了有用的信息,但如果無法將其在業(yè)務(wù)上實(shí)現(xiàn)的話,其價(jià)值就會(huì)大打折扣。為此,面對(duì)缺乏數(shù)據(jù)分析知識(shí)的業(yè)務(wù)部門員工以及經(jīng)營(yíng)管理層,將數(shù)據(jù)分析的結(jié)果有效傳達(dá)給他們的能力是非常重要的。(2)創(chuàng)業(yè)精神:以世界上尚不存在的數(shù)據(jù)為中心創(chuàng)造新型服務(wù)的創(chuàng)業(yè)精神,也是數(shù)據(jù)科學(xué)家所必需的一個(gè)重要素質(zhì)。谷歌、亞馬遜、臉書等通過數(shù)據(jù)催生出新型服務(wù)的企業(yè),都是通過對(duì)龐大的數(shù)據(jù)到底能創(chuàng)造出怎樣的服務(wù)進(jìn)行艱苦的探索才獲得成功的。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者(3)好奇心:龐大的數(shù)據(jù)背后到底隱藏著什么,要找出答案需要很強(qiáng)的好奇心。除此之外,成功的數(shù)據(jù)科學(xué)家都有一個(gè)共同點(diǎn),即并非局限于藝術(shù)、技術(shù)、醫(yī)療、自然科學(xué)等特定領(lǐng)域,而是對(duì)各個(gè)領(lǐng)域都擁有旺盛的好奇心。通過對(duì)不同領(lǐng)域數(shù)據(jù)的整合和分析,就有可能發(fā)現(xiàn)以前從未發(fā)現(xiàn)過的有價(jià)值的觀點(diǎn)。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者美國(guó)的數(shù)據(jù)科學(xué)家大多擁有豐富的從業(yè)經(jīng)歷,如實(shí)驗(yàn)物理學(xué)家、計(jì)算機(jī)化學(xué)家、海洋學(xué)家,甚至是神經(jīng)外科醫(yī)生等。也許有人認(rèn)為這是人才流動(dòng)性高的美國(guó)所特有的現(xiàn)象,但其實(shí)在中國(guó),也出現(xiàn)了一些積極招募不同職業(yè)背景人才的企業(yè),這樣的局面距離我們已經(jīng)不再遙遠(yuǎn)。數(shù)據(jù)科學(xué)家需要具備廣泛的技能和素質(zhì),因此預(yù)計(jì)這一職位將會(huì)陷入供不應(yīng)求的狀態(tài)。麥肯錫全球研究院(MGI)的一項(xiàng)研究調(diào)查表明:首先,三分之二的參加者認(rèn)為數(shù)據(jù)科學(xué)家供不應(yīng)求。這一點(diǎn)與前面提到的麥肯錫的報(bào)告是相同的。8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者對(duì)于新的數(shù)據(jù)科學(xué)家供給來源,有三分之一的人期待“計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生”,排名第一,而另一方面,期待現(xiàn)有商務(wù)智能專家的卻只有12%,這一結(jié)果比較出人意料(見圖)。也就是說,大部分人認(rèn)為,現(xiàn)在的商務(wù)智能專家無法滿足對(duì)數(shù)據(jù)科學(xué)家的需求。圖8-6數(shù)據(jù)科學(xué)家人才新的供給來源8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者數(shù)據(jù)科學(xué)家與商務(wù)智能專家之間的區(qū)別在于,從包括公司外部數(shù)據(jù)在內(nèi)的數(shù)據(jù)獲取階段,一直到基于數(shù)據(jù)最終產(chǎn)生業(yè)務(wù)上的決策,數(shù)據(jù)科學(xué)家大多會(huì)深入數(shù)據(jù)的整個(gè)生命周期。這一過程中也包括對(duì)數(shù)據(jù)的過濾、系統(tǒng)化、可視化等工作(見圖)。圖8-7數(shù)據(jù)科學(xué)家參與了數(shù)據(jù)的整個(gè)生命周期8.2.2數(shù)據(jù)科學(xué)家與數(shù)據(jù)工作者關(guān)于數(shù)據(jù)科學(xué)家與商務(wù)智能專家的專業(yè)背景,有一些重要的調(diào)查
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度包水管工程施工安全風(fēng)險(xiǎn)評(píng)估合同3篇
- 2024年特色小鎮(zhèn)門頭廣告設(shè)計(jì)與制作合同3篇
- 2025年度二零二五版智能租賃證辦理及房屋租賃管理合同3篇
- 2024年中國(guó)分級(jí)機(jī)市場(chǎng)調(diào)查研究報(bào)告
- 物聯(lián)網(wǎng)課程設(shè)計(jì)系統(tǒng)
- 材料成型基礎(chǔ)課程設(shè)計(jì)
- 2025至2030年中國(guó)自熱炎痛貼行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2030年中國(guó)氬弧焊槍配件行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2030年中國(guó)止咳立效膠囊行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025版集資房買賣合同范本深度分析與應(yīng)用策略2篇
- 南充市市級(jí)事業(yè)單位2024年公招人員擬聘人員歷年管理單位遴選500模擬題附帶答案詳解
- 安全知識(shí)考試題庫(kù)500題(含答案)
- 2024-2025學(xué)年上學(xué)期南京小學(xué)數(shù)學(xué)六年級(jí)期末模擬試卷
- 河北省保定市定興縣2023-2024學(xué)年一年級(jí)上學(xué)期期末調(diào)研數(shù)學(xué)試題(含答案)
- 2025年三支一扶考試基本能力測(cè)驗(yàn)試題及解答參考
- 2024版食源性疾病培訓(xùn)完整課件
- 【MOOC】信號(hào)與系統(tǒng)-南京郵電大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 護(hù)理不良事件分析 課件
- 10萬噸級(jí)泊位工程施工組織設(shè)計(jì)
- 《Python程序設(shè)計(jì)》課件-2:變量和數(shù)據(jù)類型
- 糖尿病相關(guān)論文開題報(bào)告
評(píng)論
0/150
提交評(píng)論