chp9大數(shù)據(jù)與海量存儲_第1頁
chp9大數(shù)據(jù)與海量存儲_第2頁
chp9大數(shù)據(jù)與海量存儲_第3頁
chp9大數(shù)據(jù)與海量存儲_第4頁
chp9大數(shù)據(jù)與海量存儲_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、1In God we trust; all others must bring data.- W. Edwards Deming, statistician, professor, author, lecturer, and consultant 第8介紹了移動通信技術(shù)的發(fā)展,重點介紹了我國使用的第三代移動通信技術(shù)和標準(TD-SCDMA,W-CDMA,CDMA2000),并討論了移動互聯(lián)網(wǎng)的典型應用。2 9.1 從網(wǎng)絡化存儲到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點 9.6 數(shù)據(jù)中心與云存儲34甲骨文紙質(zhì)書籍數(shù)字化存儲 全球信息

2、總量迅猛增長 2007年產(chǎn)生的數(shù)據(jù)量為281EB(1EB=10億GB),2011年1.8ZB 物聯(lián)網(wǎng)中對象的數(shù)量將龐大到以百億為單位 大數(shù)據(jù) 無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取管理和處理的數(shù)據(jù) 數(shù)量大(Volume),種類多(Variety),速度快(Velocity) 導致了網(wǎng)絡化存儲和大型數(shù)據(jù)中心的誕生5 9.1 從網(wǎng)絡化存儲到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點 9.6 數(shù)據(jù)中心與云存儲6 直接附加存儲(Direct-Attached Strorage,DAS) 將存儲系統(tǒng)通過纜線直接與服務器或工作站相連 一

3、般包括多個硬盤驅(qū)動器,與主機總線適配器通過電纜或光纖 在存儲設備和主機總線適配器之間不存在其他網(wǎng)絡設備 實現(xiàn)了計算機內(nèi)存儲到存儲子系統(tǒng)的跨越7 網(wǎng)絡附加存儲(Network Attached Storage,NAS) 文件級的計算機數(shù)據(jù)存儲架構(gòu) 計算機連接到一個僅為其它設備提供基于文件級數(shù)據(jù)存儲服務的網(wǎng)絡 NAS與DAS的區(qū)別 DAS是一種對已有服務器的簡單擴展,并沒有真正實現(xiàn)網(wǎng)絡互聯(lián)。NAS則是將網(wǎng)絡作為存儲實體,更容易實現(xiàn)文件級別的共享。NAS性能上比DAS有所增強8 存儲區(qū)域網(wǎng)絡(Storage Area Network,SAN) 通過網(wǎng)絡方式連接存儲設備和應用服務器的存儲架構(gòu) 由服務器

4、、存儲設備和SAN連接設備組成 SAN的特點 存儲共享 支持服務器從SAN直接啟動910 DAS 管理容易,結(jié)構(gòu)簡單;集中式體系結(jié)構(gòu),不能滿足大規(guī)模數(shù)據(jù)訪問的需求;存儲資源利用率低,資源共享能力差,造成“信息孤島”。 NAS 網(wǎng)絡的存儲實體,容易實現(xiàn)文件級別共享;性能嚴重依賴于網(wǎng)絡流量,用戶數(shù)過多,讀寫過頻繁時性能受限。 SAN 存儲管理簡化,存儲容量利用率提高;無直接文件級別的訪問能力,但可在SAN基礎上建立文件系統(tǒng)。11 9.1 從網(wǎng)絡化存儲到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點 9.6 數(shù)據(jù)中心與云存儲12 維基百科:

5、“數(shù)據(jù)中心是一整套復雜的設施。它不僅僅包括計算機系統(tǒng)和其它與之配套的設備(例如通信和存儲系統(tǒng)),還包含冗余的數(shù)據(jù)通信連接、環(huán)境控制設備、監(jiān)控設備以及各種安全裝置?!?Google: “多功能的建筑物,能容納多個服務器以及通信設備。這些設備被放置在一起是因為它們具有相同的對環(huán)境的要求以及物理安全上的需求,并且這樣放置便于維護?!?314大型機微型機大規(guī)模數(shù)據(jù)中心(Mega Data Center)15大規(guī)模數(shù)據(jù)中心已經(jīng)得到推廣 數(shù)據(jù)中心建設者面對的難題 如何規(guī)劃一個新的數(shù)據(jù)中心? 怎樣對數(shù)據(jù)中心進行升級? 數(shù)據(jù)中心的標準對相關經(jīng)驗進行了總結(jié) ANSI/TIA/EIA-942(簡稱TIA-942)

6、:數(shù)據(jù)中心標準電信產(chǎn)業(yè)協(xié)會(TIA)提出美國國家標準學會(ANSI)批準16 選址:需要考慮多方面因素 建設和運營成本 應用需求 政策優(yōu)惠 布局: 按功能區(qū)域劃分17功能區(qū)域組成 TIA-942還對纜線系統(tǒng),可靠性分級,能源系統(tǒng)和降溫系統(tǒng)等做了規(guī)定。18纜線系統(tǒng)規(guī)格如何放置纜線能源系統(tǒng)外部電力供應電池組發(fā)電機降溫系統(tǒng)降溫設備架空地板冷通道與熱通道 9.1 從網(wǎng)絡化存儲到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點 9.6 數(shù)據(jù)中心與云存儲19 簡介 全球共建有近40個大規(guī)模數(shù)據(jù)中心 單個數(shù)據(jù)中心需要至少50兆瓦功率,約等于一個小型城市

7、所有家庭的用電量 獨特的硬件設備:定制的以太網(wǎng)交換機、能源系統(tǒng)等 自行研發(fā)的軟件技術(shù):Google File System、MapReduce、BigTable等20 GFS的設計觀念 組件失效不再被認為是意外,而是被看做正常的現(xiàn)象 GFS的文件非常巨大 對文件的操作具有特定的模式 應用程序和文件系統(tǒng)API的協(xié)同設計提高了整個系統(tǒng)的靈活性21 一個GFS集群包含一個主服務器和多個塊服務器,并被多個客戶端訪問。 文件分成固定大小的“塊”。每個塊在創(chuàng)建時都由主服務器分配一個固定不變的64位句柄唯一標識。 塊服務器把塊作為Linux文件存儲在本地磁盤上,并根據(jù)指定的塊句柄和字節(jié)范圍對數(shù)據(jù)塊進行讀寫操

8、作。22 主服務器維護所有文件系統(tǒng)的元數(shù)據(jù),包括名字空間、訪問控制信息、文件到塊的映射信息以及塊當前的位置。此外,主服務器還控制其它系統(tǒng)級的活動。主服務器周期性地與塊服務器通信,以下達指令和收集狀態(tài)。 GFS客戶端代碼被嵌入到每個應用中。它實現(xiàn)了文件系統(tǒng)API,實現(xiàn)主服務器與塊服務器的通信從而代表應用實現(xiàn)讀寫操作??蛻舳伺c服務器交互從而實現(xiàn)元數(shù)據(jù)操作,但所有的數(shù)據(jù)操作都通過直接與塊服務器交互而完成。23 MapReduce是一種針對超大規(guī)模數(shù)據(jù)集的編程模型和系統(tǒng) 用MapReduce開發(fā)出的程序可在大量商用計算機集群上并行執(zhí)行、處理計算機的失效以及調(diào)度計算機間的通信 MapReduce的基本思

9、想 用戶寫的兩個程序:Map和Reduce 一個在計算機集群上執(zhí)行多個程序?qū)嵗目蚣?4 MapReduce程序的執(zhí)行過程25 BigTable是一種用來在海量數(shù)據(jù)規(guī)模下(例如包含以PB為單位的數(shù)據(jù)量和數(shù)千臺廉價計算機的應用)管理結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)。 應用 Google地球 網(wǎng)頁索引 RSS閱讀器 26 每個BigTable都是一個稀疏的、分布式的多維有序圖,按行鍵值、列鍵值和時間戳建立索引27 什么是Hadoop? Apache開源組織的一個分布式計算開源框架 用于在大型集群的廉價服務器設備上運行數(shù)據(jù)密集型分布式應用程序 在早期實際上是Google文件系統(tǒng)與MapReduce分布式計

10、算框架及相關IT基礎服務的開源實現(xiàn) Hadoop包括多個子項目 HDFS、 MapReduce、 HBase 、Chukwa、Pig、ZooKeeper等28 Hadoop Distributed File System29 9.1 從網(wǎng)絡化存儲到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點 9.6 數(shù)據(jù)中心與云存儲30 Google數(shù)據(jù)中心選址: 能源、水源、空地面積、與其他數(shù)據(jù)中心間距離、稅收等 在俄勒岡州,規(guī)劃建設3個約6400平方米的中心機房31Google數(shù)據(jù)中心在全球的分布 數(shù)據(jù)中心能耗比(PUE)普遍在2左右 Googl

11、e達到1.16,業(yè)界領先 中心高溫化 特殊定制的網(wǎng)絡服務器 與Google研制的集成了電池的能源系統(tǒng)兼容 提高效率,降低能耗32 9.1 從網(wǎng)絡化存儲到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點 9.6 數(shù)據(jù)中心與云存儲33 2006年Google在數(shù)據(jù)中心項目上的花費為19億美元,而2007年該項支出增加到24億美元。 Google在俄勒岡州的數(shù)據(jù)中心有近100兆瓦的功率,滿負荷運行時消耗的電力基本上和紐卡斯爾(Newcastle)一個城市所有家庭的用電量加起來一樣多。 研究熱點:如何在保證服務質(zhì)量的前提下降低成本?34Googl

12、e在俄勒岡州哥倫比亞河邊的數(shù)據(jù)中心 基礎設施部分包括能源系統(tǒng)、降溫系統(tǒng)、各種防火設備、安保設備等。降低這一部分成本往往涉及到機械設備制造技術(shù)或政策優(yōu)惠等因素,與計算機學科的關聯(lián)程度相對較低。 我們分別從服務器,網(wǎng)絡設備,能源三個方面對造成高成本的原因和目前的解決方法進行簡要介紹35 服務器的實際利用效率較低 分配到各服務器的應用不能完全利用某些組件 對應用需求的預測比較難,無法做到按需分配 為了提高系統(tǒng)的可靠性,一般都留有冗余設備 提高服務器利用率的關鍵在于及時應對需求的動態(tài)變化36 主要來源 交換機、路由器、負載均衡設備 傳統(tǒng)的數(shù)據(jù)中心使用樹形結(jié)構(gòu),核心交換機和路由器構(gòu)成流量瓶頸,且造價昂貴

13、 研究熱點:新的數(shù)據(jù)中心網(wǎng)絡結(jié)構(gòu) 以交換機為中心的多層樹形結(jié)構(gòu):例如Fat-Tree 以服務器為中心的互聯(lián)結(jié)構(gòu):例如DCell37 研究熱點 降低服務器工作能耗 降低同等性能設備能耗 提高同等能耗設備性能 可調(diào)整負載的服務器 減少降溫系統(tǒng)能耗 精細、精準的溫度控制 集裝箱式模塊化數(shù)據(jù)中心38 9.1 從網(wǎng)絡化存儲到數(shù)據(jù)中心 9.2 數(shù)據(jù)中心建設 9.3 數(shù)據(jù)中心技術(shù) 9.4 典型的數(shù)據(jù)中心 9.5 數(shù)據(jù)中心的研究熱點 9.6 數(shù)據(jù)中心與云存儲39 Google的數(shù)據(jù)中心屬于“自產(chǎn)自銷”模式,同時提供產(chǎn)品和服務 Amazon開創(chuàng)了云存儲和云計算的商業(yè)模式 彈性計算云:提供海量數(shù)據(jù)計算服務 簡單存

14、儲服務(S3):可伸縮、可靠、高可用、低成本的存儲服務 Dropbox后臺即架設于S3之上 未來物聯(lián)網(wǎng) 不同商業(yè)機構(gòu)共享云存儲,而不需要建立自己的數(shù)據(jù)中心 對海量數(shù)據(jù)的分析和處理也可以依托云計算進行40內(nèi)容回顧 本章介紹了三種基本的網(wǎng)絡存儲體系結(jié)構(gòu),并討論了數(shù)據(jù)中心的基本概念,以Google數(shù)據(jù)中心和Hadoop為例,簡要介紹了數(shù)據(jù)中心的相關技術(shù),指出了數(shù)據(jù)中心的研究熱點,最后分析了數(shù)據(jù)中心與云存儲的關系。41重點掌握 了解物聯(lián)網(wǎng)對海量數(shù)據(jù)存儲的迫切需求。 理解三種基本的網(wǎng)絡存儲體系結(jié)構(gòu)(DAS,NAS,SAN)的基本概念以及各自的優(yōu)缺點。 理解數(shù)據(jù)中心的概念,以Google數(shù)據(jù)中心為例,了解GFS,MapReduce,BigTable等技術(shù)的基本概念和特點。了解Hadoop分布式計算開源框架的特點。 了解保證性能前提下降低數(shù)據(jù)中心成本的方法(服務器成本,網(wǎng)絡設備成本,能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論