大數(shù)據(jù)技術(shù)基本知識(shí)與應(yīng)用林子雨版課后知識(shí)題目解析

上傳人：z*** IP屬地：山東上傳時(shí)間：2023-07-31 格式：DOCX 頁(yè)數(shù)：79 大小：929.71KB 積分：32 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)技術(shù)基本知識(shí)與應(yīng)用林子雨版課后知識(shí)題目解析_第2頁(yè)

大數(shù)據(jù)技術(shù)基本知識(shí)與應(yīng)用林子雨版課后知識(shí)題目解析_第3頁(yè)

大數(shù)據(jù)技術(shù)基本知識(shí)與應(yīng)用林子雨版課后知識(shí)題目解析_第4頁(yè)

大數(shù)據(jù)技術(shù)基本知識(shí)與應(yīng)用林子雨版課后知識(shí)題目解析_第5頁(yè)

已閱讀5頁(yè)，還剩74頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

**第一章1.試述信息技術(shù)發(fā)展史上的3次信息化浪潮及具體內(nèi)容。精品文檔放心下載信息化浪潮發(fā)生時(shí)間標(biāo)志解決問(wèn)題代表公司第一次浪潮1980年前后個(gè)人計(jì)算機(jī)信息處理Intel、AMD、IBM、蘋(píng)果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物理網(wǎng)、云計(jì)信息爆炸將涌現(xiàn)出一批新的算和大數(shù)據(jù)市場(chǎng)標(biāo)桿企業(yè)2.試述數(shù)據(jù)產(chǎn)生方式經(jīng)歷的幾個(gè)階段答：運(yùn)營(yíng)式系統(tǒng)階段，用戶原創(chuàng)內(nèi)容階段，感知式系統(tǒng)階段。感謝閱讀3. 試述大數(shù)據(jù)的4個(gè)基本特征**答：數(shù)據(jù)量大、數(shù)據(jù)類型繁多、處理速度快和價(jià)值密度低。感謝閱讀試述大數(shù)據(jù)時(shí)代的“數(shù)據(jù)爆炸”的特性答：大數(shù)據(jù)時(shí)代的“數(shù)據(jù)爆炸”的特性是，人類社會(huì)產(chǎn)生的數(shù)據(jù)一致都以每年50%的速度增長(zhǎng)，也就是說(shuō)，每?jī)赡暝黾右槐?。謝謝閱讀數(shù)據(jù)研究經(jīng)歷了哪4個(gè)階段？答：人類自古以來(lái)在科學(xué)研究上先后歷經(jīng)了實(shí)驗(yàn)、理論、計(jì)算、和數(shù)據(jù)四種范式。感謝閱讀試述大數(shù)據(jù)對(duì)思維方式的重要影響答：大數(shù)據(jù)時(shí)代對(duì)思維方式的重要影響是三種思維的轉(zhuǎn)變：全樣而非抽樣，效率而非精確，相關(guān)而非因果。謝謝閱讀大數(shù)據(jù)決策與傳統(tǒng)的基于數(shù)據(jù)倉(cāng)庫(kù)的決策有什么區(qū)別答：數(shù)據(jù)倉(cāng)庫(kù)具備批量和周期性的數(shù)據(jù)加載以及數(shù)據(jù)變化的實(shí)時(shí)探測(cè)、傳播和加載能力，能結(jié)合歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)實(shí)現(xiàn)查詢分析和自動(dòng)規(guī)則觸發(fā)，從而提供對(duì)戰(zhàn)略決策和戰(zhàn)術(shù)決策。感謝閱讀大數(shù)據(jù)決策可以面向類型繁多的、非結(jié)構(gòu)化的海量數(shù)據(jù)進(jìn)行決策分析。感謝閱讀**舉例說(shuō)明大數(shù)據(jù)的基本應(yīng)用答：領(lǐng)域大數(shù)據(jù)的應(yīng)用金融行業(yè) 大數(shù)據(jù)在高頻交易、社區(qū)情緒分析和信貸風(fēng)險(xiǎn)分析三大金融創(chuàng)精品文檔放心下載新領(lǐng)域發(fā)揮重要作用。汽車(chē)行業(yè) 利用大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)的五人駕駛汽車(chē)，在不遠(yuǎn)的未來(lái)將走精品文檔放心下載進(jìn)我們的日常生活互聯(lián)網(wǎng)行業(yè) 借助于大數(shù)據(jù)技術(shù)，可以分析客戶行為，進(jìn)行商品推薦和有針謝謝閱讀對(duì)性廣告投放個(gè)人生活大數(shù)據(jù)還可以應(yīng)用于個(gè)人生活，利用與每個(gè)人相關(guān)聯(lián)的“個(gè)人謝謝閱讀大數(shù)據(jù)”，分析個(gè)人生活行為習(xí)慣，為其提供更加周全的個(gè)性謝謝閱讀化服務(wù)。舉例說(shuō)明大數(shù)據(jù)的關(guān)鍵技術(shù)答：批處理計(jì)算，流計(jì)算，圖計(jì)算，查詢分析計(jì)算大數(shù)據(jù)產(chǎn)業(yè)包含哪些關(guān)鍵技術(shù)。**答：IT基礎(chǔ)設(shè)施層、數(shù)據(jù)源層、數(shù)據(jù)管理層、數(shù)據(jù)分析層、數(shù)據(jù)平臺(tái)層、數(shù)據(jù)應(yīng)用層。精品文檔放心下載11.定義并解釋以下術(shù)語(yǔ)：云計(jì)算、物聯(lián)網(wǎng)答：云計(jì)算：云計(jì)算就是實(shí)現(xiàn)了通過(guò)網(wǎng)絡(luò)提供可伸縮的、廉價(jià)的分布式計(jì)算機(jī)能力，用戶只需要在具備網(wǎng)絡(luò)接入條件的地方，就可以隨時(shí)隨地獲得所需的各種IT資源。精品文檔放心下載物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng)，是互聯(lián)網(wǎng)的延伸，它利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機(jī)器、人類和物等通過(guò)新的方式連在一起，形成人與物、物與物相連，實(shí)現(xiàn)信息化和遠(yuǎn)程管理控制。感謝閱讀12.詳細(xì)闡述大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)三者之間的區(qū)別與聯(lián)系。精品文檔放心下載大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的區(qū)別大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的聯(lián)系大數(shù)據(jù)側(cè)重于海量數(shù)據(jù)的存儲(chǔ)、處理與從整體來(lái)看，大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)分析，海量數(shù)據(jù)中發(fā)現(xiàn)價(jià)值，服務(wù)于生這三者是相輔相成的。大數(shù)據(jù)根植于云產(chǎn)和生活；云計(jì)算本質(zhì)上皆在整合和優(yōu)計(jì)算，大數(shù)據(jù)分析的很多技術(shù)都來(lái)自于化各種IT資源并通過(guò)網(wǎng)絡(luò)已服務(wù)的方云計(jì)算，云計(jì)算的分布式存儲(chǔ)和管理系法，廉價(jià)地提供給用戶；物聯(lián)網(wǎng)的發(fā)展統(tǒng)提供了海量數(shù)據(jù)的存儲(chǔ)和管理能力，目標(biāo)是實(shí)現(xiàn)嗚嗚向量，應(yīng)用創(chuàng)新是物聯(lián)沒(méi)有這些云計(jì)算技術(shù)作為支撐，大數(shù)據(jù)網(wǎng)的核心分析就無(wú)從談起。物聯(lián)網(wǎng)的傳感器源源**不斷的產(chǎn)生大量數(shù)據(jù)，構(gòu)成了大數(shù)據(jù)的重要數(shù)據(jù)來(lái)源，物聯(lián)網(wǎng)需要借助于云計(jì)算和大數(shù)據(jù)技術(shù)，實(shí)現(xiàn)物聯(lián)網(wǎng)大數(shù)據(jù)的存儲(chǔ)、分析和處理。第二章1.試述hadoop和谷歌的mapreduce、gfs等技術(shù)之間的關(guān)系精品文檔放心下載答：Hadoop的核心是分布式文件系統(tǒng)HDFS和MapReduce，HDFS是谷歌文件系統(tǒng)GFS的開(kāi)源實(shí)現(xiàn)，MapReduces是針對(duì)谷歌MapReduce的開(kāi)源實(shí)現(xiàn)。謝謝閱讀試述Hadoop具有哪些特性。答：高可靠性，高效性，高可擴(kuò)展性，高容錯(cuò)性，成本低，運(yùn)行在Linux平臺(tái)，支持多種編程語(yǔ)言精品文檔放心下載**試述Hadoop在各個(gè)領(lǐng)域的應(yīng)用情況。答：2007年，雅虎在Sunnyvale總部建立了M45——一個(gè)包含了4000個(gè)處理器和1.5PB容量的Hadooop集群系統(tǒng)；感謝閱讀Facebook主要將Hadoop平臺(tái)用于日志處理，推薦系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)等方面；謝謝閱讀百度主要使用Hadoop于日志的存儲(chǔ)和統(tǒng)計(jì)、網(wǎng)頁(yè)數(shù)據(jù)的分析和挖掘、商業(yè)分析、在線數(shù)據(jù)反饋、網(wǎng)頁(yè)聚類等。謝謝閱讀試述Hadoop的項(xiàng)目結(jié)構(gòu)以及每個(gè)部分的具體功能。感謝閱讀答：Pig Chukwa Hive HBaseMapReduce HDFS ZookeeperCommon AvroCommeon是為Hadoop其他子項(xiàng)目提供支持的常用工具，主要包括文件系統(tǒng)、感謝閱讀RPC和串行化庫(kù)Avro是為Hadoop的子項(xiàng)目，用于數(shù)據(jù)序列化的系統(tǒng)，提供了豐富的數(shù)據(jù)結(jié)構(gòu)類型、快速可壓縮的二進(jìn)制數(shù)據(jù)格式、存儲(chǔ)持續(xù)性數(shù)據(jù)的文件集、遠(yuǎn)程調(diào)用的功能和簡(jiǎn)單的動(dòng)態(tài)語(yǔ)言集成功能。精品文檔放心下載HDFS是Hadoop項(xiàng)目的兩個(gè)核心之一，它是針對(duì)谷歌文件系統(tǒng)的開(kāi)源實(shí)現(xiàn)。精品文檔放心下載HBase是一個(gè)提高可靠性、高性能、可伸縮、實(shí)時(shí)讀寫(xiě)、分布式的列式數(shù)據(jù)庫(kù)，一般采用HDFS作為其底層數(shù)據(jù)存儲(chǔ)。精品文檔放心下載MapReduce是針對(duì)谷歌MapReduce的開(kāi)源實(shí)現(xiàn)，用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。精品文檔放心下載Zoookepper是針對(duì)谷歌Chubby的一個(gè)開(kāi)源實(shí)現(xiàn)，是高效和可靠的協(xié)同工作系統(tǒng)，提供分布式鎖之類的基本服務(wù)，用于構(gòu)建分布式應(yīng)用，減輕分布式應(yīng)用程序所承擔(dān)的協(xié)調(diào)任務(wù)。感謝閱讀Hive是一個(gè)基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具，可以用于對(duì)Hadoop文件中的數(shù)據(jù)集進(jìn)行數(shù)據(jù)整理、特殊查詢和分布存儲(chǔ)。精品文檔放心下載**Pig是一種數(shù)據(jù)流語(yǔ)言和運(yùn)行環(huán)境，適合于使用Hadoop和MapReducce平臺(tái)上查詢大型半結(jié)構(gòu)化數(shù)據(jù)集。感謝閱讀Sqoop可以改進(jìn)數(shù)據(jù)的互操作性，主要用來(lái)在H大哦哦哦配合關(guān)系數(shù)據(jù)庫(kù)之間交換數(shù)據(jù)。謝謝閱讀Chukwa是一個(gè)開(kāi)源的、用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)，可以將各種類型的數(shù)據(jù)收集成適合Hadoop處理的文件，并保存在HDFS中供Hadoop進(jìn)行各種MapReduce操作。謝謝閱讀第三章1．試述分布式文件系統(tǒng)設(shè)計(jì)的需求。設(shè)計(jì)需求含義 HDFS的實(shí)現(xiàn)情況透明性具備訪問(wèn)透明性、位置透只能提供一定程度的訪謝謝閱讀**明性、性能、和伸縮透明問(wèn)透明性，完全支持位置性透明性、性能和伸縮透明性并發(fā)控制客戶端對(duì)于文件的讀寫(xiě)機(jī)制非常簡(jiǎn)單，任何時(shí)候不應(yīng)該影響其他客戶端都只允許有一個(gè)程序?qū)憣?duì)同一個(gè)文件的讀寫(xiě)入某個(gè)文件文件復(fù)制一個(gè)文件可以擁有不同HDFS采用了多副本機(jī)制位置的多個(gè)副本硬件和操作系統(tǒng)的異構(gòu)可以在不同的操作系統(tǒng)采用Java語(yǔ)言開(kāi)發(fā)，具性和計(jì)算機(jī)上實(shí)現(xiàn)同樣的有很好的跨平臺(tái)能力客戶端和服務(wù)端程序可伸縮性支持節(jié)點(diǎn)的動(dòng)態(tài)加入或建立在大規(guī)模廉價(jià)機(jī)器退出上的分布式文件系統(tǒng)集群，具有很好的伸縮性容錯(cuò)保證文件服務(wù)在客戶端具有多副本機(jī)制和故障或者服務(wù)端出現(xiàn)問(wèn)題的自動(dòng)檢測(cè)、恢復(fù)機(jī)制時(shí)候能正常使用安全保證系統(tǒng)的安全性安全性較弱2．分布式文件系統(tǒng)是如何實(shí)現(xiàn)較高水平擴(kuò)展的？**分布式文件系統(tǒng)在物理結(jié)構(gòu)上是由計(jì)算機(jī)集群中的多個(gè)節(jié)點(diǎn)構(gòu)成的，這些節(jié)點(diǎn)分為兩類，一類叫“主節(jié)點(diǎn)”(MasterNode)或者也被稱為“名稱結(jié)點(diǎn)”(NameNode)，另一類叫“從節(jié)點(diǎn)”（SlaveNode）或者也被稱為“數(shù)據(jù)節(jié)點(diǎn)”(DataNode)精品文檔放心下載3．試述HDFS中的塊和普通文件系統(tǒng)中的塊的區(qū)別。謝謝閱讀答：在傳統(tǒng)的文件系統(tǒng)中，為了提高磁盤(pán)讀寫(xiě)效率，一般以數(shù)據(jù)塊為單位，惡如不是以字節(jié)為單位。精品文檔放心下載HDFS中的塊，默認(rèn)一個(gè)塊大小為64MB，而HDFS中的文件會(huì)被拆分成多個(gè)塊，每個(gè)塊作為獨(dú)立的單元進(jìn)行存儲(chǔ)。HDFS在塊的大小的設(shè)計(jì)上明顯要大于普通文件系統(tǒng)。精品文檔放心下載4．試述HDFS中的名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)的具體功能。感謝閱讀答：名稱節(jié)點(diǎn)負(fù)責(zé)管理分布式文件系統(tǒng)系統(tǒng)的命名空間，記錄分布式文件系統(tǒng)中的每個(gè)文件中各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)的位置信息；精品文檔放心下載數(shù)據(jù)節(jié)點(diǎn)是分布式文件系統(tǒng)HDFS的工作節(jié)點(diǎn)，負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和讀取，會(huì)根據(jù)客戶端或者是名稱節(jié)點(diǎn)的調(diào)度來(lái)進(jìn)行數(shù)據(jù)的存儲(chǔ)和檢索，并向名稱節(jié)點(diǎn)定期發(fā)送自己所存儲(chǔ)的塊的列表。謝謝閱讀**hadoopfs-ls<path>顯示<path>指定的文件的詳細(xì)信息感謝閱讀hadoopfs-cat<path>將<path>指定的文件的內(nèi)容輸出到標(biāo)準(zhǔn)輸出感謝閱讀hadoopfs-mkdir<path>創(chuàng)建<path>指定的文件夾謝謝閱讀hadoopfs-get[-ignorecrc][-crc]<src><localdst>復(fù)制<src>指定的文件到本地文件系統(tǒng)<localdst>指定的文件或文件夾。-ignorecrc選項(xiàng)復(fù)制CRC校驗(yàn)失敗的文件。使用-crc選項(xiàng)復(fù)制文件以及CRC信息。感謝閱讀hadoopfs-put<localsrc><dst>從本地文件系統(tǒng)中復(fù)制<localsrc>指定的單個(gè)或多個(gè)源文件到<dst>指定的目標(biāo)文件系統(tǒng)中。也支持從標(biāo)準(zhǔn)輸入(stdin)中讀取輸入寫(xiě)入目標(biāo)文件系統(tǒng)。精品文檔放心下載hadoopfs-rmr<path>刪除<path>指定的文件夾及其的所有文件感謝閱讀**第四章1.試述在Hadoop體系架構(gòu)中HBase與其他組成部分的相互關(guān)系。感謝閱讀答：HBase利用HadoopMapReduce來(lái)處理HBase中的海量數(shù)據(jù)，實(shí)現(xiàn)高性能計(jì)算；利用Zookeeper作為協(xié)同服務(wù)，實(shí)現(xiàn)穩(wěn)定服務(wù)和失敗恢復(fù)；使用HDFS作為高可靠的底層存儲(chǔ)，利用廉價(jià)集群提供海量數(shù)據(jù)存儲(chǔ)能力;Sqoop為HBase的底層數(shù)據(jù)導(dǎo)入功能，Pig和Hive為HBase提供了高層語(yǔ)言支持，HBase是BigTable的開(kāi)源實(shí)現(xiàn)。謝謝閱讀請(qǐng)闡述HBase和BigTable的底層技術(shù)的對(duì)應(yīng)關(guān)系答：精品文檔放心下載項(xiàng)目 BigTable HBase文件存儲(chǔ)系統(tǒng) GFS HDFS海量數(shù)據(jù)處理 MapReduce HadoopMapReduce感謝閱讀**協(xié)同服務(wù)管理 Chubby Zookeeper請(qǐng)闡述HBase和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的區(qū)別答：區(qū)別傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)HBase數(shù)據(jù)類型關(guān)系模型數(shù)據(jù)模型數(shù)據(jù)操作插入、刪除、更新、查詢、插入、查詢、刪除、清空，多表連接無(wú)法實(shí)現(xiàn)表與表之間關(guān)聯(lián)存儲(chǔ)模式基于行模式存儲(chǔ)，元組或基于列存儲(chǔ)，每個(gè)列族都行會(huì)被連續(xù)地存儲(chǔ)在磁由幾個(gè)文件保存，不同列盤(pán)也中族的文件是分離的數(shù)據(jù)索引針對(duì)不同列構(gòu)建復(fù)雜的只有一個(gè)行鍵索引多個(gè)索引數(shù)據(jù)維護(hù)用最新的當(dāng)前值去替換更新操作不會(huì)刪除數(shù)據(jù)記錄中原來(lái)的舊值舊的版本，而是生成一個(gè)新的版本可伸縮性很難實(shí)現(xiàn)橫向擴(kuò)展，縱向輕易地通過(guò)在集群中增擴(kuò)展的空間也比較有限加或者減少硬件數(shù)量來(lái)**實(shí)現(xiàn)性能的伸縮4.HBase有哪些類型的訪問(wèn)接口？答：HBase提供了NativeJavaAPI,HBaseShell,ThriftGateway,RESTGateWay,Pig,Hive等訪問(wèn)接口。謝謝閱讀5.請(qǐng)以實(shí)例說(shuō)明HBase數(shù)據(jù)模型。列族列限定符答：InfoName Major Email201505001 LuoMin Math Luo@謝謝閱讀201505002 LiuJun Math liu@謝謝閱讀201505003 XieYou Math xie@精品文檔放心下載you@163.com行鍵單元格單元格有兩個(gè)時(shí)間戳ts1和ts2每個(gè)時(shí)間戳對(duì)應(yīng)一個(gè)數(shù)據(jù)版本**分別解釋HBase中行鍵、列鍵和時(shí)間戳的概念(1)行鍵是唯一的，在一個(gè)表里只出現(xiàn)一次，否則就是在更新同一行，行鍵可以是任意的字節(jié)數(shù)組。謝謝閱讀(2)列族需要在創(chuàng)建表的時(shí)候就定義好，數(shù)量也不宜過(guò)多。列族名必須由可打印字符組成，創(chuàng)建表的時(shí)候不需要定義好列。感謝閱讀(3)時(shí)間戳，默認(rèn)由系統(tǒng)指定，用戶也可以顯示設(shè)置。使用不同的時(shí)間戳來(lái)區(qū)分不同的版本。謝謝閱讀請(qǐng)舉個(gè)實(shí)例來(lái)闡述HBase的概念視圖和物理視圖的不同謝謝閱讀HBase數(shù)據(jù)概念視圖行鍵時(shí)間戳列族contents列族anchor“n.wwwT5Anchor:cnnsi.co”m=”CNN”T3Anchor:my.look.ca=”CNN”“n.wwwT3Content:html=””<html>...”T2Content:html=”<html>...”**T1 Content:html=”<html>...”HBase數(shù)據(jù)物理視圖行鍵時(shí)間戳列族anchor“n.wwwT5Anchor:cnnsi.co”m=”CNN”T4Anchor:my.look.ca=”CNN”行鍵時(shí)間戳列族contents“n.wwwT3Content:html=””<html>...”T2Content:html=”<html>...”T1Content:html=”<html>...”在HBase的概念視圖中，一個(gè)表可以視為一個(gè)稀疏、多維的映射關(guān)系。感謝閱讀**在物理視圖中，一個(gè)表會(huì)按照屬于同一列族的數(shù)據(jù)保存在一起精品文檔放心下載試述HBase各功能組建及其作用（1）庫(kù)函數(shù)：鏈接到每個(gè)客戶端；精品文檔放心下載（2）一個(gè)Master主服務(wù)器：主服務(wù)器Master主要負(fù)責(zé)表和Region的管理工作；感謝閱讀（3）許多個(gè)Region服務(wù)器：Region服務(wù)器是HBase中最核心的模塊，負(fù)責(zé)維護(hù)分配給自己的Region，并響應(yīng)用戶的讀寫(xiě)請(qǐng)求精品文檔放心下載9.請(qǐng)闡述HBase的數(shù)據(jù)分區(qū)機(jī)制。答：HBase采用分區(qū)存儲(chǔ)，一個(gè)大的表會(huì)被分拆許多個(gè)Region，這些Region會(huì)被分發(fā)到不同的服務(wù)器上實(shí)現(xiàn)分布式存儲(chǔ)。精品文檔放心下載10.HBase中的分區(qū)是如何定位的。通過(guò)構(gòu)建的映射表的每個(gè)條目包含兩項(xiàng)內(nèi)容，一個(gè)是Regionde標(biāo)識(shí)符，另一個(gè)是Region服務(wù)器標(biāo)識(shí)，這個(gè)條目就標(biāo)識(shí)Region和Region服務(wù)器之間的對(duì)應(yīng)關(guān)系，從而就可以知道某個(gè)Region被保存在哪個(gè)Region服務(wù)器中。感謝閱讀11.試述HBase的三層結(jié)構(gòu)中各層次的名稱和作用。精品文檔放心下載**層次名稱作用第一層Zookeeper記錄了-ROOT-表的位置信息文件第二層-ROOT-表記錄了.META.表的Region位置信息-ROOT-表只能有一個(gè)Region。通過(guò)-ROOT-表，就可以訪問(wèn).META.表中的數(shù)據(jù)第三層.META.表記錄了用戶數(shù)據(jù)表的Region位置信息，.META.表可以有多個(gè)Region，保存了HBase中所有用戶數(shù)據(jù)表的Region位置信息12.請(qǐng)闡述HBase的三層結(jié)構(gòu)下，客戶端是如何訪問(wèn)到數(shù)據(jù)的。感謝閱讀答：首先訪問(wèn)Zookeeper，獲取-ROOT表的位置信息，然后訪問(wèn)-Root-表，獲得.MATA.表的信息，接著訪問(wèn).MATA.表，找到所需的Region具體位于哪個(gè)Region服務(wù)器，最后才會(huì)到該Region服務(wù)器讀取數(shù)據(jù)。謝謝閱讀試述HBase系統(tǒng)基本架構(gòu)以及每個(gè)組成部分的作用。（1）客戶端謝謝閱讀客戶端包含訪問(wèn)HBase的接口，同時(shí)在緩存中維護(hù)著已經(jīng)訪問(wèn)過(guò)的Region位置信息，用來(lái)加快后續(xù)數(shù)據(jù)訪問(wèn)過(guò)程謝謝閱讀**（2）Zookeeper服務(wù)器Zookeeper可以幫助選舉出一個(gè)Master作為集群的總管，并保證在任何時(shí)刻總有唯一一個(gè)Master在運(yùn)行，這就避免了Master的“單點(diǎn)失效”問(wèn)題精品文檔放心下載（3）Master主服務(wù)器Master主要負(fù)責(zé)表和Region的管理工作：管理用戶對(duì)表的增加、刪除、修改、查詢等操作；實(shí)現(xiàn)不同Region服務(wù)器之間的負(fù)載均衡；在Region分裂或合并后，負(fù)責(zé)重新調(diào)整Region的分布；對(duì)發(fā)生故障失效的Region服務(wù)器上的Region進(jìn)行遷移謝謝閱讀（4）Region服務(wù)器Region服務(wù)器是HBase中最核心的模塊，負(fù)責(zé)維護(hù)分配給自己的Region，并響應(yīng)用戶的讀寫(xiě)請(qǐng)求精品文檔放心下載請(qǐng)闡述Region服務(wù)器向HDFS文件系統(tǒng)中讀寫(xiě)數(shù)據(jù)的基本原理精品文檔放心下載Region服務(wù)器內(nèi)部管理一系列Region對(duì)象和一個(gè)HLog文件，其中，HLog是磁盤(pán)上面的記錄文件，它記錄著所有的更新操作。每個(gè)Region對(duì)象又是由多謝謝閱讀Store組成的，每個(gè)Store對(duì)象了表中的一個(gè)列族的存儲(chǔ)。每個(gè)Store又包含了MemStore和若干個(gè)StoreFile，其中，MemStore是在內(nèi)存中的緩存。精品文檔放心下載試述HStore的工作原理**每個(gè)Store對(duì)應(yīng)了表中的一個(gè)列族的存儲(chǔ)。每個(gè)Store包括一個(gè)MenStore緩存和若干個(gè)StoreFile文件。MenStore是排序的內(nèi)存緩沖區(qū)，當(dāng)用戶寫(xiě)入數(shù)據(jù)時(shí)，系統(tǒng)首先把數(shù)據(jù)放入MenStore緩存，當(dāng)MemStore緩存滿時(shí)，就會(huì)刷新到磁盤(pán)中的一個(gè)StoreFile文件中，當(dāng)單個(gè)StoreFile文件大小超過(guò)一定閾值時(shí)，就會(huì)觸發(fā)文件分裂操作。謝謝閱讀16.試述HLog的工作原理答：HBase系統(tǒng)為每個(gè)Region服務(wù)器配置了一個(gè)HLog文件，它是一種預(yù)寫(xiě)式日志（WriteAheadLog），用戶更新數(shù)據(jù)必須首先寫(xiě)入日志后，才能寫(xiě)入MemStore緩存，并且，直到MemStore緩存內(nèi)容對(duì)應(yīng)的日志已經(jīng)寫(xiě)入磁盤(pán)，該緩存內(nèi)容才能被刷寫(xiě)到磁盤(pán)。精品文檔放心下載在HBase中，每個(gè)Region服務(wù)器維護(hù)一個(gè)HLog，而不是為每個(gè)Region都單獨(dú)維護(hù)一個(gè)HLog。請(qǐng)說(shuō)明這種做法的優(yōu)缺點(diǎn)。感謝閱讀優(yōu)點(diǎn)：多個(gè)Region對(duì)象的更新操作所發(fā)生的日志修改，只需要不斷把日志記錄追加到單個(gè)日志文件中，不需要同時(shí)打開(kāi)、寫(xiě)入到多個(gè)日志文件中。謝謝閱讀缺點(diǎn)：如果一個(gè)Region服務(wù)器發(fā)生故障，為了恢復(fù)其上次的Region對(duì)象，需要將Region服務(wù)器上的對(duì)象，需要將Region服務(wù)器上的HLog按照其所屬的Region對(duì)象進(jìn)行拆分，然后分發(fā)到其他Region服務(wù)器上執(zhí)行恢復(fù)操作。感謝閱讀**當(dāng)一臺(tái)Region服務(wù)器意外終止時(shí)，Master如何發(fā)現(xiàn)這種意外終止情況？為了恢復(fù)這臺(tái)發(fā)生意外的Region服務(wù)器上的Region,Master應(yīng)該做出哪些處理(包括如何使用HLog進(jìn)行恢復(fù))?謝謝閱讀Zookeeper會(huì)實(shí)時(shí)監(jiān)測(cè)每個(gè)Region服務(wù)器的狀態(tài)，當(dāng)某個(gè)Region服務(wù)器發(fā)生故障時(shí)，Zookeeper會(huì)通知Master。精品文檔放心下載Master首先會(huì)處理該故障Region服務(wù)器上面遺留的HLog文件，這個(gè)遺留的HLog文件中包含了來(lái)自多個(gè)Region對(duì)象的日志記錄。謝謝閱讀系統(tǒng)會(huì)根據(jù)每條日志記錄所屬的Region對(duì)象對(duì)HLog數(shù)據(jù)進(jìn)行拆分，分別放到相應(yīng)Region對(duì)象的目錄下，然后，再將失效的Region重新分配到可用的Region服務(wù)器中，并把與該Region對(duì)象相關(guān)的HLog日志記錄也發(fā)送給相應(yīng)的Region服務(wù)器。精品文檔放心下載Region服務(wù)器領(lǐng)取到分配給自己的Region對(duì)象以及與之相關(guān)的HLog日志記錄以后，會(huì)重新做一遍日志記錄中的各種操作，把日志記錄中的數(shù)據(jù)寫(xiě)入到MemStore緩存中，然后，刷新到磁盤(pán)的StoreFile文件中，完成數(shù)據(jù)恢復(fù)。感謝閱讀第五章1.如何準(zhǔn)確理解NoSQL的含義？**NoSQL是一種不同于關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)管理系統(tǒng)設(shè)計(jì)方式，是對(duì)非關(guān)系型數(shù)據(jù)庫(kù)的一類精品文檔放心下載統(tǒng)稱，它采用的數(shù)據(jù)模型并非傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的關(guān)系模型，而是類似鍵/值、列族、文檔等謝謝閱讀非關(guān)系模型。2.試述關(guān)系數(shù)據(jù)庫(kù)在哪些方面無(wú)法滿族Web2.0應(yīng)用的需求。感謝閱讀關(guān)系數(shù)據(jù)庫(kù)已經(jīng)無(wú)法滿足Web2.0的需求。主要表現(xiàn)在以下幾個(gè)方面：感謝閱讀（1）無(wú)法滿足海量數(shù)據(jù)的管理需求（2）無(wú)法滿足數(shù)據(jù)高并發(fā)的需求（3）無(wú)法滿足高可擴(kuò)展性和高可用性的需求3.請(qǐng)比較NoSQL數(shù)據(jù)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)的優(yōu)缺點(diǎn)。感謝閱讀比較標(biāo)準(zhǔn) RDBMS NoSQL 備注數(shù)據(jù)庫(kù)原理完全支持部分支持 RDBMS有關(guān)系代數(shù)精品文檔放心下載理論作為基礎(chǔ)NoSQL沒(méi)有統(tǒng)一的理論基礎(chǔ)數(shù)據(jù)規(guī)模大超大 RDBMS很難實(shí)現(xiàn)橫**數(shù)據(jù)庫(kù)模式固定靈活查詢效率快可以實(shí)現(xiàn)高效的簡(jiǎn)單查詢，但是不具備高度結(jié)構(gòu)化查詢等特

向擴(kuò)展，縱向擴(kuò)展的空間也比較有限，性能會(huì)隨著數(shù)據(jù)規(guī)模的增大而降低NoSQL可以很容易通過(guò)添加更多設(shè)備來(lái)支持更大規(guī)模的數(shù)據(jù)RDBMS需要定義數(shù)據(jù)庫(kù)模式，嚴(yán)格遵守?cái)?shù)據(jù)定義和相關(guān)約束條件NoSQL不存在數(shù)據(jù)庫(kù)模式，可以自由靈活定義并存儲(chǔ)各種不同類型的數(shù)據(jù)RDBMS借助于索引機(jī)制可以實(shí)現(xiàn)快速查詢（包括記錄查詢和**性，復(fù)雜查詢的性能范圍查詢）不盡人意很多NoSQL數(shù)據(jù)庫(kù)沒(méi)有面向復(fù)雜查詢的索引，雖然NoSQL可以使用MapReduce來(lái)加速查詢，但是，在復(fù)雜查詢方面的性能仍然不如RDBMS一致性強(qiáng)一致性弱一致性 RDBMS嚴(yán)格遵守事務(wù)ACID模型，可以保證事務(wù)強(qiáng)一致性很多NoSQL數(shù)據(jù)庫(kù)放松了對(duì)事務(wù)ACID四性的要求，而是遵守BASE模型，只能保證最終一致性數(shù)據(jù)完整性容易實(shí)現(xiàn) 很難實(shí)現(xiàn) 任何一個(gè)RDBMS都謝謝閱讀**可以很容易實(shí)現(xiàn)數(shù)據(jù)完整性，比如通過(guò)主鍵或者非空約束來(lái)實(shí)現(xiàn)實(shí)體完整性，通過(guò)主鍵、外鍵來(lái)實(shí)現(xiàn)參照完整性，通過(guò)約束或者觸發(fā)器來(lái)實(shí)現(xiàn)用戶自定義完整性但是，在NoSQL數(shù)據(jù)庫(kù)卻無(wú)法實(shí)現(xiàn)擴(kuò)展性

一般

好

RDBMS很難實(shí)現(xiàn)橫向擴(kuò)展，縱向擴(kuò)展的空間也比較有限NoSQL在設(shè)計(jì)之初就充分考慮了橫向擴(kuò)展的需求，可以很容易通過(guò)添加廉價(jià)設(shè)備實(shí)現(xiàn)擴(kuò)展**可用性

好

很好

RDBMS在任何時(shí)候都以保證數(shù)據(jù)一致性為優(yōu)先目標(biāo)，其次才是優(yōu)化系統(tǒng)性能，隨著數(shù)據(jù)規(guī)模的增大，RDBMS為了保證嚴(yán)格的一致性，只能提供相對(duì)較弱的可用性大多數(shù)NoSQL都能提供較高的可用性標(biāo)準(zhǔn)化

是

否

RDBMS已經(jīng)標(biāo)準(zhǔn)化（SQL）NoSQL還沒(méi)有行業(yè)標(biāo)準(zhǔn)，不同的NoSQL數(shù)據(jù)庫(kù)都有自己的查詢語(yǔ)言，很難規(guī)范應(yīng)用程序接口StoneBraker認(rèn)為：NoSQL缺乏統(tǒng)一查詢語(yǔ)言，將會(huì)拖慢**NoSQL發(fā)展技術(shù)支持高低 RDBMS經(jīng)過(guò)幾十年的發(fā)展，已經(jīng)非常成熟，Oracle等大型廠商都可以提供很好的技術(shù)支持NoSQL在技術(shù)支持方面仍然處于起步階段，還不成熟，缺乏有力的技術(shù)支持可維護(hù)性復(fù)雜復(fù)雜 RDBMS需要專門(mén)的數(shù)據(jù)庫(kù)管理員(DBA)維護(hù)NoSQL數(shù)據(jù)庫(kù)雖然沒(méi)有DBMS復(fù)雜，也難以維護(hù)5.試述NoSQL數(shù)據(jù)庫(kù)的四大類型**答：鍵值數(shù)據(jù)庫(kù)、列族數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)6.試述鍵值數(shù)據(jù)庫(kù)、列族數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)的適用場(chǎng)合和優(yōu)缺點(diǎn)。精品文檔放心下載數(shù)據(jù)庫(kù)適用場(chǎng)合優(yōu)點(diǎn)缺點(diǎn)鍵值數(shù)據(jù)庫(kù)通過(guò)鍵而是通過(guò)值來(lái)擴(kuò)展性好，靈活性好，無(wú)法存儲(chǔ)結(jié)構(gòu)化信查的業(yè)務(wù)大量寫(xiě)操作時(shí)性能高息，條件查詢效率較低列族數(shù)據(jù)庫(kù)不需要ACID事務(wù)支查找速度快，可擴(kuò)展功能較少，大都不支持的情形性強(qiáng)，容易進(jìn)行分布持強(qiáng)事務(wù)一致性式擴(kuò)展，復(fù)雜性低文檔數(shù)據(jù)庫(kù)只在相同的文檔上添性能好（高并發(fā)），加事務(wù)靈活性高，復(fù)雜性低，缺乏統(tǒng)一的查詢語(yǔ)法數(shù)據(jù)結(jié)構(gòu)靈活提供嵌入式文檔功能，將經(jīng)常查詢的數(shù)據(jù)存儲(chǔ)在同一個(gè)文檔中既可以根據(jù)鍵來(lái)構(gòu)建索引，也可以根據(jù)內(nèi)**容構(gòu)建索引圖形數(shù)據(jù)庫(kù) 具有高度相互關(guān)聯(lián)關(guān) 靈活性高，支持復(fù)雜復(fù)雜性高，只能支持感謝閱讀系的數(shù)據(jù) 的圖形算法，可用于一定的數(shù)據(jù)規(guī)模構(gòu)建復(fù)雜的關(guān)系圖譜7.試述CAP理論的具體含義。答：所謂的CAP指的是：C（Consistency）：一致性，是指任何一個(gè)讀操作總是能夠讀到之前完成的寫(xiě)操作的結(jié)果，感謝閱讀也就是在分布式環(huán)境中，多點(diǎn)的數(shù)據(jù)是一致的，或者說(shuō)，所有節(jié)點(diǎn)在同一時(shí)間具有相同的數(shù)精品文檔放心下載據(jù)A:（Availability）：可用性，是指快速獲取數(shù)據(jù)，可以在確定的時(shí)間內(nèi)返回操作結(jié)果，保謝謝閱讀證每個(gè)請(qǐng)求不管成功或者失敗都有響應(yīng)；P（ToleranceofNetworkPartition）：分區(qū)容忍性，是指當(dāng)出現(xiàn)網(wǎng)絡(luò)分區(qū)的情況時(shí)（即感謝閱讀系統(tǒng)中的一部分節(jié)點(diǎn)無(wú)法和其他節(jié)點(diǎn)進(jìn)行通信），分離的系統(tǒng)也能夠正常運(yùn)行，也就是說(shuō)，精品文檔放心下載系統(tǒng)中任意信息的丟失或失敗不會(huì)影響系統(tǒng)的繼續(xù)運(yùn)作。8.請(qǐng)舉例說(shuō)明不同產(chǎn)品在設(shè)計(jì)時(shí)是如何運(yùn)用CAP理論的。謝謝閱讀**A選擇CA，放棄P選擇AP，放棄CMySQLDynamoSQLServerCassandraPostgresSQLVoldemortCouchDBRiakC P選擇CP，放棄ANeo4J,Bigtable,MongoDB,Hbase,Hypertable,Redis感謝閱讀9.試述數(shù)據(jù)庫(kù)的ACID四性的含義1.原子性（Atomicity)指事務(wù)必須是原子工作單元，對(duì)于其數(shù)據(jù)修改，要么全都執(zhí)行，要么全都不執(zhí)行。謝謝閱讀2.一致性（consistency）指事務(wù)在完成時(shí)，必須使所有的數(shù)據(jù)都保持一致?tīng)顟B(tài)。隔離性（Isolation)指并發(fā)事務(wù)所做的修改必須與其他并發(fā)事務(wù)所做的修改隔離。精品文檔放心下載5.持久性（Durability)**指事務(wù)完成之后，它對(duì)于系統(tǒng)的影響是永久性的，該修改即使出現(xiàn)致命的系統(tǒng)故障也將謝謝閱讀一直保持。10.試述BASE的具體含義BASE的基本含義是基本可用（BasicallyAvailble）、軟狀態(tài)（Soft-state）和最終一謝謝閱讀致性（Eventualconsistency）11.請(qǐng)解釋軟狀態(tài)、無(wú)狀態(tài)、硬狀態(tài)的具體含義。“軟狀態(tài)（soft-state）”是與“硬狀態(tài)（hard-state）”相對(duì)應(yīng)的一種提法。數(shù)據(jù)庫(kù)謝謝閱讀保存的數(shù)據(jù)是“硬狀態(tài)”時(shí)，可以保證數(shù)據(jù)一致性，即保證數(shù)據(jù)一直是正確的?！败洜顟B(tài)”精品文檔放心下載是指狀態(tài)可以有一段時(shí)間不同步，具有一定的滯后性。12.什么是最終一致性？最終一致性根據(jù)更新數(shù)據(jù)后各進(jìn)程訪問(wèn)到數(shù)據(jù)的時(shí)間和方式的不同，又可以區(qū)分為：謝謝閱讀（1）會(huì)話一致性：它把訪問(wèn)存儲(chǔ)系統(tǒng)的進(jìn)程放到會(huì)話（session）的上下文中，只要精品文檔放心下載會(huì)話還存在，系統(tǒng)就保證“讀己之所寫(xiě)”一致性。如果由于某些失敗情形令會(huì)話終止，就要精品文檔放心下載建立新的會(huì)話，而且系統(tǒng)保證不會(huì)延續(xù)到新的會(huì)話；**（2）單調(diào)寫(xiě)一致性：系統(tǒng)保證來(lái)自同一個(gè)進(jìn)程的寫(xiě)操作順序執(zhí)行。系統(tǒng)必須保證這種精品文檔放心下載程度的一致性，否則就非常難以編程了（3）單調(diào)讀一致性：如果進(jìn)程已經(jīng)看到過(guò)數(shù)據(jù)對(duì)象的某個(gè)值，那么任何后續(xù)訪問(wèn)都不謝謝閱讀會(huì)返回在那個(gè)值之前的值（4）因果一致性：如果進(jìn)程A通知進(jìn)程B它已更新了一個(gè)數(shù)據(jù)項(xiàng)，那么進(jìn)程B的后續(xù)精品文檔放心下載訪問(wèn)將獲得A寫(xiě)入的最新值。而與進(jìn)程A無(wú)因果關(guān)系的進(jìn)程C的訪問(wèn)，仍然遵守一般的最感謝閱讀終一致性規(guī)則（5）“讀己之所寫(xiě)”一致性：可以視為因果一致性的一個(gè)特例。當(dāng)進(jìn)程A自己執(zhí)行一精品文檔放心下載個(gè)更新操作之后，它自己總是可以訪問(wèn)到更新過(guò)的值，絕不會(huì)看到舊值感謝閱讀13.試述不一致性窗口的含義。所有后續(xù)的訪問(wèn)都可以讀取到操作OP寫(xiě)入的最新值。從OP操作完成到后續(xù)訪問(wèn)可以最終精品文檔放心下載讀取到OP寫(xiě)入的最新值，這之間的時(shí)間間隔稱為“不一致性窗口”。謝謝閱讀最終一致性根據(jù)更新數(shù)據(jù)后各進(jìn)程訪問(wèn)到數(shù)據(jù)的時(shí)間和方式的不同，又可以分為哪些不同類型的一致性？精品文檔放心下載會(huì)話一致性、單調(diào)寫(xiě)一致性、單調(diào)寫(xiě)一致性、因果一致性和“讀己之所寫(xiě)”一致性。謝謝閱讀**14.什么是NewSQL數(shù)據(jù)庫(kù)？NewSQL是對(duì)各種新的可擴(kuò)展、高性能數(shù)據(jù)庫(kù)的簡(jiǎn)稱，這類數(shù)據(jù)庫(kù)不僅具有NoSQL感謝閱讀對(duì)海量數(shù)據(jù)的存儲(chǔ)管理能力，還保持了傳統(tǒng)數(shù)據(jù)庫(kù)支持ACID和SQL特性。精品文檔放心下載第六章1.試述云數(shù)據(jù)庫(kù)的概念。答：云數(shù)據(jù)庫(kù)是部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫(kù)。云數(shù)據(jù)庫(kù)是在云計(jì)算的大背景下發(fā)謝謝閱讀展起來(lái)的一種新興的共享基礎(chǔ)架構(gòu)的方法，它極大地增強(qiáng)了數(shù)據(jù)庫(kù)的存儲(chǔ)能力，消除了人員、謝謝閱讀硬件、軟件的重復(fù)配置，讓軟、硬件升級(jí)變得更加容易，同時(shí)，也虛擬化了許多后端功能。精品文檔放心下載云數(shù)據(jù)庫(kù)具有高可擴(kuò)展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點(diǎn)。感謝閱讀2.與傳統(tǒng)的軟件使用方式相比，云計(jì)算這種模式具有哪些明顯的優(yōu)勢(shì)?謝謝閱讀**3.云數(shù)據(jù)庫(kù)有哪些特性?答：1）動(dòng)態(tài)可擴(kuò)展 2)高可用性 3)較低的使用代價(jià)謝謝閱讀4)易用性 5)高性能 6)免維護(hù) 7)安全4.試述云數(shù)據(jù)庫(kù)的影響。答：在大數(shù)據(jù)時(shí)代，每個(gè)企業(yè)幾乎每天都在不斷產(chǎn)生大量的數(shù)據(jù)。企業(yè)類型不同，對(duì)于存感謝閱讀儲(chǔ)的需求也千差萬(wàn)別，而云數(shù)據(jù)庫(kù)可以很好地滿足不同企業(yè)的個(gè)性化存儲(chǔ)需求。感謝閱讀首先，云數(shù)據(jù)庫(kù)可以滿足大企業(yè)的海量數(shù)據(jù)存儲(chǔ)需求。云數(shù)據(jù)庫(kù)在當(dāng)前數(shù)據(jù)爆炸的大數(shù)感謝閱讀**據(jù)時(shí)代具有廣闊的應(yīng)用前景。傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)難以水平擴(kuò)展，相本無(wú)法存儲(chǔ)如此海量的數(shù)精品文檔放心下載據(jù)。因此，具有高可擴(kuò)展性的云數(shù)據(jù)庫(kù)就成為企業(yè)海量數(shù)據(jù)存儲(chǔ)管理的很好選擇。精品文檔放心下載其次，云數(shù)據(jù)庫(kù)可以滿足中小企業(yè)的低成本數(shù)據(jù)存儲(chǔ)需求。中小企業(yè)在IT基礎(chǔ)設(shè)施方感謝閱讀面的投人比較有限，非?？释麖牡谌椒奖恪⒖旖?、廉價(jià)地獲得數(shù)據(jù)庫(kù)服務(wù)。云數(shù)據(jù)庫(kù)采用謝謝閱讀多租戶方式同時(shí)為多個(gè)用戶提供服務(wù)，降低了單個(gè)用戶的使用成本，而且用戶使用云數(shù)據(jù)庫(kù)感謝閱讀服務(wù)通常按需付費(fèi)，不會(huì)浪費(fèi)資源造成額外支出，因此，云數(shù)據(jù)庫(kù)使用成本很低，對(duì)于中小謝謝閱讀企業(yè)而言可以大大降低企業(yè)的信息化門(mén)檻，讓企業(yè)在付出較低成本的同時(shí)，獲得優(yōu)質(zhì)的專業(yè)精品文檔放心下載級(jí)數(shù)據(jù)庫(kù)服務(wù),從而有效提升企業(yè)信息化水平。另外，云數(shù)據(jù)庫(kù)可以滿足企業(yè)動(dòng)態(tài)變化的數(shù)據(jù)存儲(chǔ)需求。企業(yè)在不同時(shí)期需要存儲(chǔ)的數(shù)精品文檔放心下載據(jù)量是不斷變化的，有時(shí)增加，有時(shí)減少。在小規(guī)模應(yīng)用的情況下，系統(tǒng)負(fù)載的變化可以由精品文檔放心下載系統(tǒng)空閑的多余資源來(lái)處理,但是，在大規(guī)模應(yīng)用的情況下，傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)由于其伸縮精品文檔放心下載性較差，不僅無(wú)法滿足應(yīng)用需求，而且會(huì)給企業(yè)帶來(lái)高昂的存儲(chǔ)成本和管理開(kāi)銷(xiāo)。而云數(shù)據(jù)感謝閱讀庫(kù)的良好伸縮性，可以讓企業(yè)在需求增加時(shí)立即獲得數(shù)據(jù)庫(kù)能力的提升,在需求減少時(shí)立即精品文檔放心下載釋放多余的數(shù)據(jù)庫(kù)能力,較好地滿足企業(yè)的動(dòng)態(tài)數(shù)據(jù)存儲(chǔ)需求。感謝閱讀5.舉例說(shuō)明云數(shù)據(jù)庫(kù)廠商及其代表性產(chǎn)品。答：云數(shù)據(jù)庫(kù)供應(yīng)商主要分為三類。傳統(tǒng)的數(shù)據(jù)庫(kù)廠商，如Teradata、Oracle、IBMDB2和MicrosoftSQLServer等。精品文檔放心下載**涉足數(shù)據(jù)庫(kù)市場(chǎng)的云供應(yīng)商，如Amazon、Google.Yahoo!、阿里、百度、騰訊等。精品文檔放心下載新興廠商，如IVertica.LongJump和EnterpriseDB等。感謝閱讀7.試述UMP系統(tǒng)的功能。答：UMP系統(tǒng)是構(gòu)建在一個(gè)大的集群之上的，通過(guò)多個(gè)組件的協(xié)同作業(yè)，整個(gè)系統(tǒng)實(shí)現(xiàn)了謝謝閱讀對(duì)用戶透明的容災(zāi)、讀寫(xiě)分離、分庫(kù)分表、資源管理、資源調(diào)度、資源隔離和數(shù)據(jù)安全功精品文檔放心下載能。1.容災(zāi)云數(shù)據(jù)庫(kù)必須向用戶提供一直可用的數(shù)據(jù)庫(kù)連接，當(dāng)MySQL實(shí)例發(fā)生故障時(shí)，系統(tǒng)必須精品文檔放心下載自動(dòng)執(zhí)行故障恢復(fù)，所有故障處理過(guò)程對(duì)于用戶而言是透明的，用戶不會(huì)感知到后臺(tái)發(fā)生的謝謝閱讀一切。為了實(shí)現(xiàn)容災(zāi)，UMP系統(tǒng)會(huì)為每個(gè)用戶創(chuàng)建兩個(gè)MySQL實(shí)例，一個(gè)是主庫(kù)，一個(gè)是從感謝閱讀庫(kù)，而且，這兩個(gè)MySQL實(shí)例之間互相把對(duì)方設(shè)置為備份機(jī)，任意一個(gè)MySQL實(shí)例上面謝謝閱讀**發(fā)生的更新都會(huì)復(fù)制到對(duì)方。同時(shí)，Proxy服務(wù)器可以保證只向主庫(kù)寫(xiě)人數(shù)據(jù)。精品文檔放心下載2.讀寫(xiě)分離由于每個(gè)用戶都有兩個(gè)MySQL實(shí)例，即主庫(kù)和從庫(kù)，因此，可以充分利用主從庫(kù)實(shí)現(xiàn)用謝謝閱讀戶讀寫(xiě)操作的分離，實(shí)現(xiàn)負(fù)載均衡。UMP系統(tǒng)實(shí)現(xiàn)了對(duì)于用戶透明的讀寫(xiě)分離功能，當(dāng)整精品文檔放心下載個(gè)功能被開(kāi)啟時(shí)，負(fù)責(zé)向用戶提供訪問(wèn)MySQL數(shù)據(jù)庫(kù)服務(wù)的Proxy服務(wù)器，就會(huì)對(duì)用戶感謝閱讀發(fā)起的SQL語(yǔ)句進(jìn)行解析，如果屬于寫(xiě)操作,就直接發(fā)送到主庫(kù)，如果是讀操作，就會(huì)被均感謝閱讀衡地發(fā)送到主庫(kù)和從庫(kù)上執(zhí)行。3.分庫(kù)分表UMP支持對(duì)用戶透明的分庫(kù)分表(Shard/HorizontalPartition)。但是，用戶在創(chuàng)建賬號(hào)精品文檔放心下載的時(shí)候需要指定類型為多實(shí)例，并且設(shè)置實(shí)例的個(gè)數(shù)，系統(tǒng)會(huì)根據(jù)用戶設(shè)置來(lái)創(chuàng)建多組精品文檔放心下載MySQL實(shí)例。除此以外，用戶還需要自己設(shè)定分庫(kù)分表規(guī)則，如需要確定分區(qū)字段，也就謝謝閱讀是根據(jù)哪個(gè)字段進(jìn)行分庫(kù)分表，還要確定分區(qū)字段里的值如何映射到不同的MySQL實(shí)例感謝閱讀上。4.資源管理UMP系統(tǒng)采用資源池機(jī)制來(lái)管理數(shù)據(jù)庫(kù)服務(wù)器上的CPU、內(nèi)存、磁盤(pán)等計(jì)算資源，所有謝謝閱讀的計(jì)算資源都放在資源池內(nèi)進(jìn)行統(tǒng)一分配，資源池是為MySQL實(shí)例分配資源的基本單位。精品文檔放心下載整個(gè)集群中的所有服務(wù)器會(huì)根據(jù)其機(jī)型、所在機(jī)房等因素被劃分為多個(gè)資源池，每臺(tái)服務(wù)器精品文檔放心下載會(huì)被加人到相應(yīng)的資源池。在資源池劃分的基礎(chǔ)上，UMP還在每臺(tái)服務(wù)器內(nèi)部采用Cgroup謝謝閱讀將資源進(jìn)一步地細(xì)化，從而可以限制每個(gè)進(jìn)程組使用資源的上限，同時(shí)保證進(jìn)程組之間相互精品文檔放心下載隔離。5.資源調(diào)度**UMP系統(tǒng)中有3種規(guī)格的用戶，分別是數(shù)據(jù)量和流量比較小的用戶、中等規(guī)模用戶以及謝謝閱讀需要分庫(kù)分表的用戶。多個(gè)小規(guī)模用戶可以共享同一個(gè)MySQL實(shí)例。對(duì)于中等規(guī)模的用戶，感謝閱讀每個(gè)用戶獨(dú)占個(gè)MySQL實(shí)例。用戶可以根據(jù)自己的需求來(lái)調(diào)整內(nèi)存空間和磁盤(pán)空間，如果感謝閱讀用戶需要更多的資源，就可以遷移到資源有空閑或者具有更高配置的服務(wù)器上對(duì)于分庫(kù)分表感謝閱讀的用戶，會(huì)占有多個(gè)獨(dú)立的MySQL實(shí)例，這些實(shí)例既可以共存在同一臺(tái)物理機(jī)上，也可以謝謝閱讀每個(gè)實(shí)例獨(dú)占一臺(tái)物理機(jī)。UMP通過(guò)MySQL實(shí)例的遷移來(lái)實(shí)現(xiàn)資源調(diào)度。借助于阿里集團(tuán)中間件團(tuán)隊(duì)開(kāi)發(fā)的愚公感謝閱讀系統(tǒng)，UMP可以實(shí)現(xiàn)在不停機(jī)的情況下動(dòng)態(tài)擴(kuò)容、縮容和遷移。精品文檔放心下載6.資源隔離當(dāng)多個(gè)用戶共享同一個(gè)MySQL實(shí)例或者多個(gè)MySQL實(shí)例共存在同一個(gè)物理機(jī)上時(shí)，為精品文檔放心下載了保護(hù)用戶應(yīng)用和數(shù)據(jù)的安全，必須實(shí)現(xiàn)資源隔離，否則，某個(gè)用戶過(guò)多消耗系統(tǒng)資源會(huì)嚴(yán)謝謝閱讀重影響到其他用戶的操作性能。7.數(shù)據(jù)安全數(shù)據(jù)安全是讓用戶放心使用云數(shù)據(jù)庫(kù)產(chǎn)品的關(guān)鍵，尤其是企業(yè)用戶，數(shù)據(jù)庫(kù)中存放了很謝謝閱讀多業(yè)務(wù)數(shù)據(jù)，有些屬于商業(yè)機(jī)密，一旦泄露，會(huì)給企業(yè)造成損失。UMP系統(tǒng)設(shè)計(jì)了多種機(jī)感謝閱讀制來(lái)保證數(shù)據(jù)安全。SSL數(shù)據(jù)庫(kù)連接。數(shù)據(jù)訪問(wèn)IP白名單。記錄用戶操作日志。SQL攔截。**UMP系統(tǒng)是如何保障數(shù)據(jù)安全的?答：SSL數(shù)據(jù)庫(kù)連接。SSL(SecureSocketsLayer)是為網(wǎng)絡(luò)通信提供安全及數(shù)據(jù)完整性的一種安全協(xié)議，它在傳輸層對(duì)網(wǎng)絡(luò)連接進(jìn)行加密。Proxy服務(wù)器實(shí)現(xiàn)了完整的謝謝閱讀MySQL客戶端服務(wù)器協(xié)議，可以與客戶端之間建立SSL數(shù)據(jù)庫(kù)連接。感謝閱讀數(shù)據(jù)訪問(wèn)IP白名單。可以把允許訪問(wèn)云數(shù)據(jù)庫(kù)的IP地址放入“白名單”，只有白名單內(nèi)的IP地址才能訪問(wèn)，其他IP地址的訪問(wèn)都會(huì)被拒絕，從而進(jìn)一步保證賬戶安全。精品文檔放心下載記錄用戶操作日志。用戶的所有操作記錄都會(huì)被記錄到日志分析服務(wù)器，通過(guò)檢查用戶操作記錄，可以發(fā)現(xiàn)隱藏的安全漏洞。謝謝閱讀SQL攔截。Proxy服務(wù)器可以根據(jù)要求攔截多種類型的SQL語(yǔ)句，比如全表掃描語(yǔ)句謝謝閱讀"select*”。15.簡(jiǎn)述RDS中實(shí)例與數(shù)據(jù)庫(kù)的概念。答： RDS實(shí)例或簡(jiǎn)稱“實(shí)例”，是用戶購(gòu)買(mǎi)RDS服務(wù)的基本單位。在實(shí)例中可以創(chuàng)建多謝謝閱讀個(gè)數(shù)據(jù)庫(kù)，可以使用常見(jiàn)的數(shù)據(jù)庫(kù)客戶端連接、管理及使用數(shù)據(jù)庫(kù)?？梢酝ㄟ^(guò)RDS管理控精品文檔放心下載制臺(tái)或OPENAPI來(lái)創(chuàng)建、修改和刪除數(shù)據(jù)庫(kù)。各實(shí)例之間相互獨(dú)立、資源隔離，相互之感謝閱讀間不存在CPU、內(nèi)存、IOPS等搶占問(wèn)題。但是，同一實(shí)例中的不同數(shù)據(jù)庫(kù)之間是資源共享精品文檔放心下載的。每個(gè)實(shí)例擁有其自己的特性，如數(shù)據(jù)庫(kù)類型、版本等，系統(tǒng)有相應(yīng)的參數(shù)來(lái)控制實(shí)例行感謝閱讀**為。用戶所購(gòu)買(mǎi)RDS實(shí)例的性能，取決于購(gòu)買(mǎi)RDS實(shí)例時(shí)所選擇的配置，可供用戶選擇的精品文檔放心下載硬件配置項(xiàng)為內(nèi)存和磁盤(pán)容量。RDS數(shù)據(jù)庫(kù)或簡(jiǎn)稱“數(shù)據(jù)庫(kù)”，是用戶在一個(gè)實(shí)例下創(chuàng)建的邏輯單元，一個(gè)實(shí)例可以謝謝閱讀創(chuàng)建多個(gè)數(shù)據(jù)庫(kù)，在實(shí)例內(nèi)數(shù)據(jù)庫(kù)命名唯一，所有數(shù)據(jù)庫(kù)都會(huì)共享該實(shí)例下的資源，如CPU、謝謝閱讀內(nèi)存、磁盤(pán)容量等。RDS不支持使用標(biāo)準(zhǔn)的SQL語(yǔ)句或客戶端工具創(chuàng)建數(shù)據(jù)庫(kù)，必須使用精品文檔放心下載OPENAPI或RDS管理控制臺(tái)進(jìn)行操作。16.列舉連接RDSforMySQL數(shù)據(jù)庫(kù)的4種方法。感謝閱讀答：方法1:使用客戶端MySQL-Front訪問(wèn)。使用客戶端MySQL-Front,在連接謝謝閱讀Host框中輸人數(shù)據(jù)實(shí)例鏈接地址、端口(默認(rèn)3306)、數(shù)據(jù)庫(kù)用戶名和數(shù)據(jù)庫(kù)密碼后，單擊精品文檔放心下載“確定”按鈕即可。方法2:使用數(shù)據(jù)庫(kù)管理T具NavicatMySQL。Navicat_MySQL是一套專為MySQL設(shè)謝謝閱讀計(jì)的強(qiáng)大的數(shù)據(jù)庫(kù)管理及開(kāi)發(fā)工具，可以在連接輸人框中輸人數(shù)據(jù)實(shí)例地址、端口(默認(rèn)感謝閱讀3306)、數(shù)據(jù)庫(kù)用戶名和數(shù)據(jù)庫(kù)密碼后，單擊“確定”按鈕即可。感謝閱讀方法3:使用MySQL命令登錄。用戶安裝MySQL客戶端后，可進(jìn)人命令行方式連接數(shù)據(jù)感謝閱讀庫(kù)。命令格式如下。mysql-uuser_name-h-P3306-pxxxx感謝閱讀其中，-u指定的是用戶名，-h指定的是主機(jī)名，-P指定的是端口，-p指定的是密碼。精品文檔放心下載方法4:使用阿里云控制臺(tái)iDBCloud訪問(wèn)。阿里云控制臺(tái)iDBCloud的頁(yè)面如圖6-7所感謝閱讀示，RDS連接地址以及端口不需要再輸人，只需在“用戶名”中輸人數(shù)據(jù)庫(kù)的賬號(hào),在“密謝謝閱讀**碼”欄中輸人數(shù)據(jù)庫(kù)賬號(hào)的密碼，便可以登錄RDS進(jìn)行數(shù)據(jù)操作了。精品文檔放心下載第七章1.試述MapReduce和Hadoop的關(guān)系。精品文檔放心下載答：谷歌公司最先提出了分布式并行編程模型MapReduce,HadoopMapReduce是它謝謝閱讀的開(kāi)源實(shí)現(xiàn)。谷歌的MapReduce運(yùn)行在分布式文件系統(tǒng)GFS上，與谷歌類似，感謝閱讀HadoopMapReduce運(yùn)行在分布式文件系統(tǒng)HDFS上。相對(duì)而言，HadoopMapReduce要謝謝閱讀比谷歌MapReduce的使用門(mén)檻低很多，程序員即使沒(méi)有任何分布式程序開(kāi)發(fā)經(jīng)驗(yàn)，也可精品文檔放心下載以很輕松地開(kāi)發(fā)出分布式程序并部署到計(jì)算機(jī)集群中。2.MapReduce是處理大數(shù)據(jù)的有力工具，但不是每個(gè)任務(wù)都可以使用謝謝閱讀MapReduce來(lái)進(jìn)行處理。試述適合用MapReduce來(lái)處理的任務(wù)或者數(shù)據(jù)集感謝閱讀需滿足怎樣的要求。答：適合用MapReduce來(lái)處理的數(shù)據(jù)集，需要滿足一個(gè)前提條件:待處理的數(shù)據(jù)集可以分謝謝閱讀解成許多小的數(shù)據(jù)集，而且每一個(gè)小數(shù)據(jù)集都可以完全并行地進(jìn)行處理。謝謝閱讀MapReduce模型采用Master(JobTracker)-Slave(TaskTracker)結(jié)構(gòu)，試描述JobTracker和TasKTracker的功能。感謝閱讀**答：MapReduce框架采用了Master/Slave架構(gòu)，包括一個(gè)Master和若干個(gè)Slave。精品文檔放心下載Master上運(yùn)行JobTracker,Slave上運(yùn)行TaskTrackero用戶提交的每個(gè)計(jì)算作業(yè)，會(huì)被劃謝謝閱讀分成若千個(gè)任務(wù)。JobTracker負(fù)責(zé)作業(yè)和任務(wù)的調(diào)度，監(jiān)控它們的執(zhí)行，并重新調(diào)度已經(jīng)感謝閱讀失敗的任務(wù)。TaskTracker負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)。謝謝閱讀6.試述MapReduce的工作流程(需包括提交任務(wù)、Map、Shuffle、Reduce的精品文檔放心下載過(guò)程)。**************9.MapReduce中有這樣一個(gè)原則:移動(dòng)計(jì)算比移動(dòng)數(shù)據(jù)更經(jīng)濟(jì)。試述什么是本地計(jì)算，并分析為何要采用本地計(jì)算。感謝閱讀答：MapReduce設(shè)計(jì)的一個(gè)理念就是“計(jì)算向數(shù)據(jù)靠攏”，而不是“數(shù)據(jù)向計(jì)算靠攏”，因?yàn)橐苿?dòng)數(shù)據(jù)需要大量的網(wǎng)絡(luò)傳輸開(kāi)銷(xiāo)，尤其是在大規(guī)模數(shù)據(jù)環(huán)境下，這種開(kāi)銷(xiāo)尤為驚人，所以，移動(dòng)計(jì)算要比移動(dòng)數(shù)據(jù)更加經(jīng)濟(jì)。謝謝閱讀本地計(jì)算：在一個(gè)集群中，只要有可能，MapReduce框架就會(huì)將Map程序就近地在HDFS數(shù)據(jù)所在的節(jié)點(diǎn)運(yùn)行，即將計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)放在一起運(yùn)行，從而減少了節(jié)點(diǎn)間的數(shù)據(jù)移動(dòng)開(kāi)銷(xiāo)。精品文檔放心下載10.試說(shuō)明一個(gè)MapReduce程序在運(yùn)行期間，所啟動(dòng)的Map任務(wù)數(shù)量和Reduce任務(wù)數(shù)量各是由什么因素決定的。感謝閱讀**11.是否所有的MapReduce程序都需要經(jīng)過(guò)Map和Reduce這兩個(gè)過(guò)程?如果謝謝閱讀不是，請(qǐng)舉例說(shuō)明。答：不是。對(duì)于關(guān)系的選擇運(yùn)算，只需要Map過(guò)程就能實(shí)現(xiàn)，對(duì)于關(guān)系R中的每個(gè)元組t,精品文檔放心下載檢測(cè)是否是滿足條件的所需元組，如果滿足條件，則輸出鍵值對(duì)<,>,也就是說(shuō)，鍵和值都是感謝閱讀t。這時(shí)的Reduce函數(shù)就只是一個(gè)恒等式，對(duì)輸入不做任何變換就直接輸出。感謝閱讀12.試分析為何采用Combiner可以減少數(shù)據(jù)傳輸量?是否所有的MapReduce精品文檔放心下載程序都可以采用Combiner?為什么?答：對(duì)于每個(gè)分區(qū)內(nèi)的所有鍵值對(duì)，后臺(tái)線程會(huì)根據(jù)key對(duì)它們進(jìn)行內(nèi)存排序(Sort),排序感謝閱讀MapReduce的默認(rèn)操作。排序結(jié)束后，還包含一個(gè)可選的合并(Combine)操作。如果用戶事先沒(méi)有定義Combiner函數(shù)，就不用進(jìn)行合并操作。如果用戶事先定義了精品文檔放心下載Combiner函數(shù)，則這個(gè)時(shí)候會(huì)執(zhí)行合并操作，從而減少需要溢寫(xiě)到磁盤(pán)的數(shù)據(jù)量。精品文檔放心下載所謂“合并”，是指將那些具有相同key的<key,value>的value加起來(lái)，比如，有兩個(gè)精品文檔放心下載鍵值對(duì)<*xmu",1>和<*xmu",1>,經(jīng)過(guò)合并操作以后就可以得到一個(gè)鍵值對(duì)<*xmu",2>,減精品文檔放心下載少了鍵值對(duì)的數(shù)量。**不過(guò)，并非所有場(chǎng)合都可以使用Combiner,因?yàn)椋珻ombiner的輸出是Reduce任務(wù)精品文檔放心下載的輸人，Combiner絕不能改變Reduce任務(wù)最終的計(jì)算結(jié)果，一般而言，累加、最大值等感謝閱讀場(chǎng)景可以使用合并操作。13.MapReduce程序的輸入文件、輸出文件都存儲(chǔ)在HDFS中，而在Map任精品文檔放心下載務(wù)完成時(shí)的中間結(jié)果則存儲(chǔ)在本地磁盤(pán)中。試分析中間結(jié)果存儲(chǔ)在本地磁盤(pán)而不感謝閱讀是HDFS上有何優(yōu)缺點(diǎn)。答：第八章1、試述在Hadoop推出之后其優(yōu)化與發(fā)展主要體現(xiàn)在哪兩個(gè)方面。感謝閱讀答：Hadoop對(duì)MapReduce和GDFS的許多方面做了有針對(duì)性的改進(jìn)提升。感謝閱讀2、試述HDFS1.0中只包含一個(gè)名稱節(jié)點(diǎn)會(huì)帶來(lái)哪些問(wèn)題。謝謝閱讀答：HDFS1.0采用單點(diǎn)名稱節(jié)點(diǎn)的設(shè)計(jì)，不僅會(huì)帶來(lái)單點(diǎn)故障問(wèn)題，還存在可精品文檔放心下載擴(kuò)展性、性能和隔離性等問(wèn)題。**在可擴(kuò)展性方面，名稱節(jié)點(diǎn)把整個(gè)HDFS文件系統(tǒng)中的元數(shù)據(jù)信息都保存在自己的內(nèi)存中，HDFS1.0中只有一個(gè)名稱節(jié)點(diǎn)，不可以水平擴(kuò)展，而單個(gè)名稱節(jié)點(diǎn)的內(nèi)存空間是由上限的，這限制了系統(tǒng)中數(shù)據(jù)塊、文件和目錄的數(shù)目。感謝閱讀在系統(tǒng)整體性能方面，整個(gè)HDFS文件系統(tǒng)的性能會(huì)受限于單個(gè)名稱節(jié)點(diǎn)的吞吐量。謝謝閱讀在隔離性方面，單個(gè)名稱節(jié)點(diǎn)難以提供不同程序之間的隔離性，一個(gè)程序可能會(huì)影響會(huì)影響其他運(yùn)行的程序。感謝閱讀3、請(qǐng)描述HDFSHA架構(gòu)組成組建及其具體功能。精品文檔放心下載答：在一個(gè)典型的HA集群中，一般設(shè)置兩個(gè)名稱節(jié)點(diǎn)，其中一個(gè)名稱節(jié)點(diǎn)處于謝謝閱讀“活躍”狀態(tài)，另一個(gè)處于“待命”狀態(tài)。處于活躍狀態(tài)的名稱節(jié)點(diǎn)負(fù)責(zé)對(duì)外處謝謝閱讀理所有客戶端的請(qǐng)求，而處于待命狀態(tài)的名稱節(jié)點(diǎn)則作為備用節(jié)點(diǎn)，保存了足夠謝謝閱讀多的系統(tǒng)元數(shù)據(jù)，當(dāng)名稱節(jié)點(diǎn)出現(xiàn)故障時(shí)提供快速回復(fù)能力也就是說(shuō)，在HDFS感謝閱讀HA中，處于待命狀態(tài)的名稱節(jié)點(diǎn)提供了“熱備份”，一旦活躍名稱節(jié)點(diǎn)出現(xiàn)故精品文檔放心下載障，就可以立即切換到待命名稱節(jié)點(diǎn)，不會(huì)影響到系統(tǒng)的正常對(duì)外服務(wù)。感謝閱讀4、請(qǐng)分析HDFSHA架構(gòu)中數(shù)據(jù)節(jié)點(diǎn)如何和名稱節(jié)點(diǎn)保持通信。謝謝閱讀**答：在HDFS聯(lián)邦中，所有名稱節(jié)點(diǎn)會(huì)共享底層的數(shù)據(jù)節(jié)點(diǎn)存儲(chǔ)資源。每個(gè)數(shù)精品文檔放心下載據(jù)節(jié)點(diǎn)要向集群中所有的名稱節(jié)點(diǎn)注冊(cè)，并周期性地向名稱節(jié)點(diǎn)發(fā)送“心跳”和感謝閱讀塊信息，報(bào)告自己的狀態(tài)，同時(shí)也會(huì)處理來(lái)自名稱節(jié)點(diǎn)的指令。精品文檔放心下載6、請(qǐng)描述HDFS聯(lián)邦中“塊池”的概念，并分析為什么HDFS聯(lián)邦中的一個(gè)謝謝閱讀名稱節(jié)點(diǎn)失效，也不會(huì)影響到與它相關(guān)的數(shù)據(jù)節(jié)點(diǎn)繼續(xù)為其他名稱節(jié)點(diǎn)提供服感謝閱讀務(wù)。答：HDFS聯(lián)邦擁有多個(gè)獨(dú)立的命名空間，其中，每一個(gè)命名空間管理屬于自己的一組塊，這些屬于同一個(gè)命名空間的塊構(gòu)成一個(gè)“塊池”。精品文檔放心下載每個(gè)數(shù)據(jù)節(jié)點(diǎn)會(huì)為多個(gè)塊池提供塊的存儲(chǔ)?？梢钥闯?，數(shù)據(jù)節(jié)點(diǎn)是一個(gè)物理邏輯，而塊池則屬于邏輯概念，一個(gè)塊池是一組塊的邏輯集合，塊池中的各個(gè)塊實(shí)際上是存儲(chǔ)在各個(gè)不同的數(shù)據(jù)節(jié)點(diǎn)中的。因此HDFS聯(lián)邦中的一個(gè)名稱節(jié)點(diǎn)失效，也不會(huì)影響到與它相關(guān)的數(shù)據(jù)節(jié)點(diǎn)繼續(xù)為其他名稱節(jié)點(diǎn)提供服務(wù)。精品文檔放心下載7、請(qǐng)闡述MapReduce1.0體系結(jié)構(gòu)中存在的問(wèn)題。謝謝閱讀答：（1）存在單點(diǎn)故障；（2）JobTracker“大包大攬”導(dǎo)致任務(wù)過(guò)重；謝謝閱讀（3）容易出現(xiàn)內(nèi)存溢出；（4）資源劃分不合理。**8、請(qǐng)描述YARN架構(gòu)中各組件的功能。答：組件功能ResourceManager①處理客戶端請(qǐng)求②啟動(dòng)/監(jiān)控ApplicationMaster③監(jiān)控NodeManager④資源分配與調(diào)度ApplicationMaster①為應(yīng)用程序申請(qǐng)資源，并分配給內(nèi)部任務(wù)②任務(wù)調(diào)度、監(jiān)控與容錯(cuò)NodeManager①單個(gè)節(jié)點(diǎn)上的資源管理②處理來(lái)自ResourceManager的命令③處理來(lái)自ApplicationMaster的命令**9、請(qǐng)描述在YARN框架中執(zhí)行一個(gè)MapReduce程序時(shí)，從提交到完成需要謝謝閱讀經(jīng)歷的具體步驟。答：①用戶編寫(xiě)客戶端應(yīng)用程序，向YARN提交應(yīng)用程序，提交的內(nèi)容包括ApplicationMaster程序、啟動(dòng)ApplicationMaster的命令、用戶程序等。感謝閱讀②YARN中的ResourceManager負(fù)責(zé)接收和處理來(lái)自客戶端的請(qǐng)求。接到客戶端應(yīng)用程序請(qǐng)求后，ResourceManager里面的調(diào)度器會(huì)為應(yīng)用程序分配一個(gè)容器。同時(shí)，ResourceManager的應(yīng)用程序管理器會(huì)與該容器所在的NodeManager通信，為該應(yīng)用程序在該容器中啟動(dòng)一個(gè)ApplicationMaster精品文檔放心下載③ApplicationMaster被創(chuàng)建后會(huì)首先向ResourceManager注冊(cè)，從而使得用戶可以通過(guò)ResourceManager來(lái)直接查看應(yīng)用程序的運(yùn)行狀態(tài)精品文檔放心下載④ApplicationMaster采用輪詢的方式通過(guò)RPC協(xié)議向ResourceManager申請(qǐng)資源。感謝閱讀⑤ResourceManager以“容器”的形式向提出申請(qǐng)的ApplicationMaster分配資源，一旦ApplicationMaster申請(qǐng)到資源后，就會(huì)與該容器所在的NodeManager進(jìn)行通信，要求它啟動(dòng)任務(wù)。謝謝閱讀⑥當(dāng)ApplicationMaster要求容器啟動(dòng)任務(wù)時(shí)，它會(huì)為任務(wù)設(shè)置好運(yùn)行環(huán)境（包括環(huán)境變量、JAR包、二進(jìn)制程序等），然后將任務(wù)啟動(dòng)命令寫(xiě)到一個(gè)腳本中，最后通過(guò)在容器中運(yùn)行該腳本來(lái)啟動(dòng)任務(wù)。謝謝閱讀**⑦各個(gè)任務(wù)通過(guò)某個(gè)RPC協(xié)議向ApplicationMaster匯報(bào)自己的狀態(tài)和進(jìn)度，讓ApplicationMaster可以隨時(shí)掌握各個(gè)任務(wù)的運(yùn)行狀態(tài)，從而可以在任務(wù)失敗時(shí)重啟任務(wù)。謝謝閱讀⑧應(yīng)用程序運(yùn)行完成后，ApplicationMaster向ResourceManager的應(yīng)用程序管理器注銷(xiāo)并關(guān)閉自己。若ApplicationMaster因故失敗，ResourceManager中的應(yīng)用程序管理器會(huì)監(jiān)測(cè)到失敗的情形，然后將其重新啟動(dòng)，直到所有任務(wù)執(zhí)行完畢。精品文檔放心下載10、請(qǐng)對(duì)YARN和MapReduce1.0框架進(jìn)行優(yōu)劣勢(shì)對(duì)比分析。感謝閱讀答：（1）大大減少了承擔(dān)中心服務(wù)功能的ResourceManager的資源消耗。MapReduce1.0中的JobTracker需要同時(shí)承擔(dān)資源管理、任務(wù)調(diào)度和任務(wù)監(jiān)控等三大功能，而YARN中的ResourceManager只需要負(fù)責(zé)資源管理，需要消耗大量資源的任務(wù)調(diào)度和監(jiān)控重啟工作則交由ApplicationMaster來(lái)完成。由于每個(gè)作業(yè)都有與之關(guān)聯(lián)的獨(dú)立的ApplicationMaster，所以，系統(tǒng)中存在多個(gè)作業(yè)時(shí)，就會(huì)同時(shí)存在多個(gè)ApplicationMaster，這就實(shí)現(xiàn)了監(jiān)控任務(wù)的分布化，不再像MapReduce1.0那樣監(jiān)控任務(wù)只集中在一個(gè)JobTracker上。精品文檔放心下載（2）MapReduce1.0既是一個(gè)計(jì)算框架，又是一個(gè)資源管理調(diào)度框架，但是只能支持MapReduce編程模型。而YARN則是一個(gè)純粹的資源調(diào)度管理框架，在它上面可以運(yùn)行包括MapReduce在內(nèi)的不同類型的計(jì)算框架，默認(rèn)類型是MapReduce。因?yàn)?，YARN中的ApplicationMaster是可變更的，針對(duì)不同的計(jì)算框架，用戶可以采用任何編程語(yǔ)言自己編寫(xiě)服務(wù)于該計(jì)算框架的謝謝閱讀**ApplicationMaster。比如，可以編寫(xiě)一個(gè)面向MapReduce計(jì)算框架的ApplicationMaster，從而使得MapReduce計(jì)算框架可以運(yùn)行在YARN框架之上。同理，還可以編寫(xiě)面向Spark、Storm等計(jì)算框架的ApplicationMaster，從而使得Spark、Storm等計(jì)算框架也可以運(yùn)行在YARN框架之上。謝謝閱讀（3）YARN中的資源管理比MapReduce1.0更加高效。YARN采用容器為單位進(jìn)行資源管理和分配，而不是以槽為單位，避免了MapReduce1.0中槽的閑置浪費(fèi)情況，大大提高了資源的利用率。感謝閱讀11、請(qǐng)分別描述Pig、Tez和Kafka的功能。謝謝閱讀答：①Pig是Hadoop生態(tài)系統(tǒng)的一個(gè)組件，提供了類似SQL的PigLatin語(yǔ)言（包含F(xiàn)ilter、GroupBy、Join、OrderBy等操作，同時(shí)也支持用戶自定義函數(shù)），允許用戶通過(guò)編寫(xiě)簡(jiǎn)單的腳本來(lái)實(shí)現(xiàn)復(fù)雜的數(shù)據(jù)分析，而不需要編寫(xiě)復(fù)雜的MapReduce應(yīng)用程序，Pig會(huì)自動(dòng)把用戶編寫(xiě)的腳本轉(zhuǎn)換成MapReduce作業(yè)在Hadoop集群上運(yùn)行，而且具備對(duì)生成的MapReduce程序進(jìn)行自動(dòng)優(yōu)化的功能，所以用戶在編寫(xiě)Pig程序的時(shí)候，不需要關(guān)心程序的運(yùn)行效率，這就大大減少了用戶編程時(shí)間。謝謝閱讀②Tez是Apache開(kāi)源的支持DAG作業(yè)的計(jì)算框架，直接源于MapReduce框架，核心思想是將Map和Reduce兩個(gè)操作進(jìn)一步進(jìn)行拆分，即Map被拆分成Input、Processor、Sort、Merge和Output，Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，經(jīng)過(guò)分解后的這些元操作感謝閱讀**可以進(jìn)行自由任意組合產(chǎn)生新的操作，經(jīng)過(guò)一些控制程序組裝后就可形成一個(gè)大的DAG作業(yè)。謝謝閱讀通過(guò)DAG作業(yè)的方式運(yùn)行MapReduce作業(yè)，提供了程序運(yùn)行的整體處理邏輯，就可以去除工作流當(dāng)中多余的Map階段，減少不必要的操作，提升數(shù)據(jù)處理的性能。Hortonworks把Tez應(yīng)用到數(shù)據(jù)倉(cāng)庫(kù)Hive的優(yōu)化中，使得性能提升了約100倍。感謝閱讀③Kafka是由LinkedIn公司開(kāi)發(fā)的一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，用戶通過(guò)Kafka系統(tǒng)可以發(fā)布大量的消息，同時(shí)也能實(shí)時(shí)訂閱消費(fèi)消息。Kafka設(shè)計(jì)的初衷是構(gòu)建一個(gè)可以處理海量日志、用戶行為和網(wǎng)站運(yùn)營(yíng)統(tǒng)計(jì)等的數(shù)據(jù)處理框架。感謝閱讀第九章1、Spark是基于內(nèi)存計(jì)算的大數(shù)據(jù)計(jì)算平臺(tái)，試述Spark的主要特點(diǎn)。感謝閱讀答：Spark具有如下4個(gè)主要特點(diǎn)：①運(yùn)行速度快；②容易使用；③通用性；④運(yùn)行模式多樣。謝謝閱讀2、Spark的出現(xiàn)是為了解決HadoopMapReduce的不足，試列舉Hadoop感謝閱讀MapReduce的幾個(gè)缺陷，并說(shuō)明Spark具備哪些優(yōu)點(diǎn)。精品文檔放心下載**答：（1）Hadoop存在以下缺點(diǎn)：①表達(dá)能力有限；②磁盤(pán)IO開(kāi)銷(xiāo)大；③延遲高（2）Spark主要有如下優(yōu)點(diǎn)：①Spark的計(jì)算模式也屬于MapReduce，但不局限于Map和Reduce操作，還提供了多種數(shù)據(jù)集操作類型，編程模型比MapReduce更靈活；謝謝閱讀②Spark提供了內(nèi)存計(jì)算，中間結(jié)果直接存放內(nèi)存中，帶來(lái)更高的迭代運(yùn)算效率；精品文檔放心下載③Spark基于DAG的任務(wù)調(diào)度執(zhí)行機(jī)制，要優(yōu)于MapReduce的迭代執(zhí)行機(jī)制。精品文檔放心下載3、美國(guó)加州大學(xué)伯克利分校提出的數(shù)據(jù)分析的軟件棧BDAS認(rèn)為目前的大數(shù)感謝閱讀據(jù)處理可以分為哪三個(gè)類型？答：①?gòu)?fù)雜的批量數(shù)據(jù)處理：時(shí)間跨度通常在數(shù)十分鐘到數(shù)小時(shí)之間；精品文檔放心下載②基于歷史數(shù)據(jù)的交互式查詢：時(shí)間跨度通常在數(shù)十秒到數(shù)分鐘之間；精品文檔放心下載③基于實(shí)時(shí)數(shù)據(jù)流的數(shù)據(jù)處理：時(shí)間跨度通常在數(shù)百毫秒到數(shù)秒之間。謝謝閱讀4、Spark已打造出結(jié)構(gòu)一體化，功能多樣化的大數(shù)據(jù)生態(tài)系統(tǒng)，試述Spark謝謝閱讀的生態(tài)系統(tǒng)。答：Spark的設(shè)計(jì)遵循“一個(gè)軟件棧滿足不同應(yīng)用場(chǎng)景”的理念，逐漸形成一套謝謝閱讀完整生態(tài)系統(tǒng)，既能夠提供內(nèi)存計(jì)算框架，也可以支持SQL即席查詢、實(shí)時(shí)流感謝閱讀式計(jì)算、機(jī)器學(xué)習(xí)和圖計(jì)算等。Spark可以部署在資源管理器YARN之上，提謝謝閱讀**供一站式的大數(shù)據(jù)解決方案。因此，Spark所提供的生態(tài)系統(tǒng)同時(shí)支持批處理、感謝閱讀交互式查詢和流數(shù)據(jù)處理。5、從Hadoop+Storm架構(gòu)轉(zhuǎn)向Spark架構(gòu)可帶來(lái)哪些好處？精品文檔放心下載答：（1）實(shí)現(xiàn)一鍵式安裝和配置、線程級(jí)別的任務(wù)監(jiān)控和告警；精品文檔放心下載（2）降低硬件集群、軟件維護(hù)、任務(wù)監(jiān)控和應(yīng)用開(kāi)發(fā)的難度；謝謝閱讀（3）便于做成統(tǒng)一的硬件、計(jì)算平臺(tái)資源池。6、試述“SparkonYARN”的概念。答：Spark可以運(yùn)行與YARN之上，與Hadoop進(jìn)行統(tǒng)一部署，即“Sparkon謝謝閱讀YARN”，其架構(gòu)如圖所示，資源管理和調(diào)度以來(lái)YARN，分布式存儲(chǔ)則以來(lái)謝謝閱讀HDFS。**7、試述如下Spark的幾個(gè)主要概念：RDD、DAG、階段、分區(qū)、窄依賴、寬謝謝閱讀依賴。答：①RDD：是彈性分布式數(shù)據(jù)集（ResilientDistributedDataset）的英文縮寫(xiě)，是分布式內(nèi)存的一個(gè)抽象概念，提供了一種高度受限的共享內(nèi)存模型。精品文檔放心下載②DAG：是DirectedAcyclicGraph（有向無(wú)環(huán)圖）的英文縮寫(xiě)，反映RDD之間的依賴關(guān)系。謝謝閱讀③階段：是作業(yè)的基本調(diào)度單位，一個(gè)作業(yè)會(huì)分為多組任務(wù)，每組任務(wù)被稱為“階段”，或者也被稱為“任務(wù)集”。精品文檔放心下載④分區(qū)：一個(gè)RDD就是一個(gè)分布式對(duì)象集合，本質(zhì)上是一個(gè)只讀的分區(qū)記錄集合，每個(gè)RDD可以分成多個(gè)分區(qū)，每個(gè)分區(qū)就是一個(gè)數(shù)據(jù)集片段。謝謝閱讀⑤窄依賴：父RDD的一個(gè)分區(qū)只被一個(gè)子RDD的一個(gè)分區(qū)所使用就是窄依賴。感謝閱讀⑥寬依賴：父RDD的一個(gè)分區(qū)被一個(gè)子RDD的多個(gè)分區(qū)所使用就是寬依賴。感謝閱讀8、Spark對(duì)RDD的操作主要分為行動(dòng)（Action）和轉(zhuǎn)換（Transformation）謝謝閱讀兩種類型，兩種類型操作的區(qū)別是什么？答：行動(dòng)（Action）：在數(shù)據(jù)集上進(jìn)行運(yùn)算，返回計(jì)算值。感謝閱讀轉(zhuǎn)換（Transformation）：基于現(xiàn)有的數(shù)據(jù)集創(chuàng)建一個(gè)新的數(shù)據(jù)集。謝謝閱讀**第十章試述流數(shù)據(jù)的概念流數(shù)據(jù)，即數(shù)據(jù)以大量、快速、時(shí)變的流形式持續(xù)到達(dá)試述流數(shù)據(jù)的特點(diǎn)流數(shù)據(jù)具有如下特征：數(shù)據(jù)快速持續(xù)到達(dá)，潛在大小也許是無(wú)窮無(wú)盡的數(shù)據(jù)來(lái)源眾多，格式復(fù)雜數(shù)據(jù)量大，但是不十分關(guān)注存儲(chǔ)，一旦經(jīng)過(guò)處理，要么被丟棄，要么被歸檔存儲(chǔ)謝謝閱讀注重?cái)?shù)據(jù)的整體價(jià)值，不過(guò)分關(guān)注個(gè)別數(shù)據(jù)數(shù)據(jù)順序顛倒，或者不完整，系統(tǒng)無(wú)法控制將要處理的新到達(dá)的數(shù)據(jù)元素的順序謝謝閱讀試述流計(jì)算的需求對(duì)于一個(gè)流計(jì)算系統(tǒng)來(lái)說(shuō)，它應(yīng)達(dá)到如下需求：高性能：處理大數(shù)據(jù)的基本要求，如每秒處理幾十萬(wàn)條數(shù)據(jù)海量式：支持TB級(jí)甚至是PB級(jí)的數(shù)據(jù)規(guī)模謝謝閱讀實(shí)時(shí)性：保證較低的延遲時(shí)間，達(dá)到秒級(jí)別，甚至是毫秒級(jí)別分布式：支持大數(shù)據(jù)的基本架構(gòu)，必須能夠平滑擴(kuò)展感謝閱讀**易用性：能夠快速進(jìn)行開(kāi)發(fā)和部署可靠性：能可靠地處理流數(shù)據(jù)7列舉幾個(gè)常見(jiàn)的流計(jì)算框架目前有三類常見(jiàn)的流計(jì)算框架和平臺(tái)：商業(yè)級(jí)的流計(jì)算平臺(tái)、開(kāi)源流計(jì)算框架、公司為感謝閱讀支持自身業(yè)務(wù)開(kāi)發(fā)的流計(jì)算框架1商業(yè)級(jí)：IBMInfoSphereStreams和IBMStreamBase謝謝閱讀2較為常見(jiàn)的是開(kāi)源流計(jì)算框架，代表如下：TwitterStorm：免費(fèi)、開(kāi)源的分布式實(shí)時(shí)計(jì)算系統(tǒng)，可簡(jiǎn)單、高效、可靠地處理感謝閱讀大量的流數(shù)據(jù)Yahoo!S4（SimpleScalableStreamingSystem）：開(kāi)源流計(jì)算平臺(tái)，是通用的、感謝閱讀分布式的、可擴(kuò)展的、分區(qū)容錯(cuò)的、可插拔的流式系統(tǒng)公司為支持自身業(yè)務(wù)開(kāi)發(fā)的流計(jì)算框架：FacebookPuma精品文檔放心下載Dstream（百度）銀河流數(shù)據(jù)處理平臺(tái)（淘寶）**試述流計(jì)算的一般處理流程流計(jì)算的處理流程一般包含三個(gè)階段：數(shù)據(jù)實(shí)時(shí)采集、數(shù)據(jù)實(shí)時(shí)計(jì)算、實(shí)時(shí)查詢服務(wù)精品文檔放心下載數(shù)據(jù)實(shí)時(shí)采集數(shù)據(jù)實(shí)時(shí)計(jì)算用戶查詢實(shí)時(shí)查詢服務(wù) 查詢結(jié)果流計(jì)算處理流程示意圖20試列舉幾個(gè)Storm框架的應(yīng)用領(lǐng)域Storm框架可以方便地與數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行整合，從而開(kāi)發(fā)出強(qiáng)大的實(shí)時(shí)計(jì)算系統(tǒng)感謝閱讀Storm可用于許多領(lǐng)域中，如實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、持續(xù)計(jì)算、遠(yuǎn)程RPC、數(shù)據(jù)提謝謝閱讀取加載轉(zhuǎn)換等21Storm的主要術(shù)語(yǔ)包括Streams，Spouts、Bolts、Topology和StreamGroupings,精品文檔放心下載請(qǐng)分別簡(jiǎn)要描述這幾個(gè)術(shù)語(yǔ)**Streams：Storm將流數(shù)據(jù)Stream描述成一個(gè)無(wú)限的Tuple序列，這些Tuple序列會(huì)以分布式的方式并行地創(chuàng)建和處理感謝閱讀Storm框架可以方便地與數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行整合，從而開(kāi)發(fā)出強(qiáng)大的實(shí)時(shí)計(jì)算系統(tǒng)謝謝閱讀Bolt：Storm將Streams的狀態(tài)轉(zhuǎn)換過(guò)程抽象為Bolt。Bolt即可以處理Tuple，也可以將處理后的Tuple作為新的Streams發(fā)送給其他Bolt謝謝閱讀Topology：Storm將Spouts和Bolts組成的網(wǎng)絡(luò)抽象成Topology，它可以被提交到Storm集群執(zhí)行。Topology可視為流轉(zhuǎn)換圖，圖中節(jié)點(diǎn)是一個(gè)Spout或Bolt，邊則表示Bolt訂閱了哪個(gè)Stream。當(dāng)Spout或者Bolt發(fā)送元組時(shí)，它會(huì)把元組發(fā)送到每個(gè)訂閱了該Stream的Bolt上進(jìn)行處理感謝閱讀Topology：Storm將Spouts和Bolts組成的網(wǎng)絡(luò)抽象成Topology，它可以被提交到Storm集群執(zhí)行。Topology可視為流轉(zhuǎn)換圖，圖中節(jié)點(diǎn)是一個(gè)Spout或Bolt，邊則表示Bolt訂閱了哪個(gè)Stream。當(dāng)Spout或者Bolt發(fā)送元組時(shí)，它會(huì)把元組發(fā)送到每個(gè)訂閱了該Stream的Bolt上進(jìn)行處理謝謝閱讀22一個(gè)Topolog由哪些組件組成？Topology里面的每個(gè)處理組件（Spout或Bolt）都包含處理邏輯，而組件之間的連接則表示數(shù)據(jù)流動(dòng)的方向謝謝閱讀**27Storm集群中的Master節(jié)點(diǎn)和Work節(jié)點(diǎn)各自運(yùn)行什么后臺(tái)進(jìn)程？這些進(jìn)程又分別精品文檔放心下載負(fù)責(zé)什么工作？Storm集群采用“Master—Worker”的節(jié)點(diǎn)方式：精品文檔放心下載Master節(jié)點(diǎn)運(yùn)行名為“Nimbus”的后臺(tái)程序（類似Hadoop中的“JobTracker”），謝謝閱讀負(fù)責(zé)在集群范圍內(nèi)分發(fā)代碼、為Worker分配任務(wù)和監(jiān)測(cè)故障謝謝閱讀Worker節(jié)點(diǎn)運(yùn)行名為“Supervisor”的后臺(tái)程序，負(fù)責(zé)監(jiān)聽(tīng)分配給它所在機(jī)器的工作，謝謝閱讀即根據(jù)Nimbus分配的任務(wù)來(lái)決定啟動(dòng)或停止Worker進(jìn)程，一個(gè)Worker節(jié)點(diǎn)上同時(shí)感謝閱讀運(yùn)行若干個(gè)Worker進(jìn)程28試述Zookeeper在Storm框架中的作用感謝閱讀Storm使用Zookeeper來(lái)作為分布式協(xié)調(diào)組件，負(fù)責(zé)Nimbus和多個(gè)Supervisor之謝謝閱讀間的所有協(xié)調(diào)工作。借助于Zookeeper，若Nimbus進(jìn)程或Supervisor進(jìn)程意外終止，感謝閱讀重啟時(shí)也能讀取、恢復(fù)之前的狀態(tài)并繼續(xù)工作，使得Storm極其穩(wěn)定精品文檔放心下載31試述Storm框架的工作流程Storm的工作流程如下圖所示：1.提交Topology

Nimbus

**2.將任務(wù)存儲(chǔ)在Zookeeper中Client ZookeeperSupervisor 3.獲取分配的任務(wù)，并啟動(dòng)Worker感謝閱讀Worker4.Worker進(jìn)程執(zhí)行具體的任務(wù)Task Task所有Topology任務(wù)的提交必須在Storm客戶端節(jié)點(diǎn)上進(jìn)行，提交后，由Nimbus節(jié)點(diǎn)分配給其他Supervisor節(jié)點(diǎn)進(jìn)行處理感謝閱讀Nimbus節(jié)點(diǎn)首先將提交的Topology進(jìn)行分片，分成一個(gè)個(gè)Task，分配給相應(yīng)的Supervisor，并將Task和Supervisor相關(guān)的信息提交到Zookeeper集群謝謝閱讀上Supervisor會(huì)去Zookeeper集群上認(rèn)領(lǐng)自己的Task，通知自己的Worker進(jìn)程進(jìn)行Task的處理精品文檔放心下載說(shuō)明：在提交了一個(gè)Topology之后，Storm就會(huì)創(chuàng)建Spout/Bolt實(shí)例并進(jìn)行序列化。之后，將序列化的組件發(fā)送給所有的任務(wù)所在的機(jī)器(即Supervisor節(jié)點(diǎn))，在每一個(gè)任務(wù)上反序列化組件謝謝閱讀第11章**1、試述BSP模型中的超步的3個(gè)組件及具體含義。感謝閱讀答：①局部通信。每個(gè)參與的處理器都有自身的計(jì)算任務(wù)，它們只讀取存儲(chǔ)在本地內(nèi)存中的值，不同處理器的計(jì)算任務(wù)都是異步并且獨(dú)立的。感謝閱讀②通信。處理器群相互交換數(shù)據(jù)，交換的形式是，由一方發(fā)起推送（Put）和獲?。℅et）操作謝謝閱讀③柵欄同步。當(dāng)一

人人文庫(kù)> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)技術(shù)基本知識(shí)與應(yīng)用林子雨版課后知識(shí)題目解析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)技術(shù)基本知識(shí)與應(yīng)用林子雨版課后知識(shí)題目解析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔