版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
77/77第一章大數(shù)據(jù)概述單選題第一次信息化浪潮主要解決什么問題?B信息傳輸信息處理信息爆炸信息轉(zhuǎn)換下面哪個選項屬于大數(shù)據(jù)技術(shù)的“數(shù)據(jù)存儲和管理”技術(shù)層面的功能?A利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫等實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲和管理利用分布式并行編程模型和計算框架,結(jié)合機器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實現(xiàn)對海量數(shù)據(jù)的處理和分析構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,有效保護(hù)個人隱私和數(shù)據(jù)安全把實時采集的數(shù)據(jù)作為流計算系統(tǒng)的輸入,進(jìn)行實時處理分析在大數(shù)據(jù)的計算模式中,流計算解決的是什么問題?D針對大規(guī)模數(shù)據(jù)的批量處理針對大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理大規(guī)模數(shù)據(jù)的存儲管理和查詢分析針對流數(shù)據(jù)的實時計算大數(shù)據(jù)產(chǎn)業(yè)指什么?A一切與支撐大數(shù)據(jù)組織管理和價值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟(jì)活動的集合提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應(yīng)用的企業(yè)提供數(shù)據(jù)分享平臺、數(shù)據(jù)分析平臺、數(shù)據(jù)租售平臺等服務(wù)的企業(yè)提供分布式計算、數(shù)據(jù)挖掘、統(tǒng)計分析等服務(wù)的各類企業(yè)下列哪一個不屬于大數(shù)據(jù)產(chǎn)業(yè)的產(chǎn)業(yè)鏈環(huán)節(jié)?A數(shù)據(jù)循環(huán)層數(shù)據(jù)源層數(shù)據(jù)分析層數(shù)據(jù)應(yīng)用層下列哪一個不屬于第三次信息化浪潮中新興的技術(shù)?A互聯(lián)網(wǎng)云計算大數(shù)據(jù)物聯(lián)網(wǎng)云計算平臺層(PaaS)指的是什么?A操作系統(tǒng)和圍繞特定應(yīng)用的必需的服務(wù)將基礎(chǔ)設(shè)施(計算資源和存儲)作為服務(wù)出租從一個集中的系統(tǒng)部署軟件,使之在一臺本地計算機上(或從云中遠(yuǎn)程地)運行的一個模型提供硬件、軟件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務(wù)下面關(guān)于云計算數(shù)據(jù)中心的描述正確的是:A數(shù)據(jù)中心是云計算的重要載體,為各種平臺和應(yīng)用提供運行支撐環(huán)境數(shù)據(jù)中心就是放在企業(yè)內(nèi)部的一臺中心服務(wù)器每個企業(yè)都需要建設(shè)一個云計算數(shù)據(jù)中心數(shù)據(jù)中心不需要網(wǎng)絡(luò)帶寬的支撐下列哪個不屬于物聯(lián)網(wǎng)的應(yīng)用?D智能物流智能安防環(huán)保監(jiān)測數(shù)據(jù)清洗下列哪項不屬于大數(shù)據(jù)的發(fā)展歷程?D成熟期萌芽期大規(guī)模應(yīng)用期迷茫期多選題第三次信息化浪潮的標(biāo)志是哪些技術(shù)的興起?BCD個人計算機物聯(lián)網(wǎng)云計算大數(shù)據(jù)信息科技為大數(shù)據(jù)時代提供哪些技術(shù)支撐?ABC存儲設(shè)備容量不斷增加網(wǎng)絡(luò)帶寬不斷增加CPU處理能力大幅提升數(shù)據(jù)量不斷增大大數(shù)據(jù)具有哪些特點?ABCD數(shù)據(jù)的“大量化”數(shù)據(jù)的“快速化”數(shù)據(jù)的“多樣化”數(shù)據(jù)的“價值密度比較低”下面哪個屬于大數(shù)據(jù)的應(yīng)用領(lǐng)域?ABCD智能醫(yī)療研發(fā)監(jiān)控身體情況實時掌握交通狀況金融交易大數(shù)據(jù)的兩個核心技術(shù)是什么?AC分布式存儲分布式應(yīng)用分布式處理集中式存儲云計算關(guān)鍵技術(shù)包括什么?ABCD分布式存儲虛擬化分布式計算多租戶云計算的服務(wù)模式和類型主要包括哪三類?ABC軟件即服務(wù)(SaaS)平臺即服務(wù)(PaaS)基礎(chǔ)設(shè)施即服務(wù)(IaaS)數(shù)據(jù)采集即服務(wù)(DaaS)物聯(lián)網(wǎng)主要由下列哪些部分組成的?ABCD應(yīng)用層處理層感知層網(wǎng)絡(luò)層物聯(lián)網(wǎng)的關(guān)鍵技術(shù)包括哪些?ABC識別和感知技術(shù)網(wǎng)絡(luò)與通信技術(shù)數(shù)據(jù)挖掘與融合技術(shù)信息處理一體化技術(shù)大數(shù)據(jù)對社會發(fā)展的影響有哪些?ABC(A)大數(shù)據(jù)成為一種新的決策方式(B)大數(shù)據(jù)應(yīng)用促進(jìn)信息技術(shù)與各行業(yè)的深度融合(C)大數(shù)據(jù)開發(fā)推動新技術(shù)和新應(yīng)用的不斷涌現(xiàn)(D)大數(shù)據(jù)對社會發(fā)展沒有產(chǎn)生積極影響第二章大數(shù)據(jù)處理架構(gòu)Hadoop單選題下列哪個不屬于Hadoop的特性?A成本高高可靠性高容錯性運行在Linux平臺上Hadoop框架中最核心的設(shè)計是什么?A為海量數(shù)據(jù)提供存儲的HDFS和對數(shù)據(jù)進(jìn)行計算的MapReduce提供整個HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務(wù)Hadoop不僅可以運行在企業(yè)內(nèi)部的集群中,也可以運行在云計算環(huán)境中Hadoop被視為事實上的大數(shù)據(jù)處理標(biāo)準(zhǔn)在一個基本的Hadoop集群中,DataNode主要負(fù)責(zé)什么?D負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)協(xié)調(diào)數(shù)據(jù)計算任務(wù)負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲存儲被拆分的數(shù)據(jù)塊Hadoop最初是由誰創(chuàng)建的?BLuceneDougCuttingApacheMapReduce下列哪一個不屬于Hadoop的大數(shù)據(jù)層的功能?C數(shù)據(jù)挖掘離線分析實時計算BI分析在一個基本的Hadoop集群中,SecondaryNameNode主要負(fù)責(zé)什么?A幫助NameNode收集文件系統(tǒng)運行的狀態(tài)信息負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)協(xié)調(diào)數(shù)據(jù)計算任務(wù)負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲下面哪一項不是Hadoop的特性?B可擴(kuò)展性高只支持少數(shù)幾種編程語言成本低能在linux上運行在Hadoop項目結(jié)構(gòu)中,HDFS指的是什么?A分布式文件系統(tǒng)分布式并行編程模型資源管理和調(diào)度器Hadoop上的數(shù)據(jù)倉庫在Hadoop項目結(jié)構(gòu)中,MapReduce指的是什么?A分布式并行編程模型流計算框架Hadoop上的工作流管理系統(tǒng)提供分布式協(xié)調(diào)一致性服務(wù)10、下面哪個不是Hadoop1.0的組件:(C)HDFSMapReduceYARNNameNode和DataNode多選題Hadoop的特性包括哪些?ABCD高可擴(kuò)展性支持多種編程語言成本低運行在Linux平臺上下面哪個是Hadoop2.0的組件?ADResourceManagerJobTrackerTaskTrackerNodeManager一個基本的Hadoop集群中的節(jié)點主要包括什么?ABCDDataNode:存儲被拆分的數(shù)據(jù)塊JobTracker:協(xié)調(diào)數(shù)據(jù)計算任務(wù)TaskTracker:負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)SecondaryNameNode:幫助NameNode收集文件系統(tǒng)運行的狀態(tài)信息下列關(guān)于Hadoop的描述,哪些是正確的?ABCD為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)具有很好的跨平臺特性可以部署在廉價的計算機集群中曾經(jīng)被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件Hadoop集群的整體性能主要受到什么因素影響?ABCDCPU性能內(nèi)存網(wǎng)絡(luò)存儲容量下列關(guān)于Hadoop的描述,哪些是錯誤的?AB只能支持一種編程語言具有較差的跨平臺特性可以部署在廉價的計算機集群中曾經(jīng)被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件下列哪一項不屬于Hadoop的特性?AB較低可擴(kuò)展性只支持java語言成本低運行在Linux平臺上第三章分布式文件系統(tǒng)HDFS單選題分布式文件系統(tǒng)指的是什么?A把文件分布存儲到多個計算機節(jié)點上,成千上萬的計算機節(jié)點構(gòu)成計算機集群用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)傳遞一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),可以處理消費者規(guī)模的網(wǎng)站中的所有動作流數(shù)據(jù)下面哪一項不屬于計算機集群中的節(jié)點?B主節(jié)點(MasterNode)源節(jié)點(SourceNode)名稱結(jié)點(NameNode)從節(jié)點(SlaveNode)在HDFS中,默認(rèn)一個塊多大?A64MB32KB128KB16KB下列哪一項不屬于HDFS采用抽象的塊概念帶來的好處?C簡化系統(tǒng)設(shè)計支持大規(guī)模文件存儲強大的跨平臺兼容性適合數(shù)據(jù)備份在HDFS中,NameNode的主要功能是什么?D維護(hù)了blockid到datanode本地文件的映射關(guān)系存儲文件內(nèi)容文件內(nèi)存保存在磁盤中存儲元數(shù)據(jù)下面對FsImage的描述,哪個是錯誤的?DFsImage文件沒有記錄每個塊存儲在哪個數(shù)據(jù)節(jié)點FsImage文件包含文件系統(tǒng)中所有目錄和文件inode的序列化形式FsImage用于維護(hù)文件系統(tǒng)樹以及文件樹中所有的文件和文件夾的元數(shù)據(jù)FsImage文件記錄了每個塊具體被存儲在哪個數(shù)據(jù)節(jié)點下面對SecondaryNameNode第二名稱節(jié)點的描述,哪個是錯誤的?ASecondaryNameNode一般是并行運行在多臺機器上它是用來保存名稱節(jié)點中對HDFS元數(shù)據(jù)信息的備份,并減少名稱節(jié)點重啟的時間SecondaryNameNode通過HTTPGET方式從NameNode上獲取到FsImage和EditLog文件,并下載到本地的相應(yīng)目錄下SecondaryNameNode是HDFS架構(gòu)中的一個組成部分HDFS采用了什么模型?B分層模型主從結(jié)構(gòu)模型管道-過濾器模型點對點模型在Hadoop項目結(jié)構(gòu)中,HDFS指的是什么?A分布式文件系統(tǒng)流數(shù)據(jù)讀寫資源管理和調(diào)度器Hadoop上的數(shù)據(jù)倉庫下列關(guān)于HDFS的描述,哪個不正確?DHDFS還采用了相應(yīng)的數(shù)據(jù)存放、數(shù)據(jù)讀取和數(shù)據(jù)復(fù)制策略,來提升系統(tǒng)整體讀寫響應(yīng)性能HDFS采用了主從(Master/Slave)結(jié)構(gòu)模型HDFS采用了冗余數(shù)據(jù)存儲,增強了數(shù)據(jù)可靠性HDFS采用塊的概念,使得系統(tǒng)的設(shè)計變得更加復(fù)雜多選題HDFS要實現(xiàn)以下哪幾個目標(biāo)?ABC兼容廉價的硬件設(shè)備流數(shù)據(jù)讀寫大數(shù)據(jù)集復(fù)雜的文件模型HDFS特殊的設(shè)計,在實現(xiàn)優(yōu)良特性的同時,也使得自身具有一些應(yīng)用局限性,主要包括以下哪幾個方面?BCD較差的跨平臺兼容性無法高效存儲大量小文件不支持多用戶寫入及任意修改文件不適合低延遲數(shù)據(jù)訪問HDFS采用抽象的塊概念可以帶來以下哪幾個明顯的好處?ACD支持大規(guī)模文件存儲支持小規(guī)模文件存儲適合數(shù)據(jù)備份簡化系統(tǒng)設(shè)計在HDFS中,名稱節(jié)點(NameNode)主要保存了哪些核心的數(shù)據(jù)結(jié)構(gòu)?ADFsImageDN8BlockEditLog數(shù)據(jù)節(jié)點(DataNode)的主要功能包括哪些?ABC負(fù)責(zé)數(shù)據(jù)的存儲和讀取根據(jù)客戶端或者是名稱節(jié)點的調(diào)度來進(jìn)行數(shù)據(jù)的存儲和檢索向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表用來保存名稱節(jié)點中對HDFS元數(shù)據(jù)信息的備份,并減少名稱節(jié)點重啟的時間HDFS的命名空間包含什么?BCD磁盤文件塊目錄下列對于客服端的描述,哪些是正確的?ABCD客戶端是用戶操作HDFS最常用的方式,HDFS在部署時都提供了客戶端HDFS客戶端是一個庫,暴露了HDFS文件系統(tǒng)接口嚴(yán)格來說,客戶端并不算是HDFS的一部分客戶端可以支持打開、讀取、寫入等常見的操作HDFS只設(shè)置唯一一個名稱節(jié)點,這樣做雖然大大簡化了系統(tǒng)設(shè)計,但也帶來了哪些明顯的局限性?ABCD命名空間的限制性能的瓶頸隔離問題集群的可用性HDFS數(shù)據(jù)塊多副本存儲具備以下哪些優(yōu)點?ABC加快數(shù)據(jù)傳輸速度容易檢查數(shù)據(jù)錯誤保證數(shù)據(jù)可靠性適合多平臺上運行HDFS具有較高的容錯性,設(shè)計了哪些相應(yīng)的機制檢測數(shù)據(jù)錯誤和進(jìn)行自動恢復(fù)?BCD數(shù)據(jù)源太大數(shù)據(jù)節(jié)點出錯數(shù)據(jù)出錯名稱節(jié)點出錯第四章分布式數(shù)據(jù)庫HBase單選題下列關(guān)于BigTable的描述,哪個是錯誤的?A爬蟲持續(xù)不斷地抓取新頁面,這些頁面每隔一段時間地存儲到BigTable里BigTable是一個分布式存儲系統(tǒng)BigTable起初用于解決典型的互聯(lián)網(wǎng)搜索問題網(wǎng)絡(luò)搜索應(yīng)用查詢建立好的索引,從BigTable得到網(wǎng)頁下列選項中,關(guān)于HBase和BigTable的底層技術(shù)對應(yīng)關(guān)系,哪個是錯誤的?BGFS與HDFS相對應(yīng)GFS與Zookeeper相對應(yīng)MapReduce與HadoopMapReduce相對應(yīng)Chubby與Zookeeper相對應(yīng)在HBase中,關(guān)于數(shù)據(jù)操作的描述,下列哪一項是錯誤的?CHBase采用了更加簡單的數(shù)據(jù)模型,它把數(shù)據(jù)存儲為未經(jīng)解釋的字符串HBase操作不存在復(fù)雜的表與表之間的關(guān)系HBase不支持修改操作HBase在設(shè)計上就避免了復(fù)雜的表和表之間的關(guān)系在HBase訪問接口中,Pig主要用在哪個場合?D適合HadoopMapReduce作業(yè)并行批處理HBase表數(shù)據(jù)適合HBase管理使用適合其他異構(gòu)系統(tǒng)在線訪問HBase表數(shù)據(jù)適合做數(shù)據(jù)統(tǒng)計HBase中需要根據(jù)某些因素來確定一個單元格,這些因素可以視為一個“四維坐標(biāo)”,下面哪個不屬于“四維坐標(biāo)”?B行鍵關(guān)鍵字列族時間戳關(guān)于HBase的三層結(jié)構(gòu)中各層次的名稱和作用的說法,哪個是錯誤的?AZookeeper文件記錄了用戶數(shù)據(jù)表的Region位置信息-ROOT-表記錄了.META.表的Region位置信息.META.表保存了HBase中所有用戶數(shù)據(jù)表的Region位置信息Zookeeper文件記錄了-ROOT-表的位置信息下面關(guān)于主服務(wù)器Master主要負(fù)責(zé)表和Region的管理工作的描述,哪個是錯誤的?D在Region分裂或合并后,負(fù)責(zé)重新調(diào)整Region的分布對發(fā)生故障失效的Region服務(wù)器上的Region進(jìn)行遷移管理用戶對表的增加、刪除、修改、查詢等操作不支持不同Region服務(wù)器之間的負(fù)載均衡HBase只有一個針對行健的索引,如果要訪問HBase表中的行,下面哪種方式是不可行的?B通過單個行健訪問通過時間戳訪問通過一個行健的區(qū)間來訪問全表掃描下面關(guān)于Region的說法,哪個是錯誤的?C同一個Region不會被分拆到多個Region服務(wù)器為了加快訪問速度,.META.表的全部Region都會被保存在內(nèi)存中一個-ROOT-表可以有多個Region為了加速尋址,客戶端會緩存位置信息,同時,需要解決緩存失效問題多選題關(guān)系數(shù)據(jù)庫已經(jīng)流行很多年,并且Hadoop已經(jīng)有了HDFS和MapReduce,為什么需要HBase?ABCDHadoop可以很好地解決大規(guī)模數(shù)據(jù)的離線批量處理問題,但是,受限于HadoopMapReduce編程框架的高延遲數(shù)據(jù)處理機制,使得Hadoop無法滿足大規(guī)模數(shù)據(jù)實時處理應(yīng)用的需求上HDFS面向批量訪問模式,不是隨機訪問模式傳統(tǒng)的通用關(guān)系型數(shù)據(jù)庫無法應(yīng)對在數(shù)據(jù)規(guī)模劇增時導(dǎo)致的系統(tǒng)擴(kuò)展性和性能問題傳統(tǒng)關(guān)系數(shù)據(jù)庫在數(shù)據(jù)結(jié)構(gòu)變化時一般需要停機維護(hù);空列浪費存儲空間HBase與傳統(tǒng)的關(guān)系數(shù)據(jù)庫的區(qū)別主要體現(xiàn)在以下哪幾個方面?ABCD數(shù)據(jù)類型數(shù)據(jù)操作存儲模式數(shù)據(jù)維護(hù)HBase訪問接口類型包括哪些?ABCDNativeJavaAPIHBaseShellThriftGatewayRESTGateway下列關(guān)于數(shù)據(jù)模型的描述,哪些是正確的?ABCDHBase采用表來組織數(shù)據(jù),表由行和列組成,列劃分為若干個列族每個HBase表都由若干行組成,每個行由行鍵(rowkey)來標(biāo)識列族里的數(shù)據(jù)通過列限定符(或列)來定位每個單元格都保存著同一份數(shù)據(jù)的多個版本,這些版本采用時間戳進(jìn)行索引HBase的實現(xiàn)包括哪三個主要的功能組件?ABC庫函數(shù):鏈接到每個客戶端一個Master主服務(wù)器許多個Region服務(wù)器廉價的計算機集群HBase的三層結(jié)構(gòu)中,三層指的是哪三層?ABCZookeeper文件-ROOT-表.META.表數(shù)據(jù)類型以下哪些軟件可以對HBase進(jìn)行性能監(jiān)視?ABCDMaster-status(自帶)GangliaOpenTSDBAmbariZookeeper是一個很好的集群管理工具,被大量用于分布式計算,它主要提供什么服務(wù)?ABC配置維護(hù)域名服務(wù)分布式同步負(fù)載均衡服務(wù)下列關(guān)于Region服務(wù)器工作原理的描述,哪些是正確的?ABCD每個Region服務(wù)器都有一個自己的HLog文件每次刷寫都生成一個新的StoreFile,數(shù)量太多,影響查找速度合并操作比較耗費資源,只有數(shù)量達(dá)到一個閾值才啟動合并Store是Region服務(wù)器的核心下列關(guān)于HLog工作原理的描述,哪些是正確的?ABCD分布式環(huán)境必須要考慮系統(tǒng)出錯。HBase采用HLog保證HBase系統(tǒng)為每個Region服務(wù)器配置了一個HLog文件Zookeeper會實時監(jiān)測每個Region服務(wù)器的狀態(tài)Master首先會處理該故障Region服務(wù)器上面遺留的HLog文件第五章NoSQL數(shù)據(jù)庫單選題下列哪個不屬于NoSQL數(shù)據(jù)庫的特點?D靈活的可擴(kuò)展性靈活的數(shù)據(jù)模型與云計算緊密融合數(shù)據(jù)存儲規(guī)模有限下面關(guān)于NoSQL和關(guān)系數(shù)據(jù)庫的簡單比較,哪個是錯誤的?BRDBMS有關(guān)系代數(shù)理論作為基礎(chǔ),NoSQL沒有統(tǒng)一的理論基礎(chǔ)NoSQL很難實現(xiàn)橫向擴(kuò)展,RDBMS可以很容易通過添加更多設(shè)備來支持更大規(guī)模的數(shù)據(jù)RDBMS需要定義數(shù)據(jù)庫模式,嚴(yán)格遵守數(shù)據(jù)定義,NoSQL一般不存在數(shù)據(jù)庫模式,可以自由靈活定義并存儲各種不同類型的數(shù)據(jù)RDBMS借助于索引機制可以實現(xiàn)快速查詢,很多NoSQL數(shù)據(jù)庫沒有面向復(fù)雜查詢的索引下列哪一項不屬于NoSQL的四大類型?D文檔數(shù)據(jù)庫圖數(shù)據(jù)庫列族數(shù)據(jù)庫時間戳數(shù)據(jù)庫下列關(guān)于鍵值數(shù)據(jù)庫的描述,哪一項是錯誤的?D擴(kuò)展性好,靈活性好大量寫操作時性能高無法存儲結(jié)構(gòu)化信息條件查詢效率高下列關(guān)于列族數(shù)據(jù)庫的描述,哪一項是錯誤的?A查找速度慢,可擴(kuò)展性差功能較少,大都不支持強事務(wù)一致性容易進(jìn)行分布式擴(kuò)展復(fù)雜性低下列哪一項不屬于數(shù)據(jù)庫事務(wù)具有ACID四性?A間斷性原子性一致性持久性下面關(guān)于MongoDB說法,哪一項是正確的?D具有較差的水平可擴(kuò)展性設(shè)置個別屬性的索引來實現(xiàn)更快的排序提供了一個面向文檔存儲,操作復(fù)雜可以實現(xiàn)替換完成的文檔(數(shù)據(jù))或者一些指定的數(shù)據(jù)字段下列關(guān)于NoSQL與關(guān)系數(shù)據(jù)庫的比較,哪個說法是錯誤的?D在一致性方面,RDBMS強于NoSQL在數(shù)據(jù)完整性方面,RDBMS容易實現(xiàn)在擴(kuò)展性方面,NoSQL比較好在可用性方面,NoSQL優(yōu)于RDBMS關(guān)于文檔數(shù)據(jù)庫的說法,下列哪一項是錯誤的?A數(shù)據(jù)是規(guī)則的性能好(高并發(fā))缺乏統(tǒng)一的查詢語法復(fù)雜性低多選題關(guān)系數(shù)據(jù)庫已經(jīng)無法滿足Web2.0的需求,主要表現(xiàn)在以下幾個方面?ABC無法滿足海量數(shù)據(jù)的管理需求無法滿足數(shù)據(jù)高并發(fā)的需求無法滿足高可擴(kuò)展性和高可用性的需求使用難度高下列關(guān)于MySQL集群的描述,哪些是正確的?ABCD復(fù)雜性:部署、管理、配置很復(fù)雜數(shù)據(jù)庫復(fù)制:MySQL主備之間一般采用復(fù)制方式,很多時候是異步復(fù)制擴(kuò)容問題:如果系統(tǒng)壓力過大需要增加新的機器,這個過程涉及數(shù)據(jù)重新劃分動態(tài)數(shù)據(jù)遷移問題:如果某個數(shù)據(jù)庫組壓力過大,需要將其中部分?jǐn)?shù)據(jù)遷移出去關(guān)系數(shù)據(jù)庫引以為傲的兩個關(guān)鍵特性(完善的事務(wù)機制和高效的查詢機制),到了Web2.0時代卻成了雞肋,主要表現(xiàn)在以下哪幾個方面?ACDWeb2.0網(wǎng)站系統(tǒng)通常不要求嚴(yán)格的數(shù)據(jù)庫事務(wù)Web2.0網(wǎng)站系統(tǒng)基本上不用關(guān)系數(shù)據(jù)庫來存儲數(shù)據(jù)Web2.0并不要求嚴(yán)格的讀寫實時性Web2.0通常不包含大量復(fù)雜的SQL查詢下面關(guān)于NoSQL與關(guān)系數(shù)據(jù)庫的比較,哪些是正確的?ABCD關(guān)系數(shù)據(jù)庫以完善的關(guān)系代數(shù)理論作為基礎(chǔ),有嚴(yán)格的標(biāo)準(zhǔn)關(guān)系數(shù)據(jù)庫可擴(kuò)展性較差,無法較好支持海量數(shù)據(jù)存儲NoSQL可以支持超大規(guī)模數(shù)據(jù)存儲NoSQL數(shù)據(jù)庫缺乏數(shù)學(xué)理論基礎(chǔ),復(fù)雜查詢性能不高下列關(guān)于文檔數(shù)據(jù)庫的描述,哪些是正確的?AD性能好(高并發(fā)),靈活性高具備統(tǒng)一的查詢語法文檔數(shù)據(jù)庫支持文檔間的事務(wù)復(fù)雜性低,數(shù)據(jù)結(jié)構(gòu)靈活下列關(guān)于圖數(shù)據(jù)庫的描述,哪些是正確的?ABCD專門用于處理具有高度相互關(guān)聯(lián)關(guān)系的數(shù)據(jù)比較適合于社交網(wǎng)絡(luò)、模式識別、依賴分析、推薦系統(tǒng)以及路徑尋找等問題靈活性高,支持復(fù)雜的圖算法復(fù)雜性高,只能支持一定的數(shù)據(jù)規(guī)模NoSQL的三大基石?ABCCAP最終一致性BASEDN8關(guān)于NoSQL的三大基石之一的CAP,下列哪些說法是正確的?ACD一致性,是指任何一個讀操作總是能夠讀到之前完成的寫操作的結(jié)果量一個分布式系統(tǒng)可以同時滿足一致性、可用性和分區(qū)容忍性這三個需求可用性,是指快速獲取數(shù)據(jù)分區(qū)容忍性,是指當(dāng)出現(xiàn)網(wǎng)絡(luò)分區(qū)的情況時(即系統(tǒng)中的一部分節(jié)點無法和其他節(jié)點進(jìn)行通信),分離的系統(tǒng)也能夠正常運行當(dāng)處理CAP的問題時,可以有哪幾個明顯的選擇?ABCCA:也就是強調(diào)一致性(C)和可用性(A),放棄分區(qū)容忍性(P)CP:也就是強調(diào)一致性(C)和分區(qū)容忍性(P),放棄可用性(A)AP:也就是強調(diào)可用性(A)和分區(qū)容忍性(P),放棄一致性(C)CAP:也就是同時兼顧可用性(A)、分區(qū)容忍性(P)和一致性(C),當(dāng)時系統(tǒng)性能會下降很多數(shù)據(jù)庫事務(wù)具有ACID四性,下面哪幾項屬于四性?ABD原子性持久性間斷性一致性第六章云數(shù)據(jù)庫單選題下列哪個不屬于云計算的優(yōu)勢?D按需服務(wù)隨時服務(wù)通用性價格不菲下列關(guān)于云數(shù)據(jù)庫的描述,哪個是錯誤的?C云數(shù)據(jù)庫是部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫云數(shù)據(jù)庫是在云計算的大背景下發(fā)展起來的一種新興的共享基礎(chǔ)架構(gòu)的方法云數(shù)據(jù)庫價格不菲,維護(hù)費用極其昂貴云數(shù)據(jù)庫具有高可擴(kuò)展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點下列哪一個不屬于云數(shù)據(jù)庫產(chǎn)品?A本地安裝MySQL阿里云RDSOracleCloud百度云數(shù)據(jù)庫UMP系統(tǒng)是構(gòu)建在一個大的集群之上的,下列哪一項不屬于系統(tǒng)向用戶提供的功能?D讀寫分離分庫分表數(shù)據(jù)安全資源合并下列關(guān)于UMP系統(tǒng)功能的說法,哪個是錯誤的?D充分利用主從庫實現(xiàn)用戶讀寫操作的分離,實現(xiàn)負(fù)載均衡UMP系統(tǒng)實現(xiàn)了對于用戶透明的讀寫分離功能UMP采用的兩種資源隔離方式(用Cgroup限制MySQL進(jìn)程資源和在Proxy服務(wù)器端限制QPS)UMP系統(tǒng)只設(shè)計了一種機制來保證數(shù)據(jù)安全下列關(guān)于阿里云RDS的說法,哪個是錯誤的?DRDS是阿里云提供的關(guān)系型數(shù)據(jù)庫服務(wù)RDS由專業(yè)數(shù)據(jù)庫管理團(tuán)隊維護(hù)RDS具有安全穩(wěn)定、數(shù)據(jù)可靠、自動備份RDS實例,是用戶購買RDS服務(wù)的基本單位,在實例中,用戶只能創(chuàng)建一個數(shù)據(jù)庫下面哪一項不是云數(shù)據(jù)庫的特性?B動態(tài)可擴(kuò)展高成本易用性大規(guī)模并行處理下列哪個不是UMP系統(tǒng)中的角色?DController服務(wù)器Proxy服務(wù)器愚公系統(tǒng)阿斯隆服務(wù)器關(guān)于UMP系統(tǒng)架構(gòu)依賴的開源組件Mnesia,說法錯誤的是哪一項?BMnesia是一個分布式數(shù)據(jù)庫管理系統(tǒng)Mnesia的數(shù)據(jù)庫模式(schema)只能在未運行前靜態(tài)重配置Mnesia的這些特性,使其在開發(fā)云數(shù)據(jù)庫時被用來提供分布式數(shù)據(jù)庫服務(wù)Mnesia支持事務(wù),支持透明的數(shù)據(jù)分片關(guān)于UMP系統(tǒng)架構(gòu)的Controller服務(wù)器,說法錯誤的是哪一項?CController服務(wù)器向UMP集群提供各種管理服務(wù)Controller服務(wù)器上運行了一組Mnesia分布式數(shù)據(jù)庫服務(wù)當(dāng)其它服務(wù)器組件需要獲取用戶數(shù)據(jù)時,不可以向Controller服務(wù)器發(fā)送請求獲取數(shù)據(jù)為了避免單點故障,保證系統(tǒng)的高可用性,UMP系統(tǒng)中部署了多臺Controller服務(wù)器多選題云數(shù)據(jù)庫具有以下哪些特性?ABCD動態(tài)可擴(kuò)展高可用性免維護(hù)安全下列關(guān)于云數(shù)據(jù)庫的描述,哪些是正確的?ABCDAmazon是云數(shù)據(jù)庫市場的先行者GoogleCloudSQL是谷歌公司推出的基于MySQL的云數(shù)據(jù)庫從數(shù)據(jù)模型的角度來說,云數(shù)據(jù)庫并非一種全新的數(shù)據(jù)庫技術(shù)云數(shù)據(jù)庫并沒有專屬于自己的數(shù)據(jù)模型UMP系統(tǒng)架構(gòu)設(shè)計遵循了以下哪些原則?ABCD保持單一的系統(tǒng)對外入口,并且為系統(tǒng)內(nèi)部維護(hù)單一的資源池消除單點故障,保證服務(wù)的高可用性保證系統(tǒng)具有良好的可伸縮,能夠動態(tài)地增加、刪減計算與存儲節(jié)點保證分配給用戶的資源也是彈性可伸縮的UMP系統(tǒng)架構(gòu)依賴的哪些開源組件?ABCDMnesiaLVSRabbitMQZooKeeper下列關(guān)于UMP系統(tǒng)架構(gòu)的描述,哪些是正確的?ACD信息統(tǒng)計服務(wù)器定期將采集到的用戶的連接數(shù)Web控制臺無法向用戶提供系統(tǒng)管理界面LVS(LinuxVirtualServer)即Linux虛擬服務(wù)器UMP系統(tǒng)借助于LVS來實現(xiàn)集群內(nèi)部的負(fù)載均衡為什么說云數(shù)據(jù)庫是個性化數(shù)據(jù)存儲需求的理想選擇?ABCD云數(shù)據(jù)庫可以滿足大企業(yè)的海量數(shù)據(jù)存儲需求云數(shù)據(jù)庫可以滿足中小企業(yè)的低成本數(shù)據(jù)存儲需求云數(shù)據(jù)庫可以滿足企業(yè)動態(tài)變化的數(shù)據(jù)存儲需求前期零投入、后期免維護(hù)的數(shù)據(jù)庫服務(wù),可以很好滿足它們的需求下列關(guān)于云數(shù)據(jù)庫與其他數(shù)據(jù)庫的關(guān)系,哪些是正確的?ABD從數(shù)據(jù)模型的角度來說,云數(shù)據(jù)庫并非一種全新的數(shù)據(jù)庫技術(shù)云數(shù)據(jù)庫并沒有專屬于自己的數(shù)據(jù)模型,云數(shù)據(jù)庫所采用的數(shù)據(jù)模型可以是關(guān)系數(shù)據(jù)庫所使用的關(guān)系模型同一個公司只能提供采用不同數(shù)據(jù)模型的單個云數(shù)據(jù)庫服務(wù)許多公司在開發(fā)云數(shù)據(jù)庫時,后端數(shù)據(jù)庫都是直接使用現(xiàn)有的各種關(guān)系數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫產(chǎn)品以下哪些是Amazon的云數(shù)據(jù)庫產(chǎn)品?ABCAmazonRDS:云中的關(guān)系數(shù)據(jù)庫AmazonSimpleDB:云中的鍵值數(shù)據(jù)庫AmazonDynamoDB:云中的數(shù)據(jù)倉庫AmazonElastiCache:云中的分布式內(nèi)存緩存Microsoft的云數(shù)據(jù)庫產(chǎn)品SQLAzure具有以下哪些特性?ABCD屬于關(guān)系型數(shù)據(jù)庫:支持使用TSQL來管理、創(chuàng)建和操作云數(shù)據(jù)庫支持存儲過程:它的數(shù)據(jù)類型、存儲過程和傳統(tǒng)的SQLServer具有很大的相似性支持大量數(shù)據(jù)類型支持云中的事務(wù):支持局部事務(wù),但是不支持分布式事務(wù)
第七章MapReduce單選題下列傳統(tǒng)并行計算框架,說法錯誤的是哪一項?B刀片服務(wù)器、高速網(wǎng)、SAN,價格貴,擴(kuò)展性差上共享式(共享內(nèi)存/共享存儲),容錯性好編程難度高實時、細(xì)粒度計算、計算密集型下列關(guān)于MapReduce模型的描述,錯誤的是哪一項?DMapReduce采用“分而治之”策略MapReduce設(shè)計的一個理念就是“計算向數(shù)據(jù)靠攏”MapReduce框架采用了Master/Slave架構(gòu)MapReduce應(yīng)用程序只能用Java來寫MapReduce1.0的體系結(jié)構(gòu)中,JobTracker是主要任務(wù)是什么?A負(fù)責(zé)資源監(jiān)控和作業(yè)調(diào)度,監(jiān)控所有TaskTracker與Job的健康狀況使用“slot”等量劃分本節(jié)點上的資源量(CPU、內(nèi)存等)會周期性地通過“心跳”將本節(jié)點上資源的使用情況和任務(wù)的運行進(jìn)度匯報給TaskTracker會跟蹤任務(wù)的執(zhí)行進(jìn)度、資源使用量等信息,并將這些信息告訴任務(wù)(Task)下列關(guān)于MapReduce工作流程,哪個描述是正確的?A所有的數(shù)據(jù)交換都是通過MapReduce框架自身去實現(xiàn)的不同的Map任務(wù)之間會進(jìn)行通信不同的Reduce任務(wù)之間可以發(fā)生信息交換用戶可以顯式地從一臺機器向另一臺機器發(fā)送消息下列關(guān)于MapReduce的說法,哪個描述是錯誤的?DMapReduce具有廣泛的應(yīng)用,比如關(guān)系代數(shù)運算、分組與聚合運算等MapReduce將復(fù)雜的、運行于大規(guī)模集群上的并行計算過程高度地抽象到了兩個函數(shù)編程人員在不會分布式并行編程的情況下,也可以很容易將自己的程序運行在分布式系統(tǒng)上,完成海量數(shù)據(jù)集的計算不同的Map任務(wù)之間可以進(jìn)行通信下列關(guān)于Map和Reduce函數(shù)的描述,哪個是錯誤的?CMap將小數(shù)據(jù)集進(jìn)一步解析成一批<key,value>對,輸入Map函數(shù)中進(jìn)行處理Map每一個輸入的<k1,v1>會輸出一批<k2,v2>。<k2,v2>是計算的中間結(jié)果Reduce輸入的中間結(jié)果<k2,List(v2)>中的List(v2)表示是一批屬于不同k2的valueReduce輸入的中間結(jié)果<k2,List(v2)>中的List(v2)表示是一批屬于同一個k2的value下面哪一項不是MapReduce體系結(jié)構(gòu)主要部分?AClientJobTrackerTaskTracker以及TaskJob關(guān)于MapReduce1.0的體系結(jié)構(gòu)的描述,下列說法錯誤的是?ATask分為MapTask和ReduceTask兩種,分別由JobTracker和TaskTracker啟動slot分為Mapslot和Reduceslot兩種,分別供MapTask和ReduceTask使用TaskTracker使用“slot”等量劃分本節(jié)點上的資源量(CPU、內(nèi)存等)TaskTracker會周期性接收J(rèn)obTracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作(如啟動新任務(wù)、殺死任務(wù)等)下列說法錯誤的是?CHadoopMapReduce是MapReduce的開源實現(xiàn),后者比前者使用門檻低很多MapReduce采用非共享式架構(gòu),容錯性好MapReduce主要用于批處理、實時、計算密集型應(yīng)用MapReduce采用“分而治之”策略多選題MapReduce相較于傳統(tǒng)的并行計算框架有什么優(yōu)勢?ABCD非共享式,容錯性好普通PC機,便宜,擴(kuò)展性好編程簡單,只要告訴MapReduce做什么即可批處理、非實時、數(shù)據(jù)密集型MapReduce體系結(jié)構(gòu)主要由以下那幾個部分構(gòu)成?ABCDClientJobTrackerTaskTrackerTask下列關(guān)于MapReduce的體系結(jié)構(gòu)的描述,說法正確的有?ABD用戶編寫的MapReduce程序通過Client提交到JobTracker端JobTracker負(fù)責(zé)資源監(jiān)控和作業(yè)調(diào)度TaskTracker監(jiān)控所有TaskTracker與Job的健康狀況TaskTracker使用“slot”等量劃分本節(jié)點上的資源量(CPU、內(nèi)存等)MapReduce的作業(yè)主要包括什么?AB從磁盤或從網(wǎng)絡(luò)讀取數(shù)據(jù),即IO密集工作計算數(shù)據(jù),即CPU密集工作針對不同的工作節(jié)點選擇合適硬件類型負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲對于MapReduce而言,其處理單位是split。split是一個邏輯概念,它包含哪些元數(shù)據(jù)信息?AB數(shù)據(jù)起始位置數(shù)據(jù)長度數(shù)據(jù)所在節(jié)點數(shù)據(jù)大小下列關(guān)于Map端的Shuffle的描述,哪些是正確的?BCMapReduce默認(rèn)為每個Map任務(wù)分配1000MB緩存多個溢寫文件歸并成一個或多個大文件,文件中的鍵值對是排序的當(dāng)數(shù)據(jù)很少時,不需要溢寫到磁盤,直接在緩存中歸并,然后輸出給Reduce每個Map任務(wù)分配多個緩存,使得任務(wù)運行更有效率MapReduce的具體應(yīng)用包括哪些?ABCD關(guān)系代數(shù)運算(選擇、投影、并、交、差、連接)分組與聚合運算矩陣-向量乘法矩陣乘法MapReduce執(zhí)行的全過程包括以下哪幾個主要階段?ABCD從分布式文件系統(tǒng)讀入數(shù)據(jù)執(zhí)行Map任務(wù)輸出中間結(jié)果通過Shuffle階段把中間結(jié)果分區(qū)排序整理后發(fā)送給Reduce任務(wù)執(zhí)行Reduce任務(wù)得到最終結(jié)果并寫入分布式文件系統(tǒng)下列說法正確的是?ABCDMapReduce體系結(jié)構(gòu)主要由四個部分組成,分別是:Client、JobTracker、TaskTracker以及TaskTask分為MapTask和ReduceTask兩種,均由TaskTracker啟動在MapReduce工作流程中,所有的數(shù)據(jù)交換都是通過MapReduce框架自身去實現(xiàn)的在MapReduce工作流程中,用戶不能顯式地從一臺機器向另一臺機器發(fā)送消息第八章Hadoop再探討單選題Hadoop1.0的核心組件(僅指MapReduce和HDFS,不包括Hadoop生態(tài)系統(tǒng)內(nèi)的Pig、Hive、HBase等其他組件),下列哪項是它的不足?B抽象層次高表達(dá)能力有限,抽象層次低,需人工編碼價格昂貴可維護(hù)性低下面哪個選項不屬于Hadoop1.0的問題?D單一名稱節(jié)點,存在單點失效問題單一命名空間,無法實現(xiàn)資源隔離資源管理效率低很難上手下列哪項是Hadoop生態(tài)系統(tǒng)中Spark的功能?D處理大規(guī)模數(shù)據(jù)的腳本語言工作流和協(xié)作服務(wù)引擎,協(xié)調(diào)Hadoop上運行的不同任務(wù)不支持DAG作業(yè)的計算框架基于內(nèi)存的分布式并行編程框架,具有較高的實時性,并且較好支持迭代計算在Hadoop生態(tài)系統(tǒng)中,Kafka主要解決Hadoop中存在哪些的問題?AHadoop生態(tài)系統(tǒng)中各個組件和其他產(chǎn)品之間缺乏統(tǒng)一的、高效的數(shù)據(jù)交換中介不同的MapReduce任務(wù)之間存在重復(fù)操作,降低了效率延遲高,而且不適合執(zhí)行迭代計算抽象層次低,需要手工編寫大量代碼下列哪一個不屬于HDFS1.0中存在的問題?A無法水平擴(kuò)展單點故障問題單一命名空間系統(tǒng)整體性能受限于單個名稱節(jié)點的吞吐量關(guān)于HDFSFederation的設(shè)計的描述,哪個是錯誤的?A屬于不同命名空間的塊可以構(gòu)成同一個“塊池”HDFSFederation中,所有名稱節(jié)點會共享底層的數(shù)據(jù)節(jié)點存儲資源,數(shù)據(jù)節(jié)點向所有名稱節(jié)點匯報設(shè)計了多個相互獨立的名稱節(jié)點HDFS的命名服務(wù)能夠水平擴(kuò)展下列關(guān)于MapReduce1.0的描述,錯誤的是?BJobTracker“大包大攬”導(dǎo)致任務(wù)過重不存在單點故障容易出現(xiàn)內(nèi)存溢出(分配資源只考慮MapReduce任務(wù)數(shù),不考慮CPU、內(nèi)存)
資源劃分不合理(強制劃分為slot,包括Mapslot和Reduceslot)下列哪個不屬于YARN體系結(jié)構(gòu)中ResourceManager的功能?D處理客戶端請求監(jiān)控NodeManager資源分配與調(diào)度處理來自ApplicationMaster的命令下列哪個不屬于YARN體系結(jié)構(gòu)中ApplicationMaster的功能?D任務(wù)調(diào)度、監(jiān)控與容錯為應(yīng)用程序申請資源將申請的資源分配給內(nèi)部任務(wù)處理來自ResourceManger的命令多選題下列選項中,哪些屬于Hadoop1.0的核心組件的不足之處?ABCD實時性差(適合批處理,不支持實時交互式)資源浪費(Map和Reduce分兩階段執(zhí)行)執(zhí)行迭代操作效率低難以看到程序整體邏輯Hadoop的優(yōu)化與發(fā)展主要體現(xiàn)在哪幾個方面?ABCHadoop自身核心組件MapReduce的架構(gòu)設(shè)計改進(jìn)Hadoop自身核心組件HDFS的架構(gòu)設(shè)計改進(jìn)Hadoop生態(tài)系統(tǒng)其它組件的不斷豐富Hadoop生態(tài)系統(tǒng)減少不必要的組件,整合系統(tǒng)下列哪些屬于Hadoop2.0相對于Hadoop1.0的改進(jìn)?ABCD設(shè)計了HDFSHA提供名稱節(jié)點熱備機制設(shè)計了HDFSFederation,管理多個命名空間設(shè)計了新的資源管理框架YARN下面哪個屬于不斷完善的Hadoop生態(tài)系統(tǒng)中的組件?ABCPigTezKafkaDN8HDFS1.0主要存在哪些問題?ACD單點故障問題不可以水平擴(kuò)展單個名稱節(jié)點難以提供不同程序之間的隔離性系統(tǒng)整體性能受限于單個名稱節(jié)點的吞吐量HDFSFederation相對于HDFS1.0的優(yōu)勢主要體現(xiàn)在哪里?BCD能夠解決單點故障問題HDFS集群擴(kuò)展性性能更高效良好的隔離性JobTracker主要包括哪三大功能?ABC資源管理任務(wù)調(diào)度任務(wù)監(jiān)控數(shù)據(jù)即服務(wù)YARN體系結(jié)構(gòu)主要包括哪三部分?ABDResourceManagerNodeManagerDataManagerApplicationMaster在YARN體系結(jié)構(gòu)中,ApplicationMaster主要功能包括哪些?ABC當(dāng)用戶作業(yè)提交時,ApplicationMaster與ResourceManager協(xié)商獲取資源,ResourceManager會以容器的形式為ApplicationMaster分配資源把獲得的資源進(jìn)一步分配給內(nèi)部的各個任務(wù)(Map任務(wù)或Reduce任務(wù)),實現(xiàn)資源的“二次分配”定時向ResourceManager發(fā)送“心跳”消息,報告資源的使用情況和應(yīng)用的進(jìn)度信息向ResourceManager匯報作業(yè)的資源使用情況和每個容器的運行狀態(tài)第九章數(shù)據(jù)倉庫Hive單選題1.下列有關(guān)Hive和Impala的對比錯誤的是:(D)AHive與Impala使用相同的元數(shù)據(jù)BHive與Impala中對SQL的解釋處理比較相似,都是通過詞法分析生成執(zhí)行計劃CHive適合于長時間的批處理查詢分析,而Impala適合于實時交互式SQL查詢DHive在內(nèi)存不足以存儲所有數(shù)據(jù)時,會使用外存,而Impala也是如此2.下列關(guān)于Hive基本操作命令的解釋錯誤的是:(C)Acreatedatabaseuserdb;//創(chuàng)建數(shù)據(jù)庫userdbBcreatetableifnotexistsusr(idbigint,namestring,ageint);//如果usr表不存在,創(chuàng)建表usr,含三個屬性id,name,ageCloaddatalocalinpath‘/usr/local/data’overwriteintotableusr;//把目錄’/usr/local/data’下的數(shù)據(jù)文件中的數(shù)據(jù)以追加的方式裝載進(jìn)usr表Dinsertoverwritetablestudentselect*fromuserwhereage>10;//向表usr1中插入來自usr表的age大于10的數(shù)據(jù)并覆蓋student表中原有數(shù)據(jù)3.下面哪個不可能是Hive的執(zhí)行引擎:(C)A.MapReduceB.TezC.StormD.Spark4.下面描述錯誤的是:(C)A.Hive的功能十分強大,可以支持采用SQL方式查詢Hadoop平臺上的數(shù)據(jù)B.在實際應(yīng)用中,Hive也暴露出不穩(wěn)定的問題,在極少數(shù)情況下,甚至?xí)霈F(xiàn)端口不響應(yīng)或者進(jìn)程丟失的問題C.在HiveHA中,在Hadoop集群上構(gòu)建的數(shù)據(jù)倉庫是由單個Hive實例進(jìn)行管理的D.在HiveHA中,客戶端的查詢請求首先訪問HAProxy,由HAProxy對訪問請求進(jìn)行轉(zhuǎn)發(fā)5.以下哪個不是數(shù)據(jù)倉庫的特性:(C)A.面向主題的B.集成的C.動態(tài)變化的D.反映歷史變化的6.下面關(guān)于Hive的描述錯誤的是:(D)A.Hive是一個構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫工具B.Hive是由Facebook公司開發(fā)的C.Hive在某種程度上可以看作是用戶編程接口,其本身并不存儲和處理數(shù)據(jù)D.Hive定義了簡單的類似SQL的查詢語言——HiveQL,它與大部分SQL語法無法兼容7.下面關(guān)于Hive的描述錯誤的是:(D)A.HBase與Hive的功能是互補的,它實現(xiàn)了Hive不能提供的功能B.當(dāng)采用MapReduce作為執(zhí)行引擎時,用HiveQL語句編寫的處理邏輯,最終都要轉(zhuǎn)化為MapReduce任務(wù)來運行C.Hive一般用于處理靜態(tài)數(shù)據(jù),主要是BI報表數(shù)據(jù)D.Hive主要是用于滿足實時數(shù)據(jù)流的處理需求8.關(guān)于Hive和傳統(tǒng)關(guān)系數(shù)據(jù)庫的對比分析,下面描述錯誤的是:(B)A.Hive一般依賴于分布式文件系統(tǒng)HDFS,而傳統(tǒng)數(shù)據(jù)庫則依賴于本地文件系統(tǒng)B.傳統(tǒng)的關(guān)系數(shù)據(jù)庫可以針對多個列構(gòu)建復(fù)雜的索引,Hive不支持索引C.Hive和傳統(tǒng)關(guān)系數(shù)據(jù)庫都支持分區(qū)D.傳統(tǒng)關(guān)系數(shù)據(jù)庫很難實現(xiàn)橫向擴(kuò)展,Hive具有很好的水平擴(kuò)展性9.以下哪個不是Hive的用戶接口模塊:(A)A.PMIB.HWI(HiveWebInterface)C.JDBC/ODBCD.ThriftServer多選題1.下列說法正確的是:(BCD)A數(shù)據(jù)倉庫Hive不需要借助于HDFS就可以完成數(shù)據(jù)的存儲BImpala和Hive、HDFS、HBase等工具可以統(tǒng)一部署在一個Hadoop平臺上CHive本身不存儲和處理數(shù)據(jù),依賴HDFS存儲數(shù)據(jù),依賴MapReduce處理數(shù)據(jù)DHiveQL語法與傳統(tǒng)的SQL語法很相似2.Impala主要由哪幾個部分組成:(ABC)AImpaladBStateStoreCCLIDHive3.以下屬于Hive的基本數(shù)據(jù)類型是:(ABCD)ATINYINTBFLOATCSTRINGDBINARY4.數(shù)據(jù)倉庫Hive的執(zhí)行引擎可以是:(ABD)A.TezB.MapReduceC.PigD.Spark5.以下哪些是數(shù)據(jù)倉庫的特性:(ABCD)A.面向主題的(SubjectOriented)B.集成的(Integrated)C.相對穩(wěn)定的(Non-Volatile)D.反映歷史變化6.傳統(tǒng)數(shù)據(jù)倉庫面臨哪些挑戰(zhàn):(ABD)A.無法滿足快速增長的海量數(shù)據(jù)存儲需求B.無法有效處理不同類型的數(shù)據(jù)C.具有很強的擴(kuò)展性D.計算和處理能力不足7.Hadoop生態(tài)系統(tǒng)中Hive與其他部分的關(guān)系的描述正確的是:(ABCD)A.HDFS作為高可靠的底層存儲,用來存儲Hive的海量數(shù)據(jù)B.MapReduce對這些海量數(shù)據(jù)進(jìn)行批處理,實現(xiàn)Hive的高性能計算C.當(dāng)采用MapRedue作為Hive的執(zhí)行引擎時,用HiveQL語句編寫的處理邏輯,最終都要轉(zhuǎn)化為MapReduce任務(wù)來運行D.HBase與Hive的功能是互補的,它實現(xiàn)了Hive不能提供的功能8.關(guān)于Hive與傳統(tǒng)關(guān)系數(shù)據(jù)庫的對比分析,下面描述正確的是:(ABD)A.在數(shù)據(jù)存儲方面,Hive一般依賴于分布式文件系統(tǒng)HDFS,而傳統(tǒng)數(shù)據(jù)庫則依賴于本地文件系統(tǒng)B.在索引方面,傳統(tǒng)的關(guān)系數(shù)據(jù)庫可以針對多個列構(gòu)建復(fù)雜的索引,大幅度提升數(shù)據(jù)查詢性能,而Hive不像傳統(tǒng)的關(guān)系型數(shù)據(jù)庫那樣有鍵的概念,它只能提供有限的索引功能C.在分區(qū)方面,傳統(tǒng)的數(shù)據(jù)庫提供分區(qū)功能來改善大型表以及具有各種訪問模式的表的可伸縮性、可管理性,以及提高數(shù)據(jù)庫效率;Hive不支持分區(qū)功能D.在執(zhí)行引擎方面,傳統(tǒng)的關(guān)系數(shù)據(jù)庫依賴自身的執(zhí)行引擎,而Hive則依賴于MapReduce、Tez和Spark等執(zhí)行引擎9.Hive主要由哪三個模塊組成:(ABD)A.用戶接口模塊B.用戶查詢模塊C.驅(qū)動模塊D.元數(shù)據(jù)存儲模塊10.當(dāng)采用MapReduce作為Hive的執(zhí)行引擎時,下面描述正確的是:(ABC)A.當(dāng)用戶向Hive輸入一段命令或查詢(即HiveQL語句)時,Hive需要與Hadoop交互工作來完成該操作B.命令或查詢首先進(jìn)入到驅(qū)動模塊,由驅(qū)動模塊中的編譯器進(jìn)行解析編譯,并由優(yōu)化器對該操作進(jìn)行優(yōu)化計算,然后交給執(zhí)行器去執(zhí)行C.執(zhí)行器通常的任務(wù)是啟動一個或多個MapReduce任務(wù),有時也不需要啟動MapReduce任務(wù)D.執(zhí)行器通常的任務(wù)一定會包含Map和Reduce操作第十章Spark單選題下列關(guān)于Spark的描述,錯誤的是哪一項?D(A)Spark最初由美國加州伯克利大學(xué)(UCBerkeley)的AMP實驗室于2009年開發(fā)(B)Spark在2014年打破了Hadoop保持的基準(zhǔn)排序紀(jì)錄.(C)Spark用十分之一的計算資源,獲得了比Hadoop快3倍的速度(D)Spark運行模式單一2、下列關(guān)于Spark的描述,錯誤的是哪一項?C(A)使用DAG執(zhí)行引擎以支持循環(huán)數(shù)據(jù)流與內(nèi)存計算析(B)可運行于獨立的集群模式中,可運行于Hadoop中,也可運行于AmazonEC2等云環(huán)境中(C)支持使用Scala、Java、Python和R語言進(jìn)行編程,但是不可以通過SparkShell進(jìn)行交互式編程(D)可運行于獨立的集群模式中,可運行于Hadoop中,也可運行于AmazonEC2等云環(huán)境中3、下列關(guān)于Scala特性的描述,錯誤的是哪一項?A(A)Scala語法復(fù)雜,但是能提供優(yōu)雅的API計算(B)Scala具備強大的并發(fā)性,支持函數(shù)式編程,可以更好地支持分布式系統(tǒng)(C)Scala兼容Java,運行速度快,且能融合到Hadoop生態(tài)圈中(D)Scala是Spark的主要編程語言下列說法哪項有誤?C(A)相對于Spark來說,使用Hadoop進(jìn)行迭代計算非常耗資源(B)Spark將數(shù)據(jù)載入內(nèi)存后,之后的迭代計算都可以直接使用內(nèi)存中的中間結(jié)果作運算,避免了從磁盤中頻繁讀取數(shù)據(jù)(C)Hadoop的設(shè)計遵循“一個軟件棧滿足不同應(yīng)用場景”的理念(D)Spark可以部署在資源管理器YARN之上,提供一站式的大數(shù)據(jù)解決方案5、在Spark生態(tài)系統(tǒng)組件的應(yīng)用場景中,下列哪項說法是錯誤的?C(A)Spark應(yīng)用在復(fù)雜的批量數(shù)據(jù)處理(B)SparkSQL是基于歷史數(shù)據(jù)的交互式查詢(C)SparkStreaming是基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘(D)GraphX是圖結(jié)構(gòu)數(shù)據(jù)的處理6、下列說法錯誤的是?A(A)RDD(ResillientDistributedDataset)是運行在工作節(jié)點(WorkerNode)的一個進(jìn)程,負(fù)責(zé)運行Task(B)Application是用戶編寫的Spark應(yīng)用程序(C)一個Job包含多個RDD及作用于相應(yīng)RDD上的各種操作(D)DirectedAcyclicGraph反映RDD之間的依賴關(guān)系7、下列關(guān)于RDD說法,描述有誤的是?C(A)一個RDD就是一個分布式對象集合,本質(zhì)上是一個只讀的分區(qū)記錄集合(B)每個RDD可分成多個分區(qū),每個分區(qū)就是一個數(shù)據(jù)集片段(C)RDD是可以直接修改的(D)RDD提供了一種高度受限的共享內(nèi)存模型8、Spark生態(tài)系統(tǒng)組件SparkStreaming的應(yīng)用場景是?D(A)基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘(B)圖結(jié)構(gòu)數(shù)據(jù)的處理(C)基于歷史數(shù)據(jù)的交互式查詢(D)基于實時數(shù)據(jù)流的數(shù)據(jù)處理9、Spark生態(tài)系統(tǒng)組件MLlib的應(yīng)用場景是?D(A)圖結(jié)構(gòu)數(shù)據(jù)的處理(B)基于歷史數(shù)據(jù)的交互式查詢(C)復(fù)雜的批量數(shù)據(jù)處理(D)基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘多選題Spark具有以下哪幾個主要特點?ABC(A)運行速度快(B)容易使用(C)通用性(D)運行模式單一2、Scala具有以下哪幾個主要特點?ABCD(A)Scala的優(yōu)勢是提供了REPL(Read-Eval-PrintLoop,交互式解釋器),提高程序開發(fā)效率(B)Scala兼容Java,運行速度快,且能融合到Hadoop生態(tài)圈中(C)Scala具備強大的并發(fā)性,支持函數(shù)式編程(D)Scala可以更好地支持分布式系統(tǒng)3、下列哪些選項屬于Hadoop的缺點?ABCD(A)表達(dá)能力有限(B)磁盤IO開銷大(C)延遲高(D)在前一個任務(wù)執(zhí)行完成之前,其他任務(wù)就無法開始,難以勝任復(fù)雜、多階段的計算任務(wù)下列說法中,哪些選項描述正確?AB(A)Spark在借鑒HadoopMapReduce優(yōu)點的同時,很好地解決了MapReduce所面臨的問題(B)Spark的計算模式也屬于MapReduce,但不局限于Map和Reduce操作(C)HadoopMapReduce編程模型比Spark更靈活(D)HadoopMapReduce提供了內(nèi)存計算,可將中間結(jié)果放到內(nèi)存中,對于迭代運算效率更高5、在實際應(yīng)用中,大數(shù)據(jù)處理主要包括以下哪三個類型?ABD(A)復(fù)雜的批量數(shù)據(jù)處理:通常時間跨度在數(shù)十分鐘到數(shù)小時之間(B)基于歷史數(shù)據(jù)的交互式查詢:通常時間跨度在數(shù)十秒到數(shù)分鐘之間(C)基于實時數(shù)據(jù)流的數(shù)據(jù)處理:通常時間跨度在數(shù)十秒到數(shù)分鐘之間(D)基于實時數(shù)據(jù)流的數(shù)據(jù)處理:通常時間跨度在數(shù)百毫秒到數(shù)秒之間6、在實際應(yīng)用中,當(dāng)采用多種計算架構(gòu)來滿足不同應(yīng)用場景需求時,大數(shù)據(jù)處理難免會帶來哪些問題?ABCD(A)不同場景之間輸入輸出數(shù)據(jù)無法做到無縫共享,通常需要進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換(B)不同的軟件需要不同的開發(fā)和維護(hù)團(tuán)隊(C)需要較高的使用成本(D)比較難以對同一個集群中的各個系統(tǒng)進(jìn)行統(tǒng)一的資源協(xié)調(diào)和分配7、與HadoopMapReduce計算框架相比,Spark所采用的Executor具有哪些優(yōu)點?AB(A)利用多線程來執(zhí)行具體的任務(wù),減少任務(wù)的啟動開銷(B)Executor中有一個BlockManager存儲模塊,有效減少IO開銷(C)提供了一種高度受限的共享內(nèi)存模型(D)不同場景之間輸入輸出數(shù)據(jù)能做到無縫共享8、Spark運行架構(gòu)具有以下哪些特點?ABCD(A)每個Application都有自己專屬的Executor進(jìn)程,并且該進(jìn)程在Application運行期間一直駐留(B)Executor進(jìn)程以多線程的方式運行Task(C)Spark運行過程與資源管理器無關(guān),只要能夠獲取Executor進(jìn)程并保持通信即可(D)Task采用了數(shù)據(jù)本地性和推測執(zhí)行等優(yōu)化機制9、Spark采用RDD以后能夠?qū)崿F(xiàn)高效計算的原因主要在于?ABC(A)高效的容錯性(B)中間結(jié)果持久化到內(nèi)存,數(shù)據(jù)在內(nèi)存中的多個(C)存放的數(shù)據(jù)可以是Java對象,避免了不必要的對象序列化和反序列化(D)采用數(shù)據(jù)復(fù)制實現(xiàn)容錯10、Spark支持哪三種不同類型的部署方式?ABC(A)Standalone(類似于MapReduce1.0,slot為資源分配單位)(B)SparkonMesos(和Spark有血緣關(guān)系,更好支持Mesos)(C)SparkonYARN(D)SparkonHDFS第十一章流計算單選題下列關(guān)于流計算的說法,哪項是錯誤的?D實時獲取來自不同數(shù)據(jù)源的海量數(shù)據(jù),經(jīng)過實時分析處理,獲得有價值的信息流計算秉承一個基本理念,即數(shù)據(jù)的價值隨著時間的流逝而降低對于一個流計算系統(tǒng)來說,它應(yīng)該支持TB級甚至是PB級的數(shù)據(jù)規(guī)模流計算只需要保證較低的延遲時間,即只達(dá)到秒級別即可處理一切問題下列關(guān)于數(shù)據(jù)處理流程,說法有誤的是?D在傳統(tǒng)的數(shù)據(jù)處理流程中,存儲的數(shù)據(jù)是舊的在傳統(tǒng)的數(shù)據(jù)處理流程中,需要用戶主動發(fā)出查詢來獲取結(jié)果傳統(tǒng)的數(shù)據(jù)處理流程,需要先采集數(shù)據(jù)并存儲在關(guān)系數(shù)據(jù)庫等數(shù)據(jù)管理系統(tǒng)中流計算的處理流程一般包含三個階段:數(shù)據(jù)實時采集、數(shù)據(jù)批量計算、實時查詢服務(wù)下列哪項不屬于流計算的處理流程的三個階段?B數(shù)據(jù)實時采集數(shù)據(jù)批量采集數(shù)據(jù)實時計算實時查詢服務(wù)下列哪一項不屬于Storm的特點?B支持各種編程語言:Storm支持使用各種編程語言來定義任務(wù)容錯性:Storm需要人工進(jìn)行故障節(jié)點的重啟、任務(wù)的重新分配可擴(kuò)展性:Storm的并行特性使其可以運行在分布式集群中免費、開源:Storm是一款開源框架,可以免費使用下列關(guān)于Storm設(shè)計思想,描述有誤的是?AStorm將Streams的狀態(tài)轉(zhuǎn)換過程抽象為SpoutStorm認(rèn)為每個Stream都有一個源頭,并把這個源頭抽象為SpoutStorm將Spouts和Bolts組成的網(wǎng)絡(luò)抽象成TopologyTopology里面的每個處理組件(Spout或Bolt)都包含處理邏輯,而組件之間的連接則表示數(shù)據(jù)流動的方向下列關(guān)于Storm和Hadoop架構(gòu)組件功能對應(yīng)關(guān)系,哪個是錯誤的?CHadoopJob對應(yīng)StormTopologyHadoopTaskTracker對應(yīng)StormSupervisorHadoopJobTracker對應(yīng)StormSpoutHadoopReduce對應(yīng)StormBolt下列哪個說法是錯誤的?B從編程的靈活性來講,Storm是比較理想的選擇,它使用ApacheThrift,可以用任何編程語言來編寫拓?fù)浣Y(jié)構(gòu)(Topology)SparkStreaming可以實現(xiàn)毫秒級的流計算SparkStreaming無法實現(xiàn)毫秒級的流計算在Spark上可以統(tǒng)一部署SparkSQL,SparkStreaming、MLlib,GraphX等組件,提供便捷的一體化編程模型下列關(guān)于Storm的描述,有誤的是?AStorm將流數(shù)據(jù)Stream描述成一個有限的Tuple序列Storm保證每個消息都能完整處理Storm認(rèn)為每個Stream都有一個源頭,并把這個源頭抽象為SpoutBolt可以執(zhí)行過濾、函數(shù)操作、Join、操作數(shù)據(jù)庫等任何操作下列哪個關(guān)于StreamGroupings的描述,有誤的是?AFieldsGrouping:廣播發(fā)送,每一個Task都會收到所有的TupleGlobalGrouping:全局分組,所有的Tuple都發(fā)送到同一個Task中NonGrouping:不分組,和ShuffleGrouping類似,當(dāng)前Task的執(zhí)行會和它的被訂閱者在同一個線程中執(zhí)行DirectGrouping:直接分組,直接指定由某個Task來執(zhí)行Tuple的處理多選題流數(shù)據(jù)具有以下哪些特征?ABC數(shù)據(jù)快速持續(xù)到達(dá),潛在大小也許是無窮無盡的數(shù)據(jù)來源眾多,格式復(fù)雜注重數(shù)據(jù)的整體價值,不過分關(guān)注個別數(shù)據(jù)系統(tǒng)可以控制將要處理的新到達(dá)的數(shù)據(jù)元素的順序下列關(guān)于批量計算和實時計算的說法,正確的有?ACD批量計算:充裕時間處理靜態(tài)數(shù)據(jù),如Hadoop靜態(tài)數(shù)據(jù)不適合采用批量計算,因為它不適合用傳統(tǒng)的關(guān)系模型建模流數(shù)據(jù)必須采用實時計算流數(shù)據(jù)的響應(yīng)時間一般為秒級,甚至需要毫秒級對于一個流計算系統(tǒng)來說,它應(yīng)達(dá)到以下哪些需求?ABCD高性能:處理大數(shù)據(jù)的基本要求,如每秒處理幾十萬條數(shù)據(jù)實時性:保證較低的延遲時間,達(dá)到秒級別,甚至是毫秒級別分布式:支持大數(shù)據(jù)的基本架構(gòu),必須能夠平滑擴(kuò)展可靠性:能可靠地處理流數(shù)據(jù)下列關(guān)于流計算與Hadoop的說法,正確的有?ABCDHadoop擅長批處理,不適合流計算MapReduce是專門面向靜態(tài)數(shù)據(jù)的批量處理的Hadoop設(shè)計的初衷是面向大規(guī)模數(shù)據(jù)的批量處理MapReduce不適合用于處理持續(xù)到達(dá)的動態(tài)數(shù)據(jù)下列關(guān)于流處理系統(tǒng)與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)的描述,正確的有?ABC流處理系統(tǒng)處理的是實時的數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)處理的是預(yù)先存儲好的靜態(tài)數(shù)據(jù)用戶通過流處理系統(tǒng)獲取的是實時結(jié)果,而通過傳統(tǒng)的數(shù)據(jù)處理系統(tǒng),獲取的是過去某一時刻的結(jié)果流處理系統(tǒng)無需用戶主動發(fā)出查詢,實時查詢服務(wù)可以主動將結(jié)果推送給用戶傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)系統(tǒng)無需用戶主動發(fā)出查詢,批量查詢服務(wù)可以主動將結(jié)果推送給用戶Storm具有以下哪些特點?ABCD整合性:Storm可方便地與隊列系統(tǒng)和數(shù)據(jù)庫系統(tǒng)進(jìn)行整合簡易的API:Storm的API在使用上即簡單又方便容錯性:Storm可自動進(jìn)行故障節(jié)點的重啟、任務(wù)的重新分配可擴(kuò)展性:Storm的并行特性使其可以運行在分布式集群中目前,Storm中的StreamGroupings有如下哪幾種方式?ABCAllGrouping:廣播發(fā)送,每一個Task都會收到所有的TupleGlobalGrouping:全局分組,所有的Tuple都發(fā)送到同一個Task中FieldsGrouping:按照字段分組,保證相同字段的Tuple分配到同一個Task中DirectGrouping:隨機分組,隨機分發(fā)Stream中的Tuple,保證每個Bolt的Task接收Tuple數(shù)量大致一致下列關(guān)于Storm框架,描述正確的有?ABCDworker:每個worker進(jìn)程都屬于一個特定的Topologyexecutor:executor是產(chǎn)生于worker進(jìn)程內(nèi)部的線程task:實際的數(shù)據(jù)處理由task完成在Topology的生命周期中,每個組件的task數(shù)目是不會發(fā)生變化的,而executor的數(shù)目卻不一定下列關(guān)于SparkStreaming與Storm的描述,哪些是正確的的?ABDSparkStreaming無法實現(xiàn)毫秒級的流計算Storm可以實現(xiàn)毫秒級響應(yīng)件Storm無法用于實時計算SparkStreaming采用的小批量處理的方式使得它可以同時兼容批量和實時數(shù)據(jù)處理的邏輯和算法第十二章Flink單選題1.下面描述錯誤的是:(D)A.Storm雖然可以做到低延遲,但是無法實現(xiàn)高吞吐,也不能在故障發(fā)生時準(zhǔn)確地處理計算狀態(tài)B.SparkStreaming通過采用微批處理方法實現(xiàn)了高吞吐和容錯性,但是犧牲了低延遲和實時處理能力C.Flink實現(xiàn)了GoogleDataflow流計算模型,是一種兼具高吞吐、低延遲和高性能的實時流計算框架,并且同時支持批處理和流處理D.SparkStreaming可以實現(xiàn)毫秒級響應(yīng),而Flink只能實現(xiàn)秒級響應(yīng)2.以下哪個不屬于事件驅(qū)動型應(yīng)用?DA.反欺詐B.異常檢測C.基于規(guī)則的報警D.消費者技術(shù)中的實時數(shù)據(jù)即席分析3.以下哪個不屬于數(shù)據(jù)分析應(yīng)用?AA.基于規(guī)則的報警B.移動應(yīng)用中的產(chǎn)品更新及實驗評估分析C.消費者技術(shù)中的實時數(shù)據(jù)即席分析D.大規(guī)模圖分析4.以下哪個屬于數(shù)據(jù)流水線應(yīng)用?BA.基于規(guī)則的報警B.實時查詢索引構(gòu)建C.移動應(yīng)用中的產(chǎn)品更新及實驗評估分析D.費者技術(shù)中的實時數(shù)據(jù)即席分析多選題1.企業(yè)數(shù)據(jù)架構(gòu)的典型形式包括:(ABC)A.傳統(tǒng)數(shù)據(jù)處理架構(gòu)B.大數(shù)據(jù)Lambda架構(gòu)C.流處理架構(gòu)D.循環(huán)處理架構(gòu)2.Flink的優(yōu)勢包括:(ABCD)A.同時支持高吞吐、低延遲、高性能B.同時支持流處理和批處理C.支持有狀態(tài)計算D.具有獨立的內(nèi)存管理3.Flink常見的應(yīng)用場景包括:(ABC)A.事件驅(qū)動型應(yīng)用B.?dāng)?shù)據(jù)分析應(yīng)用C.?dāng)?shù)據(jù)流水線應(yīng)用D.正反饋應(yīng)用4.Flink核心組件棧包括:(ACD)A.物理部署層B.算法庫層C.Runtime核心層D.API&Libraries層5.Flink系統(tǒng)主要由兩個組件組成:(AD)A.JobManagerB.JobTrackderC.TaskTrackerD.TaskManager6.Flink編程模型包括哪幾層:(ABCD)A.SQLB.TableAPIC.DataStreamAPI/DataSetAPID.有狀態(tài)數(shù)據(jù)流處理第十三章圖計算單選題下列關(guān)于圖結(jié)構(gòu)數(shù)據(jù)的描述,錯誤的是?A(A)許多非圖結(jié)構(gòu)的大數(shù)據(jù),通常會被轉(zhuǎn)換為關(guān)系模型后進(jìn)行分析(B)許多大數(shù)據(jù)都是以大規(guī)模圖或網(wǎng)絡(luò)的形式呈現(xiàn)(C)圖數(shù)據(jù)結(jié)構(gòu)很好地表達(dá)了數(shù)據(jù)之間的關(guān)聯(lián)性(D)關(guān)聯(lián)性計算是大數(shù)據(jù)計算的核心在Pregel計算模型中,圖中的每個頂點會對應(yīng)一個計算單元,下列哪一項不屬于計算單元的成員變量?D頂點值(Vertexvalue):頂點對應(yīng)的PR值出射邊(Outedge):只需要表示一條邊,可以不取值消息(Message):傳遞的消息入射邊(Iutedge):只需要表示一條邊,可以不取值采用MapReduce實現(xiàn)PageRank的計算過程包括三個階段,下列哪一項是錯的?D(A)第一階段:解析網(wǎng)頁(B)第二階段:PageRank分配(C)第三階段:收斂階段(D)第一階段:收集網(wǎng)頁下列關(guān)于PageRank算法在MapReduce中的實現(xiàn)的描述,錯誤的是?A解析網(wǎng)頁的任務(wù)就是分析一個頁面的鏈接數(shù),但是不賦初值PageRank分配就是多次迭代計算頁面的PageRank值收斂階段的任務(wù)就是由一個非并行組件決定是否達(dá)到收斂一般判斷是否收斂的條件是所有網(wǎng)頁的PageRank值不再變化,或者運行30次以后我們就認(rèn)為已經(jīng)收斂了下列哪個不屬于PageRank算法在Pregel和MapReduce中實現(xiàn)方式的區(qū)別?DPregel將PageRank處理對象看成是連通圖,而MapReduce則將其看成是鍵值對Pregel將計算細(xì)化到頂點,同時在頂點內(nèi)控制循環(huán)迭代次數(shù)MapReduce將計算批量化處理,按任務(wù)進(jìn)行循環(huán)迭代控制圖算法如果用Pregel實現(xiàn),需要一系列的Pregel的調(diào)用下列哪項不屬于在Vetex類中的值類型參數(shù)?A(A)頂點的出度(B)頂點(C)邊(D)消息在每個超步中,Worker調(diào)用頂點上的Compute()函數(shù),下列哪個參數(shù)是不需要傳遞?D(A)該頂點的當(dāng)前值(B)一個接收到的消息的迭代器(C)一個出射邊的迭代器(D)一個入射邊的迭代器下列哪一項不屬于每個超步的組件?A(A)全局計算(B)局部計算(C)通訊(D)柵欄同步在一個Worker中,它所管轄的分區(qū)的狀態(tài)信息是保存在內(nèi)存中的,下列哪一項不屬于分區(qū)的狀態(tài)信息?D頂點的當(dāng)前值消息隊列標(biāo)志位一個接收到的消息的迭代器多選題很多傳統(tǒng)的圖計算算法都存在以下哪些典型問題?ABC常常表現(xiàn)出比較差的內(nèi)存訪問局部性針對單個頂點的處理工作過少計算過程中伴隨著并行度的改變計算過程簡易針對大型圖(比如社交網(wǎng)絡(luò)和網(wǎng)絡(luò)圖)的計算問題,哪些說法是正確的?ABCD為特定的圖應(yīng)用定制相應(yīng)的分布式實現(xiàn):通用性不好基于現(xiàn)有的分布式計算平臺進(jìn)行圖計算:在性能和易用性方面往往無法達(dá)到最優(yōu)使用單機的圖算法庫,但是,在可以解決的問題的規(guī)模方面具有很大的局限性使用已有的并行圖計算系統(tǒng),但是,對大規(guī)模分布式系統(tǒng)非常重要的一些方面(比如容錯),無法提供較好的支持針對大型圖的計算,目前通用的圖計算軟件主要哪些?AB基于遍歷算法的、實時的圖數(shù)據(jù)庫,如Neo4j、OrientDB、DEX和InfiniteGraph以圖頂點為中心的、基于消息傳遞批處理的并行引擎,如GoldenOrb、Giraph、Pregel和Hama基于遍歷算法的、實時的圖數(shù)據(jù)庫,如GoldenOrb、Giraph、Pregel和Hama以圖頂點為中心的、基于消息傳遞批處理的并行引擎,如Neo4j、OrientDB、DEX和InfiniteGraph一次BSP(BulkSynchronousParallelComputingModel,又稱“大同步”模型)計算過程包括一系列全局超步(所謂的超步就是計算中的一次迭代),每個超步主要包括哪些組件?ABC局部計算:每個參與的處理器都有自身的計算任務(wù)通訊:處理器群相互交換數(shù)據(jù)柵欄同步:當(dāng)一個處理器遇到“路障”(或柵欄),會等到其他所有處理器完成它們的計算步驟基于現(xiàn)有的分布式計算平臺進(jìn)行圖計算下列說法正確的是?ABCD在Pregel執(zhí)行計算過程時,在每個超步中都會并行調(diào)用每個頂點上定義的Compute()函數(shù)頂點之間的通訊是借助于消息傳遞機制來實現(xiàn)的在默認(rèn)情況下,Pregel計算框架并不會開啟Combiner功能通常只對那些滿足交換律和結(jié)合律的操作才可以去開啟Combiner功能在Pregel計算框架中,圖的保存格式多種多樣,具體包括哪些?ABC文本文件關(guān)系數(shù)據(jù)庫鍵值數(shù)據(jù)庫語音文件下列對于Pregel的執(zhí)行過程,哪些是正確的?ABCD選擇集群中的多臺機器執(zhí)行圖計算任務(wù),每臺機器上運行用戶程序的一個副本Master把一個圖分成多個分區(qū),并把分區(qū)分配到多個WorkerMaster會把用戶輸入劃分成多個部分,通常是基于文件邊界進(jìn)行劃分Master向每個Worker發(fā)送指令,Worker收到指令后,開始運行一個超步在一個Worker中,它所管轄的分區(qū)的狀態(tài)信息是保存在內(nèi)存中的,分區(qū)中的頂點的狀態(tài)信息包括?ABCD頂點的當(dāng)前值以該頂點為起點的出射邊列表,每條出射邊包含了目標(biāo)頂點ID和邊的值消息隊列,包含了所有接收到的、發(fā)送給該頂點的消息標(biāo)志位,用來標(biāo)記頂點是否處于活躍狀態(tài)在每個超步中,Worker會對自己所管轄的分區(qū)中的每個頂點進(jìn)行遍歷,并調(diào)用頂點上的Compute()函數(shù),在調(diào)用時,會把以下哪些參數(shù)傳遞進(jìn)去?ABC該頂點的當(dāng)前值一個接收到的消息的迭代器一個出射邊的迭代器標(biāo)志位,用來標(biāo)記頂點是否處于活躍狀態(tài)下列說法正確的有?ABCD在Pregel中,為了獲得更好的性能,“標(biāo)志位”和輸入消息隊列是分開保存的在超步S中,當(dāng)一個Worker在進(jìn)行頂點處理時,用于當(dāng)前超步的消息會被處理需要兩個消息隊列用于存放作用于當(dāng)前超步S的消息和作用于下一個超步S+1的消息每個Worker上都保存了一個或多個分區(qū)的狀態(tài)信息,當(dāng)一個Worker發(fā)生故障時,它所負(fù)責(zé)維護(hù)的分區(qū)的當(dāng)前狀態(tài)信息就會丟失第十四章數(shù)據(jù)可視化一、單選題1、 下列關(guān)于數(shù)據(jù)可視化的描述,哪個是錯誤的?(D)A.數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示B.利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程C.數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元素表示D.將數(shù)據(jù)的各個屬性值以一維數(shù)據(jù)的形式表示2、 下列哪個不屬于可視化工具?(D)A.GoogleChartAPIB.D3C.Visual.lyD.Spark3、 下列說法錯誤的是?(B)A.大數(shù)據(jù)魔鏡是一款優(yōu)秀的國產(chǎn)數(shù)據(jù)分析軟件,可以讓用戶真正理解探索分析數(shù)據(jù)B.Tableau是桌面系統(tǒng)中最簡單的商業(yè)智能工具軟件,是一個用于網(wǎng)頁作圖、生成互動圖形的JavaScript函數(shù)庫C.GoogleFusionTables讓一般使用者也可以輕松制作出專業(yè)的統(tǒng)計地圖D.ModestMaps是一個小型、可擴(kuò)展、交互式的免費庫,提供了一套查看衛(wèi)星地圖的API4、下面關(guān)于Timetoast的描述,哪個是錯誤的?(D)A.Timetoast是在線創(chuàng)作基于時間軸事件記載服務(wù)的網(wǎng)站B.提供個性化的時間線服務(wù)C.Timetoast基于flash平臺,可以在類似flash時間軸上任意加入事件D.Timetoast是一個提供復(fù)雜統(tǒng)計圖表的工具5、 下列關(guān)于可視化工具中高級分析工具的說法,錯誤的是?(B)A.R是屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件B.Weka主要用于社交圖譜數(shù)據(jù)可視化分析,可以生成非常酷炫的可視化圖形C.Gephi主要用于社交圖譜數(shù)據(jù)可視化分析,可以生成非??犰诺目梢暬瘓D形D.R通常用于大數(shù)據(jù)集的統(tǒng)計與分析二、多選題1、 在大數(shù)據(jù)時代,可視化技術(shù)可以支持實現(xiàn)哪些目標(biāo)?(ABCD)A.觀測、跟蹤數(shù)據(jù)B.分析數(shù)據(jù)C.輔助理解數(shù)據(jù)D.增強數(shù)據(jù)吸引力2、 信息圖表是信息、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西安電機廠 課程設(shè)計
- 二零二五年度土地征收儲備項目融資及法律服務(wù)合同范本3篇
- 焊接制造課程設(shè)計
- 二零二五年度危險品搬運及應(yīng)急處理合同3篇
- 2024數(shù)字化招標(biāo)交易系統(tǒng)與供應(yīng)鏈金融合作合同3篇
- 新能源汽車行業(yè)合作開發(fā)協(xié)議
- 2025年度水庫水面水資源保護(hù)與利用合同3篇
- 2024房屋建筑裝修工程施工合同
- 西山貧煤鍋爐課程設(shè)計
- 2024水鉆安裝所需的材料供應(yīng)與檢驗合同
- 物質(zhì)與意識的辯證關(guān)系
- 小學(xué)英語考試教師總結(jié)反思8篇
- (高清版)DZT 0322-2018 釩礦地質(zhì)勘查規(guī)范
- SJ-T 11798-2022 鋰離子電池和電池組生產(chǎn)安全要求
- 多智能體仿真支撐技術(shù)、組織與AI算法研究
- 2023年中考語文二輪復(fù)習(xí):詞意表達(dá) 真題練習(xí)題匯編(含答案解析)
- 安全管理中人因素
- 銅礦的選礦工藝與設(shè)備選擇
- 餐廳年度總結(jié)計劃
- 83廣東省深圳市寶安區(qū)2023-2024學(xué)年六年級上學(xué)期期末數(shù)學(xué)試卷
- 陜西省渭南市2023-2024學(xué)年高一上學(xué)期1月期末數(shù)學(xué)試題
評論
0/150
提交評論