華為大數據H13-711 V3.5認證考試復習題庫(含答案)_第1頁
華為大數據H13-711 V3.5認證考試復習題庫(含答案)_第2頁
華為大數據H13-711 V3.5認證考試復習題庫(含答案)_第3頁
華為大數據H13-711 V3.5認證考試復習題庫(含答案)_第4頁
華為大數據H13-711 V3.5認證考試復習題庫(含答案)_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

PAGEPAGE1華為大數據H13-711V3.5認證考試復習題庫(含答案)一、單選題1.可以通過以下哪個命令創(chuàng)建節(jié)點數據?A、set/nodedataB、get/nodeC、reate/nodeD、1s/node答案:C2.在MRS服務中,關于Kafka的Topic,以下描述不正確的有?A、每個Topic只能被分成一個partition(區(qū))B、每個Partition在存儲層面對應一個1og文件,1og文件中記錄了所有的消息數據C、每條發(fā)布到Kafka的消息都有一個類別,這個類別被稱為Topic,也可以理解為一個存儲消息的隊列D、Topic的Partition數量可以在創(chuàng)建時配置答案:A3.表引擎在clickhouse中的作用十分關鍵,以下哪個選項不屬于表引擎能夠決定的因素?A、支持哪些查詢方式B、數據導入導出的格式C、能不能使用索引D、數據復制使用的參數答案:B4.Flume中數據壓縮特性主要是基于以下哪種目的?A、提高可靠性B、增強安全性C、降低磁盤IOD、降低網絡lO答案:C5.flink報據數據集類型的不同將核心數據處理接口分為兩大類,一類是支持批計算的接口,另外一類是支持流計算的接口,以下關于這兩類接口描述正確的算哪一項?A、僅支持批計算的接口是datastreamapi,僅支持流計算的接口是sqlapiB、支持批計算的接口是datasetapi,支持流計算的接口是datastreamapiC、支持批計算的接口是datastreamapi,支持流計算的接口是datasetapiD、僅支持批計算的接口是sqlapi,僅支持流計算的接口是datastreamapi答案:B6.以下關于clickHouse適用場景的描述,錯誤的是哪一項?A、網絡/APP流量分析B、商業(yè)智能(BI)C、非結構化數據D、用戶行為記錄分析答案:C7.以下關于Flink數據處理描述錯誤的是哪一項?A、pacheFlink它同時支持批處理和流處理,也能用來做一些基于事件的應用B、如果處理一個事件(或—條數據)的結果只跟事件本身的內容有關,稱為狀態(tài)處理C、流可以分為有界流和無界流,其中有界流可以在讀取所有數據后再進行計算D、ApacheFlink基本數據模型是數據流,流可以是無邊界的無限流答案:B8.以下關于flume中各個channel類型描述錯誤的是哪一項?A、memorychannel中消息存放在內存中,提供高吞吐,但可能丟失數據B、jdbcChannel內置的derby數據庫,對event進行了持久化,但不提供高可靠性。C、hannel支持事務機制,提供較弱的順序保證D、filechannel支持對數據持久化,但需要配置數據目錄和checkpoint目錄答案:B9.關于RDD,下列說法錯誤的是?A、RDD默認存儲在磁盤B、RDD是一個只讀的,可分區(qū)的分布式數據集C、RDD是Spark對基礎數據的抽象D、RDD具有血統(tǒng)機制(Lineage)答案:A10.hdfs是一個部署在集群上的分布式文件系統(tǒng),因此,很多數據需要通過網絡進行傳輸,以下關于hdfs的通訊協議描述錯誤的是?A、所有的hdfs通信協議都是構建在tcp/ip協議基礎之上B、名稱節(jié)點和數據節(jié)點之間則使用名稱節(jié)點協議進行交互C、名稱節(jié)點不會主動發(fā)起rpc,而是響應來自客戶端和數據節(jié)點的rpc請求D、客戶端與數據節(jié)點的交互是通過rpc來實現的答案:B11.以下關于ZooKeeper的Leader節(jié)點在收到數據變更請求后的讀寫流程說法正確的是A、先寫磁盤再寫內存B、先寫內存再寫磁盤C、僅寫入內存D、同時寫入磁盤和內存答案:A12.streaming主要通過zookeeper提供的以下哪項服務實現事件偵聽?A、ckB、分布式鎖機制C、heckpointD、watcher答案:D13.下面哪一個是elasticsearch的節(jié)點?A、clusterB、esmasterC、indexD、esnode答案:D14.YARN的基于標簽調度,是對下列選項中的哪個進行標簽化?A、ppMasterB、NodeManagerC、ontainerD、ResourceManager答案:B15.某證券公司每10秒分析最近5秒的股票指數,若使用SparkStreaming實現,窗口時間和滑動時間如何設置?A、窗口時間10秒滑動時間10秒B、窗口時間5秒滑動時間10秒C、窗口時間5秒滑動時間5秒D、窗口時間10秒滑動時間5秒答案:D16.硬件故障被認為是常態(tài),為了解決這個問題hdfs設計了副本機制,默認情況下,一份文件,hdfs會存()份?A、3B、4C、2D、5答案:A17.flume需要實時采集點擊流日志到kafka,用于后續(xù)的實時分析處理,選澤以下哪種source類型進行數據采集最為合適?A、syslogsourceB、httpsourceC、spoolingdirectorysourceD、kafkasource答案:C18.kafka-clustermirroring工具可以實現以下那些功能?A、kafka集群數據同步方案B、kafka單集群內數據備份C、kafka單集群內數據恢復D、以全部不對答案:A19.某網站舉行活動,要求計算該網站每分鐘的用戶訪問量,若要實現該需求,下列哪個選項最合適?A、MapReduceB、sparkC、StormD、Hive答案:B20.Elasticsearch的一個索引庫默認有幾個分片?A、4B、5C、6D、3答案:B21.hive組件能支持多接口,以下哪個接口是不支持的?A、restfulB、odbcC、beelineD、jdbc答案:A22.Producer需要Server接收到數據之后發(fā)出的確認接收的信號,當設置ACK信號的值為多少時表示至少要等待Leader已經成功將數據寫入本地Log,但不要求等待所有Follower都成功寫入?A、cks=0B、acks=2C、acks=1D、acks=a11答案:C23.hbase在讀取數據時率先讀取下列哪個選項數據?A、memstore數據B、hlog數據C、hfile數據D、storefile數據答案:A24.以下哪個不屬于hadoop中mapreduce維組件的特點?A、易于編程B、實時計算C、良好擴展性D、高容錯性答案:B25.可視化運維是clickhouse非常重要的待性,以下關于clickhouse可視化運維的描述,錯誤的是哪一項?A、提供日志級別可視化配置,實時動態(tài)生效B、華為增加審計日志,針對ddl,安全,業(yè)務操作等內容記錄審計C、可以選擇可視化日志下載,并可以選擇下載的節(jié)點以及下載的日志時間段,后臺下載日志。D、提供clickhouse安裝配置,啟停,客戶端,70+項監(jiān)控告警指標,健康檢查等可視化運維手段。答案:A26.下列選項對Compaction描述正確的是哪一項?A、有Minor和Major兩種類型B、Minor觸發(fā)頻率相對Major較高C、ompation通過消除過期數據文件減少HFile文件數D、Compation通過合并文件減少HFile文件數答案:A27.以下關于hasticsearch的特點,描述不正確的是哪一項?A、目前只支持結構化數據查詢B、自動檢測故障并保障集群的安全性和可用性C、能立即獲得搜索結果,實現了用于全文檢索的倒排索引D、支持水平擴展,可運行于成百上千臺服務器上答案:A28.FusionInsightHD集群規(guī)劃中,管理節(jié)點&控制節(jié)點&數據節(jié)點合一部署方案適合什么樣的場景?A、30節(jié)點以下B、100節(jié)點以上C、100-200節(jié)點D、200節(jié)點以上答案:A29.hbase的主hmaster是如何選舉的?A、hmaster為雙主模式,不需要進行裁決B、隨機選取C、由Regionserver進行裁決D、通過zookeeper進行裁決答案:D30.某HBase服務查詢性能降低,經檢査發(fā)現當前HBase中HFile文件數目過多,此時應當執(zhí)行下列哪個操作?A、ScanerB、CleanC、reateD、compaction答案:D31.以下關于Zookeeper的關鍵特性,描述錯誤的是哪—項?A、等待無關性:慢的或者失效的client不會干預快速的client的請求,使得每個client都能有效的等待B、無論哪個server,對外展示的均是同一個視圖C、原子性,更新只能成功或者失敗,沒有中間狀態(tài)D、一條消息被一個server接收即完成,其他server不需要再重復接收該信息答案:D32.以下哪個選項不是元數據管理的目的?A、數據平臺建設B、業(yè)務系統(tǒng)建設C、信息資源規(guī)劃D、數據價值挖掘答案:D33.Hadoop中,如果將yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent設置為50,下面說法錯誤的是?A、QueueA中必須保障每個用戶至少得到50%的資源B、如果QueueA中已經有2個用戶的任務運行,這時第3個用戶提交的任務需要等待釋放資源C、一個用戶提交任務,可以使用QueueA的100%的資源。D、QueueA中的每個用戶最多只能獲得50%的資源答案:D34.Hive運行流程包括下面幾步,請選擇正確的順序1:Hive根據表類型更新HDFS或Hive倉庫中的數據2:Client提交HQL命令3:YARN為群集中的應用程序分配資源,并為YARN隊列中的Hive作業(yè)啟用授權4:Tez執(zhí)行查詢5:Hive通過JDBC連接返回查詢結果A、21345B、24315C、24135D、21435答案:B35.MergeTree是用于高負載任務的最通用和功能最強大的表引擎,以下關于MergeTree的關鍵特征的描述,錯誤的是哪項?A、支持二級索引B、支持主鍵排序C、支持數據遷移D、支持并發(fā)數據訪問答案:C36.下列哪個不是是hbase讀取數據流程中涉及的角色或服務?A、zookeeperB、hasterC、hregionserverD、hdfs答案:B37.elasticsearch的索引可以存儲在多種存儲類型,而以下哪種存儲類型不支持?A、本地文件系統(tǒng)B、hdfsC、共享文件系統(tǒng)D、對象存儲答案:D38.zookeeper在分布式應用中的主要作用不包括以下哪個選項?A、保證各節(jié)點上數據的一致性B、選舉master節(jié)點C、存儲集群中服務器信息D、分配集群資源答案:D39.以下描述哪一項不是傳統(tǒng)數據處理的瓶頸?A、流數據的實時寫入B、數據批量處理性能不足C、海量數據的高存儲成本D、缺乏流式數據處理能力答案:A40.在ZooKeeper和VARN的協同工作中,當ActiveResourceManager產生故障時時,StandbyResourceManager會從以下哪個目錄中獲取Application相關信息?A、WarehouseB、storageC、StatestoreD、Metastore答案:C41.HBase元數據MetaRegion路由信息保存在哪里?A、ZooKeeperB、HMasterC、Meta表D、Root表答案:A42.MapReduce程序由Map和Reduce兩部分組成,現由MapReduce程序,其有5個reduce任務,該程序最終輸出多少個結果文件?A、2B、4C、5D、3答案:C43.HDFS從2.7.3版本開始,BlockSize默認是多大?A、64MBB、128MBC、16MBD、32MB答案:B44.當某RegionServer故障后,Haster若要恢復數據必須依賴下列哪個選項?A、RegionB、HDFsC、HLogD、RowKey答案:C45.Elasticsearch中的節(jié)點比如共20個,應該設置的最少投票數量是多少來避免鬧裂問題?A、10B、11C、9D、12答案:B46.以下關于Kafka特點描述不正確的是哪—項?A、支持在線水平擴展B、支持多級級聯C、高吞吐率D、支持消息分區(qū)答案:B47.spark自帶的資源管理框架是?A、dockerB、yarnC、mesosD、standaline答案:D48.以下關于Kafka消息傳遞方式描述不正確的是哪一項?A、在點對點消息系統(tǒng)中,可能會有多個消費者同時消費數據,因此不能保證數據處理的順序B、在點對點消息系統(tǒng)中,當一個消費者消費了隊列中的某條數據之后,該條數據則從消息隊列中刪除C、分布式消息傳遞有兩種主要的消息傳遞模式,點對點傳遞模式、發(fā)布-訂閱模式D、在發(fā)布-訂閱消息系統(tǒng)中,同一條數據可以被多個消費者消費,數據被消費后不會立馬刪除答案:A49.yarn服務中,如果要給隊列queuea設置容量為30%,應該配置哪個參數?A、yarn.scheduler.capacity.root.queuea.capacityB、yarn.scheduler.capacity.root.queuea.minimum-user-limit-percentC、yarn.scheduler.capacity.root.queuea.user-limit-factorD、yarn.scheduler.capacity.root.queuea.state答案:A50.以下關于MRS使用限制的描述,錯誤的是哪—項?A、集群創(chuàng)建完成后,請勿隨意刪除或更改已使用的安全組。B、MRS集群使用的安全組請勿隨意放開權限,避免被惡意訪問C、創(chuàng)建MRS集群時,不支持自動創(chuàng)建安全組,需要手動創(chuàng)建索全組D、IRS集群必須創(chuàng)建在VPC子網內。答案:C51.在Hive數據存儲模型中,分區(qū)和桶的關系描述錯誤的是哪—項?A、分區(qū)下可再有分區(qū)或者桶B、每個桶是一個目錄C、建表時指定桶個數,桶內可排序。D、分區(qū)數量不固定答案:B52.hdfs中namenode的主備仲裁,是由哪個組件控制的?A、hdfsclientB、resourcemanagerC、nodemanagerD、zookeeperfailovercontroller答案:D53.銀行為了數據傳輸的可靠性,使用Flume采集數據,主要是利用Flume的哪個特性?A、支持采集日志文件B、事務機制C、支持級聯D、支持在定制各類數據發(fā)送方答案:B54.在數據流處理過程中,經常使用系統(tǒng)時間(processingtime)作為某個事件的時間,關于procesingtime描述錯誤的是哪—項?A、ProcessingTime結果是不可復現的,一旦流式計算版本升級甚至系統(tǒng)崩潰,計算將會停止B、實際應用過程中,processingtime要落后與eventtimeC、processingtime和eventtime之間存在差異的主要原因是由于網絡延遲、處理時間的長短等造成的D、ProcessingTime適用于處理問題復雜、對結果可溯要求較高的場景答案:D55.查看kafka某topic的partion詳細信息時,使用如下哪個命令?A、bin/kafka-topics.sh-listB、in/kafka-topics.sh--describeC、bin/kafka-topics.sh--deleteD、bin/kafka-topics.sh-create答案:B56.默認情況下F1ink不開啟檢查點,用戶需要在程序中通過調用以下那種方法配置和開啟檢查點?A、env.getCheckpointConfig(.setCheckpointingTimeout(60000)B、env.enableCheckpointing(1000)C、env.getCheckpointConfig().setMaxConcurrentCheckpoints(500)D、env.startSetCheckpointing(1000)答案:B57.某公司使用HBase存儲業(yè)務數據,由于數據規(guī)模較大,所以數據存儲在HBase后會導致頻繁的Region分裂,為了避免這種情況,下列哪個方法比較適用?A、增加Region大小B、增大MemStore大小C、對該表預分區(qū)D、提升RegionServer性能答案:C58.ZooKeeper客戶端獲取節(jié)點數據的命令,以下哪個是正確的?A、set/nodedataB、get/nodeC、show/nodeD、Is/node答案:B59.ElasticSearch有哪些查詢類型?A、基于分值數檢索B、基于元數據檢索C、基于詞條檢索D、基于全文檢索答案:D60.某電信公司計劃開展大數據業(yè)務,目標業(yè)務有客戶分群、用戶歷史賬單分析、實時話費分析等業(yè)務。若要滿足業(yè)務需求,從功能和成本考慮,下列哪個選項最合適?A、部署StormB、單獨部署SparkC、部署WapReduceD、部署MapReduce與Storm答案:B61.以下不屬于單點登錄特點的是?A、訪問其他組件需要重新登錄B、提高運維和管理效率C、為用戶提供便捷服務D、為用戶提供便捷服務答案:A62.以下選項中,哪一項用于查看clickhouse組件命令幫助?A、clickhousehB、clickhouse-catC、lickhouse-helpD、clickhouse-m答案:C63.hadoop中,如果將yarn.schedulercapacity.root.queueuea.minimum-user-limit-percenti沒置為50,下面說法錯誤的是?A、一個用戶提交任務,可以使用queuea的100%的資源。B、如果queuea中已經有2個用戶的任務運行,這時第3個用戶提交的任務需要等待釋放資源。C、Queuea中必須保障每個用戶至少得到50%的資源D、Queuea中的每個用戶最多只能獲得50%的資源。答案:D64.flume采集日志數據,若不考慮數據安全性。要達到最高采集速度,應該用什么類型的channel?A、filechannelB、jdbcchannelC、memorychannelD、hdfschannel答案:C65.某大數據公司在處理統(tǒng)計實時用戶消費數據時,以下能夠實現對一分鐘內的窗口數據進行分組聚合功能的是哪—項?A、overridedefmap(valve:String):WaterSensor={Valdatas:Array[SFing]=value.split(",")WaterSensor(getRuntimeContext.getTaskName,datas(1).tolong,datas(2).toInt)}B、overridedefextractAscendingTimest(element:User):Long=element,timest),KeyBy(.userld)Window(umblingEventTimeWindows.of(Time.seconds(60)))C、DataStream<Tuple2<String,Integer>>windowStreamwindowCount,keyBy(0).timeWindow(Time.minutes(1),Time.seconds(30)).Sum(1):D、ataStream<Tuple2<String,Long>>result=Stream.keyBy(value->value.f0).process(newCountWithTimeoutFunction(1))答案:B66.hbase要實現數十億行數百萬列的存儲規(guī)模,需要以下哪個選項支持?A、redisB、elasticsearchC、kafkaD、hdfs答案:D67.以下關千KrbServer及LdapServer開源增強特性的描述,錯誤的是哪一項?A、集群內服務認證B、應用開發(fā)認證C、跨系統(tǒng)互信特性D、賬號身份認證答案:D68.以下關于HBase二級索引的描述哪一項是正確的?A、二級索引把要查找的列與rowkey關聯成一個索引B、此時列成新的rowkey,原rowkey成為valueC、二級索引查詢了2次D、以上全都正確答案:D69.以下關于MRS服務的安全認證的描述,正確的是哪一項?A、不提供單點登錄,統(tǒng)一了mrs系統(tǒng)用戶和組件用戶的管理及認證。B、對登錄manager的用戶進行審計。C、支持安全協議kerberos,mrs使用kerberos作為賬戶管理系統(tǒng),并通過ldap對賬戶信息進行安全認證。D、替于用戶和角色的認證統(tǒng)一體系,遵從賬戶/角色rbac(role-basedaccesscontrol)模型,實現通過賬戶進行權限管理,對角色進行批量授權管理。答案:C70.以下關于clickhouse設計優(yōu)點的描述,錯誤的是哪一項?A、多核并行計算B、向量化計算引擎C、數據壓縮比低D、支持嵌套數據結構答案:D71.capacity調度器為每個隊列分配資源,下列哪個選項是隊列內的資源調度策略?A、fairB、mesosC、fifoD、capacity答案:C72.yarn調度器分配資源的順序,下面哪一個描述是正確的?A、本地資源->同機架->任意機器B、同機架->任意機器->本地資源C、任意機器->同機架->本地資源D、任意機器->本地資源->同機架答案:A73.HBase表設計中,列族和RowKey是表設計的重要內容。下列哪個選項不適合做RowKey?A、用戶IDB、用戶名C、身份證號D、手機號答案:B74.關于hbase的ase的regionsplit分裂流程的描述不正確的是?A、split為了減少region中數據大小,從而將一個region分裂成兩個region.B、split過程中論表會暫停服務C、split過程中并沒有真正的將文件分裂,僅僅是創(chuàng)建了引用文件D、split過程中被分裂的region會暫停服務答案:B75.以下描述中,哪個不是Hive的優(yōu)點?A、類似SQL語法,內置大量函數B、依賴于高性能的商業(yè)服務器C、支持自定義存儲格式和自定義函數D、HiveServer支持集群模式答案:B76.HBase中Region的物理存儲單元是什么?A、ColumnB、ColumnFamilyC、RowD、Region答案:B77.Flink程序由Source、Transformatin和Sink三部分組成,以下關于這三部分描述錯誤的是哪一項?A、Sink負責最終數據的輸出,支持HDFS、Kafka和文本輸出等B、在各部分之間流轉的數據會被封裝成一個個EventC、Source主要負責數據的讀取,支持HDFS、Kafka、HBase和文本等D、Transformatin主要負責對數據的轉換操作答案:B78.某公司使用spark做大數據分析,某次分析任務中某rdd會被重復利用,導致重復計算多次,若要避免重復計算且能夠重復利用談rdd,以下哪個選項更合適?A、增大任務資源,快速結束該任務B、spark計算很快,無需優(yōu)化C、寫出該rdd,需要時再重新讀取D、rdd執(zhí)行persist操作答案:D79.以下關于zookeeper關鍵特性中的原子性說法正確的是?A、一條消息被一個server接收,將被所有server接收B、更新只能全部完成或失敗,不會部分完成C、集群中無論哪臺服務器,對外展示的均是同一視圖D、客戶端發(fā)送的更新會按照它們被發(fā)送的順序進行應用答案:B80.HBase的某張表的RowKey劃分SplitKey為9,E,a,z,請問該表有幾個Region?A、5B、4C、3D、6答案:A81.Flume包含Source、Channe1和Sink三大組件,以下關于這三大組件說法錯誤的是哪一項?A、當Sink成功地將events發(fā)送到下一跳的Channel或最終目的時,events會從Channel移除B、Channel支持事務,提供較弱的順序保證,可以連接多個的Source和SinkC、Sink必須作用于一個確切的ChannelD、Source負責接收events或通過特殊機制產生events,并將events批量放到多個Channel中答案:C82.對干延遲事件出現時窗口已經關閉并產出了計算結果,以下處理方法不合理的是哪一項?A、將延遲事件視為錯誤消息并丟棄B、延遲事件—定不能忽略計算C、重新激活已經關閉的窗并重新計算以修正結果D、將延遲事件收集起來另外處理答案:B83.某公司開展大數據業(yè)務,其不但要使用MapReduce做離線分析還要使用Spark做實時分析。若使用Yarn做統(tǒng)—的資源管理,調度器如何選擇?A、使用Capacity調度器B、使用FIFO調度器C、使用Fair調度器D、使用Mesos調度器答案:A84.以下關于kafkapartion偏移量的描述不正確的是?A、offset是一個string型字符串B、消費者通過(offset,partition,topic)跟蹤記錄C、每條消息在文件中的位置稱為offset(偏移量)D、唯一標記一條消息答案:A85.kafka集群在運行期間,直接依賴于下面哪個組件?A、hdfsB、flumeC、zookeeperD、hbase答案:C86.hadoop平臺中,要查看yarn服務中一個application的信息,通常需要使用什么命令?A、pplicationB、containerC、application-attemptD、jar答案:A87.關于HDFS數據完整性保障,以下哪個機制是錯誤的?A、快照機制實現了文件系統(tǒng)常見的快照機制,保證數據誤操作時,能及時恢復B、采用日志機制操作元數據,同時元數據存放在主備NameNode上C、節(jié)點性能較高的DataNode會存放更多的數據D、ataNode向NameNode周期上報失敗任務,NameNode發(fā)起副本重建動作以恢復丟失副本答案:C88.HBase的Region是由哪個服務進程來管理的?A、ZooKeeperB、HRegionServerC、DataNodeD、HMaster答案:B89.以下關于clickHouse的數據庫管理的描述,錯誤的是哪一項?A、clickHouse不可以按照用戶粒度設置數據庫或者表的操作權限。B、clickHouse可以動態(tài)地創(chuàng)建、修改或刪除數據庫、表和視圖,而無須重啟服務clickHouseC、提供集群模式,能夠自動管理多個數據庫節(jié)點D、clickHouse提供了數據備份導出與導入恢復機制答案:A90.默認情況下MapReduce程序中reduce任務數由下列哪個選項決定?A、隨機生成B、用戶指定C、根據資源自行生成任務數D、該任務所計算的數據塊數量答案:B91.某公司使用用戶id做hbase的rowey,同時在列中還存在phone列,該列存儲了用戶的手機號碼。該公司要求能夠通過phone快速查詢到用戶id,下列哪個方法比較合適?A、get與valuefiler同時使用B、使用filterC、scan與valuefilter同時使用D、創(chuàng)建二級索引答案:D92.以下關于ClickHouse的數據分片和數據副本的描述,錯誤的是哪—項?A、分片之間的數據是完全相同的。B、ClickHouse依靠ReplicatedMergeTree引擎與ZooKeeper實現了復制表機制。C、數據副本的主要目的是防止數據丟失,增加數據存儲的冗余。D、數據分片的主要目的是實現數據的水平切分。答案:A93.Hive在處理一些復雜的統(tǒng)計或者排序等復雜任務的時候,會調用以下哪個組件?A、HadoopB、HBaseC、MapReduceD、HDFS答案:C94.MapReduce、Spark和Flink都可以同時支持以下哪種數據處理方式?A、Kv查詢B、批處理C、流處理D、實時檢索答案:B95.在KafkaHA中,當Partition對應的Leader宕機時,需要從Follower中選舉出新Leader,具體由以下哪個角色執(zhí)行?A、contrllerB、rokerC、LeaderD、Follower答案:A96.MRS支持與公有云安全服務集成,采取多種措施確保主機安全。以下選項中,哪一個選項不屬于主機安全的措施?A、操作系統(tǒng)內核安加固B、身份鑒別和認證C、更新操作系統(tǒng)最新補丁D、操作系統(tǒng)端口管理答案:C97.關于dataset,下列說法不正確的是?A、dataset不需要反序列化就可執(zhí)行大部分操作B、dataset執(zhí)行sort,filter,shuffle等操作需要進行反序列化C、dataset是一個由特定域的對象組成的強類型集合D、ataset與rdd高度類似,性能比rdd好答案:B98.hbase中數據存儲的文件格式是什么?A、hfileB、textfileC、hlogD、sequencefile答案:A99.在dataartsstudio平臺中,以下哪個選項不屬于數據權限模塊?A、數據表權限B、審批中心C、用戶管理和角色管理D、數據目錄權限答案:B100.以下關于kerboers的優(yōu)勢的描述錯誤的是哪個?A、kerboers支持雙向鑒別,kerboers的serverver端通過該回ciient發(fā)送的時間截,向client提供驗證自己身份的手段。B、由kdc代為發(fā)送authenticator和sessionticket.有效提高性能。C、用于認證的sessionkey是shorttermkey.只在一次會話中有效防止暴力破解。D、每個請求都以時間戳進行標記,有效防止重放攻擊。答案:B101.下圖展示了structuredstreaming的計算模型。通過觀察可以得出最終t3的計算結果是?A、cat2;dog4;owl2B、dog1;owl1C、at2;dog3;owl1D、cat1;cat1:dog2:dog2;owl2答案:A102.某大型企業(yè)需要做日志分析,運維監(jiān)控,搜索與推薦,數據庫加速,可為該企業(yè)推存哪些服務?A、云搜索服務cssB、數據可視化服務C、數據湖治理中心DGCD、mapreduce服務答案:A103.yarn中設置隊列queuea的最大使用資源量,需要配置哪個參數?A、yarn.scheduler.capacity.root.queuea.minimum-user-limit-percentB、yarn.scheduler.capacity.root.queuea.maximum-capacityC、yarn.scheduler.capacity.root.queuea.user-limit-factorD、yarn.scheduler.capacity.root.queuea.state答案:B104.rdd有transformation和action算子,下列屬于action算子的是?A、reducebykeyB、saveastextfileC、mapD、filter答案:B105.當zookeeper集群的節(jié)點數為5節(jié)點時,請問集群的容災能力和多少節(jié)點是等價的?A、3B、4C、6D、7答案:C106.HBase集群定時執(zhí)行Compaction的目的是什么?A、提升數據讀取性能。B、減少同一個Region的文件數目。C、減少同一個Region同一個ColumrFamily下的文件數目。D、提升數據寫入能力答案:C107.HBase命令中下列哪個選項性能最差?A、scanB、getC、listD、put答案:A108.在clickhuse中創(chuàng)建數據表時,指定以下哪一個表引擎會導致重新啟動服務器時表中的數據消失,表變?yōu)榭??A、mysqlB、kafkaC、tinylogD、memory答案:D109.默認情況下mapreduce程序中map任務數由下列哪個選項決定?A、根據資源自行生成任務數B、用戶指定C、隨機生成D、該任務所計算的數據塊數量答案:D110.以下哪一個因素助力了大數據時代的蓬勃發(fā)展?A、硬件成本的降低和網絡帶寬的提升B、云計算的興起C、智能終端的普及和社交需求的提升D、以上全都正確答案:D多選題1.Hive相較于傳統(tǒng)數據倉庫的優(yōu)點有哪些?A、數據存儲在HDFS,可靠性高,容錯性高B、依賴硬件較低,可適應普通的機器C、索引處理效率高效D、集成—整套成熟的的報表解決方案,可以較為方便的進行數據的分析答案:AB2.在MRS服務中,關于Kafka組件說法正確的是?A、Karka的Producer發(fā)送消息時,可以指定該消息被哪個Consumer消費B、Kaka會將元數據信息存放到ZooKeeper上。C、在創(chuàng)建Topic時,本數不得大于當前存活的Braker實例個數,否則創(chuàng)建Topic將會失敗。D、Kaka安裝完成后就不能再配置數據存放目錄答案:ABCD3.Flink提供了內置的狀態(tài)管理,可以把工作時狀態(tài)存儲在Fink內部,而不需要把它存儲在外部系統(tǒng)。這樣做的好處包含以下哪些選項?A、降低了計算引整對外部系統(tǒng)的依賴,便得部、運維更加簡單B、確保了數據在處理過程中的一致性C、對性能帶來了極大的提升D、實現了高香吐、高性能特性,但無法做到低延遲佩障答案:ABC4.以下選項中,屬于HDFS架構關鍵特性的是?A、健壯機制B、多方式訪問機制C、HA高可靠性D、元數據持久化機制答案:ABCD5.關于HDFS中NameNode的作用描述的正確的是?A、管理HDFS的名稱空間(Namespace)B、配置副本策略通常為3份C、處理客戶端讀寫請求D、執(zhí)行數據塊的讀/寫操作答案:ABC6.下列哪些選項是action算子?A、mapPartitionB、reduceC、reduceByKeyD、collect答案:BD7.以下哪些選項屬于數據治理的價值?A、解決數據安全問題B、提升業(yè)務處理效率C、代替管理決策D、降低業(yè)務運營成本答案:ABD8.某MapReduce程序運行時,AppMaster發(fā)生故障。下列哪些選項對該任務描述正確?A、任務仍可運行B、任務立即停止C、AppMaster不再啟動D、AppMaster再次啟動答案:AD9.Redis數據持久化技術有RDB和AOF,以下描述正確的是哪些選項?A、Rdb方式的持久化是通過快照完成的B、RDB和AOF可單獨使用,也可以配合使用C、RDB方式是默認開啟的,而AOF功能需要另外開啟D、AOF方式的持久化是通過日志文件的方式完成的答案:ABCD10.Flink中Watermark機制用來解決亂序問題,可通過以下哪些方式產生?A、繼承assignerWithPunctuatedWatermarksB、繼承assignerWithPeridicWatermarksC、繼承getCurrentWatermarkD、繼承assignerTimestWithWatermark答案:ABCD11.ElasticSearch擴容的場景包括哪些?A、集群數據量誠少B、ElasticSearch單實例的索引數據太大C、節(jié)點需要重新安裝操作系統(tǒng)D、物理資源消耗過大答案:BD12.下列選項對列族描述正確的是?A、列族也有版本號B、由若干列組成C、一個列族最多容納3個列D、是基本的訪問控制單元答案:BD13.Kafka分布式消息傳遞基于可靠的消息隊列,包含以下哪兩種主要的消息傳遞模式?A、分發(fā)傳遞模式B、輪詢傳遞模式C、點對點傳遞模式D、發(fā)布訂閱模式答案:CD14.關于HDFS命名空間管理,以下選項描述正確的是哪幾項?A、對文件系統(tǒng)命名空間或其屬性的任何更改由NameNode和DataNode共同記錄B、NameNode維護文件系統(tǒng)命名空間C、HDFS的命名空間包含目錄、文件和塊D、用戶可以像使用普通文件系統(tǒng)一樣,創(chuàng)建、刪除、轉移目錄和文件答案:BCD15.下面哪些場景不是Flink組件擅長的?A、批處理B、流處理C、數據存儲D、迭代計算答案:CD16.Flink中Watermark機制用來解決亂序問題,Watermark可通過以下哪些方式產生?A、繼承assignerWithPunctuatedWatermarksB、繼承assignerTimestWithWatermarkC、繼承assignerWithPeriodicWatermarksD、繼承getCurrentWatermark答案:ABC17.以下關于clickHouse增強特性的描述,正確的是哪些項?A、平滑的彈性擴容能力B、實現滾動升級/滾動重啟C、默認采用兩副本方式、自動生成集群分片拓撲D、提供了基于ELB的HA部署架構答案:ABCD18.通過配置以下哪些參數可清理Kafka中產生的日志?A、log.cleanup.policyB、log.retention.hoursC、pertiesD、log.retention.Bytes答案:ABD19.HDFS支持通過以下哪些訪問方式來訪問數據?A、HTTPB、JAVAAPIC、s3D、She11答案:ABD20.以下關于HBase中HMaster的功能描述哪些是正確的?A、Region負載均衡,Region分裂以及分裂后的Region分配B、負責建表/修改表/刪除表C、Regionserver失效后的Region遷移D、負責RegionServer的負載均衡答案:ABCD21.Spark框架包括哪些模塊?A、SparkSQLB、SparkM11ibC、SparkStreamingD、SparkGraphX答案:ABCD22.下列哪些選項對RDD描述正確?A、RDD是只讀的B、RDD進行數據恢復時所有分區(qū)同時進行C、RDD依賴血統(tǒng)機制恢復數據D、RDD是只讀的所以RDD不支持寫操作答案:AC23.以下關于Hudi支持的視圖的描述,正確的是哪些項?A、增量視圖B、寫優(yōu)化視圖C、讀優(yōu)化視圖D、實時視圖答案:ABD24.以下屬于Hive內置的字符串函數有哪些?A、bs()B、length0C、substr()D、trim()答案:BCD25.企業(yè)做大數據處理,對數據庫的技術和架構要求具備哪些能力?A、數據庫必須是分布式架構B、海量數據運維需要保證數據穩(wěn)定,支持高并發(fā)的同時減少服務器負載C、數據庫要求能處理PB級別的數據D、數據庫規(guī)劃需要考慮結構化數據、半結構化數據和非結構化數據的支持答案:BCD26.在DataArtsStudio平臺中,以下哪些選項屬于權限訪問控制的功能特性?A、集中式訪問控制B、詳細的授權、鑒權日志審計C、實現對MRS服務中的資源進行精細訪問控制D、豐富的權限策略配置、答案:ABCD27.在數據流處理過程中,每個事件的時間可以分為以下哪些種類?A、delaytime,即事件發(fā)生到處理的延遲時間B、processingtime,即事件被系統(tǒng)處理的時間C、lingestiontime.即事件到達流處理系統(tǒng)的時間D、eventtime,即事件發(fā)生時的時間答案:BCD28.Yarn支持下列哪些調度器?A、MesosB、FIFOC、apacityD、Fair答案:BCD29.Flink支持的時間操作類型包括以下哪些選項?A、處理時間B、結束時間C、采集時間D、事件時間答案:AD30.Gs_dump和gs_dumpall的異同點是A、二者都支持純文本格式數據的導出。B、ds_dump只支持純文本格式的數據導出,dsdumpall支持多種數據格式的數據導出。C、二者都支持公共全局對象的數據導出。D、s_dump針對的是單個數據庫,ds_dumpall針對的是所有數據庫。答案:ACD31.Elasticsearch的平衡算法可應用于哪些場景?A、導入數據B、導出數據C、擴容D、減容答案:ACD32.關于HBase組件的描述,正確的是?A、是一種NoSQL數據B、是分布式的C、是面向列的D、存儲數據是以K-v的形式答案:ACD33.以下關于華為云MRS海量數據離線分析場景描述正確的是哪幾項?A、利用Flink實現數據采集B、利用OBS實現低成本存儲C、利用Hive實現TB/PB級的數據分析D、通過可視化導入導出工具Lader,將數據導出到DWS,完成BI分析答案:BCD34.關于SparkSQL&Hive區(qū)別與聯系,下列說法正確的是?A、SparkSQL依賴Hive的元數據B、SparkSQL的執(zhí)行引擎為SparkCore,Hive默認執(zhí)行引擎為MapReduceSparkSQL不可以C、使用Hive的自定義函數D、SparkSQL兼容絕大部分Hive的語法和函數答案:ABD35.Hive的主要應用于以下哪些場景?A、實現數據的流式處理B、海量數據的離線分析C、實現數據抽取、數據加載、數據轉換D、大規(guī)模的數據挖掘答案:BCD36.HBase可用于下列哪些應用場景?A、時序數據存儲B、消息/訂單存儲C、好友推薦D、用戶畫像答案:ABD37.Hive可以創(chuàng)建托管表和外部表,關于這兩種表,以下描述正確的是哪些選項?A、使用外部表時,執(zhí)行DROP操作時,元數據和數據會被一起刪除B、使用托管表時,執(zhí)行DROP操作時,只刪除元數據C、使用托管表時,執(zhí)行DROP操作時,元數據和數據會被一起刪除D、使用外部表時,執(zhí)行DROP操作時,只刪除元數據答案:CD38.Flume采集海量日志數據時,經常會遇到性能瓶頸,可以通過以下哪些方式提升Flume性能?A、增加Source數量B、修改batchSize和capacityC、優(yōu)化FlumeGC參數D、增加Flume級聯節(jié)點答案:ABCD39.Flume由哪三部分組成?A、MasterB、SinkC、SourceD、Channel答案:BCD40.MergeTree用于高負載任務的最通用和功能最強大的表引擎,以下關于MergeTree的關鍵特征的描述,錯誤的是哪些項?A、基于分區(qū)鍵的數據分區(qū)分塊存儲B、不支持數據復制C、不支持數據抽樣D、數據索引排序答案:BC41.以下關于Loaderserver的主要功能描述正確的有哪些選項?A、執(zhí)行Loader作業(yè)B、管理連接器和元數據C、處理客戶端請求D、監(jiān)控Loader作業(yè)狀態(tài)答案:BC42.下圖描述了RDD之間的依賴關系,其中有哪些是寬依賴?A、map:C->DB、groupby:A->BC、join:B&F->GD、union:D&E->F答案:BC43.Kafka中日志的清理方式包含以下哪些項?A、removeB、updateC、ompactD、elete答案:CD44.某電商平臺每天產生大量的交易訂單數據,現在需要對這些數據中的交易金額做統(tǒng)計,可能會用到如下哪些組件?A、MapReduceB、MySQLC、KafkaD、Flume答案:ABCD45.以下哪些選項不是企業(yè)的主數據?A、業(yè)務活動產生的合同、計劃、單據等結果或規(guī)則數據B、經過加工、計算、匯總后的指標數據C、描述產品、客戶、人員、組織等業(yè)務實體的檔案數據D、生產線上由設備自動采集的感知、檢測數據答案:AB46.Flink流式處理的數據源類型包括?A、SocketstreamsB、JDBCC、FilesD、Collections答案:ACD47.spark有哪些特點?A、輕B、靈C、快D、巧答案:ABCD48.下圖展示了HDFS的標簽存儲策略,觀察下圖,HBase的數據會被存儲到哪些數據節(jié)點上?A、DataNodeBB、DataNodeEC、DataNodeCD、ataNodeA答案:AD49.以下關于建設私有云大數據平臺的痛點的描述,正確的是哪些項?A、安全性差,無災備能力B、提前建設,建設成本高C、維護難度大D、業(yè)務上線速度慢答案:ABCD50.以下哪些選項屬于clickHouse的表引擎?A、CollapsingMergeTreeB、GraphiteMergeTreeC、VersionedCollapsingMergeTreeD、AggregatingMergeTree答案:ABCD51.Flink的兼容性體現在以下哪些方面?A、能夠從本地獲取數據B、能夠與Hadoop原有的Mappers和Reducers混合使用C、能夠使用Hadoop的格式化輸入和輸出D、YARN能夠作為Flink集群的資源調度管理器答案:ABCD52.下列關于Hive基本操作命令的解釋正確的是哪些項?A、droptableifexistsT1://刪除表T1B、altertableT1renametT2://將表T1重命名為T2C、reatetableifnotexistsT1likeT2://拷貝T2表,包括表里的數據,并命名為T1D、removetableT1whereid=1://刪除表中符合條件“id=1”的數據。答案:AB53.關于HDFS的NameNode的功能,以下描述錯誤的是哪些項?A、維護了BlockID到DataNode本地文件的映射關系B、存儲文件內容C、保存文件塊和DataNode之間的映射關系D、用于存儲元數據答案:AB54.ZKFC進程部署在HDFS中的以下哪些節(jié)點上?A、ctiveNameNodeB、DataNodeC、StandbyNameNode答案:AC55.ZooKeeper的關鍵特性包括以下哪些選項?A、最終—致性B、可靠性C、等待無關性D、原子性答案:ABCD56.ZooKeeper是一個分布式、高可用性的協調服務。在大數據產品中主要提供的功能有哪些?A、幫助系統(tǒng)避免單點故障,建立可靠的應用程序B、實現元數據持久化C、提供分布式協作服務和維護配置信息D、為集群提供高并發(fā)能力答案:ACD57.下列哪些措施是為了保障數據的完整性?A、元數據可靠性保證B、安全模式C、集群數據均衡D、重建失效數據盤的副本數據答案:ABCD58.HBase中包含的一些典型的Filter有哪些?A、SingleColumValueFilterB、RowFilterC、KeyOnlyFilterD、FilterList答案:ABC59.以下哪些選項屬于數據地圖支持的功能?A、可以根據表名直接查看表詳情B、可以通過關鍵詞搜索數據資產C、通過血緣分析可以查看每個數據表的來源、去向D、通過血緣分析可以查看每個表及字段的加工邏輯、答案:ABCD60.Flink的時間窗口根據實現原理的不同可分為以下哪些窗口?A、會話窗口(SessionWindow)B、滾動窗口(TumblingWindow)C、滑動窗口(SlidingWindowD、計數窗口(CountWindow答案:ABC61.以下關于Flink容錯機制描述錯誤的有哪些?A、Savepoint機制保證了程序在進行升級或者修改并發(fā)度等情況后,還能從保存的狀態(tài)位繼續(xù)啟動恢復B、Checkpoint機制保證了程序在進行升級或者修改并發(fā)度等情況后,還能從保存的狀態(tài)位繼續(xù)啟動恢復C、Savepoint機制保證了實時程序運行時,即使突然遇到異常也能夠進行自我恢復D、checkpoint機制保證了實時程序運行時,即使突然遇到異常也能夠進行自我恢復答案:BC62.structuredstreaming在OutPut階段可以定義不同的數據寫入方式,包括下列喝些方式?A、GeneralModeB、UpdateModeC、AppendModeD、CompleteMode答案:BCD63.HDFS中,抽象的塊可以帶來哪些好處?A、支持大規(guī)模文件存儲B、滿足I0密集型應用的性能要求C、簡化系統(tǒng)設計D、適合數據備份答案:ACD64.ElasticSearch對有結構化、半結構化、非結構化類型的數據有哪些處理能力?A、寫入的數據可以實時的進行檢索B、進行清洗、分詞、建立倒排索引等—系列操作C、提供全文檢索的能力,條件可以包括詞或短語D、數據寫入時可選重刪和壓縮功能答案:ABC65.Spark發(fā)生Shuffle時會延長任務執(zhí)行時間,下列哪些選項能夠不能減少shuffle次數?A、更換shuffle機制B、增強集群性能快速執(zhí)行shuffleC、多用transformation算子少用action算子D、避免使用groupBy、reduceByKey等可產生寬依賴的算子答案:AB66.在MRS集群中,Spark主要與以下哪些組件進行交互?A、YARNB、HiveC、HdfsD、ZooKeeper答案:ABC67.以下關于Hive的描述,正確的有哪些選項?A、對數據的ETL過程自動化B、可直接訪問HDFS文件以及HBase。C、可以查詢和管理PB級別的分布式數據D、支持Tez,Spark等多種計算引擎答案:ABCD68.以下哪些選項屬于數據治理模塊域?A、數據集成B、數據服務C、數據開發(fā)D、主數據管理答案:ABCD69.下列哪些查詢場景使用列存儲更合適?A、條件查詢B、分組查詢C、點查詢D、聚合查詢答案:BD70.數據節(jié)點是HDFS的工作節(jié)點,以下描述哪些是其功能?A、根據客戶端或者是名稱節(jié)點的調度來進行數據的存儲和檢索B、向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表。C、負責數據的存儲和讀取D、記錄了所有針對文件的創(chuàng)建、刪除、重命名等操作答案:ABC71.下列選項中,哪些是Spark的重要角色?A、DriverB、NodeManagerC、ResourceManagerD、ataNode答案:ABC72.下列哪些選頂對HBase,讀寫數據的過程描述正確?A、客戶端讀取數據不需要HMaster參與B、客戶端可以維護已訪問過的Region位置信息加快查詢C、客戶端讀取數據需要HMaster參與D、客戶端不可以維護已訪問過的Region位置信息加快查詢答案:AB73.客戶端是用戶操作HDFS最常用的方式,以下關于HDFS客戶端的描述正確的有哪些?A、客戶端可以支持打開、讀取、寫入等常見的操作B、HDFS客戶端是一個庫,包含HDFS文件系統(tǒng)接,這些接隱藏了HDFS實現中的大部分復雜性C、HDFS客戶端提供了類似Shell的命令行方式來訪問HDFS中的數據D、客戶端是HDFS的一部分,是部署HDFS的必備組件答案:ABCD74.Kafka中Partition對應的Leader宕機時,需要從Follower中選舉出新Leader。當所有Replica都不工作時,對數據及時間要求不高的情況下,以下哪些方案可行?A、等待ISR中的任一個Replica活過來,并選它作為LeaderB、在配置中增加Replica副本數量C、選擇第一個活過來的Replica(不一定是ISR成員)作為LeaderD、重啟Kafka集群答案:AC75.MRS服務中,通過Loader數據轉換引擎,可實現數據的哪些操作?A、字符串剪切B、字段類型轉換C、字符串反序D、字段合并答案:ACD76.Spark與MapReduce進行比較,下列說法正確的是哪幾項?A、Spark任務的中間結果只能存儲在內存B、Spark任務中shuffle不是必須的過程C、Spark任務中shuffle是必須的過程D、Spark可以緩存中間結果在內存降低磁盤lO答案:BD77.調用ZooKeeper客戶端命令中包含哪些信息?A、用戶名B、端口號C、服務器名稱D、lp地址答案:BD78.若HDFS單名稱節(jié)點部署,可能存在哪些局限性?A、景影響基于HDFS的上層組件的功能實現B、整個分布式文件系統(tǒng)的吞吐量,受限于單個名稱節(jié)點的吞吐量C、一旦這個唯一的名稱節(jié)點發(fā)生故障,會導致整個集群不可用D、名稱節(jié)點能夠容納的對象(文件、塊)的個數會受到內存空間大小的限制答案:BCD79.MRS在基于ApacheHadoop開源軟件的基礎上,在主要業(yè)務部件的可靠性、性能調優(yōu)等方面進行了優(yōu)化和提升。以下關于MRS平臺的描述,正確的是哪些項?A、MRS支持將Manager、HBase上的數據自動備份到第三方服務器B、MRS支持自動處理網絡故障,自動恢復受影響的業(yè)務。C、在系統(tǒng)進行擴容、打補丁等重大操作前,需要通過手動備份集群管理系統(tǒng)的數據,以便在系統(tǒng)故障時,恢復集群管理系統(tǒng)功能,D、MRS對集群管理系統(tǒng)Manager上的數據提供自動備份功能,根據制定的備份策略可自動備份集群上的數據。答案:BCD80.ElasticSearch支持以下哪些訪問接?A、PUTB、POSTC、DELETED、GET答案:ABCD81.數據操縱語言DML是包括以下哪些字句?A、查找:SELECTB、刪除:DELETEC、插入:INSERTD、更新:UPDATE答案:BCD82.下列關于Flink中Transformation的說法正確的是?A、可以通過window設定時間窗口B、flatMap可以對文本進行切分C、keyBy是將源頭數據按照key進行分組,以保證同一個key的源數據分到同樣的組中D、filter操作是對每個元素執(zhí)行boolean函數答案:ABCD83.在Kafka中,以下消息傳輸語義中不會導致消息丟失的是哪些選項?A、最多一次(AtMostOnce)B、最少一次(AtLeaseOnce)C、超過一次(MoreThanOnce)D、僅有一次(ExactlyOnce)答案:BD84.以下關于傳統(tǒng)數據入湖面臨的挑戰(zhàn)的描述,正確的是哪些項?A、開發(fā)難B、成本高C、時效差D、資源利用率低答案:BCD85.FusionInsightHD產品在部署Kerberos和LDAP服務時,以下描述正確的是?A、部署Kerberos服務之前,必須先部署LDAP服務B、LDAP服務必須和Kerberos服務部署在同一個節(jié)點C、Kerberos服務和LDAP服務部署同一個節(jié)點利于數據訪問,有助于性能提升D、LDAP服務可以多個集群共享答案:AC86.以下關于Hive架構中的組件功能,描述正確的是哪些選項?A、Executor負責編譯HiveQL并將其轉化為一系列相互依賴的Map/Reduce任務B、Thriftserver提供thrift接,作為JDBC的服務端,并將Hive和其他應用程序集成起來CompilerC、按照任務的依賴關系分別執(zhí)行Map/Reduce任務D、Optimizer是優(yōu)化器,分為邏輯優(yōu)化器和物理優(yōu)化器,分別對HiveQL生成的執(zhí)行計劃和MapReduce任務進行優(yōu)化答案:ABCD87.某電商公司同時運行MapReduce離線分析任務和Spark實時分析任務,若使用Yarn的Capacity調度器,資源分配如何進行?A、離線分析任務和實時分析任務安排在不同隊列且優(yōu)先滿足實時分析任務的資源需求B、離線分析任務和實時分析任務安排在同一隊列C、離線分析任務和實時分析任務安排在同一隊列且優(yōu)先滿足實時分析任務的資源需求D、離線分析任務和實時分析任務安排在不同隊列答案:AD88.HBase中以下哪種場景會觸發(fā)Flush操作?A、HBase定期刷新Memstore,默認周期為1小時B、當WALs中文件數量達到閾值時C、Region中MemStore的總大小,達到了預設的FlushSize閾值D、MemStore占用內存的總量和RegionServer總內存比值超出了預設的閾值大小答案:BCD89.FusionlnsightManager的主要功能有以下哪些?A、數據集成B、系統(tǒng)管理C、安全管理D、服務治理答案:BCD90.執(zhí)行HBase讀數據業(yè)務,需要讀取哪幾部分數據?A、MemStoreB、HLOgC、HFileD、HMaster答案:AC91.下面哪些是Elasticsearch的特點?A、高可靠性B、高容錯性C、高性能D、高擴展性答案:ACD92.下列屬于Dws的典型應用場景的是A、數據集市B、CRM/ERPC、交易系統(tǒng)D、企業(yè)級數據倉庫答案:ABCD93.以下哪些屬于企業(yè)級大數據的應用場景?A、內部運營管理B、營銷分析C、客戶分析D、供應鏈管理答案:ABCD判斷題1.Zookeeper選舉時,當某一個實例獲得了半數以上的票數時,則變?yōu)閘eaderA、正確B、錯誤答案:A2.topology的處理邏輯都在bolt中,A、正確B、錯誤答案:A3.ClickHuse完全使用SQL作為查詢語言,提供了標準協議的SQL查詢接A、正確B、錯誤答案:A4.Flume是一種分布式,高可靠且高可用的服務,用于有效地收集、聚合和移動大量日志數據A、正確B、錯誤答案:A5.Flume-NG由一個個agent來組成,而每個agent由Source,Channel,sink三個模塊組成。其中Source負責接收數據.Channel負責數據的傳輸,sink則負責數據向下一端的發(fā)送。A、正確B、錯誤答案:A6.在MapReduce編程中,業(yè)務邏輯一般需要自行寫代碼實現mapper和reducer聲斯頤A、正確B、錯誤答案:A7.在點對點消息系統(tǒng)中,可由一個或多個消費者消費隊列中的數據,但是一條消息只能被消費一次A、正確B、錯誤答案:A8.HBase中penscanner的過程,會創(chuàng)建兩種不同的Scanner來讀取H-File和Memstore的數據。HFile對應的Scanner為StoreFileScanner;Memstore對應的Scanner為Memstorescanner.A、正確B、錯誤答案:A9.容量調度器在進行資源分配時,現有同級的2個列隊Q1和Q2,它們的容量均為30,其中Q1已使用8,Q2已使用14,則會優(yōu)先將資源分配給Q1。A、正確B、錯誤答案:B10.MapReduce過程中,默認情況下,一個分片就是一個塊,也是一個MapTaskA、正確B、錯誤答案:A11.Yarn作為MapReduce的資源管理器,其依賴HDFS.A、正確B、錯誤答案:B12.MRS服務100%兼容開源大數據生態(tài),結合周邊豐富的數據及應用遷移工具,能幫助客戶快速完成自建平臺的平滑遷移,整個遷移過程可做到“代碼修改,業(yè)務0中斷”。A、正確B、錯誤答案:A13.客戶端往任意Zookeeper節(jié)點寫數據Zookeeper需要將數據完全同步到其他節(jié)點,才可以返回給客戶端寫成功。A、正確B、錯誤答案:B14.Elasticsearch默認是先把索引存放到內存中,當內存滿了時再持久化到本地硬盤A、正確B、錯誤答案:A15.Kafka中,每個Consumer都屬于-個ConsumerGroup,每條消息只能被ConsumerGroup中的一個Consumer消費,但可以被多個ConsumerGroup消。A、正確B、錯誤答案:A16.Kafka中,Leader主要負責監(jiān)控Fo1lower的運行狀態(tài),Fo1lower主要負責數據的讀寫A、正確B、錯誤答案:B17.Flink用Datastrean來表示程序中的流式數據,用戶可以認為它們是含有重復數據的可修改的集合(collection),Datastream中元素的數量是無限的。A、正確B、錯誤答案:A18.Spark任務的每個stage劃分為幾個Job,劃分的標記是shuffle.A、正確B、錯誤答案:A19.ClickHouse是俄羅斯yandex公司開發(fā)的OLTP數據庫管理系統(tǒng)A、正確B、錯誤答案:B20.Kafka將Topic分成一個或者多個Partition,每個Partition在物理上對應個文件夾,該文件夾下存儲這個Partition的所有消息。A、正確B、錯誤答案:A21.HBase的BloomFilter是用來過濾數據的A、正確B、錯誤答案:B22.Flume在傳輸數據過程中,如果下一跳的Flume節(jié)點故障或者數據接受異常時,可以自動切換到另外一路上繼續(xù)傳輸。A、正確B、錯誤答案:A23.數據質量要求各業(yè)務部門對相應數據領域的數據質量全權負責,按業(yè)務需求設計數據質量標準,制定數據質量管控目標,并道循企業(yè)數據治理費求進行數據質量度量,制定符合各自業(yè)務情況的數據質量政策及數據質量相關的改進計劃,持續(xù)進行數據質量管控A、正確B、錯誤答案:A24.ResourceManager采用高可用方案,當ActiveResourceManager發(fā)現故障時,只能通過內置的Zookeeper來啟動Standby的ResourceManager.將其狀態(tài)切換為Active.A、正確B、錯誤答案:B25.ApplicationMaster采用輪詢的方式通過RPC協議向ResourceManager申請和領取資源A、正確B、錯誤答案:A26.大數據體量的不斷增加,對數據存儲理安全性要求越來越高,對數據的多副本與容災機制也提出更高的要求,A、正確B、錯誤答案:A27.在FusioninsightHD系統(tǒng),Loader作業(yè)運行過程中,如果產生臟數據,Loader作業(yè)執(zhí)行結果的狀態(tài)-定是失敗。A、正確B、錯誤答案:B28.Distributed表引擎本身不存儲任何數據,而是作為數據分片的透明代理,能夠自動路由數據到集群中的各個節(jié)點,分布式表需要和其他本地數據表一起協同工作。A、正確B、錯誤答案:A29.Spark的中間數據放在內存中,對于迭代運算、批處理計算的效率更高,延遲更高A、正確B、錯誤答案:B30.structuredstreaming接收結構化數據流生成無邊界表,隨著時間積累該表越來越大最終會導致數據過大無法計算。A、正確B、錯誤答案:B31.HBase組件中,數據讀寫服務需要連接Master執(zhí)行:A、正確B、錯誤答案:B32.MapReduce某一任務失敗時可通過重試機制重新計算該任務。A、正確B、錯誤答案:A33.在DataArtsStudio平臺中,支持自定義業(yè)務元模型,批量導入業(yè)務元數據,關聯業(yè)務和技術元數據、全鏈路的血緣管理和應用。A、正確B、錯誤答案:A34.在VARN的任務調度中,一旦ApplicationMaster申請到資源后,便與對應的ResourceManager通信,要求它啟動任務A、正確B、錯誤答案:A35.SparkStreaming容錯機制是指RDD中任意的Partition出錯,都可以根據其父RDD重新計算生成,如果父RDD丟失,則需要去磁盤中查找原始數據。A、正確B、錯誤答案:B36.Hive是建立在Hadoop上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數據的機制。A、正確B、錯誤答案:A37.MRS會保存用戶設置的登錄Master節(jié)點的初始密碼。為避免被惡意攻擊,建議設置復雜度高的密碼A、正確B、錯誤答案:A38.ElasticSearch的倒排索引所采用的排序方式,是通過Value找Key。在全文搜索中Value就是要搜索的關鍵詞,通過Vaue找到對應的文檔。A、正確B、錯誤答案:A39.華為云眼鵬云服務基于跟鵬處理器等多元基礎設施,涵蓋裸機,虛機,容器等形態(tài),具備多核高并發(fā)特點,非常適合AI、大數據、HPC、云手機/云游戲等場景。A、正確B、錯誤答案:A40.概念視圖里HBase表可以被看成是一個稀疏的行的集合A、正確B、錯誤答案:A41.HDFS中,塊(Block)的大小遠遠大于曾通文件系統(tǒng)的最小單元,可以最小化尋址開銷.A、正確B、錯誤答案:A42.HBase數據的存儲在物理上是分列族存儲的A、正確B、錯誤答案:A43.RDB支持索引,HBase不支持索引。A、正確B、錯誤答案:B44.為減少寫入磁盤的數據量,MapReduce支持對MOF(MapOutFile)進行壓縮后再寫入。A、正確B、錯誤答案:A45.Kafka的Producer和Customer數量必須相同A、正確B、錯誤答案:B46.MySQL引擎用于將遠程的MySQL服務器中的表映射到clickHouse中,并允許您對表進行INSERT和SELECT查詢,以方便您在clickHouse與MySqL之間進行數據交換。A、正確B、錯誤答案:A47.數據集市與數據湖最大的區(qū)別是,各個集市的數據無法互通,也可能存在重復,相比數據湖,數據集市更像一個個數據煙囪。A、正確B、錯誤答案:A48.數據質量監(jiān)控DQC(DataQualityControl)模塊是對數據庫里的數據質量進行質量管理的工具,可以從完整性、有效性、及時性、一致性、準確性、唯一性六個維度進行單列、跨列、跨行和跨表的分析。A、正確B、錯誤答案:A49.ZooKeeper支持對多個C1ickHouseserver進行負載均,提高應用接入的高可靠性A、正確B、錯誤答案:A50.大數據體量的不斷增加,對數據存儲的物理安全性要求越來越高,對數據的多副本與容災機制也提出更高的要求A、正

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論