版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第頁大數(shù)據(jù)題庫-大數(shù)據(jù)技術與工具復習測試附答案1.Spark可以處理的數(shù)據(jù)任務包括()。A、數(shù)據(jù)流處理B、交互式處理C、圖數(shù)據(jù)處理D、以上都是【正確答案】:D解析:
Spark可以很好地支持數(shù)據(jù)流計算、交互式處理、圖計算等多種計算模式。2.HBase依靠()存儲底層數(shù)據(jù)。A、HDFSB、HadoopC、MemoryD、MapReducc【正確答案】:A解析:
HBase位于結構化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持。3.通常落伍者是影響MapReduce總執(zhí)行時間的主要影響因素之一,為此MapReduce采用()機制來解決。A、分布式計算B、惰性計算C、推測性執(zhí)行的任務備份D、先進先出【正確答案】:C解析:
MapReduce采用推測性執(zhí)行的任務備份機制,當作業(yè)中大多數(shù)的任務都已經(jīng)完成時,系統(tǒng)在幾個空閑的節(jié)點上調(diào)度執(zhí)行剩余任務的備份,并在多個Worker上同時進行相同的剩余任務。4.在MapReduce計算架構中,()組件運行在DataNode上,具體管理本節(jié)點計算任務的執(zhí)行。A、ClientB、JobTrackerC、TaskTrackerD、Task【正確答案】:C解析:
TaskTracker組件運行在DataNode上,具體管理本節(jié)點計算任務的執(zhí)行。5.下列關于DataNode的描述錯誤的是()。A、DataNode負責處理文件系統(tǒng)客戶端的文件讀寫請求B、DataNode進行數(shù)據(jù)塊的創(chuàng)建、刪除和復制工作C、集群中的DataNode一般是一個節(jié)點一個D、文件的副本系數(shù)由DataNode儲存【正確答案】:D解析:
文件副本的數(shù)目稱為文件的副本系數(shù),這個信息是由NameNode保存的。6.HBase的一個典型應用是Webtable,它是一個以網(wǎng)頁()為主鍵的表。A、標題B、URLC、內(nèi)容D、類別【正確答案】:B解析:
Webtable中,以網(wǎng)頁URL為主鍵。7.MapReducc里面的query、sort和limit等都是針對()的操作。A、map()之前B、reduce()之前C、reduce()之后D、finalize()之后【正確答案】:A解析:
query是一個篩選條件,只有滿足條件的文檔才會調(diào)用map函數(shù);sort是在發(fā)往map()函數(shù)之前給文檔排序;limit是發(fā)往map()函數(shù)的文檔數(shù)量的上限,所以它們都是在map()之前。8.為了降低MapRcduce兩個階段之間的數(shù)據(jù)傳遞量,一般采用()函數(shù)對map階段的輸出進行處理。A、sort()B、combiner()C、join()D、gather()【正確答案】:B解析:
為了降低數(shù)據(jù)傳遞量,采用combiner()函數(shù)對map()函數(shù)的數(shù)據(jù)結果進行合并處理。9.當()時,可以不考慮RDD序列化處理。A、完成成本比較高的操作后B、執(zhí)行容易失敗的操作之前C、RDD被重復使用D、實時性要求高【正確答案】:D解析:
RDD的序列化處理主要在完成成本比較高的操作之后、執(zhí)行容易失敗的操作之前、當RDD被重復使用或者計算其代價很高時進行。10.()不是HDFS的設計目標。A、流式數(shù)據(jù)訪問B、大規(guī)模數(shù)據(jù)集C、移動計算D、多次寫入,多次讀取的文件訪問模型【正確答案】:D解析:
HDFS的設計以一次寫入,多次讀取為主要應用場景,因此D錯。11.()與HDFS類似,均為分布式文件系統(tǒng)。A、NTFSB、FAT32C、GFSD、EXT3【正確答案】:C解析:
GFS也是分布式文件系統(tǒng)。12.在Hadoop中,()是默認的InputFormat類型,它將每行內(nèi)容作為新值,而將字節(jié)偏移量作為key。A、FilelnputFormatB、TextlnputFormatC、KeyValueTextInputFormatD、CombineTextInputFormat【正確答案】:B解析:
TextInputFormat是默認的InputFormat。每條記錄是一行輸入,鍵Key是LongWritable類型,存儲該行在整個文件中的字節(jié)偏移量。13.Spark中Stagc下Task的數(shù)量由()決定。A、PartitionB、JobC、StageD、TaskScheduler【正確答案】:A解析:
Task是Stagc下的一個任務執(zhí)行單元,一般來說,一個RDD中柯多少個Partition就有多少個Task。14.在MapReduce中,reduce()函數(shù)可以將()值相同的輸入進行合并處理A、inputB、keyC、valueD、number【正確答案】:B解析:
rcduce()函數(shù)根據(jù)key值合并value值。15.HDFS是Hadoop平臺上的分布式文件系統(tǒng),它是由()組成的。A、一個NameNode、一個SecondaryNamcNode和多個DataNodeB、一個DataNode、--個SecondaryNameNode和多個NameNodeC、多個NameNode、一個SecondaryNameNode和多個DataNodeD、一個NameNode、一個SecondaryNameNode和一個DataNode【正確答案】:A解析:
HDFS由一個NameNodc、一個SecondaryNamcNode和多個DataNode組成。16.()不是RDD的緩存方法。A、persistB、cacheC、memoryD、以上答案都正確【正確答案】:C解析:
RDD的緩存方法包括persist和cache.其中cache方法默認存儲到內(nèi)存中。17.()是窄依賴操作。A、joinB、filterC、groupD、sort【正確答案】:B解析:
spark中常見的窄依賴操作包括map、filer、union、sample等,寬依賴的操作包括reduceByKey、groupByKey、join等。18.Spark中Job的劃分依據(jù)是()。A、依賴B、Action算子C、Transformation算子【正確答案】:B解析:
Action的觸發(fā)會生成一個Job,Job會提交給DAGScheduler分解成Stage。因Job是由Action算子劃分的,B正確。19.RDD默認的存儲級別是()。A、MEMORY_ONLYB、MEMORY_ONLY_SERC、MEMORY_ANDISKE、MEMORY_AND_DISK_SER【正確答案】:A解析:
RDD存儲級別定義。20.在MapReduce中,下列組件中用戶不指定也不會有默認的是()。A、CombinerB、OutputFormatC、PartitionerD、InputFormat【正確答案】:A解析:
在MapReduce編程模型中,Combiner是可有可無的組件,它的作用是給MapTask的結果數(shù)據(jù)做局部合并以減少ReduceTask接收的數(shù)據(jù)量,以減少網(wǎng)絡數(shù)據(jù)傳輸;OutputFormat的默認組件是TextOutputFormat;InputFormat的默認組件是TextInputFormat;Partitioner的默認實現(xiàn)是HashPartitioner。21.Spark核心層主要關注的問題是().A、存儲B、計算C、傳輸D、連接【正確答案】:B解析:
Spark核心層定義,Spark核心層主要關注計算問題。22.下列關于HDFS特征的說法錯誤的是()。A、支持超大文件B、基于商用硬件C、流式數(shù)據(jù)訪問D、低吞吐量【正確答案】:D解析:
HDFS設計中重視數(shù)據(jù)的高吞吐量,因此其數(shù)據(jù)吞吐量高,但也造成了其數(shù)據(jù)延遲訪問的特征。23.MapReduce中,Shuffle操作的作用是()。A、合并B、排序C、降維D、分區(qū)【正確答案】:B解析:
Shuffc-確保每個reducc()函數(shù)的輸入都按鍵排序。24.()負責MapReduce任務調(diào)度。A、NameNodeB、JobtrackerC、TaskTrackerD、SecondaryNameNode【正確答案】:B解析:
Jobtracker負責MapRcduce任務調(diào)度,TaskTracker負責任務執(zhí)行。25.HBase是一種可伸縮、高可靠、高性能、分布式和面向()的動態(tài)模式數(shù)據(jù)庫。A、列B、行C、行和列D、元組【正確答案】:A解析:
HBase支持的是列式存儲。26.下列業(yè)務場景中,不能直接使用Reducer充當Combiner的是()。A、sum求和B、max求最大值C、count求計數(shù)D、avg求平均【正確答案】:D解析:
求平均需要對全部數(shù)據(jù)進行計算而非部分數(shù)據(jù),在不更改業(yè)務邏輯的情況,使用Reducer充當Combiner,最終會造成業(yè)務結果不正確。27.HBase依靠()提供強大的計算能力。A、ZooKeeperB、ChubbyC、RPCD、MapReduce【正確答案】:D解析:
Chubby是分布式協(xié)調(diào)系統(tǒng),類似于ZooKecper。RPC(RemoteProcedureCall)是遠程過程調(diào)用,它是一種通過網(wǎng)絡從遠程計算機程序上請求服務,而不需要了解底層網(wǎng)絡技術的協(xié)議。HBase依靠MapReduce提供強大的計算能力。28.下列不屬于Transformation操作的是()。A、mapB、filterC、sampleD、count【正確答案】:D解析:
Transformation常用函數(shù)為map、filter、flatMap、sample、union、join等。29.在Hadoop生態(tài)系統(tǒng)中,()主要解決的是日志類數(shù)據(jù)的收集和處理問題。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】:B解析:
Flume主要用于日志采集。30.依托(),結合應用推進數(shù)據(jù)歸集,形成統(tǒng)一的數(shù)據(jù)資源中心。A、全業(yè)務數(shù)據(jù)中心和數(shù)據(jù)平臺B、營銷基礎數(shù)據(jù)平臺和大數(shù)據(jù)平臺C、全業(yè)務中心和營銷基礎數(shù)據(jù)平臺D、全業(yè)務數(shù)據(jù)中心和大數(shù)據(jù)平臺【正確答案】:A解析:
詳見《國網(wǎng)互聯(lián)網(wǎng)部關于加強數(shù)據(jù)管理的通知》(互聯(lián)數(shù)據(jù)[2019]14號)。31.客戶端從HDFS上讀取數(shù)據(jù)時會()。A、從NameNode上獲取數(shù)據(jù)B、從DataNode上獲取Block位置C、從NameNode上獲取Block位置D、從NameNode上獲取數(shù)據(jù)和Block位置【正確答案】:C解析:
NameNode保存數(shù)據(jù)Block的位置,DataNode保存數(shù)據(jù)。32.下列操作中MapReduce的Shuffle階段最后做的是()。A、溢寫B(tài)、分區(qū)C、排序D、合并【正確答案】:D解析:
MapReduce編程模型分為Mapper和Reducer階段,在Mapper和Reducer的中間還有一個Shuffle階段。Shuflle中的執(zhí)行順序是先分區(qū),然后在溢寫之前進行排序,最后治出的多個磁盤文件會進行合并成一個大文件。33.大數(shù)據(jù)平臺構建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉庫、非關系型數(shù)據(jù)庫、關系型數(shù)據(jù)庫,實現(xiàn)各類數(shù)據(jù)的集中存儲與統(tǒng)一管理,滿足()存儲需求。A、歷史數(shù)據(jù)B、離線數(shù)據(jù)C、實時數(shù)據(jù)D、多樣化數(shù)據(jù)【正確答案】:D解析:
大數(shù)據(jù)平臺構建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉庫、非關系型數(shù)據(jù)庫、關系型數(shù)據(jù)庫、實現(xiàn)各類數(shù)據(jù)的集中存儲與統(tǒng)一管理,滿足多樣化數(shù)據(jù)存儲需求。34.()肯定是寬依賴操作。A、mapB、flatMapC、reduceByKeyD、sample【正確答案】:C解析:
Spark中常見的窄依賴操作包括map、filer、union、sample等,寬依賴操作包括reduceByKey、groupByKey、join等。35.Spark的()組件用于支持實時計算需求。A、SparkSQLB、SparkStreamingC、SparkGraphXD、SparkMLLib【正確答案】:B解析:
SparkStreaming組件用于實時處理。36.為了提高系統(tǒng)性能,Spark采取惰性計算模式。下列關于惰性計算模式的描述正確的是()。A、執(zhí)行Transformation操作時不會提交,只有執(zhí)行Action操作時才會被提交到集群中開始被執(zhí)行B、執(zhí)行Action操作時不會提交,只有執(zhí)行Transformation操作時才會被提交到集群中開始被執(zhí)行C、只有執(zhí)行完Action操作和Transformation操作時,所有操作才會被提交到集群中開始被執(zhí)行D、執(zhí)行完Action操作或Transformation操作時都不會提交到集群【正確答案】:A解析:
Spark惰性計算模式定義。37.在MapReduce中,下列描述錯誤的是()。A、經(jīng)過map()函數(shù)的計算可以得出一個中間數(shù)據(jù)集B、map()函數(shù)是確定的,用戶不可自定義C、對map()函數(shù)的返回值,進行--定的處理后才進入下個階段D、map()函數(shù)的輸入輸出都是同一數(shù)據(jù)結構【正確答案】:B解析:
map()函數(shù)是由用戶所自定義的。38.()用于對RDD中的數(shù)據(jù)進行計算。A、分區(qū)B、算子C、日志D、數(shù)據(jù)塊【正確答案】:B解析:
算子是Spark中定義的函數(shù),用于對RDD中的數(shù)據(jù)進行操作、轉換和計算。39.在Hadoop中,()執(zhí)行文件系統(tǒng)命名空間操作。A、DataNodeB、NameNodeC、JobTrackerD、TaskTracker【正確答案】:B解析:
NameNode在HDFS這種文件系統(tǒng)中充當著Master的角色,負責的功能有很多,比如文件系統(tǒng)目錄管理(命名空間管理)、數(shù)據(jù)塊管理、數(shù)據(jù)節(jié)點管理、租約管理、緩存管理等。40.在HDFS中,()是文件系統(tǒng)的工作節(jié)點。A、DataNodeB、ClientC、NameNodeD、Flume【正確答案】:A解析:
數(shù)據(jù)節(jié)點(DataNode)是分布式文件系統(tǒng)HDFS的工作節(jié)點,負責數(shù)據(jù)的存儲讀取,會根據(jù)客戶端或者是名稱節(jié)點的調(diào)度來進行數(shù)據(jù)的存儲和檢索,并且向名稱節(jié)點定發(fā)送自己所存儲的塊的列表,每個數(shù)據(jù)節(jié)點中的數(shù)據(jù)會被保存在各自節(jié)點本地Linux文件統(tǒng)中。41.MapReduce編程模型,鍵值對<key,value>的kcy必須實現(xiàn)()接口。A、WritableComparableB、ComparableC、WritableD、LongWritable【正確答案】:A解析:
Hadoop為Key的數(shù)據(jù)類型,必須實現(xiàn)WritableComparable,而Value的數(shù)據(jù)類型只需要實現(xiàn)Writable即可。42.下列關于Spark的說法錯誤的是()。A、采用內(nèi)存計算模式B、可利用多種語言編程C、主要用于批處理D、可進行map()操作【正確答案】:C解析:
HadoopMapReduce主要用于批處理,與Hadoop不同的是,Spark更為通用--些,可以很好地支持流計算、交互式處理、圖計算等多種計算模式。43.在Hadoop的分區(qū)階段,默認的Partitioner是()。A、RangePartitionerB、PartitionerC、HashPartitionerD、用戶自定義的Partitioner【正確答案】:C解析:
Hadoop中默認的Partitioner是HashPartitioner。44.RDD的特點不包括()。A、RDD之間有依賴關系,可溯源B、RDD由很多partition構成C、對RDD的每個split或partition做計算D、RDD可以增量更新【正確答案】:D解析:
RDD具有以下五大特點:①RDD由很多partition構成;②對RDD做計算,相當于對RDD的每個split或partition做計算;③RDD之間有依賴關系,可溯源;④如果RDD里面存的數(shù)據(jù)是key-value形式,則可以傳遞一個自定義的partitioner進行重新分區(qū)比如可以按key的hash值分區(qū);⑤最優(yōu)的位置去計算,即數(shù)據(jù)的本地性。45.下列關于Hive說法正確的是()。A、一種數(shù)據(jù)倉庫工具B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】:A解析:
Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,用來進行數(shù)據(jù)提取、轉化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。46.在MapReduce中,為了發(fā)現(xiàn)Worker故障,Master周期性進行的操作是()。A、JoinB、PingCheckD、Connect【正確答案】:B解析:
為了發(fā)現(xiàn)Worker故障,Master周期性進行Ping操作。47.Hadoop生態(tài)系統(tǒng)中,HBase是一種()。A、分布式文件系統(tǒng)B、數(shù)據(jù)倉庫C、實時分布式數(shù)據(jù)庫D、分布式計算系統(tǒng)【正確答案】:C解析:
HBase是一個面向列的實時分布式數(shù)據(jù)庫。48.Spark比MapReduce快的原因不包括()。A、Spark基于內(nèi)存迭代,而MapReduce基于磁盤迭代B、DAG計算模型比MapReduce更有效率C、Spark是粗粒度的資源調(diào)度,而MapReduce是細粒度的資源調(diào)度D、Spark支持交互式處理,MapReduce善于處理流計算【正確答案】:D解析:
A、B、C是Spark比MapReduce快的原因。MapReduce不善于處理除批處理算模式之外的其他計算模式,如流計算、交互式計算和圖計算等。49.Spark的特點不包括()。A、速度快B、通用性C、易用性D、單一操作性【正確答案】:D解析:
Spark是一個快速、通用和易于使用的計算平臺。50.HBase使用一個()節(jié)點協(xié)調(diào)管理一個或多個RegionServer從屬機。A、NameNodeB、DataNodeC、JobTrackerD、Master【正確答案】:D解析:
HBase中由一個Master節(jié)點負責協(xié)調(diào)管理一個或多個RegionServer從屬機。51.MapReduce對map()函數(shù)的返回值進行處理后再返回給reduce()函數(shù)的目的是()。A、減少map()函數(shù)和reduce()函數(shù)之間的數(shù)據(jù)傳輸B、優(yōu)化map()函數(shù)C、優(yōu)化reduce()函數(shù)D、這一步驟并無必要【正確答案】:A解析:
為了降低map()函數(shù)與reduce()函數(shù)之間的數(shù)據(jù)傳輸量,一般先對map()函數(shù)的輸出結果進行處理。52.大數(shù)據(jù)平臺技術架構不包含()。A、數(shù)據(jù)整合B、數(shù)據(jù)存儲C、數(shù)據(jù)計算D、數(shù)據(jù)溯源【正確答案】:D解析:
利用大數(shù)據(jù)平臺可以實現(xiàn)數(shù)據(jù)整合、數(shù)據(jù)存儲、數(shù)據(jù)計算等技術,無法實現(xiàn)數(shù)溯源。53.在MapReduce中,下列描述錯誤的是()。A、Worker故障和Master故障的處理方法不相同B、Map和Reduce的處理結果都存儲在本地文件系統(tǒng)C、一個Worker發(fā)生故障時,該節(jié)點上執(zhí)行完的Map任務需要再次執(zhí)行D、MapReduce具有很強的容錯機制【正確答案】:B解析:
已經(jīng)完成的Map任務的輸出存儲在本臺機器上,Reduce任務的輸出存儲在全局文件系統(tǒng)上,故B錯。54.()是Spark中的抽象數(shù)據(jù)模型。A、RDDB、SchedulerC、StorageD、Shumc【正確答案】:A解析:
RDD(ResilicntDistributedDatasct)是Spark的抽象數(shù)據(jù)模型。Scheduler、Storage和Shuffle是Spark的關鍵技術。55.HBase作為數(shù)據(jù)存儲組件封裝于大數(shù)據(jù)平臺,用于()。A、關系型數(shù)據(jù)庫存儲B、分布式文件存儲C、非關系型數(shù)據(jù)庫存儲D、列式存儲【正確答案】:C解析:
HBase是列式存儲,以流的方式在列中存儲所有的數(shù)據(jù)。對于任何記錄,索引者可以快速地獲取列上的數(shù)據(jù)。列式存儲主要用于非關系型數(shù)據(jù)庫存儲。56.DAGScheduler的作用是()。A、負責分配任務B、負責調(diào)度Worker的運行C、負責創(chuàng)建執(zhí)行計劃D、負責清理執(zhí)行完畢的任務【正確答案】:C解析:
Scheduler模塊分為DAGScheduler和TaskScheduler兩個部分。DAGScheduler負責創(chuàng)建執(zhí)行計劃;TaskScheduler負責分配任務并調(diào)度Worker的運行。57.()負責HDFS數(shù)據(jù)存儲。A、NameNodeB、JobTrackerC、DataNodeD、SccondaryNameNode【正確答案】:C解析:
Hadoop中NameNode節(jié)點作為Master節(jié)點,對集群進行管理;SecondaryNameNode節(jié)點在于分擔NameNode的壓力而設置;JobTracker是為了跟蹤作業(yè)運行的情況而設置的節(jié)點。58.SparkJob默認的調(diào)度模式是()。A、FIFOB、FAIRC、無D、運行時指定【正確答案】:A解析:
默認情況下Spark的調(diào)度模式是FIFO(先進先出)。59.HadoopMapReducc2.0中,()負資資源的管理和調(diào)度。A、JobTrackerB、YARNC、TaskTrackerD、ApplicationMaster【正確答案】:B解析:
Hadoop2.0比起Hadoop1.0來說,最大的改進是加入了資源調(diào)度框架YARN,負貴資源的管理和調(diào)度。60.MapReduce使用()來記錄不同事件的發(fā)生次數(shù)。A、日志B、事件觸發(fā)器C、狀態(tài)列表D、計數(shù)器【正確答案】:D解析:
MapReduce使用計數(shù)器來記錄不同事件的發(fā)生次數(shù)。61.HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯、高可靠性、高可擴展性、高吞吐率等特征,適合的讀寫任務是()。A、一次寫入、少次讀取B、多次寫入、少次讀取C、多次寫入、多次讀取D、一次寫入、多次讀取【正確答案】:D解析:
HDFS的設計以一次寫入、多次讀取為主要應用場景。62.Spark的劣勢是()。A、運算速度快B、業(yè)務實現(xiàn)需要較少代碼C、提供很多現(xiàn)成函數(shù)D、需要更多機器內(nèi)存【正確答案】:D解析:
Spark采用的是內(nèi)存計算模式,需要的內(nèi)存較多。63.下列關于MapReduce說法不正確的是()。A、MapReduce是一種計算框架B、MapRcduce來源于Google的學術論文C、MapReduce程序只能用java語言編寫D、MapReduce隱藏了并行計算的細節(jié),方便使用【正確答案】:C解析:
MapReduce程序可用多種語言編寫,如Ruby、Python、Java等。64.在Hadoop生態(tài)系統(tǒng)中,()建立在MapReduce之上,主要用來彌補MapReduce編程的復雜性。A、HbaseB、FlumeC、PigD、Sqoop【正確答案】:C解析:
Pig是對MapReduce編程復雜性的抽象,Pig平臺包含用于分析Hadoop數(shù)據(jù)集的執(zhí)行環(huán)境和腳本語言(PigLatin)。65.Hadoop中partition()函數(shù)代表的是()。A、分區(qū)函數(shù)B、特征函數(shù)C、算法函數(shù)D、排序函數(shù)【正確答案】:A解析:
partition()代表分區(qū)函數(shù)。66.下列數(shù)據(jù)類型Hive不支持的是()。A、StructB、IntC、MapD、Long【正確答案】:D解析:
Hive支持原生數(shù)據(jù)類型(TinyInt、Smalllnt、Int、BigInt、Boolean、Float、Double、String),也支持復雜數(shù)據(jù)類型(Map、Array、Struct、Union),不支持Long。67.在MapReduce中,通常將Map拆分成M個片段、Reduce拆分成R個片段,下列描述錯誤的是()。A、MapReduce中單臺機器上執(zhí)行大量不同的任務可以提高集群的負載均衡能力B、Master必須執(zhí)行O(M+R)次調(diào)度C、Master在內(nèi)存中保存O(M+R)個狀態(tài)D、M和R要比集群中Worker數(shù)量多【正確答案】:C解析:
master必須執(zhí)行O(M+R)次調(diào)度,并且在內(nèi)存中保存O(MXR)個狀態(tài),故C錯。68.()負責HDFS數(shù)據(jù)存儲。A、NameNodeB、JobTrackerC、DataNodeD、SccondaryNameNode【正確答案】:C解析:
DataNode負責HDFS的數(shù)據(jù)塊存儲。69.Hadoop環(huán)境下HDFS系統(tǒng)中的NameNode實現(xiàn)的功能是()。A、管理文件系統(tǒng)的命名空間B、管理存儲空間C、分配算力D、調(diào)控算法【正確答案】:A解析:
NameNode負責管理文件系統(tǒng)的命名空間。70.MapReduce適用于()。A、任意應用程序B、任意可在WindowsServet2008上運行的程序C、可以串行處理的應用程序D、可以并行處理的應用程序【正確答案】:D解析:
MapReduce適用于并行處理的應用程序。
68
71.下列關于Sqoop的說法不正確的是()。A、主要設計目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進行數(shù)據(jù)的ETL操作B、數(shù)據(jù)導入導出通過MapReduce完成C、Sqoop具備MapReduce的并行化和容錯性D、Sqoop的Reduce操作速度更快【正確答案】:D解析:
Sqoop是一個強大的工具,主要用來處理大量的數(shù)據(jù)傳輸,并不會影響Rey的操作速度。72.在HadoopMapReduce中,()是客戶端需要執(zhí)行的一個工作單元。A、InputB、JobClientD、Task【正確答案】:B解析:
MapReduce作業(yè)(Job)是客戶端需要執(zhí)行的一個工作單元,它包括輸入數(shù)據(jù)、MapReduce程序和配置信息。73.下列組件中MapReduce編程模型中最后執(zhí)行的是()。A、MapperB、PartitionerC、ReducerD、RecordReader【正確答案】:C解析:
MapReduce編程模型中四個組件的執(zhí)行順序是RecordReader→MapperPartitioner→Reducer。74.下列關于ZooKecper特點的描述錯誤的是()。A、復雜性B、自我復制C、順序訪問D、高速讀取【正確答案】:A解析:
ZooKeeper的設計回標和特點包括簡單性、自我復制、順序訪問和高速讀取。75.HBase依靠()提供消息通信機制。A、ZooKeeperB、ChubbyC、RPCD、Socket【正確答案】:A解析:
ZooKeeper是一個高可用、高性能的分布式協(xié)調(diào)服務,為HBasc提供消息通借機制。76.()屬于Spark框架中的可擴展機器學習庫。A、MLibB、GraphXC、StreamingD、SparkSQL【正確答案】:A解析:
MLib是可擴展機器學習庫。77.下列不屬于Action操作的是()。A、collectB、filterC、reduceD、count【正確答案】:B解析:
Action常用的函數(shù)為reduce、collect、count、take、first、foreach等。78.解決Master故障的方法是設置檢查點,當Master失效時,從()檢查點開)動另一個Master進程。A、第一個B、中間一個C、最后一個D、隨機選擇一個【正確答案】:C解析:
從最后一個檢查點開始啟動另-Master進程使得因故障產(chǎn)生的影響更小。79.()的主要目標是提供可擴展的機器學習算法及其實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】:A解析:
Mahout是ApacheSoftwareFoundation(ASF)旗下的一個開源項目,提供一些可擴展的機器學習領域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout包含許多實現(xiàn),如聚類、分類、推薦過濾、頻繁子項挖掘等。80.在Hadoop生態(tài)系統(tǒng)中,()可以將結構化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并提供簡單的查詢語言。A、PigB、HBascC、HiveD、MapReduce【正確答案】:C解析:
在Hadoop生態(tài)系統(tǒng)中,Hive可以將結構化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并提供簡單的查詢語言。81.DataFrame和RDD最大的區(qū)別是()。A、科學統(tǒng)計支持B、DataFrame多了schemaC、存儲方式不一樣D、外部數(shù)據(jù)源支持【正確答案】:B解析:
相比于RDD,DataFrame多了數(shù)據(jù)的結構信息,即schema。82.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正確答案】:B解析:
Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三種。83.在Hadoop生態(tài)系統(tǒng)中,()的主要設計目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進行數(shù)據(jù)的ETL操作。A、HDFSB、FlumeC、HiveD、Sqoop【正確答案】:D解析:
Sqoop主要用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫問進行數(shù)據(jù)的傳遞,可以將一個關系型數(shù)據(jù)庫中的數(shù)據(jù)導進到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導進到關系型數(shù)據(jù)庫中。84.Hadoop中,Reducer的三個步驟是()。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort--Shuffle-Reduce【正確答案】:A解析:
Reducer主要分為Shuffle洗牌、Sort排序和Reduce三個步驟。85.大數(shù)據(jù)平臺核心分布式存儲與計算組件采用Hadoop技術體系中的分布式存儲、分布式計算框架及Spark等開源產(chǎn)品和技術,實現(xiàn)對數(shù)據(jù)的安全控制和管理功能,其中分布式存儲不包括()。A、HDFSB、PostgresqC、HiveD、HBase【正確答案】:B解析:
Postgresql并非分布式存儲。86.()不是Spark服務層的功能。A、SQL查詢B、實時處理C、機器學習D、內(nèi)存計算【正確答案】:D解析:
Spark服務層主要提供面向特定類型的計算服務。如SQL金詢、實時處理、機器學習以及圖計算。87.下列關于HDFS的描述正確的是()。A、如果NameNode宕機,SecondaryNamcNode會接替它使集群繼續(xù)工作B、HDFS集群支持數(shù)據(jù)的隨機讀寫C、NameNode磁盤元數(shù)據(jù)不保存Block的位置信息DataNode通過長連接與NameNode保持通信【正確答案】:C解析:
SccondaryNameNode并不是NameNode節(jié)點的備份,所以A錯;存儲在HD集群上的數(shù)據(jù)是不支持隨機修改和刪除的,只支持追加,所以B錯;NanNode和DataNo之間的通信是基于一種心跳機制,該機制不是長連接是短連接形式,每次發(fā)送一個數(shù)據(jù)(自身狀態(tài)信息+數(shù)據(jù)塊信息)即可,所以D錯。88.()計算框架源自--種分布式計算模型,其輸入和輸出值均為鍵值對結構。A、MahoutB、MapReduceC、SparkD、Sqoop【正確答案】:B解析:
MapReduce定義。89.分布式應用程序可以基于分布式應用程序協(xié)調(diào)服務實現(xiàn)同步服務,配置維護和命名服務等的工具是()。A、FlumeB、ZookeeperC、StormD、SparkStreaming【正確答案】:B解析:
Zookeeper和Chubby均是分布式協(xié)調(diào)服務。90.執(zhí)行一個job,如果這個job的輸出路徑已經(jīng)存在,那么程序會()。A、覆蓋這個輸出路徑B、拋出警告,但是能夠繼續(xù)執(zhí)行C、拋出一個異常,然后退出D、創(chuàng)建一個新的輸出路徑【正確答案】:C解析:
MapReduce編程模型中的輸出目錄必須是不存在的目錄,否則程序拋出異常并且退出運行。91.MapReduce任務Map輸出結果將被寫入()。A、HDFS文件系統(tǒng)B、新的記錄文件C、磁盤(Linux文件系統(tǒng))D、主數(shù)據(jù)庫【正確答案】:C解析:
MapReduce中的Map輸出結果會被寫入對應的磁盤中。92.為提高計算性能,Spark中Transformation操作采用的計算模式是()。A、活性計算模式B、惰性計算模式C、實時計算模式D、非實時計算模式【正確答案】:B解析:
Spark的所有Transformation操作采取的都是惰性計算模式。93.下列關于Hadoop的說法錯誤的是()。A、它運行在通用硬件上B、它是Apache軟件基金會(ASF)下的項目C、它是最好的實時流式數(shù)據(jù)處理框架D、Hadoop對數(shù)據(jù)的處理是有延遲的【正確答案】:C解析:
Hadoop不善于處理除批處理計算模式之外的其他計算模式,如流計算等。故C錯。94.在Spark中,()是指RDD的每個分區(qū)都只被子RDD的一個分區(qū)所依賴。A、子分區(qū)B、父分區(qū)C、寬依賴D、窄依賴【正確答案】:D解析:
窄依賴定義。95.一個MapReduce程序中的MapTask的個數(shù)由()決定。A、輸入的總文件數(shù)B、客戶端程序設置的mapTask的個數(shù)C、FileInputFormat.getSplits(JobContextjob)計算出的邏輯切片的數(shù)量D、輸入的總文件大?。瘮?shù)據(jù)塊大小【正確答案】:C解析:
MapReduce編程模型中的MapTask的并行度決定機制是由FilelnputFormat.getSplits(JobContextjob)決定的。該方法的返回值是List<InputSplit>splits,這個結果集合中的每個InputSplit就是一個邏輯輸入切片,每個邏輯輸入切片在默認情況下是會要啟動一個MapTask任務進行計算的,因此C對。96.下列關于MapReduce計算框架中生成鍵值對的說法正確的是()。A、可以有相同的鍵,值必須唯一B、可以有相同的值,鍵必須唯一C、可以有相同的鍵,也可以有相同的值D、鍵和值都必須唯一【正確答案】:C解析:
鍵值對中的鍵和值并沒有必然的聯(lián)系,兩者可以相同。97.RDD中的數(shù)據(jù)被()在集群中,使得任務可以并行執(zhí)行。A、順序存儲B、連續(xù)存儲C、分塊存儲D、分區(qū)存儲【正確答案】:D解析:
RDD為分區(qū)存儲。98.()主要提供內(nèi)存計算框架。A、Spark核心層B、資源管理層C、服務層D、Spark層【正確答案】:A解析:
Spark的技術架構可以分為資源管理層、Spark核心層和服務層三層。資源管理層主要提供資源管理功能;Spark核心層主要提供內(nèi)存計算恒架;服務層主要提供面向特定類型的計算服務。99.下列關于Hadoop中MapReduce的說法正確的是()。A、可以沒有Reduce任務B、Reducer輸入為隨機輸入C、Shuffle主要實現(xiàn)數(shù)據(jù)可視化功能D、一個Reducer只能從一個Map復制所需要的partition【正確答案】:A解析:
MapReduce中的Reduce并不是必須存在的。100.下列描述中不屬于HDFS集群中的NameNode職責的是()。A、維護HDFS集群的目錄樹結構B、維護HDFS集群的所有數(shù)據(jù)塊的分布、副本數(shù)和負載均衡C、負責保存客戶端上傳的數(shù)據(jù)D、響應客戶端的所有讀寫數(shù)據(jù)請求【正確答案】:C解析:
NameNode是HDFS的管理節(jié)點,DataNode是HDFS集群的工作節(jié)點。所以用戶上傳的數(shù)據(jù)是由DataNode進行保存的;NameNode負責保存用戶上傳的數(shù)據(jù)的元數(shù)據(jù)和維護HDFS的抽象目錄樹結構,也會響應客戶端的所有讀寫請求。1.HadoopMapReduce是MapReduce的具體實現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個獨立的實體,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】:ABCD解析:
可以將MapReducc的工作流程概括為4個獨立的實體。4個實體分別為:①Client,用來提交MapRcduce的作業(yè)。編寫MapRcducc程序,配置作業(yè),提交作業(yè),即需程序員完成的工作。②JobTracker,用來協(xié)調(diào)作業(yè)的運行。與TaskTracker通信,協(xié)調(diào)整個作業(yè)的執(zhí)行。③TaskTracker,用來處理作業(yè)劃分后的任務。保持與JobTracker的通信,在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務,TaskTracker和JobTracker的不同有個很重要方面,就是在執(zhí)行任務的時候TaskTracker可以有n個,JobTracker則只會有一個。④HDFS,用來在其他實體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等,最后的結果也是保存在HDFS上面。2.HBase中KeyValue數(shù)據(jù)的存儲格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正確答案】:A解析:
HBase中KeyValue數(shù)據(jù)的存儲格式是HFile。3.ApacheFlume主要解決的是日志數(shù)據(jù)的收集和處理問題,F(xiàn)lume的主要設計目的和特征包括()。A、高可靠性B、可擴展性C、管理復雜D、不支持用戶自定義【正確答案】:AB解析:
Flume的主要設計目的和特征包括高可靠性、可擴展性、支持方便管理、支持用
戶自定義4.基于Hadoop開源大數(shù)據(jù)平臺主要提供了針對數(shù)據(jù)分布式計算和存儲能力,如下感于分布式存儲組件的有()。A、MapReduceB、SparkC、HDFSD、HBasc【正確答案】:CD解析:
MapRcduce和Spark的核心功能是分布式計算。5.下列服務中可以用于存儲數(shù)據(jù)的有()。A、MapReduceB、YARNC、HBaseD、HDFS【正確答案】:CD解析:
MapReduce是計算模型;YARN是通用資源管理系統(tǒng);HBase是動態(tài)模式數(shù)據(jù)庫;HDFS是Hadoop分布式文件系統(tǒng),是數(shù)據(jù)存儲的基礎。6.下列關于MapReduce1.0版本的說法正確的有()。A、擴展性差B、可靠性差C、資源利用率低D、無法支持多種計算框架【正確答案】:ABCD解析:
MapReducel.0存在的局限性包括擴展性差、可靠性差、資源利用率低、無法支持多種計算框架。7.ETL技術主要涉及操作有()。A、抽取B、轉換C、加載D、分析【正確答案】:ABC解析:
ETL技術主要涉及抽?。╡xtract)、轉換(transform)、加載(load)。8.在Spark中,彈性分布式數(shù)據(jù)集的特點包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:
RDD不可修改。9.Spark提交工作的方式有()。A、ClientB、ClusterC、StandaloneD、YARN【正確答案】:AB解析:
Spark提交作業(yè)的方式是Client和Clustero10.Hadoop組件Zookeeper的設計目標和主要特點包括()。A、簡單性B、自我復制C、順序訪問D、高速讀取【正確答案】:ABCD解析:
ZooKeeper的設計目標和特點包括簡單性、自我復制、順序訪問和高速讀取。11.Hadoop的優(yōu)點包括()。A、可其性B、高效性C、可伸煽性D、成本低【正確答案】:ABCD解析:
Hadoop的優(yōu)點包括可靠性、高效性、可伸縮性和成本低。12.RDD的特征有()。A、可容錯性B、簡潔性C、并行數(shù)據(jù)結構D、結構化【正確答案】:AC解析:
RDD是一個容錯的、并行的數(shù)據(jù)結構。13.下列中屬于MapReduce特征的有()。A、以主從結構的形式運行B、容錯機制的復雜性C、任務備份機制的必要性D、數(shù)據(jù)存儲位置固定【正確答案】:ABC解析:
數(shù)據(jù)存儲位置具有多樣性,并非固定,所以D錯。14.Hadoop框架的缺點有()。A、MapReduce編程框架的限制B、過多的磁盤操作,缺乏對分布式內(nèi)存的支持C、無法高效支持迭代式計算D、不支持多用戶寫入和任意修改文件【正確答案】:ABCD解析:
以上四項都為Hadoop的缺點。15.下列關于Flume的描述正確的有()。A、Flume具有一定的容錯性B、Flume使用Java編寫C、Flume不支持failoverD、Flume是一個分布式的輕量級工具,適應各種方式的數(shù)據(jù)收集【正確答案】:ABD解析:
Flume本身提供了failover機制,可以自動切換和恢復。16.下列關于HDFS文件寫人的描述正確的有()。A、不支持多用戶對同一文件的寫操作B、用戶不可以在文件任意位置進行修改C、默認將文件復制成三份存放D、復制的文件塊默認不存在同一機架上【正確答案】:ABCD解析:
根據(jù)HDFS定義。17.Hadoop的HDFS是一種分布式文件系統(tǒng),其適合()的數(shù)據(jù)存儲和管理。A、大量小文件存儲B、高容錯、高吞吐量C、低延遲讀取D、流式數(shù)據(jù)訪問【正確答案】:BD解析:
HDFS不適合小文件存儲,HDFS的讀取操作相比于傳統(tǒng)的數(shù)據(jù)庫延遲較高,不適合低延遲讀取。18.下列關于HadoopMapReduce的描述正確的有()。A、reduce()函數(shù)的輸入是value集B、reduce()函數(shù)將最終結果寫到HDFS系統(tǒng)中C、用戶可以自己定義reduce()函數(shù)D、reduce()函數(shù)的輸入數(shù)據(jù)是經(jīng)過map()函數(shù)處理之后的數(shù)據(jù)【正確答案】:BCD解析:
reduce()函數(shù)的輸入是key-value集。19.Spark的基本流程主要涉及()等角色。A、DriverProgramB、ClusterManagerC、WorkerNodeD、Executor【正確答案】:ABCD解析:
Spark的基本流程主要涉及DriverProgram(驅動程序)、Spark-Context、ClusterManage(集群管理器)、WorkerNode(工作節(jié)點)、Executor(執(zhí)行器)和Cache(緩存)等角色。
-.20.下列關于Pig的說法正確的有()。A、彌補MapReduce編程復雜性B、封裝MapReduce處理過程C、PigLatin是一種數(shù)據(jù)分析語言D、適用于并行處理【正確答案】:ABCD解析:
Pig建立在MapRcduce之上,主要目的是彌補MapRcduce編程的復雜性;Pig較好地封裝了MapReduce的處理過程;PigLatin是數(shù)據(jù)分析的描述語言;Pig的結構適用于并行處理。21.SparkRDD的依賴機制包括()。A、寬依賴B、深度依賴C、廣度依賴D、窄依賴【正確答案】:AD解析:
RDD之間的依賴關系可以分為窄依賴和寬依賴兩種。22.Spark的技術架構可以分為()。A、資源管理層B、Spark核心層C、應用層D、服務層【正確答案】:ABD解析:
Spark的技術架構可以分為資源管理層、Spark核心層和服務層三層。23.下列關于Spark中RDD的描述正確的有()。A、RDD(ResilientDistributedDataset)叫作彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式,可以并行在集群計算Dataset:就是一個集合,用于存放數(shù)據(jù)【正確答案】:ABCD解析:
A、B、C、D全部正確。24.下列關于Pig的說法正確的有()。A、Pig的主要目的是彌補MapReduce編程的復雜性B、Pig的核心是一種數(shù)據(jù)分析語言C、Pig程序的結構適合串行處理D、Pig主要包含PigLatin和Pig執(zhí)行環(huán)境兩部分【正確答案】:ABD解析:
Pig程序的結構適合并行處理。25.Spark的關鍵技術包括()。A、RDDB、SchedulerC、StorageD、Shuffle【正確答案】:ABCD解析:
Spark的關鍵技術包括RDD、Schedulcr、Storagc、Shuffc。26.Spark支持的計算模型有()。A、批處理B、實時計算C、機器學習模型D、交互式查詢【正確答案】:ABCD解析:
Spark支持的計算模型有批處理、實時計算、機器學習模型、交互式查詢。27.在MapReducel.0版本中,JobTracker功能有()。A、資源管理B、作業(yè)控制C、作業(yè)存儲D、作業(yè)審核【正確答案】:AB解析:
在MapReducel.0中,JobTracker同時兼?zhèn)淞速Y源管理和作業(yè)控制兩個功能。28.Flume的特點包括()。A、分布式B、高可靠C、高容錯D、易于定制和擴展【正確答案】:ABCD解析:
Flume的特點包括分布式、高可靠、高容錯、易于定制和擴展。29.MapReduce對map()函數(shù)的返回值處理后才傳給reduce()函數(shù),其中涉及的操作有()。A、合并B、排序C、分區(qū)D、抽樣【正確答案】:ABC解析:
分別涉及Shuffle(排序)、Combiner(合并)和Partition(分區(qū))操作。30.相對于HadoopMapReduce,Spark的特點有()。A、通用性B、易用性C、速度快D、容錯性【正確答案】:ABC解析:
相對于HadoopMapReduce,Spark的特點包括速度快、通用性和易用性。31.Spark的組件包括()。A、SparkStreamingB、MLibC、GraphXD、SparkR【正確答案】:ABC解析:
Spark的組件包括SparkSQL、SparkStreaming、MLid、GraphX。32.下列屬于HBasc性能優(yōu)化的有()。A、讀優(yōu)化B、寫優(yōu)化C、配置優(yōu)化D、JVM優(yōu)化【正確答案】:ABCD解析:
HHBase性能優(yōu)化包含讀優(yōu)化、寫優(yōu)化、配置優(yōu)化、JVM優(yōu)化。33.Spark組件包含()兩個算子。A、MapB、ActionC、TransformationD、Reduce【正確答案】:BC解析:
Spark針對RDD提供了多種基礎操作,可以大致分為Action和Transformation兩種。34.Spark比MapReduce計算快的原因有()。A、基于內(nèi)存的計算B、基于DAG的調(diào)度框架C、基于Lineage的容錯機制D、基于分布式計算的框架【正確答案】:ABC解析:
Spark比MapReduce計算快的原因包括基于內(nèi)存計算、使用基于Lineage的容錯機制和基于DAG的調(diào)度框架。35.下列關于HBase的說法正確的有()。A、面向列的數(shù)據(jù)庫B、非結構化的數(shù)據(jù)庫C、支持大規(guī)模的隨機、實時讀寫D、采用松散數(shù)據(jù)模型【正確答案】:ABCD解析:
HBase是非結構化的、多版本的、面向列和開源的數(shù)據(jù)庫;HBase提供了對大模數(shù)據(jù)的隨機、實時讀寫訪問;從存儲模型看,HBase采用的是松散數(shù)據(jù)模型。36.下列關于MapReduce與HBase關系的描述正確的有()。A、兩者不可或缺,MapReduce是HBase可以正常運行的保證B、兩者不是強關聯(lián)關系,沒有MapReduce,HBasc可以正常運行C、MapReduce可以直接訪問HBaseD、它們之間沒有任何關系【正確答案】:BC解析:
HBase是Hadoop數(shù)據(jù)庫。它是一個適合于非結構化數(shù)據(jù)存儲的數(shù)據(jù)庫,與MapReduce并無強關聯(lián)關系,HadoopMapReduce為HBase提供了高性能的計算能力,可直接訪問HBase。37.大數(shù)據(jù)平臺的計算組件主要有()。A、StormB、SparkC、MapReduceD、Sqoop【正確答案】:ABC解析:
Storm是Twitter開源的分布式實時大數(shù)據(jù)處理框架;Spark是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎;MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算;Sqoop是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫間進行數(shù)據(jù)的傳遞;因此A、B、C正確。38.下列有關MapReduce計算框架的描述正確的有()。A、MapReduce可以計算任務的劃分和調(diào)度B、MapReduce可完成數(shù)據(jù)的分布存儲和劃分C、MapReduce可以實現(xiàn)處理系統(tǒng)節(jié)點出錯檢測和失效恢復D、MapReduce可實現(xiàn)處理數(shù)據(jù)與計算任務的同步【正確答案】:ABCD解析:
根據(jù)MapReduce定義可得,A、B、C、D都可以實現(xiàn)。39.在Hive架構中,支持的數(shù)據(jù)操作有()。A、插入B、查詢C、刪除D、分析【正確答案】:BD解析:
Hive提供簡單的HiveQL查詢、分析功能,可以較好地滿足基于數(shù)據(jù)倉庫的統(tǒng)計分析需要。40.下列關于Hadoop中map輸出結果的說法正確的有()。A、<key,value>鍵值對B、輸出中間臨時結果C、輸出最終計算結果D、輸出結果永久保留【正確答案】:AB解析:
map輸出結果并非是最終結果且只暫時保留。41.Spark容錯性的方式有()。A、數(shù)據(jù)檢查點B、存儲原始數(shù)據(jù)C、記錄數(shù)據(jù)的更新D、自建數(shù)據(jù)版本【正確答案】:AC解析:
Spark容錯性有數(shù)據(jù)檢查點和記錄數(shù)據(jù)的更新兩種方式。42.下列關于Zookecper的描述正確的有()。A、Zookccper維護著一個樹形的層次結構B、Zookeeper的數(shù)據(jù)訪問具有原子性C、Zookecper被設計用來實現(xiàn)協(xié)調(diào)服務D、Zookceper被設計用來實現(xiàn)大容量數(shù)據(jù)存儲【正確答案】:ABC解析:
Zookeeper無法用來存儲數(shù)據(jù)。43.MapReduce中運行程序副本程序的機器有()。A、Map服務器B、Master服務器C、Worker服務器D、Reduce服務器【正確答案】:BC解析:
MapRcduce中,運行程序副本程序的機器分為Master服務器和若干個Worker服務器兩類。44.從Hadoop實現(xiàn)角度看,HadoopMapReducel.0主要由()組成。A、編程模型B、數(shù)據(jù)處理引擎C、運行時環(huán)境D、算法庫【正確答案】:ABC解析:
HadoopMapReduce1.0計算框架主要由編程模型、數(shù)據(jù)處理引擎和運行時環(huán)境組成。
國家電網(wǎng)有限公司大數(shù)據(jù)應用習題集45.下列關于Hive的說法正確的有()。A、Hive是基于Hadoop的數(shù)據(jù)倉庫工具B、Hive可以將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表C、最初,Hive由Google開源,用于解決海量結構化日志數(shù)據(jù)統(tǒng)計問題D、Hive的主要應用場景是離線分析【正確答案】:ABD解析:
Hive不是由谷歌提出和開源的,谷歌提出的三大核心技術是GFS、BigTable、MapReduce。46.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkonYARN模式D、SparkonMesos模式【正確答案】:ABCD解析:
Spark支持上述四種運行模式,在實驗中為了充分利用資源,一般配置Standalou模式運行。47.Spark中的Scheduler模塊可以分為()。A、DAGSchcdulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正確答案】:AC解析:
Scheduler模塊分為DAGScheduler和TaskScheduler兩個部分。48.Hadoop運行的模式包括()。A、單機版B、偽分布式C、分布式D、全分布式【正確答案】:ABC解析:
Hadoop運行模式包括單機版、偽分布式和分布式。49.在數(shù)據(jù)科學中,計算模式發(fā)生了根本性的變化-從集中式計算、分布式計算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算,有一定的代表性的是Google云計算三大技術,這三大技術包括()。A、HadoopYARN資源管理器B、GFS分布式存儲系統(tǒng)C、MapReduce分布式處理技術D、BigTable分布式數(shù)據(jù)庫【正確答案】:BCD解析:
Google云計算的三大核心技術為GFS、MapReduce和BigTable。HadoopYARN資源管理器屬于Hadoopo50.Spark2.0提供的應用庫包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正確答案】:ABCD解析:
Spark2.0提供的應用庫包括SparkSQL、SparkStreaming、MLib、GraphX。1.MapRctuce性能優(yōu)化的評估大部分部是基于Counter的數(shù)值表現(xiàn)出來的。()A、正確B、錯誤【正確答案】:A解析:
MapRcducc計數(shù)器(Counter)為我們提供一個窗口,用于觀察MapReduceJop運行期的各種歸節(jié)數(shù)據(jù)。對MapRcducc性能調(diào)優(yōu)很有幫助,MapReduce性能優(yōu)化的評估部分部是基于這些Countcr的數(shù)值表現(xiàn)出來的。2.用戶自定義的reduce()函數(shù)接受一個中間key值和一個相關的value值的集合。()A、正確B、錯誤【正確答案】:A解析:
略3.MapReduce的InputSplit一定是一個Block。()A、正確B、錯誤【正確答案】:B解析:
MapReduce的InputSplit并非一定是一個Block,而是默認是一個Block。4.Combiner運行0次、1次或多次,Reducer都會產(chǎn)生相同的輸出結果。()A、正確B、錯誤【正確答案】:A解析:
Combiner多次運行,并不影響輸出結果,運行Combiner的意義在于使Map輸出的中間結果更緊湊,使得寫到本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025勞動合同法與勞動關系
- 快消品行業(yè)業(yè)務員工作總結
- 2025鍋爐設備買賣安裝合同(初稿)
- 在線辦公環(huán)境下的學生自我控制能力挑戰(zhàn)與應對策略探討
- 教育與商業(yè)探索在學期間運用課余時間的商業(yè)模式
- 2025房地產(chǎn)抵押典當借款合同范本
- 加油站衛(wèi)生消毒建議
- 宅基地權屬協(xié)議書(2篇)
- 2025年南京貨運從業(yè)資格證考試模擬題及答案詳解
- 2025年人教版新教材英語小學三年級下冊教學進度安排表
- 春季餐飲營銷策劃
- 企業(yè)會計機構的職責(2篇)
- 《疥瘡的防治及治療》課件
- Unit4 What can you do Part B read and write (說課稿)-2024-2025學年人教PEP版英語五年級上冊
- 2025年MEMS傳感器行業(yè)深度分析報告
- 《線控底盤技術》2024年課程標準(含課程思政設計)
- 學校對口幫扶計劃
- 倉庫倉儲安全管理培訓課件模板
- 風力發(fā)電場運行維護手冊
- 河道旅游開發(fā)合同
- 情人合同范例
評論
0/150
提交評論