Hadoop期中考試測(cè)試_第1頁
Hadoop期中考試測(cè)試_第2頁
Hadoop期中考試測(cè)試_第3頁
Hadoop期中考試測(cè)試_第4頁
Hadoop期中考試測(cè)試_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Hadoop期中考試1單選題(每個(gè)分,共20分)(1)Mapreduce擅長(zhǎng)哪個(gè)領(lǐng)域的計(jì)算( A )。A. 離線批處理B. DAG計(jì)算C. 流式計(jì)算D. 實(shí)時(shí)計(jì)算(2)關(guān)于MapReduce原理,下面說法錯(cuò)誤的是( D )。A. 分為Map和Reduce兩個(gè)階段B. Map階段由一系列Map任務(wù)組成C. Reduce階段由一系列Reduce任務(wù)組成D. Map階段與Reduce階段沒有任何依賴關(guān)系(3)HDFS默認(rèn)副本數(shù)是( C )。A. 1B. 2C. 3D. 4(4)不屬于HDFS架構(gòu)組成部分是( D )。A. NameNodeB. Secondary NameNodeC. DataNod

2、eD. TaskTracker(Hadoop MapReduce 的組件)(5)關(guān)于Block和Split兩個(gè)概念,下面說法錯(cuò)誤的是( C )。A. Block是HDFS中最小的數(shù)據(jù)存儲(chǔ)單位B. Split是MapReduce中最小的計(jì)算單元C. Block是Split是一一對(duì)應(yīng)關(guān)系(默認(rèn)是一一對(duì)應(yīng)的)D. Block和Split之間對(duì)應(yīng)關(guān)系是任意的,可由用戶控制(6)以下不屬于Hadoop內(nèi)核的組成部分的是( C )。A. HDFSB. MapReduceC. HBaseD. YARN(7)不屬于HBase中的術(shù)語的是( D )。A. ColumnB. Column FamilyC. Row

3、 Key D. Meta(8)下面關(guān)于Hive,說法錯(cuò)誤的是( A )。A. Hive支持所有標(biāo)準(zhǔn)SQL語法B. Hive底層采用的計(jì)算引擎是MapReduce(目前支持Spark、Tez等)C. Hive提供的HQL語法,與傳統(tǒng)SQL很類似D. Hive Server可采用MySQL存儲(chǔ)元數(shù)據(jù)信息(9)通常而言,一個(gè)標(biāo)準(zhǔn)的生產(chǎn)環(huán)境(考慮成本、效益等)中,Zookeeper實(shí)例個(gè)數(shù)不可能是( B )。A. 3B. 4C. 5D. 7(10)Flume的主要作用是( C )。A. 數(shù)據(jù)處理和分析B. 數(shù)據(jù)存儲(chǔ)C. 數(shù)據(jù)收集D. 網(wǎng)絡(luò)爬蟲(11)HBase支持多語言(比如C+、Python等)訪問

4、,為實(shí)現(xiàn)該功能,它采用的開源軟件是( C )。A. protobufB. 自定義網(wǎng)絡(luò)協(xié)議C. thriftD. avro(12)關(guān)于HDFS和HBase,說法錯(cuò)誤的是( D )。AHDFS不能隨機(jī)讀寫,HBase可以BHDFS適合存儲(chǔ)大文件,HBase可以存儲(chǔ)小文件CHBase底層采用了HDFSDHDFS和HBase無直接關(guān)系(13)YARN和MapReduce的關(guān)系是( A )。A. MapReduce是一個(gè)計(jì)算框架,可運(yùn)行在YARN之上BYARN是一個(gè)計(jì)算框架,可運(yùn)行在MapReduce之上CMapReduce和YARN無直接關(guān)系D以上回答均不正確(14)關(guān)于MapReduce中的數(shù)據(jù)本地

5、性,下面方法正確的是( AB )。AMap Task和Reduce Task都會(huì)考慮數(shù)據(jù)本地性B只有Map Task會(huì)考慮數(shù)據(jù)本地性(Reduce階段是從Map階段拉取Shuffle數(shù)據(jù)的)C只有Reduce Task會(huì)考慮數(shù)據(jù)本地性DMap Task和Reduce Task都不考慮數(shù)據(jù)本地性(15)與Hive相比,Presto主要優(yōu)勢(shì)是( C )。A利用MapReduce進(jìn)行分布式計(jì)算,更加高效B完全分布式計(jì)算,可以充分利用集群資源CMPP架構(gòu),全內(nèi)存計(jì)算D有很強(qiáng)的容錯(cuò)性(16)下面哪種存儲(chǔ)格式是Hive中常用的列式存儲(chǔ)格式( D )。A. Text FileB. Sequence File

6、C. ParquetD. ORC(17) 下面哪個(gè)信息不會(huì)存儲(chǔ)在HBase的一個(gè)cell( EC )。A. row keyB. column family名稱C. 表名D. 列名E. 版本號(hào)F. cell值數(shù)據(jù)存儲(chǔ)冗余,非常耗費(fèi)空間(18)默認(rèn)情況下,一個(gè)MapReduce作業(yè)(處理的數(shù)據(jù)HDFS上的一個(gè)目錄)的map task個(gè)數(shù)是由( B )決定的。A. 目錄中文件個(gè)數(shù)B. 目錄對(duì)應(yīng)的block數(shù)目C. 默認(rèn)個(gè)數(shù)是1D. 用戶自己指定HDFS,Block默認(rèn)大小為128MB。一個(gè)Block文件只能來自于一個(gè)文件。查看一個(gè)文件有多少個(gè)Block的命令:hdfs fsck /input fil

7、es blocks -locations(19)Hive和Presto支持標(biāo)準(zhǔn)SQL嗎( BD )A. 都支持B. 都不支持C. Hive支持,Presto不支持D. Hive不支持,Presto支持(20)既然有了Hive,還需要用MapReduce編寫程序處理數(shù)據(jù)嗎( B )A. 不需要B. 需要2多選題(每個(gè)4分,共20分)(1)關(guān)于HDFS,說法正確的是( ABC )A不存在NameNode單點(diǎn)故障問題B一個(gè)集群可存在多個(gè)NameNode對(duì)外提供服務(wù)CHDFS HA和Federation是它的兩大特色D不能存儲(chǔ)小文件(2)關(guān)于Kafka,說法正確的是( BCD )A是一個(gè)分布式key/

8、value存儲(chǔ)系統(tǒng)B由producer、broker和consumer等角色構(gòu)成C通過zookeeper進(jìn)行服務(wù)協(xié)調(diào)D消息可以存成多個(gè)副本以達(dá)到容錯(cuò)的目標(biāo)(3)關(guān)于MapReduce,說法正確的是( ACD )AMapReduce具有容錯(cuò)性,一臺(tái)節(jié)點(diǎn)掛掉不會(huì)導(dǎo)致整個(gè)應(yīng)用程序運(yùn)行失敗B所有MapReduce程序公用一個(gè)ApplicationMasterCMapReduce程序可以運(yùn)行在YARN之上(也可以運(yùn)行在本地)DMapReduce是Hive默認(rèn)的計(jì)算引擎(4)用戶可使用哪幾種語言開發(fā)MapReduce應(yīng)用程序( ABCD )A.C+B.JavaC.PHPD.Go(5)下面哪幾個(gè)屬于YARN

9、自帶的資源調(diào)度器( BCD )ADeadline SchedulerBFIFO(先進(jìn)先出)CCapacity Scheduler(容錯(cuò)調(diào)度系統(tǒng))DFair Scheduler(公平調(diào)度系統(tǒng))3簡(jiǎn)答題(每個(gè)5分,共10分)(1)描述MapReduce作業(yè)從提交到Y(jié)ARN上,到運(yùn)行結(jié)束的整個(gè)過程,請(qǐng)用步驟1,步驟2,描述。答:步驟1,客戶端提交請(qǐng)求到Y(jié)arn的ResourceManager步驟2,RM確定一個(gè)AppMaster步驟3,AppMaster向RM申請(qǐng)NodeManager步驟4,AppMaster將Task發(fā)送給NodeManager僅限執(zhí)行步驟5,AppMaster負(fù)責(zé)收集NodeM

10、anager的運(yùn)行結(jié)果步驟6,AppMaster將結(jié)果返回給客戶端(2)試描述如何對(duì)Hadoop Streaming程序進(jìn)行調(diào)試并舉出一個(gè)例子。答:?jiǎn)螜C(jī)運(yùn)行,本地測(cè)試:cat,管道輸入Mapper,sort(3)試寫出以下操作的shell命令:1)在HDFS上創(chuàng)建目錄/home/test答:hdfs dfs -mkdir /homehdfs dfs -mkdir /home/test或hdfs dfs -mkdir -p /home/test2)將正在運(yùn)行的ID為的應(yīng)用程序殺死答:3)查看HDFS上文件/home/test/的大小答:hdfs dfs -ls /home/test/4)在Hiv

11、e中創(chuàng)建一個(gè)parquet表,采用gzip壓縮格式,該表名為test,包含兩列:int類型名為id的列和string類型名為namename的列。如何在Presto中創(chuàng)建這個(gè)表,有何不同答:create table if not exists test(id int,namename string)gzipstored as parquet;4編程題(40分)(1)有一批文件,格式如下:每行有4列,每一列均是一個(gè)整數(shù),列之間采用“.”作為分隔符,將數(shù)據(jù)按照第二列和第三列分組,每組中第四列所有數(shù)之和。注:如果第二列相同,則按照第三列分組,比如上述結(jié)果為:351結(jié)果中,key為“第二列和第三列”值,value是對(duì)應(yīng)的第四列累加和,key和value之間使用t分割。要求:使用任意語言實(shí)現(xiàn)以上功能,寫出Mapper和Reducer,并給出相應(yīng)的作業(yè)提交命令(或腳本)。答:(根據(jù)WordCount實(shí)例進(jìn)行改造)Mapper:String values = ().split(“.”);Text outputKey = new Text(values1+.+values2);IntWritable outputValue = new IntWritable(values3);(outputKey, outputValue);Reducer:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論