![大數(shù)據(jù)面試題_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/13/816499ac-a22f-4ae1-970b-626c11d927e4/816499ac-a22f-4ae1-970b-626c11d927e41.gif)
![大數(shù)據(jù)面試題_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/13/816499ac-a22f-4ae1-970b-626c11d927e4/816499ac-a22f-4ae1-970b-626c11d927e42.gif)
![大數(shù)據(jù)面試題_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/13/816499ac-a22f-4ae1-970b-626c11d927e4/816499ac-a22f-4ae1-970b-626c11d927e43.gif)
![大數(shù)據(jù)面試題_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/13/816499ac-a22f-4ae1-970b-626c11d927e4/816499ac-a22f-4ae1-970b-626c11d927e44.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、單項(xiàng)選擇題1. 下面哪個(gè)程序負(fù)責(zé) HDFS 數(shù)據(jù)存儲(chǔ)。 a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker2. HDfS 中的 block 默認(rèn)保存幾份 ? a)3 份b)2 份 c)1 份 d) 不確定3. 下列哪個(gè)程序通常與 NameNode 在一個(gè)節(jié)點(diǎn)啟動(dòng) ? a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker精選文庫(kù)4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting5. HDFS 默認(rèn) Blo
2、ck Size a)32MBb)64MBc)128MB6. 下列哪項(xiàng)通常是集群的最主要瓶頸 a)CPUb) 網(wǎng)絡(luò)c) 磁盤d) 內(nèi)存7. 關(guān)于 SecondaryNameNode 哪項(xiàng)是正確的 ?a) 它是 NameNode 的熱備b) 它對(duì)內(nèi)存沒(méi)有要求-2精選文庫(kù)c) 它的目的是幫助NameNode合并編輯日志 ,減少NameNode啟動(dòng)時(shí)間d)SecondaryNameNode 應(yīng)與 NameNode 部署到一個(gè)節(jié)點(diǎn)多選題8. 下列哪項(xiàng)可以作為集群的管理工具 a)Puppetb)Pdshc)Cloudera Manager d)d)Zookeeper9. 配置機(jī)架感知的下面哪項(xiàng)正確a) 如
3、果一個(gè)機(jī)架出問(wèn)題,不會(huì)影響數(shù)據(jù)讀寫b) 寫入數(shù)據(jù)的時(shí)候會(huì)寫到不同機(jī)架的 DataNode 中c)MapReduce 會(huì)根據(jù)機(jī)架獲取離自己比較近的網(wǎng)絡(luò)數(shù)據(jù)10. Client端上傳文件的時(shí)候下列哪項(xiàng)正確a) 數(shù)據(jù)經(jīng)過(guò) NameNode 傳遞給 DataNode b)Client 端將文件切分為 Block ,依次上傳-3精選文庫(kù)c)Client只上傳數(shù)據(jù)到一臺(tái)DataNode , 然后由NameNode 負(fù)責(zé)Block復(fù)制工作11. 下列哪個(gè)是 Hadoop 運(yùn)行的模式a) 單機(jī)版b) 偽分布式c) 分布式12. Cloudera 提供哪幾種安裝 CDH 的方法 a)Cloudera manag
4、erb)Tar ball c)Yum d)Rpm判斷題13. Ganglia 不僅可以進(jìn)行監(jiān)控,也可以進(jìn)行告警。 ( )14. Block Size是不可以修改的。 ( )15. Nagios 不可以監(jiān)控 Hadoop 集群 , 因?yàn)樗惶峁?Hadoop 支持。-4精選文庫(kù)( )16. 如果 NameNode意外終止 , SecondaryNameNode 會(huì)接替它使集群繼續(xù)工作。 ( )17. Cloudera CDH 是需要付費(fèi)使用的。 ( )18. Hadoop是 Java開(kāi)發(fā)的,所以MapReduce 只支持 Java語(yǔ)言編寫。 ( )19. Hadoop 支持?jǐn)?shù)據(jù)的隨機(jī)讀寫。 (
5、)20. NameNode 負(fù)責(zé)管理 metadata ,client端每次讀寫請(qǐng)求,它都會(huì)從磁盤中讀取或則會(huì)寫入metadata信息并反饋 client端。 ( )21. NameNode 本地磁盤保存了 Block 的位置信息。 ( )22. DataNode 通過(guò)長(zhǎng)連接與 NameNode保持通信。 ( )23. Hadoop 自身具有嚴(yán)格的權(quán)限管理和安全措施保障集群正常運(yùn)行。-5精選文庫(kù)( )24. Slave 節(jié)點(diǎn)要存儲(chǔ)數(shù)據(jù),所以它的磁盤越大越好。 ( )25. hadoop dfsadminreport命令用于檢測(cè)HDFS 損壞塊。 ( )26. Hadoop 默認(rèn)調(diào)度器策略為 F
6、IFO( )27. 集群內(nèi)每個(gè)節(jié)點(diǎn)都應(yīng)該配 RAID ,這樣避免單磁盤損壞,影響整個(gè)節(jié)點(diǎn)運(yùn)行。 ( )28. 因?yàn)?HDFS 有多個(gè)副本,所以 NameNode 是不存在單點(diǎn)問(wèn)題的。 ( )29. 每個(gè) map 槽就是一個(gè)線程。 ( )30. Mapreduce的 input split就是一個(gè) block 。( )31. NameNode 的 Web UI端口是 50030 ,它通過(guò) jetty啟動(dòng)的 Web 服務(wù)。( )-6精選文庫(kù)32. Hadoop 環(huán)境變量中的 HADOOP_HEAPSIZE用于設(shè)置所有 Hadoop 守護(hù)線程的內(nèi)存。它默認(rèn)是 200 GB 。( )33. DataN
7、ode首次加入 cluster的時(shí)候,如果log中報(bào)告不兼容文件版本 , 那需要NameNode執(zhí)行“ Hadoop namenode - format ”操作格式化磁盤。 ( )別走開(kāi),答案在后面哦!答案單選題1. 下面哪個(gè)程序負(fù)責(zé) HDFS 數(shù)據(jù)存儲(chǔ)。答案 C datanode a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker-7精選文庫(kù)2. HDfS 中的 block 默認(rèn)保存幾份 ? 答案 A默認(rèn) 3分 a)3 份b)2 份c)1份d) 不確定3. 下列哪個(gè)程序通常與 NameNode 在一個(gè)節(jié)點(diǎn)啟動(dòng) ?答
8、案 D a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker此題分析:hadoop的集群是基于 master/slave模式,namenode和jobtracker屬于master , datanode 和tasktracker屬于 slave , master 只有一個(gè),而 slave 有多個(gè)SecondaryNameNode內(nèi)存需求和 NameNode在一個(gè)數(shù)量級(jí)上,所以通常secondaryNameNode(運(yùn)行在單獨(dú)的物理機(jī)器上) 和NameNode運(yùn)行在不同的機(jī)器上。-8精選文庫(kù)JobTracker 和 TaskTrackerJ
9、obTracker對(duì)應(yīng)于 NameNodeTaskTracker對(duì)應(yīng)于 DataNodeDataNode 和NameNode是針對(duì)數(shù)據(jù)存放來(lái)而言的JobTracker 和 TaskTracker 是對(duì)于 MapReduce執(zhí)行而言的mapreduce中幾個(gè)主要概念, mapreduce整體上可以分為這么幾條執(zhí)行線索: obclient,JobTracker 與TaskTracker 。1、JobClient 會(huì)在用戶端通過(guò) JobClient 類將應(yīng)用已經(jīng)配置參數(shù)打包成jar 文件存儲(chǔ)到 hdfs, 并把路徑提交到 Jobtracker,然后由 JobTracker 創(chuàng)建每一個(gè) Task( 即
10、MapTask和ReduceTask)并將它們分發(fā)到各個(gè) TaskTracker 服務(wù)中去執(zhí)行。2、JobTracker 是一個(gè) master 服務(wù) , 軟件啟動(dòng)之后 JobTracker 接收 Job ,負(fù)責(zé)調(diào)度 Job的每一個(gè)子任務(wù) task 運(yùn)行于 TaskTracker 上 , 并監(jiān)控它們 , 如果發(fā)現(xiàn)有失敗的 task 就重新運(yùn)行它。一般情況應(yīng)該把JobTracker 部署在單獨(dú)的機(jī)器上。-9精選文庫(kù)3、TaskTracker 是運(yùn)行在多個(gè)節(jié)點(diǎn)上的 slaver 服務(wù)。 TaskTracker 主動(dòng)與JobTracker 通信,接收作業(yè),并負(fù)責(zé)直接執(zhí)行每一個(gè)任務(wù)。TaskTracke
11、r 都需要運(yùn)行在 HDFS的DataNode上。4. Hadoop 作者 答案 C Doug cutting a)Martin Fowlerb)Kent Beck c)Doug cutting5. HDFS 默認(rèn) Block Size答案: Ba)32MBb)64MBc)128MB( 因?yàn)榘姹靖鼡Q較快,這里答案只供參考)6. 下列哪項(xiàng)通常是集群的最主要瓶頸:答案: C磁盤 a)CPUb) 網(wǎng)絡(luò)c) 磁盤 IO-10精選文庫(kù)d) 內(nèi)存該題解析:首先集群的目的是為了節(jié)省成本, 用廉價(jià)的 pc機(jī) , 取代小型機(jī)及大型機(jī)。小型機(jī)和大型機(jī)有什么特點(diǎn)?1.cpu 處理能力強(qiáng)2. 內(nèi)存夠大所以集群的瓶頸不可
12、能是 a和d3. 網(wǎng)絡(luò)是一種稀缺資源,但是并不是瓶頸。4. 由于大數(shù)據(jù)面臨海量數(shù)據(jù) , 讀寫數(shù)據(jù)都需要 io ,然后還要冗余數(shù)據(jù) ,hadoop一般備 3份數(shù)據(jù),所以 IO就會(huì)打折扣。7. 關(guān)于 SecondaryNameNode 哪項(xiàng)是正確的 ?答案 Ca) 它是 NameNode 的熱備b) 它對(duì)內(nèi)存沒(méi)有要求-11精選文庫(kù)c) 它的目的是幫助NameNode合并編輯日志 ,減少NameNode啟動(dòng)時(shí)間d)SecondaryNameNode 應(yīng)與 NameNode 部署到一個(gè)節(jié)點(diǎn)。多選題8. 下列哪項(xiàng)可以作為集群的管理 ?答案: ABD a)Puppetb)Pdshc)Cloudera Ma
13、nager d)Zookeeper9. 配置機(jī)架感知的下面哪項(xiàng)正確:答案 ABCa) 如果一個(gè)機(jī)架出問(wèn)題,不會(huì)影響數(shù)據(jù)讀寫b) 寫入數(shù)據(jù)的時(shí)候會(huì)寫到不同機(jī)架的 DataNode 中c)MapReduce 會(huì)根據(jù)機(jī)架獲取離自己比較近的網(wǎng)絡(luò)數(shù)據(jù)10. Client端上傳文件的時(shí)候下列哪項(xiàng)正確 ?答案 Ba) 數(shù)據(jù)經(jīng)過(guò) NameNode 傳遞給 DataNode b)Client 端將文件切分為 Block ,依次上傳-12精選文庫(kù)c)Client只上傳數(shù)據(jù)到一臺(tái)DataNode , 然后由NameNode 負(fù)責(zé)Block復(fù)制工作該題分析:Client 向NameNode發(fā)起文件寫入的請(qǐng)求。Name
14、Node根據(jù)文件大小和文件塊配置情況, 返回給 Client 它所管理部分DataNode的信息。Client 將文件劃分為多個(gè) Block ,根據(jù) DataNode的地址信息,按順序?qū)懭氲矫恳粋€(gè) DataNode塊中。11. 下列哪個(gè)是 Hadoop 運(yùn)行的模式:答案 ABCa) 單機(jī)版b) 偽分布式c) 分布式12. Cloudera 提供哪幾種安裝 CDH 的方法 ?答案: ABCD a)Cloudera manager-13精選文庫(kù)b)Tarballc)Yumd)Rpm判斷題13. Ganglia 不僅可以進(jìn)行監(jiān)控,也可以進(jìn)行告警。 ( 正確 )分析:此題的目的是考 Ganglia 的
15、了解。嚴(yán)格意義上來(lái)講是正確。ganglia 作為一款最常用的 Linux 環(huán)境中的監(jiān)控軟件, 它擅長(zhǎng)的的是從節(jié)點(diǎn)中按照用戶的需求以較低的代價(jià)采集數(shù)據(jù)。但是ganglia 在預(yù)警以及發(fā)生事件后通知用戶上并不擅長(zhǎng)。最新的ganglia 已經(jīng)有了部分這方面的功能。但是更擅長(zhǎng)做警告的還有 Nagios 。Nagios , 就是一款精于預(yù)警、通知的軟件。通過(guò)將Ganglia 和Nagios 組合起來(lái) , 把Ganglia 采集的數(shù)據(jù)作為 Nagios 的數(shù)據(jù)源 , 然后利用 Nagios 來(lái)發(fā)送預(yù)警通知,可以完美的實(shí)現(xiàn)一整套監(jiān)控管理的系統(tǒng)。14. Block Size是不可以修改的。 ( 錯(cuò)誤 )分析
16、: 它是可以被修改的 Hadoop的基礎(chǔ)配置文件是 hadoop-default.xml,默認(rèn)建立一個(gè) Job的時(shí)候會(huì)建立 Job的Config,Config 首先讀入 hadoop-14精選文庫(kù)default.xml的配置 , 然后再讀入 hadoop-site.xml的配置 ( 這個(gè)文件初始的時(shí)候配置為空 ) , hadoop-site.xml中主要配置需要覆蓋的hadoop-default.xml的系統(tǒng)級(jí)配置。15.Nagios不可以監(jiān)控Hadoop 集群 , 因?yàn)樗惶峁〩adoop 支持。(錯(cuò)誤 )分析: Nagios 是集群監(jiān)控工具,而且是云計(jì)算三大利器之一16. 如果 NameN
17、ode意外終止 , SecondaryNameNode 會(huì)接替它使集群繼續(xù)工作。 ( 錯(cuò)誤 )分析: SecondaryNameNode是幫助恢復(fù),而不是替代,如何恢復(fù),可以查看17. Cloudera CDH是需要付費(fèi)使用的。 ( 錯(cuò)誤 )分析:第一套付費(fèi)產(chǎn)品是Cloudera Enterpris,Cloudera Enterprise在美國(guó)加州舉行的Hadoop 大會(huì) (Hadoop Summit)上公開(kāi),以若干私有管理、監(jiān)控、運(yùn)作工具加強(qiáng)Hadoop 的功能。收費(fèi)采取合約訂購(gòu)方式, 價(jià)格隨用的-15精選文庫(kù)Hadoop 叢集大小變動(dòng)。18. Hadoop是 Java開(kāi)發(fā)的,所以MapRe
18、duce 只支持 Java語(yǔ)言編寫。 (錯(cuò)誤 )分析: rhadoop 是用 R語(yǔ)言開(kāi)發(fā)的, MapReduce是一個(gè)框架,可以理解是一種思想,可以使用其他語(yǔ)言開(kāi)發(fā)。19. Hadoop 支持?jǐn)?shù)據(jù)的隨機(jī)讀寫。 ( 錯(cuò) )分析: lucene 是支持隨機(jī)讀寫的,而hdfs 只支持隨機(jī)讀。但是 HBase可以來(lái)補(bǔ)救。 HBase提供隨機(jī)讀寫, 來(lái)解決 Hadoop不能處理的問(wèn)題。 HBase自底層設(shè)計(jì)開(kāi)始即聚焦于各種可伸縮性問(wèn)題:表可以很“高”,有數(shù)十億個(gè)數(shù)據(jù)行;也可以很“寬”, 有數(shù)百萬(wàn)個(gè)列 ; 水平分區(qū)并在上千個(gè)普通商用機(jī)節(jié)點(diǎn)上自動(dòng)復(fù)制。表的模式是物理存儲(chǔ)的直接反映, 使系統(tǒng)有可能提高高效的數(shù)
19、據(jù)結(jié)構(gòu)的序列化、存儲(chǔ)和檢索。20. NameNode 負(fù)責(zé)管理 metadata ,client端每次讀寫請(qǐng)求,它都會(huì)從磁盤中讀取或則會(huì)寫入metadata信息并反饋 client端。 ( 錯(cuò)誤 )-16精選文庫(kù)此題分析:NameNode 不需要從磁盤讀取metadata ,所有數(shù)據(jù)都在內(nèi)存中, 硬盤上的只是序列化的結(jié)果,只有每次namenode 啟動(dòng)的時(shí)候才會(huì)讀取。1) 文件寫入Client 向NameNode發(fā)起文件寫入的請(qǐng)求。NameNode根據(jù)文件大小和文件塊配置情況, 返回給 Client 它所管理部分DataNode的信息。Client 將文件劃分為多個(gè) Block ,根據(jù) Dat
20、aNode的地址信息,按順序?qū)懭氲矫恳粋€(gè) DataNode塊中。2) 文件讀取 Client 向NameNode發(fā)起文件讀取的請(qǐng)求。21. NameNode本地磁盤保存了 Block 的位置信息。 ( 個(gè)人認(rèn)為 正確 ,歡迎提出其它意見(jiàn) )-17精選文庫(kù)分析: DataNode是文件存儲(chǔ)的基本單元,它將Block 存儲(chǔ)在本地文件系統(tǒng)中,保存了 Block 的Meta-data ,同時(shí)周期性地將所有存在的Block 信息發(fā)送給NameNode。NameNode返回文件存儲(chǔ)的 DataNode的信息。 Client 讀取文件信息。22. DataNode通過(guò)長(zhǎng)連接與NameNode保持通信。 (
21、)這個(gè)有分歧:具體正在找這方面的有利資料。下面提供資料可參考。首先明確一下概念:(1). 長(zhǎng)連接 Client 方與 Server 方先建立通訊連接, 連接建立后不斷開(kāi),然后再進(jìn)行報(bào)文發(fā)送和接收。這種方式下由于通訊連接一直存在, 此種方式常用于點(diǎn)對(duì)點(diǎn)通訊。(2). 短連接 Client 方與 Server 每進(jìn)行一次報(bào)文收發(fā)交易時(shí)才進(jìn)行通訊連接 , 交易完畢后立即斷開(kāi)連接。此種方式常用于一點(diǎn)對(duì)多點(diǎn)通訊, 比如多個(gè)Client 連接一個(gè) Server.23.Hadoop自身具有嚴(yán)格的權(quán)限管理和安全措施保障集群正常運(yùn)行。-18精選文庫(kù)(錯(cuò)誤 )hadoop只能阻止好人犯錯(cuò),但是不能阻止壞人干壞事2
22、4. Slave 節(jié)點(diǎn)要存儲(chǔ)數(shù)據(jù),所以它的磁盤越大越好。 ( 錯(cuò)誤 )分析:一旦 Slave 節(jié)點(diǎn)宕機(jī),數(shù)據(jù)恢復(fù)是一個(gè)難題25. hadoop dfsadminreport命令用于檢測(cè)HDFS 損壞塊。 ( 錯(cuò)誤 )26. Hadoop 默認(rèn)調(diào)度器策略為 FIFO( 正確 )27. 集群內(nèi)每個(gè)節(jié)點(diǎn)都應(yīng)該配 RAID ,這樣避免單磁盤損壞,影響整個(gè)節(jié)點(diǎn)運(yùn)行。 ( 錯(cuò)誤 )分析 : 首先明白什么是 RAID, 可以參考百科磁盤陣列。這句話錯(cuò)誤的地方在于太絕對(duì), 具體情況具體分析。題目不是重點(diǎn), 知識(shí)才是最重要的。因?yàn)閔adoop本身就具有冗余能力 , 所以如果不是很嚴(yán)格不需要都配備 RAID。具體參考第二題。-19精選文庫(kù)28.因?yàn)?HDFS 有多個(gè)副本,所以NameNode 是不存在單點(diǎn)問(wèn)題的。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 木工包清工合同
- 高層建筑裝修安全合同范例
- 2025年度包裝咨詢行業(yè)集體勞動(dòng)合同(含員工培訓(xùn))
- 二零二五年度辦公室智能化改造勞動(dòng)合同模板
- 房屋買賣委托代理合同年
- 電子支付領(lǐng)域的風(fēng)險(xiǎn)控制與安全管理
- 農(nóng)業(yè)產(chǎn)業(yè)鏈智能化改造與升級(jí)指南
- 合同轉(zhuǎn)包協(xié)議書(shū)
- 商品房買賣合同發(fā)布
- 勞務(wù)承包合同書(shū)樣本
- DL∕T 974-2018 帶電作業(yè)用工具庫(kù)房
- Unit 2 We're going to do some research(教案)-2023-2024學(xué)年湘少版(三起)英語(yǔ)五年級(jí)下冊(cè)
- 緊密型縣域醫(yī)療衛(wèi)生共同體慢病管理中心運(yùn)行指南試行等15個(gè)指南
- 基金應(yīng)知應(yīng)會(huì)專項(xiàng)考試題庫(kù)(證券類190題)附有答案
- 快速入門穿越機(jī)-讓你迅速懂穿越機(jī)
- 水利安全生產(chǎn)風(fēng)險(xiǎn)防控“六項(xiàng)機(jī)制”右江模式經(jīng)驗(yàn)分享
- 幼兒園衛(wèi)生保健開(kāi)學(xué)培訓(xùn)
- 食材配送服務(wù)售后服務(wù)方案
- 新目標(biāo)(goforit)版初中英語(yǔ)九年級(jí)(全一冊(cè))全冊(cè)教案-unit
- 《如何做一名好教師》課件
- 2016-2023年婁底職業(yè)技術(shù)學(xué)院高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
評(píng)論
0/150
提交評(píng)論