Hadoop練習(xí)測試題附答案_第1頁
Hadoop練習(xí)測試題附答案_第2頁
Hadoop練習(xí)測試題附答案_第3頁
Hadoop練習(xí)測試題附答案_第4頁
Hadoop練習(xí)測試題附答案_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第頁Hadoop練習(xí)測試題附答案1.以下哪個命令用于移動文件?A、hadoopfs-mvB、hadoopfs-mkdirC、hadoopfs-touchzD、hadoopfs-rm【正確答案】:A解析:

hadoopfs-mv將文件從源路徑移動到目標(biāo)路徑。2.Hive中修改表結(jié)構(gòu)時,使用()關(guān)鍵字添加列。ADDCOLUMNB、INSERTCOLUMNC、UPDATECOLUMND、CHANGECOLUMN【正確答案】:A解析:

在Hive中使用ADDCOLUMN關(guān)鍵字來添加列到表結(jié)構(gòu)中,INSERTCOLUMN、UPDATECOLUMN不是正確的修改表結(jié)構(gòu)添加列的關(guān)鍵字,CHANGECOLUMN主要用于修改列名等操作。3.下列不屬于Hadoop集群環(huán)境搭建模式的是()。A、單機環(huán)境B、偽分布式環(huán)境C、完全分布式環(huán)境D、嵌入式分布式環(huán)境【正確答案】:D4.Fsimage文件是什么?A、HDFS文件系統(tǒng)元數(shù)據(jù)的一個永久性的檢查點,包含所有目錄和文件inode的序列化信息B、存放HDFS文件系統(tǒng)的所有更新操作的路徑C、記錄DataNode的心跳信息D、用于存儲文件數(shù)據(jù)內(nèi)容【正確答案】:A解析:

Fsimage文件是HDFS文件系統(tǒng)元數(shù)據(jù)的一個永久性的檢查點,包含相關(guān)序列化信息。5.在安裝Linux虛擬機時,選擇客戶機操作系統(tǒng)版本為()。A、CentOS632位B、CentOS764位C、Ubuntu18.0464位D、Windows1064位【正確答案】:B解析:

在創(chuàng)建Linux虛擬機的過程中,明確選擇的客戶機操作系統(tǒng)版本是CentOS764位,這是根據(jù)后續(xù)安裝和配置Hadoop集群的需求以及文檔中指定的操作步驟所確定的。其他選項如CentOS632位、Ubuntu18.0464位和Windows1064位均不符合文檔中的安裝要求。6.在Hive中,查詢語句中使用DISTINCT關(guān)鍵字的作用是()。A、對查詢結(jié)果進行排序B、去除查詢結(jié)果中的重復(fù)行C、選擇特定列進行查詢D、限制查詢結(jié)果數(shù)量【正確答案】:B解析:

DISTINCT關(guān)鍵字用于去除查詢結(jié)果中的重復(fù)行,而不是排序、選擇特定列(選擇特定列用列名指定)或限制查詢結(jié)果數(shù)量(限制數(shù)量用LIMIT關(guān)鍵字)。7.HDFS的副本機制中,副本數(shù)由哪個參數(shù)控制?A、dfs.replicationB、dfs.copyC、dfs.backupD、dfs.duplicate【正確答案】:A解析:

副本數(shù)由參數(shù)dfs.replication控制,默認(rèn)值是3。8.以下哪種調(diào)度器是Hadoop1.x中JobTracker原有的調(diào)度器實現(xiàn),在YARN中保留下來的?()A、FIFOSchedulerB、CapacitySchedulerC、FairSchedulerD、以上都不是【正確答案】:A解析:

FIFOScheduler是Hadoop1.x中JobTracker原有的調(diào)度器實現(xiàn),在YARN中保留了下來,所以答案選A。9.下列關(guān)于YUM命令的options選項說法錯誤的是()。A、-h:顯示幫助信息B、-y:對所有的提問都回答“yes”C、-c:指定配置文件D、-d:刪除文件【正確答案】:D10.啟動Hadoop集群的順序是()。

①start-dfs.sh

②start-yarn.sh

③mr-jobhistory-daemon.shstarthistoryserverA、①②③B、②①③C、③②①D、③①②【正確答案】:A11.在Hive中有兩張表,用戶表(user_table)包含用戶ID(user_id)、用戶名(user_name)等字段,訂單表(order_table)包含訂單ID(order_id)、用戶ID(user_id)、訂單金額(order_amount)等字段。要查詢每個用戶的總訂單金額,以下哪種HiveQL語句是正確的?A、SELECTuser_name,SUM(order_amount)FROMuser_tableJOINorder_tableONuser_table.user_id=order_table.user_idGROUPBYuser_nameB、SELECTuser_id,SUM(order_amount)FROMuser_tableJOINorder_tableGROUPBYuser_idC、SELECTuser_name,order_amountFROMuser_tableJOINorder_tableONuser_table.user_id=order_table.user_idD、SELECTuser_id,MAX(order_amount)FROMuser_tableJOINorder_tableONuser_table.user_id=order_table.user_idGROUPBYuser_id【正確答案】:A解析:

要查詢每個用戶的總訂單金額,需要通過用戶ID將用戶表和訂單表進行關(guān)聯(lián)(使用JOINON條件),然后根據(jù)用戶名進行分組(GROUPBYuser_name),并計算每個用戶的訂單金額總和(SUM(order_amount));B選項沒有正確關(guān)聯(lián)條件且分組字段不準(zhǔn)確;C選項沒有計算總金額;D選項計算的是每個用戶的最大訂單金額,而不是總金額。###原理應(yīng)用型(基于Hive原理選擇操作)12.在Hive中,視圖是()。A、可更新的B、只讀的C、可刪除的D、可插入數(shù)據(jù)的【正確答案】:B解析:

Hive的視圖是只讀的,依賴的基本表數(shù)據(jù)增加不會影響視圖呈現(xiàn),但如果刪除基本表會出現(xiàn)問題,視圖本身不可更新、插入數(shù)據(jù)(雖然可以通過特殊方式間接更新,但本質(zhì)上視圖設(shè)計為只讀),也不是專門用于刪除操作的。13.YARN集群中的主角色,決定系統(tǒng)中所有應(yīng)用程序之間資源分配最終權(quán)限的是()。A、NodeManagerB、ApplicationMasterC、ResourceManagerD、Client【正確答案】:C解析:

ResourceManager是YARN集群中的主角色,負(fù)責(zé)決定系統(tǒng)中所有應(yīng)用程序之間資源分配的最終權(quán)限,所以答案選C。14.在Hive數(shù)據(jù)倉庫應(yīng)用中,為了更好地展示數(shù)據(jù)分析結(jié)果,需要與數(shù)據(jù)可視化工具集成。以下哪個不是常見的數(shù)據(jù)可視化工具與Hive集成的方式()。A、通過JDBC連接Hive,將查詢結(jié)果導(dǎo)出到可視化工具中進行展示B、使用Hive的內(nèi)置可視化功能直接生成圖表C、將Hive數(shù)據(jù)導(dǎo)出為特定格式(如CSV),然后導(dǎo)入到可視化工具中D、利用中間層(如HiveServer2)提供數(shù)據(jù)服務(wù),可視化工具連接中間層獲取數(shù)據(jù)【正確答案】:B解析:

Hive本身沒有強大的內(nèi)置可視化功能直接生成復(fù)雜圖表;通過JDBC連接、導(dǎo)出數(shù)據(jù)為特定格式或利用中間層提供數(shù)據(jù)服務(wù)都是常見的與可視化工具集成的方式。###數(shù)據(jù)備份與恢復(fù)策略15.在Hive中,當(dāng)創(chuàng)建一個分區(qū)表并加載數(shù)據(jù)后,數(shù)據(jù)在HDFS上的存儲布局是()。A、所有數(shù)據(jù)存儲在一個文件中,分區(qū)信息存儲在元數(shù)據(jù)中B、每個分區(qū)對應(yīng)一個文件夾,數(shù)據(jù)文件存儲在相應(yīng)分區(qū)文件夾下C、數(shù)據(jù)隨機分布在HDFS上,分區(qū)信息通過索引指向數(shù)據(jù)位置D、數(shù)據(jù)按照行存儲在不同的文件中,分區(qū)字段作為文件名的一部分【正確答案】:B解析:

Hive分區(qū)表在HDFS上的存儲布局是每個分區(qū)對應(yīng)一個文件夾,數(shù)據(jù)文件存儲在相應(yīng)分區(qū)文件夾下,這樣便于根據(jù)分區(qū)快速定位和管理數(shù)據(jù);不是所有數(shù)據(jù)在一個文件,也不是隨機分布或按行存儲且分區(qū)字段作文件名一部分。###數(shù)據(jù)類型特性應(yīng)用16.MapReduce的核心原理由哪兩個階段組成?A、Map和ReduceB、Split和MergeC、Load和StoreD、Input和Output【正確答案】:A解析:

MapReduce的核心原理由Map(映射)和Reduce(規(guī)約)兩個階段組成。17.使用MapReduce查詢某個部門中薪資最高的員工姓名,如果輸出結(jié)果的格式為“薪資員工姓名”,例如“8000Alice”(假設(shè)薪資均為整數(shù)),那么輸出鍵值對格式應(yīng)該為()。A、job.setOutputKeyClass(IntWritable.class);job.setOutputValueClass(Text.class);B、job.setOutputKeyClass(IntWritable.class);job.setOutputValueClass(LongWritable.

Class);C、job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);D、job.setOutputKeyClass(Text.class);job.setOutputValueClass(FloatWritable.class);【正確答案】:A18.在Hive數(shù)據(jù)倉庫運行過程中,為了監(jiān)控其性能,以下哪個指標(biāo)不太重要()。A、Hive查詢的執(zhí)行時間B、Hive表的數(shù)據(jù)存儲容量C、MapReduce任務(wù)的資源利用率(如CPU、內(nèi)存使用情況)D、數(shù)據(jù)加載到Hive表的速度【正確答案】:B解析:

Hive查詢執(zhí)行時間、MapReduce任務(wù)資源利用率和數(shù)據(jù)加載速度都直接反映了Hive數(shù)據(jù)倉庫的性能表現(xiàn),而表的數(shù)據(jù)存儲容量本身并不直接體現(xiàn)性能狀況(雖然可能間接影響性能,但相對其他指標(biāo)不是關(guān)鍵性能監(jiān)控指標(biāo))。19.配置本地YUM源時,需要將CentOS-Media.repo文件中的baseurl的值修改為()。A、/centos/7/os/x86_64/B、file:///media/C、/7.8.2003/os/x86_64/D、/centos/7/os/x86_64/【正確答案】:B解析:

在配置本地YUM源的操作步驟中,明確說明要將CentOS-Media.repo文件中的baseurl的值修改為file:///media/,以便從本地媒體(如掛載的光盤鏡像)獲取軟件包。其他選項的URL地址不符合本地YUM源配置的要求,分別指向了阿里云鏡像、CentOS官方Vault倉庫和FTP鏡像等不同的源地址。20.使用Xmanager遠程連接Linux虛擬機前,需要修改VMwareWorkstation的虛擬網(wǎng)絡(luò),將VMnet8的子網(wǎng)IP修改為()。A、B、C、D、【正確答案】:B解析:

文檔中明確指出在使用Xmanager遠程連接前,要將VMware的虛擬網(wǎng)絡(luò)VMnet8的子網(wǎng)IP修改為,以確保虛擬機處于同一子網(wǎng)內(nèi),便于遠程連接和后續(xù)的Hadoop集群配置。其他選項的IP地址不符合文檔中的設(shè)置要求。21.現(xiàn)有一個節(jié)點,在節(jié)點中有解壓的Hadoop安裝包(未配置),若搭建包含4個節(jié)點的Hadoop集群,則下列選項中步驟正確的是()。

①克隆虛擬機

②配置SSH免密碼登錄

③格式化NameNode

④修改配置文件

⑤配置時間同步服務(wù)A、④①②⑤③B、③②①⑤④C、⑤①③②④D、②⑤④①③【正確答案】:A22.Apache版本YARN默認(rèn)使用的調(diào)度器是()。A、FIFOSchedulerB、CapacitySchedulerC、FairSchedulerD、以上都不是【正確答案】:B解析:

Apache版本YARN默認(rèn)使用CapacityScheduler,所以答案選B。23.Reducer類在MapReduce中的作用是什么?A、讀取輸入數(shù)據(jù)B、處理Mapper輸出的中間數(shù)據(jù)C、合并最終結(jié)果D、設(shè)置MapReduce作業(yè)【正確答案】:B解析:

Reducer類負(fù)責(zé)處理Mapper輸出的中間數(shù)據(jù),并生成最終輸出結(jié)果,然后存儲到HDFS中。24.以下不屬于YARN三大組件的是()。A、ResourceManagerB、NodeManagerC、ApplicationMasterD、HDFS【正確答案】:D解析:

YARN三大組件包括ResourceManager、NodeManager、ApplicationMaster,HDFS不屬于YARN組件,所以答案選D。25.Hive中創(chuàng)建外部表時,使用的關(guān)鍵字是()。A、EXTERNALB、PARTITIONEDCLUSTEREDD、SORTED【正確答案】:A解析:

EXTERNAL關(guān)鍵字用于創(chuàng)建外部表,在建表時指定一個指向?qū)嶋H數(shù)據(jù)的路徑,不對數(shù)據(jù)位置做改變;PARTITIONED用于創(chuàng)建分區(qū)表,CLUSTERED用于將表組織成桶,SORTED用于對列排序。26.在Linux虛擬機下安裝Java時,使用的JDK安裝包格式為()。A、.exeB、.tar.gzC、.msiD、.rpm【正確答案】:D解析:

文檔中詳細(xì)描述了在Linux虛擬機下安裝Java的過程,上傳的JDK安裝包為jdk-8u281-linux-x64.rpm,因此使用的是.rpm格式的安裝包。.exe格式通常用于Windows系統(tǒng)的安裝程序,.tar.gz格式一般是壓縮包,需要解壓后再進行安裝配置,.msi格式也是Windows系統(tǒng)下的安裝包格式,均不符合在Linux系統(tǒng)下安裝Java的要求。27.HDFS中的文件在物理上是分塊存儲的,塊的大小可以通過哪個配置參數(shù)來規(guī)定?A、dfs.blocksizeB、dfs.filesizeC、dfs.chunksizeD、dfs.metadatasize【正確答案】:A解析:

PPT中提到塊的大小可以通過配置參數(shù)來規(guī)定,參數(shù)位于hdfs-default.xml中:dfs.blocksize。28.在MapReduce中,Driver類的主要作用不包括以下哪項?A、指定Mapper和Reducer類B、設(shè)置作業(yè)名C、提交MapReduce作業(yè)D、處理輸入輸出數(shù)據(jù)【正確答案】:D解析:

Driver類的主要作用是指定Mapper和Reducer類、設(shè)置作業(yè)名和提交MapReduce作業(yè),而不直接處理輸入輸出數(shù)據(jù)。29.Hive將HQL轉(zhuǎn)換為()程序來執(zhí)行查詢分析。A、JavaB、PythonC、MapReduceD、C++【正確答案】:C解析:

Hive核心是將HQL轉(zhuǎn)換為MapReduce程序,然后將程序提交到Hadoop群集執(zhí)行,不是轉(zhuǎn)換為Java、Python或C++程序。30.某電信公司使用Hive存儲用戶通話記錄數(shù)據(jù),數(shù)據(jù)包含通話時間、通話時長、主叫號碼、被叫號碼等字段。如果要統(tǒng)計每個用戶每月的通話總時長,應(yīng)該按照以下哪種方式建表更合適()。A、創(chuàng)建一個普通表,將所有數(shù)據(jù)存儲在一起,在查詢時通過函數(shù)計算每月通話時長B、創(chuàng)建一個分區(qū)表,以用戶號碼為分區(qū)字段,在查詢時統(tǒng)計每個分區(qū)內(nèi)的數(shù)據(jù)C、創(chuàng)建一個分區(qū)表,以通話時間的年份和月份為分區(qū)字段,在查詢時統(tǒng)計每個分區(qū)內(nèi)的數(shù)據(jù)D、創(chuàng)建一個桶表,根據(jù)用戶號碼進行分桶,在查詢時統(tǒng)計每個桶內(nèi)的數(shù)據(jù)【正確答案】:C解析:

按通話時間的年份和月份為分區(qū)字段創(chuàng)建分區(qū)表,能方便地在查詢時直接定位到特定月份的數(shù)據(jù),快速統(tǒng)計每個用戶每月的通話總時長;普通表查詢時計算效率低;僅以用戶號碼分區(qū)不利于按月份統(tǒng)計;桶表主要用于提高特定類型查詢效率,在此場景不如分區(qū)表合適。###優(yōu)化策略選擇31.以下哪個命令用于創(chuàng)建目錄?A、hadoopfs-rmB、hadoopfs-rmdirC、hadoopfs-touchzD、hadoopfs-mkdir【正確答案】:D解析:

hadoopfs-mkdir接受路徑指定的uri作為參數(shù),創(chuàng)建這些目錄。32.在MapReduce編程中,哪個類負(fù)責(zé)設(shè)置MapReduce作業(yè),并在Hadoop中運行?A、Mapper類B、Reducer類C、Driver類D、WordCount類【正確答案】:C解析:

Driver類負(fù)責(zé)設(shè)置MapReduce作業(yè),并在Hadoop中運行。33.在Hive中使用LOADDATA語句加載數(shù)據(jù)時,以下哪種情況可能導(dǎo)致加載性能較低()。A、加載的數(shù)據(jù)文件在本地文件系統(tǒng),且與Hive服務(wù)在同一節(jié)點B、加載的數(shù)據(jù)文件已經(jīng)在HDFS上,且與目標(biāo)表在同一目錄結(jié)構(gòu)下C、加載的數(shù)據(jù)文件較大,且沒有進行任何預(yù)處理(如壓縮)D、加載的數(shù)據(jù)文件格式與目標(biāo)表定義的格式完全匹配【正確答案】:C解析:

加載較大且未預(yù)處理的數(shù)據(jù)文件時,由于數(shù)據(jù)量大且未優(yōu)化(如壓縮可減少傳輸和存儲開銷),可能導(dǎo)致加載性能較低;數(shù)據(jù)文件在本地且與Hive服務(wù)在同一節(jié)點或在HDFS上且與目標(biāo)表目錄結(jié)構(gòu)合理以及格式匹配都有利于提高加載性能。###數(shù)據(jù)查詢效率對比34.在MapReduce程序中,Reducer模塊中的自定義MaxReducer類繼承()父類。A、MapB、ReducerC、ReduceD、Partitioner【正確答案】:B35.MapReduce不適合哪種類型的計算?A、并行計算B、實時計算C、離線處理D、流式計算【正確答案】:B解析:

MapReduce不擅長實時計算,因為它無法在毫秒或秒級內(nèi)返回結(jié)果。36.在MapReduce的Reduce階段,ReduceTask會主動從哪里復(fù)制拉取屬于自己需要處理的數(shù)據(jù)?A、DataNodeB、NamenodeC、MapTaskD、Client【正確答案】:C解析:

ReduceTask會主動從MapTask復(fù)制拉取屬于需要自己處理的數(shù)據(jù)。37.在Hadoop配置文件中,用于配置HDFS文件系統(tǒng)的NameNode端口的是()。A、core-site.xml中的fs.defaultFSB、hadoop-env.sh中的JAVA_HOMEC、mapred-site.xml中的D、yarn-site.xml中的yarn.resourcemanager.hostname【正確答案】:A解析:

core-site.xml是Hadoop的核心配置文件,其中的fs.defaultFS屬性用于配置Hadoop的HDFS文件系統(tǒng)的NameNode端口,這是Hadoop集群正常運行的關(guān)鍵配置之一。hadoop-env.sh中的JAVA_HOME主要用于指定JDK的安裝目錄,為Hadoop運行提供Java環(huán)境;mapred-site.xml中的用于指定MapReduce框架的運行模式;yarn-site.xml中的yarn.resourcemanager.hostname用于指定YARN資源管理器的主機名,它們的功能均與配置NameNode端口不同。38.如何設(shè)置作業(yè)使用的Java類?A、setJarByClass()B、setMapperClass()C、setReducerClass()D、setJobName()【正確答案】:A解析:

setJarByClass()方法用于指定作業(yè)使用的Java類,這通常是包含Driver類的類。39.KeyValueTextInputFormat的默認(rèn)分隔符是什么?A、空格B、逗號C、制表符(\t)D、換行符【正確答案】:C解析:

KeyValueTextInputFormat的每一行均為一條記錄,被分隔符分割為key,value。默認(rèn)分隔符是制表符(\t)。40.WordCount案例中,Map階段的核心是什么?A、對輸入數(shù)據(jù)進行排序B、對輸入數(shù)據(jù)進行過濾C、把輸入的數(shù)據(jù)經(jīng)過切割,全部標(biāo)記1D、合并相同的key【正確答案】:C解析:

CWordCount案例中,Map階段的核心是把輸入的數(shù)據(jù)經(jīng)過切割,全部標(biāo)記1,因此41.在HDFS上創(chuàng)建了一個錯誤的目錄/Tipdm/Spark,現(xiàn)需要刪除這個目錄,可以使用的命令是()。A、hdfsdfs-rm/Tipdm/SparkB、hdfsdfs-delete/Tipdm/SparkC、hdfsdfs-drop/Tipdm/SparkD、hdfsdfs-rmdir/Tipdm/Spark【正確答案】:D42.以下哪個命令用于刪除指定的文件(只刪除非空目錄和文件)?A、hadoopfs-rmB、hadoopfs-rmdirC、hadoopfs-touchzD、hadoopfs-mkdir【正確答案】:A解析:

hadoopfs-rm刪除指定的文件(只刪除非空目錄和文件)。43.在Hive中,如果一個表中的某列數(shù)據(jù)類型為DECIMAL(10,2),以下關(guān)于該列數(shù)據(jù)的說法正確的是()。A、該列可以存儲最多10位整數(shù)和2位小數(shù)的數(shù)值,超出范圍會自動四舍五入B、該列可以存儲任意精度的數(shù)值,10和2只是表示一種格式約定C、該列只能存儲整數(shù),小數(shù)部分會被截斷D、該列存儲的數(shù)值總長度不能超過10位(包括小數(shù)點)【正確答案】:A解析:

DECIMAL(10,2)表示該列可以存儲最多10位整數(shù)和2位小數(shù)的數(shù)值,超出范圍會根據(jù)規(guī)則(如四舍五入等)進行處理;不能存儲任意精度數(shù)值,有精度限制;不是只能存儲整數(shù);數(shù)值總長度是包括整數(shù)位、小數(shù)點和小數(shù)位共10位,而不是不超過10位(包括小數(shù)點)。###數(shù)據(jù)加載性能影響44.以下不屬于Hadoop配置文件的是()。A、hadoop-site.xmlB、hdfs-site.xmlC、mapred-site.xmlD、core-site.xml【正確答案】:A45.yarn-site.xml文件的作用是()。A、設(shè)置了Hadoop基本運行環(huán)境的配置B、設(shè)置了YARN框架運行環(huán)境的配置C、設(shè)置了YARN框架的相關(guān)配置D、設(shè)置了MapReduce框架的相關(guān)配置【正確答案】:C46.Hive中創(chuàng)建表時,用于指定文件存儲格式的是()。A、ROWFORMATB、STOREDASC、LOCATIOND、PARTITIONEDBY【正確答案】:B解析:

STOREDAS用于指文件存儲格式,可選用如SEQUENCEFILE、TEXTFILE等格式;ROWFORMAT用于指定行格式;LOCATION用于指定數(shù)據(jù)庫表在HDFS上的實際路徑;PARTITIONEDBY用于創(chuàng)建分區(qū)表。47.Driver類中用于創(chuàng)建Job對象的方法是?A、Job.getInstance()B、Job.create()C、Job.newInstance()D、Job.build()【正確答案】:A解析:

在Driver類中,Job.getInstance()方法用于創(chuàng)建一個新的Job對象,這是設(shè)置作業(yè)屬性和提交作業(yè)的前提。48.在Hive中,創(chuàng)建數(shù)據(jù)庫時若不指定LOCATION,默認(rèn)存儲在()路徑下。A、/user/hive/warehouse/db_name.db/B、/hive/database/C、/tmp/hive/D、/user/hive/data/【正確答案】:A解析:

默認(rèn)情況下,Hive創(chuàng)建的數(shù)據(jù)庫存儲在/user/hive/warehouse/db_name.db/路徑下,其他選項不是默認(rèn)存儲路徑。49.在Hive數(shù)據(jù)倉庫中,關(guān)于數(shù)據(jù)生命周期管理,以下說法正確的是()。A、數(shù)據(jù)一旦加載到Hive表中,就會一直存儲,直到手動刪除B、可以根據(jù)數(shù)據(jù)的重要性和使用頻率,設(shè)置數(shù)據(jù)的過期時間,自動清理過期數(shù)據(jù)C、Hive會自動根據(jù)數(shù)據(jù)的訪問時間,定期刪除長時間未訪問的數(shù)據(jù)D、數(shù)據(jù)生命周期管理只與數(shù)據(jù)存儲容量有關(guān),與數(shù)據(jù)的業(yè)務(wù)價值無關(guān)【正確答案】:B解析:

在Hive中可以根據(jù)業(yè)務(wù)需求,依據(jù)數(shù)據(jù)重要性和使用頻率等設(shè)置數(shù)據(jù)過期時間,自動清理過期數(shù)據(jù),實現(xiàn)數(shù)據(jù)生命周期管理;數(shù)據(jù)不是加載后就一直存儲,Hive不會自動根據(jù)訪問時間刪除未訪問數(shù)據(jù),數(shù)據(jù)生命周期管理與業(yè)務(wù)價值密切相關(guān),不僅僅是存儲容量問題。###集群資源分配與管理50.在Hive中執(zhí)行一個復(fù)雜的多表連接查詢,發(fā)現(xiàn)查詢速度很慢。以下哪種優(yōu)化策略最有可能提高查詢速度()。A、增加集群中節(jié)點的內(nèi)存容量B、對連接的表提前進行排序C、將連接操作轉(zhuǎn)換為子查詢D、合理設(shè)置MapReduce任務(wù)的參數(shù),如調(diào)整Map和Reduce任務(wù)的數(shù)量【正確答案】:D解析:

合理設(shè)置MapReduce任務(wù)參數(shù),根據(jù)數(shù)據(jù)量和節(jié)點資源情況調(diào)整Map和Reduce任務(wù)數(shù)量,可以優(yōu)化任務(wù)執(zhí)行效率,提高查詢速度;增加內(nèi)存容量不一定能直接解決查詢慢的問題,且可能成本較高;提前排序不一定能有效優(yōu)化多表連接查詢;將連接操作轉(zhuǎn)換為子查詢可能會使查詢更復(fù)雜,不一定提高速度。###數(shù)據(jù)一致性判斷51.在MapReduce框架中,在Mapper和Reducer之間的Shuffle的作用是()。A、對Map的輸出結(jié)果排序B、對Map的輸出結(jié)果再次進行映射C、對中間結(jié)果進行混洗,將相同鍵的鍵值對數(shù)據(jù)進行匯集D、對中間輸出結(jié)果進行壓縮【正確答案】:C52.Hive中復(fù)制表的語法中,LIKE關(guān)鍵字的作用是()。A、復(fù)制表結(jié)構(gòu)和數(shù)據(jù)B、僅復(fù)制表結(jié)構(gòu)C、復(fù)制表數(shù)據(jù)D、復(fù)制表結(jié)構(gòu)并修改數(shù)據(jù)【正確答案】:B解析:

LIKE關(guān)鍵字在Hive復(fù)制表語法中用以聲明用戶復(fù)制現(xiàn)有的表結(jié)構(gòu),但不復(fù)制數(shù)據(jù),如CREATE[TEMPRORARY][EXTERNAL]TABLE[IFNOTEXISTS][db_name.]table_nameLIKEexisting_table_or_view_name[LOCATIONhdfs_path]。53.當(dāng)MapReduce處理數(shù)據(jù)時,下列執(zhí)行流程正確的是()。A、Map—Shuffle—Sort—ReduceB、Shuffle—Map—Sort—ReduceC、Map—Reduce—Shuffle—SortD、Map—Sort—Shuffle—Reduce【正確答案】:A54.在HDFS中,哪個節(jié)點負(fù)責(zé)維護文件系統(tǒng)的namespace名稱空間?A、DataNodeB、SecondaryNameNodeC、NamenodeD、JournalNode【正確答案】:C解析:

Namenode負(fù)責(zé)維護文件系統(tǒng)的namespace名稱空間,這是Namenode的主要職責(zé)之一。55.以下哪個命令用于將hdfs上的多個文件合并到本地文件?A、hadoopfs-getmergeB、hadoopfs-mkdirC、hadoopfs-touchzD、hadoopfs-rm【正確答案】:A解析:

hadoopfs-getmerge接受一個源目錄和一個目標(biāo)文件作為輸入,并且將源目錄中所有的文件連接成本地目標(biāo)文件。56.Hive是一款建立在()之上的開源數(shù)據(jù)倉庫系統(tǒng)。A、HadoopB、SparkC、MySQLD、HBase【正確答案】:A解析:

ApacheHive是建立在Hadoop之上的開源數(shù)據(jù)倉庫系統(tǒng),可將Hadoop文件中的數(shù)據(jù)文件映射為數(shù)據(jù)庫表,并基于表提供類似SQL的查詢模型。57.Hive中刪除表的語法是()。A、DROPTABLE[IFEXISTS]table_nameB、DELETETABLEtable_nameC、REMOVETABLEtable_nameD、ERASETABLEtable_name【正確答案】:A解析:

Hive中使用DROPTABLE[IFEXISTS]table_name語法來刪除表,DELETEFROM用于刪除表中的數(shù)據(jù),而REMOVETABLE和ERASETABLE不是Hive中刪除表的正確語法。58.Hive中,下列哪種數(shù)據(jù)類型不能用于創(chuàng)建表的列()。A、INTB、STRINGC、ARRAYD、OBJECT【正確答案】:D解析:

Hive支持INT、STRING、ARRAY等數(shù)據(jù)類型用于創(chuàng)建表的列,但OBJECT不是Hive中用于表列定義的常見數(shù)據(jù)類型。59.下列關(guān)于Hadoop的說法錯誤的是()。A、Hadoop集群能夠部署在不同的機器上B、Hadoop集群搭建完成后,不能刪減和增加節(jié)點C、Hadoop能夠在所有節(jié)點并行地處理數(shù)據(jù),具有高效性D、Hadoop上的應(yīng)用程序可以用C++語言編寫【正確答案】:B60.以下哪個命令用于統(tǒng)計某個路徑下的目錄,文件及字節(jié)數(shù)?A、hadoopfs-countB、hadoopfs-mkdirC、hadoopfs-touchzD、hadoopfs-rm【正確答案】:A解析:

hadoopfs-count統(tǒng)計某個路徑下的目錄,文件及字節(jié)數(shù)。61.在Hive中創(chuàng)建數(shù)據(jù)庫的語法格式中,用于指定數(shù)據(jù)庫名稱的是()。A、CREATEB、DATABASEC、database_nameD、COMMENT【正確答案】:C解析:

CREATE用于創(chuàng)建操作,DATABASE用于限定創(chuàng)建數(shù)據(jù)庫,COMMENT用于添加數(shù)據(jù)庫注釋,而database_name才是表示創(chuàng)建數(shù)據(jù)庫的名稱,在CREATE(DATABASE|SCHEMA)[IFNOTEXISTS]database_name語法中明確了其作用。62.Hive中使用()語句可以添加或刪除表的分區(qū)。ALTERTABLEB、DROPTABLECREATETABLED、MODIFYTABLE【正確答案】:A解析:

使用ALTERTABLEADDPARTITION向表中添加分區(qū),ALTERTABLEDROPPARTITION刪除表的分區(qū);DROPTABLE用于刪除整個表;CREATETABLE用于創(chuàng)建表;MODIFYTABLE不是Hive中用于添加或刪除分區(qū)的語法。63.如何設(shè)置Map輸出值的類型?A、setMapOutputValueClass()B、setOutputKeyClass()C、setOutputValueClass()D、setValueClass()【正確答案】:A解析:

setMapOutputValueClass()方法用于設(shè)置Map階段輸出鍵值對中值的類型。64.僅查看集群在線節(jié)點的基本信息可以使用()命令。A、hdfsdfsadmin-reportB、hdfsdfsadmin-report-liveC、hdfsdfsadmin-report-deadD、hdfsdfsadmin-report-decommissioning【正確答案】:B65.在MapReduce中,Combiner的作用是什么?A、精簡壓縮傳給Reduce的數(shù)據(jù)B、增加Map輸出的數(shù)據(jù)量C、減少Map階段的計算D、提高Reduce階段的計算復(fù)雜度【正確答案】:A解析:

Combiner的作用是當(dāng)Map生成的數(shù)據(jù)過大時,可以精簡壓縮傳給Reduce的數(shù)據(jù)。66.使用Hadoop官方的示例程序包hadoop-mapreduce-examples-3.1.4.jar中的wordcount模塊,對HDFS上的/opt/data.txt文件進行單詞計數(shù),將結(jié)果保存至HDFS的/Tipdm/Hadoop目錄下,下列命令正確的是()。A、hadoopjar\

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar

Wordcount/opt/data.txt/Tipdm/Hadoop/B、hadoopdfs\

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar

Wordcount/opt/data.txt/Tipdm/Hadoop/C、hdfs-jar\

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar

Wordcount/opt/data.txt/Tipdm/Hadoop/D、hdfsdfs\

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar

Wordcount/opt/data.txt/Tipdm/Hadoop/【正確答案】:A67.Hive中加載數(shù)據(jù)到表時,若使用OVERWRITE關(guān)鍵字,()。A、會在原有數(shù)據(jù)基礎(chǔ)上追加新數(shù)據(jù)B、會覆蓋原有數(shù)據(jù)C、會跳過已存在的數(shù)據(jù)D、會刪除表結(jié)構(gòu)重新創(chuàng)建【正確答案】:B解析:

OVERWRITE關(guān)鍵字在Hive數(shù)據(jù)加載時會覆蓋原有數(shù)據(jù),而不是追加、跳過或刪除表結(jié)構(gòu)重新創(chuàng)建。68.在MapReduce的Driver類中,哪個對象用于存儲作業(yè)配置?A、JobB、ConfigurationC、JobConfD、Context【正確答案】:B解析:

在Driver類中,Configuration對象用于存儲和處理作業(yè)的配置信息。69.假設(shè)你是一家電商公司的數(shù)據(jù)分析師,公司想要了解用戶在不同時間段(上午、下午、晚上)的購買偏好,以便進行精準(zhǔn)營銷。你決定使用Hive數(shù)據(jù)倉庫來處理數(shù)據(jù),你首先會進行以下哪項操作?A、在Hive中創(chuàng)建一個分區(qū)表,以時間(上午、下午、晚上)作為分區(qū)字段,用于存儲用戶購買數(shù)據(jù)B、直接使用Hive的內(nèi)置函數(shù)對原始數(shù)據(jù)進行分析,無需創(chuàng)建特殊表結(jié)構(gòu)C、將所有用戶購買數(shù)據(jù)加載到一個普通的Hive表中,然后在查詢時通過篩選條件來區(qū)分不同時間段的數(shù)據(jù)D、先將數(shù)據(jù)導(dǎo)出到本地數(shù)據(jù)庫,再使用本地數(shù)據(jù)庫的功能進行時間維度的分析【正確答案】:A解析:

創(chuàng)建分區(qū)表可以根據(jù)分區(qū)字段(如時間)將數(shù)據(jù)進行分類存儲,在查詢時能夠快速定位到特定時間段的數(shù)據(jù),提高查詢效率,更適合用于分析不同時間段的購買偏好;直接使用內(nèi)置函數(shù)在原始數(shù)據(jù)上分析效率較低且不便于管理不同時間段數(shù)據(jù);將所有數(shù)據(jù)放在普通表中通過篩選條件查詢效率不如分區(qū)表;將數(shù)據(jù)導(dǎo)出到本地數(shù)據(jù)庫再分析增加了操作復(fù)雜性且失去了Hive處理大數(shù)據(jù)集的優(yōu)勢。###對比分析型70.在Hive中創(chuàng)建一個包含分區(qū)的表,以下操作步驟中錯誤的是:A、使用CREATETABLE語句,指定表名、列名及數(shù)據(jù)類型,并在語句中使用PARTITIONEDBY關(guān)鍵字定義分區(qū)字段B、在創(chuàng)建表時,如果使用了EXTERNAL關(guān)鍵字,那么數(shù)據(jù)文件的路徑需要在創(chuàng)建表時通過LOCATION關(guān)鍵字準(zhǔn)確指定,否則無法正確關(guān)聯(lián)外部數(shù)據(jù)C、創(chuàng)建分區(qū)表后,直接向表中插入數(shù)據(jù),無需指定分區(qū)值,Hive會自動根據(jù)數(shù)據(jù)內(nèi)容分配到合適的分區(qū)D、定義分區(qū)字段的數(shù)據(jù)類型時,要確保與實際存儲在分區(qū)目錄中的數(shù)據(jù)格式匹配,否則可能導(dǎo)致數(shù)據(jù)加載或查詢錯誤【正確答案】:C解析:

在向分區(qū)表中插入數(shù)據(jù)時,必須指定分區(qū)值,否則Hive不知道將數(shù)據(jù)插入到哪個分區(qū);使用CREATETABLE創(chuàng)建分區(qū)表時,確實需要按A步驟操作;使用EXTERNAL關(guān)鍵字創(chuàng)建外部分區(qū)表時,LOCATION關(guān)鍵字指定路徑很重要;分區(qū)字段數(shù)據(jù)類型與實際數(shù)據(jù)格式匹配是保證數(shù)據(jù)正確操作的關(guān)鍵。###數(shù)據(jù)關(guān)聯(lián)型(多表關(guān)聯(lián)分析)71.數(shù)據(jù)倉庫的目的是構(gòu)建面向()的集成化數(shù)據(jù)環(huán)境,分析結(jié)果為企業(yè)提供決策支持。A、操作B、分析C、存儲D、傳輸【正確答案】:B解析:

數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,用于存儲、分析、報告數(shù)據(jù),其分析結(jié)果為企業(yè)提供決策支持,而不是面向操作、存儲或傳輸。72.使用()命令可以在HDFS上創(chuàng)建一個/Tipdm/Hadoop目錄。A、hdfsdfs-mkdir/Tipdm/HadoopB、hdfsdfsmkdir-C/Tipdm/HadoopC、hdfsdfs-mkdir-p/Tipdm/HadoopD、hdfsdfsmkdir/Tipdm/Hadoop【正確答案】:C73.MapReduce框架中,哪個類負(fù)責(zé)定義數(shù)據(jù)如何分區(qū)?A、Mapper類B、Reducer類C、Partitioner類D、Combiner類【正確答案】:C解析:

Partitioner類定義了MapReduce中數(shù)據(jù)的分區(qū)規(guī)則,決定了數(shù)據(jù)如何分配到不同的Reducer任務(wù)。74.下列可以下載HDFS上的/user/root/live.txt文件至Linux本地的/opt目錄下的命令是()。A、hdfsdfs-get/user/root/live.txt/opt/B、hdfsdfs-download/user/root/live.txt/opt/C、hdfsdfs-put/user/root/live.txt/opt/D、hdfsdfs-move/user/root/live.txt/opt/【正確答案】:A75.Hive中,對于外部表的數(shù)據(jù)文件,()。A、Hive完全管理其存儲和生命周期B、Hive只管理元數(shù)據(jù),不管理數(shù)據(jù)文件本身C、Hive可以隨意修改數(shù)據(jù)文件內(nèi)容D、Hive在刪除表時會自動刪除數(shù)據(jù)文件【正確答案】:B解析:

對于外部表,Hive只管理元數(shù)據(jù),數(shù)據(jù)文件的存儲位置等信息記錄在元數(shù)據(jù)中,但Hive不管理數(shù)據(jù)文件本身的存儲和生命周期,不會隨意修改其內(nèi)容,在刪除外部表時也不會自動刪除數(shù)據(jù)文件(與內(nèi)部表不同)。76.在Hive數(shù)據(jù)倉庫和傳統(tǒng)關(guān)系型數(shù)據(jù)庫(如MySQL)中,關(guān)于數(shù)據(jù)更新操作,以下說法正確的是:A、Hive和傳統(tǒng)關(guān)系型數(shù)據(jù)庫都支持高效的行級數(shù)據(jù)更新操作B、Hive支持高效的行級數(shù)據(jù)更新操作,傳統(tǒng)關(guān)系型數(shù)據(jù)庫不支持C、傳統(tǒng)關(guān)系型數(shù)據(jù)庫支持高效的行級數(shù)據(jù)更新操作,Hive默認(rèn)不支持,需要額外配置且效率相對較低D、Hive和傳統(tǒng)關(guān)系型數(shù)據(jù)庫都不支持?jǐn)?shù)據(jù)更新操作【正確答案】:C解析:

傳統(tǒng)關(guān)系型數(shù)據(jù)庫如MySQL支持高效的行級數(shù)據(jù)更新操作,這是其常見功能之一;而Hive默認(rèn)未開啟支持單條更新操作,若要使用更新操作需要在配置文件中添加配置,且相比傳統(tǒng)數(shù)據(jù)庫其更新操作效率較低,因為Hive主要用于大數(shù)據(jù)集的批量處理和分析。77.MapReduce編程主要包含哪三個類?A、Mapper、Reducer、DriverB、Reader、Writer、SorterC、InputFormat、OutputFormat、PartitionerD、Combiner、Partitioner、InputFormat【正確答案】:A解析:

MapReduce編程主要包含Mapper類、Reducer類和Driver類。78.以下是一段HiveQL代碼片段:

```sql

INSERTOVERWRITETABLEresult_table

SELECTuser_id,AVG(order_amount)ASavg_amount

FROMorder_table

GROUPBYuser_id

HAVINGAVG(order_amount)>100;

```

這段代碼的功能是:A、將訂單表(order_table)中所有用戶的平均訂單金額計算出來,插入到結(jié)果表(result_table)中B、從訂單表(order_table)中篩選出平均訂單金額大于100的用戶,計算他們的平均訂單金額,并將結(jié)果插入到結(jié)果表(result_table)中,覆蓋原有數(shù)據(jù)C、計算訂單表(order_table)中每個用戶的訂單金額總和,篩選出總和大于100的用戶,將其用戶ID和平均訂單金額插入到結(jié)果表(result_table)中D、將訂單表(order_table)中每個用戶的訂單金額進行排序,取平均訂單金額大于100的用戶,將其用戶ID和平均訂單金額插入到結(jié)果表(result_table)中【正確答案】:B解析:

代碼首先從訂單表(order_table)中根據(jù)用戶ID進行分組(GROUPBYuser_id),計算每個用戶的平均訂單金額(AVG(order_amount)),然后通過HAVING子句篩選出平均訂單金額大于100的用戶,最后使用INSERTOVERWRITETABLE將結(jié)果插入到結(jié)果表(result_table)中,覆蓋原有數(shù)據(jù);A選項沒有篩選條件;C選項計算的是總和而非平均金額;D選項沒有排序操作。###趨勢判斷型(基于Hive發(fā)展趨勢選擇)79.如何設(shè)置Map輸出鍵的類型?A、setMapOutputKeyClass()B、setOutputKeyClass()C、setKeyClass()D、setOutputValueClass()【正確答案】:A解析:

setMapOutputKeyClass()方法用于設(shè)置Map階段輸出鍵值對中鍵的類型。80.Hive中創(chuàng)建內(nèi)部表時,若數(shù)據(jù)文件已存在于指定路徑,()。A、會報錯B、直接使用該文件數(shù)據(jù)C、會將數(shù)據(jù)文件移動到默認(rèn)路徑D、會復(fù)制一份數(shù)據(jù)文件到默認(rèn)路徑【正確答案】:B解析:

Hive創(chuàng)建內(nèi)部表時,若指定路徑有數(shù)據(jù)文件,會直接使用該文件數(shù)據(jù),而不是報錯、移動或復(fù)制數(shù)據(jù)文件到默認(rèn)路徑(除非有特殊配置或操作)。81.Hadoop3.x的HDFS的監(jiān)控服務(wù),默認(rèn)是通過NameNode的()端口訪問的。A、9000B、8088C、8020D、9870【正確答案】:D82.Hive中使用ALTERTABLE語句修改表名時,()。A、會同時修改表的元數(shù)據(jù)和數(shù)據(jù)存儲路徑B、只修改表的元數(shù)據(jù),數(shù)據(jù)存儲路徑不變C、只修改數(shù)據(jù)存儲路徑,元數(shù)據(jù)不變D、會刪除原表重新創(chuàng)建新表【正確答案】:B解析:

ALTERTABLE語句修改表名僅修改表的元數(shù)據(jù),數(shù)據(jù)存儲路徑不會改變,不會刪除原表重新創(chuàng)建,也不是只修改數(shù)據(jù)存儲路徑而元數(shù)據(jù)不變。83.Hive中默認(rèn)的執(zhí)行引擎是()。A、MapReduceB、TezC、SparkD、自身執(zhí)行引擎【正確答案】:A解析:

Hive底層執(zhí)行引擎使用的是Hadoop的MapReduce框架,雖然也可以使用Tez、Spark等執(zhí)行引擎,但默認(rèn)是MapReduce。84.在MapReduce中,哪個類負(fù)責(zé)將Map的輸出結(jié)果進行合并處理?A、Mapper類B、Reducer類Combiner類D、Partitioner類【正確答案】:C解析:

Combiner類繼承自Reducer,它的任務(wù)是在Map輸出結(jié)果傳遞給Reduce之前進行合并或計算,以精簡數(shù)據(jù)。85.在FileInputFormat切片機制中,切片大小默認(rèn)等于什么?A、minSizeB、maxSizeC、BlocksizeD、Splitsize【正確答案】:C解析:

在FileInputFormat切片機制中,切片大小默認(rèn)等于Blocksize。86.Hive中,關(guān)于分區(qū)表和桶表的描述,正確的是()。A、分區(qū)表和桶表不能同時使用B、分區(qū)表是更細(xì)粒度的劃分,桶表是粗粒度劃分C、分區(qū)表按列值劃分,桶表按文件夾劃分D、分區(qū)表和桶表都可以提高查詢性能【正確答案】:D解析:

分區(qū)表和桶表都可以通過一定方式提高查詢性能,分區(qū)表按分區(qū)字段的值對表進行劃分,桶表是對數(shù)據(jù)進行更細(xì)粒度的哈希劃分;它們可以同時使用,分區(qū)表不是更細(xì)粒度劃分(相比桶表而言),桶表也不是按文件夾劃分(分區(qū)表才是按文件夾形式存在分區(qū))。87.以下哪個不是FileInputFormat的接口實現(xiàn)類?A、TextInputFormatB、KeyValueTextInputFormatC、NLineInputFormatD、CustomInputFormat【正確答案】:D解析:

CustomInputFormat不是FileInputFormat的接口實現(xiàn)類,而是用戶可以自定義的InputFormat類。88.已知Hive的數(shù)據(jù)存儲在HDFS上,其執(zhí)行查詢時會將HiveQL轉(zhuǎn)換為MapReduce任務(wù)執(zhí)行。當(dāng)執(zhí)行一個復(fù)雜的多表關(guān)聯(lián)查詢時,如果希望提高查詢效率,以下哪種方法不太合理?A、合理設(shè)計表結(jié)構(gòu),如對經(jīng)常關(guān)聯(lián)的字段建立合適的索引(如果支持)B、根據(jù)數(shù)據(jù)特點和查詢需求,對表進行分區(qū)或分桶操作C、直接在Hive中編寫復(fù)雜的HiveQL語句,不做任何優(yōu)化,依賴Hive自動優(yōu)化執(zhí)行計劃D、調(diào)整MapReduce任務(wù)的相關(guān)參數(shù),如增加Reduce任務(wù)的數(shù)量(在合理范圍內(nèi))【正確答案】:C解析:

雖然Hive會自動優(yōu)化執(zhí)行計劃,但對于復(fù)雜的多表關(guān)聯(lián)查詢,僅依賴自動優(yōu)化往往不能達到最佳效率;合理設(shè)計表結(jié)構(gòu)建立索引(若支持)可以加速數(shù)據(jù)檢索;分區(qū)和分桶操作有助于快速定位和處理數(shù)據(jù);調(diào)整MapReduce任務(wù)參數(shù)如Reduce數(shù)量在合理范圍內(nèi)也可能提高效率。###實際案例型(根據(jù)案例場景選擇最佳方案)89.在Hive中,下列關(guān)于桶表的描述錯誤的是()。A、桶表可以提高查詢處理效率B、桶表是針對某一列進行組織的C、桶表的分區(qū)是以文件夾的形式存在D、桶表可以使取樣更高效【正確答案】:C解析:

桶表是更為細(xì)粒度的數(shù)據(jù)范圍劃分,針對某一列進行桶的組織,能獲得更高的查詢處理效率且使取樣更高效;而分區(qū)表的分區(qū)是以文件夾的形式存在,C選項描述的是分區(qū)表的特征,不是桶表。90.在HDFS讀數(shù)據(jù)機制中,客戶端首先向哪個節(jié)點請求下載文件的元數(shù)據(jù)?A、DataNodeB、SecondaryNameNodeC、NamenodeD、所有DataNode同時請求【正確答案】:C解析:

客戶端首先向NameNode請求下載文件的元數(shù)據(jù)。91.OutputFormat主要用于描述什么?A、輸入數(shù)據(jù)的格式B、輸出數(shù)據(jù)的格式C、計算邏輯的格式D、文件系統(tǒng)的格式【正確答案】:B解析:

OutputFormat主要用于描述輸出數(shù)據(jù)的格式,它能夠?qū)⒂脩籼峁┑?2.如何向作業(yè)添加輸入路徑?A、addInputPath()B、setInputPath()C、addInputFormat()D、setInputFormat()【正確答案】:A解析:

FileInputFormat.addInputPath()方法用于向作業(yè)添加輸入路徑,這是指定Map階段輸入數(shù)據(jù)來源的方法。93.以下哪個命令用于向hdfs上的文件追加內(nèi)容?A、hadoopfs-appendToFileB、hadoopfs-mkdirC、hadoopfs-touchzD、hadoopfs-rm【正確答案】:A解析:

hadoopfs-appendToFile向hdfs上的文件追加內(nèi)容。94.隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,Hive在數(shù)據(jù)倉庫領(lǐng)域的應(yīng)用越來越廣泛。以下關(guān)于Hive未來發(fā)展趨勢的預(yù)測中,不太可能的是:A、Hive將不斷優(yōu)化其執(zhí)行引擎,提高查詢性能,減少與傳統(tǒng)關(guān)系型數(shù)據(jù)庫在執(zhí)行效率上的差距B、Hive會逐漸放棄對Hadoop生態(tài)系統(tǒng)的依賴,獨立發(fā)展成為一個全新的數(shù)據(jù)處理平臺C、Hive將增加更多與機器學(xué)習(xí)、人工智能相關(guān)的功能,以滿足數(shù)據(jù)分析領(lǐng)域不斷增長的需求D、Hive在數(shù)據(jù)安全和隱私保護方面會不斷加強,提供更完善的安全機制【正確答案】:B解析:

Hive是基于Hadoop構(gòu)建的數(shù)據(jù)倉庫系統(tǒng),其優(yōu)勢很大程度上依賴于Hadoop生態(tài)系統(tǒng),如HDFS存儲和MapReduce計算框架等,它不太可能放棄這種依賴而獨立發(fā)展;不斷優(yōu)化執(zhí)行引擎提高性能、增加與機器學(xué)習(xí)等相關(guān)功能以及加強數(shù)據(jù)安全都是符合大數(shù)據(jù)技術(shù)發(fā)展需求和趨勢的。###架構(gòu)理解型(根據(jù)架構(gòu)特點選擇操作)95.Hive中數(shù)據(jù)裝載操作,若指定LOCAL關(guān)鍵字,數(shù)據(jù)文件將從()復(fù)制至目標(biāo)文件系統(tǒng)。A、HDFSB、本地文件系統(tǒng)C、遠程服務(wù)器D、分布式文件系統(tǒng)【正確答案】:B解析:

如果有LOCAL關(guān)鍵字,filepath為本地文件系統(tǒng)的路徑,Hive會將本地文件系統(tǒng)中的文件復(fù)制至目標(biāo)文件系統(tǒng)中(由表的位置屬性決定);若沒有指定LOCAL關(guān)鍵字,filepath指向的需要是一個完整的URI,Hive會直接使用該URI對應(yīng)的文件內(nèi)容移動至Hive表所指定的路徑中。96.下列不能將Linux本地的/opt/a.txt文件上傳至HDFS的/user/root目錄下的命令是()。A、hdfsdfs-copyFromLocal/opt/a.txt/user/root/B、hdfsdfs-moveFromLocal/opt/a.txt/user/root/C、hdfsdfs-put/opt/a.txt/user/root/D、hdfsdfs-copyToLocal/opt/a.txt/user/root/【正確答案】:D97.下列關(guān)于HDFS的說法正確的是()。A、NameNode負(fù)責(zé)HDFS中的數(shù)據(jù)存儲B、DataNode負(fù)責(zé)HDFS中的數(shù)據(jù)存儲C、SecondaryNameNode通常與NameNode在一個節(jié)點啟動D、元數(shù)據(jù)指的是文件實際的數(shù)據(jù)【正確答案】:B98.Hive利用()存儲數(shù)據(jù)。A、本地文件系統(tǒng)B、HDFSC、MySQLDerby【正確答案】:B解析:

Hive利用Hadoop的分布式文件系統(tǒng)(HDFS)存儲數(shù)據(jù),這是其存儲數(shù)據(jù)的基本方式,而不是本地文件系統(tǒng)、MySQL或Derby(雖然元數(shù)據(jù)可存儲在Derby或MySQL中,但數(shù)據(jù)存儲在HDFS)。99.在Hive中,執(zhí)行查詢時出現(xiàn)“SemanticException”異常,可能的原因是()。A、網(wǎng)絡(luò)連接問題B、Hive服務(wù)未啟動C、SQL語法錯誤或語義邏輯錯誤D、數(shù)據(jù)文件損壞【正確答案】:C解析:

“SemanticException”通常表示SQL語法錯誤或語義邏輯錯誤,如使用了錯誤的關(guān)鍵字、表名不存在、查詢條件不合理等;網(wǎng)絡(luò)連接問題可能導(dǎo)致連接相關(guān)異常,Hive服務(wù)未啟動會有啟動相關(guān)錯誤提示,數(shù)據(jù)文件損壞可能導(dǎo)致數(shù)據(jù)讀取錯誤等其他類型異常。100.數(shù)據(jù)倉庫的數(shù)據(jù)具有以下哪個特征()。A、易失性B、面向事務(wù)C、非集成性D、時變性【正確答案】:D解析:

數(shù)據(jù)倉庫的數(shù)據(jù)具有時變性,包含各種粒度的歷史數(shù)據(jù),且數(shù)據(jù)需要隨著時間更新以適應(yīng)決策需要;數(shù)據(jù)倉庫是非易失性的,數(shù)據(jù)穩(wěn)定且不會輕易改變;數(shù)據(jù)倉庫是面向主題的,而非面向事務(wù);數(shù)據(jù)倉庫具有集成性,會對分布在多個系統(tǒng)中的數(shù)據(jù)進行統(tǒng)一與綜合。1.以下哪些是HDFSShell命令中用于管理操作的常用命令?A、hadoopdfsadmin-reportB、hadoopdfsadmin-safemodeget/leave/enter/waitC、hadoopdfsadmin-refreshNodesD、hadoopfs-setrepE、hadoopfs-count【正確答案】:ABC解析:

hadoopdfsadmin相關(guān)命令用于管理文件系統(tǒng),包括顯示統(tǒng)計信息、安全模式操作和更新數(shù)據(jù)節(jié)點,而hadoopfs-setrep用于設(shè)置文件副本數(shù),hadoopfs-count用于統(tǒng)計路徑下信息,不屬于管理操作命令類別。2.Hive與傳統(tǒng)數(shù)據(jù)庫的區(qū)別體現(xiàn)在以下哪些方面()。A、查詢語言B、數(shù)據(jù)存儲C、執(zhí)行引擎D、數(shù)據(jù)規(guī)模處理能力【正確答案】:ABCD解析:

Hive查詢語言是HQL,傳統(tǒng)數(shù)據(jù)庫一般為SQL;Hive利用HDFS存儲數(shù)據(jù),傳統(tǒng)數(shù)據(jù)庫使用本地文件系統(tǒng);Hive底層執(zhí)行引擎為MapReduce等,傳統(tǒng)數(shù)據(jù)庫有自身執(zhí)行引擎;Hive擅長處理海量數(shù)據(jù)集,傳統(tǒng)數(shù)據(jù)庫處理數(shù)據(jù)規(guī)模相對較小。3.Hive中創(chuàng)建表時,可用于指定表存儲格式的參數(shù)有()。A、TEXTFILEB、ORCC、PARQUETD、SEQUENCEFILE【正確答案】:ABCD解析:

在Hive創(chuàng)建表時,STOREDAS關(guān)鍵字后可指定如TEXTFILE、ORC、PARQUET、SEQUENCEFILE等存儲格式,這些都是常見的可選項,所以ABCD都正確。4.Hive中刪除表的操作會導(dǎo)致()。A、內(nèi)部表的數(shù)據(jù)和元數(shù)據(jù)都被刪除B、外部表的數(shù)據(jù)不會被刪除,只刪除元數(shù)據(jù)C、表結(jié)構(gòu)被刪除D、相關(guān)聯(lián)的分區(qū)數(shù)據(jù)和元數(shù)據(jù)也被刪除(如果有分區(qū))【正確答案】:ABCD解析:

對于內(nèi)部表,刪除表操作會刪除數(shù)據(jù)和元數(shù)據(jù);外部表只刪除元數(shù)據(jù),數(shù)據(jù)保留;刪除表時表結(jié)構(gòu)、相關(guān)聯(lián)分區(qū)數(shù)據(jù)和元數(shù)據(jù)(如果有分區(qū))都會被刪除,所以ABCD都正確。5.在MapReduce的執(zhí)行流程中,涉及到哪些階段?A、Input(輸入)B、Splitting(切片)C、Mapping(映射)D、Shuffling(混洗)E、Reducing(規(guī)約)【正確答案】:ABCDE解析:

MapReduce執(zhí)行流程包括輸入數(shù)據(jù),對數(shù)據(jù)進行切片、映射、混洗和規(guī)約等階段。6.Hive中表的類型包括()。A、內(nèi)部表B、外部表C、分區(qū)表D、桶表【正確答案】:AB解析:

Hive中的表分為內(nèi)部表和外部表,分區(qū)表是表的一種組織形式,桶表也是基于表的進一步組織,不是獨立的表類型,所以CD錯誤,AB正確。7.以下哪些命令可以用于統(tǒng)計文件相關(guān)信息?A、hadoopfs-countB、hadoopfs-duC、hadoopfs-setrepD、hadoopfs-getfaclE、hadoopfs-getfattr【正確答案】:AB解析:

hadoopfs-count統(tǒng)計路徑下目錄、文件及字節(jié)數(shù),hadoopfs-du顯示目錄中文件大小,而hadoopfs-setrep用于設(shè)置副本數(shù),hadoopfs-getfacl獲取訪問控制列表,hadoopfs-getfattr獲取文件屬性,不屬于統(tǒng)計文件相關(guān)信息命令。8.在YARN交互流程中,與Container相關(guān)的操作有()。A、由ResourceManager分配ContainerB、NodeManager啟動ContainerC、任務(wù)在Container中運行D、Container向ApplicationMaster匯報狀態(tài)【正確答案】:ABCD解析:

ResourceManager會分配Container,NodeManager負(fù)責(zé)啟動Container,任務(wù)在Container中運行,Container(Map|ReduceTask)會向Container(MrAppMaster)匯報狀態(tài),所以答案是ABCD。9.Hive中數(shù)據(jù)操作語言(DML)包括以下哪些操作()。A、數(shù)據(jù)裝載B、數(shù)據(jù)查詢C、數(shù)據(jù)插入D、數(shù)據(jù)刪除【正確答案】:ABCD解析:

Hive的DML包括數(shù)據(jù)裝載(LOADDATA)、數(shù)據(jù)查詢(SELECT等)、數(shù)據(jù)插入(INSERTINTO/OVERWRITE)、數(shù)據(jù)刪除(DELETEFROM,雖然默認(rèn)未開啟但屬于DML操作范疇),所以ABCD都正確。10.MapReduce的缺點包括哪些?A、不擅長實時計算B、不擅長流式計算C、不擅長DAG(有向圖)計算D、不適合處理大數(shù)據(jù)E、對硬件要求高【正確答案】:ABC解析:

MapReduce不擅長實時計算、流式計算和DAG計算。它適合處理大數(shù)據(jù),可構(gòu)建在廉價機器上,對硬件要求不高。11.Hive中創(chuàng)建數(shù)據(jù)庫的語法中,可指定的內(nèi)容有()。A、數(shù)據(jù)庫名稱B、數(shù)據(jù)庫注釋C、數(shù)據(jù)庫存儲位置D、數(shù)據(jù)庫屬性【正確答案】:ABCD解析:

創(chuàng)建數(shù)據(jù)庫語法中可指定數(shù)據(jù)庫名稱(database_name),用COMMENT指定數(shù)據(jù)庫注釋,用LOCATION指定存儲位置,用WITHDBPROPERTIES指定屬性,所以ABCD都正確。12.Hive的元數(shù)據(jù)存儲在數(shù)據(jù)庫中(如MySQL或Derby),以下關(guān)于元數(shù)據(jù)管理的說法正確的有()。A、元數(shù)據(jù)存儲了表結(jié)構(gòu)、分區(qū)信息、表屬性等關(guān)鍵信息,這些信息對于Hive查詢的解析和執(zhí)行計劃的生成至關(guān)重要B、當(dāng)對Hive表進行DDL操作(如創(chuàng)建、修改、刪除表)時,會直接修改元數(shù)據(jù)存儲中的相應(yīng)記錄C、多用戶同時訪問Hive時,元數(shù)據(jù)的并發(fā)訪問控制由Hive自身的元數(shù)據(jù)管理機制保證,與底層數(shù)據(jù)庫的并發(fā)控制機制無關(guān)D、元數(shù)據(jù)的備份和恢復(fù)策略需要單獨考慮,因為它直接影響數(shù)據(jù)倉庫的可用性和數(shù)據(jù)一致性。如果元數(shù)據(jù)丟失或損壞,可能導(dǎo)致整個數(shù)據(jù)倉庫無法正常工作【正確答案】:ABD解析:

元數(shù)據(jù)確實存儲了諸多關(guān)鍵信息,對查詢解析和執(zhí)行計劃生成有重要意義,A正確;DDL操作會改變表相關(guān)信息,這些變化會直接在元數(shù)據(jù)存儲中體現(xiàn),B正確;多用戶并發(fā)訪問時,Hive的元數(shù)據(jù)管理機制依賴底層數(shù)據(jù)庫(如MySQL或Derby)的并發(fā)控制機制,C錯誤;元數(shù)據(jù)備份和恢復(fù)至關(guān)重要,一旦出問題會嚴(yán)重影響數(shù)據(jù)倉庫,D正確。###數(shù)據(jù)處理優(yōu)化型13.DataNode的職責(zé)包括哪些?A、負(fù)責(zé)最終數(shù)據(jù)塊block的存儲B、啟動時將自己注冊到NameNode并匯報自己負(fù)責(zé)持有的塊列表C、當(dāng)某個DataNode關(guān)閉時,不會影響數(shù)據(jù)的可用性D、管理文件系統(tǒng)的namespace名稱空間E、處理客戶端的請求【正確答案】:ABC解析:

DataNode負(fù)責(zé)數(shù)據(jù)塊存儲,啟動時向NameNode注冊并匯報塊列表,關(guān)閉時不影響數(shù)據(jù)可用性,而管理namespace名稱空間是NameNode的職責(zé),處理客戶端請求主要由NameNode協(xié)調(diào)。14.數(shù)據(jù)倉庫的主要特征包括()。A、面向主題B、集成性C、易失性D、時變性【正確答案】:ABD解析:

數(shù)據(jù)倉庫具有面向主題,將相關(guān)數(shù)據(jù)圍繞主題進行組織;具有集成性,會對分散的數(shù)據(jù)進行統(tǒng)一與綜合;具有時變性,數(shù)據(jù)需隨時間更新以適應(yīng)決策。而非易失性,數(shù)據(jù)進入后穩(wěn)定且不會輕易改變,C選項錯誤。15.以下哪些是HDFSShell命令中用于文件操作的常用命令?A、hadoopfs-lsB、hadoopfs-mkdirC、hadoopfs-catD、hadoopfs-putE、hadoopfs-rm【正確答案】:ABCDE解析:

這些命令分別用于列出目錄、創(chuàng)建目錄、查看文件內(nèi)容、上傳文件和刪除文件,都是HDFSShell命令中常用的文件操作命令。16.在MapReduce中,Shuffle過程包括哪些部分?A、Map端ShuffleB、Reducer端ShuffleC、Input端ShuffleD、Output端ShuffleE、全局Shuffle【正確答案】:AB解析:

Shuffle過程包括Map端Shuffle和Reducer端Shuffle。17.Hive中數(shù)據(jù)裝載操作的特點有()。A、可以從本地文件系統(tǒng)加載數(shù)據(jù)B、可以從HDFS上的其他位置加載數(shù)據(jù)C、加載操作是純復(fù)制或移動操作D、加載數(shù)據(jù)時會對數(shù)據(jù)進行轉(zhuǎn)換【正確答案】:ABC解析:

數(shù)據(jù)裝載操作可以指定LOCAL從本地文件系統(tǒng)加載數(shù)據(jù),也可以從HDFS其他位置加載;目前裝載操作主要是純復(fù)制或移動數(shù)據(jù)到對應(yīng)表位置,不對數(shù)據(jù)進行轉(zhuǎn)換,所以D錯誤,ABC正確。18.以下哪些關(guān)于NameNode的說法是正確的?A、是Hadoop分布式文件系統(tǒng)的核心B、維護和管理文件系統(tǒng)元數(shù)據(jù)C、基于此成為訪問HDFS的唯一入口D、內(nèi)部通過內(nèi)存和磁盤文件兩種方式管理元數(shù)據(jù)E、存儲實際數(shù)據(jù)【正確答案】:ABCD解析:

NameNode是核心,維護管理元數(shù)據(jù),是唯一入口且通過兩種方式管理元數(shù)據(jù),但不存儲實際數(shù)據(jù)。19.當(dāng)將外部數(shù)據(jù)源的數(shù)據(jù)集成到Hive數(shù)據(jù)倉庫時,可能面臨以下哪些挑戰(zhàn)()。A、數(shù)據(jù)格式不一致,如數(shù)據(jù)源可能是CSV、JSON等格式,而Hive表有特定的存儲格式要求,需要進行數(shù)據(jù)格式轉(zhuǎn)換B、數(shù)據(jù)語義差異,不同數(shù)據(jù)源對相同概念可能有不同定義或表示方式,需要進行數(shù)據(jù)清洗和語義映射C、數(shù)據(jù)更新頻率不同,有些數(shù)據(jù)源實時更新,而Hive數(shù)據(jù)加載可能有一定延遲,需要考慮如何處理數(shù)據(jù)時效性問題D、數(shù)據(jù)源的可靠性和穩(wěn)定性,可能存在網(wǎng)絡(luò)故障、數(shù)據(jù)源系統(tǒng)故障等導(dǎo)致數(shù)據(jù)獲取失敗或不完整,需要建立數(shù)據(jù)獲取的容錯機制【正確答案】:ABCD解析:

數(shù)據(jù)格式不一致需要轉(zhuǎn)換才能正確導(dǎo)入Hive,A正確;語義差異可能導(dǎo)致數(shù)據(jù)分析錯誤,需清洗和映射,B正確;更新頻率差異影響數(shù)據(jù)時效性處理,C正確;數(shù)據(jù)源可靠性問題需容錯機制保障數(shù)據(jù)獲取,D正確。###大數(shù)據(jù)場景應(yīng)對型20.以下哪些命令可以用于查看文件內(nèi)容?A、hadoopfs-catB、hadoopfs-textC、hadoopfs-tailD、hadoopfs-getmergeE、hadoopfs-appendToFile【正確答案】:ABC解析:

hadoopfs-cat和hadoopfs-text都可查看文件內(nèi)容,hadoopfs-tail可查看文件尾部內(nèi)容,也算查看文件的一種方式,而hadoopfs-getmerge用于合并文件,hadoopfs-appendToFile用于追加內(nèi)容到文件。21.Hive的系統(tǒng)架構(gòu)組成部分包括()。A、用戶接口層B、跨語言服務(wù)C、元數(shù)據(jù)存儲系統(tǒng)D、底層驅(qū)動引擎E、底層存儲【正確答案】:ABCDE解析:

Hive架構(gòu)包括用戶接口層(如CLI、JDBC/ODBC、HWI等)用于連接訪問;跨語言服務(wù)(如Thrift)方便不同編程語言調(diào)用;元數(shù)據(jù)存儲系統(tǒng)(如Derby或MySQL)存儲元數(shù)據(jù);底層驅(qū)動引擎實現(xiàn)HiveQL到MapReduce任務(wù)轉(zhuǎn)化;底層存儲(如HDFS)存儲數(shù)據(jù)。22.如果要在Hive數(shù)據(jù)倉庫中實現(xiàn)實時數(shù)據(jù)處理(或準(zhǔn)實時數(shù)據(jù)處理),以下哪些方法是可行的()。A、結(jié)合使用Hive和流式處理框架(如ApacheFlink或SparkStreaming),將實時數(shù)據(jù)先通過流式處理框架進行初步處理,然后再導(dǎo)入Hive進行后續(xù)分析B、利用Hive的ACID事務(wù)特性(如果支持),實時更新和查詢數(shù)據(jù),確保數(shù)據(jù)的一致性和準(zhǔn)確性C、采用增量數(shù)據(jù)加載方式,定期(如每分鐘或每秒鐘)將新產(chǎn)生的實時數(shù)據(jù)加載到Hive表中,同時結(jié)合合適的查詢優(yōu)化策略,實現(xiàn)近似實時的查詢結(jié)果D、對實時性要求特別高的部分?jǐn)?shù)據(jù),單獨使用內(nèi)存數(shù)據(jù)庫(如Redis)進行存儲和處理,然后與Hive中的歷史數(shù)據(jù)進行整合分析【正確答案】:ACD解析:

Hive結(jié)合流式處理框架可處理實時數(shù)據(jù),A正確;Hive的ACID事務(wù)特性主要用于保證數(shù)據(jù)的一致性和完整性,不是專門針對實時數(shù)據(jù)處理,且其實時處理能力有限,B錯誤;增量加載和優(yōu)化查詢可實現(xiàn)準(zhǔn)實時處理,C正確;結(jié)合內(nèi)存數(shù)據(jù)庫處理實時性高的數(shù)據(jù)并與Hive整合是可行方法,D正確。###數(shù)據(jù)質(zhì)量保障型23.YARN工作流程中涉及的交互有()。A、MR作業(yè)提交(Client-->RM)B、資源的申請(MrAppMaster-->RM)C、MR作業(yè)狀態(tài)匯報(Container(Map|ReduceTask)-->Container(MrAppMaster))D、節(jié)點的狀態(tài)匯報(NM-->RM)【正確答案】:ABCD解析:

在YARN工作流程中,上述四種交互均存在,所以答案是ABCD。24.在Hive中,關(guān)于分區(qū)表的描述正確的有()。A、分區(qū)表可以加快數(shù)據(jù)查詢速度B、分區(qū)表的分區(qū)字段不存儲實際數(shù)據(jù)內(nèi)容C、分區(qū)表可以根據(jù)多個字段進行分區(qū)D、分區(qū)表只能有一級分區(qū)【正確答案】:ABC解析:

分區(qū)表通過分區(qū)字段對數(shù)據(jù)進行劃分,能加快查詢速度,分區(qū)字段僅用于分區(qū)管理不存儲實際數(shù)據(jù),且可以根據(jù)多個字段進行分區(qū),分區(qū)表可以有單分區(qū)也可以有多級分區(qū)(嵌套分區(qū)),所以D錯誤,ABC正確。25.CapacityScheduler的特性優(yōu)勢包括()。A、層次化的隊列設(shè)計B、容量保證C、安全D、彈性分配【正確答案】:ABCD解析:

CapacityScheduler具有層次化的隊列設(shè)計,能保證每個隊列的容量,有嚴(yán)格的訪問控制保證安全,空閑資源可彈性分配,所以答案是ABCD。26.在MapReduce編程的Mapper類中,通常包含哪些方法?A、setup()方法B、map()方法C、cleanup()方法D、reduce()方法E、write()方法【正確答案】:ABC解析:

Mapper類共有3個方法,分別是setup()、map()、cleanup(),reduce()方法屬于Reducer類,write()方法不是Mapper類的主要方法。27.在NLineInputFormat中,以下哪些說法正確?A、按照指定的行數(shù)N來劃分切片B、如果不整除,切片數(shù)=商+1C、輸入文件的總行數(shù)/N=切片數(shù)D、鍵和值與TextInputFormat生成的一樣E、代表每個map進程處理的InputSplit不再按Block塊去劃分【正確答案】:ABCDE解析:

NLineInputFormat按照指定的行數(shù)N來劃分切片,若不整除切片數(shù)=商+1,輸入文件的總行數(shù)/N=切片數(shù),鍵和值與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論