




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章習(xí)題【單選題】1、數(shù)據(jù)采集工具不包括(C)A、FlumeB、KafkaC、HbaseD、Sqoop2、關(guān)于數(shù)據(jù)的規(guī)范化的錯(cuò)誤觀點(diǎn)是(A)A、方便存儲(chǔ)B、一般包括數(shù)據(jù)中心化和數(shù)據(jù)標(biāo)準(zhǔn)化C、是為了消除量綱對(duì)數(shù)據(jù)結(jié)構(gòu)的影響D、一般是一個(gè)無(wú)量綱的純數(shù)值3、在ETL三個(gè)部分中,花費(fèi)時(shí)間最長(zhǎng)的是(B)的部分。A、EB、TC、LD、以上全部4人社的據(jù)生式大經(jīng)了個(gè)段不包。A、運(yùn)營(yíng)式系統(tǒng)階段B、用戶原創(chuàng)內(nèi)容階段C、互聯(lián)網(wǎng)應(yīng)用階段D、感知式系統(tǒng)階段答案:C2【單選題】以下哪個(gè)現(xiàn)象不屬于大數(shù)據(jù)的典型特征:A、數(shù)據(jù)包含噪聲及缺失值B、數(shù)據(jù)量大C、數(shù)據(jù)類型多D、產(chǎn)生速率高答案:A3【單選題】以下哪項(xiàng)不屬于大數(shù)據(jù)思維的涵蓋內(nèi)容:A、從模型驅(qū)動(dòng)到數(shù)據(jù)驅(qū)動(dòng)B、通過(guò)采樣的手段獲取目標(biāo)群體的統(tǒng)計(jì)特性C、數(shù)據(jù)就是生產(chǎn)資料D、全樣本分析答案:B4【單選題】在思方方,是數(shù)據(jù)著響是 。A、樣非樣B、率非確C、儲(chǔ)非算D、關(guān)非果答案:C5【單選題】下列于處計(jì)的。A、StormB、HiveC、SqoopD、Spark答案:D6【多選題】數(shù)據(jù)生式致歷三個(gè)段包。A、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)階段BD7【多選題】人類會(huì)數(shù)產(chǎn)方大致歷三階,包括 。A、運(yùn)營(yíng)式系統(tǒng)階段B、移動(dòng)互聯(lián)網(wǎng)時(shí)代C、感知式系統(tǒng)階段D、互聯(lián)網(wǎng)應(yīng)用階段答案:BD8【多選題】大數(shù)的征含 。A、據(jù)大B、據(jù)型多C、理度快D、價(jià)值密度低答案:ABCD9【多選題】大數(shù)對(duì)維式影包括 。A、全樣而非抽樣B、效率而非精確C、實(shí)踐而非理論D、相關(guān)而非因果答案:ABD10【多選題】大數(shù)的算式括 。A、批處理計(jì)算B、圖計(jì)算C、流計(jì)算D、查詢分析計(jì)算答案:ABCD11【多選題】云計(jì)的型務(wù)式括 。A、平臺(tái)即服務(wù)B、物聯(lián)網(wǎng)即服務(wù)C、基礎(chǔ)設(shè)施即服務(wù)D、軟件即服務(wù)答案:ACD(2.0答案:×MapReduce(2.0答案:×第2章習(xí)題1、簡(jiǎn)述Ubuntu與Debian的關(guān)系2、安裝Ubuntu需要哪些分區(qū)。3、簡(jiǎn)述apt的基本功能。4、簡(jiǎn)述Ubuntu的版本號(hào)命名規(guī)則,以Ubuntu16.04說(shuō)明。前兩位數(shù)字為發(fā)行時(shí)的年份年份的最后兩位數(shù)字,后兩位為發(fā)行的月份,中間以一個(gè)英文小數(shù)點(diǎn)隔開(kāi)。例如現(xiàn)在ubuntu的最新版是16.04,則代表了是在2016年4月份發(fā)行的.========================第3章習(xí)題下面哪個(gè)Linux命令可以一次顯示一頁(yè)內(nèi)容?(C)pausecatmoregrep怎樣更改一個(gè)文件的權(quán)限設(shè)置?(B)attribchmodchangefile.下面哪條命令可以把f1.txt復(fù)制為f2.txt?(C)cpf1.txt|f2.txtcatf1.txt|f2.txtcatf1.txt>f2.txtcopyf1.txt|f2.txt5.BA.tac B.tail C.rear D.last7.如何在文件中查找顯示所有以"*"打頭的行?(D)find*filewc-l*<filegrep-n*filegrep‘^*’file7.在ps命令中什么參數(shù)是用來(lái)顯示所有用戶的進(jìn)程的?(A)A.a B.b C.u x8./tmp?(B)A.del/tmp/* B.rm-rf/tmprm-Ra/tmp/* rm-rf/tmp/*二、多選題1、下命中,顯文本件容命是ABCA.more B.less C.tail D.join2、給文中找定條相字串命不能用命(BC)A.grep B.gzip C.find D.sort3、vi編器有工模式要(BD)A.檢模B.令式 C.讀模D.入式4、法除件命(ABC)A.mkdir B.rmdir C.mv D.rm5BDA.tar-dzvffilename.tgzB.tar-tzvffilename.tgzC.tar-czvffilename.tgzD.tar-xzvffilename.tgz6(BD)A.grepB.locateC.moreD.find1、什么是shell,它有什么作用?2、管道有什么作用?在一條語(yǔ)句是否可連續(xù)使用管道。在一條語(yǔ)句中是可以連續(xù)使用管道,即“|”可在一條語(yǔ)句中出現(xiàn)多次。4章一、單選題1、hadoop是用以下哪一種語(yǔ)言編寫的(C)C B.C++ C.ScalaHDFSA.次入少讀 多寫,次讀C.多寫,次讀 一寫,次讀HDFS_(C)。A.NTFS EXT3SeURtUaltae(mapred-site.xmlB.core-site.xml Chdfs-site.xml5pE(A.hadoop-default.xml B.C.hadoop-site.xml D.configuration.xsl二、多選題1、Hadoop分布式平臺(tái)技術(shù)核心架構(gòu)包括的元素有(ABCD)A.Hive B.Zookeeper C.MapReduce 2、Hadoop的主要應(yīng)用場(chǎng)景包括(ABD)A.像理 B.IT安全 C.銀存儲(chǔ) 詐檢測(cè)三、判斷題1HadoopIBM(X)解析:Hadoop是Apache公司旗下的分布式計(jì)算平臺(tái)。2、Hadoop是基于Java語(yǔ)言開(kāi)發(fā)的,具有很好的跨平臺(tái)特性。(√)3HadoopHadoopJDK(X)四、簡(jiǎn)述題1、請(qǐng)描述一下hadoop適合與不適合的應(yīng)用場(chǎng)景的基本特點(diǎn)。適合的場(chǎng)景包括的基本特點(diǎn)是:大文件;流數(shù)據(jù)訪問(wèn),一次寫操作,多次讀操作;使用通用硬件,降低成本不適合的場(chǎng)景的基本特點(diǎn)是:低延遲數(shù)據(jù)訪問(wèn);大量小文件存儲(chǔ);頻繁的文件讀寫2、Hadoop是一個(gè)開(kāi)源分布式計(jì)算平臺(tái)架構(gòu),基于apache協(xié)議發(fā)布,由java語(yǔ)言開(kāi)發(fā),主要包括哪些生態(tài)技術(shù)。HDFS(分布式文件管理系統(tǒng))MapReduce(分布式計(jì)算框架)Hive(基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù))Pig(基于Hadoop的數(shù)據(jù)流系統(tǒng))HBase(一個(gè)分布式面向列的數(shù)據(jù)庫(kù))Spark(快速和通用計(jì)算的Hadoop數(shù)據(jù)引擎)ZooKeeper(分布式協(xié)作服務(wù))MahoutFlumeSqoopAmbari5章一、單選題1BlockDataNodeNoe塊(A.Client B.Namenode C.Datanode D.Secondarynamenode2S((知識(shí)點(diǎn):在HDFS的一個(gè)文件中只有一個(gè)寫入者,而且寫操作只能在文件末尾完成,即只能執(zhí)行追加操作。默認(rèn)三份文件塊兩塊在同一機(jī)架上,另一份存放在其他機(jī)架上。)A.支多戶同件的操作 B.用可在件位置行改C.默將件復(fù)制三份放 D.制文塊認(rèn)存在一架上3Naene(A.安全模式目的是在系統(tǒng)啟動(dòng)時(shí)檢查各個(gè)DataNode上數(shù)據(jù)塊的有效性B.根據(jù)策略對(duì)數(shù)據(jù)塊進(jìn)行必要的復(fù)制或刪除C.當(dāng)數(shù)據(jù)塊最小百分比數(shù)滿足的最小副本數(shù)條件時(shí),會(huì)自動(dòng)退出安全模式D.文件系統(tǒng)允許有修改4下哪程通不與NaNoe在個(gè)點(diǎn)動(dòng)?(AA.SecondaryNameNode B.DataNodeC.resourcemanager D.nodemanager5SCA.NameNode B.C.DataNode secondaryNameNode6276S默認(rèn)Blckie(CA.32MB B.64MB C.128MB 256MB二、多選題1、HDFS無(wú)法高效存儲(chǔ)大量小文件,想讓它能處理好小文件,比較可行的改進(jìn)策略不ACA.用SequenceFile、MapFile、Har方歸小件 B.多Master設(shè)計(jì)C.Block大小適當(dāng)調(diào)小D.調(diào)大NameNode內(nèi)存或?qū)⑽募到y(tǒng)元數(shù)據(jù)存到硬盤里2、關(guān)于SecondaryNameNode哪項(xiàng)是不正確的?(ABD)NameNodeNameNodeNameNodeSecondaryNameNodeNameNode3pADA.DataNode B.NameNode C.4pAB。A.單(地模式 B.分式式 C.聯(lián)式 布模式三、答題1、HDFS是如何實(shí)現(xiàn)容錯(cuò)機(jī)制的?如果DataNode出現(xiàn)故障會(huì)怎么樣?HDFSHDFS時(shí),HDFS下,HDFS3DataNode掛了NaNoeNoe(ae運(yùn)行常。塊報(bào)告包含DataNode上所有塊的列表。如果一個(gè)DataNode發(fā)送心跳消息失敗,則在特定時(shí)間段后將其標(biāo)記為死亡。NameNode使用之前創(chuàng)建的副本將死節(jié)點(diǎn)的塊復(fù)制到另一個(gè)DataNode2、簡(jiǎn)述Hadoopfs和Hadoopdfs的區(qū)別其一,fs是文件系統(tǒng),dfs是分布式文件系統(tǒng);其二,fs>dfs:分布式環(huán)境情況下,fs與dfs無(wú)區(qū)別,可以通用;但僅有本地環(huán)境的情況下,fs就是本地文件,dfs就不能用了。6章一、單選題1、HBase依靠(A)存儲(chǔ)底層數(shù)據(jù)。A.HDFS B.Hadoop C.Memory MapReduce2、HBase來(lái)源于哪一項(xiàng)(C)?A.TheGoogleFileB.MapReduce C.Chubby3、解壓.tar.gz結(jié)尾的HBase壓縮包使用的Linux命令是?AA.tar-zxvf B.tar-zx C.tar-s tar-nf4Baes是表名(。A.updatexiaoming’setinfo.age=1 B.updateC.putput5BaelA.deletefromB.deletetablefrom‘xiaoming’C.deletealldeleteall‘xiaoming’6BaelA.selectcount(0)from‘users’ B.sum‘users’C.count‘users’ ‘users’7、下面對(duì)HBase的描述哪些是不正確的(A)?A.是源的 B.面列的 C.是布的 是種NoSQL據(jù)庫(kù)8、下列哪些選項(xiàng)是安裝HBase前所必須安裝的(B)?A.Scala B.JDK C.ShellScript JavaCode二、判斷題1、HBase是一套高性能的分布式數(shù)據(jù)集群,必須在大型機(jī)或者高性能的服務(wù)器上進(jìn)行搭建。(正確)A.正確B.錯(cuò)誤2、HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目,利用HadoopHDFS作為其文件存儲(chǔ)系統(tǒng),適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。(A)A.正確B.錯(cuò)誤3、MapReduce程序可以直接讀取HBase內(nèi)存儲(chǔ)的數(shù)據(jù)內(nèi)容。(A)A.正確B.錯(cuò)誤4deleteHBase(B)A.正確B.錯(cuò)誤5、使用Shell命令insert對(duì)HBase中的一張表進(jìn)行數(shù)據(jù)添加操作。(B)A.正確B.錯(cuò)誤6ShellHBase(A)A.正確B.錯(cuò)誤7、HBase系統(tǒng)適合進(jìn)行多表聯(lián)合查詢以及復(fù)雜性讀寫操作。(B)A.正確B.錯(cuò)誤8、HBase允許創(chuàng)建空表,不需要建立列簇。(B)A.正確B.錯(cuò)誤三、簡(jiǎn)答題1、試述HBase主服務(wù)器Master和Region服務(wù)器的功能組建及其作用。HBase由一個(gè)主服務(wù)器Master和許多Region服務(wù)器支持實(shí)現(xiàn)。主服務(wù)器Master主要負(fù)責(zé)表和Region的管理工作:管理用戶對(duì)表的增加、刪除、修改、查詢等操作;實(shí)現(xiàn)不同Region服務(wù)器之間的負(fù)載均衡;在Region分裂或合并后,負(fù)責(zé)重新調(diào)整Region的分布;對(duì)發(fā)生故障失效的Region服務(wù)器上的Region進(jìn)行遷移。Region服務(wù)器是HBase中最核心的模塊,負(fù)責(zé)維護(hù)分配給自己的Region,并響應(yīng)用戶的讀寫請(qǐng)求。2、請(qǐng)闡述HBase的數(shù)據(jù)分區(qū)機(jī)制,說(shuō)明分區(qū)是如何定位的。HBaseRegionRegionRegiondeRegionRegionRegionRegionRegion7章一、單選題1下說(shuō)錯(cuò)的。A.Map函數(shù)將輸入的元素轉(zhuǎn)換成<key,value>形式的鍵值對(duì)B.Hadoop框架是用Java實(shí)現(xiàn)的,MapReduce應(yīng)用程序則一定要用Java來(lái)寫C.不同的Map任務(wù)之間不能互相通信D.MapReduce框架采用了Master/Slave架構(gòu),包括一個(gè)Master和若干個(gè)Slave2、HBase依賴(D)提供強(qiáng)大的計(jì)算能力。A.B.Chubby C.RPC MapReduce3、在使用MapReduce程序進(jìn)行詞頻統(tǒng)計(jì)時(shí),對(duì)于文本行“goodbookdatMpA。A、<“good”,1>、<“good”,1>、<“book”,1>和<“man”,1>B、<“good”,1,1>、<“book”,1>和<“man”,1>C、<“good”,<1,1>>、<“book”,1>和<“man”,1>D、<“good”,2>、<“book”,1>和<“man”,1>4在頻計(jì),于本行"goodbookgoodman",過(guò)的Reduce函數(shù)處后結(jié)是 B 。A、<“good”,2><“book”,1><“man”,1>B、<“book”,1><“good”,2><“man”,1>C、<“good”,1,1><“book”,1><“man”,1>D、<“book”,1><“good”,1><“good”,1><“man”,1>5關(guān)于HadoopMapReduce敘錯(cuò)的D 。A、MapReduce采用“分而治之”的思想B、MapReduce的輸入和輸出都是鍵值對(duì)的形式C、MapReduce將計(jì)算過(guò)程劃分為Map任務(wù)和Reduce任務(wù)D、MapReduce的設(shè)計(jì)理念是“數(shù)據(jù)向計(jì)算靠攏”6HadoopMapReduce算的程A 。A、Map任務(wù)—Shuffle—Reduce任務(wù)B、Map任務(wù)—Reduce任務(wù)—ShuffleC、Reduce任務(wù)—Map任務(wù)—ShuffleD、Shuffle—Map任務(wù)—Reduce任務(wù)7編寫MapReduce時(shí),列述誤是 D 。A、reduce函數(shù)所在的類必須繼承自Reducer類B、map函數(shù)的輸出就是reduce函數(shù)的輸入C、reduce函數(shù)的輸出默認(rèn)是有序的D、啟動(dòng)MapReduce進(jìn)行分布式并行計(jì)算的方法是start二、多選題1Medue(AMapReduceMapReducegoogleMapReduceJavaMapReduce2、MapReduce與HBase的關(guān)系,哪些描述是正確的?(B、C)A兩者不可或缺,MapReduce是HBase可以正常運(yùn)行的保證B兩者不是強(qiáng)關(guān)聯(lián)關(guān)系,沒(méi)有MapReduce,HBase可以正常運(yùn)行CMapReduce可以直接訪問(wèn)HBaseD它們之間沒(méi)有任何關(guān)系3對(duì)MapReduce的結(jié)構(gòu)以說(shuō)正的。A、分布式編程架構(gòu)B、以數(shù)據(jù)為中心,更看重吞吐率C、分而治之的思想D、將一個(gè)任務(wù)分解成多個(gè)子任務(wù)答案:ABCD4、MapReduce了證務(wù)的常行采用 等種錯(cuò)制。A、重復(fù)執(zhí)行B、重新開(kāi)始整個(gè)任務(wù)C、推測(cè)執(zhí)行D、直接丟棄執(zhí)行效率低的作業(yè)答案:AC5關(guān)于MapReduce的shuffle過(guò),敘正的。A、Shuffle分為Map任務(wù)端的Shuffle和Reduce任務(wù)段的ShuffleB、Map任務(wù)的輸出結(jié)果不是立即寫入磁盤,而是首先寫入緩存C、并非所有場(chǎng)合都可以使用合并操作DReduceMap三、簡(jiǎn)答題1、MapReduce的Shuffle過(guò)程包含了哪幾個(gè)階段,分別做了什么工作?Shuffle的數(shù)據(jù)量是由什么決定的?map端shuffle過(guò)程如下:splitpartition3)寫入環(huán)形內(nèi)存緩沖區(qū)4)spill,執(zhí)行溢出寫5)歸并reduce端shuffle過(guò)程如下:1)復(fù)制copy2)歸并merge3)reduce2、試述Map和Reduce兩部分之間的編程聯(lián)系MapReduce程序主要由Map和Reduce兩部分組成。Reduce階段在Map階段執(zhí)行結(jié)束之后執(zhí)行。Map階段的輸出結(jié)果作為Reduce階段的輸入結(jié)果。Reduce階段的輸入結(jié)果對(duì)應(yīng)于多個(gè)Map的輸出結(jié)果。Reduce階段計(jì)算最終結(jié)果并將結(jié)果輸出。8章一、判斷題1、HiveHDFS(2、Hive有專門的數(shù)據(jù)存儲(chǔ)格式,為數(shù)據(jù)建立專門索引。(錯(cuò))3、Hive中包含的數(shù)據(jù)模型有:表(Table),外部表(ExternalTable),分區(qū)(Partition(Bucket(4、Hive每一個(gè)Table在Hive中都有一個(gè)相應(yīng)的目錄存儲(chǔ)數(shù)據(jù)。(對(duì))5、Hive將元數(shù)據(jù)存儲(chǔ)在其自身的數(shù)據(jù)庫(kù)中。(錯(cuò))6、Hive所有的數(shù)據(jù)查詢由MapReduce完成。(錯(cuò))7、HiveQL語(yǔ)句轉(zhuǎn)換為MapReduce作業(yè)提交到Hadoop集群,將執(zhí)行結(jié)果呈現(xiàn)給用戶。(對(duì))8、Hive定義了簡(jiǎn)單的類SQL查詢語(yǔ)言,稱為HiveQL(簡(jiǎn)稱HQL),可以通過(guò)類SQLMapReduceMapReduce(hiveHivehive-site.xml<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value><description>JDBCconnectstringforaJDBCmetastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive123</value></property><property><name>javax.jdo.option.ConnectionPassword</name><value>hive1234567</value></property>HiveHiveMySQLhive123;hive12345679章一、單選題1、Hive數(shù)據(jù)倉(cāng)默認(rèn)的存放位置是(A)。A、/user/hive B、/user/hive/warehouseC、/user/hive/default D、/user/default2、查詢表中數(shù)據(jù)時(shí),去除重復(fù)列,使用關(guān)鍵詞(C)。A、limit B、unique C、distinct D、stinct3、selectif(2<1,100,200)fromstudentlimit1的返回值是(B)。A、100 B、200 C、D、提示:if(2<1,100,200)相當(dāng)于一個(gè)三目運(yùn)算。limit1則表示找到一條記錄就不再繼續(xù)掃描。4、對(duì)查詢出的數(shù)據(jù)進(jìn)行排序時(shí),使用關(guān)鍵詞(B)指定為降序。A、asc B、desc C、esc D、des5、創(chuàng)建Hive數(shù)據(jù)庫(kù)可以使用(B)hql語(yǔ)句。A、createdatabases B、createdatabaseC、adddatabase D、adddatabases6、在Hive中從一個(gè)數(shù)據(jù)庫(kù)切換到另一個(gè)數(shù)據(jù)庫(kù),使用關(guān)鍵詞(A)。A、use B、change C、get D、uses7、Hive中直接刪除非空數(shù)據(jù)表,可以添加關(guān)鍵詞(C)。A、limited B、terminated C、cascade 8、創(chuàng)建Hive數(shù)據(jù)表時(shí),指定字段之間的分割符號(hào),需要使用(B)。A、fieldsterminatedB、rowformatdelimitedfieldsterminatedbyC、mapkeysterminated D、collectionitemsterminatedby10章一、單選題1、akecr(A.Driverprogram B.sparkmaster C.node Clustermanager2、下面哪個(gè)不是RDD的特點(diǎn)(C)A.分區(qū) B.序化 C.可改 可久化3、Spark的集群部署模式不包括(D)A.standalone B.sparkonmesos C.sparkonLocal4關(guān)于SparkSQL,以述錯(cuò)的( )SparkSQLRDDSpark,DataFrameSchemaRDDDataFrameRDDDataFrameRDDA5、DataFrame和RDD最大的區(qū)別(B)schema6關(guān)于的,以描錯(cuò)的( )SparkDataFrameDataFrameDataFrameRDD參考答案:D7將個(gè)RDD換為DataFrame的方是( )A.dataFrame() B.toDataFrame() C.DF() toDF()參考答案:D8、SparkSQL可處的據(jù)源括( )A.Hive表 B.Hive、據(jù)件C.Hive、據(jù)件RDD Hive、據(jù)件RDD、部據(jù)庫(kù)參考案:D9下選中針對(duì)Spark運(yùn)的本程個(gè)法是誤( )DriverMasterMasterExecutorExecutor啟動(dòng)會(huì)主動(dòng)連接Driver,通過(guò)->從而得到Driver在哪DriverExecutorB10、列法,能建RDD方是?( )A.makeRDD B.parallelize C.textFile testFile參考答案:D11、列項(xiàng),個(gè)屬于換子作?( )A.filter(func) B.map(func) C.reduce(func) reduceByKey(func)參考答案:C二、多選題1、Hadoop框架的缺陷有(ABC)A.表達(dá)能力有限,MR編程框架的限制B.過(guò)多的磁盤操作,缺乏對(duì)分布式內(nèi)存的支持C.無(wú)法高效低支持迭代式計(jì)算D.海量的數(shù)據(jù)存儲(chǔ)2、可以作為Spark編程語(yǔ)言的有(ABD):A.Java B.Scala C.Ruby D.Python3、與hadoop相比,Spark主要有以下哪些優(yōu)點(diǎn)(ABCD)A.提供多種數(shù)據(jù)集操作類型而不僅限于MapReduceB.數(shù)據(jù)集中式計(jì)算而更加高效C.提供了內(nèi)存計(jì)算,帶來(lái)了更高的迭代運(yùn)算效率D.基于DAG的任務(wù)調(diào)度執(zhí)行機(jī)制4、YARNYARN(ABCD)A.算源需B.同載用搭群利C.享層儲(chǔ)避據(jù)跨群D.大低運(yùn)成5、spark的特點(diǎn)包括(ABD)A.B.C.延D.容6、Sparkdriver的功能是什么(ABD)A.作的進(jìn)B.責(zé)作的C.責(zé)向HDFS申資源 D.責(zé)業(yè)解7、SparkContext可以從哪些位置讀取數(shù)據(jù)(ACD)A.本磁B.web C.hdfs D.內(nèi)8、RDD有哪些缺陷?(AD)A.支細(xì)度寫新操(網(wǎng)爬蟲B.于存計(jì)C.有schema信息 D.支增迭計(jì)9、要讀取people.json文件生成DataFrame,可以使用下列那些命令(AC)A.spark.read.json("people.json")B.spark.read.text("people.json")C.spark.read.format("json").load("people.json")D.spark.read.format("csv").load("people.json")10、SparkSQL支持讀取那些類型的文件(ABC)A.textB.jsonC.parquetD.DOC11、從RDD轉(zhuǎn)換得到DataFrame包含兩種典型的方法,分別是(AB)A.利反機(jī)斷RDD模式 B.使編方義RDD模C.利投機(jī)斷RDD模D.利互網(wǎng)制斷RDD模式12、關(guān)于DataFrame與RDD在結(jié)構(gòu)上的區(qū)別,以下描述正確的是(ABD)A.DataFrameRowB.RDDJavaC.RDDD.DataFrame提供了比RDD更豐富的算子13、流計(jì)算的處理流程(BCD)A.實(shí)數(shù)存B.實(shí)數(shù)計(jì)C.實(shí)查服D.實(shí)數(shù)采集14、SparkStreaming的基本輸入源有哪幾種(ACD)A.件B.kafka C.接D.RDD列15、MLlib包括(ABCD)A.類B.類C.征D.計(jì)16、下面關(guān)于SparkMLlib庫(kù)的描述正確的是(AC)A.MLlib1.2spark.mllibspark.mlB.spark.mllibDataFrameAPIC.spark.mllib包含基于RDD的原始算法APID.spark.ml則提供了基于RDD的、高層次的API17(AASparkStreaming BFlink CStorm DSparkSQL18、列于RDD轉(zhuǎn)算子是AgroupByKey() Breduce() CreduceByKey() Dmap()參考答案:ACD19、列于RDD行算子操)是Acount() Bfirst() Ctake() Dfilter()參考答案:ABC三、判斷題1.standalone(集群模式)典型的Mater/slave模式,Spark支持ZooKeeper來(lái)實(shí)現(xiàn)HA2.構(gòu)造數(shù)據(jù)Schema模式不可以添加數(shù)據(jù)的列名稱。(錯(cuò)誤)3.SparkStreaming并不支持RDD的所有算子。(錯(cuò)誤)4.Pipeline被設(shè)計(jì)用來(lái)管理一系列的階段,每一個(gè)階段都由PipelineStage來(lái)表示。(正確)5.SparkMLtransformerstransformer(正確四、簡(jiǎn)答題1、試述如下Spark的幾個(gè)主要概念:RDD、DAG、階段、分區(qū)、窄依賴、寬依賴。答:①RDD:是彈性分布式數(shù)據(jù)集(ResilientDistributedDataset)的英文縮寫,是分布式內(nèi)存的一個(gè)抽象概念,提供了一種高度受限的共享內(nèi)存模型。②DAG:DirectedAcyclicGraph()RDD③階段:是作業(yè)的基本調(diào)度單位,一個(gè)作業(yè)會(huì)分為多組任務(wù),每組任務(wù)被稱為“階段”,或者也被稱為“任務(wù)集”。④分區(qū):一個(gè)RDD就是一個(gè)分布式對(duì)象集合,本質(zhì)上是一個(gè)只讀的分區(qū)記錄集合,每個(gè)RDD可以分成多個(gè)分區(qū),每個(gè)分區(qū)就是一個(gè)數(shù)據(jù)集片段。⑤窄依賴:父RDD的一個(gè)分區(qū)只被一個(gè)子RDD的一個(gè)分區(qū)所使用就是窄依賴。⑥寬依賴:父RDD的一個(gè)分區(qū)被一個(gè)子RDD的多個(gè)分區(qū)所使用就是寬依賴。2、SparkRDD行動(dòng)Acto轉(zhuǎn)換Trasfomaton11章一、單選題1、在Linux虛擬機(jī)中獲取計(jì)算機(jī)網(wǎng)卡名稱可使用(B)A.ipconfig B.ifconfig C.interfaces D.networkingrestart2、在Ubuntu虛擬機(jī)機(jī)中主機(jī)名保存在文件(C)中。A./home/hostname B./etc/name C./etc/hostname D./home/name3、ssh服務(wù)端的進(jìn)程名為(D)A.openssh B.openssl C.ssh D.sshd4、SSH的默認(rèn)端口是(C)A.2222 B.33 C.22 D.33335、利用遠(yuǎn)程機(jī)的用戶登錄正確的方法是(A)A.sshomd@00 B.ssh00C.ssh00::22 D.ssh00@omd二、多選題1、在/etc/hosts文件中建立“04slave1”地址映射后,遠(yuǎn)程復(fù)制文件的正確語(yǔ)句是(AD)A.scp~/.ssh/authorized_keysslave1:~/.ssh/authorized_keysB.cp~/.ssh/authorized_keysslave1:~/.ssh/authorized_keysC.cp~/.ssh/authorized_keys04:~/.ssh/authorized_keysD.scp~/.ssh/authorized_keys04:~/.ssh/authorized_keys2、Vmware虛擬機(jī)中虛擬網(wǎng)卡有哪些連接方式A.接B.地C.NAT模式 D.主模3、在vmware擬中:vmnet0對(duì)(A);vmnet1應(yīng)(C);vmnet8對(duì)應(yīng)(D)A.接B.地C.NAT模式 D.主模三、簡(jiǎn)答題1、簡(jiǎn)述橋接模式和NAT模式之間的區(qū)別IPNAT2AB1)使用ssh-keygen-tRSA功能在A、B主機(jī)分別創(chuàng)建秘鑰;2)使用mv命令分別修改A、B主機(jī)公鑰文件名稱為A.pub和B.pub3)通過(guò)scp命令將A.pub和B.pub匯集到A或B主機(jī)4)形成許可證文件,通過(guò)cat~/.ssh/A.pub>>~/.ssh/authorized_keys和cat~/.ssh/B.pub>>~/.ssh/authorized_keys5)authorized_keys、B6)SSHASSHB12章(一)單選題1、Zookeeper角色分配不包括(B)A.Observer B.protecter C.leader D.follower2、ZookeeperShell命中可顯節(jié)詳信的命是(A)A.getB.setC.create D.stat3、zookeeper配置文件是(B)。A.core-sit.xml B.zoo.cfg C.Hadoop-env.xml D.dfs-sit.xml4、zookeeper集群使用的協(xié)議(C)。A.HTTP/IPB.WEBC.ZABD.ORACLE協(xié)5、zokeeer(CA.B.C.3 D.二、多選題1、zookeeperShell命令有哪些(ABCD)。A.Create B.Delete C.set D.get2、zokeeer集啟在Mater服器入JS命令有些CDA.Namenode B.Datanode C.QuorumPeerMain D.HMaster3、下列屬于zookeeper集群命令有哪些(ABD)A.zkServer.shstart B.zkServer.shstatus C.zkServer.shrestart D.zkServer.shstop4、zookeeper服務(wù)器有哪幾種狀態(tài)(ABCD)。A.競(jìng)狀B.隨狀C.觀狀D.領(lǐng)者三、簡(jiǎn)答題1、根據(jù)自己的理解,回答ZooKeeper是什么,能用來(lái)做什么?答:ZooKeeper是一個(gè)分布式協(xié)調(diào)系統(tǒng),為分布式服務(wù)提供一致性。可以用來(lái)做注冊(cè)中心,分布式鎖,Master選舉,數(shù)據(jù)的發(fā)布與訂閱等,其實(shí)質(zhì)是實(shí)現(xiàn)了一個(gè)具有多層級(jí)的節(jié)點(diǎn)znode命名空間,每個(gè)節(jié)點(diǎn)都可以存放數(shù)據(jù)文件系統(tǒng)。2、簡(jiǎn)述ZooKeeper選舉機(jī)制。答:ZooKeeperServiceIdidid;Zxid事務(wù)id,服務(wù)器中存放的最大數(shù)據(jù)id,越大越新;Epoch邏輯時(shí)鐘-投票輪數(shù),遞增的。根據(jù)這個(gè)知道是哪一輪的投票;Server選舉狀態(tài)looking選舉中l(wèi)eadingfollowingobserving不參與投票。ZooKeeper1)啟動(dòng),先判斷集群是否已經(jīng)有l(wèi)eader了,如果有,就直接作為follower啟動(dòng);2)如果處于選舉狀態(tài),每臺(tái)機(jī)器都在第一輪會(huì)投票給自己,并且獲取其他機(jī)器的投票信息;3)收集到投票信息后,每臺(tái)機(jī)器根據(jù)信息,先判斷epoch,輪次大的勝出,然后選舉zxid最大的,如果zxid一樣大,選舉serviceid最大的,并發(fā)起第二輪投票;4)如果超過(guò)半數(shù)的選票決出leader,選舉結(jié)束,各個(gè)機(jī)器更改自己相應(yīng)的狀態(tài)否則重復(fù)第3步。14章單選題1ActieNaNo(AN和ayNaeN()DN(3s,10m)DNblock匯報(bào)DN信息2、關(guān)于JournalNode(JN)描述不正確是(C)QuorumJournalNodeManager(QJM)NameNode;ANNJournalNode;JournalNodeNameNodeSNN()QJM3、關(guān)于FailoverController(ZKFC:故障轉(zhuǎn)移控制器)說(shuō)法正確的是(B)A.當(dāng)集群?jiǎn)?dòng)時(shí),主備節(jié)點(diǎn)的概念是很模糊的,當(dāng)ZKFC檢查到任意一個(gè)節(jié)點(diǎn)是健康狀態(tài),直接將其設(shè)置為主節(jié)點(diǎn)。zkfcNNZKFCHANN。4、Hadoop和Hadoop生態(tài)圈的描述中,正確的是()HadoopHadoopHadoopHadoopHadoopHadoopHadoopZooKeeper、Flume、RedisHive、Flink等HadoopHadoop解析A.錯(cuò)誤,Hadoop生態(tài)圈是指Hadoop框架及其保證其正常高效運(yùn)行的其他框架B.正確C.錯(cuò)誤,Redis、Flink不是D.錯(cuò)誤,Hadoop生態(tài)圈含義大于Hadoop5、在Hadoop集群的配置文件中有如下兩個(gè)配置,請(qǐng)問(wèn)假如集群中有一個(gè)節(jié)點(diǎn)宕機(jī),主節(jié)點(diǎn)namenode需要多長(zhǎng)時(shí)間才能感知到()<property><name>erval</name><value>3</value></property><property><name>erval</name><value>2000</value></property>26秒34秒30秒20秒解析erval:datanode會(huì)按照此間隙(單位s)向namenode發(fā)送心跳,默認(rèn)發(fā)送10次。erval:namenode按照此間隙(單位ms)檢查datanode的相關(guān)進(jìn)程,默認(rèn)檢查2次。HDFS集群掉線超時(shí)時(shí)長(zhǎng)的計(jì)算公式是:timeout=10*erval+2*erval/1000接下來(lái)代入?yún)?shù),套著公式進(jìn)行計(jì)算10*3+2*2000/1000=34秒6eeerN)A.兩臺(tái)NN啟動(dòng)后都會(huì)去zk(zookeeper)進(jìn)行注冊(cè),zk會(huì)分配主節(jié)點(diǎn)(Active)和備節(jié)點(diǎn)aB.主NN對(duì)外提供服務(wù),備NN同步主NN元數(shù)據(jù),以待切換,通過(guò)集群JN(JournalNode)。備用NN也會(huì)幫助主NN合并editsLog文件和fsimage產(chǎn)生
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 6根莖葉(教學(xué)設(shè)計(jì))-2023-2024學(xué)年科學(xué)三年級(jí)下冊(cè)人教鄂教版
- 2025年TI粉末多孔過(guò)濾器項(xiàng)目建議書
- 垂直與平行(教學(xué)設(shè)計(jì))-2024-2025學(xué)年四年級(jí)上冊(cè)數(shù)學(xué)人教版
- 五保老人醫(yī)療委托合同6篇
- 中式餐飲創(chuàng)新菜品與口味趨勢(shì)
- 城市休閑公園項(xiàng)目選址與環(huán)境分析
- 二零二五年度旅游公寓房租賃與推廣合同
- 二零二五年度中小學(xué)教師聘用及素質(zhì)教育發(fā)展合同
- 2025年度新能源公交車駕駛員招聘合同
- 交通樞紐石材運(yùn)輸搬運(yùn)合同
- 出租共享菜園合同范例
- 八年級(jí)班主任學(xué)生心理健康計(jì)劃
- 2025年第六屆全國(guó)國(guó)家版圖知識(shí)競(jìng)賽測(cè)試題庫(kù)及答案
- 2025年三方買賣協(xié)議標(biāo)準(zhǔn)版本(2篇)
- 【歷史】唐朝建立與“貞觀之治”課件-2024~2025學(xué)年統(tǒng)編版七年級(jí)歷史下冊(cè)
- 2024化工園區(qū)危險(xiǎn)品運(yùn)輸車輛停車場(chǎng)建設(shè)規(guī)范
- 05G359-3 懸掛運(yùn)輸設(shè)備軌道(適用于一般混凝土梁)
- 田字格模版內(nèi)容
- Q∕GDW 12152-2021 輸變電工程建設(shè)施工安全風(fēng)險(xiǎn)管理規(guī)程
- 第一章 公共政策分析的基本理論與框架
- 云南省地質(zhì)災(zāi)害群測(cè)群防手冊(cè)
評(píng)論
0/150
提交評(píng)論