大數(shù)據(jù)CDA考試(習題卷5)_第1頁
大數(shù)據(jù)CDA考試(習題卷5)_第2頁
大數(shù)據(jù)CDA考試(習題卷5)_第3頁
大數(shù)據(jù)CDA考試(習題卷5)_第4頁
大數(shù)據(jù)CDA考試(習題卷5)_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:大數(shù)據(jù)CDA考試大數(shù)據(jù)CDA考試(習題卷5)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)CDA考試第1部分:單項選擇題,共47題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.在ID3算法中信息增益是指()。A)信息的溢出程度B)信息的增加效益C)熵增加的程度最大D)熵減少的程度最大答案:D解析:[單選題]2.貝葉斯決策是根據(jù)()進行決策的一種方法。A)極大似然概率B)先驗概率C)邊際概率D)后驗概率答案:D解析:[單選題]3.分析顧客的消費行為,以便有針對性的向其推薦感興趣的服務,于()問題A)關聯(lián)規(guī)則挖掘B)分類與回歸C)聚類分析D)時序預測答案:A解析:[單選題]4.17、19、22、24、25、28、34這組數(shù)的四分位差是()。A)24B)12C)9D)D17答案:C解析:[單選題]5.傳統(tǒng)數(shù)據(jù)處理的數(shù)據(jù)單位?A)TBB)EBC)PBD)GB答案:D解析:[單選題]6.在Mapper類中,共有4個函數(shù):setup()、map()、()l、run)。A)Reducer()B)cleanup()C)Split()D)local()答案:B解析:[單選題]7.HadoopMapReduce支持多種語言編程,下列說法不正確的是()。A)可以用JAVA語言編寫MapReduce應用程序B)可以用C/C++語言編寫MapReduce應用程序C)可以用Python語言編寫MapReduce應用程序D)可以用javascript語言編寫MapReduce應用程序答案:D解析:[單選題]8.統(tǒng)計圖形中,常用于檢查異常值的是()。A)Q-Q圖B)箱線圖C)帕累托圖D)氣泡圖答案:B解析:[單選題]9.在Flink技術架構中,以下哪項是流處理和批處理的計算引擎?A)StandaloneB)RuntimeC)FlinkCoreD)Datasteam答案:B解析:[單選題]10.()表示在先決條件X發(fā)生的情況下,由關聯(lián)規(guī)則?X→Y?推出Y的概率。即在含有X的項集中,含有Y的可能性。A)置信度B)支持度C)關聯(lián)度D)以上都不是答案:A解析:[單選題]11.一個6面骰子連擲4次,得到至少一次六點的概率約為()。A)≈51.77%B)≈66.67%C)≈48.22%D)≈16.67%答案:A解析:1-(5/6)^4≈0.5177[單選題]12.使用JAVAAPI進行HBase整表掃描操作,以下命令輸寫正確的是()。A)table.getScanner(scan);B)table.scan(table)C)table.get(table).scan();D)table.Scanner(get);答案:A解析:[單選題]13.下面關于MapReduce的描述中正確的是()。A)MapReduce程序必須包含Mapper和Reduce。B)MapReduce程序的MapTask可以任意指定。C)MapReduce程序的ReduceTask可以任意指定D)MapReduce程序的ReduceTask可以任意指定答案:D解析:[單選題]14.下列關于HadoopAPI的說法錯誤的是()。A)Hadoop的API只適用于HDFS文件系統(tǒng)B)Configuration類的默認實例化方法是以HDFS系統(tǒng)的資源配置為基礎的C)FileStatus對象存儲文件和目錄的元數(shù)據(jù)D)FSDatalnputStream是java.io.DatalnputStream的子類答案:A解析:[單選題]15.HBase的物理存儲單元是什么?A)RegionB)ColumnFamilyC)ColumnD)ROW答案:B解析:[單選題]16.檢驗單總體方差的過程中,檢驗統(tǒng)計量服從()。A)標準正態(tài)分布B)正態(tài)分布C)卡方分布D)t分布答案:C解析:見單總體方差檢驗概念[單選題]17.在創(chuàng)建對象時必須A)先聲明對象,然后才能使用對象B)先聲明對象,為對象分配內(nèi)存空間,然后才能使用對象C)先聲明對象,為對象分配內(nèi)存空間,對對象初始化,然后才能使用對象D)上述說法都對答案:C解析:[單選題]18.以下表述錯誤的是()。A)冗余屬性不會對決策樹的準確率造成不利的影響B(tài))子樹可能在決策樹中重復多次C)決策樹算法對于噪聲的干擾非常敏感D)尋找最佳決策樹是NP完全問題答案:C解析:[單選題]19.Java的字符類型采用的是Unicode編碼方案,每個Unicode碼占用()個比特位。A)8B)16C)32D)64答案:C解析:[單選題]20.如果需要由數(shù)據(jù)生產(chǎn)者決定數(shù)據(jù)發(fā)送給目標Bolt的某一個確定的Task,應選擇以下哪種消息發(fā)布策略()?A)局部字段分組B)廣播分組C)直接分組D)全局分組答案:C解析:[單選題]21.編譯Java源程序文件將產(chǎn)生相應的字節(jié)碼文件,這些字節(jié)碼文件的擴展名為A)byteB)classC)htmlD)exe答案:B解析:[單選題]22.無監(jiān)督學習中應用最廣的是()。A)分類算法B)聚類算法C)關聯(lián)算法D)時序答案:B解析:[單選題]23.下列選項中無法通過大數(shù)據(jù)技術實現(xiàn)的是?()A)商業(yè)模式發(fā)現(xiàn)B)信用評估C)商品推薦D)運營分析答案:A解析:[單選題]24.以下對最近鄰分類算法(KNN)的說法錯誤的是()。A)它使用具體的訓練實例進行預測,不必維護源自數(shù)據(jù)的模型B)分類一個測試樣例開銷很大C)最近鄰分類器基于全局信息進行預測D)可生產(chǎn)任意形狀的決策邊界答案:C解析:[單選題]25.Zookeeper在分布式應用中主要的作用不包括以下哪些選項?A)選舉Master節(jié)點B)保證各節(jié)點上數(shù)據(jù)的C)分配集群資源D)存儲及群中答案:C解析:[單選題]26.hadoop平臺中要查看Yarn服務中一個application的信息,通常需要使用什么命令?A)containerB)jarC)application-attemptD)Application答案:D解析:[單選題]27.HBase依靠()存儲底層數(shù)據(jù)A)HDFSB)HadoopC)MemoryD)MapReduce答案:A解析:[單選題]28.以下哪個不屬于數(shù)據(jù)分析報告的開篇部分。()A)索引B)前言C)目錄D)標題答案:A解析:[單選題]29.Hadoop系統(tǒng)中關于客戶端向HDFS文件系統(tǒng)上傳文件說法正確的是?A)客戶端的文件數(shù)據(jù)經(jīng)過NameNode傳遞給DataNodeB)客戶端將文件分為多個Bock,根據(jù)DataNode的地址信息,按順序?qū)懭朊恳粋€DataNode中C)客戶端根據(jù)DataNode的地址信息,按順序?qū)⒄麄€文件寫入每一個DataNode中,然后由DataNode將文件劃分為多個BlockD)客戶端只上傳數(shù)據(jù)到一個DataNode,然后由Namenode負責Bock復制答案:B解析:[單選題]30.下列有關C4.5算法的說法中不正確的是()A)每個節(jié)點的分支度只能為2B)使用gainratio作為節(jié)點分割的依據(jù)C)可以處理數(shù)值型態(tài)的字段D)可以處理空值的字段答案:A解析:[單選題]31.SOL語言中,刪除一個表中所有數(shù)據(jù),但保留表結構的命令是()。A)DELETEB)DROPC)CLEARD)REMORE答案:A解析:truncate與drop是DDL語句,執(zhí)行后無法回滾;delete是DML語句,可回滾。[單選題]32.下列選項中,關于Zookeeper可靠性含義說法正確的是?A)可靠性通過主備部署模式實現(xiàn)B)可靠性是指更新更新只能成功或失敗沒有中間狀態(tài)C)可靠性是指無論個server,對外展示的均是同一個視圖D)可靠性是指一個消息被一個Server它將被所有的Server接受答案:D解析:[單選題]33.一個電瓶車制造商聲稱,其生產(chǎn)的電瓶車正常行駛條件下大于40公里,對一個由20輛電瓶車組成的隨機樣本作了試驗,測得平均值為50公里,標準差為10公里。已知電瓶車的行駛距離服從正態(tài)分布,我們希望檢驗該制造商的產(chǎn)品同他所說的標準相符?我們應該選擇()A)單側t檢驗B)雙側t檢驗C)單側F檢驗D)雙側F檢驗答案:A解析:小樣本均值檢驗用t檢驗。[單選題]34.在測試Flask項目時,使用()模塊可以根據(jù)需求產(chǎn)生不同類型和數(shù)量的虛擬數(shù)據(jù)0A)demoB)fakerC)testD)faker_data答案:B解析:[單選題]35.下列涉及通配符的操作,范圍最大的是()A)nameB)nameC)nameD)name答案:C解析:%匹配多個字符,_匹配一個字符。[單選題]36.對于Hive中關于普通表和外部表描述不正確的是?A)默認創(chuàng)建普通表B)刪除外部表時,只除外部表數(shù)據(jù)而不刪除元數(shù)據(jù)C)外部實質(zhì)是將已存在于HDFS上的文件路徑跟表關聯(lián)起來D)刪除普通表時,元數(shù)據(jù)和數(shù)據(jù)同時被刪除答案:C解析:[單選題]37.下面哪些場景不是Flink組件擅長的?A)批處理B)迭代計算C)流處理D)數(shù)據(jù)存儲答案:B解析:[單選題]38.在使用Flask-WTF自定義表單類時,自定義的類需要繼承自()。A)FlaskFormB)FlaskFormsC)FlaskWTFD)Forms答案:A解析:[單選題]39.下面關于Zookeeper特性的描述錯誤的是?A)消息更新只能成功或者失敗,沒有中間狀態(tài)B)Zookeeper節(jié)點數(shù)必須為奇數(shù)個C)一條消息要被超過半數(shù)的Server接收,它將可以成功寫入磁盤D)客戶端所發(fā)送的更新會按照它們被發(fā)送的順序進行應用答案:B解析:[單選題]40.以下哪個操作是hive不支持的?()A)表增加列B)表刪除列C)表修改列D)修改表名答案:B解析:[單選題]41.在方差分析中,我們?nèi)缦螺敵錾媳碛??號的空格?shù)值是多少()A)32B)33C)64D)66答案:C解析:組內(nèi)自由度等于觀察數(shù)66-組數(shù)2=64。[單選題]42.日常數(shù)據(jù)通報型報告的特點錯誤的是()。A)進度性B)規(guī)范性C)時效性D)全面性答案:D解析:[單選題]43.以下關于K-Means算法錯誤的是()。A)K值無法預先判斷,只適用于球形類的形狀的聚類B)算法可能收斂到局部最優(yōu)點C)算法對極值點及噪點較為敏感D)中心點的個數(shù),通常值是在8-10個之間答案:D解析:[單選題]44.若要對比各個國家之間的人均收入與人均支出的離散程度,應使用以下哪種統(tǒng)計量()。A)方差B)離差C)離散系數(shù)D)相關系數(shù)答案:C解析:見離散系數(shù)定義[單選題]45.HBase的Region組成中,必須要有以下一項。A)StoreFileB)MemStoreC)HFileD)MetaStore答案:B解析:[單選題]46.以下關于fusioninsightCTbase的描述不正確的是?A)CThase的讀寫數(shù)據(jù)接口,統(tǒng)一封裝了行定義的接口,自動進行冷字段的合并和解析,不需要在應用程序中進行合并和解釋B)CTHBase是基于Hbase的聚簇表開發(fā)框架C)CTHbase提供了一套Webui進行元數(shù)據(jù)定義,提供了只管醫(yī)用的表設計工具,降低表設D)CTHbase的javaAPI提供一套Hbase連接池管理的接口,內(nèi)部進行連接共享,減少客戶端應用開發(fā)難度。答案:B解析:[單選題]47.采用Flume傳輸數(shù)據(jù)過程中,為了防止因Flume進程重啟而丟失數(shù)據(jù),推薦使用以下哪種channel類型?A)MemoryChannelsB)FileChannelC)JDBCChannelD)HDFSChannel答案:B解析:第2部分:多項選擇題,共29題,每題至少兩個正確答案,多選或少選均不得分。[多選題]48.寧家駿委員指出,()主導了21世紀。A)云計算B)移動支付C)大數(shù)據(jù)D)物聯(lián)網(wǎng)答案:ACD解析:[多選題]49.FusioninsightManager可以對哪些項目進行健康檢查?()A)角色B)主機C)服務D)實例答案:ABCD解析:[多選題]50.下列關于Worker(工作進程exector(線程)、Task(任務)說法正確的是?A)每個Executor(線程可以運行多個task任務B)每個Worket運行多個exector(線程)C)每個Workst只能為個拓撲運行Executor(線程)D)每個Executor運行不同組件(Spout或Bolt)的Task(任務)答案:ABD解析:[多選題]51.可以用于表示某公司一年中每個月銷量變化的數(shù)據(jù)圖形類型是()。A)矩形豎圖B)柱狀圖C)堆積面積圖D)雷達圖答案:BC解析:[多選題]52.Streaming的處理節(jié)點Bolt中,可以完成以下哪些操作?()A)連接運算B)過濾(Filter)C)連接數(shù)據(jù)庫D)業(yè)務處理答案:ABCD解析:[多選題]53.Hbase中包含的一些典型的Filter有哪些?()A)SingleColumValueFilterB)FilterListC)RowFilterD)KeyOnlyFilter答案:ABCD解析:[多選題]54.決策樹法分析問題的主要步驟為()。A)結構化問題B)設計可能結果發(fā)生的概率C)設計結果的得益D)分析問題答案:ABCD解析:[多選題]55.以下關丁KafkaPartition說法正確的有?A)引入Partition機制,保證了Kafka的高吞吐能力B)每個Partition都是有序且不可變的消息隊列C)Partition數(shù)量決足了每個consumergroup中井發(fā)消費者的最大數(shù)量D)每個Partition在存儲層面對應一個10g文件答案:ABCD解析:[多選題]56.下面關于Hbase的特性描述正確的是(1。A)高可靠性B)高性能C)面向列D)可伸縮答案:ABCD解析:[多選題]57.以下哪些是集中趨勢分析的指標。()A)均值B)中位數(shù)C)眾數(shù)D)四分位數(shù)答案:ABCD解析:[多選題]58.Apriori算法的計算復雜度受哪些因素影響?()A)支持度閥值B)項數(shù)(維度)C)事務數(shù)D)事務平均寬度答案:ABCD解析:[多選題]59.以下對SPARK的描述,正確的是()?A)高性能內(nèi)存迭代計算框架B)內(nèi)存計算一站式解決方案C)性能差D)支持多語言快速開發(fā)應用答案:ABD解析:[多選題]60.FusioninsightHD系統(tǒng)中使用Streaming客戶端Shell命令提交了拓撲之后,使用StormUl查看發(fā)現(xiàn)該拓長時間沒有處理數(shù)據(jù),可能原因有?()A)查看客戶端異常堆棧,判斷是否客戶端使用問題B)查看主Nimbus的運行日志,判斷是否Nimbus服務端異常C)查看Supervisor運行日志,判斷是否Supervisor異常D)查看Worker運行日志答案:AB解析:[多選題]61.光纜是數(shù)據(jù)傳輸中最有效的一種傳輸介質(zhì),它有()A)頻帶較寬B)電磁絕緣性能好C)衰減較小D)無中繼段長答案:AB解析:[多選題]62.問題結構是由()構成的。A)現(xiàn)狀B)直接原因C)間接原因D)最終原因答案:ABD解析:[多選題]63.某大樣本數(shù)據(jù)集的缺失值占比約10%。數(shù)據(jù)分析師小A首先刪除了所有有缺失值的樣本,建立了回歸模型。然后用某種方法進行了缺失值處理后,重新建立了回歸模型,發(fā)現(xiàn)模型的VIF值較之前有了很大的增幅。請問小A有可能采用的哪種方法進行的缺失值處理?()A)均值填補B)K-means聚類填補C)回歸填補D)忽略缺失值的極大似然估計答案:BC解析:此題為本試卷最難題。A只涉及變量本身,D涉及數(shù)據(jù)集整體,這兩種方法都不會影響自變量之間的相關性,即不會讓VIF值產(chǎn)生顯著變化。而BC兩種方法都是以變量之間的聯(lián)系作為填補的基礎,會在一定程度上改變變量之間的相關性,導致VIF值變化。[多選題]64.數(shù)據(jù)分析報告的金字塔原理所遵循的原則是()。A)歸類分組B)邏輯遞進C)以下統(tǒng)上D)結論先行答案:ABD解析:[多選題]65.關于SparkSQL&Hive區(qū)別與聯(lián)系,下列說法正確的是?()A)SparkSQL依賴HiVe的元數(shù)據(jù)B)SparkSQL的執(zhí)行引擎為Sparkcore.,Hive默認執(zhí)行引擎為MapreduceC)SparkSQL不可以使用Hive的自定義函數(shù)D)SparkSQL兼容絕大部分Hive的語法和函數(shù)答案:ABCD解析:[多選題]66.ZKFC進程部署在hdfs中的以下那個節(jié)點上?()A)activenamenodeB)standbynamenodeC)datanodeD)以上全部不對答案:AB解析:[多選題]67.ResoureManager主要作用是什么()?A)調(diào)度器B)應用程序管理器C)節(jié)點資源管理D)節(jié)點資源管理答案:AC解析:[多選題]68.hive在load是不檢索數(shù)據(jù)是否符合schema的,hive遵循的是schemaonread(讀時模式)只有在讀時模式的時候才檢查hive的數(shù)據(jù)字段,shena,下關于Flink中transformation的說法正確的是?A)可以通過window設定時間窗口B)filter操件是對每個元素執(zhí)行boolean函數(shù)C)flatmap是對文本進行切分D)keyby是將源頭數(shù)據(jù)按照key進行分組,以保證同一個key的元數(shù)據(jù)分到同樣的組中答案:ABD解析:[多選題]69.Yarn中,?從?節(jié)點負責以下哪些工作?A)集群中所有資源的一管理和分配B)監(jiān)督container的生命周期管理C)監(jiān)控每個Container的資源使用(內(nèi)存、CPU等)情況D)管理日志和不同應用程序用到的附屬服務答案:BC解析:[多選題]70.預測性數(shù)據(jù)挖掘包括哪些方法?A)分類B)數(shù)據(jù)總結C)回歸D)時間序列答案:ACD解析:[多選題]71.以下屬于分類器模型評價指標的有(A)預測準確度B)recallC)模型描述的簡潔度D)F1-Score答案:ABD解析:[多選題]72.邏輯回歸是數(shù)據(jù)挖掘算法中常用的模型算法,以下關于邏輯回歸的說法正確的是()。A)異常值不會對模型造成很大的干擾。B)邏輯回歸的自變量必須是分類變量,因此要對連續(xù)型變量進行離散化處理。C)邏輯回歸屬于分類算法。D)邏輯回歸對模型中自變量的多重共線性較為敏感。答案:CD解析:[多選題]73.Master的ElectedLeader事件后不做哪些操作()A)通知driverB)通知workerC)注冊applicationD)直接ALIVE答案:ABC解析:[多選題]74.張亮持有A、B、C、D、E五只股票,請問以下不屬于時間序列問題的有()。A)透過A只股票過去一年來的股價走勢,預測明天A只股票的開盤價格B)將E五只股票區(qū)分為賺錢與賠錢兩個類別C)將E五只股票區(qū)分為甲、乙、丙三個群體D)透過A,C,D三只股票過去一年來的走勢,預測明天A只股票的開盤價格答案:BC解析:[多選題]75.下列哪個場景可以使用決策樹構建模型?()A)預測申辦信用卡的新客戶是否將來會變成卡奴B)保險公司針對特定族群做人壽保險的推銷C)找出購物籃里商品購買間的關聯(lián)D)根據(jù)生活作息推斷該病人得癌癥的機率答案:ABD解析:[多選題]76.云計算的特點包括以下哪些方面?A)服務可計算B)高性價比C)服務可租用D)低使用度答案:ABC解析:第3部分:判斷題,共24題,請判斷題目是否正確。[判斷題]77.數(shù)據(jù)分析時,將影響業(yè)務發(fā)展的因素羅列出來,對不同因素進行主次辨析,井展開遞進分析,要比直接從?想當然?的某個因素匆忙入手要準確和有效得多A)正確B)錯誤答案:對解析:[判斷題]78.在Mapreduce編程中,代碼不僅要描述做什么,還要描述具體怎么做。A)正確B)錯誤答案:錯解析:[判斷題]79.折線圖主要用于顯示在相等時間間隔下數(shù)據(jù)的趨勢。A)正確B)錯誤答案:對解析:[判斷題]80.數(shù)據(jù)異常值檢方法以正態(tài)分布為前提,若數(shù)據(jù)偏離正態(tài)分布或樣本較小時,則檢驗結果未必可靠,校驗是否正態(tài)分布可借助W檢驗、D檢驗。A)正確B)錯誤答案:對解析:[判斷題]81.Java源程序的文件名必須與public類的名稱完全一致A)正確B)錯誤答案:對解析:[判斷題]82.在Flink中,checkpoint機制能明在運行過程中出現(xiàn)失敗時,從某一個檢查點恢復,在此過程中,流快照是根據(jù)數(shù)據(jù)流入依次創(chuàng)建的。A)正確B)錯誤答案:對解析:[判斷題]83.SparkStreaming計算基于DStream將流式計算分解成一系列短小的批處理作業(yè)()A)正確B)錯誤答案:對解析:[判斷題]84.聚類將類似的值聚成簇。直觀的,落在簇集合之外的值被視為離群點。A)正確B)錯誤答案:對解析:[判斷題]85.Kafka是一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論