




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
試卷科目:大數(shù)據(jù)CDA考試大數(shù)據(jù)CDA考試(習題卷4)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)CDA考試第1部分:單項選擇題,共118題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.在Spark生態(tài)組件中,哪個產(chǎn)品可用于基于歷史數(shù)據(jù)的交互式查詢。()A)SparkCoreB)SparkSqlC)SparkStreamingD)MLlib[單選題]2.偏自相關函數(shù)ACF在n階之后迅速趨近于零,我們稱ACF具有n階()A)長尾性B)短尾性C)截尾性D)拖尾性[單選題]3.Hbase中的Compaction過程發(fā)生在什么時候?()A)MemStore發(fā)生flush的時候B)HLog大小達到一定閾值的時候C)StoreFlle文件個數(shù)達到一定國值的時候D)HFile寫入HDFS的時候[單選題]4.聲明成員變量時,如果不使用任何訪問控制符(public,protected,private),則以下哪種類型的類不能對該成員進行直接訪問()A)同一類B)同一包中的子類C)同一包中的非子類D)不同包中的子類[單選題]5.以下表述錯誤的是()。A)冗余屬性不會對決策樹的準確率造成不利的影響B(tài))子樹可能在決策樹中重復多次C)決策樹算法對于噪聲的干擾非常敏感D)尋找最佳決策樹是NP完全問題[單選題]6.Spark自帶的資源管理框架是?()A)StandaloneB)MesoSC)YARND)Docker[單選題]7.以下關于Zookeeper關鍵特性中的原子說法正確的是?A)客戶端發(fā)送的更新會按照他們被發(fā)送的順序進行應用B)更新只能全部完成或失敗,不會部分完成C)一條消息被一個server接收,將被所有server接收D)集群中無論哪臺服務器,對外示均是同[單選題]8.為了保證流應用的快照存儲的可靠性,快照主要存儲在()?A)本地文件系統(tǒng)中B)Jobmanager的內(nèi)存中C)HDFS中D)可靠性高的單機數(shù)據(jù)庫中[單選題]9.MapReduce的Shuffle過程以下中哪個操作是最后做的?A)排序B)合并C)分區(qū)D)溢寫[單選題]10.如果對HBase表的添加數(shù)據(jù)記錄,可以使用()命令進行操作。A)createB)getC)putD)scan[單選題]11.ROC曲線是驗證模型的常用方法,曲線凸向哪個角,代表模型效果越理想?()A)左上角B)右上角C)左下角D)右下角[單選題]12.用于展示文本信息出現(xiàn)頻率比較高的關鍵詞的圖形是(A)詞云圖B)氣泡圖C)熱力圖D)散點圖[單選題]13.基于規(guī)則的分類器有Aprior、隨機森林,還有()。A)C4.5B)KNNC)NaiveBayesD)ANN[單選題]14.數(shù)據(jù)分析挖掘是非常有價值的,它與現(xiàn)實生活是密切相關的,以下哪些是在銀行中的應用場景?A)信用卡的審批額度B)掌銀對消費者的產(chǎn)品推薦C)貴賓客戶的流失預測D)以上全是[單選題]15.當一元線性回歸模型的殘差出現(xiàn)異方差時,我們可以嘗試哪項工作()A)對自變量做線性變換B)對因變量做線性變換C)對自變量做非線性變換D)自變量做歸一化處理[單選題]16.人工神經(jīng)網(wǎng)絡(ANN)是基于模大腦神經(jīng)網(wǎng)絡結構和功能而建立的一種信息處理系統(tǒng)。下列選項中,有關人工神經(jīng)網(wǎng)絡的描述不正確的是()A)神經(jīng)網(wǎng)絡對訓練數(shù)據(jù)中的噪聲非常魯棒B)可以處理冗余特征C)訓練ANN是一個很耗時的過程D)至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡[單選題]17.指數(shù)平滑法中,下面哪個指標可以反映對時間序列資料的修正程度?()A)平滑常數(shù)B)季節(jié)指數(shù)C)跨越期D)指數(shù)平滑數(shù)初始值[單選題]18.對于不平穩(wěn)的序列,如果仍想進行時間序列分析,我們可以()A)差分B)微分C)積分D)不能使用[單選題]19.使用JAVAAPI進行HBase表數(shù)據(jù)添加操作,以下命令輸寫正確的是()。A)HTable.add(newPut(Bytes.toBytes(row));B)HTable.insert(newPut(Bytes.toBytes(row));C)HTable.put(newPut(Bytes.toBytes(row));D)HTable.update(newPut(Bytes.toBytes(row));[單選題]20.在某回歸模型中,數(shù)據(jù)分析員希望探索分類變量各類別之間增長率的差異,采用以下哪種方法比較合適?()A)加入固定效應變量B)加入工具變量C)加入高次項D)加入交互項[單選題]21.已知表student,字段如下:取出course1,course2,course3三門成績均超過60分的記錄,可以使用如下查詢語句()A)selectB)selectC)selectD)select[單選題]22.對于HDFS的組成描述正確的是()。A)HDFS的文件系統(tǒng)主分為管理節(jié)點和工作節(jié)點。B)NameNode管理元數(shù)據(jù)信息C)DataNode保存真正的數(shù)據(jù)。D)DataNode保存真正的數(shù)據(jù)。[單選題]23.17、19、22、24、25、28、34這組數(shù)的四分位差是()。A)24B)12C)9D)D17[單選題]24.以下選項中主節(jié)點和從節(jié)點配置的端口都是()。A)9000B)1000C)7000D)8000[單選題]25.矩估計的基本原理是()。A)用樣本矩估計總體矩B)使得似然函數(shù)達到最小C)小概率事件在一次試驗中是不可能發(fā)生的D)使得似然函數(shù)達到最大[單選題]26.SOL語言中,刪除一個表中所有數(shù)據(jù),但保留表結構的命令是()。A)DELETEB)DROPC)CLEARD)REMORE[單選題]27.使用JAVAAPI進行HBase整表掃描操作,以下命令輸寫正確的是()。A)table.getScanner(scan);B)table.scan(table)C)table.get(table).scan();D)table.Scanner(get);[單選題]28.關于層次聚類,下列說法正確的是()A)層次聚類之前需要先給出聚類的數(shù)量B)層次聚類之前需要先給出各個類別的初始類中心C)層次聚類之后,模型能給出唯一的分類類別數(shù)量D)層次聚類之后,類別數(shù)量需要參考聚類過程給出[單選題]29.下面聲明數(shù)組的寫法錯誤()。A)inta[];B)int[]a;C)int[3][]a;D)int[][3]a;[單選題]30.數(shù)據(jù)倉庫的最終目的是()A)收集業(yè)務需求B)開發(fā)數(shù)據(jù)倉庫的應用分析C)建立數(shù)據(jù)倉庫邏輯模型D)為用戶和業(yè)務部門提供決策支持[單選題]31.下面的數(shù)據(jù)是一家企業(yè)科研投入與專利產(chǎn)出的相關性描述,根據(jù)表格信息,下列選項中正確的是()。A)專利產(chǎn)出與科研投入高度線性相關B)專利產(chǎn)出與科研投入相關性不顯著C)專利產(chǎn)出與科研投入存在線性相關性,但是相關性較弱D)加大科研投入就能夠提高專利的產(chǎn)出[單選題]32.數(shù)據(jù)分析8個層次中的最高層次是()A)預報B)優(yōu)化C)報警D)統(tǒng)計分析[單選題]33.以下對于zookeeper描述正確的是()A)Zookeeper的核心是原子廣播B)Zookeeper包含口個簡單的原語集C)Zookeeper是口個開放源碼的分布式應用程序協(xié)調(diào)服務D)Zookeeper是Hadoop的口個子項目[單選題]34.HBase表中每個cell的多版本是通過()表示的。A)timestampB)rowkeyC)blockidD)cellid[單選題]35.假設每個用戶最低資源保障設置為yarn,scheduler,capacity,root,QueueAminimum-user-limit-percent=24,則以下說法錯誤的是?()A)第3個用戶提交任務時,每個用戶最多獲得33.33%的資源B)第2個用戶提交住務時,每個用戶最多獲得50%的資源C)第4個用戶提交任務時,每個用戶最多獲得25%的資源D)第5個用戶提交任務時,每個用戶最多獲得20%的資源[單選題]36.對一元線性回歸y=b0+b1x1+ε進行F檢驗,其結果與對回歸系數(shù)b1做t檢驗得到的結果()A)相同B)相反C)無關D)相同的概率與R2呈正比[單選題]37.一個多分類的變量?借款用途?,其水平有?娛樂?、?培訓?、?生活基礎?、?旅游?、?其他?。將其轉為啞變量后,有()個對應的分類變量A)1B)3C)4D)5[單選題]38.若需要定義一個類域或類方法,應使用哪種修飾符?A)staticB)packageC)privateD)public[單選題]39.下面這些類型的應用,那個不使用Java語言來編寫?A)JavaScriptB)AppletC)ServletD)JavaSwing[單選題]40.Hadoop系統(tǒng)中關于客戶端向HDFS文件系統(tǒng)上傳文件說法正確的是?A)客戶端的文件數(shù)據(jù)經(jīng)過NameNode傳遞給DataNodeB)客戶端將文件分為多個Bock,根據(jù)DataNode的地址信息,按順序寫入每一個DataNode中C)客戶端根據(jù)DataNode的地址信息,按順序將整個文件寫入每一個DataNode中,然后由DataNode將文件劃分為多個BlockD)客戶端只上傳數(shù)據(jù)到一個DataNode,然后由Namenode負責Bock復制[單選題]41.在使用Flask-WTF自定義表單類時,自定義的類需要繼承自()。A)FlaskFormB)FlaskFormsC)FlaskWTFD)Forms[單選題]42.HBase依賴()技術框架提供消息通信機制。A)ZookeeperB)ChubbyC)RPCD)Socket[單選題]43.以下哪個語句不能查詢出結果A)selectB)selectC)selectD)select[單選題]44.下列關于邏輯回歸模型中計算得到的發(fā)生概率p,闡述錯誤的是()A)任何情況下,臨界值都是0.5。當p≥0.5,其分類取1;p<0.5,其分類取0B)p是相對概率C)p的取值在0至1之間D)被稱為odds[單選題]45.YARN的基于標準調(diào)度,是對下列選項中的哪個進行標簽化?A)AppmasterB)ResourcemanagerC)NodemanagerD)Container[單選題]46.采用Flume傳輸數(shù)據(jù)過程中,為了防止因Flume進程重啟而丟失數(shù)據(jù),推薦使用以下哪種channel類型?A)MemoryChannelsB)FileChannelC)JDBCChannelD)HDFSChannel[單選題]47.盒須圖()中,Q1到Q3的距離被稱為()。A)IQRB)極差C)內(nèi)差D)SSA[單選題]48.以下關于DBSCAN算法說法錯誤的是()。A)如果樣本集的密度不均勻、聚類間距差相差很大時,聚類質(zhì)量較差;B)如果樣本集較大時,聚類收斂時間較長;C)調(diào)參相對復雜,不同的參數(shù)組合對最后的聚類效果有較大影響。D)聚類結果可能有偏倚。[單選題]49.以下哪類數(shù)據(jù)不屬于半結構化數(shù)據(jù)?A)HTMLB)XMLC)二維表D)JSON[單選題]50.下列關于網(wǎng)絡用戶行為的說法中,錯誤的是()。A)網(wǎng)絡公司能夠捕捉到用戶在其網(wǎng)站上的所有行為B)用戶離散的交互痕跡能夠為企業(yè)提升服務質(zhì)量提供參考C)數(shù)字軌跡用完即自動刪除D)用戶的隱私安全很難得以規(guī)范保護[單選題]51.在Jinjia2模板引擎中創(chuàng)建block后要使用()表示結束。A){%endblock%)B){%end%}C){{endblock))D){{end}}[單選題]52.在Flask框架中設置路由的請求方法,可以使用參數(shù)()。A)requestB)requestsC)methodD)methods[單選題]53.以下哪個不是HDFS的守護進程A)SecondaryNameNodeB)NameNodeC)MrappMaster/YarnChildD)DataNode[單選題]54.下列選項中無法通過大數(shù)據(jù)技術實現(xiàn)的是?()A)商業(yè)模式發(fā)現(xiàn)B)信用評估C)商品推薦D)運營分析[單選題]55.下列關于構造方法的敘述中,錯誤的是()A)Java語言規(guī)定構造方法名與類名必須相同B)Java語言規(guī)定構造方法沒有返回值,但不用void聲明C)Java語言規(guī)定構造方法不可以重載D)Java語言規(guī)定構造方法只能通過new自動調(diào)用[單選題]56.HBase依賴()提供強大的計算能力A)ZookeeperB)ChubbyC)RPCD)MapReduce[單選題]57.有序集的中間值或者中間兩個值平均是()。A)平均值B)中位數(shù)C)眾數(shù)D)以上都不是[單選題]58.設計分布式數(shù)倉庫hive的數(shù)據(jù)表時,為取樣更高效,一般可以對表中的連續(xù)字段進行什么操作。A)分桶B)分區(qū)C)索引D)分表[單選題]59.YARN中設置隊列Queue的最大使用資源量,需要配置哪個參數(shù)?A)yarnschedulercapacity.root.Queueaminimum-user-limitmpercentB)yarn.schedulercapacity.root.Queueamaximum-capacityC)yam.schedulercapacity.root.Queuea,minimum.user-limit-factorD)yarnschedulercapacity.root.Queuea/stat[單選題]60.以下哪個聚類方法又叫快速聚類法()A)K-means聚類法B)層次聚類法C)系統(tǒng)聚類法D)兩步聚類法[單選題]61.Javaapplication中的主類需包含main方法,main方法的返回類型是什么?A)intB)floatC)doubleD)void[單選題]62.以下四項指標中,不能用于線性回歸中的模型比較的是()。A)R方B)調(diào)整R方C)AICD)BIC[單選題]63.對于Hive中關于普通表和外部表描述不正確的是?A)默認創(chuàng)建普通表B)刪除外部表時,只除外部表數(shù)據(jù)而不刪除元數(shù)據(jù)C)外部實質(zhì)是將已存在于HDFS上的文件路徑跟表關聯(lián)起來D)刪除普通表時,元數(shù)據(jù)和數(shù)據(jù)同時被刪除[單選題]64.在Hadoop生態(tài)組件中,個產(chǎn)品可用于復雜的批量數(shù)據(jù)處理。()A)MapReduce、HiveB)ImpalaC)StormD)Mahout[單選題]65.在使用對應分析方法時,()會幫助提升結果的有效性A)采用卡方檢驗作為預分析B)精簡變量C)異常值處理D)以上都是[單選題]66.主成分分析算法認為數(shù)據(jù)的信息是包含在()中。A)方差B)均值C)誤差D)極值[單選題]67.Hadoop集群中存在的最主要瓶頸是(A)CPUB)網(wǎng)絡C)磁盤I0D)內(nèi)存[單選題]68.字段cost的最大最小值分別是1200元和9800元。利用最大-最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。則cost值為7360元將被轉化為()。A)0.751B)0.163C)0.457D)0.716[單選題]69.下列有關C4.5算法的說法中不正確的是()A)每個節(jié)點的分支度只能為2B)使用gainratio作為節(jié)點分割的依據(jù)C)可以處理數(shù)值型態(tài)的字段D)可以處理空值的字段[單選題]70.下面對Streaming中基礎概念說法不正確的是()?A)Topology是streaming中運行的一個實時應用程序B)Nimbus負責資源分配和任務調(diào)度C)Spout是在一個topology中接受數(shù)據(jù)然后執(zhí)行處理的組件D)Worker運行具體處理組件邏輯的進程[單選題]71.關于數(shù)據(jù)挖掘的方法論CRISP-DM說法正確的是()。A)這是SPSS公司,DaimlerChrysler提出的數(shù)據(jù)挖掘流程B)主要分為六步,業(yè)務理解,數(shù)據(jù)理解數(shù)據(jù)準備,模型搭建,模型評估與模型發(fā)布C)該方法論已經(jīng)成功的在SASEM中進行了實施D)這六個過程有嚴格的前后順序,析過程中不能逆轉或者跳轉[單選題]72.Fusioninsight產(chǎn)品中,關乎Kafka說法不正確的是?A)Kafka強依賴ZookeeperB)Kafka的服務端可以產(chǎn)生消息C)Kafka的部署的實例個數(shù)不得小于2D)Consumer作為Kafka的客戶端角色專門進行消息的消費[單選題]73.以下哪個部分不是一篇數(shù)據(jù)分析報告必須有的。()A)標題B)正文C)結論與建議D)附錄[單選題]74.一元回歸分析與多元回歸分析的主要區(qū)別是(A)因變量個數(shù)不同B)建立回歸模型的計算量不同C)回歸分析原理不同D)回歸分析步驟不同[單選題]75.在以下語句中,哪個是降序查詢t1表中不同城市pm10的平均值():A)selectB)selectC)selectD)select[單選題]76.為什么DBSCAN算法難以有效處理高維數(shù)據(jù)。()A)數(shù)據(jù)的形狀太復雜B)簇的大小未知C)噪聲點過多D)開銷過大[單選題]77.一組數(shù)據(jù)為1、3、5、7、9,它們的樣本方差為()A)8B)10C)12D)14[單選題]78.下列關于Flinkbarrier描述錯誤的是?A)一個barrier將本周期快照的數(shù)據(jù)與下一個周期快照的數(shù)據(jù)分隔開B)barrier是F1ink快照的核心C)在插入barrier的時候,會暫時阻斷數(shù)據(jù)流D)barrier周期性插入到數(shù)據(jù)流中,并作為數(shù)湉流的一部分隨之流動[單選題]79.分析師小A在建立了多元線性回歸模型后,發(fā)現(xiàn)殘差出現(xiàn)了異方差,那么小A可以考慮()A)對因變量取自然對數(shù)B)對自變量取自然對數(shù)C)將模型的常數(shù)項強制為0D)對因變量乘以某一個系數(shù)A進行放大或者縮小[單選題]80.Hadoop平臺中HBase的Region是由哪個服務進程來管理?A)HMasterB)DataNodeC)RegionServerD)Zookeeper[單選題]81.檢驗單總體方差的過程中,檢驗統(tǒng)計量服從()。A)標準正態(tài)分布B)正態(tài)分布C)卡方分布D)t分布[單選題]82.關于Hadoop單機模式和偽分布式模式的說法正確的是()。A)兩者都起守護進程,且守護進程運行在一臺機器上B)單機模式不使用HDFS,但加載守護進程C)兩者都不與守護進程交互,避免復雜性D)后者比前者增加了HDFS輸入輸出以及可檢查內(nèi)存使用情況[單選題]83.HFile數(shù)據(jù)格式中的Metalndex字段用于()。A)Meta塊的長度B)Meta塊的結束點C)Meta塊數(shù)據(jù)內(nèi)容D)Meta塊的起始點[單選題]84.下面哪個程序負責HDFS數(shù)據(jù)存儲。A)NameNodeB)JobtrackerC)DatanodeD)secondaryNameNode[單選題]85.FusioninsightHD系統(tǒng)審計日志不可以記錄下面哪些操作?A)手動清除告警B)啟停服務實例C)查詢歷史監(jiān)控D)除服務實例[單選題]86.關于MapReduce框架中一個作業(yè)的reduce任務數(shù),下列說法正確的是()。A)由自定義的Partitioner來確定B)是分塊總數(shù)目的一半C)可以由用戶來自定義,通過JobConf.setNumReducetTask(int)來設定一個作業(yè)中reduce的任務數(shù)目D)由MapReduce隨機確定其數(shù)目[單選題]87.以下關于HiveSQL基本操作描述正確的是?()A)創(chuàng)建外部表必須要指定Location信息B)創(chuàng)建外部表使用external關鍵字,創(chuàng)建普通表需要指定internal關鍵字C)加教數(shù)據(jù)到Hive時源數(shù)據(jù)必列是HDFS的一個路徑D)創(chuàng)建表時可以指定列分割符[單選題]88.下列哪個類的聲明是正確的?()A)abstractfinalclassHI}B)abstractprivatemove(0C)protectedprivatenumber;D)publicabstractclassCar{}[單選題]89.某班級同學在一個月后的期末考試成績前50%將參加某項學科競賽,現(xiàn)組織同學進行測驗,小鄭考了84分,他希望評估自己是否有希望參加學科競賽,因此將他的成績與班級成績()進行比較是最合理的。A)平均數(shù)B)中位數(shù)C)眾數(shù)D)四分位差[單選題]90.以下哪個channel類型的數(shù)據(jù)不會持久化()?A)FileChanneB)MemoryChannelC)JDBCChannelD)HDFSChannel[單選題]91.以下關于Zookeeper的Leader節(jié)點在收到數(shù)據(jù)變更請求后的讀寫流程說法正確的是?A)僅寫入內(nèi)存B)同時寫入磁盤和內(nèi)存C)先寫入內(nèi)存再寫入磁盤D)先寫磁盤再寫內(nèi)存[單選題]92.希望將不同數(shù)據(jù)表中的數(shù)據(jù)進行關聯(lián)的時候,我們可以采用表連接。以下不是sql表連接方式的一個是()A)rightB)leftC)unionD)all[單選題]93.對各變量值的連乘積開項數(shù)次方根的平均數(shù)是【)。A)平方平均數(shù)B)幾何平均數(shù)C)算術平均數(shù)D)D調(diào)和平均數(shù)[單選題]94.假設一組數(shù)據(jù)的取值從?923到899。數(shù)據(jù)中最大絕對值為923。因此,我們用1000除每個值。因此,?923被規(guī)范化為?0、923,而899被規(guī)范化為0、899,這種數(shù)據(jù)規(guī)范化被稱為()。A)小數(shù)定標規(guī)范化B)z-score規(guī)范化C)對數(shù)規(guī)范化D)歸一化規(guī)范化[單選題]95.以下哪個SQL函數(shù)可以完成對數(shù)字的四舍五入()。A)floorB)ceilingC)roundD)truncate[單選題]96.在Fusioninsight產(chǎn)品中,關于創(chuàng)建Kafka的Topic,以下哪些描述是正確的?A)在創(chuàng)建Kafka的Topic時,必須設置Partition個數(shù)B)在創(chuàng)建Kafka的topic時,必須設置Partition副本個數(shù)C)設置多副本可以增強Kafka服務的容災能力D)以上全都正確[單選題]97.下表為一交易數(shù)據(jù),請問a→c的支持度(Support)為()。TIDItemsBought1a.b.c2a,c3a,e4b.e.gA)0.75B)0.5C)1D)0.666[單選題]98.下列關于for循環(huán)和while循環(huán)的說法中哪個是正確的?()A)while循環(huán)能實現(xiàn)的操作,for循環(huán)也都能實現(xiàn)B)while循環(huán)判斷條件一般是程序結果,for循環(huán)判斷條件一般是非程序結果C)兩種循環(huán)任何時候都可替換D)兩種循環(huán)結構中都必須有循環(huán)體,循環(huán)體不能為空[單選題]99.以下不屬于消費者購買行為分析的產(chǎn)品因素的是()A)便利信息B)偏好信息C)價格信息D)評價信息[單選題]100.若要對比各個國家之間的人均收入與人均支出的離散程度,應使用以下哪種統(tǒng)計量()。A)方差B)離差C)離散系數(shù)D)相關系數(shù)[單選題]101.傳統(tǒng)數(shù)據(jù)處理的數(shù)據(jù)單位?A)TBB)EBC)PBD)GB[單選題]102.大數(shù)據(jù)時代,數(shù)據(jù)使用的關鍵是()A)數(shù)據(jù)收集B)數(shù)據(jù)存儲C)數(shù)據(jù)分析D)數(shù)據(jù)再利用[單選題]103.以下哪個關鍵字可以用來為對象加互斥鎖?A)transientB)staticC)serializeD)synchronized[單選題]104.關于MapReduceShuffle過程合并(combine)操作,兩個健值對<"a",1>和<"a",1>經(jīng)過合并操作結果為()。A)<"a",2>B)<?a?,<1,1>C)<"a,a",2>D)<"a,a",<1,1>>[單選題]105.以下關于fusioninsightCTbase的描述不正確的是?A)CThase的讀寫數(shù)據(jù)接口,統(tǒng)一封裝了行定義的接口,自動進行冷字段的合并和解析,不需要在應用程序中進行合并和解釋B)CTHBase是基于Hbase的聚簇表開發(fā)框架C)CTHbase提供了一套Webui進行元數(shù)據(jù)定義,提供了只管醫(yī)用的表設計工具,降低表設D)CTHbase的javaAPI提供一套Hbase連接池管理的接口,內(nèi)部進行連接共享,減少客戶端應用開發(fā)難度。[單選題]106.下列關于邏輯回歸介紹錯誤的是()A)邏輯回歸是無監(jiān)督學習B)邏輯回歸是有監(jiān)督學習C)邏輯回歸是非線性回歸D)邏輯回歸的輸出是介于0到1之間的值[單選題]107.貝葉斯決策是根據(jù)()進行決策的一種方法。A)極大似然概率B)先驗概率C)邊際概率D)后驗概率[單選題]108.下面屬于有監(jiān)督學習的是?A)數(shù)據(jù)統(tǒng)計B)分類C)聚類D)關聯(lián)分析[單選題]109.一個電瓶車制造商聲稱,其生產(chǎn)的電瓶車正常行駛條件下大于40公里,對一個由20輛電瓶車組成的隨機樣本作了試驗,測得平均值為50公里,標準差為10公里。已知電瓶車的行駛距離服從正態(tài)分布,我們希望檢驗該制造商的產(chǎn)品同他所說的標準相符?我們應該選擇()A)單側t檢驗B)雙側t檢驗C)單側F檢驗D)雙側F檢驗[單選題]110.在處理后臺數(shù)據(jù)時,有一列客戶輸入變量名為?您的愛好?,共有5個不同的選項,但是有70%左右的客戶這一項的數(shù)據(jù)沒有填寫,那么那一項的處理方式更合理()?A)建模前先將這個變量刪除B)將這一項沒有填寫的客戶歸為第6類C)用前5項的眾數(shù)替換缺失值D)提出這部分未填寫愛好的客戶信息[單選題]111.Java中關于父子類描述正確的是A)一個子類可以有多個父類,一個父類也可以有多個子類B)一個子類可以有多個父類,但一個父類只可以有一個子類C)一個子類可以有一個父類,但一個父類可以有多個子類D)上述說法都不對[單選題]112.下列選項中,關于Zookeeper可靠性含義說法正確的是?A)可靠性通過主備部署模式實現(xiàn)B)可靠性是指更新更新只能成功或失敗沒有中間狀態(tài)C)可靠性是指無論個server,對外展示的均是同一個視圖D)可靠性是指一個消息被一個Server它將被所有的Server接受[單選題]113.下列哪種方法不能用于檢驗一元線性回歸殘差是否服從正態(tài)分布()A)PP圖B)SW檢驗C)KS檢驗D)ADF檢驗[單選題]114.關系型數(shù)據(jù)庫的完整性約束條件有()。A)主鍵約束B)非空約束C)唯一約束D)以上都是[單選題]115.HFile數(shù)據(jù)格式中的KeyValue數(shù)據(jù)格式中Value部分是()。A)擁有復雜結構的字符串B)字符串C)二進制數(shù)據(jù)D)壓縮數(shù)據(jù)[單選題]116.下列不屬于非平穩(wěn)時間序列的確定性因素是(A)規(guī)則變動B)長期趨勢C)季節(jié)變動D)循環(huán)變動[單選題]117.編譯Java源程序文件將產(chǎn)生相應的字節(jié)碼文件,這些字節(jié)碼文件的擴展名為A)byteB)classC)htmlD)exe[單選題]118.在數(shù)據(jù)安全及處理效率方面,不適宜大數(shù)據(jù)分析的軟件是()。A)SASB)StataC)MatLabD)SPSS第2部分:多項選擇題,共74題,每題至少兩個正確答案,多選或少選均不得分。[多選題]119.箱線圖包含的五個統(tǒng)計量是()。A)中位數(shù)B)眾數(shù)C)四分位數(shù)D)最值[多選題]120.下列關于BloomFilter的描述正確的是?A)是一個很長的二進制向量和一系列隨機映射函數(shù)B)沒有誤算率C)有一定的誤算率D)可以在BloomFilter中刪除元素[多選題]121.下列關于Worker(工作進程exector(線程)、Task(任務)說法正確的是?A)每個Executor(線程可以運行多個task任務B)每個Worket運行多個exector(線程)C)每個Workst只能為個拓撲運行Executor(線程)D)每個Executor運行不同組件(Spout或Bolt)的Task(任務)[多選題]122.下列哪些國家已經(jīng)將大數(shù)據(jù)上升為國家戰(zhàn)略?A)英國B)日本C)美國D)法國[多選題]123.下面對Streaming說法正確的是()?A)事件驅動B)連續(xù)查詢C)數(shù)據(jù)不存儲,先計算D)實時響應,低延遲[多選題]124.大數(shù)據(jù)處理流程可以概括為以下哪幾步?A)挖掘B)采集C)統(tǒng)計和分析D)導入和預處理[多選題]125.Spark可以接收哪些來源的數(shù)據(jù)?A)YARNB)HDFSC)HIVED)HBase[多選題]126.關于HadoopHDFS名稱節(jié)點中的元數(shù)據(jù)信息,下面說法正確的是()。A)文件是什么:包括目錄自身的屬性信息,例如文件名,目錄名,修改信息等B)文件被分成了多少塊C)每個塊和文件之間的映射信息D)每個文件具體被存儲到哪個服務器上[多選題]127.在數(shù)據(jù)庫系統(tǒng)中,產(chǎn)生不一致的根本原因是:()A)數(shù)據(jù)存儲量太大B)并發(fā)控制不當C)未對數(shù)據(jù)進行完整性控制D)數(shù)據(jù)冗余[多選題]128.數(shù)據(jù)分析報告的金字塔原理所遵循的原則是()。A)歸類分組B)邏輯遞進C)以下統(tǒng)上D)結論先行[多選題]129.變量?產(chǎn)品?的類型有?家電?,?五金?,?廚衛(wèi)?,?其他?,如果將?行業(yè)?轉為啞變量,某產(chǎn)品屬于五金,那么下面對于這個產(chǎn)品分類類型記錄正確的是()A)B)C)D)[多選題]130.下列()可以作為集群的管理工具。A)PuppetB)Rsync+ssh+scpC)PdshD)ClouderaManager[多選題]131.下列關于基于大數(shù)據(jù)的營銷模式和傳統(tǒng)營銷模式的說法中錯誤的是()。A)傳統(tǒng)營銷模式比基于大數(shù)據(jù)的營銷模式投入更小B)傳統(tǒng)營銷模式比基于大數(shù)據(jù)的營銷模式針對性更強C)傳統(tǒng)營銷模式比基于大數(shù)據(jù)的營銷模式轉化率低D)基于大數(shù)據(jù)的營銷模式比傳統(tǒng)營銷模式實時性更強[多選題]132.審核回收的調(diào)研數(shù)據(jù)需要做以下哪些數(shù)據(jù)清洗。()A)補充缺失值B)剔除異常值C)剔除數(shù)據(jù)重復D)調(diào)整不一致的數(shù)據(jù)[多選題]133.以下關于Zookeeper的Leader選舉說法正確的是?A)當實例n為奇數(shù)時,假定n=2x+1,則成為leader節(jié)點需要x+1票B)Zookeeper選舉1eader時,需要半數(shù)以上票數(shù)C)當實例數(shù)為8時則成為leader容災能力為4D)當實例數(shù)n為奇數(shù)時,假定n=2x+1,則成為leader節(jié)點需要X票[多選題]134.邏輯回歸是數(shù)據(jù)挖掘算法中常用的模型算法,以下關于邏輯回歸的說法正確的是()。A)異常值不會對模型造成很大的干擾。B)邏輯回歸的自變量必須是分類變量,因此要對連續(xù)型變量進行離散化處理。C)邏輯回歸屬于分類算法。D)邏輯回歸對模型中自變量的多重共線性較為敏感。[多選題]135.FusioninsightManager可以對哪些項目進行健康檢查?()A)角色B)主機C)服務D)實例[多選題]136.以下屬于線性回歸基本假設的有()A)誤差項ε的期望等于1B)誤差項ε的方差等于1C)誤差項ε相互獨立D)誤差項ε服從正態(tài)分布[多選題]137.20世紀中后期至今的媒介革命,以()的出現(xiàn)為標志A)互聯(lián)網(wǎng)B)自動化C)計算機D)數(shù)字化[多選題]138.基于Hadoop開源大數(shù)據(jù)平臺主要提供了針對數(shù)據(jù)分布式計算和存儲能力,如下屬于分布式存儲組件的有?A)MRB)SparkC)HDFSD)HBase[多選題]139.執(zhí)行HBase讀數(shù)據(jù)業(yè)務,需要讀取哪幾部分數(shù)據(jù)?A)HFileB)HLogC)MemStoreD)HDFS[多選題]140.以下有關直線回歸方程的說法正確的是()。A)建立前提條件是現(xiàn)象之間具有較密切的線性相關關系B)關鍵在于確定方程中的參數(shù)a和bC)表明兩個相關變量間的數(shù)量變動關系D)可用來根據(jù)自變量值推算因變量值,并可進行回歸預測[多選題]141.某銷售團隊進行客戶估值的時候,進行了一次多元線性回歸,模型結果無效,可能的原因有()A)殘差標準誤太小了B)存在異方差C)自變量之間不存在相關性D)存在序列相關[多選題]142.數(shù)據(jù)離散化的方法有哪些()。A)隨機取值B)等距離敬法C)數(shù)值規(guī)約D)等頻離散法[多選題]143.HBase系統(tǒng)用于記錄Region相關信息的表,具體的表包含()。A)ROOT-B)-ADMIN-C)··META.D)···SYSTEM.[多選題]144.若在消息處理過程中允并部分信息丟失,關閉消息可靠性處理機制的方式有以下哪些?A)將參數(shù)Config.Topology_ACKKRS設置為0B)將參數(shù)Config.Topology_ACKKRS設置為FalseC)Spout發(fā)送消息時,使用不指定消息messageid的接口進行發(fā)D)Bolt發(fā)送消息時使用Unanchor方式發(fā)送[多選題]145.Hadoop及其生態(tài)系統(tǒng),可以部署在()A)LinuxB)OS/2C)DOSD)UNIX[多選題]146.Hbase中包含的一些典型的Filter有哪些?()A)SingleColumValueFilterB)FilterListC)RowFilterD)KeyOnlyFilter[多選題]147.大數(shù)據(jù)作為一種數(shù)據(jù)集合,當我們使用這個概念的時候,實際包含有哪幾層含義?A)數(shù)據(jù)很大B),構成復雜C)變化很快D)蘊含大價值[多選題]148.隨機森林指的是利用多棵樹對樣本進行訓練并預測的一種分類器,以下針對隨機森林算法的表述,錯誤的是()。A)隨機森林算法的分類精度會隨著決策樹數(shù)量的增加而提高。B)隨機森林算法對異常值和缺失值不敏感。C)隨機森林算法不需要考慮過擬合問題。D)決策樹之間相關系數(shù)越低、每棵決策樹分類精度越高的隨機森林模型的分類效果越好。[多選題]149.大數(shù)據(jù)在經(jīng)濟治理方面的作用有()。A)推導宏觀趨勢B)降低銀行壞賬率C)打擊假冒偽劣D)提高生產(chǎn)效率[多選題]150.下列選項中,哪些是Mapreduce一定會有的過程?A)CombineB)MapC)ReduceD)Partition[多選題]151.Sparkdriver的功能是什么()A)是作業(yè)的主進程B)負責了作業(yè)的調(diào)度C)負責向HDFS申請資源D)負責作業(yè)的解析[多選題]152.Yarn中,?從?節(jié)點負責以下哪些工作?A)集群中所有資源的一管理和分配B)監(jiān)督container的生命周期管理C)監(jiān)控每個Container的資源使用(內(nèi)存、CPU等)情況D)管理日志和不同應用程序用到的附屬服務[多選題]153.當前,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的特點是()。A)規(guī)模較大B)規(guī)模較小C)增速很快D)增速緩慢[多選題]154.以下關于Hadoop的HDFS描述正確的有?A)HDFS由NameNode,DataNode,client組成B)HDFS備NameNode上的元數(shù)據(jù)是主NameNode同步過去的C)HDFS采用就近的機架節(jié)點進行數(shù)據(jù)的第一副本存儲D)HDFS適適合寫一次,多次讀取的讀寫[多選題]155.Hadoop通過ResourceManager對集群資源進行管理,它的主要功能有?A)集群資源調(diào)度B)應用程序管理C)集群資源管理D)日志管理[多選題]156.信息一體化平臺可以采集以下哪些數(shù)據(jù)()?A)SCADA數(shù)據(jù)B)視頻圖像C)故障錄波數(shù)據(jù)D)管理信息數(shù)據(jù)[多選題]157.常見的確定性時間序列模型有()A)加法模型B)減法模型C)乘法模型D)除法模型[多選題]158.以下關于靈敏度和特異度的說法,正確的是()A)靈敏度越高,邏輯回歸模型越有效B)靈敏度越低,邏輯回歸模型越有效C)特異度越高,邏輯回歸模型越有效D)特異度越低,邏輯回歸模型越有效[多選題]159.以下關于異方差情況的說明,正確的有()A)條件異方差指的是殘差的方差隨自變量變化而變化B)條件異方差指的是殘差的方差不隨自變量變化而變化C)非條件異方差指的是殘差的方差隨自變量變化而變化D)非條件異方差指的是殘差的方差不隨自變量變化而變化[多選題]160.Hadoop作為分布式計算技術的杰出代表,其主要特征包括()。A)可靠性B)健壯性C)簡單性D)高效性[多選題]161.在以下語句中,哪些是查詢t1表中北京和上海的相關記錄():A)selectB)selectC)selectD)select[多選題]162.常用的識別異常數(shù)據(jù)的方法有(。A)物理判別法B)統(tǒng)計判別法C)經(jīng)驗法D)檢驗法[多選題]163.下列關于數(shù)生命周期管理的核心認識中,正確的是()A)數(shù)據(jù)從產(chǎn)生到被刪除銷毀的過程中,具有多個不同的數(shù)據(jù)存在階段B)在不同的數(shù)據(jù)存在階段,數(shù)據(jù)的價值是不同的C)根據(jù)數(shù)據(jù)價值的不同應該對數(shù)據(jù)采取不同的管理策略D)數(shù)據(jù)生命周期管理旨在產(chǎn)生效益的同時,降低生產(chǎn)成本[多選題]164.關于spark中數(shù)據(jù)傾斜引發(fā)原因正確的選項有()A)key本身分布不均衡B)計算方式有誤C)過多的數(shù)據(jù)在一個task里面D)shuffle并行度不夠[多選題]165.下列哪些方法屬于非概率抽樣()。A)判斷抽樣B)整群抽樣C)配額抽樣D)滾雪球抽樣[多選題]166.可通過GOOSE報文傳遞的應用數(shù)據(jù)包括()A)交流采樣值B)直流/溫度值C)檔位信息D)開關量[多選題]167.關于眾數(shù)說法正確的是(1。A)不受分布數(shù)列的極大或極小值的影響B(tài))若將無眾數(shù)的分布數(shù)列重新分組或各組頻數(shù)依序合并,又會使分配數(shù)列再現(xiàn)出明顯的集中趨勢C)如果與眾數(shù)組相比鄰的上下兩組的次數(shù)相等,則眾數(shù)組的組中值就是眾數(shù)值,以此類推D)缺乏敏感性[多選題]168.下列哪個場景可以使用決策樹構建模型?()A)預測申辦信用卡的新客戶是否將來會變成卡奴B)保險公司針對特定族群做人壽保險的推銷C)找出購物籃里商品購買間的關聯(lián)D)根據(jù)生活作息推斷該病人得癌癥的機率[多選題]169.如果因變量和自變量之間的關系是非線性的,可以考慮使用()變換后,再進行線性回歸A)因變量取對數(shù)B)自變量乘以2C)自變量平方D)因變量乘以2[多選題]170.fusininsightHD平臺中,那些組件支持對列表加密?A)HDFSB)FlinkC)hbaseD)hive[多選題]171.若檢驗統(tǒng)計量F近似等于1則表示()。A)組間方差中不包含系統(tǒng)因素的影響B(tài))組內(nèi)方差中不包含系統(tǒng)因素的影響C)組間方差中包含系統(tǒng)因素的影響D)方差分析中不應拒絕原假設[多選題]172.采用Flume傳輸數(shù)據(jù)過程中,為了防止因F1me進程重啟而丟失數(shù)據(jù),可以使用以下哪種Channel類型?A)MemoryChannelB)JDBCChannelC)FileChannelD)HDFSChannel[多選題]173.數(shù)據(jù)再利用的意義在于()。A)挖掘數(shù)據(jù)的潛在價值B)實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值C)利用數(shù)據(jù)可擴展性拓寬業(yè)務領域D)優(yōu)化存儲設備,降低設備成本[多選題]174.關于右偏分布,下列說法正確的是()。A)偏度系數(shù)小于0B)均值小于中位數(shù),中位數(shù)小于眾數(shù)C)偏度系數(shù)大于0D)均值大于中位數(shù),中位數(shù)大于眾數(shù)[多選題]175.ZKFC進程部署在hdfs中的以下那個節(jié)點上?()A)activenamenodeB)standbynamenodeC)datanodeD)以上全部不對[多選題]176.student表中記錄了同學每一次考試的成績。那么以下哪組sql代碼取數(shù)的結果中,id字段取值不會出現(xiàn)重復()A)selectB)selectC)selectD)select[多選題]177.數(shù)據(jù)預處理的常見方法有()。A)數(shù)據(jù)清理B)數(shù)據(jù)集成C)數(shù)據(jù)變換D)數(shù)據(jù)規(guī)約[多選題]178.下面哪些概念是HBase框架中使用的?A)HDFSB)GridFSC)ZookeeperD)EXT3[多選題]179.關于大數(shù)據(jù)的主要特征理解和描述正確的有?A)來源多,格式多B)增長速度快處理速度快C)存儲量大,計算里大D)數(shù)據(jù)的價值密度較低[多選題]180.Hadoop是當大數(shù)據(jù)平臺的事實標準,下列對Hadoop的描述中正確的是()。A)Hadoop是一個由Apache基金會開發(fā)的分布式系統(tǒng)開源架構B)Hadoop的初始設計思路來源于Google發(fā)布的學術論文C)Hadoop在當前衍生出一系列優(yōu)秀的開源項目,包括Hbase、Hive、Pig等D)Hadoop的兩個核心部分是HDFS(HbaseDistributedFileSystem)和MapReduce計算框架[多選題]181.在網(wǎng)絡爬蟲的爬行策略中,應用最為基礎的是()。A)深度優(yōu)先遍歷策略B)廣度優(yōu)先遍歷策略C)高度優(yōu)先遍歷策略D)反向鏈接策略[多選題]182.對于HBase分布式存儲系統(tǒng),下面說法正確的是()A)高可靠性B)高性能C)面向列D)可伸縮[多選題]183.以下選項哪些對聚類分析影響很大?()A)聚類分析B)回歸分析C)神經(jīng)網(wǎng)絡D)決策樹算法[多選題]184.在分類問題中,我們經(jīng)常會遇到正負樣本數(shù)據(jù)量不等的情況,比如正樣本為10w條數(shù)據(jù),負樣本只有1w條數(shù)據(jù),以下最合適的處理方法是()A)將負樣本重復10次,生成10w樣本量,打亂順序參與分類B)直接進行分類,可以最大限度利用數(shù)據(jù)C)從10w正樣本中隨機抽取1w參與分類D)將負樣本每個權重設置為10,正樣本權重為1,參與訓練過程[多選題]185.下面屬于遺傳算法的特點有()。A)求得全局最優(yōu)解B)算法并行化C)自適應和自學習性D)對未來的預測[多選題]186.PEST分析法是指【】。A)政治環(huán)境B)經(jīng)濟環(huán)境C)社會環(huán)境D)技術環(huán)境[多選題]187.SPSS中,數(shù)據(jù)整理的功能主要集中在【)等菜單中A)數(shù)據(jù)B)直銷C)分析D)轉換[多選題]188.用戶對HBaseRegion服務的讀寫過程,下面說法確的是()。A)用戶寫入數(shù)據(jù)時,被分配到相應Region服務器去執(zhí)行B)用戶數(shù)據(jù)首先被寫入到MemStore和Hlog中C)只有當操作寫入Hlog之后,commit(調(diào)用才會將其返回給客戶端D)當用戶讀取數(shù)據(jù)時,Region服務器會直接去磁盤上面的StoreFile中尋找[多選題]189.下列哪些方法可以用來對高維數(shù)據(jù)進行降維()A)LSSOB)主成分分析法C)聚類分析D)小波分析法[多選題]190.傳統(tǒng)數(shù)據(jù)密集型行業(yè)積極探索和布局大數(shù)據(jù)應用的表現(xiàn)是()。A)投資入股互聯(lián)網(wǎng)電商行業(yè)B)打通多源跨域數(shù)據(jù)C)提高分析挖掘能力D)自行開發(fā)數(shù)據(jù)產(chǎn)品[多選題]191.下面哪個組件可以在Hadoop集群中代替MR一些計算?A)SparkB)SqoopC)HiveD)Avro[多選題]192.為了分析客戶的類型,分析師小A進行了一次聚類分析。在評估聚類結果時,()A)組間平方和BSS越大,聚類效果越好B)組間平方和BSS越小,聚類效果越好C)組內(nèi)平方和WSS越大,聚類效果越好D)組內(nèi)平方和WSS越小,聚類效果越好第3部分:判斷題,共68題,請判斷題目是否正確。[判斷題]193.Hive是一種數(shù)據(jù)倉庫處理工具,使用類sql的HivesqlL語言實現(xiàn)數(shù)據(jù)查詢功能所有Hive的數(shù)據(jù)都存儲在HDFS中。A)正確B)錯誤[判斷題]194.邏輯回歸算法通常用于關聯(lián)規(guī)則挖掘。A)正確B)錯誤[判斷題]195.時間序列的主要目的是用來預測,根據(jù)已有的時間序列數(shù)據(jù)來預測未來的變化。A)正確B)錯誤[判斷題]196.barrier是一個特殊的元組,這些元組被周期性注入到流圖中并隨數(shù)據(jù)流在流圖中流動,每個barrier是當前快照下一個快照的分界線()。A)正確B)錯誤[判斷題]197.HDFS存儲數(shù)據(jù)時,關鍵數(shù)據(jù)根據(jù)實際業(yè)務需要保存在具有高度可靠性的節(jié)點中,通過修改Danodo的存儲策路,系統(tǒng)可以將數(shù)據(jù)強制保存在指定的節(jié)點組中。()A)正確B)錯誤[判斷題]198.Java系統(tǒng)本身對程序的邏輯錯誤沒有識別能力A)正確B)錯誤[判斷題]199.不能使用連續(xù)?=?給多個變量賦值A)正確B)錯誤[判斷題]200.Flume架構中,一個Source可以連接多個Channel。A)正確B)錯誤[判斷題]201.HBase是一套高性能的分布式數(shù)據(jù)集群,必須在大型機或者高性能的服務器上進行搭建。()。A)正確B)錯誤[判斷題]202.colocation(同分布)文件級的同分布實現(xiàn)文件的快速訪問,避免了因數(shù)據(jù)遷移帶來的大量網(wǎng)絡開銷()A)正確B)錯誤[判斷題]203.數(shù)據(jù)分析報告的目錄要盡可能的詳細,這樣才能完全體現(xiàn)報告的內(nèi)容。A)正確B)錯誤[判斷題]204.HDFS的NameNode保存了一個文件包括哪些數(shù)據(jù)塊,分布在哪些數(shù)據(jù)節(jié)點上,這些信息是存儲在內(nèi)存中的。A)正確B)錯誤[判斷題]205.Jinjia2模板引擎中提供的safe過濾器是用來啟動策略()。A)正確B)錯誤[判斷題]206.標識符中的字母區(qū)分大小寫A)正確B)錯誤[判斷題]207.相異度矩陣存儲n個對象兩兩之間的相似性,表現(xiàn)形式是一個的n維的矩陣。A)正確B)錯誤[判斷題]208.邏輯回歸算法只能用于二分類問題,即輸出只有兩種,分別代表兩個類別。A)正確B)錯誤[判斷題]209.Spark和Hadoop都不適用于選代計算的場景。A)正確B)錯誤[判斷題]210.Java標識符的長度沒有限制A)正確B)錯誤[判斷題]211.Flink采用checkpoint用程序運行中的容錯性。A)正確B)錯誤[判斷題]212.ORM模型中實現(xiàn)了3層映射關系,其中關系數(shù)據(jù)庫中的列映射為類屬性()。A)正確B)錯誤[判斷題]213.浮點類型數(shù)據(jù)不能進行求余運算A)正確B)錯誤[判斷題]214.數(shù)據(jù)分析是將數(shù)據(jù)轉化成信息,再將信息轉化成知識的過程。A)正確B)錯誤[判斷題]215.Hbase的數(shù)據(jù)文件File中一個Keyvalue格式包含Key,yale,Timestamp,Keytype等內(nèi)容A)正確B)錯誤[判斷題]216.邏輯樹分析法主要是幫助理清思路。A)正確B)錯誤[判斷題]217.數(shù)據(jù)規(guī)范化指將數(shù)據(jù)按比例縮放,使之落入一個特定的區(qū)域。規(guī)范化的常用方法有:最大-最小規(guī)范化、z-score規(guī)范化、小數(shù)定標規(guī)范化。A)正確B)錯誤[判斷題]218.四分位數(shù)是衡量離散趨勢的指標。A)正確B)錯誤[判斷題]219.Hadoop支持數(shù)據(jù)的隨機讀寫。A)正確B)錯誤[判斷題]220.變量賦初值不能使用連續(xù)?=?A)正確B)錯誤[判斷題]221.為減少寫入磁盤的數(shù)據(jù)量,mapreduce支持對MOF(mapoutfile)進行壓縮后再寫入。A)正確B)錯誤[判斷題]222.求余(%)的運算結果符號與除數(shù)相同A)正確B)錯誤[判斷題]223.因為甲公司的工資平均數(shù)比乙公司高,所以甲公司的工資水平比乙公司高。A)正確B)錯誤[判斷題]224.SQL中刪除表的命令是deletetable。A)正確B)錯誤[判斷題]225.聚類將類似的值聚成簇。直觀的,落在簇集合之外的值被視為離群點。A)正確B)錯誤[判斷題]226.折線圖主要用于顯示在相等時間間隔下數(shù)據(jù)的趨勢。A)正確B)錯誤[判斷題]227.Java變量避從先聲明后使用的原則A)正確B)錯誤[判斷題]228.如果NameNode意外終止,SecondaryNameNode會接替它使集群繼工作A)正確B)錯誤[判斷題]229.繪制詞云時,發(fā)現(xiàn)詞云中的中文全變成了小方框,是由于沒有指定合適的中文字體。A)正確B)錯誤[判斷題]230.在HDFSNameNode中Fslmage中并沒有記錄具體的記錄塊在哪些數(shù)據(jù)節(jié)點上存儲的,是通過數(shù)據(jù)節(jié)點和名稱節(jié)點在運行時不斷通過溝通而實時維護這些信息的,而這些信息都是存儲到內(nèi)存單中去了。A)正確B)錯誤[判斷題]231.Java的布爾類型與C語言相同A)正確B)錯誤[判斷題]232.Java源程序的文件名必須與public類的名稱完全一致A)正確B)錯誤[判斷題]233.符號常量名必須全部大寫A)正確B)錯誤[判斷題]234.由于高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預處理是知識發(fā)現(xiàn)過程的重要步驟。A)正確B)錯誤[判斷題]235.二級索引為提供了按照某些列的值進行素引的能力,一級索引先查索引表,再定位到數(shù)據(jù)表中的位置,不用全表掃描。A)正確B)錯誤[判斷題]236.簡單隨機抽樣中,各對象被抽中的概率可能會存在差異。A)正確B)錯誤[判斷題]237.分類是按照某種指定的屬性特征將數(shù)據(jù)歸類,需要確定類別的概念描述,并找出類判別準則。A)正確B)錯誤[判斷題]238.執(zhí)行下列代碼后,最終輸出結果為201。()list1=[10,45,201,32,78,55];print(len(list1))A)正確B)錯誤[判斷題]239.如果NameNode意外終止,SecondaryNameNode會接替它使集群繼續(xù)工作。A)正確B)錯誤[判斷題]240.如果YARN集群中只有Default、QueueA和QueueB子隊列,那么允許將他們的容里分別設置為60%、25%和22%A)正確B)錯誤[判斷題]241.BP網(wǎng)絡是目前應用最廣泛的神經(jīng)網(wǎng)絡模型之一,是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡。A)正確B)錯誤[判斷題]242.聚類分析中,各變量的取值范圍在數(shù)量級若差異過大,則會影響輸出結果。A)正確B)錯誤[判斷題]243.大數(shù)據(jù)時代是先有數(shù)據(jù)后有模式A)正確B)錯誤[判斷題]244.數(shù)據(jù)分類的步驟為:1建立一個聚類模型,描述數(shù)據(jù)類集或概念集;2使用模型對將來的或未知的對象進行分類。A)正確B)錯誤[判斷題]245.Hadoop的NameNode用于存儲文件系統(tǒng)的元數(shù)據(jù)A)正確B)錯誤[判斷題]246.flink是一個批處理和流處理結合的統(tǒng)一計算框架,其核心是-一個數(shù)據(jù)分發(fā)以及并行計算的流數(shù)據(jù)處理引擎。A)正確B)錯誤[判斷題]247.HBase對于空(NULL)的列,不需要占用存儲空間。A)正確B)錯誤[判斷題]248.Applicationmaster采用輪詢的方式通過RPC協(xié)議向ResourceManager申請和領取資源()A)正確B)錯誤[判斷題]249.BlockSize是不可以修改的。A)正確B)錯誤[判斷題]250.Spark使用內(nèi)存來存儲數(shù)據(jù),Spark計算結果在斷電后可以持久保存。A)正確B)錯誤[判斷題]251.統(tǒng)計方法主要包括描述統(tǒng)計和推斷統(tǒng)計。A)正確B)錯誤[判斷題]252.形如X→Y的蘊含表達式,其中X和Y是不相交的項集。X稱為規(guī)則的左部或規(guī)則的前提(簡記為LHS),Y稱為規(guī)則的右部或規(guī)則的結論(簡記為RHS)。A)正確B)錯誤[判斷題]253.Secondarynamenode就是namenode出現(xiàn)問題時的備用節(jié)點。A)正確B)錯誤[判斷題]254.?詞云?就是對網(wǎng)絡文本中出現(xiàn)頻率較高的?關鍵詞?給予視覺上的突出,形成?關鍵詞云層?或?關鍵詞渲染?,從而過濾掉大量的文本信息,使訪問者只要一眼掃過文本就可以領路文本的主旨。A)正確B)錯誤[判斷題]255.HDFS機制中NameNode負責管理元數(shù)據(jù),Client端每次讀請求都需要從NameNode的元數(shù)據(jù)磁盤中讀取元數(shù)據(jù)信息以此獲取所讀文件在DataNode的位置A)正確B)錯誤[判斷題]256.分類不可用于提取描述重要數(shù)據(jù)類的模型或預測未來的數(shù)據(jù)趨勢。A)正確B)錯誤[判斷題]257.大數(shù)據(jù)的4V特點是Volume(數(shù)據(jù)量大)-Velocity(處理速度快)、Variety(多樣性)、Veracity(真實性)A)正確B)錯誤[判斷題]258.Python代碼"str1='Hello;print(str1.swapcase()?執(zhí)行的結果為'HELLO'。A)正確B)錯誤[判斷題]259.Hive中UNIONALL操作符用于合并兩個或多個select語句的結果集,結果集中,不允許有重復的值。A)正確B)錯誤[判斷題]260.Java應用程序編譯后生成二進制可執(zhí)行文件A)正確B)錯誤1.答案:B解析:2.答案:C解析:如果偏自相關函數(shù)ACF在n階之后迅速趨近于零,我們稱ACF具有n階截尾性。3.答案:C解析:4.答案:D解析:5.答案:C解析:6.答案:A解析:7.答案:B解析:8.答案:C解析:9.答案:B解析:10.答案:C解析:11.答案:A解析:12.答案:A解析:13.答案:A解析:14.答案:D解析:15.答案:C解析:其余三個都是線性處理,不改變異方差16.答案:A解析:17.答案:A解析:18.答案:A解析:如果序列本身是非平穩(wěn)的,通常我們有兩種處理方式,一是進行差分,二是進行對數(shù)變換。19.答案:C解析:20.答案:D解析:交互項可以分別度量斜率21.答案:D解析:where后不可以跟如max,min,sum之類的聚合函數(shù)。22.答案:D解析:23.答案:C解析:24.答案:A解析:25.答案:A解析:26.答案:A解析:truncate與drop是DDL語句,執(zhí)行后無法回滾;delete是DML語句,可回滾。27.答案:A解析:28.答案:D解析:層次聚類的特征就是可以給出樹狀的聚類過程,并根據(jù)樹狀結構給出聚類數(shù)量。29.答案:D解析:30.答案:A解析:31.答案:B解析:相關性是只有0、03,且其P值很大,所以是不顯著的。32.答案:B解析:參考中8個層次的介紹。33.答案:D解析:34.答案:A解析:35.答案:D解析:36.答案:A解析:一元的情況下F檢驗與t檢驗等同37.答案:C解析:5分類的變量,轉化為啞變量后,少一個,只需要4個就可以了。38.答案:C解析:39.答案:A解析:40.答案:B解析:41.答案:A解析:42.答案:A解析:43.答案:B解析:本題考查SQL語句中and的用法。and是求交集,同時需要滿足前后兩個條件才能返回結果,所以不可能存在銷售數(shù)量大于五同時又小于四的記錄,所以正確答案為B44.答案:A解析:p的閾值不是唯一確定的,需要根據(jù)測試集調(diào)整。45.答案:C解析:46.答案:B解析:47.答案:A解析:內(nèi)分位距(IQR),其他都不對。48.答案:D解析:49.答案:C解析:50.答案:C解析:51.答案:A解析:52.答案:D解析:53.答案:C解析:54.答案:A解析:55.答案:C解析:56.答案:D解析:57.答案:B解析:58.答案:A解析:59.答案:B解析:60.答案:A解析:K-means聚類法計算量非常小,因此又得名快速聚類法。61.答案:D解析:62.答案:A解析:63.答案:C解析:64.答案:A解析:65.答案:D解析:對應分析作為一種描述性的方法,觀察到的變量間聯(lián)系并沒有經(jīng)過驗證,因此得出結論時要萬分小心。比如可以采用卡方檢驗等方法作為預分析,或者精簡變量。即使在圖形中觀察到結論,也需要和原始數(shù)據(jù)反復觀察確認,避免錯誤判斷。另外,對應分析的結果也會受到異常值的影響。因此前期的數(shù)據(jù)清洗也非常重要。66.答案:A解析:主成分分析算法認為,數(shù)據(jù)的信息是包含在其方差當中的。如果一個變量方差很大,獲得它的抽樣值可以幫助我們消除很大一部分不確定性,因此它包含的信息較多。67.答案:C解析:68.答案:D解析:69.答案:A解析:70.答案:C解析:71.答案:B解析:72.答案:B解析:73.答案:D解析:74.答案:B解析:75.答案:A解析:本題考查SQL語句中分組和排序的方法。SQL語句中求平均的函數(shù)是avg而不是mean,故B錯;C中asc表示升序排列,而D中默認也是升序排列,故正確答案為A。76.答案:D解析:77.答案:B解析:公式>78.答案:C解析:79.答案:A解析:處理異方差可以對因變量進行非線性處理,這是通常應對異方差的方法之一。80.答案:C解析:81.答案:C解析:見單總體方差檢驗概念82.答案:D解析:83.答案:D解析:84.答案:C解析:85.答案:C解析:86.答案:C解析:87.答案:D解析:88.答案:D解析:89.答案:B解析:中位數(shù)是指中間位置的數(shù),即50%。90.答案:B解析:91.答案:D解析:92.答案:D解析:連接后保留兩張表全部信息應使用fulljoin。93.答案:B解析:94.答案:A解析:根據(jù)定義。95.答案:C解析:floor(x)表示返回小于x的最大整數(shù)值(去掉小數(shù)取整),ceiling(x)表示返回大于x的最小整數(shù)值(進一取整),round(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國內(nèi)銷型苦丁茶數(shù)據(jù)監(jiān)測研究報告
- 廣東省汕尾市陸豐市碣石鎮(zhèn)2024-2025學年三年級上學期期中測試語文試卷(含答案)
- 幼教面試試題試題及答案
- 英美概況考試試題及答案
- 2025年軍隊文職人員招聘之軍隊文職教育學題庫檢測試卷B卷附答案
- 采購與供應商分包合同(2篇)
- 詞牌名的文化內(nèi)涵與寫作技巧:小學高年級語文古詩教學教案
- 化學反應與能量化學科學教案
- 學前教育中的寓言故事啟示讀后感
- 房地產(chǎn)行業(yè)智慧社區(qū)與智能家居開發(fā)方案
- 能斷金剛:超凡的經(jīng)營智慧
- 磷脂酶與脂質(zhì)代謝
- 上海市奉賢區(qū)2022年中考二模英語試題(含解析和聽力)
- 數(shù)字的秘密生活最有趣的50個數(shù)學故事
- 養(yǎng)老機構安全隱患排查清單、自查表、治理整改臺賬
- 5.1 數(shù)據(jù)安全概述
- led燈具生產(chǎn)工藝過程流程圖
- 財務分析模板(43張)課件
- 城市供水管網(wǎng)供水管網(wǎng)檢漏技術及儀器設備應用課件
- 第三方工程評估體系檢查表
- 唐僧團隊之如何打造團隊
評論
0/150
提交評論