大數(shù)據(jù)理論考試(習(xí)題卷3)

上傳人：w*** IP屬地：重慶上傳時間：2023-11-15 格式：DOCX 頁數(shù)：78 大?。?15.90KB 積分：3.6 舉報 版權(quán)申訴

已閱讀5頁，還剩73頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

試卷科目：大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷3)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分：單項選擇題，共195題，每題只有一個正確答案,多選或少選均不得分。[單選題]1.在回歸模型中，下列哪一項在權(quán)衡欠擬合（under-fitting）和過擬合（over-fitting）中影響最大（）A)多項式階數(shù)B)更新權(quán)重w時，使用的是矩陣求逆C)使用常數(shù)項D．使用梯度下降[單選題]2.（）算法假設(shè)聚類結(jié)構(gòu)能通過樣本分布的緊密程度確定A)原型聚類B)密度聚類C)層次聚[單選題]3.數(shù)據(jù)整合和分組的說法，不正確的是（）。A)數(shù)據(jù)連接可以用concat或merge函數(shù)B)axis=1表示軸向連接C)數(shù)據(jù)分組可以使用mean函數(shù)D)使用agg可以自定義多個聚合函數(shù)[單選題]4.一幅灰度級均勻分布的圖象，其灰度范圍在[0，255]，則該圖象的信息量為：（）A)0B)255C)6D)8[單選題]5.機器學(xué)習(xí)和深度學(xué)習(xí)的關(guān)系是(__)。A)深度學(xué)習(xí)包含機器學(xué)習(xí)B)機器學(xué)習(xí)包含深度學(xué)習(xí)C)二者是獨立的D)二者相互促[單選題]6.關(guān)于Spark的說法中，（）是錯誤的。A)采用內(nèi)存計算模式B)可利用多種語言編程C)主要用于批處理D)可進行map（）操作[單選題]7.pyplot.pie()所畫的圖像是（）。A)箱線圖B)折線圖C)直方圖D)餅圖[單選題]8.下列關(guān)于文本分類的說法不正確的是（）。A)文本分類是指按照預(yù)先定義的主題類別，由計算機自動地為文檔集合中的每個文檔確定一個類別B)文本分類大致可分為基于知識工程的分類系統(tǒng)和基于機器學(xué)習(xí)的分類系統(tǒng)C)文本的向量形式一般基于詞袋模型構(gòu)建，該模型考慮了文本詞語的行文順序D)構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計算兩個步驟[單選題]9.Python中定義私有屬性的方法是（）。A)使用private關(guān)鍵字B)使用public關(guān)鍵字C)使用__XX__定義屬性名D)使用__XX定義屬性名[單選題]10.中心極限定理是噪聲抑制的中的統(tǒng)計原理，其內(nèi)容是：均值分布總會收斂于一個（）。A)正態(tài)分布B)泊松分布C)多項式分布D)均值分[單選題]11.下面關(guān)于Hive的SequenceFile格式描述正確的是（）A)SequenceFile是二進制文件格式，以list的形式序列化到文件中B)SequenceFile存儲方式：列存儲C)SequenceFile不可分割、壓縮D)SequenceFile優(yōu)勢是文件和Hadoopapi中的MapFile是相互兼容[單選題]12.matplotlib中的step函數(shù)繪制的是什么圖（）。A)階梯圖B)直方圖C)間斷條形圖D)堆積折線圖[單選題]13.以下屬于圖像處理的常用方法有（）。A)圖像變換B)圖像編碼壓縮C)圖像增強和復(fù)原D)以上答案都正[單選題]14.MaxcomputeSQL提供了CASE…WHEN…，可以進行條件判斷。表tbl中包含了字段（iD、bigint，agebigint），目前有三條紀錄，分別為（1，20），（2，30），（3，60），執(zhí)行以下SQL：selectid,casewhenage>60then?A?whenage>40then?B?whenage>20then?C?else?D?enD、fromtblwhereid=3;（）是正確的執(zhí)行結(jié)果。A)AB)BC)CD)D[單選題]15.Spark支持的分布式部署方式中哪個是錯誤的A)standaloneB)sparkonmesosC)sparkonYARND)Sparkonloca[單選題]16.選擇哪一個解作為輸出，將由學(xué)習(xí)算法的歸納偏好決定，常見的做法是引入（）。A)線性回歸B)線性判別分析C)正則化項D)偏置項[單選題]17.從可視化視角看，可以將數(shù)據(jù)分為4種類型，其中不包括（）A)定類數(shù)據(jù)B)定序數(shù)據(jù)C)定距數(shù)據(jù)D)定量數(shù)據(jù)[單選題]18.線性回歸的基本假設(shè)不包括哪個（）。A)隨機誤差項是一個期望值為0的隨機變量B)對于解釋變量的所有觀測值，隨機誤差項有相同的方差C)隨機誤差項彼此相關(guān)D)解釋變量是確定性變量不是隨機變量，與隨機誤差項之間相互獨立[單選題]19.下列關(guān)于ResourceManager描述錯誤的是（）A)ResourceManager也叫JobTrackerB)ResourceManager負責(zé)調(diào)度DataNode上的工作C)ResourceManager只負責(zé)調(diào)度DataNode，具體的工作由ResourceManager上的TaskTracker執(zhí)行實際工作D)ResourceManager不只負責(zé)調(diào)度DataNode，還執(zhí)行實際的讀寫任[單選題]20.plt.scatter()函數(shù)中的參數(shù)c表示的含義是（）。A)x軸上的數(shù)值B)y軸上的數(shù)值C)散點圖中的標記顏色D)標記圖形內(nèi)容的標簽文件[單選題]21.（）是指幾組不同的數(shù)據(jù)中均存在一種趨勢，但當這些數(shù)據(jù)組組合在一起后，這種趨勢消失或反轉(zhuǎn)。A)辛普森悖論B)大數(shù)據(jù)悖論C)大數(shù)據(jù)偏見D)幸存者偏[單選題]22.TF-IDF中的TF是指（）。A)某個詞在文檔中出現(xiàn)的次數(shù)B)文章的總次數(shù)C)某個詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)D)以上答案都不正[單選題]23.有關(guān)MapReduce的輸入輸出，說法錯誤的是（）A)鏈接多個MapReduce作業(yè)時，序列文件是首選格式B)FileInputFormat中實現(xiàn)的getSplits（）可以把輸入數(shù)據(jù)劃分為分片，分片數(shù)目和大小任意定義C)想完全禁止輸出，可以使用NullOutputFormatD)每個reduce需將它的輸出寫入自己的文件中，輸出無需分片[單選題]24.在情感分析任務(wù)中，其目的是將無結(jié)構(gòu)化的情感文本轉(zhuǎn)化成計算機容易識別和處理的結(jié)構(gòu)化文本，進而供情感分析上層的研究和應(yīng)用服務(wù)的是（）。A)情感信息檢索B)情感信息抽取C)情感信息分類D)情感信息歸[單選題]25.關(guān)于bagging下列說法錯誤的是：（）。A)各基分類器之間有較強依賴，不可以進行并行訓(xùn)練B)最著名的算法之一是基于決策樹基分類器的隨機森林C)當訓(xùn)練樣本數(shù)量較少時，子集之間可能有重疊D)為了讓基分類器之間互相獨立，需要將訓(xùn)練集分為若干子集[單選題]26.下列哪項通常是集群的最主要瓶頸（）。A)CPUB)網(wǎng)絡(luò)C)磁盤IOD)內(nèi)存[單選題]27.長短時記憶神經(jīng)網(wǎng)絡(luò)通過什么來緩解梯度消失問題（）A)增加網(wǎng)絡(luò)深度B)減少網(wǎng)絡(luò)神經(jīng)元C)使用雙向的網(wǎng)絡(luò)結(jié)構(gòu)D)增加一個用來保存長期狀態(tài)的單[單選題]28.下列模型與文本分類相關(guān)的模型是（）。A)決策樹B)神經(jīng)網(wǎng)絡(luò)C)KNN算法D)以上答案都正確[單選題]29.關(guān)于長短時神經(jīng)網(wǎng)絡(luò)的敘述中錯誤的是（）。A)引用自循環(huán)思想B)產(chǎn)生梯度長時間持續(xù)流動的路徑C)積累的時間尺度不可以因輸入序列而改變D)可應(yīng)用于語音識別和機器翻[單選題]30.大數(shù)據(jù)服務(wù)（MaxCompute,原ODPS)中客戶表customer是一張非分區(qū)表，現(xiàn)在想要清空表的內(nèi)容然后重新上傳數(shù)據(jù)，可以通過：（）。A)insertB)deleteC)truncateD)drop[單選題]31.有關(guān)數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是（）。A)數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā);B)數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;C)數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā);D)在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式[單選題]32.數(shù)據(jù)科學(xué)處于哪三大領(lǐng)域的重疊之處（）。A)數(shù)學(xué)與統(tǒng)計知識、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識B)數(shù)據(jù)挖掘、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識C)數(shù)學(xué)與統(tǒng)計知識、數(shù)據(jù)挖掘、領(lǐng)域?qū)崉?wù)知識D)數(shù)學(xué)與統(tǒng)計知識、黑客精神與技能、數(shù)據(jù)挖掘[單選題]33.以下不是開源工具特點的是（）。A)免費B)可以直接獲取源代碼C)用戶可以修改源代碼并不加說明用于自己的軟件中D)開源工具一樣具有版權(quán)[單選題]34.（）在劃分屬性時是在當前結(jié)點的屬性集合中選擇一個最優(yōu)屬性。A)AdaBoostB)RFC)BaggingD)傳統(tǒng)決策樹[單選題]35.Spark比mapreduce快的原因不包括（）A)park基于內(nèi)存迭代，而MapReduce基于磁盤迭代B)AG計算模型相比MapReduce更有效率C)park是粗粒度的資源調(diào)度，而MR是細粒度的資源調(diào)度。D)park支持交互式處理，MapReduce善于處理流計算。[單選題]36.決策樹中，同一路徑上的所有屬性之間是（）關(guān)系。A)因果B)相關(guān)C)邏輯或D)邏輯[單選題]37.SDK是消費者在調(diào)用API時，需要在請求Header頭中添加身份認證信息，而這個操作比較繁瑣，故我們?yōu)槭褂谜咛峁┝薙DK，簡化用戶操作。目前華為SDK支持:（）種語言的支持。A)7B)8C)9D)1[單選題]38.對于PCA說法正確的是:（）。1.我們須在使用PCA前標準化化數(shù)據(jù)2.我們應(yīng)該選擇使得模型有最大variance的主成分3.我們應(yīng)該選擇使得模型有最小variance的主成分4.我們可以使用PCA在低維度上做數(shù)據(jù)可視化A)1,2and4B)2and4C)3and4D)1and[單選題]39.可用作數(shù)據(jù)挖掘分析中的關(guān)聯(lián)規(guī)則算法有（）。A)機器學(xué)習(xí)、對數(shù)回歸、關(guān)聯(lián)模式B)K均值法、SOM機器學(xué)習(xí)C)Apriori算法、FP-Tree算法D)RBF機器學(xué)習(xí)、K均值法、機器學(xué)[單選題]40.三維以上數(shù)組是以（）的形式輸出的。A)按行輸出B)按矩陣輸出C)按矩陣列表輸出D)按字符串輸出[單選題]41.聚類算法己經(jīng)默認所有的記錄都是（）的實體。A)相關(guān)聯(lián)B)有備份C)不獨立D)獨立[單選題]42.Numpy中確定隨機數(shù)生成種子使用以下哪個函數(shù)（）。A)np.random()B)np.random.seed()C)np.uniform()D)np.eig()[單選題]43.在支持向量機中，核函數(shù)的主要作用是（）。A)將低維空間中線性不可分的數(shù)據(jù)映射到高維空間，使其線性可分B)將高維空間中線性不可分的數(shù)據(jù)映射到低維空間，使其線性可分C)將高維空間中線性可分的數(shù)據(jù)映射到低維空間，使其線性不可分D)將低維空間中線性可分的數(shù)據(jù)映射到高維空間，使其線性不可[單選題]44.銳化(高通)濾波器的作用（）。A)能消減或削弱傅立葉空間的低頻分量，但不影響高頻分量B)能消減或削弱傅立葉空間的高頻分量，但不影響低頻分量C)對傅立葉空間的低、高頻分量均有削弱或削除作用D)對傅立葉空間的低、高頻分量均有增強作[單選題]45.對于一個分類任務(wù)，如果開始時神經(jīng)網(wǎng)絡(luò)的權(quán)重不是隨機賦值的，而是都設(shè)成0，下面哪個敘述是正確的（）A)其他選項都不對B)沒啥問題，神經(jīng)網(wǎng)絡(luò)會正常開始訓(xùn)練C)神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練，但是所有的神經(jīng)元最后都會變成識別同樣的東西D)神經(jīng)網(wǎng)絡(luò)不會開始訓(xùn)練，因為沒有梯度改[單選題]46.已知數(shù)組trans_cnt[1,2,3,4]，trans_cnt[2]獲取的結(jié)果為（）A)1B)2C)3D)4[單選題]47.對于數(shù)據(jù)3，3，2，3，6，3，10，3，6，3，2.①這組數(shù)據(jù)的眾數(shù)是3；②這組數(shù)據(jù)的眾數(shù)與中位數(shù)的數(shù)值不相等；③這組數(shù)據(jù)的中位數(shù)與平均數(shù)的數(shù)值不相等；④這組數(shù)據(jù)的平均數(shù)與眾數(shù)的數(shù)值相等.其中正確結(jié)論的個數(shù)為（）。A)1B)2C)3D)4[單選題]48.如下哪些不是最近鄰分類器的特點（）。A)它使用具體的訓(xùn)練實例進行預(yù)測，不必維護源自數(shù)據(jù)的模型B)分類一個測試樣例開銷很大C)最近鄰分類器基于全局信息進行預(yù)測D)可以生產(chǎn)任意形狀的決策邊[單選題]49.關(guān)于Sqoop的說法，不正確的是（）A)主要設(shè)計目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進行數(shù)據(jù)的ETL操作B)數(shù)據(jù)導(dǎo)入導(dǎo)出通過MapReduce完成C)Sqoop具備MapReduce的并行化和容錯性D)Sqoop的Reduce操作速度更[單選題]50.一幅灰度均勻分布的圖像，其灰度范圍在[0,255]，則該圖像的信息量為（）。A)0B)6C)8D)25[單選題]51.如果你的數(shù)據(jù)有許多異常值，那么使用數(shù)據(jù)的均值與方差去做標準化就不行了，在preprocessing模塊中定義了哪個方法可以解決這個問題（）。A)normalizer()B)robust_scale()C)maxabs_scale()D)scale()[單選題]52.數(shù)據(jù)資產(chǎn)應(yīng)用以安全可控為前提，按照（）的原則，落實安全與保密責(zé)任。A)誰經(jīng)手，誰使用，誰負責(zé)B)誰主管，誰負責(zé)C)誰使用，誰主管，誰負責(zé)D)誰錄入，誰使用，誰負責(zé)[單選題]53.下面哪個不屬于數(shù)據(jù)的屬性類型：()A)標稱B)序數(shù)C)區(qū)間D)相異[單選題]54.修改操作的語句updatestudentsets_name=?王軍?;該代碼執(zhí)行后的結(jié)果是A)只把姓名叫王軍的記錄進行更新B)只把字段名s_name改成?王軍?C)表中的所有人姓名都更新為王軍D)更新語句不完整，不能執(zhí)[單選題]55.下列有關(guān)HDFS的容錯機制描述錯誤的是（）。A)HDFS可以使用機架位感知的方法實現(xiàn)容錯機制；B)HDFS可以使用基于erasurecode的方法實現(xiàn)容錯機制；C)HDFS使用機架位感知的方法先把一份拷貝放入同機架上的機器，然后再拷貝一份到其他服務(wù)器；D)HS使用機架位感知的方法先把一份拷貝放入同機架上的機器，然后再拷貝一份到同機架機器的不同位置上[單選題]56.在一些算法中，為了進行屬性之間的比較或運算，需要把不同屬性的不同變量取值范圍變換成同一范圍，以免使得結(jié)果發(fā)生扭曲，偏向取值范圍大的變量。這一過程稱為（）。A)合并B)數(shù)據(jù)聚合C)歸一化D)數(shù)據(jù)處理[單選題]57.對數(shù)值型輸出，最常見的結(jié)合策略是（）。A)投票法B)平均法C)學(xué)習(xí)法D)排序法[單選題]58.（）是數(shù)據(jù)庫管理系統(tǒng)運行的基本工作單位。A)事務(wù)B)數(shù)據(jù)倉庫C)數(shù)據(jù)單元D)數(shù)據(jù)分析[單選題]59.如果使用線性回歸模型，下列說法正確的是（）A)檢查異常值是很重要的，因為線性回歸對離群效應(yīng)很敏感B)線性回歸分析要求所有變量特征都必須具有正態(tài)分布C)線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D)以上說法都不對[單選題]60.pyplot.plot()函數(shù)輸入?yún)?shù)'b'修改的是圖形的（）。A)位置B)大小C)形狀D)顏色[單選題]61.IDLE環(huán)境的退出命令是（）。A)exit()B)回車鍵C)close()D)esc()[單選題]62.關(guān)于L1、L2正則化下列說法正確的是（）A)L2正則化能防止過擬合，提升模型的泛化能力，但L1做不到這點B)L2正則化技術(shù)又稱為LassoRegularizationC)L1正則化得到的解更加稀疏D)L2正則化得到的解更加稀疏[單選題]63.關(guān)于MaxcomputeSQL，說法不正確的是：（）。A)在很多方面并不具備數(shù)據(jù)庫的特征B)適用于海量數(shù)據(jù)，實時性要求不高的場合C)每個作業(yè)的準備，提交等階段要花費較長時間D)大部分標準SQL的功能都支持，但是不支持窗口函數(shù)、rownum等[單選題]64.關(guān)于Hive中窗口函數(shù)下列描述正確的是（）A)LAG用于統(tǒng)計窗口內(nèi)往上第n行值，空不計入窗口中B)LEAD用于統(tǒng)計窗口內(nèi)往下第n行值，空不計入窗口中C)FIRST_VALUE取分組排序后，截止到當前行的第一個值D)LAST_VALUE取分組不需要指定ORDERBY后，截止到當前行的最后一個[單選題]65.Relief是為（）問題設(shè)計的。A)二分類B)多分類C)回歸D)降[單選題]66.下面（）負責(zé)MapReduce任務(wù)調(diào)度。A)NameNodeB)JobtrackerC)TaskTrackerD)secondaryNameNode[單選題]67.以下關(guān)于HBase的表述中錯誤的是（）。A)HBase是一個構(gòu)建在HDFS上的分布式列存儲系統(tǒng)B)HBase面向列（族）的存儲和權(quán)限控制，列（族）獨立檢索C)Hbase中提供了字符串、整型、浮點型等多種數(shù)據(jù)類型D)Hbase的每個表可由多個列族--ColumnFamily組成[單選題]68.GatedRecurrentunits的出現(xiàn)可以幫助防止在RNN中的梯度消失問題。(__)A)可以這么理解B)不可以這么理解C)不適用于RNN模型D)以上答案都不正[單選題]69.以下選項中，不屬于函數(shù)的作用的是（）。A)提高代碼執(zhí)行速度B)降低編程復(fù)雜度C)增強代碼可讀性D)復(fù)用代碼[單選題]70.以下算法中不屬于基于深度學(xué)習(xí)的圖像分割算法是（）。A)FCNB)deeplabC)Mask-RND)kN[單選題]71.以下說法不正確的是（）。A)卷積神經(jīng)網(wǎng)絡(luò)主要用于目標識別、圖像分割等方面B)循環(huán)神經(jīng)網(wǎng)絡(luò)主要用于處理序列數(shù)據(jù)C)長短時記憶神經(jīng)網(wǎng)絡(luò)主要用于處理序列數(shù)據(jù)D)長短時記憶神經(jīng)網(wǎng)絡(luò)是和循環(huán)神經(jīng)網(wǎng)絡(luò)完全不同的一種新型神經(jīng)網(wǎng)[單選題]72.參數(shù)估計又可分為（）和區(qū)間估計。A)線型估計B)點估計C)回歸估計D)二維分[單選題]73.假設(shè)我們擁有一個已完成訓(xùn)練的、用來解決車輛檢測問題的深度神經(jīng)網(wǎng)絡(luò)模型，訓(xùn)練所用的數(shù)據(jù)集由汽車和卡車的照片構(gòu)成，而訓(xùn)練目標是檢測出每種車輛的名稱（車輛共有10種類型）。現(xiàn)在想要使用這個模型來解決另外一個問題，問題數(shù)據(jù)集中僅包含一種車（福特野馬）而目標變?yōu)槎ㄎ卉囕v在照片中的位置（）。A)除去神經(jīng)網(wǎng)絡(luò)中的最后一層，凍結(jié)所有層然后重新訓(xùn)練B)對神經(jīng)網(wǎng)絡(luò)中的最后幾層進行微調(diào)，同時將最后一層（分類層）更改為回歸層C)使用新的數(shù)據(jù)集重新訓(xùn)練模型D)所有答案均不[單選題]74.假如使用邏輯回歸對樣本進行分類，得到訓(xùn)練樣本的準確率和測試樣本的準確率。現(xiàn)在，在數(shù)據(jù)中增加一個新的特征，其它特征保持不變。然后重新訓(xùn)練測試。則下列說法正確的是（）。A)訓(xùn)練樣本準確率一定會降低B)訓(xùn)練樣本準確率一定增加或保持不變C)測試樣本準確率一定會降低D)測試樣本準確率一定增加或保持不[單選題]75.下列關(guān)于大數(shù)據(jù)的分析理念的說法中，錯誤的是（）。A)在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B)在分析方法上更注重相關(guān)分析而不是因果分析C)在分析效果上更追求效率而不是絕對精確D)在數(shù)據(jù)規(guī)模上強調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)[單選題]76.a=np.arange(1,13,1).reshape(3,4),np.mean(a,axis=0)的輸出結(jié)果是（）。A)[[1,2,3,4],[5,6,7,8],[9,10,11,12]]B)6.5C)[5,6,7,8]D)[2.5,6.5,10.5][單選題]77.下列選項中，正確定義了一個字典的是（）A)a=[?a?,1,?b?,2,?c?,3]B)b=(?a?,1,?b?,2,?c?,3)C)c={?a?,1,?b?,2,?c?,3}D)d={?a?:1,?b?:2,?c?:3}[單選題]78.Python中用于生成隨機數(shù)的模塊是random,以下描述錯誤的是（）。A)random.random()：生成一個0-1之間的隨機浮點數(shù)B)random.uniform(a,b)：生成[a,b]之間的浮點數(shù)C)random.randint(a,b)：生成[a,b]之間的整數(shù)D)random.choice(sequence)：隨機生成任意一個整數(shù)[單選題]79.Apriori算法的核心思想是（）。A)通過頻繁項集生成和情節(jié)的向下封閉檢測兩個階段來挖掘候選集B)通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集C)數(shù)據(jù)集中包含該項集的數(shù)據(jù)所占數(shù)據(jù)集的比例，度量一個集合在原始數(shù)據(jù)中出現(xiàn)的頻率D)若某條規(guī)則不滿足最小置信度要求，則該規(guī)則的所有子集也不滿足最小置信度要求[單選題]80.例如Hive建表語句中storedas的作用是指定表的格式，下列不屬于Hive表的常見格式的是（）createtableifnotexiststextfile_table(ueseridSTRING,movieidSTRING,ratingSTRING,tsSTRING)rowformateddelimatedfieldsterminatedby'\t'storedastextfile;A)PigTableB)ORCC)PARQUETD)TEXTFIL[單選題]81.關(guān)于Apriori算法的原理中敘述錯誤的是（）。A)riori算法通常使用先驗知識或者假設(shè)B)如果某個項集是頻繁的，那么它的所有子集也是頻繁的C)如果一個項集是非頻繁集，那么它的所有超集也是非頻繁的Apriori算法不可以用來發(fā)現(xiàn)頻繁D)Apriori算法不可以用來發(fā)現(xiàn)頻繁集[單選題]82.執(zhí)行以下代碼段Motorcycles=['honda','yamaha','suzuki']Motorcycles.append('ducati')Motorcycles.pop(1)Print(motorcycles)時,輸出為（）。A)['honda','yamaha','suzuki']B)['yamaha','suzuki','ducati']C)['honda','yamaha','suzuki','ducati']D)['honda','suzuki','ducati'][單選題]83.下面關(guān)于詞袋模型說法錯誤的是（）。A)詞袋模型使用一個多重集對文本中出現(xiàn)的單詞進行編碼B)詞袋模型不考慮詞語原本在句子中的順序C)詞袋模型可以應(yīng)用于文檔分類和檢索，同時受到編碼信息的限制D)詞袋模型產(chǎn)生的靈感來源于包含類似單詞的文檔經(jīng)常有相似的含[單選題]84.Matplotlib的主要功能是（）。A)科學(xué)計算B)繪圖庫C)爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)D)機器學(xué)習(xí)庫[單選題]85.下列說法錯誤的是（）A)當目標函數(shù)是凸函數(shù)時，梯度下降算法的解一般就是全局最優(yōu)解B)進行PCA降維時，需要計算協(xié)方差矩C)沿負梯度的方向一定是最優(yōu)的方向D)利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題[單選題]86.圖像分割方法主要可以分為哪幾類（）。A)基于閾值的分割方法；B)基于區(qū)域的分割方法；C)基于邊緣的分割方法；D)以上答案都正[單選題]87.DWS支持實例故障發(fā)生時，業(yè)務(wù)不中斷。因此()。A)不用擔心實例故障帶來的影響，無需處理故障問題。B)在實例恢復(fù)或主備切換成功之后，能夠繼續(xù)提供服務(wù)。C)不用擔心CN故障導(dǎo)致SQL執(zhí)行失敗，保證SQL100%執(zhí)行成功。D)實例故障之后GaussDB200會自動重啟，無需人為關(guān)注[單選題]88.關(guān)于數(shù)據(jù)產(chǎn)品，以下說法錯誤的是（）。A)數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集B)與傳統(tǒng)物質(zhì)產(chǎn)品不同的是，數(shù)據(jù)產(chǎn)品的消費者不僅限于人類用戶.還可以是計算機以及其他軟硬件系統(tǒng)C)數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項目的最終產(chǎn)品，也包括其中間產(chǎn)品以及副產(chǎn)品D)數(shù)據(jù)產(chǎn)品開發(fā)涉及數(shù)據(jù)科學(xué)項目流程的全部活動[單選題]89.Hadoop中，（）執(zhí)行文件系統(tǒng)命名空間操作。A)DatanodeB)NamenodeC)JobTrackerD)TaskTracker[單選題]90.下列哪一種架構(gòu)有反饋連接(__)。A)循環(huán)神經(jīng)網(wǎng)絡(luò)B)卷積神經(jīng)網(wǎng)絡(luò)C)受限玻爾茲曼機D)都不[單選題]91.卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork，CNN)，是一種專門用來處理具有類似(__)的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。A)網(wǎng)格結(jié)構(gòu)B)數(shù)組結(jié)構(gòu)C)序列結(jié)構(gòu)D)表格結(jié)[單選題]92.Spark中引入RDD概念的目的是（）。A)數(shù)據(jù)存儲B)數(shù)據(jù)查重C)提升容錯能力D)增強數(shù)據(jù)一致[單選題]93.特征工程的目的是（）。A)找到最合適的算法B)得到最好的輸入數(shù)據(jù)C)減低模型復(fù)雜度D)加快計算速度[單選題]94.在GraphBase上，創(chuàng)建一個新的圖，必須使用的參數(shù)是?A)edgeB)graphNameC)labelD)verte[單選題]95.（）算法要求基學(xué)習(xí)器能對特定的數(shù)據(jù)分布進行學(xué)習(xí)，在訓(xùn)練過程的每一輪中，根據(jù)樣本分布為每個訓(xùn)練樣本重新賦予一個權(quán)重。A)BoostingB)支持向量機C)貝葉斯分類器D)神經(jīng)網(wǎng)[單選題]96.情感信息歸納常見的存在形式是（）。A)語料庫B)情感文摘C)情感評論D)情感傾[單選題]97.使用似然函數(shù)的目的是（）。A)求解目標函數(shù)B)得到最優(yōu)數(shù)據(jù)樣本C)找到最適合數(shù)據(jù)的參數(shù)D)改變目標函數(shù)分[單選題]98.字符串的strip方法的作用是()A)刪除字符串頭尾指定的字符B)刪除字符串末尾的指定字符C)刪除字符串頭部的指定字符D)通過指定分隔符對字符串切片[單選題]99.在MapReduce中，為了發(fā)現(xiàn)Worker故障，Master周期性進行(__)操作。A)JoinB)PingC)CheckD)Connect[單選題]100.假設(shè)在龐大的數(shù)據(jù)集上使用Logistic回歸模型，可能遇到一個問題，Logistic回歸需要很長時間才能訓(xùn)練，如果對相同的數(shù)據(jù)進行邏輯回歸，如何花費更少的時間，并給出比較相似的精度（）。A)降低學(xué)習(xí)率，減少迭代次數(shù)B)降低學(xué)習(xí)率，增加迭代次數(shù)C)提高學(xué)習(xí)率，增加迭代次數(shù)D)增加學(xué)習(xí)率，減少迭代次[單選題]101.下面代碼運行后，a、b、c、d四個變量的值，描述錯誤的是（）。ImportcopyA=[1，2，3，4，['a'，'b']]B=aC=copy.copy(a)D=copy.deepcopy(a)A\append(5)A[4]\append('c')A)a==[1,2,3,4,['a','b','c'],5]B)b==[1,2,3,4,['a','b','c'],5]C)c==[1,2,3,4,['a','b','c']]D)d==[1,2,3,4,['a','b',?c?]][單選題]102.數(shù)據(jù)產(chǎn)品的定義是（）。A)數(shù)據(jù)產(chǎn)品是指能夠供給市場，被人們使用和消費，并能滿足人們某種需求的任何東西B)數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價值去輔助用戶更優(yōu)的做決策（甚至行動）的一種產(chǎn)品形式C)數(shù)據(jù)產(chǎn)品是指為了滿足自身的需要，通過科技發(fā)明或經(jīng)驗總結(jié)而形成的技術(shù)D)數(shù)據(jù)產(chǎn)品是是數(shù)據(jù)科學(xué)的結(jié)果，創(chuàng)造了新的實物形態(tài)和使用價值的產(chǎn)品。[單選題]103.Spark的劣勢（）A)運算速度快B)業(yè)務(wù)實現(xiàn)需要較少代碼C)提供很多現(xiàn)成函數(shù)D)需要更多機器內(nèi)[單選題]104.關(guān)于列表的說法，描述有錯誤的是()。A)list是一個有序集合，沒有固定大小B)list可以存放任意類型的元素C)使用list時，其下標可以是負數(shù)D)list是不可變的數(shù)據(jù)類型[單選題]105.（）屬于Spark框架中的可擴展機器學(xué)習(xí)庫。A)MLibB)GraphXC)StreamingD)SparkSQL[單選題]106.下列關(guān)于GaussDB200的數(shù)據(jù)類型轉(zhuǎn)換說法正確的是()?A)如果需要保留空字符串時，需要新建兼容性為Postgres的數(shù)據(jù)庫。B)不同數(shù)據(jù)類型比較或轉(zhuǎn)換時，使用強制類型轉(zhuǎn)換，以防隱式類型轉(zhuǎn)換結(jié)果與預(yù)期不符。C)在ORACLE兼容模式下，在導(dǎo)入數(shù)據(jù)時，空字符串會自動過濾。D)在查詢中，對常量不需要顯式指定數(shù)據(jù)類型[單選題]107.pyplot.title()的作用是（）。A)繪制垂直線B)為圖設(shè)置標題C)為圖添加文本D)繪制互相關(guān)[單選題]108.關(guān)于數(shù)據(jù)清洗，不正確的說法是（）。A)單數(shù)據(jù)源，主鍵取值不能重復(fù)B)多數(shù)據(jù)源會存在數(shù)據(jù)重復(fù)，單位不一致的問題C)連續(xù)型數(shù)據(jù)不存在冗余問題D)缺失值可以采用刪除和填補等方法處理[單選題]109.下列關(guān)于TF-IDF說法正確的是（）A)該值與特征項在文檔中出現(xiàn)的頻率成反比B)該值與特征項在文檔中出現(xiàn)的頻率成正比C)該值與在整個語料庫中出現(xiàn)該特征項的文檔庫成正比D)該值與特征項在文檔中出現(xiàn)的頻率無[單選題]110.哪種聚類方法采用概率模型來表達聚類（）。A)K-meansB)LVQC)DBSCAND)高斯混合聚類[單選題]111.Hadoop中combiner（）函數(shù)的功能是（）。A)數(shù)據(jù)排序B)數(shù)據(jù)標記C)數(shù)據(jù)分析D)數(shù)據(jù)合并[單選題]112.Numpy.array數(shù)組的簡稱是（）。A)arrayB)nparrayC)NdarrayD)pyarray[單選題]113.一幅數(shù)字圖像是（）。A)一個觀測系統(tǒng)B)一個由許多像素排列而成的實體C)一個2-D數(shù)組中的元素D)一個3-間中的場[單選題]114.對于線性回歸模型，包括附加變量在內(nèi)，以下的可能正確的是（）。1）R-Squared和AdjustedR-squared都是遞增的2）R-Squared是常量的，AdjustedR-squared是遞增的3）R-Squared是遞減的，AdjustedR-squared也是遞減的4）R-Squared是遞減的，AdjustedR-squared是遞增的A)1和2B)1和3C)2和4D)以上都不是[單選題]115.（）表達了在當前任務(wù)上任何學(xué)習(xí)算法所能達到的期望泛化誤差的下界，即刻畫了學(xué)習(xí)問題本身的難度。A)偏差B)方差C)噪聲D)泛化誤差[單選題]116.給定一個長度為n的不完整單詞序列，我們希望預(yù)測下一個字母是什么。比如輸入是predictio(9個字母組成)，希望預(yù)測第十個字母是什么。下面哪種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)適用于解決這個工作（）A)循環(huán)神經(jīng)網(wǎng)絡(luò)B)全連接神經(jīng)網(wǎng)絡(luò)C)受限波爾茲曼機D)卷積神經(jīng)網(wǎng)[單選題]117.大數(shù)據(jù)計算服務(wù)（MaxCompute，原ODPS）中的用戶表dim_user是一張非分區(qū)表，另外有一部分新增用戶的數(shù)據(jù)存在user_delta表中，兩張表的結(jié)構(gòu)相同，為了在dim_user表中得到全量的用戶數(shù)據(jù)，可以采用（）方式A)select*fromuser_delta、intodim_userB)insertintodim_userselect*fromuser_deltaunionallselect*fromdim_userC)insertoverwritetabledim_userselect*fromuser_deltaD)insertintotabledim_userselect*fromuser_delta[單選題]118.數(shù)據(jù)庫服務(wù)器、數(shù)據(jù)庫和表的關(guān)系，正確的說法是A)一個數(shù)據(jù)庫服務(wù)器只能管理一個數(shù)據(jù)庫，一個數(shù)據(jù)庫只能包含一個表B)一個數(shù)據(jù)庫服務(wù)器可以管理多個數(shù)據(jù)庫，一個數(shù)據(jù)庫可以包含多個表C)一個數(shù)據(jù)庫服務(wù)器只能管理一個數(shù)據(jù)庫，一個數(shù)據(jù)庫可以包含多個表D)一個數(shù)據(jù)庫服務(wù)器可以管理多個數(shù)據(jù)庫，一個數(shù)據(jù)庫只能包含一個[單選題]119.正則化是將樣本在向量空間模型上的一個轉(zhuǎn)換，經(jīng)常被使用在分類與聚類中，正則化在preprocessing模塊中如何實現(xiàn)（）。A)preprocessing.maxabs_scale()方法B)preprocessing.RobustScaler()方法C)preprocessing.normalize()方法D)preprocessing.Binarizer()方法[單選題]120.Flink的Checkpoint機制繪制的流應(yīng)用快照不能被保存在以下哪個位置?A)LocalB)HDFSC)TaskManager的內(nèi)存D)Jobmanager的內(nèi)[單選題]121.數(shù)據(jù)可視化的本質(zhì)是（）。A)將數(shù)據(jù)轉(zhuǎn)換為知識B)將知識轉(zhuǎn)換為數(shù)據(jù)C)將數(shù)據(jù)轉(zhuǎn)換為信息D)將信息轉(zhuǎn)換為智慧[單選題]122.（）是一種著名的密度聚類算法，它基于一組鄰域參數(shù)來刻畫樣本的緊密程度。A)DBSCANB)原型聚類C)密度聚類D)層次聚類[單選題]123.在IBMPASS中，聚類算法分為分層聚類、Kohonennetwork、K平均值聚類和（）四種。A)系統(tǒng)聚類B)兩步聚類C)模型聚類D)其它聚類[單選題]124.有三個表，它們的記錄行數(shù)分別是10行、2行和6行，三個表進行交叉連接后，結(jié)果集中共有多少行數(shù)據(jù)A)18B)26C)不確定D)12[單選題]125.查找條件為：姓名為NULL的記錄A)WHERENAMENULLB)WHERENAMEISNULLC)WHERENAME=NULLD)WHERENAME==NUL[單選題]126.下列核函數(shù)特性描述錯誤的是（）。A)只要一個對稱函數(shù)所對應(yīng)的核矩陣半正定，就能稱為核函數(shù)；B)核函數(shù)選擇作為支持向量機的最大變數(shù)；C)核函數(shù)將影響支持向量機的性能；D)核函數(shù)是一種降維模型[單選題]127.已知一個數(shù)據(jù)集，n為特征數(shù)，m為訓(xùn)練樣本數(shù)，如果n較小，而且m大小中等（例如n在1-1000之間，而m在10-10000之間），則一般選擇什么核函數(shù)的支持向量機（）。A)邏輯回歸模型B)不帶核的支持向量機C)高斯核的支持向量機D)多項式核的支持向量機[單選題]128.以下選項不屬于Flume的特點的是?A)支持定制各類方數(shù)據(jù)發(fā)送B)支持結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)源C)支持多級聯(lián)操作D)支持數(shù)據(jù)實時檢索[單選題]129.Python使用（）符號標示注釋。A)&B)*C)#D)//[單選題]130.向量空間模型的缺陷不包括（）。A)維度災(zāi)難B)模型稀疏性C)語義信息缺失D)無法計算文本相似度[單選題]131.圖像降噪一般可分為以下哪幾類（）。A)加性噪聲B)乘性噪聲C)量化噪聲D)以上答案都正[單選題]132.深度學(xué)習(xí)是當前很熱門的機器學(xué)習(xí)算法，在深度學(xué)習(xí)中，涉及到大量的矩陣相乘，現(xiàn)在需要計算三個稠密矩陣A,B,C的乘積ABC,假設(shè)三個矩陣的尺寸分別為m?n，n?p，p?q，且mA)()CB)AC(C)A(BD)所有效率都相[單選題]133.當訓(xùn)練樣本近似線性可分時,通過（）,學(xué)習(xí)一個（）。A)硬間隔最大化線性可分支持向量機B)軟間隔最大化線性支持向量機C)硬間隔最大化線性支持向量機D)軟間隔最大化非線性支持向量機[單選題]134.（）是M-P神經(jīng)元，也稱為閾值邏輯單元。A)輸入層B)輸出層C)第一層D)第二[單選題]135.Kafka通過（）避免任務(wù)重復(fù)執(zhí)行。A)實現(xiàn)記錄唯一鍵約束B)對每個Producer分配唯一IDC)通過事務(wù)檢查是否重復(fù)執(zhí)行D)利用Redis的原子性去實[單選題]136.（）是實現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。A)數(shù)據(jù)管理B)數(shù)據(jù)分析C)數(shù)據(jù)治理D)數(shù)據(jù)規(guī)劃[單選題]137.大數(shù)據(jù)平臺構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉庫、非關(guān)系型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫，實現(xiàn)各類數(shù)據(jù)的集中存儲與統(tǒng)一管理，滿足（）存儲需求。A)歷史數(shù)據(jù)B)離線數(shù)據(jù)C)實時數(shù)據(jù)D)多樣化數(shù)據(jù)[單選題]138.以下哪項方法不屬于漢語分詞方法（）。A)雙向掃描法B)正向最大匹配法C)逐詞遍歷法D)詞向量匹配[單選題]139.下列不屬于MaxCompute項目空間的對象類型為：（）。A)表B)Jar包C)實例D)資源[單選題]140.通過HDFS的Shell命令來操作HDFS,表示刪除文件的命令是A)hdfsdfs-catB)hdtsdrs-rmC)hdfsdfs-mkdirD)hdfsdfs-put[單選題]141.（）認為,大數(shù)據(jù)時代的數(shù)據(jù)管理目標不一定為理想和完美，一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭取)可能導(dǎo)致另一個特征的損失(放棄)。A)CAP理論B)Base原則C)數(shù)據(jù)一致性理論D)大數(shù)據(jù)法則[單選題]142.標準BP算法的目標是使訓(xùn)練集上的（）為最小。A)累積方差B)累積誤差C)累積協(xié)方差D)累積偏[單選題]143.通常，（）主要指的是關(guān)系數(shù)據(jù)庫中存儲、計算和管理的數(shù)據(jù)。A)結(jié)構(gòu)化數(shù)據(jù)B)海量數(shù)據(jù)C)半結(jié)構(gòu)化數(shù)據(jù)D)非結(jié)構(gòu)化數(shù)據(jù)[單選題]144.關(guān)于欠擬合（under-fitting），（）是正確的。A)訓(xùn)練誤差較大，測試誤差較小B)訓(xùn)練誤差較小，測試誤差較大C)訓(xùn)練誤差較大，測試誤差較大D)訓(xùn)練誤差較小，測試誤差較[單選題]145.循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理什么數(shù)據(jù)（）A)節(jié)點數(shù)據(jù)B)序列數(shù)據(jù)C)結(jié)構(gòu)化數(shù)據(jù)D)圖像數(shù)[單選題]146.下列關(guān)于數(shù)據(jù)重組的說法中，錯誤的是（）。A)數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集B)數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C)數(shù)據(jù)重組實現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D)數(shù)據(jù)重組有利于實現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新[單選題]147.下列哪項選擇是直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評價準則（）。A)嵌入式B)過濾式C)包裹式D)一體式[單選題]148.AUC是衡量（）模型優(yōu)劣的一種評價指標。A)回歸B)分類C)二分類D)聚類[單選題]149.SparkJob默認的調(diào)度模式是（）。A)FIFOB)FAIRC)無D)運行時指定[單選題]150.中文同義詞替換時，常用到Word2Vec，以下說法錯誤的是（）。A)Word2Vec基于概率統(tǒng)計B)Word2Vec結(jié)果符合當前預(yù)料環(huán)境C)Word2Vec得到的都是語義上的同義詞D)Word2Vec受限于訓(xùn)練語料的數(shù)量和質(zhì)[單選題]151.結(jié)構(gòu)化數(shù)組不能使用以下哪種數(shù)據(jù)類型創(chuàng)建（）。A)元組列表B)字符串C)字典D)整數(shù)[單選題]152.Spark核心層主要關(guān)注（）問題。A)存儲B)計算C)傳輸D)連接[單選題]153.數(shù)據(jù)安全技術(shù)保護與信息系統(tǒng)?三同步?原則不包括以下哪項（）。A)同步規(guī)劃B)同步建設(shè)C)同步使用D)同步運維[單選題]154.關(guān)于K均值和DBSCAN的比較,以下說法不正確的是（）。A)K均值丟棄被它識別為噪聲的對象,而DBSC一般聚類所有對象B)K均值使用簇的基于原型的概念,而DCAN使用基于密度的概念C)K均值很難處理非球形的簇和不同大小的簇,DBSN可以處理不同大小和不同形狀的簇D)K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是SCAN會合并有重疊的[單選題]155.文檔是待處理的數(shù)據(jù)對象，它由一組詞組成，這些詞在文檔中不計順序的額，例如一篇論文、一個網(wǎng)頁都可以看做一個文檔；這樣的表示方式稱為（）。A)語句B)詞袋C)詞海D)詞[單選題]156.關(guān)于Datanode的描述錯誤的是（）。A)Datanode負責(zé)處理文件系統(tǒng)客戶端的文件讀寫請求B)Datanode進行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作C)集群中的Datanode一般是一個節(jié)點一個D)文件的副本系數(shù)由tanode儲存[單選題]157.scipy.stats模塊中累積分布的反函數(shù)是（）。A)pdfB)ppfC)rvsD)sf[單選題]158.如果x＝5.5，則表達式x＞0andx==int(x)的運算結(jié)果為；表達式x＞0orx==int(x)的運算結(jié)果為（）。A)TrueFalseB)FalseTrueC)TrueTrueD)FalseFalse[單選題]159.當訓(xùn)練集特征非常多，而實例非常少的時候，可以采用（）。A)sigmoid核的支持向量機B)不帶核的支持向量機C)高斯核的支持向量機D)多項式核的支持向量機[單選題]160.自然語言理解是人工智能的重要應(yīng)用領(lǐng)域，下面列舉中的（）不是它要實現(xiàn)的目標。A)理解別人講的話B)對自然語言表示的信息進行分析概括或編輯C)欣賞音樂D)機器翻[單選題]161.例如數(shù)據(jù)庫中有A表，包括學(xué)生，學(xué)科，成績?nèi)齻€字段，如何查詢最高分>80的學(xué)科？A)SELECTMAX(成績)FROMAGROUPBY學(xué)科HAVINGMAX(成績)>80;B)SELECT學(xué)科FROMAGROUPBY學(xué)科HAVING成績>80;C)SELECT學(xué)科FROMAGROUPBY學(xué)科HAVINGMAX(成績)>80;D)SELECT學(xué)科FROMAGROUPBY學(xué)科WHEREMAX(成績)>80[單選題]162.下列關(guān)于MapReduce說法不正確的是（）。A)MapReduce是一種計算框架B)MapReduce來源于google的學(xué)術(shù)論文C)MapReduce程序只能用java語言編寫D)MapReduce隱藏了并行計算的細節(jié)，方便使用[單選題]163.MaxCompute中負責(zé)對等待提交的task進行排序的模塊是：（）。A)WorkerB)ExecutorC)SchedulerD)controller[單選題]164.數(shù)據(jù)故事話的?情景?不包括（）。A)還原情景B)統(tǒng)計情景C)移植情景D)虛構(gòu)情[單選題]165.以下關(guān)于Hive內(nèi)置函數(shù)描述正確的是A)to.date(),獲取當前日期B)descfunctionsupper:查看系統(tǒng)自帶的函數(shù)C)substr(),求字符串長度D)trim():去除空字符串[單選題]166.以下不屬于大數(shù)據(jù)重要意義的是（）。A)大數(shù)據(jù)成為推動經(jīng)濟轉(zhuǎn)型發(fā)展的新動力B)大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機遇C)大數(shù)據(jù)成為提升政府治理能力的新途徑D)大數(shù)據(jù)會增加經(jīng)濟發(fā)展的成本[單選題]167.Python代碼中mpl.rcParams['font.sans-serif']=['SimHei']的作用是（）。A)設(shè)置圖表中文顯示的字體B)設(shè)置圖表圖例的位置C)設(shè)置圖表標題的顏色D)設(shè)置圖表標題的位置[單選題]168.下列哪個不是RDD的緩存方法（）A)persist（）B)略C)che（）Memory（）D)以上答案都正[單選題]169.下面（）屬于SVM應(yīng)用。A)文本和超文本分類B)圖像分類C)新文章聚類D)以上均是[單選題]170.Flink的哪種機制可以保證task運行失敗時，其狀態(tài)能夠恢復(fù)?A)窗口B)有狀態(tài)處理C)事件時間D)檢查[單選題]171.在支持向量機中，（）允許支持向量機在一些樣本上出錯。A)硬間隔B)軟間隔C)核函數(shù)D)拉格朗日乘子[單選題]172.（）是指個體對視覺感知信息的進一步加工處理過程，包括視覺信息的抽取、轉(zhuǎn)換、存儲、簡化、合并、理解和決策加工活動。A)視覺感知B)視覺認知C)視覺編碼D)視覺轉(zhuǎn)換[單選題]173.平滑圖像（）處理可以采用RGB彩色模型。A)直方圖均衡化B)直方圖均衡化C)加權(quán)均值濾波D)中值濾波[單選題]174.以下關(guān)于繪圖標準流程說法錯誤的是（）。A)繪制最簡單的圖形可以不用創(chuàng)建畫布B)添加圖例可以在繪制圖形之前C)添加x軸、y軸的標簽可以在繪制圖形之前D)修改x軸標簽、y軸標簽和繪制圖形沒有先后[單選題]175.下列關(guān)于可視化方法體系說法不正確的是（）。A)通常采用視覺圖形元素和視覺通道兩個維度進行視覺編碼B)常用的共性方法有統(tǒng)計圖表、圖論方法、視覺隱喻和圖形符號學(xué)等C)領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果往往低于基礎(chǔ)方法的直接應(yīng)用D)視覺編碼為其他數(shù)據(jù)可視化方法提供了方法學(xué)基礎(chǔ)[單選題]176.ZooKeeper的特點描述錯誤的是（）。A)復(fù)雜性B)自我復(fù)制C)順序訪問D)高速讀取[單選題]177.MaxCompute中，A和B都是bigint類型，進行A/B運算，返回結(jié)果為:（）。A)doubleB)intC)bigintD)float[單選題]178.以下不屬于數(shù)據(jù)科學(xué)與統(tǒng)計學(xué)區(qū)別的是（）。A)數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值B)數(shù)據(jù)科學(xué)關(guān)注的不僅僅是?單一學(xué)科?問題，超出了數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)等單一學(xué)科的范疇C)數(shù)據(jù)科學(xué)不僅僅是理論研究，也不是純領(lǐng)域?qū)崉?wù)知識，它關(guān)注和強調(diào)的是二者的結(jié)合D)數(shù)據(jù)科學(xué)和統(tǒng)計學(xué)中的計算一樣，僅僅是加減乘除[單選題]179.在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為（）。A)頻繁子集挖掘B)頻繁子圖挖掘C)頻繁數(shù)據(jù)項挖掘D)頻繁模式挖[單選題]180.下面回歸模型中的哪個步驟/假設(shè)最能影響過擬合和欠擬合之間的平衡因素（）。A)多項式的階數(shù)B)是否通過矩陣求逆或梯度下降學(xué)習(xí)權(quán)重C)使用常數(shù)項D)使用正則化[單選題]181.關(guān)于降維算法中的主成分分析，（）是錯誤的。A)有監(jiān)督算法B)可以指定降維的維度C)基于方差來計算D)根據(jù)特征值大小來篩選特[單選題]182.關(guān)于Maxcompute中的運算符的說法，正確的是:（）。A)String類型可以和其他任意類型進行隱式轉(zhuǎn)換：Boolean不行B)除boolean外，其他類型不允許參與邏輯運算，也不允許其他類型的隱式類型轉(zhuǎn)換C)只有bigint、double才能參與算數(shù)運算：只有string、bigint、double和Decimal才能參與算術(shù)運算D)特殊的關(guān)系運算符rlike表示右側(cè)開始匹配[單選題]183.下列關(guān)于數(shù)據(jù)交易市場的說法中，錯誤的是（）。A)數(shù)據(jù)交易市場是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展到一定程度的產(chǎn)物B)商業(yè)化的數(shù)據(jù)交易活動催生了多方參與的第三方數(shù)據(jù)交易市場C)數(shù)據(jù)交易市場通過生產(chǎn)數(shù)據(jù)、研發(fā)和分析數(shù)據(jù)，為數(shù)據(jù)交易提供幫助D)數(shù)據(jù)交易市場是大數(shù)據(jù)資源化的必然產(chǎn)物[單選題]184.下列關(guān)于L1正則化與L2正則化描述錯誤的是（）。A)L1范數(shù)正則化有助于降低過擬合風(fēng)險B)L2范數(shù)正則化有助于降低過擬合風(fēng)險C)L1范數(shù)正則化比L2范數(shù)正則化更有易于獲得稀疏解D)L2范數(shù)正則化比L1范數(shù)正則化更有易于獲得稀疏[單選題]185.圖靈獎獲得者JimGray提出的?科學(xué)研究第四范式?的全稱為（）。A)數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)B)以數(shù)據(jù)為中心的科學(xué)發(fā)現(xiàn)C)數(shù)據(jù)驅(qū)動型的科學(xué)發(fā)現(xiàn)D)大數(shù)據(jù)科學(xué)研究[單選題]186.下列哪種機器學(xué)習(xí)算法不需要歸一化處理（）A)DecisionTreeB.SVMC.KmeansD.LogisticRegressioB)C)KmeansD)LogisticRegressio[單選題]187.使用pip工具查看當前已安裝的Python擴展庫的完整命令是（）。A)pipupdateB)piplistC)pipinstallD)pipshowall[單選題]188.MapReduce的Shuffle過程中哪個操作是最后做的（）A)溢寫B(tài))分區(qū)C)排序D)合并[單選題]189.CNN神經(jīng)網(wǎng)絡(luò)對圖像特征提取帶來了變革性的變化，使之前的人工特征提取升級到數(shù)據(jù)驅(qū)動的自動特征提取，在CNN中，起到特征提取作用的網(wǎng)絡(luò)層是：(__)。A)convolution層B)fullconnect層C)maxpooling層D)norm[單選題]190.卷積神經(jīng)網(wǎng)絡(luò)可以對一個輸入進行多種變換（旋轉(zhuǎn)、平移、縮放），這個表述正確嗎（）A)對的B)不知道C)看情況D)不[單選題]191.以下（）屬于NoSQL數(shù)據(jù)庫中Key-Value的缺點。A)數(shù)據(jù)無結(jié)構(gòu)B)查詢性能不高，缺乏統(tǒng)一查詢語法C)功能相對有限D(zhuǎn))功能相對有限，不易于做分布式集群[單選題]192.在pandas中，描述統(tǒng)計信息的是哪個函數(shù)（）。A)describe()B)desc()C)information()D)info()[單選題]193.如果我們現(xiàn)有一個安裝2.6.5版本的hadoop集群，在不修改默認配置的情況下存儲200個每個200M的文本文件，請問最終會在集群中產(chǎn)生多少個數(shù)據(jù)塊（包括副本）（）A)200B)40000C)400D)1200[單選題]194.關(guān)于隊列的描述中，以下描述正確的是（）。A)在隊列中只能刪除數(shù)據(jù)B)隊列是先進后出的線性表C)在隊列中只能插入數(shù)據(jù)D)隊列是先進先出的線性表[單選題]195.在DAYU數(shù)據(jù)集成中，新建?表/文件遷移作業(yè)?作業(yè)第一步不需要填寫的信息是A)字段名稱B)目的連接名稱C)原鏈接名稱D)作業(yè)名第2部分：多項選擇題，共65題，每題至少兩個正確答案,多選或少選均不得分。[多選題]196.鑒別了多元共線特征。那么下一步可能的操作是什么（）A)移除兩個共線變量B)不移除兩個變量，而是移除一個C)移除相關(guān)變量可能會導(dǎo)致信息損失，可以使用帶罰項的回歸模型（如ridge或lassoregression[多選題]197.Spark2.0提供的應(yīng)用庫包括（）。A)SparkSQLB)SparkStreamingC)MLibD)GraphX[多選題]198.RNN在NLP領(lǐng)域的應(yīng)用包括(__)。A)語言模型與文本生成B)機器翻譯C)語音識別D)圖像描述生[多選題]199.下面關(guān)于單樣本t檢驗的說法，錯誤的是（）。A)當單樣本t檢驗的自由度越來越大時，正態(tài)分布越來越趨向于t分布B)單樣本t檢驗適用于樣本量比較多（n>30）的情況C)t分布的不確定性比正態(tài)分布小，其原因是樣本數(shù)量比較小D)單樣本t檢驗通常也被叫做學(xué)生t檢驗[多選題]200.大數(shù)據(jù)的參考架構(gòu)分為哪三個層次（）A)角色B)活動C)邏輯構(gòu)件D)功能組件[多選題]201.以下函數(shù)中（）屬于二元通用函數(shù)(Binaryuniversalfunctions)。A)addB)substractC)multiplyD)power[多選題]202.下列模型屬于機器學(xué)習(xí)生成式模型的是（）。A)樸素貝葉斯B)隱馬爾科夫模型C)線性回歸模型D)深度信念網(wǎng)絡(luò)[多選題]203.MapReduce中運行程序副本程序的機器為（）。A)Map服務(wù)器B)Master服務(wù)器C)Worker服務(wù)器D)Reduce服務(wù)器[多選題]204.許多功能更為強大的非線性模型可在線性模型基礎(chǔ)上通過引入（）和（）而得。A)層級結(jié)構(gòu)B)高維映射C)降維D)分[多選題]205.下列既可以用于分類，又可以用于回歸的機器學(xué)習(xí)算法有：A)k近鄰B)邏輯回歸C)決策樹D)線性回歸[多選題]206.以下屬于規(guī)則的分詞方法的是（）。A)正向最大匹配法B)逆向最大匹配法C)雙向最大匹配法D)條件隨機[多選題]207.噪聲數(shù)據(jù)的產(chǎn)生原因主要有（）。A)數(shù)據(jù)采集設(shè)備有問題B)在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤C)數(shù)據(jù)傳輸過程中發(fā)生錯誤D)由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致[多選題]208.EDA（探索性數(shù)據(jù)分析）方法與傳統(tǒng)統(tǒng)計學(xué)的驗證性分析方法的區(qū)別有（）。A)EDA需要事先提出假設(shè)，而驗證性分析不需要B)EDA中采用的方法往往比驗證性分析簡單C)在一般數(shù)據(jù)科學(xué)項目中，探索性分析在先，驗證性分析在后D)EDA更為簡單、易學(xué)和易用[多選題]209.在支持向量機中，參數(shù)的選取會影響擬合的結(jié)果，如果出現(xiàn)過擬合的現(xiàn)象，則導(dǎo)致該結(jié)果的原因有可能是(__)。A)其他參數(shù)保持不變，C值過大B)其他參數(shù)保持不變，λ值較少C)其他參數(shù)保持不變，σ較大D)其他參數(shù)保持不變，σ較小[多選題]210.LSTM應(yīng)用場景應(yīng)用場景有哪些（）A)翻譯語言B)語音識別C)圖像識別D)股票預(yù)[多選題]211.深度學(xué)習(xí)方法不適用于以下哪些場景（）。A)數(shù)據(jù)樣本充足B)數(shù)據(jù)樣本不足C)數(shù)據(jù)集具有局部相關(guān)特性D)數(shù)據(jù)集沒有局部相關(guān)特[多選題]212.隨機森林在做數(shù)據(jù)處理方面有什么優(yōu)勢（）。A)不需要做缺失值處理B)不需要處理噪音C)不需要做特征選擇D)不需要平衡數(shù)據(jù)集[多選題]213.DRS在線遷移支持數(shù)據(jù)庫中，包含：()。A)Mysql數(shù)據(jù)庫B)Postgres數(shù)據(jù)庫C)MongoDB數(shù)據(jù)庫D)Oracle數(shù)據(jù)[多選題]214.訓(xùn)練CNN時，GPU顯存溢出，此時可以采取什么辦法（）A)減少mini_batch大小B)移除一些卷積層C)減少圖片輸入大小D)增加激活函[多選題]215.屬于特征選擇的優(yōu)點有（）。A)解決模型自身的缺陷B)減少過擬合C)提升模型的性能D)增強模型的泛化能力[多選題]216.關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較，說法正確的是（）。A)歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè)，分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)B)歸納學(xué)習(xí)論證方式為統(tǒng)計推理，分析學(xué)習(xí)為演繹推理C)歸納學(xué)習(xí)不需要隱式的先驗知識D)訓(xùn)練數(shù)據(jù)不足時歸納學(xué)習(xí)可能會失敗[多選題]217.下列說法中正確的是（）。A)云計算的主要特點是非常昂貴。B)大數(shù)據(jù)是多源、異構(gòu)、動態(tài)的復(fù)雜數(shù)據(jù)，即具有4V特征的數(shù)據(jù)C)大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究對象之一D)MapReduce是采用云計算這種新的計算模式研發(fā)出的具體工具軟件（或算法）[多選題]218.下列哪些是特征選擇方法（）。A)C赤池信息準則B)LARS嵌入式特征選擇方法C)LVW包裹式特征選擇方法D)Relief過濾式特征選擇方[多選題]219.在假設(shè)檢驗中，當原假設(shè)為?偽?，但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤叫（）。A)α錯誤B)β錯誤C)取偽錯誤D)棄真錯誤[多選題]220.數(shù)據(jù)挖掘的預(yù)測建模任務(wù)主要包括哪幾大類問題？()A)分類B)回歸C)模式發(fā)現(xiàn)D)模式匹配[多選題]221.以下描述中屬于Analytics2.0的主要特點的是（）。A)側(cè)重嵌入式分析B)重視非結(jié)構(gòu)化數(shù)據(jù)的分析C)以決策支持為主要目的D)注重解釋性分析和預(yù)測性分析[多選題]222.Hadoop的優(yōu)點包括（）。A)可靠的B)高效的C)可伸縮的D)低成本[多選題]223.大數(shù)據(jù)計算服務(wù)（MaxCompute，原ODPS）中，使用CREATETABLELIKE語句創(chuàng)建新表時，原表的（）屬性會被復(fù)制到新表上。A)列注釋B)分區(qū)C)表的生命周期屬性D)表注釋[多選題]224.大數(shù)據(jù)計算服務(wù)（MaxCompute，原ODPS）中的MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集的并行運算，它極大地方便了編程人員在不會分布式并行編程的情況下，將自己的程序運行在分布式系統(tǒng)上。其中，兩個主要階段Map和Reduce相互配合，可以完成對海量數(shù)據(jù)的處理。關(guān)于這兩個階段的關(guān)系，說法正確的有:（）。A)一個reduce的輸入數(shù)據(jù)可能來自于多個map的輸出B)一個MR處理可以不包括任何mapC)一個MR處理可以不包括任何reduceD)一個map的輸出結(jié)果可能會被分配到多個reduce上去[多選題]225.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在（）。A)具有勞動增值B)涉及法律權(quán)屬C)具有財務(wù)價值D)涉及道德與倫理[多選題]226.Spark提交工作的方式（）。A)lientB)lusterC)tandaloneD)arn[多選題]227.分布式列式存儲的功能有（）。A)支持在線快速讀寫B(tài))支持線性擴展C)具備節(jié)點監(jiān)控管理D)數(shù)據(jù)同源不壓縮[多選題]228.ETL包含下列哪些過程（）A)數(shù)據(jù)抽取B)數(shù)據(jù)轉(zhuǎn)換C)數(shù)據(jù)加載D)數(shù)據(jù)展現(xiàn)[多選題]229.對于不同場景內(nèi)容，一般數(shù)字圖像可以分為（）。A)二值圖像B)灰度圖像C)彩色圖像D)深度圖[多選題]230.以下哪些方法是tf-idf的變種（）。A)TFCB)EWCC)ITCD)I[多選題]231.下列屬于CNN關(guān)鍵層的是(__)。A)輸入層B)卷積層C)激活層D)池化[多選題]232.Spark的關(guān)鍵技術(shù)包括以下哪幾個（）。A)RDD；B)Scheduler；C)Storage；D)Shuffle；[多選題]233.數(shù)據(jù)科學(xué)項目主要涉及的活動包括（）。A)模式/模型的應(yīng)用及維護B)模式/模型的洞見C)結(jié)果的可視化與文檔化D)模式/模型的驗證和優(yōu)化[多選題]234.下面哪些屬于可視化高維數(shù)據(jù)技術(shù)（）。A)矩陣B)平行坐標系C)星形坐標D)散布[多選題]235.與自然語言處理相關(guān)的工具包Jieba,Gensim,NLTK,Scikit-Learn的區(qū)別是（）。A)Jieba專注于中文分詞操作B)NLTK主要用于一般自然語言處理任務(wù)（標記化，POS標記，解析等）C)Gensim主要用于題和向量空間建模、文檔集合相似性等D)Scikit-learn為機器學(xué)習(xí)提供了一個大型庫,其中包含了用于文本預(yù)處理的工具，例如詞頻-逆文檔頻率特征提取(TfidfVectorizer)等。[多選題]236.哪些是離線批處理的特點?A)處理數(shù)據(jù)量巨大，PB級B)處理時間要求高C)容易產(chǎn)生資源搶占D)多個作業(yè)調(diào)度復(fù)[多選題]237.空間域濾波是直接以圖像中的像素操作為基礎(chǔ)的濾波，空間濾波器有時也可稱為（）。A)空間掩模B)核C)模板D)窗[多選題]238.以下關(guān)于降維方法，敘述正確的是（）。A)主成分分析是一種常用的非線性降維方法B)核化線性降維是一種常用的線性降維方法C)流形學(xué)習(xí)是一種借鑒拓撲流形概念的降維方法D)度量學(xué)習(xí)繞過降維的過程，將學(xué)習(xí)目標轉(zhuǎn)化為對距離度量計算的權(quán)重矩陣的學(xué)習(xí)[多選題]239.無master架構(gòu)的MPP數(shù)據(jù)庫的優(yōu)勢在于哪些方面：A)所有服務(wù)節(jié)點對等B)可以通過任意服務(wù)節(jié)點查詢和加載數(shù)據(jù)C)無單點風(fēng)險D)無性能瓶[多選題]240.下面關(guān)于reduce函數(shù)功能描述正確的是（）。A)合并value值，形成較小集合B)采用迭代器將中間值提供給reduce函數(shù)C)map()函數(shù)處理后結(jié)果才會傳輸給reduce()D)內(nèi)存中不會存儲大量的value值[多選題]241.使用極大似然估計的前提條件有（）。A)數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B)已經(jīng)得到了一部分數(shù)據(jù)集C)提前已知某先驗概率D)數(shù)據(jù)集各個屬性相對獨立[多選題]242.預(yù)剪枝使得決策樹的很多分子都沒有展開，會導(dǎo)致（）。A)顯著減少訓(xùn)練時間開銷B)顯著減少測試時間開銷C)降低過擬合風(fēng)險D)提高欠擬合風(fēng)[多選題]243.Numpy中計算數(shù)組的標準差和方差的函數(shù)是（）。A)std()B)diff()C)exp()D)var()[多選題]244.下列關(guān)于Ridge回歸，說法正確的是（）A)若λ=0，則等價于一般的線性回歸B)若λ=0，則不等價于一般的線性回歸C)若λ=+∞，則得到的權(quán)重系數(shù)很小，接近于零D)若λ=+∞，則得到的權(quán)重系數(shù)很大，接近與無窮大[多選題]245.在Spark中，彈性分布式數(shù)據(jù)集的特點包括（）。A)可分區(qū)B)可序列化C)可直接修改D)可持久化[多選題]246.（）是通過對無標記訓(xùn)練樣本的學(xué)習(xí)來進行分類的。A)密度估計B)異常檢測C)線性回歸D)聚類分析[多選題]247.任何函數(shù)都可以修改，所以盡量少用全局變量，主要原因包括（）。A)不夠安全B)一直占用內(nèi)存C)容易失效D)一直占用字符[多選題]248.卷積神經(jīng)網(wǎng)絡(luò)中常用的池化函數(shù)包括（）。A)最大池化函數(shù)B)L2范數(shù)C)相鄰矩形區(qū)域內(nèi)的平均值D)基于據(jù)中心像素距離的加權(quán)平均函[多選題]249.以下關(guān)于MapReduce1.0版本說法正確的是（）。A)擴展性差B)可靠性差C)資源利用率低D)無法支持多種計算框架[多選題]250.CNN相比于全連接的DNN有哪些優(yōu)勢（）A)參數(shù)更少B)泛化更好C)訓(xùn)練更快D)更容易搭建[多選題]251.創(chuàng)建API時，需要填寫()信息。A)API名稱B)API目錄C)請求PathD)請求方[多選題]252.利用Apriori算法計算頻繁項集可以有效降低計算頻繁集的時間復(fù)雜度。在以下的購物籃中產(chǎn)生支持度不小于3的候選3-項集，在候選2-項集中需要剪枝的是（）ID、項集1面包、牛奶2面包、尿布、啤酒、雞蛋3牛奶、尿布、啤酒、可樂4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可樂A)啤酒、尿布B)啤酒、面包C)面包、尿布D)啤酒、牛奶[多選題]253.以下哪層是卷積神經(jīng)網(wǎng)絡(luò)的組成部分。A)卷積層B)中間層C)池化層D)全連接層[多選題]254.相對于HadoopMapReduce，Spark有什么好處（）。A)通用性；B)易用性；C)速度快；D)容錯性；[多選題]255.Python中，復(fù)合賦值運算符包括（）。A)簡單的賦值運算符B)乘法賦值運算符C)取模賦值運算符D)取整除賦值運算符[多選題]256.DWS支持的事務(wù)隔離級別有：A)READUNCOMMITTED（讀未提交）B)READCOMMITTED（讀提交）C)REPEATABLEREAD（可重復(fù)讀）D)SERIALIZABLE（序列化[多選題]257.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中正確的是（）。A)可用于處理時間序列數(shù)據(jù)B)可用于處理圖像數(shù)據(jù)C)卷積網(wǎng)絡(luò)中使用的卷積運算就是數(shù)學(xué)中的卷積計算D)至少在網(wǎng)絡(luò)的一層中使用卷[多選題]258.大數(shù)據(jù)處理流程可以概括為以下哪幾步（）。A)數(shù)據(jù)分析與挖掘B)數(shù)據(jù)采集C)數(shù)據(jù)儲存D)結(jié)果展示[多選題]259.在開發(fā)大數(shù)據(jù)計算服務(wù)的MapReduce時，可以使用JobClient類中的接口提交MapReduce作業(yè)。目前提交方式支持（）。A)遠程提交B)本地提交C)阻塞方式D)非阻塞方式[多選題]260.下列關(guān)于RNN、LSTM、GRU說法正確的是(__)。A)RNN引入了循環(huán)的概念B)LSTM可以防止梯度消失或者爆炸C)GRU是LSTM的變體D)RNN、LSTM、GRU是同一神經(jīng)網(wǎng)絡(luò)的不同說法，沒有區(qū)1.答案:A解析:選擇合適的多項式階數(shù)非常重要。如果階數(shù)過大，模型就會更加復(fù)雜，容易發(fā)生過擬合；如果階數(shù)較小，模型就會過于簡單，容易發(fā)生欠擬合。2.答案:B解析:密度聚類算法假設(shè)聚類結(jié)構(gòu)能通過樣本分布的緊密程度確定。3.答案:C解析:數(shù)據(jù)分組不可以使用mean函數(shù)，mean函數(shù)為求平均數(shù)函數(shù)。4.答案:D解析:5.答案:B解析:機器學(xué)習(xí)包含深度學(xué)習(xí)。6.答案:C解析:HadoopMapReduce主要用于批處理，與Hadoop不同的是，Spark更為通用一些，可以很好地支持流計算、交互式處理、圖計算等多種計算模式。7.答案:D解析:pyplot.pie()的作用是繪制餅圖。8.答案:C解析:詞袋模型沒有考慮文本詞語的原本行文順序。9.答案:D解析:使用__XX定義屬性名定義私有屬性的方法。10.答案:A解析:中心極限定理是噪聲抑制的中的統(tǒng)計原理，其內(nèi)容是：均值分布總會收斂于一個正態(tài)分布。11.答案:D解析:12.答案:A解析:step用于繪制階梯圖。13.答案:D解析:圖像處理的常用方法包括圖像變換，圖像解碼和壓縮和圖像增強和復(fù)原。14.答案:B解析:15.答案:D解析:16.答案:C解析:選擇哪一個解作為輸出，將由學(xué)習(xí)算法的歸納偏好決定，常見的做法是引入正則化(regularization)項。17.答案:D解析:一般可以將數(shù)據(jù)類型的度量分為四種：定類，定序，定距，和定比，這四種類型是從低到高的遞進關(guān)系，高級的類型可以用低級類型的分析方法來分析，而反過來卻不行。18.答案:C解析:線性回歸的基本假設(shè)：(1)線性關(guān)系假設(shè)(2)正態(tài)性假設(shè)，指回歸分析中的Y服從正態(tài)分布。(3)獨立性假設(shè)，包含兩個意思：①與某一個X值對應(yīng)的一組Y值和與另一個X值對應(yīng)的一組Y值之間沒有關(guān)系，彼此獨立。②誤差項獨立，不同的X所產(chǎn)生的誤差之間應(yīng)相互獨立，無自相關(guān)。(4)誤差等分散性假設(shè)：特定X水平的誤差，除了應(yīng)呈隨機化的常態(tài)分配，其變異量也應(yīng)相等，稱為誤差等分散性。19.答案:D解析:20.答案:C解析:c是color關(guān)鍵字，指顏色。21.答案:A解析:辛普森悖論是概率和統(tǒng)計學(xué)中的一種現(xiàn)象，即幾組不同的數(shù)據(jù)中均存在一種趨勢，但當這些數(shù)據(jù)組組合在一起后，這種趨勢消失或反轉(zhuǎn)。例如，在腎結(jié)石治療數(shù)據(jù)分析中，比較了兩種腎結(jié)石治療的成功率。22.答案:C解析:TF意思是詞頻(TermFrequency)，表示某個詞出現(xiàn)頻率，也就是某個詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)23.答案:B解析:FileInputFormat的分片大小是可以任意設(shè)置，可以調(diào)整的，輸入分片數(shù)目不可以隨意設(shè)置，是根據(jù)分片大小和文件計算出來的。24.答案:B解析:情感分析上層的研究和應(yīng)用主要是為情感信息抽取。25.答案:A解析:Bagging方法在訓(xùn)練過程中，各基分類器之間無強依賴，可以進行并行訓(xùn)練，隨機森林就是一種典型的例子。26.答案:C解析:磁盤I/O是不可擴充的，其他的可以擴充。27.答案:D解析:長短時記憶神經(jīng)網(wǎng)絡(luò)增加一個用來保存長期狀態(tài)的單元來解決梯度消失問題。28.答案:D解析:決策樹、神經(jīng)網(wǎng)絡(luò)、CKNN算法都屬于統(tǒng)計學(xué)習(xí)方法，是文本分類領(lǐng)域的主流。29.答案:C解析:LSTM累積的時間尺度也可以因輸入序列而改變，因為時間常數(shù)是模型本身的輸出。30.答案:A解析:31.答案:A解析:數(shù)據(jù)倉庫開發(fā)要從需求出發(fā)。32.答案:A解析:根據(jù)DrewConway的數(shù)據(jù)科學(xué)韋恩圖（DataScienceVennDiagram），數(shù)據(jù)科學(xué)處于數(shù)學(xué)與統(tǒng)計知識、黑客精神與技能和領(lǐng)域?qū)崉?wù)知識等三大領(lǐng)域的交叉之處。33.答案:C解析:在延伸的代碼中（修改和有源代碼衍生的代碼中）需要帶有原來代碼中的協(xié)議，商標，專利聲明和其他原來作者規(guī)定需要包含的說明。如果再發(fā)布的產(chǎn)品中包含一個Notice文件，則在Notice文件中需要帶有開源工具的Licence。你可以在Notice中增加自己的許可，但不可以表現(xiàn)為對開源工具Licence構(gòu)成更改。34.答案:D解析:傳統(tǒng)決策樹在選擇劃分屬性時，是在當前節(jié)點的屬性集合中選擇一個最優(yōu)屬性進行劃分。35.答案:D解析:A、B、C是Spark比mapreduce快的原因。MapReduce不善于處理除批處理計算模式之外的其他計算模式，如流計算、交互式計算和圖計算等。36.答案:D解析:決策樹中，同一路徑上的所有屬性之間是邏輯與的關(guān)系37.答案:C解析:38.答案:A解析:須在使用PCA前標準化化數(shù)據(jù)，應(yīng)選擇使得模型有最大variance的主成分，PCA在低維度上做數(shù)據(jù)可視化。39.答案:C解析:關(guān)聯(lián)規(guī)則包括Apriori、FP-Tree等算法。40.答案:C解析:一維數(shù)組輸出為行，二維數(shù)組輸出為矩陣，三維數(shù)組輸出位矩陣列表。41.答案:D解析:聚類算

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)理論考試(習(xí)題卷3)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔