大數(shù)據(jù)理論考試(習(xí)題卷2)

上傳人：1*** IP屬地：重慶上傳時間：2024-02-03 格式：DOCX 頁數(shù)：27 大?。?3.92KB 積分：3.6 舉報 版權(quán)申訴

已閱讀5頁，還剩22頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

試卷科目：大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分：單項選擇題，共64題，每題只有一個正確答案,多選或少選均不得分。[單選題]1.關(guān)于數(shù)據(jù)分析，下列說法正確的是（）。A)描述性分析和預(yù)測性分析是對診斷性分析的基礎(chǔ)B)斷性分析分析是對規(guī)范性分析的進(jìn)一步理解C)預(yù)測性分析是規(guī)范性分析的基礎(chǔ)D)規(guī)范性分析是數(shù)據(jù)分析的最高階段，可以直接產(chǎn)生產(chǎn)業(yè)價值答案:C解析:在數(shù)據(jù)分析中，流程分為以下方式：描述性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析。[單選題]2.如果要清空文件，需要使用的命令是（）。A)close()B)seek(0)C)truncate(0)D)Dwrite('stuff')答案:C解析:truncate（size）方法將截斷文件，大小為size，size為0即清空[單選題]3.在pandas中，描述統(tǒng)計信息的是哪個函數(shù)（）。A)describe()B)desc()C)information()D)info()答案:A解析:describe()用于描述統(tǒng)計信息。[單選題]4.聲明變量的關(guān)鍵字是A)dimB)decimalC)declareD)dealcr答案:C解析:[單選題]5.通過HDFS的Shell命令來操作HDFS,表示刪除文件的命令是A)hdfsdfs-catB)hdtsdrs-rmC)hdfsdfs-mkdirD)hdfsdfs-put答案:B解析:[單選題]6.數(shù)據(jù)庫中有A表，包括學(xué)生，學(xué)科，成績?nèi)齻€字段，如何統(tǒng)計每個學(xué)科的最高分A)select學(xué)生,max(成績)fromAgroupby學(xué)生;B)select學(xué)生,max(成績)fromAgroupby學(xué)科;C)select學(xué)生,max(成績)fromAorderby學(xué)生;D)select學(xué)生,max(成績)fromAgroupby成績答案:B解析:[單選題]7.以下代碼的輸出結(jié)果為（）。Arr=np.array([1，5，3])Arr1=np.array([2，4，6])Print(arr<arr1)A)TRUEB)FALSEC)[Ture，F(xiàn)alse，Ture]D)([Ture，Ture，Ture])答案:C解析:數(shù)組進(jìn)行邏輯運算生成邏輯數(shù)組。[單選題]8.（）表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界，即刻畫了學(xué)習(xí)問題本身的難度。A)偏差B)方差C)噪聲D)泛化誤差答案:C解析:泛化誤差可分解為偏差、方差與噪聲之和。偏差度量了學(xué)習(xí)算法的期望預(yù)測與真實結(jié)果的偏離程度，即刻畫了學(xué)習(xí)算法本身的擬合能力;方差度量了同樣大小的訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化，即刻畫了數(shù)據(jù)擾動所造成的影響;噪聲則表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的F界，即刻畫了學(xué)習(xí)問題本身的難度。[單選題]9.長短時記憶神經(jīng)網(wǎng)絡(luò)通過什么來緩解梯度消失問題（）A)增加網(wǎng)絡(luò)深度B)減少網(wǎng)絡(luò)神經(jīng)元C)使用雙向的網(wǎng)絡(luò)結(jié)構(gòu)D)增加一個用來保存長期狀態(tài)的單答案:D解析:長短時記憶神經(jīng)網(wǎng)絡(luò)增加一個用來保存長期狀態(tài)的單元來解決梯度消失問題。[單選題]10.Matplotlib的主要功能是（）。A)科學(xué)計算B)繪圖庫C)爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)D)機(jī)器學(xué)習(xí)庫答案:B解析:Matplotlib是一個Python2D繪圖庫，它以多種硬拷貝格式和跨平臺的交互式環(huán)境生成出版物質(zhì)量的圖形。[單選題]11.Hadoop環(huán)境下MapReduce中，（）實現(xiàn)中間結(jié)果中的重復(fù)key做合并A)OutputKeyClassB)OutputValueClassC)CombinerClassD)ReducerClass答案:C解析:CombinerClass實現(xiàn)輸出結(jié)果的合并。[單選題]12.下列關(guān)于Hive特性歸納正確的選項是（）(1)為了數(shù)據(jù)倉庫而設(shè)計(2)迭代式算法無法表達(dá)(3)數(shù)據(jù)挖掘方面不擅長(4)分布式拓展能力強(qiáng)，適合高吞吐量、批量、海量數(shù)據(jù)處理(5)不屬于MapReduce框架(6)低容錯性A)(1)(2)(3)(4)B)(1)(2)(3)(6)C)(2)(3)(5)(6)D)(1)(2)(3)(4)(6答案:A解析:[單選題]13.下面哪一項用決策樹法訓(xùn)練大量數(shù)據(jù)集最節(jié)約時間（）。A)增加樹的深度B)增加學(xué)習(xí)率C)減少數(shù)的深度D)減少樹的個答案:C解析:減少樹的深度，相當(dāng)于加入了一個正則化項，可以降低模型復(fù)雜度。[單選題]14.在用戶驗證權(quán)限時，應(yīng)當(dāng)在?服務(wù)列表?中選擇數(shù)據(jù)復(fù)制服務(wù)，進(jìn)入DRS主界面，單擊右上角（），嘗試購創(chuàng)建遷移任務(wù)。A)修改遷移任務(wù)B)創(chuàng)建遷移任務(wù)C)查閱權(quán)限D(zhuǎn))刪除遷移任答案:B解析:[單選題]15.假定你使用SVM學(xué)習(xí)數(shù)據(jù)X，數(shù)據(jù)X里面有些點存在錯誤?，F(xiàn)在如果你使用一個二次核函數(shù)，多項式階數(shù)為2，使用松弛變量C作為超參之一。當(dāng)你使用較大的C（C趨于無窮），則（）。A)仍然能正確分類數(shù)據(jù)B)不能正確分類C)不確定D)以上均不正確答案:A解析:采用更大的C，誤分類點的懲罰就更大，因此決策邊界將盡可能完美地分類數(shù)據(jù)。[單選題]16.下列哪種算法可以用神經(jīng)網(wǎng)絡(luò)構(gòu)建?(__)1.K-NN最近鄰算法2.線性回歸3.邏輯回歸A)1and2B)2and3C)1,2and3D)Noneoftheabov答案:B解析:KNN是關(guān)于距離的學(xué)習(xí)算法，沒有任何參數(shù)，所以無法用神經(jīng)網(wǎng)絡(luò)構(gòu)建。[單選題]17.plt.scatter()函數(shù)中的參數(shù)c表示的含義是（）。A)x軸上的數(shù)值B)y軸上的數(shù)值C)散點圖中的標(biāo)記顏色D)標(biāo)記圖形內(nèi)容的標(biāo)簽文件答案:C解析:c是color關(guān)鍵字，指顏色。[單選題]18.（）在訓(xùn)練的每一輪都要檢查當(dāng)前生成的基學(xué)習(xí)器是否滿足基本條件。A)支持向量機(jī)B)osting算法C)貝葉斯分類器D)Bagging算答案:B解析:Boosting算法在訓(xùn)練的每一輪都要檢查當(dāng)前生成的基學(xué)習(xí)器是否滿足基本條件。[單選題]19.下面哪個操作是窄依賴A)joinB)filterC)groupD)sor答案:B解析:[單選題]20.假設(shè)有列表a=['name','age','sex']和b=['Dong',38,'Male']，請使用一個語句將這兩個列表的內(nèi)容轉(zhuǎn)換為字典，并且以列表a中的元素為?鍵?，以列表b中的元素為?值?，這個語句可以寫為（）。A)c=dict(cross(a，b))B)c=dict(zip(a，b))C)c=map(zip(a，b))D)c=b答案:B解析:zip()將可迭代的對象作為參數(shù)，將對象中對應(yīng)的元素打包成一個個元組,然后用dict生成器生成字典[單選題]21.大數(shù)據(jù)中的小數(shù)據(jù)可能缺失、冗余、存在垃圾數(shù)據(jù)不影響大數(shù)據(jù)的可信數(shù)據(jù)，體現(xiàn)大數(shù)據(jù)?涌現(xiàn)?的（）表現(xiàn)形式。A)價值涌現(xiàn)B)隱私涌現(xiàn)C)質(zhì)量涌現(xiàn)D)安全涌現(xiàn)答案:C解析:大數(shù)據(jù)的?質(zhì)量涌現(xiàn)?是指大數(shù)據(jù)中的成員小數(shù)據(jù)可能有質(zhì)量問題（不可信的數(shù)據(jù)），如缺失、冗余、垃圾數(shù)據(jù)的存在，但不影響大數(shù)據(jù)的質(zhì)量（可信的數(shù)據(jù)）。[單選題]22.彩色圖像增強(qiáng)時，（）處理可以采用RGB。A)直方圖均衡化B)同態(tài)濾波C)加權(quán)均值濾波D)中值濾答案:C解析:RGB是彩色圖像的三通道像素值，均值濾波進(jìn)行的是線性操作，不影響原本圖像的相對亮度。[單選題]23.卷積神經(jīng)網(wǎng)絡(luò)可以對一個輸入進(jìn)行多種變換（旋轉(zhuǎn)、平移、縮放），這個表述正確嗎（）A)對的B)不知道C)看情況D)不答案:D解析:把數(shù)據(jù)傳入神經(jīng)網(wǎng)絡(luò)之前需要做一系列數(shù)據(jù)預(yù)處理（也就是旋轉(zhuǎn)、平移、縮放）工作，神經(jīng)網(wǎng)絡(luò)本身不能完成這些變換。[單選題]24.以下關(guān)于Hive內(nèi)置函數(shù)描述正確的是A)to.date(),獲取當(dāng)前日期B)descfunctionsupper:查看系統(tǒng)自帶的函數(shù)C)substr(),求字符串長度D)trim():去除空字符串答案:C解析:[單選題]25.視覺編碼的前提是分析并了解目標(biāo)用戶的（），盡量降低目標(biāo)用戶的（）。A)視覺感知特征；感知障礙B)視覺感知特征；感知時間C)視覺感知習(xí)慣；感知障礙D)視覺感知習(xí)慣；感知時答案:A解析:視覺編碼的前提是分析并了解目標(biāo)用戶的視覺感知特征，盡量降低目標(biāo)用戶的感知障礙。[單選題]26.數(shù)據(jù)可視化的本質(zhì)是（）。A)將數(shù)據(jù)轉(zhuǎn)換為知識B)將知識轉(zhuǎn)換為數(shù)據(jù)C)將數(shù)據(jù)轉(zhuǎn)換為信息D)將信息轉(zhuǎn)換為智慧答案:A解析:可視化分析學(xué)模型認(rèn)為，數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識，而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上，并提出從數(shù)據(jù)到知識的轉(zhuǎn)換途徑有兩個：一是可視化分析，另一個是自動化建模。[單選題]27.閱讀下面的程序：deffunc():print(x)x=100func()執(zhí)行上述語句后，輸出的結(jié)果為()。A)0B)100C)程序出現(xiàn)異常D)程序編譯失敗答案:C解析:[單選題]28.（）是指通過訓(xùn)練而得到一種識別規(guī)則，通過此識別規(guī)則可以得到一種特征分類，使圖像識別技術(shù)能夠得到高識別率。A)預(yù)處理B)特征抽取和選擇C)分類器設(shè)計D)分類決答案:C解析:分類器設(shè)計是指通過訓(xùn)練而得到一張識別規(guī)則,通過此識別規(guī)則可以得到的一種特征分類,使圖像識別技術(shù)能夠得到高識別率。[單選題]29.下面關(guān)于Hive導(dǎo)表寫入指定格式表時的描述正確的是（）A)導(dǎo)表時，如果建表語句指定為ORC格式的表，那么數(shù)據(jù)會先存儲為ORC格式B)導(dǎo)表時，如果建表語句指定為SequenceFile格式的表，那么數(shù)據(jù)會先存儲為SequenceFile格式C)導(dǎo)表時，如果建表語句指定為PARQUET格式的表，那么數(shù)據(jù)會先存儲為PARQUET格式D)導(dǎo)表時，如果建表語句指定為ORC格式的表，那么數(shù)據(jù)會先存儲為TEXTFILE格答案:D解析:[單選題]30.（）的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息，從而既不需要進(jìn)行完全聯(lián)合概率計算，又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。A)貝葉斯判定準(zhǔn)則B)貝葉斯決策論C)樸素貝葉斯分類器D)半樸素貝葉斯分類器答案:D解析:半樸素貝葉斯的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息，從而既不需要進(jìn)行完全聯(lián)合概率計算，又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。[單選題]31.關(guān)于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的權(quán)重共享現(xiàn)象，下面哪個選項是正確的（）A)只有全連接神經(jīng)網(wǎng)絡(luò)會出現(xiàn)B)只有卷積神經(jīng)網(wǎng)絡(luò)(CNN)會出現(xiàn)C)只有循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)會出現(xiàn)D)卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)都會出答案:D解析:卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)會產(chǎn)生權(quán)重共享現(xiàn)象。[單選題]32.sklearn.naive_bayes模塊實現(xiàn)了樸素貝葉斯算法,基于貝葉斯定理和特征獨立性假設(shè)的監(jiān)督學(xué)習(xí)方法,下列哪個模型不是樸素貝葉斯分類器的模型（）。A)BernoulliNB()B)GaussianN()C)NeighborsNB()D)MultinomialNB()答案:C解析:sklearn的樸素貝葉斯算法，根據(jù)輸入特征的不同類型分為BernoulliNB，GaussianNB，MultinomialNB三種。[單選題]33.討論變量之間的關(guān)系，主要有三個方法：（）、方差分析和回歸分析A)參數(shù)分析B)邏輯分析C)假設(shè)分析D)相關(guān)分析答案:D解析:相關(guān)分析是研究兩個或兩個以上處于同等地位的隨機(jī)變量間的相關(guān)關(guān)系的統(tǒng)計分析方法。例如，人的身高和體重之間；空氣中的相對濕度與降雨量之間的相關(guān)關(guān)系都是相關(guān)分析研究的問題。方差分析用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。[單選題]34.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換，正確的是（）。A)json內(nèi)的取值只能有統(tǒng)一格式B)pdf文件在不同平臺上打開顯示不同C)可以通過python將csv文件轉(zhuǎn)換成Excel格式D)excel存儲數(shù)據(jù)的量無限制答案:C解析:json內(nèi)的取值可以有多種格式,pdf文件在不同平臺上打開顯示相同，excel存儲數(shù)據(jù)的量在Excel2007及以后版本，一個工作表最多可有1048576行，16384列。[單選題]35.圖靈獎獲得者JimGray提出的?科學(xué)研究第四范式?的全稱為（）。A)數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)B)以數(shù)據(jù)為中心的科學(xué)發(fā)現(xiàn)C)數(shù)據(jù)驅(qū)動型的科學(xué)發(fā)現(xiàn)D)大數(shù)據(jù)科學(xué)研究答案:A解析:2007年，圖靈獎獲得者JimGray提出了科學(xué)研究的第四范式--數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)（Data-intensiveScientificDiscovery）。在他看來，人類科學(xué)研究活動已經(jīng)歷過三種不同范式的演變過程（原始社會的?實驗科學(xué)范式?、以模型和歸納為特征的?理論科學(xué)范式?和以模擬仿真為特征的?計算科學(xué)范式?），目前正在從?計算科學(xué)范式?轉(zhuǎn)向?數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式?。[單選題]36.下列說法錯誤的是（）A)當(dāng)目標(biāo)函數(shù)是凸函數(shù)時，梯度下降算法的解一般就是全局最優(yōu)解B)進(jìn)行PCA降維時，需要計算協(xié)方差矩C)沿負(fù)梯度的方向一定是最優(yōu)的方向D)利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題答案:C解析:沿負(fù)梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。[單選題]37.K-Means算法無法聚以下哪種形狀的樣本（）A)圓形分布B)螺旋分布C)帶狀分布D)凸多邊形分布答案:B解析:K-Means算法是基于距離測量的，無法聚非凸形狀的樣本。[單選題]38.以下聚合函數(shù)求和的是()A)AVGB)SUMC)MAXD)COUN答案:B解析:[單選題]39.大數(shù)據(jù)計算服務(wù)中，臨時數(shù)據(jù)表tmp_item是一張非分區(qū)表，開發(fā)人員在建表時指定了lifecycle屬性為30，且使用一次后未再進(jìn)行任何操作和訪問。30天后這張表會（）。A)tmp_item會被自動重命名為tmp_item.deletedB)tmp_item表會被自動刪除掉C)不會任何變更D)tmp_item中的數(shù)據(jù)會被清空，表結(jié)構(gòu)仍存在答案:B解析:[單選題]40.基于詞的n元文法模型，其最后的粗分結(jié)果集合大?。ǎ㎞。A)大于B)大于等于C)小于D)小于等于答案:B解析:基于N-最短路徑分詞算法，其基本思想是根據(jù)詞典，找出字串中所有可能的詞，構(gòu)造詞語切分有向無環(huán)圖。每個詞對應(yīng)圖中的一條有向邊，并賦給相應(yīng)的邊長(權(quán)值)。然后針對該切分圖，在起點到終點的所有路徑中，求出長度值按嚴(yán)格升序排列(任何兩個不同位置上的值一定不等，下同)依次為第1，第2，…，第i，…，第N的路徑集合作為相應(yīng)的粗分結(jié)果集。如果兩條或兩條以上路徑長度相等，那么他們的長度并列第i，都要列入粗分結(jié)果集，而且不影響其他路徑的排列序號，最后的粗分結(jié)果集合大小大于或等于N。[單選題]41.a=np.array([1,0,0,3,4,5,0,8]),b=np.nonzero(a)B[0]的值為（）。A)[0,3,4,5,7]B)[1,3,4,5,8]C)[03457]D)[13458]答案:A解析:np.nonzero()函數(shù)是提取數(shù)組中不為0的下標(biāo)，返回的結(jié)果為每一個位置的下標(biāo)數(shù)組組成的元組。[單選題]42.執(zhí)行下面操作后，list2的值是（）。List1=[4,5,6]List2=list1List1[2]=3A)[4,5,6]B)[4,3,6]C)[4,5,3]D)以上答案都不正確答案:C解析:賦值語句是淺復(fù)制操作，沒有復(fù)制子對象，所以原始數(shù)據(jù)改變，子對象會改變[單選題]43.對于數(shù)據(jù)3，3，2，3，6，3，10，3，6，3，2.①這組數(shù)據(jù)的眾數(shù)是3；②這組數(shù)據(jù)的眾數(shù)與中位數(shù)的數(shù)值不相等；③這組數(shù)據(jù)的中位數(shù)與平均數(shù)的數(shù)值不相等；④這組數(shù)據(jù)的平均數(shù)與眾數(shù)的數(shù)值相等.其中正確結(jié)論的個數(shù)為（）。A)1B)2C)3D)4答案:B解析:眾數(shù)是指一組中出現(xiàn)次數(shù)最多的數(shù)，中位數(shù)是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)，平均值是各數(shù)值加總求和再除以總的個數(shù)。此題中眾數(shù)為3，中位數(shù)為3，平均值為4，故①和③正確。[單選題]44.決策樹模型的規(guī)模應(yīng)當(dāng)是（）。A)越復(fù)雜越好B)越簡單越好C)適當(dāng)限制其復(fù)雜程度D)盡可能利用所有特答案:C解析:決策樹模型的規(guī)模復(fù)雜可能產(chǎn)生過擬合，因此并非越復(fù)雜做好，應(yīng)適當(dāng)限制其復(fù)雜程度。[單選題]45.數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)?三同步?原則不包括以下哪項（）。A)同步規(guī)劃B)同步建設(shè)C)同步使用D)同步運維答案:D解析:數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)包含同步規(guī)則、同步建設(shè)、同步適用三項原則。[單選題]46.下列哪個不屬于常用的文本分類的特征選擇算法（）。A)卡方檢驗值B)．互信息C)．信息增益D)．主成分分答案:D解析:以文檔頻率為基礎(chǔ)的特征選擇算法有文檔頻次方法（直接依據(jù)文檔頻率大小排序的方法）、卡方檢驗、信息增益、互信息等，不包括主成分分析法。[單選題]47.（）是數(shù)據(jù)庫管理系統(tǒng)運行的基本工作單位。A)事務(wù)B)數(shù)據(jù)倉庫C)數(shù)據(jù)單元D)數(shù)據(jù)分析答案:A解析:在關(guān)系數(shù)據(jù)庫中，事務(wù)(Transaction)是保證數(shù)據(jù)一致性的重要手段，可以幫助用戶維護(hù)數(shù)據(jù)的一致性。事務(wù)是用戶定義的一個數(shù)據(jù)庫操作序列，這些操作要么全做，要么全不做，是一個不可分割的工作單位。[單選題]48.假設(shè)有4個數(shù)據(jù)節(jié)點，每個節(jié)點上有2個主DN實例，那么每個節(jié)點上有幾個DN實例：A)4個B)6個C)8個D)12答案:B解析:[單選題]49.把圖像分割問題與圖的最小割(mincut)問題相關(guān)聯(lián)的方法是（）。A)基于圖論的分割方法B)分水嶺算法C)SLI法D)基于閾值的方答案:A解析:基于圖論的分割方法把圖像分割問題與圖的最小割（mincut）問題相關(guān)聯(lián)。首先將圖像映射為帶權(quán)無向圖，圖中每個節(jié)點對應(yīng)于圖像中的每個像素，每條邊的權(quán)值表示了相鄰像素之間在灰度、顏色或紋理方面的非負(fù)相似度。[單選題]50.通常來說，下面哪種方法能夠用來預(yù)測連續(xù)因變量（）A)線性回歸B)邏輯回歸C)線性回歸和邏輯回歸D)以上答案都不正確答案:A解析:邏輯回歸被用來處理分類問題。[單選題]51.下面關(guān)于Hive內(nèi)外表描述正確的是（）A)內(nèi)部表數(shù)據(jù)由HDFS自身管理，外部表數(shù)據(jù)由Hive管理；B)內(nèi)部表數(shù)據(jù)存儲的位置是hive.metastore.warehouse.dir設(shè)置配置（默認(rèn)：/user/hive/warehouse）C)外表存儲必須指定LOCATIOND)內(nèi)外表刪除時，都會刪除元數(shù)據(jù)和存答案:B解析:[單選題]52.SQL語句中修改表結(jié)構(gòu)的命令是A)modifytableB)modifystructureC)altertableD)alterstructure答案:C解析:[單選題]53.假設(shè)你有5個大小為7x7、邊界值為0的卷積核，同時卷積神經(jīng)網(wǎng)絡(luò)第一層的深度為1。此時如果你向這一層傳入一個維度為224x224x3的數(shù)據(jù)，那么神經(jīng)網(wǎng)絡(luò)下一層所接收到的數(shù)據(jù)維度是多少（）A)218x218x5B)217x217x8C)217x217x3D)220x220x答案:A解析:（224-7）/1+1=218，因為是5個卷積核，所以輸出通道肯定是5，選A。[單選題]54.下面（）負(fù)責(zé)MapReduce任務(wù)調(diào)度。A)NameNodeB)JobtrackerC)TaskTrackerD)secondaryNameNode答案:B解析:Jobtracker負(fù)責(zé)MapReduce任務(wù)調(diào)度，TaskTracker負(fù)責(zé)任務(wù)執(zhí)行。[單選題]55.下列不屬于action操作的是（）A)collectB)filterC)reduceD)count答案:B解析:Action常用的函數(shù)為reduce、collect、count、take、first、foreach等[單選題]56.（）是指給目標(biāo)用戶產(chǎn)生的錯誤或不準(zhǔn)確的視覺感知，而這種感知與數(shù)據(jù)可視化者的意圖或數(shù)據(jù)本身的真實情況不一致。A)視覺假象B)視覺認(rèn)知C)視覺感知D)數(shù)據(jù)可視答案:A解析:視覺假象（VisualIllusion）是數(shù)據(jù)可視化工作中不可忽略的特殊問題。視覺假象是指給目標(biāo)用戶產(chǎn)生的錯誤或不準(zhǔn)確的視覺感知，而這種感知與數(shù)據(jù)可視化者的意圖或數(shù)據(jù)本身的真實情況不一致。視[單選題]57.ApacheSqoop主要設(shè)計目的是（）。A)數(shù)據(jù)清洗B)數(shù)據(jù)轉(zhuǎn)化C)數(shù)據(jù)ETLD)數(shù)據(jù)可視化答案:C解析:在Hadoop與傳統(tǒng)的數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)的ETL操作。[單選題]58.Kafka通過（）避免任務(wù)重復(fù)執(zhí)行。A)實現(xiàn)記錄唯一鍵約束B)對每個Producer分配唯一IDC)通過事務(wù)檢查是否重復(fù)執(zhí)行D)利用Redis的原子性去實答案:B解析:[單選題]59.絕對多數(shù)投票法的基本思想是（）。A)對于若干和弱學(xué)習(xí)器的輸出進(jìn)行平均得到最終的預(yù)測輸出B)少數(shù)服從多數(shù)，數(shù)量最多的類別為最終的分類類別C)不光要求獲得最高票，還要求票過半數(shù)D)將訓(xùn)練集弱學(xué)習(xí)器的學(xué)習(xí)結(jié)果作為輸入，將訓(xùn)練集的輸出作為輸出，重新訓(xùn)練一個學(xué)習(xí)器來得到最終結(jié)果答案:C解析:絕對多數(shù)投票法若某標(biāo)記得票過半數(shù)，則預(yù)測為該標(biāo)記;否則拒絕預(yù)測。[單選題]60.下列不是數(shù)據(jù)科學(xué)項目的主要角色（）。A)項目發(fā)起人B)項目經(jīng)理C)操作人員D)驗收人員答案:D解析:數(shù)據(jù)科學(xué)項目涉及的主要角色有：項目發(fā)起人（ProjectSponsor）、項目經(jīng)理（ProjectManager）、客戶（Client）、數(shù)據(jù)科學(xué)家（DataScientist）、數(shù)據(jù)工程師（DataEngineer）、操作員（Operations）等[單選題]61.假如我們使用Lasso回歸來擬合數(shù)據(jù)集，該數(shù)據(jù)集輸入特征有100個（X1，X2，...，X100）?，F(xiàn)在，我們把其中一個特征值擴(kuò)大10倍（例如是特征X1），然后用相同的正則化參數(shù)對Lasso回歸進(jìn)行修正。那么，下列說法正確的是（）A)特征X1很可能被排除在模型之外B)特征X1很可能還包含在模型之中C)無法確定特征X1是否被舍D)以上答案都不正答案:B解析:將特征X1數(shù)值擴(kuò)大10倍，它對應(yīng)的回歸系數(shù)將相應(yīng)會減小，但不為0，仍然滿足β的正則化約束，因此可能還包含在模型之中。[單選題]62.下列關(guān)于支持向量的說法正確的是（）。A)到分類超平面的距離最近的且滿足一定條件的幾個訓(xùn)練樣本點是支持向量B)訓(xùn)練集中的所有樣本點都是支持向量C)每一類樣本集中都分別只有一個支持向量D)支持向量的個數(shù)越多越答案:A解析:在支持向量機(jī)中，距離超平面最近的且滿足一定條件的幾個訓(xùn)練樣本點被稱為支持向量。一般情況下，支持向量的個數(shù)等于訓(xùn)練樣本數(shù)目，并不是越多越好。[單選題]63.Base原則的含義不包括（）A)基本可用B)柔性狀態(tài)C)最終一致D)基礎(chǔ)條答案:D解析:BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventuallyConsistent(最終一致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用，并不追求全天候服務(wù)；SoftState是指不要求一直保持強(qiáng)一致狀態(tài)；EventuallyConsistent是指最終數(shù)據(jù)一致，而不是嚴(yán)格的實時一致，系統(tǒng)在某一個時刻后達(dá)到一致性要求即可。[單選題]64.下列哪一種方法的系數(shù)沒有封閉形式（closed-form）的解（）。A)Ridge回歸B)LassoC)Ridge回歸和LassoD)以上答案都不正確答案:B解析:Ridge回歸是一般的線性回歸再加上L2正則項，它具有封閉形式的解，可以基于最小二乘法求解。第2部分：多項選擇題，共22題，每題至少兩個正確答案,多選或少選均不得分。[多選題]65.語音識別的方法包括（）。A)聲道模型方法B)模板匹配的方法C)利用仍神經(jīng)網(wǎng)絡(luò)的方法D)語音知識方答案:ABCD解析:一般來說,語音識別的方法有：基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。[多選題]66.云上DWS部署架構(gòu)中，BMS裸金屬方式部署相較于ECS虛機(jī)方式的優(yōu)勢有哪些：A)BMS部署具有更好的IO性能B)BMS部署方式具備更好的安全性C)BMC部署方式更易維護(hù)D)集群發(fā)生DN主備切換不影響B(tài)MS集群性答案:ABC解析:[多選題]67.大數(shù)據(jù)偏見包括（）A)數(shù)據(jù)源的選擇偏見B)算法與模型偏見C)結(jié)果解讀方法的偏見D)數(shù)據(jù)呈現(xiàn)方式的偏見答案:ABCD解析:大數(shù)據(jù)偏見是數(shù)據(jù)科學(xué)項目中必須關(guān)注和加以避免的問題，上述四個活動中均可能出現(xiàn)偏見。[多選題]68.下列方法中，可以用于特征降維的方法包括（）。A)主成分分析PCAB)線性判別分析LDAC)深度學(xué)習(xí)SparseAutoEncoderD)矩陣奇異值分解SVD答案:ABD解析:主成分分析PCA、線性判別分析LDA、矩陣奇異值分解SVD均可用于特征降維。[多選題]69.下列關(guān)于PCA說法正確的是（）。A)在使用PC之前，我們必須標(biāo)準(zhǔn)化數(shù)據(jù)B)應(yīng)該選擇具有最大方差的主成分C)應(yīng)該選擇具有最小方差的主成分D)可以使用PCA在低維空間中可視化數(shù)答案:ABD解析:PCA對數(shù)據(jù)中變量的尺度非常敏感，因此需要對各個變量進(jìn)行標(biāo)準(zhǔn)化。方差越大，說明在該特征上分布越廣泛，說明該特征越有用，影響越大。PCA有時在較低維度上繪制數(shù)據(jù)是非常有用，可以提取前2個主要組成部分，在二維平面上使用散點圖可視化數(shù)據(jù)。[多選題]70.下列關(guān)于詞袋模型說法正確的是（）。A)詞袋模型可以忽略每個詞出現(xiàn)的順序B)詞袋模型不可以忽略每個詞出現(xiàn)的順序C)TensorFlow支持詞袋模型D)詞袋模型可以表出單詞之間的前后關(guān)答案:AC解析:詞袋模型的缺點之一就是不考慮詞語的順序關(guān)系，因此AC錯誤。[多選題]71.以下哪些濾波器能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點的系數(shù)降至0附近（）。A)同態(tài)濾波B)高斯濾波C)巴特沃斯濾波D)中值濾答案:BC解析:圖像處理基礎(chǔ)知識。[多選題]72.以下屬于數(shù)據(jù)挖掘與分析工具的有（）。A)TableauB)PythonC)SPSSD)Altey答案:ABCD解析:常用的數(shù)據(jù)挖掘工具有：RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有：Tableau、Alteyx、R＆Python語言、FineReport、PowerBI。[多選題]73.下列對字符串函數(shù)或方法說法正確的有（）。A)istitle()如果字符串是標(biāo)題化的(見title())則返回True，否則返回FalseB)max(str)返回字符串str中最大的字母。C)replace(old,new,max)把將字符串中的str1替換成str2,如果max指定，則替換不超過max次D)upper()轉(zhuǎn)換字符串中所有大寫字符為小寫答案:ABC解析:upper()轉(zhuǎn)換字符串中所有小寫字符為大寫。[多選題]74.特征選擇在子集生成與搜索方面引入了（）人工智能搜索和評價方法。A)分支界限法B)浮動搜索法C)信息熵D)AIC答案:ABCD解析:特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術(shù)，如分支界限法，浮動搜索法等；在子集評價方法則采用了很多源于信息論的準(zhǔn)則，如信息熵、AIC等。[多選題]75.MaxcomputeSQL支持的Join操作類型包括:（）。A)INNERB)LEFTC)FULLD)RIGHT答案:ABCD解析:[多選題]76.Spark支持的計算模型有（）。A)批處理；B)實時計算；C)機(jī)器學(xué)習(xí)模型；D)交互式查詢；答案:ABCD解析:Spark支持的計算模型有批處理、實時計算、機(jī)器學(xué)習(xí)模型、交互式查詢。[多選題]77.請問下面哪些是離散型變量（）。A)示波器B)心電圖及腦動電圖掃描器對腦電波的測量C)過去數(shù)月的總銷售額D)公司每年的紅利答案:CD解析:在統(tǒng)計學(xué)中，變量按其數(shù)值表現(xiàn)是否連續(xù)，分為連續(xù)變量和離散變量。離散變量指變量值可以按一定順序一一列舉，通常以整數(shù)位取值的變量。如職工人數(shù)、工廠數(shù)、機(jī)器臺數(shù)等。有些性質(zhì)上屬于連續(xù)變量的現(xiàn)象也按整數(shù)取值，即可以把它們當(dāng)做離散變量來看待。例如年齡、評定成績等雖屬連續(xù)變量，但一般按整數(shù)計算，按離散變量來處理。離散變量的數(shù)值用計數(shù)的方法取得。[多選題]78.字符串的格式化可以使用（）。A)%B)formatC)inputD)+答案:AB解析:input輸入，+加法運算符。[多選題]79.以下網(wǎng)絡(luò)結(jié)構(gòu)中可以應(yīng)用于圖像識別任務(wù)的是（）。A)LeNet-5B)AlexNetC)ND)VGG-ne答案:ABCD解析:四者均為經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)。[多選題]80.31、以下哪些選項是Kafka的特點?A)支持消息隨機(jī)讀取B)高吞吐C)分布式D)消息持久化答案:BCD解析:[多選題]81.哪些是離線批處理的特點?A)處理數(shù)據(jù)量巨大，PB級B)處理時間要求高C)容易產(chǎn)生資源搶占D)多個作業(yè)調(diào)度復(fù)答案:ACD解析:[多選題]82.以下關(guān)于降維方法，敘述正確的是（）。A)主成分分析是一種常用的非線性降維方法B)核化線性降維是一種常用的線性降維方法C)流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法D)度量學(xué)習(xí)繞過降維的過程，將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對距離度量計算的權(quán)重矩陣的學(xué)習(xí)答案:CD解析:本質(zhì)上講,主成分分析是一種線性降維方法,在處理非線性問題時,效果不太理想。核化線性降維是一種非的線性降維方法。[多選題]83.可作為決策樹選擇劃分屬性的參數(shù)是（）。A)信息增益B)增益率C)基尼指數(shù)D)密度函答案:ABC解析:特征選擇的準(zhǔn)則主要有三種：信息增益，信息增益率，基尼指數(shù)。[多選題]84.數(shù)據(jù)可視化涉及到（）等多個領(lǐng)域，成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)。A)計算機(jī)圖形學(xué)B)圖像處理C)計算機(jī)視覺D)計算機(jī)輔助設(shè)計答案:ABCD解析:數(shù)據(jù)可視化涉及到計算機(jī)圖形學(xué)、圖像處理、計算機(jī)視覺、計算機(jī)輔助設(shè)計等多個領(lǐng)域，成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)理論考試(習(xí)題卷2)

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)理論考試(習(xí)題卷2)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔