數(shù)據(jù)挖掘競賽復習試題及答案_第1頁
數(shù)據(jù)挖掘競賽復習試題及答案_第2頁
數(shù)據(jù)挖掘競賽復習試題及答案_第3頁
數(shù)據(jù)挖掘競賽復習試題及答案_第4頁
數(shù)據(jù)挖掘競賽復習試題及答案_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第頁數(shù)據(jù)挖掘競賽復習試題及答案1.主成分分析的優(yōu)化目標是一個()。A、不含約束條件的二次規(guī)劃問題B、含有約束條件的二次規(guī)劃問題C、不含約束條件的線性規(guī)劃問題D、含有約束條件的線性規(guī)劃問題【正確答案】:B解析:

--2.圖像平滑會造成()。A、圖像邊緣模糊化B、圖像邊緣清晰化C、無影響D、以上答案都不正確【正確答案】:A解析:

為了抑制噪聲,使圖像亮度趨于平緩的處理方法就是圖像平滑。圖像平滑實際上是低通濾波,平滑過程會導致圖像邊緣模糊化。3.以下哪個統(tǒng)計量可以描述數(shù)據(jù)的集中程度的是()。A、極差B、標準差C、極大值D、眾數(shù)【正確答案】:D解析:

最常見的幾種集中趨勢包括算數(shù)平均數(shù)、中位數(shù)及眾數(shù),極差、標準差、離散程度等屬于描述離中程度的指標。4.下列關于支持向量的說法,正確的是()。A、到分類超平面的距離最近的且滿足一定條件的幾個訓練樣本點是支持向量B、訓練集中的所有樣本點都是支持向量C、每一類樣本集中都分別只有一個支持向量D、支持向量的個數(shù)越多越好【正確答案】:A解析:

在支持向量機中,距離超平面最近的且滿足一定條件的幾個訓練樣本點被稱為支持向量。一般情況下,支持向量的個數(shù)等于訓練樣本數(shù)目,并不是越多越好。5.采用冪次變換進行灰度變換時,當冪次大于1時,該變換是針對()的圖像進行增強。A、圖像整體偏暗B、圖像整體偏亮C、圖像細節(jié)淹沒在暗背景中D、圖像同時存在過亮和過暗背景【正確答案】:B解析:

冪次變換的基本表達式為:y=cxr+b。當r>1時,變換函數(shù)曲線在正比函數(shù)下方,此時擴展高灰度級,壓縮低灰度級,使圖像變暗;當r<1時,變換函數(shù)曲線在正比函數(shù)上方,此時擴展低灰度級,壓縮高灰度級,使圖像變亮。這一點與對數(shù)變換十分相似。6.Adaboost的核心思想是()。A、給定一個弱學習算法和一個訓練集,將該學習算法使用多次,得出預測函數(shù)序列,進行投票B、針對同一個訓練集訓練不同的弱分類器集合起來,構成一個強分類器C、利用多棵樹對樣本進行訓練并預測的一種分類器D、基于前向策略的加法模型,每階段使用一個基模型去擬合上一階段基模型的殘差【正確答案】:B解析:

--7.已知一個數(shù)據(jù)集,n為特征數(shù),m為訓練樣本數(shù),如果n較小,而且m大小中等(例如n為1~1000,而m為10~10000),則一般選擇()。A、邏輯回歸模型B、不帶核的支持向量機C、高斯核的支持向量機D、多項式核的支持向量機【正確答案】:C解析:

高斯核函數(shù)需要選擇合適的sigma2參數(shù),適用于少量特征,大量樣本的情況,可以擬合出非常復雜的非線性決策邊界。8.下列哪個()不是scipy.stats模塊中的功能()。A、連續(xù)性分布B、線性方程求解C、離散型分布D、核密度估計【正確答案】:B解析:

stats模塊包含了隨機變量樣本抽取、84個連續(xù)性分布、12個離散型分布、分布的密度分布函數(shù)、核密度估計、分布構造、分布檢驗等功能,但不包括線性方程求解。9.在linux下預裝了Python2,、Python3且默認Python版本為Python3,下列描述可以正確啟動Python有的是()。A、在linux應用程序Terminal,打開一個終端窗口。輸入whichPythonB、在linux應用程序Terminal,打開一個終端窗口。輸入Python2或Python3C、在linux應用程序Terminal,打開一個終端窗口。輸入whichPython3D、在linux應用程序Terminal,打開一個終端窗口。輸入輸入whichPython2【正確答案】:B解析:

Windows系統(tǒng)下通過在命令行直接輸入python2或者python3啟動Python,;Linux系統(tǒng)下通過在Terminal輸入python2或者python3啟動Python。10.關于Python賦值語句,以下選項中不合法的是()。A、x=1;y=1B、x=y=1C、x=(y=1)D、x,y=y,x【正確答案】:C解析:

賦值語句不能用于賦值。11.以下不屬于大數(shù)據(jù)重要意義的是()。A、大數(shù)據(jù)成為推動經濟轉型發(fā)展的新動力B、大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機遇C、大數(shù)據(jù)成為提升政府治理能力的新途徑D、大數(shù)據(jù)會增加經濟發(fā)展的成本【正確答案】:D解析:

大數(shù)據(jù)可以促進經濟的發(fā)展,催生新的業(yè)態(tài),在輔助商業(yè)決策、降低運營成本、精準市場的營銷方面都能發(fā)揮作用,進一步提升企業(yè)競爭力。12.解決Master故障的方法是設置檢查點,當Master失效時,從()檢查點開始啟動另一個Master進程。A、第一個B、中間一個C、最后一個D、隨機選擇一個【正確答案】:C解析:

從最后一個檢查點開始啟動另一Master進程使得因故障產生的影響更小。13.在Apriori算法中,候選項集劃分為不同的桶,存放在()中。A、字典B、集合C、Hash樹D、列表【正確答案】:C解析:

--14.關于HDFS的特征,下列說法錯誤的是()。A、支持超大文件B、基于商用硬件C、流式數(shù)據(jù)訪問D、低吞吐量【正確答案】:D解析:

HDFS設計中重視“數(shù)據(jù)的高吞吐量”,因此其數(shù)據(jù)吞吐量高,但也造成了其數(shù)據(jù)延遲訪問的特征。15.scipy中,線性模塊是以下哪個()模塊()。A、fftpackB、signalC、linalgD、ndimage【正確答案】:C解析:

fftpack米快是傅里葉變換模塊,signal是信號處理模塊,linalg是線性代數(shù)模塊,ndimage是多維圖像處理模塊,16.()是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產生的。A、邊界點B、質心C、離群點D、核心點【正確答案】:C解析:

離群點(outlier)是指數(shù)值中遠離數(shù)值的一般水平的極端大值和極端小值。17.Python語句print(0xA+0xB)的輸出結果是()。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】:D解析:

0x是16進制運算,0xA+0xB換為十進制為10+11=21。18.對參數(shù)進行L2正則,是機器學習常用的防止過擬合的方法。對參數(shù)做L2正則時,()是對參數(shù)本身做先驗分布假設。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勻分布【正確答案】:A解析:

L2正則假設參數(shù)的先驗分布是Gaussian分布,可以保證模型的穩(wěn)定性,也就是參數(shù)的值不會太大或太小。19.要彌補缺失值,可以使用均值,、中位數(shù),、眾數(shù)等等,preprocessing模塊中那個方法()可以實現(xiàn)()。A、preprocessing.Imputer)B、preprocessing.PolynomialFeatures)C、preprocessing.FunctionTransformer)D、preprocessing.Binarizer)【正確答案】:A解析:

要彌補缺失值,可以使用均值,、中位數(shù),、眾數(shù)等等,preprocessing中Imputer方法可以實現(xiàn)。20.基于統(tǒng)計的分詞方法為()。A、正向最大匹配法B、逆向最大匹配法C、最少切分法D、條件隨機場【正確答案】:D解析:

第一類是基于語法和規(guī)則的分詞法。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來進行詞性標注,以解決分詞歧義現(xiàn)象。因為現(xiàn)有的語法知識、句法規(guī)則十分籠統(tǒng)、復雜,基于語法和規(guī)則的分詞法所能達到的精確度遠遠還不能令人滿意,目前這種分詞系統(tǒng)還處在試驗階段。21.以下選項中哪個不屬于數(shù)據(jù)預處理的方法()。A、數(shù)據(jù)清洗B、數(shù)據(jù)集成C、數(shù)據(jù)變換D、數(shù)據(jù)統(tǒng)計【正確答案】:D解析:

數(shù)據(jù)統(tǒng)計并非為數(shù)據(jù)預處理的常見內容。22.數(shù)據(jù)可視化的方法論基礎是()。A、統(tǒng)計圖表B、視覺編碼C、圖論D、圖形符號學【正確答案】:B解析:

數(shù)據(jù)可視化的方法體系的方法論基礎主要是指“視覺編碼”?!耙曈X編碼”為其他數(shù)據(jù)可視化方法提供了方法論基礎,奠定了數(shù)據(jù)可視化方法體系的根基。23.下列不屬于Transformation操作的是()。A、mapB、filterC、sampleD、count【正確答案】:D解析:

Transformation常用函數(shù)為map、filter、flatMap、sample、union、join等。24.arr=np.arange(9).reshape(3,3),如何使數(shù)組arr交換列1和列2的操作是()。A、arr[:,[1,0,2]]B、arr[:,[1,0,3]]C、arr[:,[1,0,1]]D、arr[:,[1,0]]【正確答案】:A解析:

交換前兩列相當于依次選取2,1,3列。25.關于正態(tài)分布,下列說法錯誤的是()。A、正態(tài)分布具有集中性和對稱性B、正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)C、正態(tài)分布的偏度為0,峰度為1D、標準正態(tài)分布的均值為0,方差為1【正確答案】:C解析:

正態(tài)分布的均值決定正態(tài)分布的位置,正態(tài)分布的方差決定正態(tài)分布的形態(tài),正態(tài)分布具有對稱性,其偏度為0,但峰度不一定為1,只有標準正態(tài)分布的偏度為0,峰度為1。26.在神經網絡中引入了非線性的是()。A、隨機梯度下降B、修正線性單元(ReLU)C、卷積函數(shù)D、以上答案都不正確【正確答案】:B解析:

ReLU是目前最常用的激勵函數(shù),增加了神經網絡模型的非線性。27.以下關于異常處理的描述,正確的是()。A、try語句中有except子句就不能有finally子句B、Python中,可以用異常處理捕獲程序中的所有錯誤C、引發(fā)一個不存在索引的列表元素會引發(fā)NameError錯誤D、Python中允許利用raise語句由程序主動引發(fā)異常【正確答案】:D解析:

try語句中有except子句可以有finally子句,,不用異常處理捕獲程序中的所有錯誤,引發(fā)一個不存在索引的列表元素會引發(fā)lisindeoutError。28.下面哪個功能不是大數(shù)據(jù)平臺安全管理組件提供的功能()。A、接口代理B、接口認證C、接口授權D、路由代理【正確答案】:D解析:

接口可以對用戶的身份和請求的參數(shù)進行驗證,以保證接口的安全。通過添加身份驗證和數(shù)字簽名的方法提高接口安全性,防止數(shù)據(jù)被篡改和信息泄露。29.bootstrap是指()。A、有放回地從總共M個特征中抽樣m個特征B、無放回地從總共M個特征中抽樣m個特征C、有放回地從總共N個樣本中抽樣n個樣本D、無放回地從總共N個樣本中抽樣n個樣本【正確答案】:C解析:

自助采樣法(bootstrapsampling):給定包含N個樣本的數(shù)據(jù)集,我們先隨機取出一個樣本放入采樣集中,再把該樣本放回初始數(shù)據(jù)集,使得下次采樣時該樣本仍有可能被選中,這樣經過n次隨機采樣操作,我們得到含n個樣本的采樣集。30.GatedRecurrentunits的出現(xiàn)可以幫助防止在RNN中的梯度消失問題。()A、可以這么理解B、不可以這么理解C、-D、-【正確答案】:A解析:

--31.詞袋模型中的文本向量每個元素表示該詞的()。A、頻率B、順序C、含義D、語義關系【正確答案】:A解析:

詞袋模型是最基礎的文本表示模型,就是把每一篇文章看成一袋子單詞,并忽略每個詞出現(xiàn)的順序。每篇文章可以表示成一個長向量,向量中的每一維代表一個單詞,而該維對應的權重代表這個詞在文章中的重要程度,重要程度是由頻率來衡量的。32.[i**iforiinrange(3)]的運行結果是()。A、[1,1,4]B、[0,1,4]C、[1,2,3]D、(0,1,4)【正確答案】:B解析:**表示乘方運算,該列表表達式指為[0,1**1,2**2]即為[0,1,4]33.生成多項式和交互特征使用preprocessing模塊中的()函數(shù)。A、preprocessing.binarize)B、preprocessing.Normalizer)C、preprocessing.LabelEncoder)D、preprocessing.PolynomialFeatures)【正確答案】:D解析:

preprocessing.PolynomialFeatures用于生成多項式和交互特征,可以將線性回歸模型應用于多項式回歸中。34.對于一個分類任務,如果開始時神經網絡的權重不是隨機賦值的,而是都設成0,下面敘述正確的是()。A、沒啥問題,神經網絡會正常開始訓練B、神經網絡可以訓練,但是所有的神經元最后都會變成識別同樣的東西C、神經網絡不會開始訓練,因為沒有梯度改變D、以上選項都不對【正確答案】:B解析:

--35.以下代碼的輸出結果為()。A、[[123][345][456]]B、3.6666666666667C、[2.666666673.666666674.66666667]D、[2.4.5.]【正確答案】:C解析:

對每列求均值。36.協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些用戶對某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程度(),并將這些用戶喜歡的項推薦給有相似興趣的用戶。A、相似B、相同C、推薦D、預測【正確答案】:D解析:

協(xié)同過濾簡單來說是利用某興趣相投、擁有共同經驗之群體的喜好來推薦用戶感興趣的信息,個人通過合作的機制給予信息相當程度的回應(如評分)并記錄下來以達到過濾的目的進而幫助別人篩選信息。37.如果要清空文件,需要使用的命令是()。A、close)B、seek(0)C、truncate(0)Dwrite('stuff')【正確答案】:C解析:

truncate(size)方法將截斷文件,大小為size,size為0即清空38.使用pip工具查看當前已安裝的Python擴展庫的完整命令是()。A、pipupdateB、piplistC、pipinstallD、pipshowall【正確答案】:B解析:

使用pip工具查看當前已安裝的Python擴展庫的完整命令piplist。39.留出法直接將數(shù)據(jù)集劃分為()個互斥的集合。A、一B、二C、三D、四【正確答案】:B解析:

留出法(hold-out)直接將數(shù)據(jù)集D劃分為兩個互斥的集合,其中一個集合作為訓練集,另一個作為測試集T。40.()網絡是一種競爭學習型的無監(jiān)督神經網絡,它能將高維輸入數(shù)據(jù)映射到低維空間,同時保持輸入數(shù)據(jù)在高維空間的拓撲結構,即將高維空間中相似的樣本點映射到網絡輸出層中的鄰近神經元。A、SOMB、RBFC、ARTD、ELman【正確答案】:A解析:

自組織映射(Self-OrganizingMap,SOM)網絡[Kohonen,1982]是一種競爭學習型的無監(jiān)督神經網絡,它能將高維輸入數(shù)據(jù)映射到低維空間(通常為二維),同時保持輸入數(shù)據(jù)在高維空間的拓撲結構,即將高維空間中相似的樣本點映射到網絡輸出層中的鄰近神經元。41.如果要將讀寫位置移動到文件開頭,需要使用的命令是()。A、closeB、seek(0)C、truncateD、write('stuff')【正確答案】:B解析:

seek(0)指移動指針到0位置即開頭。42.對Numpy的數(shù)組Ndarray對象屬性的描述,錯誤的是()。A、Ndarray.dtypeNdarray對象中每個元素的大小,以字節(jié)為單位B、Ndarray.flagsNdarray對象的內存信息C、Ndarray.realNdarray元素的實部D、Ndarray.imagNdarray元素的虛部【正確答案】:A解析:

dtype是數(shù)組元素的類型。43.正態(tài)分布的兩個參數(shù)μ與σ,()對應的正態(tài)曲線愈趨扁平。A、μ愈大B、μ愈小C、σ愈大D、σ愈小【正確答案】:C解析:

σ描述正態(tài)分布資料數(shù)據(jù)分布的離散程度,σ越大,數(shù)據(jù)分布越分散,;σ越小,數(shù)據(jù)分布越集中。σ也稱為是正態(tài)分布的形狀參數(shù),σ越大,曲線越扁平,;反之,σ越小,曲線越瘦高。44.Scikit-Learn中,()可以實現(xiàn)整數(shù)分類值轉化為獨熱向量。A、OridinalEncoderB、OneHotEncoderC、LableEncoderD、AutoEncoder【正確答案】:B解析:

onehot編碼是將整數(shù)分類值轉化為獨熱向量。45.()適合連續(xù)特征,它假設每個特征對于每個類都符合正態(tài)分布。A、GaussianNBBernoulliNBC、MultinomialNBD、BaseDiscreteNB【正確答案】:A解析:

貝葉斯分類中GaussianNBB用于連續(xù)特征。46.HBase中KeyValue數(shù)據(jù)的存儲格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正確答案】:A解析:

HBase中KeyValue數(shù)據(jù)的存儲格式是HFile。47.關于拋出異常的說法中,描述錯誤的是()。A、當raise指定異常的類名時,會隱式地創(chuàng)建異常類的實例B、顯式地創(chuàng)建異常類實例,可以使用raise直接引發(fā)C、不帶參數(shù)的raise語句,只能引發(fā)剛剛發(fā)生過的異常D、使用raise拋出異常時,無法指定描述信息【正確答案】:D解析:

raise語句的第一個參數(shù)指定要產生的例外的名字;可選的第二參數(shù)指定例外的參數(shù)。48.以下描述中錯誤的是()。A、數(shù)據(jù)化與數(shù)字化是兩個不同概念B、數(shù)據(jù)與數(shù)值是一個概念C、大數(shù)據(jù)與海量數(shù)據(jù)是兩個不同的概念D、數(shù)據(jù)和信息是兩個不同的概念【正確答案】:B解析:

除了“數(shù)值”,數(shù)據(jù)科學中的“數(shù)據(jù)”還包括文字、圖形、圖像、動畫、文本、語音、視頻、多媒體和富媒體等多種類型49.運行下面的代碼,輸出結果是()。A、[0,10,2,30,4]B、[10,2,30,4]C、[0,10,2,30,4,50]D、[0,1,20,3,40]【正確答案】:A解析:

該列表推導式意為在0-~4中偶數(shù)不變,奇數(shù)乘10,因此A正確。50.數(shù)據(jù)可視化的基本類型是()。A、科學可視化、信息可視化、可視分析學B、物理可視化、數(shù)字可視化、化學可視化C、科學可視化、數(shù)字可視化、可視分析學D、科學可視化、信息可視化、文本可視化【正確答案】:A解析:

大數(shù)據(jù)可視化可以說是傳統(tǒng)數(shù)據(jù)可視化的一個繼承和延伸,它是指將大規(guī)模海量數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。大數(shù)據(jù)可視化是大數(shù)據(jù)整個過程的最后環(huán)節(jié),也是非常重要的一個環(huán)節(jié)。51.在機器學習中,不屬于常用的沖突消解策略是()。A、投票法B、排序法C、元規(guī)則法D、加權法【正確答案】:D解析:

常用的沖突消解策略有投票法、排序法、元規(guī)則法等。52.以下代碼的輸出結果為()。A、[101001000]B、[100100001000000]C、[123]D、[10100001000000000]【正確答案】:B解析:

np.power)取乘方。53.Relief是為()問題設計的。A、二分類B、多分類C、回歸D、降維【正確答案】:A解析:

--54.線性模型中的權重w值可以看做各個屬性x的()。A、正則化系數(shù)B、對最終決策結果的貢獻度C、高維映射D、取值【正確答案】:B解析:

--55.建立一個詞典[Alex,wants,to,go,play,football,shopping],下面的句子:Alexwantstogotoplayfootball可以用向量表示為()。A、[1,1,2,1,1,1,0]B、[1,1,2,1,1,1]C、[1,1,1,1,1,1,0]D、[1,1,1,1,1,1,1]【正確答案】:A解析:

向量中每個元素代表該詞在句中出現(xiàn)的次數(shù),比如to在句中出現(xiàn)兩次,所以第3個元素應為2。56.繪圖是如何通過()為項目設置matplotlib參數(shù)()。A、rc)B、sci)C、axes)D、sca)【正確答案】:A解析:

matplotlib.rc)設置當前的matplotlib參數(shù)。57.在以下那個選項是在局部生效的,出了這個變量的作用域,這個變量就失效了的變量是()。A、局部變量B、全局變量C、字典D、集合【正確答案】:A解析:

局部變量是在局部生效的,出了這個變量的作用域,這個變量就失效了。58.Hadoop中partition()函數(shù)代表的是()。A、分區(qū)函數(shù)B、特征函數(shù)C、算法函數(shù)D、排序函數(shù)【正確答案】:A解析:

partition()代表分區(qū)函數(shù)。59.以下代碼哪個中能夠打印出138-9922-0202這個電話號碼(注意格式需要完全一致)的是,注意格式需要完全一致()。A、print(“138”)print(“9922”)print(“0202”)B、print(“138”,end=“”)print(“9922”,end=“”)print(“0202”,end=“”)C、print(“138”,sep=“-”)print(“9922”,sep=“-”)print(“0202”,sep=“-”)D、print(“138”,end=“-”)print(“9922”,end=“-”)print(“0202”)【正確答案】:D解析:

A打印出來是回車分割;B打印出來是空格分隔;C關鍵詞寫了分隔符,所以打印出來任是回車分割;D打印出來就是-分隔。60.以下代碼的輸出結果為()。A、[022345]B、[543220]C、[[230][542]]D、[[235][024]]【正確答案】:A解析:

默認按最后一個軸進行排序,軸參數(shù)設置為None時先展平再進行排序。61.matplotlib中的legend函數(shù)作用是什么()。A、設置標簽文本B、繪制網格線C、標示不同圖形的文本標簽圖例D、設置x軸的數(shù)值顯示范圍【正確答案】:C解析:

legend用于添加圖例。62.Hadoop中,Reducer的三個階段是()。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort-Shuffle-Reduce【正確答案】:A解析:

Reducer主要分為Shuffle洗牌、Sort排序和Reduce三個步驟。63.線性判別分析在二分類問題上也稱為()。A、線性回歸B、對數(shù)幾率回歸C、Fisher判別分析D、主成分分析【正確答案】:C解析:

線性判別分析在二分類問題上也稱為Fisher判別分析。64.不屬于循環(huán)神經網絡的輸出模式是()。A、單輸出B、多輸出C、同步多輸出D、異步多輸出【正確答案】:C解析:

--65.關于DataNode的描述錯誤的是()。A、DataNode負責處理文件系統(tǒng)客戶端的文件讀寫請求B、DataNode進行數(shù)據(jù)塊的創(chuàng)建、刪除和復制工作C、集群中的DataNode一般是一個節(jié)點一個D、文件的副本系數(shù)由DataNode儲存【正確答案】:D解析:

文件副本的數(shù)目稱為文件的副本系數(shù),這個信息是由NameNode保存的。66.()負責HDFS數(shù)據(jù)存儲。A、NameNodeB、JobtrackerC、DataNodeD、SecondaryNameNode【正確答案】:C解析:

Hadoop中NameNode節(jié)點作為Master節(jié)點,對集群進行管理;SecondaryNameNode節(jié)點在于分擔NameNode的壓力而設置;JobTracker是為了跟蹤作業(yè)運行的情況而設置的節(jié)點。67.Numpy包中meshgrid函數(shù)實現(xiàn)的功能是()。A、數(shù)組拆分B、數(shù)組乘法C、數(shù)組除法D、數(shù)組融合【正確答案】:D解析:

np.meshgrid)用于數(shù)組融合,在畫等高線圖時常用。68.如果python程序中包括零運算,解釋器將在運行時拋出)()錯誤信息()。A、NameErrorB、FileNotFoundErrorC、SyntaxErrorD、Zero【正確答案】:D解析:

NameError為找不到變量名報錯;FileNotFoundError為文件不存在報錯;SyntaxError為語法報錯;ZeroDivisionError為數(shù)學除零運算報錯。69.關于Hive說法正確的是()。A、一種數(shù)據(jù)倉庫B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】:A解析:

Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,用來進行數(shù)據(jù)提取、轉化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。70.TF-IDF中的TF是指()。A、某個詞在文檔中出現(xiàn)的次數(shù)B、文章的總次數(shù)C、某個詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)D、以上答案都不正確【正確答案】:C解析:

TF是詞頻(TermFrequency),表示某個詞出現(xiàn)的頻率,也就是某個詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)。71.一元線性回歸方程y=0.7+0.82x,判定系數(shù)等于0.64,則x與y的相關系數(shù)為()。A、0.82B、0.64C、0.8D、0.7【正確答案】:C解析:

一元回歸分析中,自變量和因變量的相關系數(shù)的平方等于回歸模型的判定系數(shù)。所以,相關系數(shù)=sqrt(0.64)=0.8。72.中文同義詞替換時,常用到Word2Vec,以下說法錯誤的是()。A、Word2Vec基于概率統(tǒng)計B、Word2Vec結果符合當前預料環(huán)境C、Word2Vec得到的都是語義上的同義詞D、Word2Vec受限于訓練語料的數(shù)量和質量【正確答案】:C解析:

Word2Vec只會輸出詞向量,并不關心是否為同義詞。73.下列方法中,能夠讓所有單詞的首字母變成大寫的方法是()。A、capitalizeB、titleC、upperD、Ijust【正確答案】:B解析:

capitalize)將字符串的第一個字母變成大寫,其他字母變小寫;upper)方法將字符串中的小寫字母轉為大寫字母;Iljust左對齊。74.若a=np.array([5,1,2,3]),a.sort(),則數(shù)組a的結果是()。A、[5,1,2,3]B、[1,2,3,5]C、[3,2,1,5]D、11【正確答案】:B解析:

Ndarray.sort)默認在原地按最后一個軸從小到大排序。75.Python中定義私有屬性的方法是()。A、使用private關鍵字B、使用public關鍵字C、使用__XX__定義屬性名D、使用__XX定義屬性名【正確答案】:D解析:

使用__XX定義屬性名是定義私有屬性的方法。76.對于PCA(主成分分析)轉化過的特征,樸素貝葉斯的不依賴假設總是成立,因為所有主要成分是正交的,這個說法是()。A、正確的B、錯誤的C、-D、-【正確答案】:B解析:

說法錯誤。首先,不依賴和不相關是兩回事;其次,轉化過的特征也可能是相關的。77.下列不屬于Action操作的是()。A、collectB、filterC、reduceD、count【正確答案】:B解析:

Action常用的函數(shù)為reduce、collect、count、take、first、foreach等。78.PageRank是一個函數(shù),它對Web中的每個網頁賦予一個實數(shù)值。它的意圖在于網頁的PageRank越高,那么它就()。A、相關性越高B、越不重要C、相關性越低D、越重要【正確答案】:D解析:

PageRank認為,如果A頁面有一個鏈接指向B頁面,那就可以看作是A頁面對B頁面的一種信任或推薦。所以,如果一個頁面的反向鏈接越多,根據(jù)這些鏈接的價值加權越高,那搜索引擎就會判斷這樣的頁面更為重要。79.數(shù)據(jù)產品的定義是()。A、數(shù)據(jù)產品是指能夠供給市場,被人們使用和消費,并能滿足人們某種需求的任何東西B、數(shù)據(jù)產品是可以發(fā)揮數(shù)據(jù)價值去輔助用戶更優(yōu)地做決策(甚至行動)的一種產品形式C、數(shù)據(jù)產品是指為了滿足自身的需要,通過科技發(fā)明或經驗總結而形成的技術D、數(shù)據(jù)產品是數(shù)據(jù)科學的結果,創(chuàng)造了新的實物形態(tài)和使用價值的產品?!菊_答案】:B解析:

數(shù)據(jù)產品是可以發(fā)揮數(shù)據(jù)價值去輔助用戶更優(yōu)的做決策(甚至行動)的一種產品形式。80.下列關于數(shù)據(jù)重組的說法中,錯誤的是()。A、數(shù)據(jù)重組是數(shù)據(jù)的重新生產和重新采集B、數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C、數(shù)據(jù)重組實現(xiàn)的關鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D、數(shù)據(jù)重組有利于實現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新【正確答案】:A解析:

數(shù)據(jù)重組將數(shù)據(jù)庫內各數(shù)據(jù)的相關信息重新組織。81.scipy.stats中,()表示泊松分布。A、gammaB、poissonC、binomD、uniform【正確答案】:B解析:

poission表示泊松分布。82.pyplot.pie)所畫的圖像是()。A、箱線圖B、折線圖C、直方圖D、餅圖【正確答案】:D解析:

pyplot.pie)的作用是繪制餅圖。83.增加卷積核的大小對于改進卷積神經網絡的效果是必要的嗎()A、是的,增加卷積核尺寸一定能提高性能B、不是,增加核函數(shù)的大小不一定會提高性能C、-D、-【正確答案】:B解析:

增加核函數(shù)的大小不一定會提高性能。這個問題在很大程度上取決于數(shù)據(jù)集。84.在一些算法中,為了進行屬性之間的比較或運算,需要把不同屬性的不同變量取值范圍變換成同一范圍,以免使得結果發(fā)生扭曲,偏向取值范圍大的變量。這一過程稱為()。A、合并B、數(shù)據(jù)聚合C、歸一化D、數(shù)據(jù)處理【正確答案】:C解析:

歸一化是一種無量綱處理手段,使物理系統(tǒng)數(shù)值的絕對值變成某種相對值關系,是簡化計算、縮小量值的有效辦法。85.CART決策樹通常采用()剪枝方法。A、REP(錯誤率降低)B、CCP(代價復雜度)C、PEP(悲觀剪枝)D、預剪枝【正確答案】:B解析:

--86.檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于()的離群點檢測。A、統(tǒng)計方法B、鄰近度C、密度D、機器學習技術【正確答案】:A解析:

略。87.下列關于線性回歸分析中的殘差說法正確的是()。A、殘差均值總是為零B、殘差均值總是約等于零C、殘差均值總是大于零D、以上答案都不正確【正確答案】:A解析:

線性回歸分析中,目標是殘差最小化。殘差平方和是關于參數(shù)的函數(shù),為了求殘差極小值,令殘差關于參數(shù)的偏導數(shù)為零,會得到殘差和為零,即殘差均值為零。88.()操作屬于預剪枝。A、信息增益B、計算最好的特征切分點C、限制樹模型的深度D、可視化樹模型【正確答案】:C解析:

預剪枝是指在決策樹生成過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化性能提升,則停止劃分并將當前結點標記為葉結點。限制樹模型的深度屬于預剪枝。89.下列關于可視化方法體系說法不正確的是()。A、通常采用視覺圖形元素和視覺通道兩個維度進行視覺編碼B、常用的共性方法有統(tǒng)計圖表、圖論方法、視覺隱喻和圖形符號學等C、領域方法在所屬領域內其可視化的信度和效果往往低于基礎方法的直接應用D、視覺編碼為其他數(shù)據(jù)可視化方法提供了方法學基礎【正確答案】:C解析:

領域方法在所屬領域內其可視化的信度和效果高于基礎方法的直接應用。90.matplotlib中的legend函數(shù)作用是什么()。A、設置標簽文本B、繪制網格線C、標示不同圖形的文本標簽圖例D、設置x軸的數(shù)值顯示范圍【正確答案】:C解析:

legend用于添加圖例。91.你正在訓練一個RNN網絡,你發(fā)現(xiàn)你的權重與激活值都是NaN,下列選項中導致這個問題的最有可能的原因是()。A、梯度消失B、梯度爆炸C、ReLU函數(shù)作為激活函數(shù)g(.),在計算g(z)時,z的數(shù)值過大了D、Sigmoid函數(shù)作為激活函數(shù)g(.),在計算g(z)時,z的數(shù)值過大了【正確答案】:B解析:

訓練過程中出現(xiàn)梯度爆炸會伴隨一些細微的信號,如:①模型無法從訓練數(shù)據(jù)中獲得更新(如低損失);②模型不穩(wěn)定,導致更新過程中的損失出現(xiàn)顯著變化;③訓練過程中,模型損失變成NaN。92.下列關于文本分類的說法不正確的是()。A、文本分類是指按照預先定義的主題類別,由計算機自動地為文檔集合中的每個文檔確定一個類別B、文本分類大致可分為基于知識工程的分類系統(tǒng)和基于機器學習的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構建,該模型考慮了文本詞語的行文順序D、構建文本的向量形式可以歸結為文本的特征選擇與特征權重計算兩個步驟【正確答案】:C解析:

詞袋模型是指將所有詞語裝進一個袋子里,不考慮其詞法和語序的問題,即每個詞語都是獨立的,所以該模型沒有考慮文本詞語的行文順序,C錯誤,選C。93.下面算法屬于局部處理的是()。A、灰度線性變換B、二值化C、傅里葉變換D、中值濾波【正確答案】:D解析:

中值濾波是將每一像素點的灰度值設置為該點某鄰域窗口內的所有像素點灰度值的中值,在圖像處理中常用于保護邊緣信息,是一種局部處理方法。94.平滑圖像處理可以采用RGB彩色()模型。A、直方圖均衡化B、直方圖均衡化C、加權均值濾波D、中值濾波【正確答案】:C解析:

平滑圖像處理可以采用RGB彩色加權均值濾波模型。95.sklearn.decomposition.PCA)方法的作用是()。A、因子分析B、主成分分析C、稀疏編碼D、唯一編碼【正確答案】:B解析:

PCA)方法是一種常用的降維方法,在數(shù)據(jù)維度較高時使用。96.在k近鄰學習算法中,隨著k的增加,上界將逐漸降低,當k區(qū)域無窮大時,上界和下界碰到一起,k近鄰法就達到了()。A、貝葉斯錯誤率B、漸進錯誤率C、最優(yōu)值D、上界【正確答案】:A解析:

--97.在回歸模型中,()在權衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大。A、多項式階數(shù)B、更新權重w時,使用的是矩陣求逆C、使用常數(shù)項D、使用梯度下降法【正確答案】:A解析:

選擇合適的多項式階數(shù)非常重要。如果階數(shù)過大,模型就會更加復雜,容易發(fā)生過擬合;如果階數(shù)較小,模型就會過于簡單,容易發(fā)生欠擬合。98.下列關于BP網絡的說法,不正確的是()。A、標準BP算法每次僅針對一個訓練樣例更新連接權和閾值BP神經網絡經常遭遇過擬合C、早停策略可用來緩解BP網絡的過擬合問題D、晚停策略可用來緩解BP網絡的欠擬合問題【正確答案】:D解析:

早停和正則化是解決BP網絡過擬合的兩種方法,欠擬合的網絡需繼續(xù)訓練,并沒有晚停這一說法。99.如果x=5.5,則表達式x>0andx==int(x)的運算結果為;表達式x>0orx==int(x)的運算結果為()。A、TrueFalseB、FalseTrueC、TrueTrueD、FalseFalse【正確答案】:B解析:

5.5恒大于0,且5.5不等于int(5)。100.聚類是一種典型的無監(jiān)督學習任務,然而在現(xiàn)實聚類任務中我們往往能獲得一些額外的監(jiān)督信息,于是可通過()來利用監(jiān)督信息以獲得更好的聚類效果。A、監(jiān)督聚類B、半監(jiān)督聚類C、聚類D、直推聚類【正確答案】:B解析:

--1.關于Python組合數(shù)據(jù)類型,以下選項中描述正確的是()。A、Python的str、tuple和list類型都屬于序列類型B、Python組合數(shù)據(jù)類型能夠將多個同類型或不同類型的數(shù)據(jù)組織起來,通過單一的表示使數(shù)據(jù)操作更有序更容易C、組合數(shù)據(jù)類型可以分為3類:序列類型、集合類型和映射類型3類D、序列類型是二維元素向量,元素之間存在先后關系,通過序號訪問【正確答案】:ABC解析:

序列類型是一維元素向量。2.數(shù)據(jù)再利用的意義在于()A、挖掘數(shù)據(jù)的潛在價值B、提高社會效益,優(yōu)化社會管理C、實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值D、優(yōu)化存儲設備,降低設備成本E、利用數(shù)據(jù)的可拓展性拓展業(yè)務領域【正確答案】:ACE解析:

數(shù)據(jù)的再利用可以挖掘數(shù)據(jù)的潛在價值,實現(xiàn)數(shù)據(jù)組重組的創(chuàng)新價值,并且可以利用數(shù)據(jù)的可拓展性拓展業(yè)務領域3.聚類性能度量外部指標包括()。A、Jaccard系數(shù)B、FM指數(shù)C、Dunn指數(shù)D、Rand指數(shù)【正確答案】:ABD解析:

常用的聚類性能度量外部指標有Jaccard系數(shù),F(xiàn)M指數(shù),Rand指數(shù)。4.在數(shù)據(jù)科學中,計算模式發(fā)生了根本性的變化——從集中式計算、分布式計算、網格計算等傳統(tǒng)計算過渡至云計算,有一定的代表性的是Google云計算三大技術,這三大技術包括()。A、HadoopYRN資源管理器B、GFS分布式存儲系統(tǒng)C、MapRedue分布式處理技術D、BigTable分布式數(shù)據(jù)庫【正確答案】:BCD解析:

Goolge于2003~2008年間發(fā)表的3篇論文在云計算和大數(shù)據(jù)技術領域產生了深遠影響,被稱為Google三大技術或三大論文:①GFS論文——GhemawatS,Gobioff5.下列方法中,可以用于特征降維的方法包括()。A、主成分分析PCAB、線性判別分析LDAC、深度學習SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】:ABD解析:

--6.關于Dropout說法,正確的是()。A、Dropout背后的思想其實就是把DNN當作一個集成模型來訓練,之后取所有值的平均值,而不只是訓練單個DNNB、DNN網絡將Dropout率設置為p,也就是說,一個神經元被保留的概率是1-p。當一個神經元被丟棄時,無論輸入或者相關的參數(shù)是什么,它的輸出值就會被設置為0C、丟棄的神經元在訓練階段,對BP算法的前向和后向階段都沒有貢獻。由于這個原因,每一次訓練它都像是在訓練一個新的網絡Dropout方法通常和L2正則化或者其他參數(shù)約束技術(比如MaxNorm)一起使用,來防止神經網絡的過擬合【正確答案】:ABCD解析:

dropout是指在深度學習網絡的訓練過程中,對于神經網絡單元,按照一定的概率將其暫時從網絡中丟棄。注意是暫時,對于隨機梯度下降來說,由于是隨機丟棄,故而每一個mini-batch都在訓練不同的網絡。防止過擬合的方法:提前終止(當驗證集上的效果變差的時候);L1和L2正則化加權;softweightsharingdropout。dropout率的選擇:經過交叉驗證,隱含節(jié)點dropout率等于0.5的時候效果最好,原因是0.5的時候dropout隨機生成的網絡結構最多。dropout也可以被用作一種添加噪聲的方法,直接對input進行操作。輸入層設為更接近1的數(shù)。使得輸入變化不會太大(0.8)。7.已定義級(DefinedLevel)的主要特點包括()。A、組織機構已明確給出了關鍵過程的“標準定義”,并定期對其進行改進B、已提供了關鍵過程的測量與預測方法C、關鍵過程的執(zhí)行過程并不是簡單或死板地執(zhí)行組織機構給出的“標準定義”,而是根據(jù)具體業(yè)務進行了一定的“裁剪”工作D、數(shù)據(jù)的重要性已成為組織機構層次的共識,將數(shù)據(jù)當作成功實現(xiàn)組織機構使命的關鍵因素之一【正確答案】:ABCD解析:

DMM的已定義級(DefinedLevel):組織機構已經定義了自己的“標準關鍵過程”。其主要特點如下:①組織機構已明確給出了關鍵過程的“標準定義”,并定期對其進行改進;②已提供了關鍵過程的測量與預測方法;③關鍵過程的執(zhí)行過程并不是簡單或死板地執(zhí)行組織機構給出的“標準定義”,而是根據(jù)具體業(yè)務進行了一定的“裁剪”工作;④數(shù)據(jù)的重要性已成為組織機構層次的共識,將數(shù)據(jù)當作成功實現(xiàn)組織機構使命的關鍵因素之一。8.回歸分析有很多種類,常見的有()。A、線性回歸B、系數(shù)回歸C、邏輯回歸D、曲線回歸【正確答案】:ACD解析:

--9.對以下代碼說法正確的是()。A、該圖表是一個藍綠色的散點圖B、圖表中有紅色實線的網格線C、圖表中有圖例D、該圖畫的是sin曲線【正確答案】:CD解析:

該圖畫的是點虛線形式的折線圖,紅色點線網格,帶有圖例。10.參數(shù)估計可以分為()。A、點估計B、一致估計C、區(qū)間估計D、無偏估計【正確答案】:AC解析:

參數(shù)估計可以分為點估計、區(qū)間估計。11.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)計學的驗證性分析方法的區(qū)別有()。A、EDA需要事先提出假設,而驗證性分析不需要B、EDA中采用的方法往往比驗證性分析簡單C、在一般數(shù)據(jù)科學項目中,探索性分析在先,驗證性分析在后D、EDA更為簡單、易學和易用【正確答案】:BCD解析:

在一般數(shù)據(jù)科學項目中,探索性分析在先,驗證性分析在后,EDA中采用的方法往往比驗證性分析簡單。12.下面對范數(shù)規(guī)則化描述,正確的是()。A、L0是指向量中0的元素的個數(shù)B、L1范數(shù)是指向量中各個元素絕對值之和C、L2范數(shù)向量元素絕對值的平方和再開平方D、L0是指向量中非0的元素的個數(shù)【正確答案】:BCD解析:

L0是指向量中非0的元素的個數(shù),L1范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。13.HadoopMapReduce是MapReduce的具體實現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個獨立的實體,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】:ABCD解析:

可以將MapReduce的工作流程概括為4個獨立的實體。4個實體分別為:①客戶端,用來提交MapReduce的作業(yè)。編寫MapReduce程序,配置作業(yè),提交作業(yè),即需程序員完成的工作。②JobTracker,用來協(xié)調作業(yè)的運行。與TaskTracker通信,協(xié)調整個作業(yè)的執(zhí)行。③TaskTracker,用來處理作業(yè)劃分后的任務。保持與JobTracker的通信,在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務,TaskTracker和JobTracker的不同有個很重要方面,就是在執(zhí)行任務的時候TaskTracker可以有n個,JobTracker則只會有一個。④HDFS,用來在其他實體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等,最后的結果也是保存在HDFS上面。14.以下關于降維方法的敘述,正確的是()。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學習是一種借鑒拓撲流形概念的降維方法D、度量學習繞過降維的過程,將學習目標轉化為對距離度量計算的權重矩陣的學習【正確答案】:CD解析:

本質上講,主成分分析是一種線性降維方法,在處理非線性問題時,效果不太理想。核化線性降維是一種非線性降維方法。15.HighBias(高偏差)的解決方案有()。A、BoostingB、復雜模型(非線性模型、增加神經網絡中的層)C、更多特征D、-【正確答案】:ABC解析:

偏差刻畫了學習算法本身的擬合能力,高偏差意味著欠擬合,可通過Boosting、復雜模型(非線性模型、增加神經網絡中的層)、更多特征等方式解決。16.CNN相比于全連接的DNN,具有的優(yōu)勢是()。A、參數(shù)更少B、泛化更好C、訓練更快D、更容易搭建【正確答案】:ABC解析:

DNN直接對數(shù)據(jù)做加權線性連接,而CNN則是移動卷積核,并對圖像中的各區(qū)域做卷積操作。因此,DNN更容易搭建,D錯誤。17.線性模型的基本形式有()。A、線性回歸B、對數(shù)幾率回歸(二分類問題)C、線性判別分析(Fisher判別分析)D、多分類學習【正確答案】:ABCD解析:

--18.屬于特征選擇的優(yōu)點有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強模型的泛化能力【正確答案】:BCD解析:

特征選擇無法克服模型自身的缺陷,二者是獨立的。19.“噪聲”是指測量變量中的隨機錯誤或偏差,噪聲數(shù)據(jù)的主要表現(xiàn)有哪幾種形式()A、錯誤數(shù)據(jù)B、假數(shù)據(jù)C、異常數(shù)據(jù)D、僵尸數(shù)據(jù)【正確答案】:ABC解析:

錯誤數(shù)據(jù)、假數(shù)據(jù)、異常數(shù)據(jù)在測量變量中多被定義為噪聲。20.Numpy數(shù)組中將一個數(shù)組分割成多個小數(shù)組數(shù)組的分割函數(shù)包括()。A、hsplitBB、vsplitCC、splitDD、dsplit【正確答案】:ABCD解析:

以上都是分割函數(shù),分別為水平分割,、數(shù)值分割,、通用分割,、深度分割。21.Python邏輯表達式中,()會導致邏輯短路,即不會繼續(xù)向下推算而直接返回結果。A、False開頭的and語句B、False開頭的or語句C、True開頭的and語句D、True開頭的or語句【正確答案】:AD解析:

兩種情況:False開頭的and語句,True開頭的or語句。22.以下關于神經網絡模型描述正確的是()。A、神經網絡模型是許多邏輯單元按照不同層級組織起來的網絡,每一層的輸出變量都是下一層的輸入變量B、神經網絡模型建立在多神經元之上C、神經網絡模型中,無中間層的神經元模型的計算可用來表示邏輯運算D、神經網絡模型一定可以解決所有分類問題【正確答案】:ABC解析:

現(xiàn)在很多分類問題的準確率都很低尤其是醫(yī)學圖像方面,而且容易受環(huán)境,如光照影響。23.下列選項中基于核的機器學習算法有()。A、最大期望算法B、徑向基核函數(shù)C、線性判別分析法D、支持向量機【正確答案】:BCD解析:

--24.關于HDFS的文件寫入,正確的是()。A、不支持多用戶對同一文件的寫操作B、用戶不可以在文件任意位置進行修改C、默認將文件復制成三份存放D、復制的文件塊默認不存在同一機架上【正確答案】:ABCD解析:

根據(jù)HDFS定義,以上答案都為正確選項。25.MapReduce對map()函數(shù)的返回值處理后才傳給reduce()函數(shù),其中涉及哪些操作()。A、合并B、排序C、分區(qū)D、抽樣【正確答案】:ABC解析:

分別涉及Shuffle(排序)、Combiner(合并)和Partition(分區(qū))操作。26.集成學習中增強多樣性的常見做法有()。A、數(shù)據(jù)樣本擾動B、輸入屬性擾動C、輸出表示擾動D、算法參數(shù)擾動【正確答案】:ABCD解析:

集成學習中增強多樣性的常見做法主要是是對數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進行擾動。27.圖像分割中常使用的領域有()。A、0鄰域B、4鄰域C、8鄰域D、24鄰域【正確答案】:BC解析:

圖像分割中常見的鄰域為4鄰域與8鄰域,即某像素的上下左右、某像素周圍的一圈像素。28.下列哪些是RDBMS中事務遵循的原則()。A、原子性(Atomicity)B、一致性(Connsistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:

關系數(shù)據(jù)庫中的事務需要具備一定的規(guī)則——ACID特征。ACID是指數(shù)據(jù)庫事務正確執(zhí)行的4個基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。29.以下有關特征數(shù)據(jù)歸一化的說法,正確的是()。A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度B、特征數(shù)據(jù)歸一化有可能提高模型的精度C、線性歸一化適用于特征數(shù)值分化比較大的情況D、概率模型不需要做歸一化處理【正確答案】:ABD解析:

歸一化方法比較適用在數(shù)值比較集中的情況。這種方法的缺陷是如果max和min不穩(wěn)定,很容易使得歸一化結果不穩(wěn)定,使得后續(xù)使用效果也不穩(wěn)定。實際使用中可以用經驗常量值來替代max和min。非線性歸一化經常用在數(shù)據(jù)分化比較大的場景,有些數(shù)值很大,有些很小。30.數(shù)據(jù)故事化描述應遵循的基本原則是()。A、忠于原始數(shù)據(jù)原則B、設定共同場景原則C、有效性利用原則D、3C精神原則【正確答案】:ABCD解析:

數(shù)據(jù)的故事化描述應遵循的基本原則包括忠于原始數(shù)據(jù)原則、設定共同情景原則、體驗式講述原則、個性化定制原則、有效性利用原則、3C精神原則。31.模塊可以分為以下的通用類別包含()。A、使用python編寫的.py文件B、已被編譯為共享庫或DLL的C或C++擴展C、把一系列模塊組織到一起的文件夾D、使用C編寫并鏈接到python解釋器的內置模塊【正確答案】:ABCD解析:

python的模塊定義是一組包含了一組功能的python文件,比如test.py,模塊名為test,可以通過importtest進行調用。模塊可以分為以下四個通用類別:使用python編寫的.py文件;已被編譯為共享庫或DLL的C或C++擴展;把一系列模塊組織到一起的文件夾;使用C編寫并鏈接到python解釋器的內置模塊。32.下列方法中,屬于詞語情感分析的方法有()。A、基于網絡的分析方法B、基于word-embedding的分析方法C、基于詞典的分析方法D、基于詞頻的分析方法【正確答案】:AC解析:

其余兩種為分詞方法。33.RDD具有()特征。A、可容錯性B、簡潔性C、并行數(shù)據(jù)結構D、結構化【正確答案】:AC解析:

RDD是一個容錯的、并行的數(shù)據(jù)結構。34.下面導入模塊正確的是()。A、importnumpyB、importnumpyasnpC、frommatplotlibimportpyplotD、frommatplotlibimportpyplotasplt【正確答案】:ABCD解析:

本題考查模塊導入方法。35.當我們構造線性模型時,我們注意變量間的相關性。在相關矩陣中搜索相關系數(shù)時,如果我們發(fā)現(xiàn)3對變量的相關系數(shù)是(Var1和Var2,Var2和Var3,Var3和Var1),相關系數(shù)分別是-0.98、0.45、1.23。我們可以得出的結論是()。A、Var1和Var2是非常相關的B、因為Va1r和Var2是非常相關的,可以去除其中一個C、Var3和Var1的1.23相關系數(shù)是不可能的D、-【正確答案】:ABC解析:

Var1和Var2之間的相關性非常高,并且是負的,可視為多重共線性的情況,可以去掉一個。一般來說,如果相關大于0.7或小于-0.7,則認為特征之間有很高的相關性。相關系數(shù)范圍為[-1,1],C選項中1.23明顯有誤。36.MapReduce中運行程序副本程序的機器為()。A、Map服務器B、Master服務器C、Worker服務器D、Reduce服務器【正確答案】:BC解析:

MapReduce中,運行程序副本程序的機器分為Master服務器和若干個Worker服務器兩類。37.大數(shù)據(jù)的資產屬性體現(xiàn)在()。A、具有勞動增值B、涉及法律權屬C、具有財務價值D、涉及道德與倫理【正確答案】:ABCD解析:

大數(shù)據(jù)的資產屬性體現(xiàn)在具有勞動增值、涉及法律權屬、具有財務價值、涉及道德與倫理。38.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準則D、已知類別的樣本質量【正確答案】:ABC解析:

聚類算法是無監(jiān)督的學習算法,訓練樣本的標記信息是未知的。39.下列關于AUC面積的描述,正確的是()。AUC被定義為ROC曲線下與坐標軸圍成的面積B、AUC面積的值大于1C、AUC等于0.5時,則真實性最低,無應用價值D、AUC越接近1.0,檢測方法真實性越高【正確答案】:ACD解析:

AUC面積的值小于等于1。40.常見的核函數(shù)主要包括()。A、多項式核B、高斯核C、線性核D、拉普拉斯核E、徑向基核函數(shù)【正確答案】:ABCDE解析:

--41.以下關于數(shù)據(jù)維度的描述,正確的是()。A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】:ABC解析:

字典可以表示二維以上的高維數(shù)據(jù)。42.TF-IDF的缺點包含()。A、字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比B、將一些生僻字誤當作文檔關鍵詞C、只考慮特征詞和文本之間的關系,忽略了一個特征項在不同類別間的分布情況D、沒有考慮特征詞的位置因素對文本的區(qū)分度【正確答案】:BCD解析:

低頻詞匯的重要性和出現(xiàn)次數(shù)成正比。43.下列哪些是面向對象技術的特征包含()。A、封裝B、繼承C、多態(tài)D、分布性【正確答案】:ABC解析:

面向對象技術的特征有封裝、繼承、多態(tài)。44.以下屬于頻率域圖像濾波的方法有()。A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾波【正確答案】:CD解析:

頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。45.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正確答案】:ABCD解析:

Spark支持上述四種運行模式,在實驗中為了充分利用資源,一般配置Standalone模式運行。46.可視化高維展示技術在展示數(shù)據(jù)之間的關系以及數(shù)據(jù)分析結果方面()。A、能夠直觀反映成對數(shù)據(jù)之間的空間關系B、能夠直觀反映多維數(shù)據(jù)之間的空間關系C、能夠靜態(tài)演化事物的變化及變化的規(guī)律D、能夠動態(tài)演化事物的變化及變化的規(guī)律【正確答案】:BD解析:

可視化高維展示技術在展示數(shù)據(jù)之間的關系以及數(shù)據(jù)分析結果方面能夠直觀反映多維數(shù)據(jù)之間的空間關系,以及能夠動態(tài)演化事物的變化及變化的規(guī)律。47.機器學習的三個關鍵組成要素是()。A、任務TB、性能指標PC、目標函數(shù)VD、經驗來源E【正確答案】:ABD解析:

--48.以下()是一元通用函數(shù)。A、np.add)B、np.maximum)C、np.exp)D、np.sqrt)【正確答案】:CD解析:

--49.常見的聚類性能度量外部指標有()。A、Jaccard系數(shù)B、DB指數(shù)C、FM指數(shù)D、以上答案都正確【正確答案】:AC解析:

聚類常用的外部指標包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內部指標包括DB指數(shù)、Dunn指數(shù)。50.以下選項中,屬于MapReduce特征的有()。A、以主從結構的形式運行B、容錯機制的復雜性C、任務備份機制的必要性D、數(shù)據(jù)存儲位置固定【正確答案】:ABC解析:

數(shù)據(jù)存儲位置具有多樣性,并非固定,所以D錯。51.能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點的系數(shù)降至0附近的濾波器有()。A、同態(tài)濾波B、高斯濾波C、巴特沃斯濾波D、中值濾波【正確答案】:BC解析:

--52.下面關于隨機變量及其概率分布的說法,正確的是()。A、隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量B、隨機變量的概率分布指的是一個隨機變量所有取值的可能性C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率是最大的【正確答案】:ABC解析:

扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率不是最大的。53.以下選項中,不是Python語言保留字的是()。A、doB、passC、exceptD、until【正確答案】:AD解析:

詳見Python關鍵字列表。54.決策樹的劃分選擇有()。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】:BCD解析:

--55.以下圖像技術中屬于圖像處理技術的是()。A、圖像編碼B、圖像合成C、圖像增強D、圖像分類【正確答案】:AC解析:

圖像合成輸入是數(shù)據(jù),圖像分類輸出是類別數(shù)據(jù)。56.數(shù)據(jù)可視化是利用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉換成()或()在屏幕上顯示出來,并進行交互處理的理論、方法和技術。A、文字B、圖形C、圖像D、視頻【正確答案】:BC解析:

數(shù)據(jù)可視化是利用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉換成圖形或圖像在屏幕上顯示出來,再進行交互處理的理論、方法和技術。57.下列關于Ridge回歸的說法,正確的是()。A、若λ=0,則等價于一般的線性回歸B、若λ=0,則不等價于一般的線性回歸C、若λ=+∞,則得到的權重系數(shù)很小,接近于零D、若λ=+∞,則得到的權重系數(shù)很大,接近與無窮大【正確答案】:AC解析:

Ridge回歸中,若λ=0,則等價于一般的線性回歸;若λ=+∞,則得到的權重系數(shù)很小,接近于零。58.以下算法中可以應用于圖像分割的是()。A、邊緣檢測技術B、閾值分割技術C、基于區(qū)域的分割技術D、區(qū)域生長方法【正確答案】:ABCD解析:

邊緣檢測技術、閾值分割技術、基于區(qū)域的分割技術、區(qū)域生長方法均是圖像分割技術。59.以下方法是tf-idf的變種的有()。A、TFCB、EWCC、ITCD、IG【正確答案】:AC解析:

TFC:對文本長度進行歸一化處理后的TF-IDF。ITC:在TFC基礎上,用tf的對數(shù)值取代tf。60.以下屬于圖像分割的算法的是()。A、閾值分割方法(thresholdsegmentationmethod)B、區(qū)域增長細分(regionalgrowthsegmentation)C、邊緣檢測分割方法(edgedetectionsegmentationmethod)D、基于聚類的分割(segmentationbasedonclustering)E、基于能量的分割【正確答案】:ABCDE解析:

--61.下列模型屬于機器學習生成式模型的是()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網絡【正確答案】:ABD解析:

機器學習生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網絡等。線性回歸屬于判別式模型。62.以下說法正確的是()。A、負梯度方向是使函數(shù)值下降最快的方向B、當目標函數(shù)是凸函數(shù)時,梯度下降法的解是全局最優(yōu)解C、梯度下降法比牛頓法收斂速度快D、牛頓法不需要計算Hesse矩陣【正確答案】:ABD解析:

牛頓法是二階收斂,梯度下降是一階收斂,所以牛頓法就更快。63.下面關于隨機變量及其概率分布的說法,正確的是()。A、隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量B、隨機變量的概率分布指的是一個隨機變量所有取值的可能性C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率是最大的【正確答案】:ABC解析:

扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率不是最大的。64.下面選項是python標準庫的是()。A、osB、sysC、numpyD、re【正確答案】:ABD解析:

numpy屬于第三方庫。65.以下屬于關鍵詞提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潛在語義分析)D、LDA【正確答案】:ABCD解析:

關鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語義分析)orLSI(潛在語義索引)、LDA等。66.在Spark中,彈性分布式數(shù)據(jù)集的特點包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:

RDD不可修改。67.數(shù)據(jù)安全不僅包括數(shù)據(jù)保密性,還包括()。A、完整性B、可用性C、不可否認性D、可審計性【正確答案】:ABCD解析:

數(shù)據(jù)安全不等同于數(shù)據(jù)保密。通常,除了數(shù)據(jù)保密——數(shù)據(jù)的機密性(Confidentiality)之外,數(shù)據(jù)安全還包括完整性(Integrity)、可用性(Availability)、不可否認性(Non-repudiation)、鑒別(Authentication)、可審計性(Accountability)和可靠性(Reliability)等多個維度68.決策樹遞歸停止的條件為()。A、訓練數(shù)據(jù)集使用完B、所有的類標簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:

決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導致遞歸返回:①結點包含的樣本全屬于同一類別,無須劃分;②當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當前結點包含的樣本集合為空,不能劃分。69.下列關于RNN、LSTM、GRU說法正確的是()。A、RNN引入了循環(huán)的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的變體D、RNN、LSTM、GRU是同一神經網絡的不同說法,沒有區(qū)別【正確答案】:ABC解析:RNN:循環(huán)神經網絡,是非線性動態(tài)系統(tǒng),將序列映射到序列。LSTM通過刻意的設計來避免長期依賴問題,記住長期的信息在實踐中是LSTM的默認行為,而非需要付出很大代價才能獲得的能力。GRU:LSTM有很多變體,其中較大改動的是GatedRecurrentUnit(GRU),它將忘記門和輸入門合成了一個單一的更新門,同樣還混合了細胞狀態(tài)和隱藏狀態(tài),和其他一些改動。最終的模型比標準的LSTM模型要簡單。效果和LSTM差不多,但是參數(shù)少了1/3,不容易過擬合。70.數(shù)據(jù)科學基本原則中,三世界原則指的是()A、精神世界B、數(shù)據(jù)世界C、物理世界D、數(shù)字世界【正確答案】:ABC解析:

大數(shù)據(jù)時代的到來,在我們的“精神世界”和“物理世界”之間出現(xiàn)了一種新的世界——“數(shù)據(jù)世界”。因此,在數(shù)據(jù)科學中,通常需要研究如何運用“數(shù)據(jù)世界”中已存在的“痕跡數(shù)據(jù)”的方式解決“物理世界”中的具體問題,而不是直接到“物理世界”,采用問卷和訪談等方法親自收集“采訪數(shù)據(jù)”。相對于“采訪數(shù)據(jù)”,“痕跡數(shù)據(jù)”更具有客觀性。圖靈獎獲得者JimGray提出的科學研究第四范式——數(shù)據(jù)密集型科學發(fā)現(xiàn)(Data-intensiveScientificDiscovery)是“三世界原則”的代表性理論之一。71.Python函數(shù)包括下述哪些內容()。A、函數(shù)名稱B、參數(shù)C、執(zhí)行語句D、返回值【正確答案】:ABCD解析:

Python函數(shù)包括下述哪些內容函數(shù)名稱、參數(shù)、執(zhí)行語句、返回值。72.語音識別的方法包括()。A、聲道模型方法B、模板匹配的方法C、利用人工神經網絡的方法D、語音知識方法【正確答案】:ABCD解析:

一般來說,語音識別的方法有基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網絡的方法。73.從可視化處理視角看,可以將數(shù)據(jù)分為四個類型()四個類型并采用不同的視覺映射方法。A、定類數(shù)據(jù)B、定序數(shù)據(jù)C、定距離數(shù)據(jù)D、定比暑假【正確答案】:ABCD解析:

一般可以將數(shù)據(jù)類型的度量分為四種:定類,定序,定距,和定比四種,這四種類型是從低到高的遞進關系,高級的類型可以用低級類型的分析方法來分析,而反過來卻不行。74.在假設檢驗中,當原假設為“偽”,但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤叫()。A、α錯誤B、β錯誤C、取偽錯誤D、棄真錯誤【正確答案】:BC解析:

α錯誤(棄真錯誤):當原假設為真時,但我們錯誤地認為“原假設是不成立的”,進而導致拒絕這個正確假設;β錯誤(取偽錯誤):當原假設為假時,但我們錯誤地認為“原假設是成立的”,進而導致接受此錯誤假設75.隨機森林的隨機性主要體現(xiàn)在()。A、決策樹選擇的隨機性B、數(shù)據(jù)集的隨機性C、待選特征的隨機性D、參數(shù)選擇的隨機性【正確答案】:BC解析:

隨機森林算法的隨機性主要體現(xiàn)在兩個方面:子模型的訓練樣本是隨機抽取的、子模型的特征變量也是隨機抽取的。76.常用來緩解BP網絡的過擬合的兩種策略是()。A、晚停B、早停C、正則化D、加入損失函數(shù)【正確答案】:BC解析:

通常有兩種策略來緩解BP網絡的過擬合。第一種策略是早停(earlystopping),即將數(shù)據(jù)分成訓練集合驗證集,訓練集用來計算梯度、更新連接權和閾值,驗證集用來估計誤差,若訓練集誤差降低但驗證集誤差升高,則停止訓練,同時返回具有最小驗證集誤差的連接權和閾值。第二種策略是正則化(regularization),其基本思想是在誤差目標函數(shù)中增加一個用于描述網絡復雜度的部分,例如連接權和閾值的平方和。77.常用的沖突消解策略包括()。A、投票法B、排序法C、元規(guī)則法D、調研法【正確答案】:ABC解析:

--78.下列關于Spark中的RDD描述正確的有()。A、RDD(ResilientDistributedDataset)叫作彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式,可以并行在集群計算Dataset:就是一個集合,用于存放數(shù)據(jù)【正確答案】:ABCD解析:

A、B、C、D全部正確。79.圖像識別的一般步驟包括()。A、預處理B、特征提取C、超像素生成D、識別分類【正確答案】:ABD解析:

圖像識別中的一般步驟包括預處理、特征提取和識別分類。超像素生成并非必要步驟。80.在Windows系統(tǒng)中通過Geany編寫Python程序,運行Python程序的常用步驟是()。A、菜單Build>ExecuteB、菜單Execute>BuildC、按F5D、按F10【正確答案】:AC解析:

在Windows系統(tǒng)中通過Geany編寫Python程序,運行Python程序的常用步驟是菜單Build>Execute或按F5。81.“以數(shù)據(jù)為中心”是數(shù)據(jù)產品區(qū)別于其他類型產品的本質特征,表現(xiàn)在()方面。A、數(shù)據(jù)驅動B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化【正確答案】:ABC解析:

“以數(shù)據(jù)為中心”是數(shù)據(jù)產品區(qū)別于其他類型產品的本質特征。數(shù)據(jù)產品的“以數(shù)據(jù)中心”的特征不僅體現(xiàn)在“以數(shù)據(jù)為核心生產要素”,而且還主要表現(xiàn)在數(shù)據(jù)驅動、數(shù)據(jù)密集和數(shù)據(jù)范式。82.情感分析的應用場景有()。A、數(shù)據(jù)挖掘B、信息檢索C、文本分詞D、市場營銷【正確答案】:ABD解析:

情感分析常用于數(shù)據(jù)挖掘、信息檢索、市場營銷等,而文本分詞屬于文本處理的應用場景。83.()是Spark比MapReduce計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論