數(shù)據(jù)挖掘競(jìng)賽練習(xí)試題附答案

上傳人：喝*** IP屬地：浙江上傳時(shí)間：2024-12-27 格式：DOCX 頁(yè)數(shù)：61 大?。?4.80KB 積分：30 舉報(bào) 版權(quán)申訴

數(shù)據(jù)挖掘競(jìng)賽練習(xí)試題附答案_第2頁(yè)

數(shù)據(jù)挖掘競(jìng)賽練習(xí)試題附答案_第3頁(yè)

數(shù)據(jù)挖掘競(jìng)賽練習(xí)試題附答案_第4頁(yè)

數(shù)據(jù)挖掘競(jìng)賽練習(xí)試題附答案_第5頁(yè)

已閱讀5頁(yè)，還剩56頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁(yè)數(shù)據(jù)挖掘競(jìng)賽練習(xí)試題附答案1.已知一組數(shù)據(jù)的協(xié)方差矩陣,下面關(guān)于主分量說(shuō)法錯(cuò)誤的是（）。A、主分量分析的最佳準(zhǔn)則是對(duì)一組數(shù)據(jù)按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計(jì)算截尾誤差最小B、在經(jīng)主分量分解后,協(xié)方差矩陣成為對(duì)角矩陣C、主分量分析就是K-L變換D、主分量是通過(guò)求協(xié)方差矩陣的特征值得到【正確答案】：C解析：

K-L變換與PCA變換是不同的概念，PCA的變換矩陣是協(xié)方差矩陣，K-L變換的變換矩陣可以有很多種。如二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等。當(dāng)K-L變換矩陣為協(xié)方差矩陣時(shí)，等同于PCA。2.在Numpy中，下列哪個(gè)（）模塊可以計(jì)算逆矩陣、求特征值、解線性方程組以及求解行列式（）。A、randomB、linalgC、NdarrayD、unicode【正確答案】：B解析：

random函數(shù)為隨機(jī)模塊，linalg模塊為線性計(jì)算庫(kù)，Ndarray為array數(shù)組簡(jiǎn)稱，無(wú)unicode模塊。3.某籃運(yùn)動(dòng)員在三分線投球的命中率是2（1），他投球10次，恰好投進(jìn)3個(gè)球的概率為（）。A、128（15）B、16（3）C、8（5）D、16（7）【正確答案】：A解析：

投籃只有兩種結(jié)果：進(jìn)或者不進(jìn)，符合二項(xiàng)分布，二項(xiàng)分布概率的概率可以用公式求得，其中n=10代表試驗(yàn)次數(shù),k=3代表事件連續(xù)發(fā)生的次數(shù),p=1/2代表事件發(fā)生的概率。4.對(duì)模型進(jìn)行超參數(shù)優(yōu)化，詳盡搜索指定參數(shù)的估計(jì)值使用以下哪種（）方法（）。A、ParameterGrid）B、ParameterSampler）C、GridSearchCV）D、RandomizedSearchCV）【正確答案】：C解析：

ParameterGrid網(wǎng)格搜索，ParameterSampler參數(shù)生成器，GridSearchCV詳盡搜索指定參數(shù)的估計(jì)值，RandomizedSearchCV隨機(jī)搜索超參數(shù)。5.（）不僅可用于多層前饋神經(jīng)網(wǎng)絡(luò)，還可用于其他類型的神經(jīng)網(wǎng)絡(luò)。A、感知機(jī)B、神經(jīng)元C、神經(jīng)系統(tǒng)D、誤差逆?zhèn)鞑ァ菊_答案】：D解析：

誤差逆?zhèn)鞑ィ╡rrorBackPropagation，BP）算法不僅可用于多層前饋神經(jīng)網(wǎng)絡(luò)，還可用于其他類型的神經(jīng)網(wǎng)絡(luò)，如訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)[Pineda，1987]。6.Numpy.linspace（0,3,3）的結(jié)果為（）。A、[0，1，2]B、[1，2，3]C、[0，1.5，3]D、[0，3，6]【正確答案】：C解析：

np.linspace）指定開(kāi)始值、結(jié)束值和值的個(gè)數(shù)，默認(rèn)包含結(jié)束值，注意與arange的區(qū)別。7.在Apriori算法中，候選項(xiàng)集劃分為不同的桶，存放在（）中。A、字典B、集合C、Hash樹(shù)D、列表【正確答案】：C解析：

--8.a=1,b=2,c=3,以下表達(dá)式值為True的是（）。A、a>=bor（c+5）%3==1B、not（a==1andb!=c）C、notaandb==cD、aanda+b>=c【正確答案】：D解析：

注意優(yōu)先級(jí)。9.視覺(jué)通道表現(xiàn)力評(píng)價(jià)指標(biāo)不包括（）。A、精確性B、可辨認(rèn)性C、可分離性D、可轉(zhuǎn)換性【正確答案】：D解析：

--10.（）是指為最小化總體風(fēng)險(xiǎn)，只需在每個(gè)樣本上選擇能使特定條件風(fēng)險(xiǎn)最小的類別標(biāo)記。A、支持向量機(jī)B、間隔最大化C、線性分類器D、貝葉斯判定準(zhǔn)則【正確答案】：D解析：

--11.下列說(shuō)法錯(cuò)誤的是（）。A、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí)，梯度下降算法的解一般就是全局最優(yōu)解B、進(jìn)行PCA降維時(shí)，需要計(jì)算協(xié)方差矩C、沿負(fù)梯度的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問(wèn)題【正確答案】：C解析：

沿負(fù)梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。12.下列選項(xiàng)中，用于觸發(fā)異常的是（）。A、tryB、catchC、raiseD、except【正確答案】：C解析：

--13.以下選項(xiàng)中，不是Python對(duì)文件的打開(kāi)模式的是（）。A、'w'B、'+'C、'c'D、'r'【正確答案】：C解析：

'r'讀模式、'w'寫(xiě)模式、'a'追加模式、'b'二進(jìn)制模式、'+'讀/寫(xiě)模式。14.（）是以樣本統(tǒng)計(jì)量作為未知總體參數(shù)的估計(jì)量，并通過(guò)對(duì)樣本單位的實(shí)際觀察取得樣本數(shù)據(jù)，計(jì)算樣本統(tǒng)計(jì)量的取值作為被估計(jì)參數(shù)的估計(jì)值。A、參數(shù)估計(jì)B、邏輯分析C、方差分析D、回歸分析【正確答案】：A解析：

參數(shù)估計(jì)是統(tǒng)計(jì)推斷的一種。根據(jù)從總體中抽取的隨機(jī)樣本來(lái)估計(jì)總體分布中未知參數(shù)的過(guò)程。15.以下算法中，sklearn中未提及的是（）。A、K-Meansmeans聚類算法B、LogisticRegressionC、KNN最近鄰分類算法D、Apriori關(guān)聯(lián)規(guī)則算法【正確答案】：D解析：

關(guān)聯(lián)規(guī)則在sklearn庫(kù)中未涉及。16.以下可以作為文本分類準(zhǔn)則的是（）。A、預(yù)測(cè)準(zhǔn)確率B、魯棒性C、可擴(kuò)展性D、以上答案都正確【正確答案】：D解析：

文本分類準(zhǔn)則包含預(yù)測(cè)準(zhǔn)確性，魯棒性和可擴(kuò)展性。17.設(shè)置圖的標(biāo)題的命令是（）。A、plt.text（'標(biāo)題'）B、plt.legend（'標(biāo)題'）C、plt.xticks（'標(biāo)題'）D、plt.title（'標(biāo)題'）【正確答案】：D解析：

A選項(xiàng)是添加文字說(shuō)明命令,B選項(xiàng)是添加標(biāo)識(shí)命令，C選項(xiàng)是添加X(jué)軸坐標(biāo)軸標(biāo)識(shí)命令。18.以下關(guān)于代碼規(guī)范描述，哪些是錯(cuò)誤的是（）。A、類總是使用駝峰格式命名，即所有單詞首字母大寫(xiě)其余字母小寫(xiě)。B、除特殊模塊__init__之外，模塊名稱都使用不帶下劃線的小寫(xiě)字母。C、不要濫用*args和**kwargsD、建議把所有方法都放在一個(gè)類中【正確答案】：D解析：

以上關(guān)于代碼規(guī)范描述，把所有方法都放在一個(gè)類中是錯(cuò)誤的。19.大數(shù)據(jù)環(huán)境下的隱私擔(dān)憂,主要表現(xiàn)為（）A、人信息的被識(shí)別與暴露B、用戶畫(huà)像的生成C、廣告的推送D、病毒入侵【正確答案】：A解析：

大數(shù)據(jù)環(huán)境下的隱私擔(dān)憂,主要表現(xiàn)為人信息的被識(shí)別與暴露。20.以下關(guān)于模塊的描述不正確的是（）。A、模塊是包含函數(shù)和變量的Python文件B、模塊可以被導(dǎo)入C、可以使用“.”操作符訪問(wèn)模塊中的函數(shù)和變量D、模塊使得代碼更復(fù)雜，可讀性變差【正確答案】：D解析：

模塊化編程使得Python程序可讀性變高。21.當(dāng)我們需要在一張圖表中加上文字標(biāo)注，達(dá)到提醒讀者的目的時(shí)，需要用到（）函數(shù)。A、plt.axvspan）B、plt.axhspan）C、plt.annotate）D、plt.text）【正確答案】：D解析：

文字標(biāo)注是text函數(shù)。22.新興數(shù)據(jù)管理技術(shù)主要包括NoSQL技術(shù)、NewSQL技術(shù)和（）。A、數(shù)據(jù)倉(cāng)庫(kù)B、關(guān)系云C、數(shù)據(jù)庫(kù)系統(tǒng)D、文件系統(tǒng)【正確答案】：B解析：

關(guān)系云是在云計(jì)算環(huán)境中部署和虛擬化的關(guān)系數(shù)據(jù)庫(kù)，進(jìn)而使傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)具備云計(jì)算的彈性計(jì)算、虛擬化、按需服務(wù)和高經(jīng)濟(jì)性等特征。關(guān)系云代表了數(shù)據(jù)管理的一個(gè)重要發(fā)展方向。23.關(guān)于L1、L2正則化，下列說(shuō)法正確的是（）。A、L2正則化能防止過(guò)擬合，提升模型的泛化能力，但L1做不到這點(diǎn)B、L2正則化技術(shù)又稱為L(zhǎng)assoRegularizationC、L1正則化得到的解更加稀疏D、L2正則化得到的解更加稀疏【正確答案】：C解析：

L1正則化可以產(chǎn)生稀疏權(quán)值矩陣，即產(chǎn)生一個(gè)稀疏模型，可以用于特征選擇；L2正則化可以防止模型過(guò)擬合，一定程度上L1也可以防止過(guò)擬合，L1正則化又稱LassoRegression。24.GatedRecurrentunits的出現(xiàn)可以幫助防止在RNN中的梯度消失問(wèn)題。（）A、可以這么理解B、不可以這么理解C、-D、-【正確答案】：A解析：

--25.下列數(shù)據(jù)類型中，Numpy不支持以下哪種數(shù)據(jù)類型的是（）。A、float32B、uint64C、boolD、byte【正確答案】：D解析：

Numpy支持的數(shù)據(jù)類型包括bool、int（8,16,32,64）、unit（16,32,64）、float（16,32,64）、complex（64,128）等類型，不支持byte、short等類型。26.假設(shè)已從標(biāo)準(zhǔn)庫(kù)functools導(dǎo)入reduce）函數(shù)，那么表達(dá)式reduce（lambdax,y:x+y,[1,2,3]）的值為（）。A、NoneB、6C、3D、9【正確答案】：B解析：

reduce是聚合函數(shù)，該操作完成數(shù)組求和功能。27.（）不屬于聚類性能度量外部指標(biāo)。A、Jaccard系數(shù)B、FM系數(shù)C、Rand指數(shù)DB指數(shù)【正確答案】：D解析：

聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)；聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。28.scipy中，線性模塊是以下哪個(gè)（）模塊（）。A、fftpackB、signalC、linalgD、ndimage【正確答案】：C解析：

fftpack米快是傅里葉變換模塊，signal是信號(hào)處理模塊，linalg是線性代數(shù)模塊，ndimage是多維圖像處理模塊，29.下面哪個(gè)功能不是大數(shù)據(jù)平臺(tái)安全管理組件提供的功能（）。A、接口代理B、接口認(rèn)證C、接口授權(quán)D、路由代理【正確答案】：D解析：

接口可以對(duì)用戶的身份和請(qǐng)求的參數(shù)進(jìn)行驗(yàn)證，以保證接口的安全。通過(guò)添加身份驗(yàn)證和數(shù)字簽名的方法提高接口安全性，防止數(shù)據(jù)被篡改和信息泄露。30.以下選項(xiàng)中，執(zhí)行后可以查看Python的版本的是（）。A、importsystemB、C、Print（sys.version）D、importsystem【正確答案】：B解析：

查看Python版本可以通過(guò)調(diào)用操作系統(tǒng)模塊sys,語(yǔ)句print（sys.version）實(shí)現(xiàn)。31.下列對(duì)于Sigmoid函數(shù)的說(shuō)法，錯(cuò)誤的是（）。A、存在梯度爆炸的問(wèn)題B、不是關(guān)于原點(diǎn)對(duì)稱C、計(jì)算exp比較耗時(shí)D、存在梯度消失的問(wèn)題【正確答案】：A解析：

對(duì)于Sigmoid函數(shù)，S型函數(shù)圖像向兩邊的斜率逼近0，因此隨著網(wǎng)絡(luò)層增加，梯度消失比梯度爆炸更容易發(fā)生的多。32.深度學(xué)習(xí)是當(dāng)前很熱門的機(jī)器學(xué)習(xí)算法，深度學(xué)習(xí)涉及大量的矩陣相乘，現(xiàn)在需要計(jì)算三個(gè)稠密矩陣A、B、C的乘積ABC,假設(shè)三個(gè)矩陣的尺寸分別為m×n，n×p，p×q，且m＜nA、（AB）CB、AC（B）C、A（BC）D、所有效率都相同【正確答案】：A解析：

B選項(xiàng)中A的列數(shù)與C的行數(shù)不相等，無(wú)法相乘，B選項(xiàng)排除。A選項(xiàng)需要的乘法次數(shù)為m×n×p+m×p×q,C選項(xiàng)需要的乘法次數(shù)為n×p×q+m×n×q,由于m＜n33.隨機(jī)森林等樹(shù)狀算法通過(guò)哪個(gè)（）模塊進(jìn)行調(diào)用（）。A、dummyB、ensembleC、treeD、experimental【正確答案】：B解析：

sklearn.ensemble模塊包含了很多集成學(xué)習(xí)的算法，包括隨機(jī)森林、Adaboost、GBDT等。34.一切皆可連,任何數(shù)據(jù)之間邏輯上都有可能存在聯(lián)系,這體現(xiàn)了大數(shù)據(jù)思維維度中的（）。A、定量思維B、相關(guān)思維C、因果思維D、檢驗(yàn)思維【正確答案】：B解析：

《我們的大數(shù)據(jù)時(shí)代》一切皆可連,任何數(shù)據(jù)之間邏輯上都有可能存在聯(lián)系,這體現(xiàn)了大數(shù)據(jù)思維維度中的相關(guān)思維。35.關(guān)于缺失值填補(bǔ)，不正確的說(shuō)法是（）。A、填補(bǔ)數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等B、Pandas.dropna可以用來(lái)填補(bǔ)缺失值C、用平均值填補(bǔ)會(huì)引入相關(guān)性D、啞變量填補(bǔ)是將缺失值當(dāng)做一類新特征處理【正確答案】：B解析：

Pandas.dropna可以用來(lái)刪除缺失值。36.Python中用（）快捷鍵表示運(yùn)行當(dāng)前程序。A、Ctrl+F10B、Ctrl+Alt+F10C、Shift+F10D、Ctrl+Shift+F10【正確答案】：D解析：

Python中用（）快捷鍵表示運(yùn)行當(dāng)前程序的快捷鍵是Ctrl+Shift+F10。37.統(tǒng)計(jì)描述的種類主要包括均值、百分位數(shù)、中位數(shù)、眾數(shù)、全距和方差等，（）是指如果將一組數(shù)據(jù)從小到大排序，并計(jì)算相應(yīng)的累計(jì)百分位，則某一百分位所對(duì)應(yīng)數(shù)據(jù)的值。A、均值B、百分位數(shù)C、中位數(shù)D、眾數(shù)【正確答案】：B解析：

百分位數(shù)是指如果將一組數(shù)據(jù)從小到大排序，并計(jì)算相應(yīng)的累計(jì)百分位，則某一百分位所對(duì)應(yīng)數(shù)據(jù)的值。38.以下哪個(gè)模塊（）不是Scipy庫(kù)中的（）模塊。A、clusterB、randomC、signalD、misc【正確答案】：B解析：

cluster、signal、misc都是Scipy庫(kù)中的模塊，random是Numpy中的模塊，Python本身也帶有random庫(kù)。39.如果需要訓(xùn)練的特征維度成千上萬(wàn)，在高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏、距離計(jì)算困難。我們通過(guò)（）可以緩解這個(gè)問(wèn)題。A、K均值算法B、支持向量機(jī)C、降維D、以上答案都不正確【正確答案】：C解析：

--40.matplotlib中的barh函數(shù)可以繪制（）圖。A、直方圖B、餅圖C、條形圖D、氣泡圖【正確答案】：C解析：

barh用于繪制條形圖，相當(dāng)于橫向的柱狀圖。41.如果要清空文件，需要使用的命令是（）。A、close）B、seek（0）C、truncate（0）Dwrite（'stuff'）【正確答案】：C解析：

truncate（size）方法將截?cái)辔募?，大小為size，size為0即清空42.以下代碼的輸出結(jié)果為（）。A、[[0123][4567][891011]]B、[0123467891011]C、[[023][467][81011]]D、[246810]【正確答案】：B解析：

delete）默認(rèn)展平后刪除。43.下列描述中不屬于情感分析的具體任務(wù)是（）。A、情感分類B、觀點(diǎn)抽取C、觀點(diǎn)問(wèn)答D、段落匹配【正確答案】：D解析：

情感分析又稱意見(jiàn)挖掘、傾向性分析等，是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程，包括情感分類、觀點(diǎn)抽取、觀點(diǎn)問(wèn)答等，沒(méi)有段落匹配。44.下列判斷錯(cuò)誤的是（）。A、XML數(shù)據(jù)屬于半結(jié)構(gòu)化數(shù)據(jù)B、JSON文件屬于非結(jié)構(gòu)化數(shù)據(jù)C、PPT文件屬于非結(jié)構(gòu)化數(shù)據(jù)D、音視頻文件屬于非結(jié)構(gòu)化數(shù)據(jù)【正確答案】：B解析：

JSON文件屬于半結(jié)構(gòu)化數(shù)據(jù)。45.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換，正確的是（）。A、Json內(nèi)的取值只能有統(tǒng)一格式B、PDF文件在不同平臺(tái)上打開(kāi)顯示不同C、可以通過(guò)Python將CSV文件轉(zhuǎn)換成Excel格式D、Excel存儲(chǔ)數(shù)據(jù)的量無(wú)限制【正確答案】：C解析：

Json內(nèi)的取值可以有多種格式,PDF文件在不同平臺(tái)上打開(kāi)顯示相同，Excel存儲(chǔ)數(shù)據(jù)的量在Excel2007及以后版本，一個(gè)工作表最多可有1048576行、16384列。46.HBase依靠（）提供消息通信機(jī)制。A、ZooKeeperB、ChubbyC、RPCD、Socket【正確答案】：A解析：

ZooKeeper是一個(gè)高可用、高性能的分布式協(xié)調(diào)服務(wù)，為HBase提供消息通信機(jī)制。47.以下代碼的輸出結(jié)果為（）。A、[022345]B、[543220]C、[[230][542]]D、[[235][024]]【正確答案】：A解析：

默認(rèn)按最后一個(gè)軸進(jìn)行排序，軸參數(shù)設(shè)置為None時(shí)先展平再進(jìn)行排序。48.對(duì)模型進(jìn)行交叉驗(yàn)證可以使用以下哪種（）方法（）。A、learning_curve）B、cross_val_score）C、permutation_test_scoreD、validation）【正確答案】：B解析：

通過(guò)model_sleection.cross_val_score）可以進(jìn)行交叉驗(yàn)證以簡(jiǎn)便地評(píng)估模型。49.以下for語(yǔ)句結(jié)構(gòu)中，total初始值為0，不能完成1~～10的累加功能的是（）。A、foriinrange（10,0）:total+=iB、foriinrange（1,11）:total+=iC、forIinrange（10,0,-1）:total+=iD、forIin（10,9,8,7,6,5,4,3,2,1）:total+=i【正確答案】：A解析：

A中range初始值大于結(jié)束值，且未設(shè)置步進(jìn)（默認(rèn)+1），故無(wú)可迭代數(shù)，進(jìn)不了循環(huán)。50.關(guān)于Python程序中與“縮進(jìn)”有關(guān)的說(shuō)法中，以下選項(xiàng)中正確的是（）。A、縮進(jìn)統(tǒng)一為4個(gè)空格B、縮進(jìn)是非強(qiáng)制性的，僅為了提高代碼可讀性C、縮進(jìn)在程序中長(zhǎng)度統(tǒng)一且強(qiáng)制使用D、縮進(jìn)可以用在任何語(yǔ)句之后，表示語(yǔ)句間的包含關(guān)系【正確答案】：C解析：

本題考查縮進(jìn)。51.數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和（），將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來(lái)，并進(jìn)行交互處理的理論、方法和技術(shù)。A、視覺(jué)處理技術(shù)B、視頻處理技術(shù)C、圖像處理技術(shù)D、圖片處理技術(shù)【正確答案】：C解析：

數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)，將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來(lái)，并進(jìn)行交互處理的理論、方法和技術(shù)。它涉及涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)輔助設(shè)計(jì)等多個(gè)領(lǐng)域，成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問(wèn)題的綜合技術(shù)。52.在Python文件操作中，使用關(guān)鍵字（）可以在文件訪問(wèn)后自動(dòng)將其關(guān)閉。A、assertB、breakC、nonlocalD、with【正確答案】：D解析：

在Python文件操作中，使用關(guān)鍵字with可以在文件訪問(wèn)后自動(dòng)將其關(guān)閉。53.以下代碼的輸出結(jié)果為（）。A、[[1074][321]]B、3.5C、[6.54.52.5]D、[7.2.]【正確答案】：B解析：

percentile是百分位數(shù)，此處是50%，即中位數(shù)，因?yàn)閿?shù)組個(gè)數(shù)為偶數(shù)個(gè)，因此中位數(shù)為3和4的均值。54.關(guān)于Python注釋，以下選項(xiàng)中描述錯(cuò)誤的是（）。A、Python注釋語(yǔ)句不被解釋器過(guò)濾掉，也不被執(zhí)行B、注釋可以輔助程序調(diào)試C、注釋可用于標(biāo)明作者和版權(quán)信息D、注釋用于解釋代碼原理或者用途【正確答案】：A解析：

Python注釋語(yǔ)句會(huì)被解釋器過(guò)濾掉，不被執(zhí)行。55.文檔是待處理的數(shù)據(jù)對(duì)象，它由一組詞組成，這些詞在文檔中不計(jì)順序，如一篇論文、一個(gè)網(wǎng)頁(yè)都可以看作一個(gè)文檔。這樣的表示方式稱為（）。A、語(yǔ)句B、詞袋C、詞海D、詞塘【正確答案】：B解析：

詞袋模型下，像是句子或是文件這樣的文字可以用一個(gè)袋子裝著這些詞的方式表現(xiàn)，這種表現(xiàn)方式不考慮文法以及詞的順序。56.“數(shù)據(jù)的故事化描述”是指為了提升數(shù)據(jù)的（），將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過(guò)程。A、可理解性、可記憶性、可體驗(yàn)性B、可接受性、可記憶性、可體驗(yàn)性C、可接受性、可記憶性、可呈現(xiàn)性D、可理解性、可記憶性、可呈線性【正確答案】：A解析：

“數(shù)據(jù)的故事化描述（Storytelling）”是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗(yàn)性，將“數(shù)據(jù)”還原成關(guān)聯(lián)至特定的“情景”的過(guò)程。57.大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)不包含的是（）A、數(shù)據(jù)整合B、數(shù)據(jù)存儲(chǔ)C、數(shù)據(jù)計(jì)算D、數(shù)據(jù)溯源【正確答案】：D解析：

利用大數(shù)據(jù)平臺(tái)可以實(shí)現(xiàn)數(shù)據(jù)整合、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算等技術(shù)，無(wú)法實(shí)現(xiàn)數(shù)據(jù)溯源。58.（）的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息，從而既不需要進(jìn)行完全聯(lián)合概率計(jì)算，又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。A、貝葉斯判定準(zhǔn)則B、貝葉斯決策論C、樸素貝葉斯分類器D、半樸素貝葉斯分類器【正確答案】：D解析：

--59.基于詞的N元文法模型，其最后的粗分結(jié)果集合大?。ǎ㎞。A、大于B、大于等于C、小于D、小于等于【正確答案】：B解析：

基于N-最短路徑分詞算法，其基本思想是根據(jù)詞典，找出字串中所有可能的詞，構(gòu)造詞語(yǔ)切分有向無(wú)環(huán)圖。每個(gè)詞對(duì)應(yīng)圖中的一條有向邊，并賦給相應(yīng)的邊長(zhǎng)（權(quán)值）。然后針對(duì)該切分圖，在起點(diǎn)到終點(diǎn)的所有路徑中，求出長(zhǎng)度并按嚴(yán)格升序排列（任何兩個(gè)不同位置上的值一定不等，下同）依次為第1，第2，…，第i，…，第N的路徑集合作為相應(yīng)的粗分結(jié)果集。如果兩條或兩條以上路徑長(zhǎng)度相等，那么他們的長(zhǎng)度并列第i，都要列入粗分結(jié)果集，而且不影響其他路徑的排列序號(hào)，最后的粗分結(jié)果集合大小大于等于N。60.有數(shù)組n=np.arange（24）.reshape（2,-1,2,2），np.shape的返回結(jié)果是（）。A、（2,3,2,2）B、（2,2,2,2）C、（2,4,2,2）D、（2,6,2,2）【正確答案】：A解析：

reshape里-1的作用是可以先不計(jì)算，由數(shù)組size和其他的reshape參數(shù)確定這個(gè)數(shù)值，此處用24除以其他不是-1的值得到3。61.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是以下哪個(gè)步驟的任務(wù)（）。A、頻繁模式挖掘B、分類和預(yù)測(cè)C、數(shù)據(jù)預(yù)處理D、數(shù)據(jù)流挖掘【正確答案】：C解析：

數(shù)據(jù)預(yù)處理是對(duì)原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約的過(guò)程。頻繁模式挖掘、分類和預(yù)測(cè)和數(shù)據(jù)流挖掘均屬于數(shù)據(jù)挖掘范疇。62.關(guān)于boosting下列說(shuō)法錯(cuò)誤的是（）。A、boosting方法的主要思想是迭代式學(xué)習(xí)B、訓(xùn)練基分類器時(shí)采用并行的方式C、測(cè)試時(shí)，根據(jù)各層分類器的結(jié)果的加權(quán)得到最終結(jié)果D、基分類器層層疊加，每一層在訓(xùn)練時(shí)，對(duì)前一層基分類器分錯(cuò)的樣本給予更高的權(quán)值【正確答案】：B解析：

Boosing訓(xùn)練基分類器時(shí)只能采用順序的方式，Bagging訓(xùn)練基分類器時(shí)采用并行的方式。63.Numpy中對(duì)數(shù)組進(jìn)行轉(zhuǎn)置的函數(shù)是哪個(gè)（）。A、transpose）B、rollaxis）C、swapaxes）D、tan）【正確答案】：A解析：

transpose）對(duì)矩陣進(jìn)行矩陣轉(zhuǎn)置，rollaxis）向后滾動(dòng)指定的軸，swapaxes）對(duì)換數(shù)組的兩個(gè)軸，tan）求三角函數(shù)，64.TF-IDF中的TF是指（）。A、某個(gè)詞在文檔中出現(xiàn)的次數(shù)B、文章的總次數(shù)C、某個(gè)詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)D、以上答案都不正確【正確答案】：C解析：

TF是詞頻（TermFrequency），表示某個(gè)詞出現(xiàn)的頻率，也就是某個(gè)詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)。65.在matplotlib中，imread方法的讀取到圖像后是以（）類型進(jìn)行存儲(chǔ)。A、列表B、數(shù)組C、字符串D、圖片【正確答案】：B解析：

imread函數(shù)的作用的是從文件中讀取圖像到數(shù)組。66.HBase依靠（）提供強(qiáng)大的計(jì)算能力。A、ZooKeeperB、ChubbyC、RPCD、MapReduce【正確答案】：D解析：

Chubby是分布式協(xié)調(diào)系統(tǒng)，類似于ZooKeeper。RPC（RemoteProcedureCall）是遠(yuǎn)程過(guò)程調(diào)用，它是一種通過(guò)網(wǎng)絡(luò)從遠(yuǎn)程計(jì)算機(jī)程序上請(qǐng)求服務(wù)，而不需要了解底層網(wǎng)絡(luò)技術(shù)的協(xié)議。HBase依靠MapReduce提供強(qiáng)大的計(jì)算能力。67.機(jī)器學(xué)習(xí)中做特征選擇時(shí)，可能用到的方法有（）。A、卡方B、信息增益C、平均互信息D、期望交叉熵E、以上都有【正確答案】：E解析：

--68.sklearn中對(duì)模型進(jìn)行選擇主要是依靠（）模塊。A、decompositionB、model_selectionC、linear_modelD、mixture【正確答案】：B解析：

sklearn.model_selection主要提供一些功能幫助進(jìn)行模型選擇和調(diào)優(yōu)，包括訓(xùn)練測(cè)試集劃分、交叉驗(yàn)證、學(xué)習(xí)曲線、網(wǎng)格搜索等。69.以下分割方法中不屬于區(qū)域算法的是（）。A、分裂合并B、閾值分割C、區(qū)域生長(zhǎng)D、邊緣檢測(cè)【正確答案】：D解析：

邊緣檢測(cè)算法是標(biāo)識(shí)數(shù)字圖像中亮度變化明顯的點(diǎn)，不屬于區(qū)域算法發(fā)范疇。70.（）是數(shù)據(jù)庫(kù)管理系統(tǒng)運(yùn)行的基本工作單位。A、事務(wù)B、數(shù)據(jù)倉(cāng)庫(kù)C、數(shù)據(jù)單元D、數(shù)據(jù)分析【正確答案】：A解析：

在關(guān)系數(shù)據(jù)庫(kù)中，事務(wù)（Transaction）是保證數(shù)據(jù)一致性的重要手段，可以幫助用戶維護(hù)數(shù)據(jù)的一致性。事務(wù)是用戶定義的一個(gè)數(shù)據(jù)庫(kù)操作序列，這些操作要么全做，要么全不做，是一個(gè)不可分割的工作單位。71.關(guān)于Python內(nèi)存管理，下列說(shuō)法錯(cuò)誤的是哪項(xiàng)（）。A、變量不必事先聲明B、變量無(wú)須先創(chuàng)建和賦值而直接使用C、變量無(wú)須指定類型D、可以使用del釋放資源【正確答案】：B解析：

Python變量需要事先聲明并賦值才能使用。72.在Spark中，（）是指RDD的每個(gè)分區(qū)都只被子RDD的一個(gè)分區(qū)所依賴。A、子分區(qū)B、父分區(qū)C、寬依賴D、窄依賴【正確答案】：D解析：

窄依賴定義。73.scipy中，線性模塊是以下哪個(gè)（）模塊（）。A、fftpackB、signalC、linalgD、ndimage【正確答案】：C解析：

fftpack米快是傅里葉變換模塊，signal是信號(hào)處理模塊，linalg是線性代數(shù)模塊，ndimage是多維圖像處理模塊，74.假設(shè)precision=TP/（TP+FP）,recall=TP/（TP+FN），則在二分類問(wèn)題中，當(dāng)測(cè)試集的正例和負(fù)例數(shù)量不均衡時(shí)，以下評(píng)價(jià)方案中（）是相對(duì)不合理的。Accuracy:（TP+TN）/allB、F-value:2recallprecision/（recall+precision）C、G-mean:sqrt（precision*recall）D、AUC:曲線下面積【正確答案】：A解析：

測(cè)試集正例和負(fù)例數(shù)量不均衡，那么假設(shè)正例數(shù)量很少占10%，負(fù)例數(shù)量占大部分90%。而且算法能正確識(shí)別所有負(fù)例，但正例只有一半能正確判別。那么TP=0.05×all,TN=0.9×all，Accuracy=95%。雖然Accuracy很高，precision是100%,但正例recall只有50%。75.對(duì)于一個(gè)二維數(shù)組n=np.array（[[1,2,3],[4,5,6],[7,8,9]]）,n[[0,1],[0,1]]，輸出的結(jié)果是（）。A、[[1,2],[4,5]]B、[1,2,4,5]C、[1,5]D、[2,4]【正確答案】：C解析：

注意這種情況只選擇A[0,0]和A[1,1]兩個(gè)值，與帶冒號(hào)的索引不同。76.對(duì)矩陣[[0,0,3],[1,1,0],[0,2,1],[1,0,2]]進(jìn)行獨(dú)熱編碼訓(xùn)練后，對(duì)矩陣[[0,1,3]]進(jìn)行獨(dú)熱編碼輸出結(jié)果為（）。A、[0,1,0,1,0,0,0,1,0]B、[1,0,0,1,0,0,0,0,1]C、[0,1,0,0,1,0,0,0,1]D、[1,0,0,0,1,0,0,1,0]【正確答案】：B解析：

對(duì)于訓(xùn)練矩陣第一列為第一個(gè)特征維度，有兩種取值01，所以對(duì)應(yīng)編碼方式為10、01；同理，第二列為第二個(gè)特征維度，有三種取值012，所以對(duì)應(yīng)編碼方式為100、010、001；同理，第三列為第三個(gè)特征維度，有四中種取值0123，所以對(duì)應(yīng)編碼方式為1000、0100、0010、0001，再來(lái)看要進(jìn)行編碼的參數(shù)[0,1,3]，0作為第一個(gè)特征編碼為10，1作為第二個(gè)特征編碼為010，3作為第三個(gè)特征編碼為0001，故此編碼結(jié)果為[1,0,0,1,0,0,0,0,1]。77.（）不屬于CRF模型對(duì)于HMM和MEMM模型的優(yōu)勢(shì)。A、特征靈活B、速度快C、可容納較多上下文信息D、全局最優(yōu)【正確答案】：B解析：

CRF模型的優(yōu)點(diǎn)：1）與HMM：CRF沒(méi)有HMM那樣嚴(yán)格的獨(dú)立性假設(shè)條件，因而可以容納任意的上下文信息，特征設(shè)計(jì)靈活。2）與MEMM：由于CRF計(jì)算全局最優(yōu)輸出節(jié)點(diǎn)的條件概率，他還克服了MEMM模型標(biāo)記偏置的缺點(diǎn)。78.大數(shù)據(jù)涌現(xiàn)現(xiàn)象的形式有多種，不屬于大數(shù)據(jù)涌現(xiàn)形式的是（）。A、價(jià)值涌現(xiàn)B、隱私涌現(xiàn)C、物質(zhì)涌現(xiàn)D、質(zhì)量涌現(xiàn)【正確答案】：C解析：

大數(shù)據(jù)并不等同于“小數(shù)據(jù)的集合”。從“小數(shù)據(jù)”到“大數(shù)據(jù)”的過(guò)程中出現(xiàn)了“涌現(xiàn)”現(xiàn)象，“涌現(xiàn)”才是大數(shù)據(jù)的本質(zhì)特征。涌現(xiàn)（Emergence）就是系統(tǒng)大于元素之和，或者系統(tǒng)在跨越層次時(shí)，出現(xiàn)了新的質(zhì)。大數(shù)據(jù)涌現(xiàn)現(xiàn)象的具體表現(xiàn)形式有多種，如價(jià)值涌現(xiàn)、隱私涌現(xiàn)、質(zhì)量涌現(xiàn)和安全涌現(xiàn)等。79.以下有關(guān)計(jì)算機(jī)編程語(yǔ)言說(shuō)法錯(cuò)誤的是（）。A、編程語(yǔ)言是用于書(shū)寫(xiě)計(jì)算機(jī)程序的語(yǔ)言；B、計(jì)算機(jī)語(yǔ)言可分為機(jī)器語(yǔ)言、匯編語(yǔ)言、高級(jí)語(yǔ)言；C、計(jì)算機(jī)能識(shí)別和執(zhí)行所有編程語(yǔ)言寫(xiě)的程序；D、C/C++、pascal、java、pythonPython都屬于高級(jí)編程語(yǔ)言；【正確答案】：C解析：

只有機(jī)器語(yǔ)言才能被計(jì)算機(jī)直接識(shí)別，Python等高級(jí)語(yǔ)言源程序，不能直接運(yùn)行，必須翻譯成機(jī)器語(yǔ)言才能執(zhí)行。80.PageRank是一個(gè)函數(shù),它對(duì)Web中的每個(gè)網(wǎng)頁(yè)賦予一個(gè)實(shí)數(shù)值。它的意圖在于網(wǎng)頁(yè)的PageRank越高,那么它就（）。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要【正確答案】：D解析：

PageRank認(rèn)為，如果A頁(yè)面有一個(gè)鏈接指向B頁(yè)面，那就可以看作是A頁(yè)面對(duì)B頁(yè)面的一種信任或推薦。所以，如果一個(gè)頁(yè)面的反向鏈接越多，根據(jù)這些鏈接的價(jià)值加權(quán)越高，那搜索引擎就會(huì)判斷這樣的頁(yè)面更為重要。81.執(zhí)行下面操作后，list2的值是（）。A、[4,5,6]B、[4,3,6]C、[4,5,3]D、以上答案都不正確【正確答案】：C解析：

賦值語(yǔ)句是淺復(fù)制操作，沒(méi)有復(fù)制子對(duì)象，所以原始數(shù)據(jù)改變，子對(duì)象會(huì)改變。82.令N為數(shù)據(jù)集的大小[注：設(shè)訓(xùn)練樣本（xi,yi），N即訓(xùn)練樣本個(gè)數(shù)]，d是輸入空間的維數(shù)（注：d即向量xi的維數(shù)）。硬間隔SVM問(wèn)題的原始形式[即在不等式約束（yi（wTxi+b）≥1）下最小化（1/2）wTw]在沒(méi)有轉(zhuǎn)化為拉格朗日對(duì)偶問(wèn)題之前，是（）。A、一個(gè)含N個(gè)變量的二次規(guī)劃問(wèn)題B、一個(gè)含N+1個(gè)變量的二次規(guī)劃問(wèn)題C、一個(gè)含d個(gè)變量的二次規(guī)劃問(wèn)題D、一個(gè)含d+1個(gè)變量的二次規(guī)劃問(wèn)題【正確答案】：D解析：

欲找到具有最大間隔的劃分超平面，也就是要找到能滿足題中不等式約束的參數(shù)w和b，是一個(gè)含d+1個(gè)變量的二次規(guī)劃問(wèn)題。83.MapReduce默認(rèn)的分區(qū)函數(shù)是（）。A、hashB、diskC、reduceD、map【正確答案】：A解析：

MapReduce默認(rèn)的分區(qū)函數(shù)是hash。84.數(shù)據(jù)產(chǎn)品的定義是（）。A、數(shù)據(jù)產(chǎn)品是指能夠供給市場(chǎng)，被人們使用和消費(fèi)，并能滿足人們某種需求的任何東西B、數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價(jià)值去輔助用戶更優(yōu)地做決策（甚至行動(dòng)）的一種產(chǎn)品形式C、數(shù)據(jù)產(chǎn)品是指為了滿足自身的需要，通過(guò)科技發(fā)明或經(jīng)驗(yàn)總結(jié)而形成的技術(shù)D、數(shù)據(jù)產(chǎn)品是數(shù)據(jù)科學(xué)的結(jié)果，創(chuàng)造了新的實(shí)物形態(tài)和使用價(jià)值的產(chǎn)品?！菊_答案】：B解析：

數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價(jià)值去輔助用戶更優(yōu)的做決策（甚至行動(dòng)）的一種產(chǎn)品形式。85.Numpy庫(kù)的主要功能是（）。A、科學(xué)計(jì)算B、繪圖C、爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)D、機(jī)器學(xué)習(xí)庫(kù)【正確答案】：A解析：

Numpy是一個(gè)開(kāi)源Python庫(kù)，主要用于科學(xué)計(jì)算。用于繪圖的Python庫(kù)有Matplotlib，、Seaborn等，爬取數(shù)據(jù)的庫(kù)有Requests等，機(jī)器學(xué)習(xí)庫(kù)有Sklearn等。86.二項(xiàng)分布的數(shù)學(xué)期望為（）。A、n（1-n）pB、np（1-p）C、npD、n（1-p）【正確答案】：C解析：

二項(xiàng)分布即重復(fù)n次的伯努利試驗(yàn)。如果事件發(fā)生的概率是p,則不發(fā)生的概率q=1-p.則期望為np，方差為npq。87.圖像與灰度直方圖的對(duì)應(yīng)關(guān)系為（）。A、一一對(duì)應(yīng)B、一對(duì)多C、多對(duì)一D、以上答案都正確【正確答案】：C解析：

灰度直方圖是灰度級(jí)的函數(shù)，它表示圖像中具有每種灰度級(jí)的像素的個(gè)數(shù)，反映圖像中每種灰度出現(xiàn)的頻率?；叶戎狈綀D的橫坐標(biāo)是灰度級(jí)，縱坐標(biāo)是該灰度級(jí)出現(xiàn)的頻率，是圖像的最基本的統(tǒng)計(jì)特征。與圖像之間的關(guān)系是多對(duì)一的映射關(guān)系。一幅圖像唯一確定出與之對(duì)應(yīng)的直方圖，但不同圖像可能有相同的直方圖，選C。88.（）不是HDFS的守護(hù)進(jìn)程。A、SecondaryNameNodeB、DataNodeC、MRAppMaster/YarnChildD、NameNode【正確答案】：C解析：

NameNode是HDFS集群的主節(jié)點(diǎn)，DataNode是HDFS集群的從節(jié)點(diǎn)，SecondaryNameNode是HDFS集群?jiǎn)?dòng)的用來(lái)給NameNode節(jié)點(diǎn)分擔(dān)壓力的角色，這個(gè)三個(gè)服務(wù)進(jìn)程會(huì)一直啟動(dòng)著。MRAppMaster/YarnChild進(jìn)程是只有在YARN集群運(yùn)行了MapReduce程序之后才會(huì)啟動(dòng)的程序。89.RNN不同于其他神經(jīng)網(wǎng)絡(luò)的地方在于（）。A、實(shí)現(xiàn)了記憶功能B、速度快C、精度高D、易于搭建【正確答案】：A解析：

--90.下列數(shù)據(jù)中，不屬于字符串的是（）。A、'ab'B、"perfect"'C、"52wo"D、abc【正確答案】：D解析：

D無(wú)引號(hào)，故只是變量。91.（）是交叉驗(yàn)證法的一種特例。A、自助法B、留一法C、交叉驗(yàn)證法D、錯(cuò)誤率分析【正確答案】：B解析：

--92.數(shù)據(jù)科學(xué)基本原則中，“基于數(shù)據(jù)的智能”的主要特點(diǎn)是（）。A、數(shù)據(jù)簡(jiǎn)單、但算法簡(jiǎn)單B、數(shù)據(jù)復(fù)雜、但算法簡(jiǎn)單C、數(shù)據(jù)簡(jiǎn)單、但算法復(fù)雜D、數(shù)據(jù)復(fù)雜、但算法復(fù)雜【正確答案】：B解析：

數(shù)據(jù)科學(xué)對(duì)“智能的實(shí)現(xiàn)方式”有了新的認(rèn)識(shí)——從“基于算法的智能”到“基于數(shù)據(jù)的智能”過(guò)渡?！盎跀?shù)據(jù)的智能”的重要特點(diǎn)是“數(shù)據(jù)復(fù)雜，但算法簡(jiǎn)單”。93.CNN神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征提取帶來(lái)了變革性的變化，使之前的人工特征提取升級(jí)到數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)特征提取，在CNN中，起到特征提取作用的網(wǎng)絡(luò)層是（）。A、convolution層B、fullconnect層C、maxpooling層D、norm層【正確答案】：A解析：

卷積層負(fù)責(zé)提取特征，采樣層負(fù)責(zé)特征選擇，全連接層負(fù)責(zé)分類。94.HDFS是基于流數(shù)據(jù)模式訪問(wèn)和處理超大文件的需求而開(kāi)發(fā)的，具有高容錯(cuò)、高可靠性、高可擴(kuò)展性、高吞吐率等特征，適合的讀寫(xiě)任務(wù)是（）。A、一次寫(xiě)入，少次讀取B、多次寫(xiě)入，少次讀取C、多次寫(xiě)入，多次讀取D、一次寫(xiě)入，多次讀取【正確答案】：D解析：

HDFS的設(shè)計(jì)以“一次寫(xiě)入、多次讀取”為主要應(yīng)用場(chǎng)景。95.給定一個(gè)長(zhǎng)度為n的不完整單詞序列，我們希望預(yù)測(cè)下一個(gè)字母是什么。比如輸入是predictio（9個(gè)字母組成），希望預(yù)測(cè)第十個(gè)字母是什么。（）適用于解決這個(gè)工作。A、循環(huán)神經(jīng)網(wǎng)絡(luò)B、全連接神經(jīng)網(wǎng)絡(luò)C、受限波爾茲曼機(jī)D、卷積神經(jīng)網(wǎng)絡(luò)【正確答案】：A解析：

循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備，因此在對(duì)序列的非線性特征進(jìn)行學(xué)習(xí)時(shí)具有一定優(yōu)勢(shì)。循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理（NaturalLanguageProcessing，NLP），例如語(yǔ)音識(shí)別、語(yǔ)言建模、機(jī)器翻譯等領(lǐng)域有應(yīng)用，也被用于各類時(shí)間序列預(yù)報(bào)。96.pyplot.pie）所畫(huà)的圖像是（）。A、箱線圖B、折線圖C、直方圖D、餅圖【正確答案】：D解析：

pyplot.pie）的作用是繪制餅圖。97.Python語(yǔ)句print（0xA+0xB）的輸出結(jié)果是（）。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】：D解析：

0x是16進(jìn)制運(yùn)算，0xA+0xB換為十進(jìn)制為10+11=21。98.scipy.stats模塊中對(duì)隨機(jī)變量進(jìn)行隨機(jī)取值的函數(shù)是（）。A、rvsB、pdfC、cdfD、sf【正確答案】：A解析：

stats模塊中每個(gè)分布都rvs函數(shù)，對(duì)隨機(jī)變量取值。99.數(shù)據(jù)安全不只是技術(shù)問(wèn)題，還涉及（）。A、人員問(wèn)題B、管理問(wèn)題C、行政問(wèn)題D、領(lǐng)導(dǎo)問(wèn)題【正確答案】：B解析：

數(shù)據(jù)安全不只是技術(shù)問(wèn)題，還涉及管理問(wèn)題。100.以下濾波器中，對(duì)圖像中的椒鹽噪聲濾波效果最好的是（）。A、中值濾波B、均值濾波C、最大值濾波D、最小值濾波【正確答案】：A解析：

--1.在數(shù)據(jù)科學(xué)中，計(jì)算模式發(fā)生了根本性的變化——從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過(guò)渡至云計(jì)算，有一定的代表性的是Google云計(jì)算三大技術(shù)，這三大技術(shù)包括（）。A、HadoopYRN資源管理器B、GFS分布式存儲(chǔ)系統(tǒng)C、MapRedue分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫(kù)【正確答案】：BCD解析：

Goolge于2003～2008年間發(fā)表的3篇論文在云計(jì)算和大數(shù)據(jù)技術(shù)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響，被稱為Google三大技術(shù)或三大論文：①GFS論文——GhemawatS,Gobioff2.下面屬于可視化高維數(shù)據(jù)技術(shù)的是（）。A、矩陣B、.平行坐標(biāo)系C、星形坐標(biāo)系D、散布圖【正確答案】：ABC解析：

矩陣、平行坐標(biāo)系和星形坐標(biāo)系都屬于可視化高維數(shù)據(jù)的常用技術(shù)，而散布圖又叫相關(guān)圖，只能處理二維數(shù)據(jù)。3.特征選擇的目的是（）。A、減少特征數(shù)量、降維B、使模型泛化能力更強(qiáng)C、增強(qiáng)模型擬合能力D、減少過(guò)擬合?！菊_答案】：ABD解析：

特征選擇的主要目的是減少特征的數(shù)量、降低特征維度、使模型泛化能力更強(qiáng)、減少過(guò)擬合。4.做一個(gè)二分類預(yù)測(cè)問(wèn)題，先設(shè)定閾值為0.5，概率不小于0.5的樣本歸入正例類（即1），小于0.5的樣本歸入反例類（即0）。然后，用閾值n（n>0.5）重新劃分樣本到正例類和反例類，下面說(shuō)法正確的是（）。A、增加閾值不會(huì)提高召回率B、增加閾值會(huì)提高召回率C、增加閾值不會(huì)降低查準(zhǔn)率D、增加閾值會(huì)降低查準(zhǔn)率【正確答案】：AC解析：

召回率=TP/TP+FN，查準(zhǔn)率=TP/TP+FP。當(dāng)概率閾值增加時(shí)，TP、FP減少或者持平，TP+FN不變，所以召回率不會(huì)增加。5.隨機(jī)森林在做數(shù)據(jù)處理方面的優(yōu)勢(shì)是（）。A、不需要做缺失值處理B、不需要處理噪音C、不需要做特征選擇D、不需要平衡數(shù)據(jù)集【正確答案】：ACD解析：

理論上隨機(jī)森林不會(huì)產(chǎn)生過(guò)擬合現(xiàn)象，但噪聲是不能忽略的，增加樹(shù)雖然能夠減小過(guò)擬合，但樹(shù)的數(shù)目不可能無(wú)限增加，沒(méi)有辦法完全消除過(guò)擬合。6.線性模型的基本形式有（）。A、線性回歸B、對(duì)數(shù)幾率回歸（二分類問(wèn)題）C、線性判別分析（Fisher判別分析）D、多分類學(xué)習(xí)【正確答案】：ABCD解析：

--7.下列說(shuō)法中正確的是（）。A、云計(jì)算的主要特點(diǎn)是非常昂貴B、大數(shù)據(jù)是多源、異構(gòu)、動(dòng)態(tài)的復(fù)雜數(shù)據(jù)，即具有4V特征的數(shù)據(jù)C、大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究對(duì)象之一D、MapReduce是采用云計(jì)算這種新的計(jì)算模式研發(fā)出的具體工具軟件（或算法）【正確答案】：BCD解析：

云計(jì)算的一個(gè)重要優(yōu)勢(shì)在于其經(jīng)濟(jì)性。與其他計(jì)算模式不同的是，云計(jì)算的出發(fā)點(diǎn)是如何使用成本低的商用機(jī)（而不是成本很高的高性能服務(wù)器）實(shí)現(xiàn)強(qiáng)大的計(jì)算能力8.關(guān)于總體和樣本的說(shuō)法，正確的是（）。A、總體也就是研究對(duì)象的全體B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品，那么樣本可以是每間隔10s抽取的產(chǎn)品C、樣本是從總體的隨機(jī)抽樣D、如果總體是某一小學(xué)的1000名學(xué)生，那么樣本可以是一年級(jí)的100名學(xué)生【正確答案】：ABC解析：

小學(xué)包括多個(gè)年級(jí)，樣本沒(méi)有代表性。9.在假設(shè)檢驗(yàn)中，當(dāng)原假設(shè)為“偽”，但數(shù)據(jù)分析人員沒(méi)有拒絕它時(shí)犯的錯(cuò)誤叫（）。A、α錯(cuò)誤B、β錯(cuò)誤C、取偽錯(cuò)誤D、棄真錯(cuò)誤【正確答案】：BC解析：

α錯(cuò)誤（棄真錯(cuò)誤）：當(dāng)原假設(shè)為真時(shí)，但我們錯(cuò)誤地認(rèn)為“原假設(shè)是不成立的”，進(jìn)而導(dǎo)致拒絕這個(gè)正確假設(shè)；β錯(cuò)誤（取偽錯(cuò)誤）：當(dāng)原假設(shè)為假時(shí)，但我們錯(cuò)誤地認(rèn)為“原假設(shè)是成立的”，進(jìn)而導(dǎo)致接受此錯(cuò)誤假設(shè)10.下列關(guān)于特征的稀疏性說(shuō)法，正確的是（）。A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無(wú)關(guān)B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開(kāi)銷C、學(xué)習(xí)任務(wù)難度可能有所降低D、稀疏矩陣沒(méi)有高效的存儲(chǔ)方法【正確答案】：ABC解析：

在一個(gè)矩陣中，若非零元素的個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于零元素的個(gè)數(shù)，且非零元素的分布沒(méi)有規(guī)律，則稱之為稀疏矩陣。為了節(jié)省存儲(chǔ)空間并且加快并行程序處理速度，可對(duì)稀疏矩陣進(jìn)行壓縮存儲(chǔ)。11.機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵組成要素是（）。A、任務(wù)TB、性能指標(biāo)PC、目標(biāo)函數(shù)VD、經(jīng)驗(yàn)來(lái)源E【正確答案】：ABD解析：

--12.以下關(guān)于降維方法的敘述，正確的是（）。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法D、度量學(xué)習(xí)繞過(guò)降維的過(guò)程，將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對(duì)距離度量計(jì)算的權(quán)重矩陣的學(xué)習(xí)【正確答案】：CD解析：

本質(zhì)上講，主成分分析是一種線性降維方法，在處理非線性問(wèn)題時(shí)，效果不太理想。核化線性降維是一種非線性降維方法。13.以下關(guān)于L1和L2范數(shù)的描述，正確的是（）。A、L1范數(shù)為x向量各個(gè)元素絕對(duì)值之和。B、L2范數(shù)為x向量各個(gè)元素平方和的1/2次方，L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C、L1范數(shù)可以使權(quán)值稀疏，方便特征提取D、L2范數(shù)可以防止過(guò)擬合，提升模型的泛化能力?！菊_答案】：ABCD解析：

L0是指向量中非0的元素的個(gè)數(shù)，L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和，L2范數(shù)向量元素絕對(duì)值的平方和再開(kāi)平方。L1范數(shù)可以使權(quán)值稀疏，方便特征提取。L2范數(shù)可以防止過(guò)擬合，提升模型的泛化能力。14.Pig說(shuō)法正確的是（）。A、彌補(bǔ)MapReduce編程復(fù)雜性B、封裝MapReduce處理過(guò)程C、PigLatin是一種數(shù)據(jù)分析語(yǔ)言D、適用于并行處理【正確答案】：ABCD解析：

Pig建立在MapReduce之上，主要目的是彌補(bǔ)MapReduce編程的復(fù)雜性；Pig較好地封裝了MapReduce的處理過(guò)程；PigLatin是數(shù)據(jù)分析的描述語(yǔ)言；Pig程序的結(jié)構(gòu)適合于并行處理。15.預(yù)剪枝使得決策樹(shù)的很多分子都沒(méi)有展開(kāi)，會(huì)導(dǎo)致（）。A、顯著減少訓(xùn)練時(shí)間開(kāi)銷B、顯著減少測(cè)試時(shí)間開(kāi)銷C、降低過(guò)擬合風(fēng)險(xiǎn)D、提高欠擬合風(fēng)險(xiǎn)【正確答案】：ABCD解析：

預(yù)剪枝使得決策樹(shù)的很多分支都沒(méi)有展開(kāi)，這不僅降低了過(guò)擬合的風(fēng)險(xiǎn)，還顯著減少了決策樹(shù)的訓(xùn)練時(shí)間開(kāi)銷和測(cè)試時(shí)間開(kāi)銷。但另一方面，有些分支的當(dāng)前劃分雖不能提升泛化性能，甚至可能導(dǎo)致泛化性能暫時(shí)下降，但在其基礎(chǔ)上進(jìn)行的后續(xù)劃分卻有可能導(dǎo)致性能顯著提高；預(yù)剪枝基于貪心原則，禁止這些分支展開(kāi)，提高了欠擬合的風(fēng)險(xiǎn)。16.下列關(guān)于數(shù)據(jù)科學(xué)中常用的統(tǒng)計(jì)學(xué)知識(shí)說(shuō)法錯(cuò)誤的是（）。A、從行為目的與思維方式看，數(shù)據(jù)統(tǒng)計(jì)方法可以分為基本分析方法和元分析方法B、從方法論角度看，基于統(tǒng)計(jì)的數(shù)據(jù)分析方法又可分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)C、描述統(tǒng)計(jì)可分為集中趨勢(shì)分析、離中趨勢(shì)分析、參數(shù)估計(jì)和假設(shè)檢驗(yàn)D、推斷統(tǒng)計(jì)包括采樣分布和相關(guān)分析【正確答案】：ABCD解析：

從行為目的與思維方式看，數(shù)據(jù)統(tǒng)計(jì)方法包括描述統(tǒng)計(jì)、假設(shè)檢驗(yàn)、相關(guān)分析、方差分析、回歸分析、聚類分析等；從方法論角度看，描述統(tǒng)計(jì)可分為集中趨勢(shì)分析和離散趨勢(shì)分析；推斷統(tǒng)計(jì)包括總體參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩方面內(nèi)容。17.Pandas中刪除列的方式是（）。A、df.drop（["列名"],axis=1）B、df.drop（columns=["列名"]）C、df.drop（[0,1]）D、df.drop（[0]）【正確答案】：AB解析：

--18.針對(duì)維數(shù)災(zāi)難，我們主要采用的降維方法有（）。A、多維縮放B、主成分分析C、核化線性降維D、流形學(xué)習(xí)E、度量學(xué)習(xí)【正確答案】：ABCDE解析：

--19.以下跟圖像處理相關(guān)的是（）。A、圖像識(shí)別B、人臉識(shí)別C、視頻分析D、自然語(yǔ)言處理【正確答案】：ABC解析：

--20.以下屬于圖像分割的算法的是（）。A、閾值分割方法（thresholdsegmentationmethod）B、區(qū)域增長(zhǎng)細(xì)分（regionalgrowthsegmentation）C、邊緣檢測(cè)分割方法（edgedetectionsegmentationmethod）D、基于聚類的分割（segmentationbasedonclustering）E、基于能量的分割【正確答案】：ABCDE解析：

--21.Spark組件包含哪兩個(gè)算子（）。A、MapB、ActionC、TransformationD、Reduce【正確答案】：BC解析：

Spark針對(duì)RDD提供了多種基礎(chǔ)操作，可以大致分為Action和Transformation兩種。22.RDD具有（）特征。A、可容錯(cuò)性B、簡(jiǎn)潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】：AC解析：

RDD是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu)。23.在Spark中，彈性分布式數(shù)據(jù)集的特點(diǎn)包括（）。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】：ABD解析：

RDD不可修改。24.以下算法中可以應(yīng)用于圖像分割的是（）。A、邊緣檢測(cè)技術(shù)B、閾值分割技術(shù)C、基于區(qū)域的分割技術(shù)D、區(qū)域生長(zhǎng)方法【正確答案】：ABCD解析：

邊緣檢測(cè)技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長(zhǎng)方法均是圖像分割技術(shù)。25.下列跟人工智能場(chǎng)景相關(guān)的是（）。A、圖像識(shí)別B、人臉識(shí)別C、語(yǔ)音識(shí)別D、語(yǔ)義分析【正確答案】：ABCD解析：

人工智能的概念很廣義，圖像識(shí)別、人臉識(shí)別、語(yǔ)音識(shí)別、語(yǔ)義分析都屬于人工智能的應(yīng)用場(chǎng)景。26.Spark的技術(shù)架構(gòu)可以分為哪幾層（）。A、資源管理層B、Spark核心層C、應(yīng)用層D、服務(wù)層【正確答案】：ABD解析：

Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。27.Spark的部署模式包括（）。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正確答案】：ABCD解析：

Spark支持上述四種運(yùn)行模式，在實(shí)驗(yàn)中為了充分利用資源，一般配置Standalone模式運(yùn)行。28.特征選擇方法有（）。AIC赤池信息準(zhǔn)則B、LARS嵌入式特征選擇方法C、LVW包裹式特征選擇方法D、Relief過(guò)濾式特征選擇方法【正確答案】：BCD解析：

AIC赤池信息準(zhǔn)則是常用的模型選擇方法。29.以下屬于頻率域圖像濾波的方法有（）。A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾波【正確答案】：CD解析：

頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。30.一個(gè)回歸模型存在多重共線問(wèn)題，在不損失過(guò)多信息的情況下，可采取的措施有（）。A、剔除所有的共線性變量B、剔除共線性變量中的一個(gè)C、通過(guò)計(jì)算方差膨脹因子（VarianceInflationFactor，VIF）來(lái)檢查共線性程度，并采取相應(yīng)措施D、刪除相關(guān)變量可能會(huì)有信息損失，我們可以不刪除相關(guān)變量，而使用一些正則化方法來(lái)解決多重共線性問(wèn)題，例如Ridge或Lasso回歸【正確答案】：BCD解析：

為了檢查多重共線性，我們可以創(chuàng)建相關(guān)系數(shù)矩陣來(lái)辨別和移除相關(guān)系數(shù)大于75%的變量（閾值根據(jù)情況設(shè)定）。除此之外，可以使用VIF方法來(lái)檢查當(dāng)前存在的共線變量。VIF≤4表明沒(méi)有多種共線，VIF≥10表明有著嚴(yán)重的多重共線性，也可以使用公差（tolerance）作為評(píng)估指標(biāo)。但是，移除相關(guān)變量可能導(dǎo)致信息的丟失，為了保留這些變量，可以使用帶懲罰的回歸方法。可以在相關(guān)變量之間隨機(jī)加入噪聲，使得變量之間存在差異。但增加噪聲可能影響準(zhǔn)確度，因此這種方法應(yīng)該小心使用。31.若b=np.array（[True,False,False]），以下能輸出[FalseTrueTrue]的是（）。A、print（b-1）B、print（~b）C、print（np.logical_not（b）D、print（>>b）【正確答案】：BC解析：

數(shù)組分別邏輯取反的兩種方式，：可以使用np.logical_not）函數(shù)或者直接用取反符號(hào)~。32.Python中，復(fù)合賦值運(yùn)算符包括（）。A、簡(jiǎn)單的賦值運(yùn)算符B、乘法賦值運(yùn)算符C、取模賦值運(yùn)算符D、取整除賦值運(yùn)算符【正確答案】：ABCD解析：

Python中，復(fù)合賦值運(yùn)算符包括簡(jiǎn)單的賦值運(yùn)算符、乘法賦值運(yùn)算符、取模賦值運(yùn)算符、取整除賦值運(yùn)算符。33.實(shí)時(shí)計(jì)算類應(yīng)用主要通過(guò)（）來(lái)實(shí)現(xiàn)。A、流計(jì)算組件B、內(nèi)存計(jì)算組件C、MPP數(shù)據(jù)庫(kù)D、Hadoop的后臺(tái)定時(shí)分析計(jì)算任務(wù)【正確答案】：AB解析：

實(shí)時(shí)計(jì)算類應(yīng)用主要通過(guò)流計(jì)算組件、內(nèi)存計(jì)算組件來(lái)實(shí)現(xiàn)。34.下列關(guān)于自然語(yǔ)言處理中的關(guān)鍵詞提取的說(shuō)法，正確的是（）。A、關(guān)鍵詞提取是指用人工方法提取文章關(guān)鍵詞的方法B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題D、這個(gè)問(wèn)題涉及數(shù)據(jù)挖掘、文本處理、信息檢索等領(lǐng)域【正確答案】：BD解析：

關(guān)鍵詞提取旨在自動(dòng)化；出現(xiàn)次數(shù)最多可能為無(wú)用詞。35.下面選項(xiàng)是python標(biāo)準(zhǔn)庫(kù)的是（）。A、osB、sysC、numpyD、re【正確答案】：ABD解析：

numpy屬于第三方庫(kù)。36.以下可用于處理由于光照不均帶來(lái)的影響的圖像處理方法有（）。A、同態(tài)濾波B、頂帽變換C、基于移動(dòng)平均的局部閾值處理D、拉普拉斯算子【正確答案】：ABC解析：

拉普拉斯算子屬于銳化濾波器，并不能處理光照不均勻帶來(lái)的影響。37.下列場(chǎng)景適合使用Python的是（）。A、可作為腳本語(yǔ)言，快速編寫(xiě)小型程序、腳本等B、可應(yīng)用在數(shù)據(jù)科學(xué)、交互式計(jì)算及可視化領(lǐng)域C、可作為膠水語(yǔ)言，整合如C++等語(yǔ)言代碼D、Python適用于低延時(shí)、高利用率的應(yīng)用場(chǎng)景【正確答案】：ABC解析：

Python作為腳本語(yǔ)言，以解釋方式逐條執(zhí)行語(yǔ)句，相比C++等語(yǔ)言運(yùn)行速度較慢，不適用于低延時(shí)場(chǎng)景。38.以下關(guān)于HBase說(shuō)法正確的是（）。A、面向列的數(shù)據(jù)庫(kù)B、非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)C、支持大規(guī)模的隨機(jī)、實(shí)時(shí)讀寫(xiě)D、采用松散數(shù)據(jù)模型【正確答案】：ABCD解析：

HBase是非結(jié)構(gòu)化的、多版本的、面向列和開(kāi)源的數(shù)據(jù)庫(kù)；HBase提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫(xiě)訪問(wèn)；從存儲(chǔ)模型看，HBase采用的是松散數(shù)據(jù)模型。39.下面關(guān)于機(jī)器學(xué)習(xí)的理解，正確的是（）。A、非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的B、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)據(jù)帶標(biāo)簽C、強(qiáng)化學(xué)習(xí)以輸入數(shù)據(jù)作為對(duì)模型的反饋D、卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)【正確答案】：BCD解析：

非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是不要求帶標(biāo)簽的，監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的。40.下列不屬于聚類性能度量?jī)?nèi)部指標(biāo)的是（）。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】：CD解析：

聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù)；聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。41.假設(shè)目標(biāo)遍歷的類別非常不平衡，即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%，現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度，那么下面說(shuō)法正確的是（）。A、準(zhǔn)確度并不適合衡量不平衡類別問(wèn)題B、準(zhǔn)確度適合衡量不平衡類別問(wèn)題C、精確度和召回率適合于衡量不平衡類別問(wèn)題D、精確度和召回率不適合衡量不平衡類別問(wèn)題【正確答案】：AC解析：

精確度和召回率適合于衡量不平衡類別問(wèn)題，準(zhǔn)確度并不適合衡量不平衡類別問(wèn)題。42.區(qū)塊鏈?zhǔn)牵ǎ┑扔?jì)算機(jī)技術(shù)的新型應(yīng)用模式。A、分布式數(shù)據(jù)存儲(chǔ)B、點(diǎn)對(duì)點(diǎn)傳輸C、共識(shí)機(jī)制D、加密算法【正確答案】：ABCD解析：

區(qū)塊鏈?zhǔn)欠植际綌?shù)據(jù)存儲(chǔ)、點(diǎn)對(duì)點(diǎn)傳輸、共識(shí)機(jī)制、加密算法等計(jì)算機(jī)技術(shù)的新型應(yīng)用模式。43.常見(jiàn)的聚類性能度量外部指標(biāo)有（）。A、Jaccard系數(shù)B、DB指數(shù)C、FM指數(shù)D、以上答案都正確【正確答案】：AC解析：

聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)；聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。44.關(guān)于降維說(shuō)法正確的是（）。A、PA是根據(jù)方差這一屬性降維的B、降維可以防止模型過(guò)擬合C、降維降低了數(shù)據(jù)集特征的維度D、降維方法有PLA等【正確答案】：ACD解析：

降維不能用于防止模型過(guò)擬合。45.ETL技術(shù)主要涉及（）操作。A、抽取B、轉(zhuǎn)換C、加載D、分析【正確答案】：ABC解析：

ETL技術(shù)主要涉及抽?。╡xtract）、轉(zhuǎn)換（transform）、加載（load）。46.Analytics1.0的主要特點(diǎn)有（）。A、分析活動(dòng)滯后于數(shù)據(jù)的生成B、重視結(jié)構(gòu)化數(shù)據(jù)的分析C、以對(duì)歷史數(shù)據(jù)的理解為主要目的D、注重描述性分析【正確答案】：ABCD解析：

著名管理學(xué)家Thomas·H·Davernport于2013年在《哈佛商業(yè)論壇（HarvardBusinessReview）》上發(fā)表一篇題為《第三代分析學(xué)（Analytics3.0）》的論文，將數(shù)據(jù)分析的方法、技術(shù)和工具——分析學(xué)（Analytics）分為三個(gè)不同時(shí)代——商務(wù)智能時(shí)代、大數(shù)據(jù)時(shí)代和數(shù)據(jù)富足供給時(shí)代，即Analytics1.0、Analytics2.0和Analytics3.0。其中，Analytics1.0是商務(wù)智能時(shí)代（1950~2000年），Analytics1.0中常用的工具軟件為數(shù)據(jù)倉(cāng)庫(kù)及商務(wù)智能類軟件，一般由數(shù)據(jù)分析師或商務(wù)智能分析師負(fù)責(zé)完成。Analytics1.0的主要特點(diǎn)有分析活動(dòng)滯后于數(shù)據(jù)的生成、重視結(jié)構(gòu)化數(shù)據(jù)的分析、以對(duì)歷史數(shù)據(jù)的理解為主要目的、注重描述性分析。47.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在（）。A、具有勞動(dòng)增值B、涉及法律權(quán)屬C、具有財(cái)務(wù)價(jià)值D、涉及道德與倫理【正確答案】：ABCD解析：

大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動(dòng)增值、涉及法律權(quán)屬、具有財(cái)務(wù)價(jià)值、涉及道德與倫理。48.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中，正確的是（）。A、可用于處理時(shí)間序列數(shù)據(jù)B、可用于處理圖像數(shù)據(jù)C、卷積網(wǎng)絡(luò)中使用的卷積運(yùn)算就是數(shù)學(xué)中的卷積計(jì)算D、至少在網(wǎng)絡(luò)的一層中使用卷積【正確答案】：ABD解析：

--49.對(duì)以下代碼說(shuō)法正確的是（）。A、該圖表是一個(gè)藍(lán)綠色的散點(diǎn)圖B、圖表中有紅色實(shí)線的網(wǎng)格線C、圖表中有圖例D、該圖畫(huà)的是sin曲線【正確答案】：CD解析：

該圖畫(huà)的是點(diǎn)虛線形式的折線圖，紅色點(diǎn)線網(wǎng)格，帶有圖例。50.非頻繁模式（）。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負(fù)模式和負(fù)相關(guān)模式D、對(duì)異常數(shù)據(jù)項(xiàng)敏感【正確答案】：AD解析：

非頻繁模式是一個(gè)項(xiàng)集或規(guī)則，其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的，但其中有些分析是有用的，特別是涉及數(shù)據(jù)中的負(fù)相關(guān)時(shí)。它對(duì)異常數(shù)據(jù)項(xiàng)敏感。51.下列關(guān)于Spark中的RDD描述正確的有（）。A、RDD（ResilientDistributedDataset）叫作彈性分布式數(shù)據(jù)集，是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式，可以并行在集群計(jì)算Dataset:就是一個(gè)集合，用于存放數(shù)據(jù)【正確答案】：ABCD解析：

A、B、C、D全部正確。52.大數(shù)據(jù)的參考架構(gòu)分為哪三個(gè)層次（）A、角色B、活動(dòng)C、邏輯構(gòu)件D、功能組件【正確答案】：ABD解析：

GB/T35589—2017《信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu)，包括角色、活動(dòng)的功能組件以及它們之間的關(guān)系。53.下列可以用來(lái)評(píng)估線性回歸模型的指標(biāo)有（）。A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正確答案】：ABCD解析：

R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指標(biāo)均可以評(píng)估線性回歸模型。54.以下屬于規(guī)則的分詞方法的是（）。A、正向最大匹配法B、逆向最大匹配法C、雙向最大匹配法D、條件隨機(jī)場(chǎng)【正確答案】：ABC解析：

條件隨機(jī)場(chǎng)是一種鑒別式機(jī)率模型，常用于標(biāo)注或分析序列資料。55.集成學(xué)習(xí)中增強(qiáng)多樣性的常見(jiàn)做法有（）。A、數(shù)據(jù)樣本擾動(dòng)B、輸入屬性擾動(dòng)C、輸出表示擾動(dòng)D、算法參數(shù)擾動(dòng)【正確答案】：ABCD解析：

集成學(xué)習(xí)中增強(qiáng)多樣性的常見(jiàn)做法主要是是對(duì)數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進(jìn)行擾動(dòng)。56.以下屬于漢語(yǔ)未登錄詞的類型的有（）。A、存在于詞典但出現(xiàn)頻率較少的詞B、新出現(xiàn)的普通詞匯C、專有名詞D、專業(yè)名詞和研究領(lǐng)域名稱【正確答案】：BCD解析：

未登錄詞就是未知的新詞。判斷一個(gè)新字符串是否應(yīng)作為一個(gè)詞，是基于世界知識(shí)的，需要人參與才能確認(rèn)。57.以下選項(xiàng)中是正確的字符串有（）。A、‘a(chǎn)bc”ab”B、‘a(chǎn)bc”ab’C、“abc”ab”D、“abc\”ab”【正確答案】：BD解析：

需要兩端引號(hào)符號(hào)相同。58.下列模型屬于機(jī)器學(xué)習(xí)生成式模型的是（）。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】：ABD解析：

機(jī)器學(xué)習(xí)生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。59.數(shù)據(jù)增值存在于哪些過(guò)程中（）。A、數(shù)據(jù)對(duì)象的封裝B、數(shù)據(jù)系統(tǒng)的研發(fā)C、數(shù)據(jù)的集成應(yīng)用D、基于數(shù)據(jù)的創(chuàng)新【正確答案】：ABCD解析：

數(shù)據(jù)對(duì)象的封裝、數(shù)據(jù)系統(tǒng)的研發(fā)、數(shù)據(jù)的集成應(yīng)用、基于數(shù)據(jù)的創(chuàng)新均需要進(jìn)行數(shù)據(jù)增值。60.對(duì)于不同場(chǎng)景內(nèi)容，一般數(shù)字圖像可以分為（）。A、二值圖像B、灰度圖像C、彩色圖像D、深度圖像【正確答案】：ABC解析：

深度圖像中深度通道為描述距離，一般對(duì)其進(jìn)行采樣或數(shù)值離散化。61.在監(jiān)督式學(xué)習(xí)中使用聚類算法的方法有（）。A、首先，可以創(chuàng)建聚類，然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前，可以將其類別ID作為特征空間中的一個(gè)額外的特征C、在應(yīng)用監(jiān)督式學(xué)習(xí)之前，不能創(chuàng)建聚類D、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前，不能將其類別ID作為特征空間中的一個(gè)額外的特征【正確答案】：AB解析：

我們可以為不同的集群構(gòu)建獨(dú)立的機(jī)器學(xué)習(xí)模型，并且可以提高預(yù)測(cè)精度。將每個(gè)類別的ID作為特征空間中的一個(gè)額外的特征可能會(huì)提高的精度結(jié)果。62.下列有關(guān)Flume的描述正確的是（）。A、Flume具有一定的容錯(cuò)性B、Flume使用Java編寫(xiě)C、Flume不支持failoverD、Flume是一個(gè)分布式的輕量級(jí)工具，適應(yīng)各種方式的數(shù)據(jù)收集【正確答案】：ABD解析：

Flume本身提供了failover機(jī)制，可以自動(dòng)切換和恢復(fù)。63.聚類性能度量的指標(biāo)主要分為外部指標(biāo)和內(nèi)部指標(biāo)，其中屬于內(nèi)部指標(biāo)的是（）。A、Jaccard指數(shù)B、FM指數(shù)C、DB指數(shù)Dunn指數(shù)【正確答案】：CD解析：

AB為外部指標(biāo)。64.Hadoop中map輸出結(jié)果說(shuō)法正確的是（）。A、＜key，value>鍵值對(duì)B、輸出中間臨時(shí)結(jié)果C、輸出最終計(jì)算結(jié)果D、輸出結(jié)果永久保留【正確答案】：AB解析：

map輸出結(jié)果并非是最終結(jié)果且只暫時(shí)保留。65.下面是Python的特點(diǎn)和優(yōu)點(diǎn)是（）。A、解釋性強(qiáng)B、使用動(dòng)態(tài)特性C、面向?qū)ο驞、語(yǔ)法簡(jiǎn)潔【正確答案】：ABCD解析：

Python的特點(diǎn)和優(yōu)點(diǎn)是基于面向?qū)ο笤O(shè)計(jì)，、代碼解釋性強(qiáng)，、使用動(dòng)態(tài)特性、語(yǔ)法簡(jiǎn)潔。66.下列關(guān)于詞袋模型說(shuō)法正確的是（）。A、詞袋模型可以忽略每個(gè)詞出現(xiàn)的順序B、詞袋模型不可以忽略每個(gè)詞出現(xiàn)的順序C、TensorFlow支持詞袋模型D、詞袋模型可以表出單詞之間的前后關(guān)系【正確答案】：AC解析：

詞袋模型的缺點(diǎn)之一就是不考慮詞語(yǔ)的順序關(guān)系，因此BD錯(cuò)誤。67.列式數(shù)據(jù)庫(kù)（如BigTable和HBase）以表的形式存儲(chǔ)數(shù)據(jù)，表結(jié)構(gòu)包括（）等元素。A、關(guān)鍵字B、時(shí)間戳C、列簇D、數(shù)據(jù)類型【正確答案】：ABC解析：

BigTable和HBase的索引由行關(guān)鍵字、列簇和時(shí)間戳組成。68.任何函數(shù)都可以修改，所以盡量少用全局變量，主要原因包括（）。A、不夠安全B、一直占用內(nèi)存C、容易失效D、一直占用字符【正確答案】：AB解析：

全局變量安全性差、相關(guān)內(nèi)存一直無(wú)法釋放。69.假設(shè)檢驗(yàn)中，首先需要提出零假設(shè)和備擇假設(shè)，零假設(shè)是（），備擇假設(shè)是（）。A、只有出現(xiàn)的概率大于閾值才會(huì)被拒絕的，只有零假設(shè)出現(xiàn)的概率大于閾值才會(huì)被承認(rèn)的B、希望推翻的結(jié)論，希望證明的結(jié)論C、只有出現(xiàn)的概率小于閾值才會(huì)被拒絕的，只有零假設(shè)出現(xiàn)的概率小于閾值才會(huì)被承認(rèn)的D、希望證明的結(jié)論，希望推翻的結(jié)論【正確答案】：BC70.Python變量命名規(guī)則包含（）。A、變量名只能包含字母、數(shù)字和下劃線。變量名可以字母或下劃線開(kāi)頭，但不能以數(shù)字開(kāi)頭，。例如，可將變量命名為message_1，但不能將其命名為1_message。B、變量名不能包含空格，但可使用下劃線來(lái)分隔其中的單詞。例如，變量名greeting_message可行，但變量名greetingmessage會(huì)引發(fā)錯(cuò)誤。C、不要將Python關(guān)鍵字和函數(shù)名用作變量名，即不要使用Python保留用于特殊用途的單詞，如print。D、變量名應(yīng)既簡(jiǎn)短又具有描述性。例如，name比n好，student_name比s_n好，name_length比length_of_persons_name好?！菊_答案】：ABCD解析：

Python變量名只能包含字母、數(shù)字和下劃線，但不能以數(shù)字開(kāi)頭，避免使用關(guān)鍵字，變量名應(yīng)既簡(jiǎn)短又具有描述性。71.下面對(duì)范數(shù)規(guī)則化描述，正確的是（）。A、L0是指向量中0的元素的個(gè)數(shù)B、L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和C、L2范數(shù)向量元素絕對(duì)值的平方和再開(kāi)平方D、L0是指向量中非0的元素的個(gè)數(shù)【正確答案】：BCD解析：

L0是指向量中非0的元素的個(gè)數(shù)，L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和，L2范數(shù)向量元素絕對(duì)值的平方和再開(kāi)平方。72.影響聚類算法效果的主要原因有（）。A、特征選取B、模式相似性測(cè)度C、分類準(zhǔn)則D、已知類別的樣本質(zhì)量【正確答案】：ABC解析：

聚類算法是無(wú)監(jiān)督的學(xué)習(xí)算法，訓(xùn)練樣本的標(biāo)記信息是未知的。73.屬于特征選擇的優(yōu)點(diǎn)有（）。A、解決模型自身的缺陷B、減少過(guò)擬合C、提升模型的性能D、增強(qiáng)模型的泛化能力【正確答案】：BCD解析：

特征選擇無(wú)法克服模型自身的缺陷，二者是獨(dú)立的。74.（）是Spark比MapReduce計(jì)算快的原因。A、基于內(nèi)存的計(jì)算B、基于DAG的調(diào)度框架C、基于Lineage的容錯(cuò)機(jī)制D、基于分布式計(jì)算的框架【正確答案】：ABC解析：

Spark比MapReduce計(jì)算快的原因包括基于內(nèi)存計(jì)算、使用基于Lineage的容錯(cuò)機(jī)制和基于DAG的調(diào)度框架。75.以下方法中可用于圖像分割的有（）。A、霍夫曼編碼B、分水嶺算法C、K-meansD、區(qū)域增長(zhǎng)法【正確答案】：BCD解析：

分水嶺、K-means算法、區(qū)域生長(zhǎng)都是常見(jiàn)的分割算法，而霍夫曼編碼不屬于分割算法。76.下面哪些是Spark的組件（）。A、SparkStreamingB、MLibC、GraphXD、SparkR【正確答案】：ABC解析：

Spark的組件包括SparkSQL、SparkStreaming、MLid、GraphX。77.下面關(guān)于中心極限定理的說(shuō)法，正確的是（）。A、中心極限定理說(shuō)明，對(duì)于大量相互獨(dú)立的隨機(jī)變量，其均值的分布以正態(tài)分布為極限B、中心極限定理說(shuō)明，對(duì)于大量相互獨(dú)立的隨機(jī)變量，其均值的分布以t分布為極限C、中心極限定理為Z檢驗(yàn)提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計(jì)學(xué)和誤差分析的基礎(chǔ)【正確答案】：ACD解析：

中心極限定理說(shuō)明，對(duì)于大量相互獨(dú)立的隨機(jī)變量，其均值的分布以正態(tài)分布為極限。78.RNN網(wǎng)絡(luò)的激活函數(shù)要選用雙曲正切而不是Sigmod的原因有（）。A、使用Sigmod函數(shù)容易出現(xiàn)梯度消失B、Sigmod的導(dǎo)數(shù)形式較為復(fù)雜C、雙曲正切更簡(jiǎn)單D、Sigmoid函數(shù)實(shí)現(xiàn)較為復(fù)雜【正確答案】：AB解析：

第一，采用Sigmoid等函數(shù)，反向傳播求誤差梯度時(shí)，求導(dǎo)計(jì)算量很大，而ReLU求導(dǎo)非常容易。第二，對(duì)于深層網(wǎng)絡(luò)，Sigmoid函數(shù)反向傳播時(shí)，很容易就會(huì)出現(xiàn)梯度消失的情況（在Sigmoid接近飽和區(qū)時(shí)，變換太緩慢，導(dǎo)數(shù)趨于0），從而無(wú)法完成深層網(wǎng)絡(luò)的訓(xùn)練。79.在網(wǎng)絡(luò)爬蟲(chóng)的爬行策略中,應(yīng)用最為常見(jiàn)的是（）。A、深度優(yōu)先遍歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略【正確答案】：AB解析：

在網(wǎng)絡(luò)爬蟲(chóng)的爬行策略中,應(yīng)用最為常見(jiàn)的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。80.Hadoop中map輸出結(jié)果說(shuō)法正確的是（）。A、＜key，value>鍵值對(duì)B、輸出中間臨時(shí)結(jié)果C、輸出最終計(jì)算結(jié)果D、輸出結(jié)果永久保留【正確答案】：AB解析：

map輸出結(jié)果并非是最終結(jié)果且只暫時(shí)保留。81.下面是Python注釋語(yǔ)句的是（）。A、'hello'B、'''hello'''C、"hello"D、#【正確答案】：BD解析：

python語(yǔ)句單行注釋使用單個(gè)#號(hào)，多行注釋使用三個(gè)單引號(hào)。82.下列既可以用于分類，又可以用于回歸的機(jī)器學(xué)習(xí)算法有（）。A、k近鄰B、邏輯回歸C、決策樹(shù)D、線性回歸【正確答案】：AC解析：

邏輯回歸只用于分類，線性回歸只用于回歸。83.圖像處理中的去噪算法有（）。A、中值濾波B、均值濾波C、峰值濾波D、高值濾波【正確答案】：AB解析：

圖像處理中噪聲可用中值濾波或均值濾波將其與周圍圖像像素融合，達(dá)到降噪目的。84.Spark的關(guān)鍵技術(shù)包括（）。A、RDDB、SchedulerC、StorageD、Shuffle【正確答案】：ABCD解析：

Spark的關(guān)鍵技術(shù)包括RDD、Scheduler、Storage、Shuffle。85.MapReduce與HBase的關(guān)系，哪些描述是正確的（）。A、兩者不可或缺，MapReduce是HBase可以正常運(yùn)行的保證B、兩者不是強(qiáng)關(guān)聯(lián)關(guān)系，沒(méi)有MapReduce，HBase可以正常運(yùn)行C、MapReduce可以直接訪問(wèn)HBaseD、它們之間沒(méi)有任何關(guān)系【正確答案】：BC解析：

HBase是Hadoop數(shù)據(jù)庫(kù)。它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)，與MapReduce并無(wú)強(qiáng)關(guān)聯(lián)關(guān)系，HadoopMapReduce為HBase提供了高性能的計(jì)算能力，可直接訪問(wèn)HBase。86.特征工程一般需要做哪些工作（）。A、正則化B、標(biāo)

人人文庫(kù)> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘競(jìng)賽練習(xí)試題附答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘競(jìng)賽練習(xí)試題附答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔