2023年大數(shù)據(jù)應(yīng)用技能競賽考試題庫（精簡500題）

上傳人：奔*** IP屬地：河北上傳時間：2024-09-19 格式：PDF 頁數(shù)：137 大?。?7.69MB 積分：12 舉報(bào) 版權(quán)申訴

2023年大數(shù)據(jù)應(yīng)用技能競賽考試題庫（精簡500題）_第2頁

2023年大數(shù)據(jù)應(yīng)用技能競賽考試題庫（精簡500題）_第3頁

2023年大數(shù)據(jù)應(yīng)用技能競賽考試題庫（精簡500題）_第4頁

2023年大數(shù)據(jù)應(yīng)用技能競賽考試題庫（精簡500題）_第5頁

已閱讀5頁，還剩132頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2023年大數(shù)據(jù)應(yīng)用技能競賽考試題庫(精簡500題)

一、單選題

1.random庫中用于生成隨機(jī)小數(shù)的函數(shù)是()。

Avrandom()

B、randint()

C\getrandbits()

D、randrange()

答案：A

2.以下哪些方法不可以直接來對文本分類()

AxKmeans

B、決策樹

C、支持向量機(jī)

D、KNN

答案：A

3.下列哪些不是目前機(jī)器學(xué)習(xí)所面臨的問題是()。

A、測試集的規(guī)模

B、維度災(zāi)難

C、特征工程

D、過擬合

答案：A

4.卷積神經(jīng)網(wǎng)絡(luò)能通過卷積以及池化等操作將不同種類的鳥歸為一類。關(guān)于卷積

神經(jīng)網(wǎng)絡(luò)能達(dá)到該效果的原因,下列說法不正確的是0。

A、同樣模式的內(nèi)容(如鳥嘴)在圖像不同位置可能出現(xiàn)

B、池化之后的圖像主體內(nèi)容基本不變

C、不同種類鳥的相同部位(如鳥嘴)形狀相似

D、池化作用能使不同種類鳥變得相似

答案：D

5.關(guān)于正態(tài)分布,下列說法錯誤的是()。

A、正態(tài)分布具有集中性和對稱性

B、正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)

C、正態(tài)分布的偏度為0,峰度為1

D、標(biāo)準(zhǔn)正態(tài)分布的均值為0,方差為1

答案：C

6.以下代碼的輸出結(jié)果為0。ImportnumpyasnpA=np.array([-1.7,1.5,-0.2,0.

6,10])Print(np.ceiI(a))

A、[-1.71.5-0.20.610.]

B、[-2.10.]

C、[-1.71.5-0.20.610.]

D、[-1.2.-0.1.10.]

答案：D

7.下面說法錯誤的是0。

A、可以利用統(tǒng)計(jì)量對缺失值進(jìn)行填補(bǔ)

B、可以利用K近鄰值對缺失值進(jìn)行填補(bǔ)

C、只要有缺失值就必須把對應(yīng)記錄刪除

D、對于缺失值較多的屬性可以考慮刪除

答案：C

8.以下()屬于NoSQL數(shù)據(jù)庫中Key-VaIue的缺點(diǎn)。

A、數(shù)據(jù)無結(jié)構(gòu)

B、查詢性能不高，缺乏統(tǒng)一查詢語法

C、功能相對有限

D、功能相對有限不易于做分布式集群

答案：A

9.以下關(guān)于新舊MapReduceAPI的描述錯誤的是()

Av新API放在org.apache,hadoop.mapreduce包中，而舊API則是放在org.apa

che.hadoop.mapred中

B、新API傾向于使用接口方式，而舊API傾向于使用抽象類

G新API使用Configuration,而舊API使用JobConf來傳遞配置信息

D、新API可以使用Job對象來提交作業(yè)

答案：B

10.ordinaIencoder將屬性轉(zhuǎn)化為()。

A、獨(dú)熱編碼

B、附帶特性的數(shù)字

C、二進(jìn)制編碼

D、ASCII碼

答案：B

11.在Iinux下預(yù)裝了Python2,Python3且默認(rèn)Python版本為Python3,下列描

述可以正確啟動Python有()。

Ax在Iinux應(yīng)用程序Terminal,打開一個終端窗口。輸入whichPython

B、在Iinux應(yīng)用程序TerminaI,打開一個終端窗口。輸入Python2或Python3

C、在Iinux應(yīng)用程序Terminal,打開一個終端窗口。輸入whichPythor)3

D、在Iinux應(yīng)用程序Terminal,打開一個終端窗口。輸入輸入whichPython2

答案:B

12.以下可以應(yīng)用關(guān)鍵詞提取的是()。

A、文獻(xiàn)檢索

B、自動文摘

C、文本聚類/分類

D、以上答案都正確

答案：D

13.下面哪一項(xiàng)用決策樹法訓(xùn)練大量數(shù)據(jù)集最節(jié)約時間()o

A、增加樹的深度

B、增加學(xué)習(xí)率

C、減少數(shù)的深度

D、減少樹的個數(shù)

答案：C

14.大數(shù)據(jù)環(huán)境下的隱私擔(dān)憂,主要表現(xiàn)為()

A、人信息的被識別與暴露

B、戶畫像的生成

C、意廣告的推送

D、毒入侵

答案：A

15.下列關(guān)于RNN說法正確的是(_)o

A、RNN可以應(yīng)用在NLP領(lǐng)域

B、LSTM是RNN的一個變種

C、在RNN中一個序列當(dāng)前的輸出與前面的輸出也有關(guān)

D、以上答案都正確

答案：D

16.np.Iinalg.svd()函數(shù)可以實(shí)現(xiàn)()功能。

A、計(jì)算協(xié)方差矩陣

B、實(shí)現(xiàn)奇異值分解

C、計(jì)算方差

D、計(jì)算均值；

答案：B

17.k-NN最近鄰方法在什么情況下效果較好0

A、樣本較多但典型性不好

B、樣本較少但典型性好

C、樣本呈團(tuán)狀分布

D、樣本呈鏈狀分布

答案：B

18.當(dāng)0時,可以不考慮RDD序列化處理。

A、完成成本比較高的操作后

B、執(zhí)行容易失敗的操作之前

C、RDD被重復(fù)利用

D、實(shí)時性要求高

答案：D

19.數(shù)據(jù)探索是指針對目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),下列哪項(xiàng)不是

其搜索過程的特點(diǎn)()。

Ax有選擇

B、有策略

C、有目標(biāo)

D、反復(fù)進(jìn)行的

答案：C

20.下列關(guān)于數(shù)據(jù)科學(xué)流程與方法的描述中，錯誤的是0。

A、數(shù)據(jù)科學(xué)的基本流程包括數(shù)據(jù)化、數(shù)據(jù)加工(DataWrangling或DataMunging)x

數(shù)據(jù)規(guī)整化、探索性分析、數(shù)據(jù)分析與洞見、結(jié)果展現(xiàn)以及數(shù)據(jù)產(chǎn)品的提供

B、對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過清洗成為規(guī)整數(shù)據(jù)

C、數(shù)據(jù)分析包括描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析

D、數(shù)據(jù)可視化會遇到視覺假象問題,人眼對亮度和顏色的相對判斷容易造成視覺

假象

答案：B

21.彩色圖像增強(qiáng)時，()處理可以采用RGBO

A、直方圖均衡化

B、同態(tài)濾波

C、加權(quán)均值濾波

D、中值濾波

答案：C

22.以下關(guān)于pandas中g(shù)roupby方法說法正確的是0。

A、groupby能夠?qū)崿F(xiàn)分組聚合

B、groupby方法的結(jié)果能夠直接查看

C、groupby是pandas提供的一個用來分組的方法

D、groupby方法是pandas提供的一個用來聚合的方法

答案：C

23.MapReduce編程模型,鍵值對&It;key,vaIue>的key必須實(shí)現(xiàn)哪個接口0

AxWritabIeparable;

B、parable;

C、Writable;

D、LongWritabIe;

答案：A

24.下列()不是神經(jīng)網(wǎng)絡(luò)的代表。

A、卷積神經(jīng)網(wǎng)絡(luò)

B、遞歸神經(jīng)網(wǎng)絡(luò)

C、殘差網(wǎng)絡(luò)

D、xgboost算法

答案：D

25.某籃運(yùn)動員在三分線投球的命中率是2(1),他投球10次，恰好投進(jìn)3個球的

概率()。

A、128(15)

B、16(3)

C、8(5)

Dv16(7)

答案:A

26.標(biāo)準(zhǔn)正態(tài)分布的均數(shù)與標(biāo)準(zhǔn)差是0。

A、0,1

B、1,0

C、0,0

D、1,1

答案：A

27.為提高計(jì)算性能,Spark中Transformation操作采用的是()計(jì)算模式。

A、活性

B、惰性

C、實(shí)時

D、非實(shí)時

答案：B

28.matpIotIib中的step函數(shù)繪制的是什么圖()。

A、階梯圖

B、直方圖

C、間斷條形圖

D、堆積折線圖

答案：A

29.下面()負(fù)責(zé)MapReduce任務(wù)調(diào)度。

AvNameNode

B、Jobtracker

C\TaskTracker

D、secondaryNameNode

答案：B

30.()計(jì)算框架源自一種分布式計(jì)算模型，其輸入和輸出值均為“鍵-值對”結(jié)構(gòu)。

AxMahout

B、MapReduce

C、Spark

D、Sqoop

答案：B

31.Hadoop中biner()函數(shù)的功能是0。

A、數(shù)據(jù)排序

B、數(shù)據(jù)標(biāo)記

C、數(shù)據(jù)分析

D、數(shù)據(jù)合并

答案：D

32.假設(shè)函數(shù)中不包括global保留字,對于改變參數(shù)值的方法，以下選項(xiàng)中錯誤

的是()。

A、參數(shù)是列表類型時，改變原參數(shù)的值

B、參數(shù)的值是否改變與函數(shù)中對變量的操作有關(guān),與參數(shù)類型無關(guān)

C、參數(shù)是整數(shù)類型時,不改變原參數(shù)的值

D、參數(shù)是組合類型(可變對象)時，改變原參數(shù)的值

答案：B

33.下面哪個屬于映射數(shù)據(jù)到新的空間的方法()。

A、傅立葉變換

B、特征加權(quán)

C、漸進(jìn)抽樣

D、維歸約

答案：A

34.下列關(guān)于運(yùn)算符優(yōu)先級的說法中，不正確的一個是0。

A、運(yùn)算符按照優(yōu)先級順序表進(jìn)行運(yùn)算

B、同一優(yōu)先級的運(yùn)算符在表達(dá)式中都是按照從左到右的順序進(jìn)行運(yùn)算的

C、同一優(yōu)先級的運(yùn)算符在表達(dá)式中都是按照從右到左的順序進(jìn)行運(yùn)算的

D、括號可以改變運(yùn)算的優(yōu)先次序

答案：C

35.matpIotIib中的legend函數(shù)作用是什么()。

A、設(shè)置標(biāo)簽文本

B、繪制網(wǎng)格線

Cx標(biāo)示不同圖形的文本標(biāo)簽圖例

D、設(shè)置x軸的數(shù)值顯示范圍

答案：C

36.為了降低MapReduce兩個階段之間的數(shù)據(jù)傳遞量,一般采用()函數(shù)對map階段

的輸出進(jìn)行處理。

A、sort()

B、biner()

C、join()

D、gather()

答案：B

37.以下不屬于有監(jiān)督的詞義消歧方法的是()。

A、Flip-Flop算法

B、貝葉斯分類器

C、最大熔消歧

D、基于詞典的消歧

答案：D

38.如果我們說線性回歸模型完美地?cái)M合了訓(xùn)練樣本(訓(xùn)練樣本誤差為零)，則下

面哪個說法是正確的()

A、測試樣本誤差始終為零

B、測試樣本誤差不可能為零

C、以上答案都不對

答案：C

39.視覺通道表現(xiàn)力評價指標(biāo)不包括0。

A、精確性

B、可辨認(rèn)性

C、可分離性

D、可轉(zhuǎn)換性

答案：D

40.下列哪個不是RDD的緩存方法()

Axpersist

B、cache

C、Memory

D、以上答案都正確

答案：C

41.下列算法中，不屬于外推法的是()。

A、移動平均法

B、回歸分析法

C、指數(shù)平滑法

D、季節(jié)指數(shù)法

答案：B

42.關(guān)于臟數(shù)據(jù)和亂數(shù)據(jù)的區(qū)分，以下哪種不屬于臟數(shù)據(jù)()。

A、含有缺失數(shù)據(jù)

B、冗余數(shù)據(jù)

C、噪聲數(shù)據(jù)

D、不規(guī)則形態(tài)數(shù)據(jù)

答案：D

43.數(shù)據(jù)集成的基本類型。

A、內(nèi)容集成結(jié)構(gòu)集成

B、內(nèi)容集成規(guī)約集成

C、規(guī)約集成結(jié)構(gòu)集成

D、模式集成結(jié)構(gòu)集成參

答案：A

44.隨機(jī)森林與Bagging中基學(xué)習(xí)器多樣性的區(qū)別是0。

A、都來自樣本擾動

B、都來自屬性擾動

C、來自樣本擾動和自屬性擾動

D、多樣本集結(jié)合

答案：C

45.RDD默認(rèn)的存儲級別是()

A、MEMORY_ONLY

B、MEMORY_ONLY_SER

C、MEMORY_AND,DISK

D、MEMORY_AND_DISK_SER

答案：A

46.下列哪種算法可以用神經(jīng)網(wǎng)絡(luò)構(gòu)建？(_)1.K-NN最近鄰算法2.線性回歸3.邏

輯回歸

A、1and2

B、2and3

C\1,2and3

D、Noneoftheabove

答案：B

47.()的主要目標(biāo)是提供可擴(kuò)展的機(jī)器學(xué)習(xí)算法及其實(shí)現(xiàn)，旨在幫助開發(fā)人員更

加方便快捷地創(chuàng)建智能應(yīng)用程序。

AxMahout

B、FIume

C、Sqoop

D、HBase

答案：A

48.下列關(guān)于LSTM說法錯誤的是(_)o

A、LSTM中存在sigmoid函數(shù)

B、LSTM中存在tanh函數(shù)

C、LSTM又稱長短時記憶網(wǎng)絡(luò)

D、RNN是LSTM的變種

答案：D

49.在集成學(xué)習(xí)中,對于數(shù)據(jù)型輸出，最常見的結(jié)合策略是0。

A、平均法

B、投票法

C、學(xué)習(xí)法

D、以上答案都正確

答案：A

50.以下關(guān)于Hadoop中MapReduce說法正確的是()。

A、可以沒有reduce任務(wù)

B、Reducer輸入為隨機(jī)輸入

C、shuffle主要實(shí)現(xiàn)數(shù)據(jù)可視化功能

D、一個reducer只能從一個map復(fù)制所需要的partition

答案：A

51.對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,下列說法正確

的是()。

A、需要將這些樣本全部強(qiáng)制轉(zhuǎn)換為支持向量

B、需要將這些樣本中可以轉(zhuǎn)化的樣本轉(zhuǎn)換為支持向量,不能轉(zhuǎn)換的直接刪除

C、移去或者減少這些樣本對分類結(jié)果沒有影響

D、以上都不對

答案：C

52.以下哪個數(shù)據(jù)類型不可以作為索引對數(shù)組進(jìn)行選取()。

Axboolean

B、tupIe

C\dict

D、int

答案：C

53.如果我們現(xiàn)有一個安裝2.6.5版本的hadoop集群,在不修改默認(rèn)配置的情況

下存儲200個每個200M的文本文件,請問最終會在集群中產(chǎn)生多少個數(shù)據(jù)塊(包

括副本)()

A、200

B、40000

C、400

D、1200

答案：D

54.數(shù)據(jù)科學(xué)家可能會同時使用多個算法(模型)進(jìn)行預(yù)測,并且最后把這些算法

的結(jié)果集成起來進(jìn)行最后的預(yù)測(集成學(xué)習(xí))，以下對集成學(xué)習(xí)說法正確的是()。

A、單個模型之間具有高相關(guān)性

B、單個模型之間具有低相關(guān)性

C、在集成學(xué)習(xí)中使用“平均權(quán)重”而不是“投票”會比較好

D、單個模型都是用的一個算法

答案：B

55.(假設(shè)precision=TP/(TP+FP),recalI=TP/(TP+FN))在二分類問題中，當(dāng)測試

集的正例和負(fù)例數(shù)量不均衡時,以下評價方案哪個是相對不合理的()。

A、Accuracy:(TP+TN)/alI

BxF-vaIue:2recaIIprecision/(recaIl+precision)

C、G-mean:sqrt(precision*recaII)

D、AUC:曲線下面積

答案：A

56.以下濾波器對圖像中的椒鹽噪聲濾波效果最好的是()。

A、中值濾波

B、均值濾波

C、最大值濾波

D、最小值濾波

答案：A

57.若建立一個5000個特征,100萬數(shù)據(jù)的機(jī)器學(xué)習(xí)模型，則應(yīng)該怎么有效地應(yīng)對

這樣的大數(shù)據(jù)訓(xùn)練()。

A、隨機(jī)抽取一些樣本,在這些少量樣本之上訓(xùn)練

B、可以試用在線機(jī)器學(xué)習(xí)算法

C、應(yīng)用PCA算法降維,減少特征數(shù)

D、以上答案都正確

答案：D

58.Python中定義私有屬性的方法是()。

A、使用private關(guān)鍵字

B、使用public關(guān)鍵字

C、使用_XX_定義屬性名

D、使用_XX定義屬性名

答案：D

59.模型構(gòu)建完畢需要對模型進(jìn)行評估量化,需要用到哪個模塊0。

A、utils

B、mixture

C、metrics

D、manifold

答案：C

60.以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法：()o

A、嵌入

B、過濾

C、包裝

D、抽樣

答案：D

61.有關(guān)數(shù)據(jù)倉庫的開發(fā)特點(diǎn)，不正確的描述是()。

A、數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)；

B、數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確；

C、數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程，是啟發(fā)式的開發(fā)；

D、在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)

倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式

答案：A

62.以下哪一種分布是二維隨機(jī)變量的分布()。

A、正態(tài)分布

B、二項(xiàng)分布

C、邊緣分布

D、指數(shù)分布

答案：C

63.輸入圖像為32x32,經(jīng)過步長為1.不進(jìn)行padding,卷積核為5x5的卷積層后,

得到的特征圖尺寸是多少0

A、28x28

B、27x27

C、29x29

D、32x32;

答案：A

64.讀代碼，請寫出程序正確的答案()。#!/usr/bin/envpython3N=1OOSum=OCoun

ter=1WhiIecounter&11;=n:Sum+counterCounter+=1Print("1到%<1之和為:％d"%

(n,sum))

A、結(jié)果：1到100之和為:5000

B、結(jié)果:1到100之和為:0

C、結(jié)果：1到100之和為:2050

D、結(jié)果：1到100之和為:5020

答案：B

65.大數(shù)據(jù)平臺核心分布式存儲與計(jì)算組件采用Hadoop技術(shù)體系中分布式存儲、

分布式計(jì)算框架,及Spark等開源產(chǎn)品和技術(shù),實(shí)現(xiàn)對數(shù)據(jù)的安全控制和管理功

能，其中分布式存儲不包括()。

A、HDFS

B、PostgresqI

C^Hive

D、HBase

答案：B

66.scikit-learn中的k-means類，哪個參數(shù)是用來調(diào)節(jié)k值的()。

Axn_cIusters

Bxmax_iter

C、n_init

D、init

答案：A

67.任一隨機(jī)事件出現(xiàn)的概率為()

A、在-1與1之間

B、小于0

C、不小于1

D、在。與1之間

答案：D

68.對連續(xù)圖像的離散化采樣決定了圖像的()。

A、空間分辨率

B、時間分辨率

C、地面分辨率

D、灰度值

答案：A

69.Spark的劣勢()

A、運(yùn)算速度快

B、業(yè)務(wù)實(shí)現(xiàn)需要較少代碼

C、提供很多現(xiàn)成函數(shù)

D、需要更多機(jī)器內(nèi)存

答案：D

70.決策樹中的葉結(jié)點(diǎn)對應(yīng)于：)。

A、屬性

B、樣本

C、決策結(jié)果

D、標(biāo)簽值

答案：C

71.MapReduce對map()函數(shù)的返回值進(jìn)行處理后再返回給reduce()函數(shù)的目的

是()。

A、減少map()函數(shù)和reduce：)函數(shù)之間的數(shù)據(jù)傳輸

B、優(yōu)化map()函數(shù)

C、優(yōu)化reduce。函數(shù)

D、這一步驟并無必要

答案：A

72.關(guān)于表述數(shù)據(jù)可視化在數(shù)據(jù)科學(xué)中重要地位說法中，下列不正確的是0。

A、視覺是人類獲得信息的最主要途徑

B、數(shù)據(jù)可視化處理可以洞察統(tǒng)計(jì)分析無法發(fā)現(xiàn)的結(jié)構(gòu)和細(xì)節(jié)

C、數(shù)據(jù)可視化處理結(jié)果的解讀對用戶知識水平的要求較高

D、可視化能夠幫助人們提高理解與處理數(shù)據(jù)的效率

答案：C

73.arr1=np.arange(0,20,1),arr2=arr1.reshape(4,5),arr2(1:3,1］的輸出結(jié)

果為()°

A、[[6],[11]]

B、[[5],[10]]

C、[6,11]

D、[5,10]

答案：C

74.下列哪項(xiàng)方法不屬于圖像分割方法0。

A、邊緣檢測法

B、閾值分割法

C、區(qū)域分割法

D、特征提取法

答案：D

75.為了允許支持向量機(jī)在一些樣本上出錯,引入()的概念。

A、軟間隔

B、硬間隔

C、間隔

D、誤差

答案：A

76.以下不是開源工具特點(diǎn)的是0。

A、免費(fèi)

B、可以直接獲取源代碼

C、用戶可以修改源代碼并不加說明用于自己的軟件中

D、開源工具一樣具有版權(quán)

答案：C

77.關(guān)于缺失值填補(bǔ),不正確的說法是0。

A、填補(bǔ)數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等

B、pandas,dropna可以用來填補(bǔ)缺失值

C、用平均值填補(bǔ)會引入相關(guān)性

D、啞變量填補(bǔ)是將缺失值當(dāng)做一類新特征處理

答案：B

78.下列哪個函數(shù)可以計(jì)算字典元素個數(shù)()。

Axcmp

B、Ien

C、str

D、type

答案：B

79.()是Spark中的抽象數(shù)據(jù)模型。

A、RDD

B、ScheduIer

C\Storage

D、Shuffle

答案：A

80.Hadoop生態(tài)系統(tǒng)中，()主要解決的是日志類數(shù)據(jù)的收集和處理問題。

AxMahout

B、FIume

C、Sqoop

D、HBase

答案：B

81.一般將原始業(yè)務(wù)數(shù)據(jù)分為多個部分，()用于模型的構(gòu)建。

A、訓(xùn)練集

B、測試集

C、驗(yàn)證集

D、全部數(shù)據(jù)

答案：A

82.以下可以作為文本分類準(zhǔn)則的是()。

A、預(yù)測準(zhǔn)確率

B、魯棒性

C、可擴(kuò)展性

D、以上答案都正確

答案：D

83.“數(shù)據(jù)的故事化描述”是指為了提升數(shù)據(jù)的()和()，將數(shù)據(jù)還原成關(guān)聯(lián)至特定

的情景的過程。

A、可理解性可記憶性可體驗(yàn)性

B、可接受性可記憶性可體驗(yàn)性

C、可接受性可記憶性可呈現(xiàn)性

D、可理解性可記憶性可呈線性

答案：A

84.以下代碼的輸出結(jié)果為()°ImportnumpyasnpA=np.arange(12).reshape(3,4)

Print(np.deIete(a,5))

A、[[0123][4567][891011]]

B、[0123467891011]

C、[[023][467][81011]]

D、[246810]

答案：B

85.傅里葉變換得到的頻譜中，低頻系數(shù)對應(yīng)于0。

A、物體邊緣

B、噪聲

C、變化平緩部分

D、變化劇烈部分

答案：C

86.下列程序打印結(jié)果為0oImportreStr^'Tython'sfeatures"Str2=re.match

(r,(.*)on(.*?).,str1,re.M|re.l)Print(str2.group(1))

AxPython

B、Pyth

Cxthons

D、Python^features

答案：B

87.scipy.stats,isf函數(shù)的作用是0。

A、隨機(jī)變量的生存函數(shù)

B、scipy.stats,sf的逆

C、計(jì)算隨機(jī)變量的期望和方差

D、隨機(jī)變量的累積分布函數(shù)

答案：B

88.ApacheSqoop主要設(shè)計(jì)目的是0。

A、數(shù)據(jù)清洗

B、數(shù)據(jù)轉(zhuǎn)化

C、數(shù)據(jù)ETL

D、數(shù)據(jù)可視化

答案：C

89.如果需要訓(xùn)練的特征維度成千上萬,在高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏、距離

計(jì)算困難。我們通過什么方法可以緩解這個問題0。

A、K均值算法

B、支持向量機(jī)

G降維

D、以上答案都不正確

答案：C

90.關(guān)于S0M神經(jīng)網(wǎng)絡(luò)描述錯誤的是：（_）o

A、一種競爭學(xué)習(xí)型的無監(jiān)督神經(jīng)網(wǎng)絡(luò)

B、將高維輸入數(shù)據(jù)映射到低維空間，保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu)

C、SOM尋優(yōu)目標(biāo)為每個輸出神經(jīng)元找到合適的權(quán)重

D、輸出層神經(jīng)元以矩陣方式排列在二維空間

答案：C

91.下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù)(_)。

A、等高線圖

B、餅圖

C、曲面圖

D、矢量場圖

答案：B

92.在TF-IDF算法中,在計(jì)算完詞頻與逆文檔頻率后,將二者0后得到最終的結(jié)

果。

A、相加

B、相減

C、相乘

D、相除

答案：C

93.jieba的哪一種模式會把文本精確切分,不存在冗余單詞()。

A、匹配模式

B、全模式

C、精準(zhǔn)模式

D、搜索引擎模式

答案：C

94.關(guān)于Spark的說法中，()是錯誤的。

A、采用內(nèi)存計(jì)算模式

B、可利用多種語言編程

C、主要用于批處理

D、可進(jìn)行map()操作

答案：C

95.()對應(yīng)于決策樹結(jié)果，其他節(jié)點(diǎn)對應(yīng)于()。

A、葉節(jié)點(diǎn)，屬性測試

B、根結(jié)點(diǎn)，學(xué)習(xí)測試

C、內(nèi)部節(jié)點(diǎn)，學(xué)習(xí)測試

D、葉節(jié)點(diǎn),分類測試

答案：A

96.對于分類類型的變量，()是個非常好的展示工具。

A、柱狀圖

B、折線圖

C、餅狀圖

D、直方圖

答案：D

97.線性判別分析(LDA)從貝葉斯決策理論闡釋,當(dāng)兩類數(shù)據(jù)同先驗(yàn)且滿足()時,L

DA達(dá)到最優(yōu)分類。

A、滿足高斯分布

B、協(xié)方差相等

C、滿足高斯分布且協(xié)方差相等

D、協(xié)方差不等

答案：C

98.以下哪個模塊不是Scipy庫中的()。

A、cluster

B、random

C、signal

D\misc

答案：B

99.對于數(shù)據(jù)3,3,2,3,6,3,10,3,6,3.2.①這組數(shù)據(jù)的眾數(shù)是3;②這組數(shù)據(jù)的眾

數(shù)與中位數(shù)的數(shù)值不相等;③這組數(shù)據(jù)的中位數(shù)與平均數(shù)的數(shù)值不相等;④這組

數(shù)據(jù)的平均數(shù)與眾數(shù)的數(shù)值相等.其中正確結(jié)論的個數(shù)為()。

A、1

B、2

C、3

D、4

答案：B

100.給定一個長度為n的不完整單詞序列,我們希望預(yù)測下一個字母是什么。比

如輸入是predictio(9個字母組成),希望預(yù)測第十個字母是什么。下面哪種神經(jīng)

網(wǎng)絡(luò)結(jié)構(gòu)適用于解決這個工作0

A、循環(huán)神經(jīng)網(wǎng)絡(luò)

B、全連接神經(jīng)網(wǎng)絡(luò)

C、受限波爾茲曼機(jī)

D、卷積神經(jīng)網(wǎng)絡(luò)

答案：A

101.假設(shè)你在卷積神經(jīng)網(wǎng)絡(luò)的第一層中有5個卷積核,每個卷積核尺寸為7X7,

具有零填充且步幅為1。該層的輸入圖片的維度是224X224X3。那么該層輸出

的維度是多少0

A、217x217x3

B、217x217x8

C、218x218x5

D、220x220x7

答案：C

102.以下使用其本身可以達(dá)成數(shù)據(jù)透視功能的函數(shù)是()。

A、groupby

B、transform

Cvcrosstab

Dvpivot_tabIe

答案：D

103.在python3中以下安裝第三方模塊命令正確的是()。

A、pip-instaIIskIearn

B、pipinstalIsklearn

Cvpip-upgragesklearn

D、pip-iskiearn

答案：B

104.下列關(guān)于線性回歸分析中的殘差說法正確的是0。

A、殘差均值總是為零

B、殘差均值總是約等于零

C、殘差均值總是大于零

D、以上答案都不正確

答案：A

105.stats,describe()函數(shù)的作用是()。

A、計(jì)算變異系數(shù)

B、計(jì)算數(shù)據(jù)集的樣本偏度

C、計(jì)算所傳遞數(shù)組的幾個描述性統(tǒng)計(jì)信息

D、計(jì)算關(guān)于樣本平均值的第n個矩

答案：C

106.()是人們從(多條)信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論和方法等。

A、信息

B、知識

C、理解

D、智慧

答案：B

107.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)

的()、不可恢復(fù)，如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。

A、暫時隔離

B、暫時刪除

C、永久刪除

D、不作處理

答案：C

108.在Hadoop生態(tài)系統(tǒng)中，()可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并

提供簡單的查詢語言。

A、Pig

B、Hbase

C、Hive

D、MapReduce

答案：C

109.Python語句print(OxA+OxB)的輸出結(jié)果是()。。

A、OxA+OxB

B、A+B

C、OxAOxB

D、21

答案：D

110.有數(shù)組arr=Numpy.array([1,2,3,4]),執(zhí)行arr.dtype后輸出結(jié)果為()。

A、int32

B、int64

C、fIoat32

D\fIoat64

答案：A

111.以下選項(xiàng)中哪個不屬于數(shù)據(jù)預(yù)處理的方法0。

A、數(shù)據(jù)清洗

B、數(shù)據(jù)集成

C、數(shù)據(jù)變換

D、數(shù)據(jù)統(tǒng)計(jì)

答案：D

112.CNN神經(jīng)網(wǎng)絡(luò)對圖像特征提取帶來了變革性的變化，使之前的人工特征提取

升級到數(shù)據(jù)驅(qū)動的自動特征提取,在CNN中,起到特征提取作用的網(wǎng)絡(luò)層是：(_)o

Axconvolution

B、fullconnect層

C、maxpooling層

D、norm層

答案：A

113.下列關(guān)于文本分類的說法不正確的是()。

A、文本分類是指按照預(yù)先定義的主題類別，由計(jì)算機(jī)自動地為文檔集合中的每個

文檔確定一個類別

B、文本分類大致可分為基于知識工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)

C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序

D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個步驟

答案：C

114.聚類算法的性能度量可稱為()o

Ax密度估計(jì)

B、異常檢測

C、有效性指標(biāo)

D、分布結(jié)構(gòu)

答案：C

115.數(shù)據(jù)整合和分組的說法,不正確的是0。

A、數(shù)據(jù)連接可以用concat或merge函數(shù)

B\axis=1表示軸向連接

C、數(shù)據(jù)分組可以使用mean函數(shù)

D、使用agg可以自定義多個聚合函數(shù)

答案：C

116.評估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbias),應(yīng)該如何解決()o

A、減少模型的特征數(shù)量

B、增加模型的特征數(shù)量

C、增加樣本數(shù)量

D、以上答案都正確

答案：B

117.MatpIotIib的核心是面向0<>

A、過程

B、對象

C、結(jié)果

D、服務(wù)

答案：B

118.scipy.stats模塊中隨機(jī)變量的殘存函數(shù)是()。

Axcdf

B、rvs

C、pdf

D、sf

答案：D

119.以下內(nèi)容符合物體識別任務(wù)的是0。

A、不能對圖像進(jìn)行壓縮或剪裁

B、遵守誤差最小準(zhǔn)則和最佳近似準(zhǔn)則

C、可以不指定分類的類別數(shù)量

D、事先給定樣本的分布特征

答案：B

120.以下關(guān)于圖像平滑的敘述中錯誤的是()。

A、可以減少噪聲

B、可以使圖像變得均勻

C、圖像的細(xì)節(jié)部分可以不保持原有特征

D、可以采用基于卷積的濾波方法

答案：C

121.K-mearis++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相

互距離要盡可能的遠(yuǎn)。那么算法流程為()。1.從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一

個點(diǎn)作為第一個聚類中心2.對于數(shù)據(jù)集中的每一個點(diǎn)X,計(jì)算它與最近聚類中心

(指已選擇的聚類中心)的距離D(x)3.選擇一個新的數(shù)據(jù)點(diǎn)作為新的聚類中心,

選擇的原則是:D(x)較大的點(diǎn),被選取作為聚類中心的概率較大4.重復(fù)2和3直

到k個聚類中心被選出來5.利用這k個初始的聚類中心來運(yùn)行標(biāo)準(zhǔn)的k-means

算法

A、2.5.4.3.1

B、1.5.4.2.3

C、1.2.3.4.5

D、4.3.2.1.5

答案：C

122.留出法直接將數(shù)據(jù)集劃分為()個互斥的集合。

A、—

B、二

C、三

D、四

答案：B

123.a=1,b=2,c=3,以下表達(dá)式值為True的是()°

A、a>=bor(c+5)%3==1

B、not(a==1andb!=c)

C、notaandb==c

D、aanda+b>=c

答案：D

124.機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好,稱為0o

A、訓(xùn)練偏好

B、歸納偏好

C、分析偏好

D、假設(shè)偏好

答案：B

125.下列關(guān)于L1正則化與L2正則化描述錯誤的是0。

A、L1范數(shù)正則化有助于降低過擬合風(fēng)險(xiǎn)

B、L2范數(shù)正則化有助于降低過擬合風(fēng)險(xiǎn)

C、L1范數(shù)正則化比L2范數(shù)正則化更有易于獲得稀疏解

D、L2范數(shù)正則化比L1范數(shù)正則化更有易于獲得稀疏解

答案：C

126.Seikit-Learn中()可以實(shí)現(xiàn)計(jì)算模型準(zhǔn)確率。

A、accuracy_score

B、accuracy

C、f1_score

Dvf2_score

答案：A

127.下面哪個操作是窄依賴()

A、join

B、fiIter

Cvgroup

D、sort

答案：B

128.當(dāng)相關(guān)系數(shù)『0時,說明：)。

A、現(xiàn)象之間相關(guān)程度較小

B、現(xiàn)象之間完全相關(guān)

C、現(xiàn)象之間無直線相關(guān)

D、現(xiàn)象之間完全無關(guān)

答案：C

129.不屬于Mayer-Sch?nbergerV和CukierK,在其著名論著《Bigdata:Arevolu

tionthatwiIItransformhowweIive,work,andthink》中提出了大數(shù)據(jù)時代統(tǒng)計(jì)的

思維變革的是()。

A、不是隨機(jī)樣本，而是全體數(shù)據(jù)

B、不是精確性，而是混雜性

C、不是描述性分析，而是預(yù)測性分析

D、不是因果關(guān)系,而是相關(guān)關(guān)系

答案：C

130.通過KMeans算法進(jìn)行聚類分析后得出的聚類結(jié)果的特征是()。

A、同一聚類中的對象間相似度高,不同聚類中的對象間相似度高

B、同一聚類中的對象間相似度高,不同聚類中的對象間相似度低

C、同一聚類中的對象間相似度低,不同聚類中的對象間相似度低

D、同一聚類中的對象間相似度低,不同聚類中的對象間相似度高

答案：B

131.支持向量回歸與傳統(tǒng)回歸模型的差別()。

A、模型輸出與真實(shí)值相同

B、模型輸出與真實(shí)值存在￡偏差

C、模型輸出大于真實(shí)值

D、模型輸出小于真實(shí)值

答案：B

132.下列有關(guān)HDFS的容錯機(jī)制描述錯誤的是0。

A、HDFS可以使用機(jī)架位感知的方法實(shí)現(xiàn)容錯機(jī)制；

B、HDFS可以使用基于erasurecode的方法實(shí)現(xiàn)容錯機(jī)制；

C、HDFS使用機(jī)架位感知的方法先把一份拷貝放入同機(jī)架上的機(jī)器,然后再拷貝

一份到其他服務(wù)器；

D、HDFS使用機(jī)架位感知的方法先把一份拷貝放入同機(jī)架上的機(jī)器,然后再拷貝

一份到同機(jī)架機(jī)器的不同位置上；

答案：D

133.a=np.arange(10),a［2:4］截取到的數(shù)組為0。

A、［1,2,3］

B、【2,3,4】

C、［2,3】

D、［1,2］

答案：C

134.下列關(guān)于分詞的說法正確的是()

A、中文句子字之間沒有空格，無法分詞

B、一個句子的分詞結(jié)果是唯一的

C、中文分詞是將一系列無空格間隔字符串分割成一系列單詞的過程

D、分詞沒有實(shí)際應(yīng)用價值

答案：C

135.()是交叉驗(yàn)證法的一種特例。

A、自助法

B、留一法

C、交叉驗(yàn)證法

D、錯誤率分析

答案：B

136.假設(shè)已從標(biāo)準(zhǔn)庫functools導(dǎo)入reduce()函數(shù)，那么表達(dá)式reduce(Iambda

x,y:x+y,[1,2,3])的值為()。

AxNone

B、6

C、3

D、9

答案：B

137.如何交換二維Numpy數(shù)組中的兩列0。在數(shù)組arr中交換列1和20arr=np.

arange(9).reshape(3,3)

A、arr[[1,0,2]]

B、arr[1,0,3]]

C、arr[:,[1,0,1]]

D、arr[:,[1,0]]

答案：A

138.Python語句Iist(range,10,3))執(zhí)行結(jié)果為()。

A、[1,10,30]

B、[1,3,6,9]

C、[1,4,7]

D、[2,5,8]

答案：C

133假設(shè)有列表a=[name','age','sex'】和b二9Dong',38,'MaIe'】，請使用

一個語句將這兩個列表的內(nèi)容轉(zhuǎn)換為字典,并且以列表a中的元素為“鍵”，以列

表b中的元素為“值”，這個語句可以寫為()。

Axc=dict(cross(a,b))

B、c=dict(zip(a,b))

C、c=map(zip(a,b))

D、c=b

答案：B

140.如何從一個數(shù)組中移除那些存在于另一個數(shù)組中的項(xiàng)()。A=np.array(11,

2,3,4,5])B=np.array([5,6,7,8,9])期望輸出：array([1,2,3,4】)

Axnp.setdiff1d(a,b)

B、setdiffld(a)

C、setdiffld(b)

D、以上答案都不正確

答案：A

141.在邏輯回歸輸出與目標(biāo)對比的情況下，以下評估指標(biāo)中哪一項(xiàng)不適用()o

A、AUC-ROC

B、準(zhǔn)確度

C、Logloss

D、均方誤差

答案：D

142.Numpy中對數(shù)組進(jìn)行轉(zhuǎn)置的函數(shù)是哪個0。

Axtranspose()

B、rolIaxis()

C、swapaxes()

Dxtan()

答案：A

143.Seaborn要求原始數(shù)據(jù)的輸入類型不能是()

A\Dataframe

B、Series

C\Numpy

答案：B

144.數(shù)據(jù)可視化的本質(zhì)是0。

A、將數(shù)據(jù)轉(zhuǎn)換為知識

B、將知識轉(zhuǎn)換為數(shù)據(jù)

C、將數(shù)據(jù)轉(zhuǎn)換為信息

D、將信息轉(zhuǎn)換為智慧

答案：A

145.大數(shù)據(jù)平臺技術(shù)架構(gòu)不包含的是()

A、數(shù)據(jù)整合

B、數(shù)據(jù)存儲

C、數(shù)據(jù)計(jì)算

D、數(shù)據(jù)溯源

答案：D

146.機(jī)器學(xué)習(xí)中L1正則化和L2正則化的區(qū)別是()。

A、使用L1可以得到稀疏的權(quán)值，使用L2可以得到平滑的權(quán)值

B、使用L1可以得到平滑的權(quán)值，使用L2可以得到平滑的權(quán)值

C、使用L1可以得到平滑的權(quán)值，使用L2可以得到稀疏的權(quán)值

D、使用L1可以得到稀疏的權(quán)值，使用L2可以得到稀疏的權(quán)值

答案：A

147.下列關(guān)于關(guān)鍵詞提取的說法錯誤的是()

A、關(guān)鍵詞提取是指借用自然語言處理方法提取文章關(guān)鍵詞

B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法

C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題

D、這個問題設(shè)計(jì)數(shù)據(jù)挖掘，文本處理，信息檢索等領(lǐng)域；

答案：C

148.考慮值集{12243324556826},其四分位數(shù)極差是：()

A、21

B、24

C、55

D、3

答案：A

149.在Hadoop中，下面哪個是默認(rèn)的InputFormat類型,它將每行內(nèi)容作為新值，

而將字節(jié)偏移量作為key()o

AxFilelnputFormat

B、TextInputFormat

C\KeyVaIueTextInputFormat

DxbineTextInputFormat

答案：B

150.pynlpir是一種常用的自然語言理解工具包,其中進(jìn)行分詞處理的函數(shù)是()。

Avopen()

B、segment()

C、AddllserWord()

D、generate0

答案：B

151.一元線性回歸方程y=0.7+0.82x,判定系數(shù)等于0.64,則x與y的相關(guān)系數(shù)為

A、0.82

B、0.64

C、0.8

D、0.7

答案：C

152.關(guān)于Python文件處理，以下選項(xiàng)中描述錯誤的是0。

A、Python能處理JPG圖像文件

B、Python不可以處理PDF文件CPython能處理

C、SV文件

D、Python能處理ExceI文件

答案：B

153,劃分聚類算法是一種簡單的較為基本的重要聚類方法。它的主要思想是通過

將數(shù)據(jù)點(diǎn)集分為0個劃分,并使用重復(fù)的控制策略使某個準(zhǔn)則最優(yōu)化,以達(dá)到最

終的結(jié)果

A、D

B、K

C、E

D、F

答案：B

154.關(guān)于Python語言的特點(diǎn),以下選項(xiàng)中描述錯誤的是()。

A、Python語言是非開源語言

B、Python語言是跨平臺語言

C、Python語言是多模型語言

D、Python語言是腳本語言

答案：A

155.不屬于判別式模型的是()。

A、決策樹

B、BP神經(jīng)網(wǎng)絡(luò)

C、支持向量機(jī)

D、貝葉斯

答案：D

156,聚類是一種典型的無監(jiān)督學(xué)習(xí)任務(wù),然而在現(xiàn)實(shí)聚類任務(wù)中我們往往能獲得

一些額外的監(jiān)督信息,于是可通過()來利用監(jiān)督信息以獲得更好的聚類效果。

A、監(jiān)督聚類

B、半監(jiān)督聚類

C、聚類

D、直推聚類

答案：B

157.如果在大型數(shù)據(jù)集上訓(xùn)練決策樹。為了花費(fèi)更少的時間來訓(xùn)練這個模型,下

列哪種做法是正確的()

A、增加樹的深度

B、增加學(xué)習(xí)率

C、減小樹的深度

D、減少樹的數(shù)量

答案：C

158.Python中的os模塊常見方法描述錯誤的是()。

A、os.remove。刪除文件

B、os.rename()重命名文件

C、os.walk。讀取所有的目錄名

D、os.chdir()改變目錄

答案：C

159.多分類圖像識別任務(wù)常采用()作為輸出的編碼方式。

A、二進(jìn)制編碼

B、one-hot編碼

C、霍夫曼編碼

D、曼切斯特編碼

答案：B

160.表達(dá)式int(，10「，2)的值為()。

A、5

B、6

C、10

D、3

答案：A

161.以下關(guān)于模塊說法錯誤的是()。

A、一個xx.py就是一個模塊；

B、任何一個普通的xx.py文件可以作為模塊導(dǎo)入；

C、模塊文件的擴(kuò)展名不一定是.py；

D、運(yùn)行時會從制定的目錄搜索導(dǎo)入的模塊,如果沒有,會報(bào)錯異常

答案：C

162.當(dāng)try子句中沒有任何錯誤時,一定不會執(zhí)行()語句。

A、try

B、sIse

C\except

Dxfinally

答案：C

163.假設(shè)你需要調(diào)整參數(shù)來最小化代價函數(shù)(costfunction),會使用()技術(shù)。

A、窮舉搜索

B、隨機(jī)搜索

C、Bayesian優(yōu)化

D、以上全是

答案：D

164.下面哪項(xiàng)不屬于循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出模式。(_)

A、單輸出

B、多輸出

Cv同步多輸出

D、異步多輸出

答案：C

165.np.sort()函數(shù)返回的是0。

A、已排序的原數(shù)組

B、排好序的數(shù)組拷貝

C、原數(shù)組

D、原數(shù)組的拷貝

答案：B

166.在Apriori算法中，候選項(xiàng)集劃分為不同的桶,存放在（）中。

A、字典

B、集合

C、Hash樹

D、列表

答案：C

167.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為0。

A、信息（活動）價值鏈和信息技術(shù)價值鏈

B、信息技術(shù)價值鏈和信息（活動）價值鏈

C、信息交互價值鏈和信息技術(shù)價值鏈

D、信息（活動）價值鏈和信息交互價值鏈

答案：A

168.情感信息歸納常見的存在形式是0。

A、語料庫

B、情感文摘

C、情感評論

D、情感傾向

答案：B

169.以下關(guān)于副本和視圖描述錯誤的是（）。

A、Numpy的切片操作返回原數(shù)據(jù)的視圖

B、調(diào)用Ndarray的view。函數(shù)產(chǎn)生一個視圖

C、Python序列的切片操作，調(diào)用deepCopy()函數(shù)

D、調(diào)用Ndarray的copy()函數(shù)產(chǎn)生一個視圖

答案：D

170.屬于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用方向的是(_)o

A、圖像分類

B、目標(biāo)檢測

C、圖像語義分割

D、以上答案都正確

答案：D

171.下列不屬于數(shù)據(jù)科學(xué)跨平臺基礎(chǔ)設(shè)施和分析工具的是0。

A、微軟Azure

B、Google云平臺

C、阿里云

D、Adobephotoshop

答案：D

172.scipy庫中用于物理和數(shù)學(xué)常量計(jì)算的模塊是0。

A、scipy.cIuster

B、scipy.io

C\scipy.constants

D、scipy.Iinalg

答案：C

173.執(zhí)行如下代下：ImporttimePrint(time.time0)以下選項(xiàng)中描述錯誤的是()。

Axtime庫是Python的標(biāo)準(zhǔn)庫；

B、可使用time,ctime(),顯示為更可讀的形式;

C、time,sleep(5)推遲調(diào)用線程的運(yùn)行,單位為毫秒；

D、輸出自1970年1月1日00:00:00AM以來的秒數(shù)；

答案：C

174.Python語句:f=。pen(),以下選項(xiàng)中對f的描述錯誤的是()。

A、*f是文件句柄，用來在程序中表達(dá)文件

B、表達(dá)式print(f)執(zhí)行將報(bào)錯

C、*f是一個Python內(nèi)部變量類型

D、將千當(dāng)作文件對象,fread：)可以讀入文件全部信息

答案：B

175.常用的圖像去噪方法有()。

A、高斯濾波

B、中值濾波

C、P-M方程去噪

D、以上答案都正確

答案：D

176.運(yùn)行下面的代碼后，變量n的類型是0。N={)

A、set

B、list

C、未知類型

D、diet

答案：D

177.有N個樣本,一般用于訓(xùn)練,一般用于測試。若增大N值,則訓(xùn)練誤差和測試

誤差之間的差距會如何變化()。

A、增大

B、減小

C、無法確定

D、無明顯變化

答案:B

178.任何一個核函數(shù)都隱式地定義了一個()空間。

A、希爾伯特空間

B、再生希爾伯特空間

C、再生核希爾伯特空間

D、歐式空間

答案：C

179.選擇哪一個解作為輸出，將由學(xué)習(xí)算法的歸納偏好決定,常見的做法是引入

A、線性回歸

B、線性判別分析

C、正則化項(xiàng)

D、偏置項(xiàng)

答案：C

180.Numpy庫的主要功能是()。

A、科學(xué)計(jì)算

B、繪圖

C、爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)

D、機(jī)器學(xué)習(xí)庫

答案：A

181.下列關(guān)于可視化方法體系說法不正確的是0o

A、通常采用視覺圖形元素和視覺通道兩個維度進(jìn)行視覺編碼

B、常用的共性方法有統(tǒng)計(jì)圖表、圖論方法、視覺隱喻和圖形符號學(xué)等

C、領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果往往低于基礎(chǔ)方法的直接應(yīng)用

D、視覺編碼為其他數(shù)據(jù)可視化方法提供了方法學(xué)基礎(chǔ)

答案：C

182.設(shè)計(jì)為8層的卷積神經(jīng)網(wǎng)絡(luò)AIexNet網(wǎng)絡(luò)成功使用(_)函數(shù),其效果遠(yuǎn)遠(yuǎn)地

超過了Sigmoid函數(shù)。

A、ReLU函數(shù)

B、sigmoid函數(shù)

C、tanh函數(shù)

Dxsin函數(shù)

答案：A

183.線性模型中的權(quán)重w值可以看做各個屬性x的()。

A、正則化系數(shù)

B、對最終決策結(jié)果的貢獻(xiàn)度

C、高維映射

D、取值

答案：B

184.最早被提出的循環(huán)神經(jīng)網(wǎng)絡(luò)門控算法是什么()

A、長短期記憶網(wǎng)絡(luò)

B、門控循環(huán)單元網(wǎng)絡(luò)

C、堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)

D、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)

答案:A

185.如果只寫open(fiIename),那就是用()模式打開。

A、r

B、w

C、a

D、b

答案：A

186,依托0.結(jié)合應(yīng)用推進(jìn)數(shù)據(jù)歸集,形成統(tǒng)一的數(shù)據(jù)資源中心。

A、全業(yè)務(wù)數(shù)據(jù)中心和數(shù)據(jù)中臺

B、營銷基礎(chǔ)數(shù)據(jù)平臺和大數(shù)據(jù)平臺

C、全業(yè)務(wù)中心和營銷基礎(chǔ)數(shù)據(jù)平臺

D、全業(yè)務(wù)數(shù)據(jù)中心和大數(shù)據(jù)平臺

答案：A

187.MapReduce編程模型中以下組件哪個是最后執(zhí)行的()

A、Mapper

B、Partitioner

C、Reducer

D、RecordReader

答案：C

188.假如我們使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸入特征有100個(X1,X

2.....X100)o現(xiàn)在,我們把其中一個特征值擴(kuò)大10倍(例如是特征X1),然后用

相同的正則化參數(shù)對Lasso回歸進(jìn)行修正。那么,下列說法正確的是()

A、特征X1很可能被排除在模型之外

B、特征X1很可能還包含在模型之中

C、無法確定特征X1是否被舍

D、以上答案都不正確

答案：B

189.data=Numpy.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]]),

data的形狀(shape)為()。

A、(2,2,3)

B、(2,3,2)

C、(3,2,3)

D、(3,2,2)

答案：A

190.下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù)()。

A、等高線圖

B、餅圖

C、曲面圖

D、矢量場圖

答案：B

191.一個MapReduce程序中的MapTask的個數(shù)由什么決定()

A、輸入的總文件數(shù)

B、客戶端程序設(shè)置的mapTask的個數(shù)

C、FileinputFormat.getSpIits(JobContextjob)計(jì)算出的邏輯切片的數(shù)量

D、輸入的總文件大小/數(shù)據(jù)塊大小

答案：C

192.數(shù)據(jù)可視化的方法論基礎(chǔ)是()。

A、統(tǒng)計(jì)圖表

B、視覺編碼理論

C、圖論

D、圖形符號學(xué)

答案：B

193.當(dāng)特征值大致相等時會發(fā)生什么()

A、PCA將表現(xiàn)出色

B、PCA將表現(xiàn)不佳

C、不知道

D、以上都沒有

答案：B

194.訓(xùn)練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分

類：()。

A、正確

B、錯誤

答案：A

195.可分解為偏差、方差與噪聲之和的是()。

A、訓(xùn)練誤差(trainingerror)

B、經(jīng)驗(yàn)誤差(empiricaIerror)

C、均方誤差(meansquarederror)

D、泛化誤差(generalizationerror)

答案：D

196.以下()是對DMM(數(shù)據(jù)管理成熟度模型)中“已管理級”基本特點(diǎn)的正確表述。

A、組織機(jī)構(gòu)的數(shù)據(jù)管理關(guān)鍵活動能夠根據(jù)結(jié)構(gòu)自身的反饋以及外部環(huán)境的變革

進(jìn)行不斷優(yōu)化。

B、組織機(jī)構(gòu)已用定量化的方式管理其關(guān)鍵過程的執(zhí)行過程。

C、組織機(jī)構(gòu)只有在項(xiàng)目管理過程中執(zhí)行了D.M給出的關(guān)鍵過程,而缺乏機(jī)構(gòu)層次

的統(tǒng)籌與管理

D、組織機(jī)構(gòu)的數(shù)據(jù)管理工作超出了項(xiàng)目管理的范疇，由組織機(jī)構(gòu)統(tǒng)一管理了其數(shù)

據(jù)管理關(guān)鍵過程

答案：D

197.以下屬于圖像處理的常用方法有()。

A、圖像變換

B、圖像編碼壓縮

C、圖像增強(qiáng)和復(fù)原

D、以上答案都正確

答案：D

198.以下屬于深度學(xué)習(xí)框架的是

AxTensorfIow

B、Caffe

C\PyTorch

D、以上答案都正確

答案：D

199.下列關(guān)于支持向量的說法正確的是()。

A、到分類超平面的距離最近的且滿足一定條件的幾個訓(xùn)練樣本點(diǎn)是支持向量

B、訓(xùn)練集中的所有樣本點(diǎn)都是支持向量

C、每一類樣本集中都分別只有一個支持向量

D、支持向量的個數(shù)越多越好

答案：A

200.變量的不確定性越大,相對應(yīng)信息熠有什么變化0。

A、埼變小

B、煙變大

C、不變

D、以上答案都不正確

答案：B

201.LSTM中，(_)的作用是確定哪些新的信息留在細(xì)胞狀態(tài)中，并更新細(xì)胞狀態(tài)。

A、輸入門

B、遺忘門

C、輸出門

D、更新門

答案：A

202.數(shù)據(jù)管理成熟度模型中成熟度等級最高是哪一級()。

A、已優(yōu)化級

B、已測量級

C、已定義級

D、已管理級

答案：A

203.下列不屬于聚類性能度量外部指標(biāo)的是()。

A、Jaccard系數(shù)

B、FM系數(shù)

C、Rand指數(shù)

D、DB指數(shù)；

答案：D

204.執(zhí)行以下代碼段Print(bool(*False'))Print(bool())01,輸出為()。

A、TrueTrue

B、TrueFaIse

C、FaIseTrue

D、FaIseFaIse

答案：B

205.數(shù)據(jù)科學(xué)是一門以()為主要研究任務(wù)的獨(dú)立學(xué)科。

A、“數(shù)據(jù)驅(qū)動”“數(shù)據(jù)業(yè)務(wù)化”“數(shù)據(jù)洞見”“數(shù)據(jù)產(chǎn)品研發(fā)”和(或)”數(shù)據(jù)

生態(tài)系統(tǒng)的建設(shè)”

B、數(shù)據(jù)研發(fā)

C、數(shù)據(jù)處理

D、數(shù)據(jù)洞見

答案：A

206.Hadoop中，Reducer的三個階段是_0

AxShuffIe-Sort-Reduce

B、ShuffIe-Reduce-Sort

C、Reduce-ShuffIe-Sort

DxSort-ShuffIe-Reduce

答案：A

207.下列場景中最有可能應(yīng)用人工智能的是()。

A、刷臉辦電

B、輿情分析

C、信通巡檢機(jī)器人

D、以上答案都正確

答案：D

208.當(dāng)使用不同類型的數(shù)組進(jìn)行操作時,結(jié)果數(shù)組的類型會進(jìn)行()o

A、向下轉(zhuǎn)換

B、向上轉(zhuǎn)換

C、不進(jìn)行轉(zhuǎn)換

D、無法計(jì)算

答案：B

209.傳統(tǒng)目標(biāo)檢測流程包括0。

A、區(qū)域選擇

B、特征提取

C、分類器分類

D、以上答案都正確

答案：D

210.關(guān)于文件的打開方式,以下選項(xiàng)中描述正確的是()o

A、文件只能選擇二進(jìn)制或文本方式打開

B、文本文件只能以文本方式打開

C、所有文件都可能以文本方式打開

D、所有文件都可能以二進(jìn)制方式打開

答案：D

211.以下選項(xiàng)中，輸出結(jié)果是FaIse的是()。

A、>>>5isnot4

B、>>>5!=4

C、>>>FaIse!=0

D、>>>5is5

答案：C

212.以下說法正確的是()。

A、關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。

B、尋找模式和規(guī)則主要是對數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式

C、數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)律,從而能更好的完成描述數(shù)據(jù)、

預(yù)測數(shù)據(jù)等任務(wù)。

D、在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。

答案：C

213.在IBMPASS中，聚類算法分為分層聚類、KohonennetworkxK平均值聚類和0

四種。

A、系統(tǒng)聚類

B、兩步聚類

C、模型聚類

D、其它聚類

答案：B

214.下面哪行代碼最適合接受系統(tǒng)輸入的一個整數(shù)0。

A、num=input。

B、num=input("6")

C\num=int(input())

D、num=fIoat(input())

答案：C

215.如何在pyplot中設(shè)置x軸、y軸的刻度位置()。

AxxIabe1()、yIabeI()

B、xIim()vylim()

C\xscaIe()%yscaIe()

D、xticks()、yticks()

答案：D

216.導(dǎo)入模塊的方式錯誤的是()。

Avimportmo

B、frommoimport*;

C、importmoasm

D、importmfrommo

答案：D

217.特征工程的目的是()。

A、找到最合適的算法

B、得到最好的輸入數(shù)據(jù)

C、減低模型復(fù)雜度

D、加快計(jì)算速度

答案：B

218.關(guān)于bagging下列說法錯誤的是：()。

A、各基分類器之間有較強(qiáng)依賴,不可以進(jìn)行并行訓(xùn)練

B、最著名的算法之一是基于決策樹基分類器的隨機(jī)森林

C、當(dāng)訓(xùn)練樣本數(shù)量較少時,子集之間可能有重疊

D、為了讓基分類器之間互相獨(dú)立,需要將訓(xùn)練集分為若干子集

答案：A

219.對于數(shù)據(jù)3,3,2,3,6,3,10,3,6,3.2.①這組數(shù)據(jù)的眾數(shù)是3;②這組數(shù)據(jù)的

眾數(shù)與中位數(shù)的數(shù)值不相等;③這組數(shù)據(jù)的中位數(shù)與平均數(shù)的數(shù)值不相等;④這

組數(shù)據(jù)的平均數(shù)與眾數(shù)的數(shù)值相等.其中正確結(jié)論的個數(shù)為()。

A、1

B、2

C、3

D、4

答案：B

220.卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層(ConvolutionalIayer)由若干卷積單元組成，每

個卷積單元的參數(shù)都是通過反向傳播算法最佳化得到,其作用是(_)o

A、增強(qiáng)圖像

B、簡化圖像

C、特征提取

D、圖像處理

答案：C

221.關(guān)于層次聚類算法：(1)不斷重復(fù)直達(dá)達(dá)到預(yù)設(shè)的聚類簇?cái)?shù)⑵不斷合并距離

最近的聚類簇⑶對初始聚類簇和相應(yīng)的距離矩陣初始化⑷對合并得到的聚類

簇進(jìn)行更新。正確的執(zhí)行順序?yàn)?)。

A、1234

B、1324

C、3241

D、3412

答案：C

222.能使圖像亮度得到平緩漸變,減小突變梯度,改善圖像質(zhì)量的是()o

A、圖像平滑

B、圖像分類

C、圖像識別

D、圖像分割

答案:A

223.關(guān)于HDFS的特征,下列說法錯誤的是0。

A、支持超大文件

B、基于商用硬件

C、流式數(shù)據(jù)訪問

D、低吞吐量

答案：D

224,數(shù)組分割使用以下哪個函數(shù)()。

A、vstack()

B、hstack()

CxspIit()

D、view()

答案：C

225.以下說法正確的是0。

A、散點(diǎn)圖不能在子圖中繪制

B、散點(diǎn)圖的x軸刻度必須為數(shù)值

C、折線圖可以用作查看特征間的趨勢關(guān)系

D、箱線圖可以用來查看特征間的相關(guān)關(guān)系

答案：C

226.()選擇成為支持向量機(jī)的最大變數(shù)。

A、核函數(shù)

B、樣本空間

C、模型

D、算法

答案：A

227.關(guān)系云的一個重要功能是提供()。

A、數(shù)據(jù)庫即服務(wù)

B、虛擬服務(wù)

C、彈性計(jì)算

D、按需服務(wù)

答案：A

228.Python的sys模塊常用方法描述錯誤的是0°

A、sys.argv命令行參數(shù)List,第一個元素是程序本身路徑

B、sys.modules,keys()返回所有字典中的keys

C、sys.exc_info()獲取當(dāng)前正在處理的異常類

D、sys.exit(n)退出程序

答案：B

229.檢測一元正態(tài)分布中的離群點(diǎn),屬于異常檢測中的基于()的離群點(diǎn)檢測。

A、統(tǒng)計(jì)方法

B、鄰近度

C、密度

D、聚類技術(shù)

答案：A

230.數(shù)組允許批量計(jì)算而無須任何for循環(huán),這種特性叫()。

A、矩陣化；

B、便捷化；

C、批量化；

D、失量化；

答案：D

231.Hadoop生態(tài)系統(tǒng)中，HBase是一種()。

A、分布式文件系統(tǒng)

B、數(shù)據(jù)倉庫

C、實(shí)時分布式數(shù)據(jù)庫

D、分布式計(jì)算系統(tǒng)

答案：C

232.scipy中模塊integrate的作用是0。

A、程序輸入輸出

B、差值計(jì)算

C、計(jì)算積分

D、向量計(jì)算；

答案：C

233.下面哪個操作肯定是寬依賴()

A、map

B、flatMap

C、reduceByKey

DvsampIe

答案：C

234.關(guān)于Python賦值語句，以下選項(xiàng)中不合法的是0。

A、x=1;y=1

B、x=y=1

C、x=(y=1)

D、x,y=y,x

答案：C

235.關(guān)于混合模型聚類算法的優(yōu)缺點(diǎn),下面說法正確的是0。

A、當(dāng)簇只包含少量數(shù)據(jù)點(diǎn),或者數(shù)據(jù)點(diǎn)近似協(xié)線性時,混合模型也能很好地處理

B、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇

C、混合模型比K均值或模糊c均值更一般,因?yàn)樗梢允褂酶鞣N類型的分布

D、混合模型在有噪聲和離群點(diǎn)時不會存在問題

答案：C

236.()主要提供內(nèi)存計(jì)算框架

A、Spark核心層

B、資源計(jì)算層

C、服務(wù)核心層

D、Spark層

答案：A

237.下列核函數(shù)特性描述錯誤的是()。

A、只要一個對稱函數(shù)所對應(yīng)的核矩陣半正定，就能稱為核函數(shù)；

B、核函數(shù)選擇作為支持向量機(jī)的最大變數(shù)；

C、核函數(shù)將影響支持向量機(jī)的性能；

D、核函數(shù)是一種降維模型；

答案：D

238.以下說法不正確的是0。

A、卷積神經(jīng)網(wǎng)絡(luò)主要用于目標(biāo)識別、圖像分割等方面

B、循環(huán)神經(jīng)網(wǎng)絡(luò)主要用于處理序列數(shù)據(jù)

C、長短時記憶神經(jīng)網(wǎng)絡(luò)主要用于處理序列數(shù)據(jù)

D、長短時記憶神經(jīng)網(wǎng)絡(luò)是和循環(huán)神經(jīng)網(wǎng)絡(luò)完全不同的一種新型神經(jīng)網(wǎng)絡(luò)

答案：D

239.卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN),是一種專門用來處理具

有類似(_)的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。

A、網(wǎng)格結(jié)構(gòu)

B、數(shù)組結(jié)構(gòu)

C、序列結(jié)構(gòu)

D、表格結(jié)構(gòu)

答案：A

240.bootstrap數(shù)據(jù)是什么意思0。

A、有放回地從總共M個特征中抽樣m個特征

B、無放回地從總共M個特征中抽樣m個特征

C、有放回地從總共N個樣本中抽樣n個樣本

D、無放回地從總共N個樣本中抽樣n個樣本

答案：C

241.()采用概率模型來表達(dá)聚類原型。

A、k均值算法

B、學(xué)習(xí)向量量化

C、高斯混合聚類

D、密度聚類

答案：C

242.在Hadoop的分區(qū)階段，默認(rèn)的Partitioner是()。

A、RangePartitioner

B、Partitioner

CvHashPartitioner

D、用戶自定義的Partitioner

答案：C

243.決策樹的父節(jié)點(diǎn)和子節(jié)點(diǎn)的煽的大小關(guān)系是什么()。

A、父節(jié)點(diǎn)的熔更小

B、子節(jié)點(diǎn)的炳更小

C、兩者相等

D、根據(jù)具體情況而定

答案：B

244.以下選項(xiàng)中Python用于異常處理結(jié)構(gòu)中用來捕獲特定類型的異常的保留字

是()。

A、except

B、do

C\pass

D、while

答案：A

245.Python中StatsmodeIs庫適用于()場景。

A、統(tǒng)計(jì)分析

B、機(jī)器學(xué)習(xí)

C、圖像處理

D、數(shù)據(jù)建模

答案：A

246.有關(guān)異常說法正確的是()。

A、程序中拋出異常終止程序

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2023年大數(shù)據(jù)應(yīng)用技能競賽考試題庫（精簡500題）

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔