2024年數(shù)據(jù)價值挖掘技能競賽考試題庫大全-下（多選題）

上傳人：唯*** IP屬地：河北上傳時間：2024-09-09 格式：PDF 頁數(shù)：95 大?。?8.09MB 積分：12 舉報 版權(quán)申訴

2024年數(shù)據(jù)價值挖掘技能競賽考試題庫大全-下（多選題）_第2頁

2024年數(shù)據(jù)價值挖掘技能競賽考試題庫大全-下（多選題）_第3頁

2024年數(shù)據(jù)價值挖掘技能競賽考試題庫大全-下（多選題）_第4頁

2024年數(shù)據(jù)價值挖掘技能競賽考試題庫大全-下（多選題）_第5頁

已閱讀5頁，還剩90頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

2024年數(shù)據(jù)價值挖掘技能競賽考試題庫大全一下（多選題匯

總）

多選題

1.與自然語言處理相關(guān)的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的區(qū)

別是（）。

A、Jieba專注于中文分詞操作

B、NLTK主要用于一般自然語言處理任務（標記化，P0S標記，解析等）

C、Gensim主要用于題和向量空間建模、文檔集合相似性等

D、ScikiLlearn為機器學習提供了一個大型庫，其中包含了用于文本預處理的

工具，例如詞頻-逆文檔頻率特征提?。═fidfVectorizer）等。

答案：ABCD

2.下面哪些函數(shù)中，是有效的類構(gòu)造函數(shù)有（）。

A、def_lnit_（self）:

B、definit_（self,var=0）:

Gdefinit_）:

D、ef_init_（seIf,a,b,c）:

答案：ABD

3.以下圖像技術(shù)中屬于圖像處理技術(shù)的是（）。

A、圖像編碼

B、圖像合成

C、圖像增強

D、圖像分類

答案：AC

4.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面（）。

A、能夠直觀反映成對數(shù)據(jù)之間的空間關(guān)系

B、能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系

C、能夠靜態(tài)演化事物的變化及變化的規(guī)律

D、能夠動態(tài)演化事物的變化及變化的規(guī)律

答案：BD

5.Python函數(shù)包括下述哪些內(nèi)容（）。

A、函數(shù)名稱

B、參數(shù)

C、執(zhí)行語句

D、返回值

答案：ABCD

6.情感分析的應用場景有（）。

A、數(shù)據(jù)挖掘

B、信息檢索

C、文本分詞

D、市場營銷

答案：ABD

7.如果希望減少數(shù)據(jù)集中的特征數(shù)量，則可以采取的措施是（）。

A、使用正向選擇法（ForwardSeIection）

B\使用反向消除法（BackwardEIimination）

G逐步選擇消除法（Stepwise）

D、計算不同特征之間的相關(guān)系數(shù)，刪去相關(guān)系數(shù)高的特征之一

答案：ABCD

8.參數(shù)估計可以分為（）。

A、點估計

B、一致估計

C、區(qū)間估計

D、無偏估計

答案：AC

9.在正則化公式中，人為正則化參數(shù)，關(guān)于人的描述正確的是（）。

A、若正則化參數(shù)人過大，可能會導致出現(xiàn)欠擬合現(xiàn)象

B、若入的值太大，則梯度下降可能不收斂

C、取一個合理的人值，可以更好地應用正則化

D、如果令人的值很大的話，為了使CostFunction盡可能的小,所有0的值（不

包括eo）都會在一定程度上減小

答案：ABCD

10.直方圖修正法包括（）。

A、直方圖統(tǒng)計

B、直方圖均衡

C、直方圖過濾

D、直方圖規(guī)定化

答案：BD

11.實時計算類應用主要通過（）來實現(xiàn)。

A、流計算組件

B、內(nèi)存計算組件

GMPP數(shù)據(jù)庫

D、Hadoop的后臺定時分析計算任務

答案：AB

12.神經(jīng)網(wǎng)絡的拓撲結(jié)構(gòu)可以分為（）和隨機型網(wǎng)絡等。

A、前向型

B、后向型

C、反饋型

D、自組織競爭型

答案：ACD

13.下面關(guān)于連續(xù)型隨機變量以及連續(xù)型概率密度函數(shù)的說法，正確的是（）。

A、“一個客服一天可能接聽到多少個電話”是一個連續(xù)型隨機變量

B、正態(tài)分布是一種連續(xù)型隨機變量的概率分布

C、可以使用概率密度函數(shù)來描述連續(xù)型隨機變量的概率分布

D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1

答案：BCD

14.ETL技術(shù)主要涉及（）操作。

A、抽取

B、轉(zhuǎn)換

C\加載

D\分析

答案：ABC

15.關(guān)于Python分隔代碼塊,描述錯誤的是（）o

A、內(nèi)嵌代碼的每一行，都比外面的if語句的縮進更多

B、代碼以“begin”開頭，“end”結(jié)尾

C、每行代碼的縮進都一致

D、代碼塊被封裝在花括號中

答案：BCD

16.下面對范數(shù)規(guī)則化描述，正確的是（）。

A\L0是指向量中0的元素的個數(shù)

B、L1范數(shù)是指向量中各個元素絕對值之和

C、L2范數(shù)向量元素絕對值的平方和再開平方

D、L0是指向量中非0的元素的個數(shù)

答案：BCD

17.常用的代價函數(shù)有（）。

A、均方誤差

B、均方根誤差

C、平均絕對誤差

D、交叉炳

答案：ABCD

18.常見的圖像降噪方式包括（）。

A、中值濾波

B、均值濾波

C、平均濾波

D、加權(quán)平均濾波

答案：ABCD

19.以下選項中,屬于MapReduce特征的有（）。

A、以主從結(jié)構(gòu)的形式運行

B、容錯機制的復雜性

C、任務備份機制的必要性

D、數(shù)據(jù)存儲位置固定

答案：ABC

20.以下關(guān)于L1和L2范數(shù)的描述，正確的是（）。

A、L1范數(shù)為x向量各個元素絕對值之和。

B\L2范數(shù)為x向量各個元素平方和的1/2次方，L2范數(shù)又稱Euclidean范數(shù)或

Frobenius范數(shù)

C、L1范數(shù)可以使權(quán)值稀疏，方便特征提取

D、L2范數(shù)可以防止過擬合，提升模型的泛化能力。

答案：ABCD

21.圖像數(shù)字化應該包括哪些過程（）。

A、采樣

B、模糊

C、量化

D、統(tǒng)計

答案：AC

22.以下關(guān)于數(shù)據(jù)維度的描述，正確的是（）。

A、采用列表表示一維數(shù)據(jù)，不同數(shù)據(jù)類型的元素是可以的

B、JSON格式可以表示比二維數(shù)據(jù)還復雜的高維數(shù)據(jù)

C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式

D、字典不可以表示二維以上的高維數(shù)據(jù)

答案：ABC

23.最常見的分詞算法可以分為（）。

A、基于字符串匹配的分詞方法

B、基于理解的分詞方法

C、基于統(tǒng)計的分詞方法

D、基于閱讀的分詞方法

答案：ABC

24.在Spark中,彈性分布式數(shù)據(jù)集的特點包括（）。

A、可分區(qū)

B、可序列化

C、可直接修改

D、可持久化

答案：ABD

25.下列關(guān)于Ridge回歸的說法，正確的是（）。

A、若入=0,則等價于一般的線性回歸

B、若入=0,則不等價于一般的線性回歸

C、若入二+8,則得到的權(quán)重系數(shù)很小，接近于零

D、若入二+8,則得到的權(quán)重系數(shù)很大，接近與無窮大

答案：AC

26.以下有關(guān)特征數(shù)據(jù)歸一化的說法，正確的是（）。

A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度

B、特征數(shù)據(jù)歸一化有可能提高模型的精度

C、線性歸一化適用于特征數(shù)值分化比較大的情況

D、概率模型不需要做歸一化處理

答案：ABD

27.下列哪些是面向?qū)ο蠹夹g(shù)的特征包含（）。

A、封裝

B、繼承

C、多態(tài)

D、分布性

答案：ABC

28.一個監(jiān)督觀測值集合會被劃分為（）。

A、訓練集

B、驗證集

C、測試集

D、預處理集

答案：ABC

29.()是Spark比MapReduce計算快的原因。

A、基于內(nèi)存的計算

B、基于DAG的調(diào)度框架

C、基于Lineage的容錯機制

D、基于分布式計算的框架

答案：ABC

30.ETL包含下列哪些過程()o

A、數(shù)據(jù)抽取

B、數(shù)據(jù)轉(zhuǎn)換

C、數(shù)據(jù)加載

D、數(shù)據(jù)展現(xiàn)

答案：ABC

31.下列選項中屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡的性質(zhì)有()。

A、上一時刻的網(wǎng)絡狀態(tài)信息將會作用于下一時刻的網(wǎng)絡狀態(tài)

B、并行處理序列中所有信息

C、容易梯度爆炸/消失

D、易于搭建

答案：AC

32.pit.axhIine(y=0.0,c="r",Is="--",lw=2),對這句代碼說法正確的是()。

A、在0.0處添加豎直參考線

B、添加水平參考線

C、參考線是虛線形式

D、網(wǎng)格線是紅色的

答案：BC

33.卷積神經(jīng)網(wǎng)絡中常用的池化函數(shù)包括（）。

A、最大池化函數(shù)

B、L2范數(shù)

C、相鄰矩形區(qū)域內(nèi)的平均值

D、基于據(jù)中心像素距離的加權(quán)平均函數(shù)

答案：ABCD

34.Spark的技術(shù)架構(gòu)可以分為哪幾層（）。

A、資源管理層

B、Spark核心層

C、應用層

D、服務層

答案：ABD

35.RNN在NLP領域的應用包括（）。

A、語言模型與文本生成

B、機器翻譯

C、語音識別

D、圖像描述生成

答案：ABCD

36.下列關(guān)于EM算法描述正確的是（）。

A、EM算法是常用的估計參數(shù)隱變量的利器

B、EM算法即是期望最大化算法

C、EM算法常被用來學習高斯混合模型的參數(shù)

D、EM算法是一種迭代式的方法

答案：ABCD

37.循環(huán)神經(jīng)網(wǎng)絡的輸出模式包含（）。

A、多輸出

B、單輸出

C、同步多輸出

D、異步多輸出

答案：ABD

38.下列不屬于聚類性能度量內(nèi)部指標的是（）。

A、DB指數(shù)

B、Dunn指數(shù)

C、Jaccard系數(shù)

D、FM系數(shù)

答案：CD

39.下面關(guān)于隨機變量及其概率分布的說法，正確的是（）。

A、隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量

B、隨機變量的概率分布指的是一個隨機變量所有取值的可能性

C、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的

D、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為5的概率是最大的

答案：ABC

40.關(guān)于現(xiàn)階段大數(shù)據(jù)技術(shù)體系，說法正確的是（）。

A、基礎設施提供數(shù)據(jù)計算'數(shù)據(jù)存儲'數(shù)據(jù)加工（DataWrangling或DataMung

ing）等服務

B、數(shù)據(jù)流處理、統(tǒng)計工具、日志分析都屬于常用的開源工具

C、數(shù)據(jù)資源代表的是生成數(shù)據(jù)的機構(gòu)

D、數(shù)據(jù)源與App為數(shù)據(jù)科學和大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)提供數(shù)據(jù)內(nèi)容

答案：ABCD

41.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點分析及（）等方面。

A、關(guān)聯(lián)分析

B、分類和預測

C、聚類分析

D、偏差分析

答案：ABCD

42.以下屬于數(shù)據(jù)挖掘與分析工具的有（）。

A、TabIeau

B、Python

C、SPSS

D、Alteyx

答案：ABCD

43.許多功能更為強大的非線性模型可在線性模型基礎上通過引入（）而得。

A、層級結(jié)構(gòu)

B、高維映射

C、降維

D、分類

答案：AB

44.ETL技術(shù)主要涉及（）操作。

A、抽取

B、轉(zhuǎn)換

C、加載

D、分析

答案：ABC

45.以下屬于頻率域圖像濾波的方法有（）。

A、中值濾波

B、均值濾波

C、布特沃斯濾波

D、圖斯濾波

答案：CD

46.以下方法中可用于圖像分割的有（）。

A、霍夫曼編碼

B、分水嶺算法

C、K-means

D、區(qū)域增長法

答案：BCD

47.以下對模型性能提高有幫助的是（）。

A、數(shù)據(jù)預處理

B、特征工程

C、機器學習算法

D、模型集成

答案：ABCD

48.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在（）。

A、具有勞動增值

B、涉及法律權(quán)屬

C、具有財務價值

D、涉及道德與倫理

答案：ABCD

49.對于決策樹的優(yōu)點描述，正確的是（）。

A、可讀性強

B、分類速度快

C、只用于回歸問題

D、是無監(jiān)督學習

答案：AB

50.HadoopMapReduce是MapReduce的具體實現(xiàn)之一oHadoopMapReduce數(shù)據(jù)處理

過程涉及四個獨立的實體，包括（）。

AvClient

B、JobTracker

CvTaskTracker

D、HDFS

答案：ABCD

51.在數(shù)據(jù)科學中，計算模式發(fā)生了根本性的變化—從集中式計算、分布式計

算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算，有一定的代表性的是Google云計算三

大技術(shù)，這三大技術(shù)包括（）。

A、HadoopYARN資源管理器

B、GFS分布式存儲系統(tǒng)

C\MapReduce分布式處理技術(shù)

D、BigTable分布式數(shù)據(jù)庫

答案：BCD

52.下面屬于可視化高維數(shù)據(jù)技術(shù)的是（）。

A、矩陣

B、平行坐標系

C、星形坐標系

D、散布圖

答案：ABC

53.隨機森林在做數(shù)據(jù)處理方面的優(yōu)勢是（）。

A、不需要做缺失值處理

B、不需要處理噪音

C、不需要做特征選擇

D、不需要平衡數(shù)據(jù)集

答案：ACD

54.回歸分析有很多種類，常見的有（）。

A、線性回歸

B、系數(shù)回歸

G邏輯回歸

D、曲線回歸

答案：ACD

55.使用極大似然估計的前提條件有（）。

A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型

B、已經(jīng)得到了一部分數(shù)據(jù)集

C、提前已知某先驗概率

D、數(shù)據(jù)集各個屬性相對獨立

答案：AB

56.基于Hadoop開源大數(shù)據(jù)平臺主要提供了針對數(shù)據(jù)分布式計算和存儲能力，如

下屬于分布式存儲組件的有（）。

A、MapReduce

B、Spark

GHDFS

D、HBase

答案：CD

57.TF-IDF的缺點包含()o

A、字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比

B、將一些生僻字誤當作文檔關(guān)鍵詞

C、只考慮特征詞和文本之間的關(guān)系，忽略了一個特征項在不同類別間的分布情

況

D、沒有考慮特征詞的位置因素對文本的區(qū)分度

答案：BCD

58.下面對范數(shù)規(guī)則化描述，正確的是()。

A、L0是指向量中0的元素的個數(shù)

B、L1范數(shù)是指向量中各個元素絕對值之和

C、L2范數(shù)向量元素絕對值的平方和再開平方

D、L0是指向量中非0的元素的個數(shù)

答案：BCD

59.Pandas中主要的數(shù)據(jù)結(jié)構(gòu)是()。

A、Data

B、DataFrame

C、Frame

D、Series

答案：BD

60,若b=np.array([True,FaIse,FaIse]),以下能輸出[FaIseTrueTrue]的是

A、print(b-1)

B、print(~b)

C、print(np.Iogical_not(b)

D、print(?b)

答案：BC

61.下面關(guān)于reduce函數(shù)功能描述正確的是()。

A、合并value值，形成較小集合

B、采用迭代器將中間值提供給reduce函數(shù)

C、map)函數(shù)處理后結(jié)果才會傳輸給reduce)

D、內(nèi)存中不會存儲大量的vaIue值

答案：ABCD

62.字符串的格式化可以使用()。

A、%

B、format

C、input

D、+

答案：AB

63.異常值的檢測方法有()。

A、直接通過數(shù)據(jù)可視化進行觀察

B、通過統(tǒng)計分布進行判斷

C、通過相對距離進行度量

D、通過相對密度進行度量

答案：ABCD

64.下列屬于描述gensim庫的特性的是（）。

A、訓練語料的預處理

B、主題向量的變換

C、文檔相似度的計算

D、文章切分詞語統(tǒng)計計算

答案：ABC

65.以下（）是scipy.stats可實現(xiàn)的連續(xù)隨機變量方法。

A、rvs

B、pdf

C、ppf

D、cdf

答案：ABCD

66.特征選擇方法有（）。

A、IC赤池信息準則

B、LARS嵌入式特征選擇方法

C、LVW包裹式特征選擇方法

D\Relief過濾式特征選擇方法

答案：BCD

67.下列關(guān)于集合操作結(jié)果正確的有（）。

A、name={'d','s'}nameadd（'sd'）,name值為：{‘sd','d','s'}

B\name={'sd',d','s'}nameremove（'s'）,name值為：{‘sd','d'}

C、name={'sd',d','s'}namecIear),name值為：{}

D\name={'sd',d','s'}nameupdate（'dF）,name值為：{‘sd','d',

s'j'）

答案：ABC

68.Python中jieba庫的基本實現(xiàn)原理是什么（）。

A、分析漢字與漢字之間的關(guān)聯(lián)幾率概率

B、分析漢字詞組的關(guān)聯(lián)幾率概率

C、根據(jù)用戶自定義的詞組進行分析

D、還可以分析漢字與英文之間關(guān)聯(lián)幾率概率

答案：ABC

69.數(shù)據(jù)科學以數(shù)據(jù)尤其是大數(shù)據(jù)為研究對象，主要研究內(nèi)容包括（）。

A、數(shù)據(jù)加工

B、數(shù)據(jù)管理

C、數(shù)據(jù)計算

D、數(shù)據(jù)產(chǎn)品開發(fā)

答案：ABCD

70.在python中查看關(guān)鍵字，需要在Python解釋器中執(zhí)行（）和（）。這兩條

命令。

A、Iistkeyword

B\importkeyword

C、keyword

D\import.kwlist

答案：BC

71.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在（）。

A、具有勞動增值

B、涉及法律權(quán)屬

C、具有財務價值

D、涉及道德與倫理

答案：ABCD

72.以下說法正確的是（）。

A、條件獨立性假設不成立時，樸素貝葉斯分類器仍有可能產(chǎn)生最優(yōu)貝葉斯分類

器

B、在估計概率值時使用的拉普拉斯修正避免了因訓練集樣本不充分而導致概率

估值為零的問題

C、由于馬爾可夫鏈通常很快就能趨于平穩(wěn)分布，因此吉布斯采樣算法的收斂速

度很快

D、二分類任務中兩類數(shù)據(jù)滿足高斯分布且方差相同時，線性判別分析產(chǎn)生貝葉

斯最優(yōu)分類器

答案：ABD

73.我們想要訓練一個ML模型，樣本數(shù)量有100萬個，特征維度是5000,面對

如此大數(shù)據(jù)，有效地訓練模型可以采取的措施是（）

A、對訓練集隨機采樣，在隨機采樣的數(shù)據(jù)上建立模型

B、嘗試使用在線機器學習算法

C、使用PCA算法減少特征維度

D、-

答案：ABC

74.Spark中的ScheduIer模塊可以分為（）。

A、DAGScheduIer

B、ResourceScheduIer

C、TaskScheduIer

D、JobScheduIer

答案：AC

75.下列哪些是傳統(tǒng)RDBMS的缺點（）o

A、表結(jié)構(gòu)schema擴展不方便

B、全文搜索功能較弱

C、大數(shù)據(jù)場景下I/O較高

D、存儲和處理復雜關(guān)系型數(shù)據(jù)功能較弱

答案：ABCD

76.ApacheFIume主要解決的是日志數(shù)據(jù)的收集和處理問題，F(xiàn)lume的主要設計目

的和特征是（）。

A、高可靠性

B、可擴展性

C、管理復雜

D、不支持用戶自定義

答案：AB

77.循環(huán)神經(jīng)網(wǎng)絡主要被應用的場景有（）。

A、語音識別

B、語音建模

C、機器翻譯

D、圖像識別

答案：ABC

78.RNN網(wǎng)絡的激活函數(shù)要選用雙曲正切而不是Sigmod的原因有（）。

A、使用Sigmod函數(shù)容易出現(xiàn)梯度消失

B、Sigmod的導數(shù)形式較為復雜

C、雙曲正切更簡單

D、Sigmoid函數(shù)實現(xiàn)較為復雜

答案：AB

79.完整性約束通常包括（）

A、實體完整性

B、域完整性

C、參照完整性

D、用戶定義完整性

答案：ABCD

80.數(shù)據(jù)安全不僅包括數(shù)據(jù)保密性，還包括（）。

A、完整性

B、可用性

C、不可否認性

D、可審計性

答案：ABCD

81.Python的優(yōu)點有（）o

A、變量不用預定義類型

B、數(shù)據(jù)結(jié)構(gòu)功能強大

C、語言可解釋性強

D、變量類型固定

答案：ABC

82.鑒別了多元共線特征，下一步可能的操作是（）。

A、移除兩個共線變量

B、不移除兩個變量，而是移除一個

C、移除相關(guān)變量可能會導致信息損失，可以使用懲罰線性回歸模型（如ridge

或Iassoregression）

D、-

答案：BC

83.模塊可以分為以下的通用類別包含（）。

A、使用python編寫的.py文件

B、已被編譯為共享庫或DLL的C或C++擴展

C、把一系列模塊組織到一起的文件夾

D、使用C編寫并鏈接到python解釋器的內(nèi)置模塊

答案：ABCD

84.關(guān)于梯度消失和梯度爆炸，以下說法正確的是：（_）。

A、根據(jù)鏈式法則，如果每一層神經(jīng)元對上一層的輸出的偏導乘上權(quán)重結(jié)果都小

于1的話，那么即使這個結(jié)果是0.99,在經(jīng)過足夠多層傳播之后，誤差對輸入

層的偏導會趨于0

B、可以采用ReLU激活函數(shù)有效地解決梯度消失的情況

C、根據(jù)鏈式法則，如果每一層神經(jīng)元對上一層的輸出的偏導乘上權(quán)重結(jié)果都大

于1的話，在經(jīng)過足夠多層傳播之后，誤差對輸入層的偏導會趨于無窮大

D、可以通過減小初始權(quán)重矩陣的值來緩解梯度爆炸

答案：ABCD

85.數(shù)據(jù)來源和目標用戶已定的情況下，不同視覺通道的表現(xiàn)力不同。視覺通道

的表現(xiàn)力的評價指標包括（）。

A、精確性

B、可辨認性

G可分離性

D、視覺突出性

答案：ABCD

86.以下（）函數(shù)是累積函數(shù)。

A、cumsum

B、argmin

Cvumprod

Dvargmax

答案：AC

87.以下關(guān)于集成學習的說法，正確的是（）。

A\隨機森林是減少模型的方差，而GBDT是減少模型的偏差

B、組成隨機森林的樹可以并行生成，而GBDT是串行生成

C、隨機森林的結(jié)果是多數(shù)表決表決的，而GBDT則是多棵樹累加之和

D、-

答案：ABC

88.在數(shù)據(jù)安全領域常用的P2DR模型中，P、D和R代表的是（）。

A、策略

B、防護

C、檢）則

D、響應

答案：ABCD

89.LSTM應用場景有（）。

A、翻譯語言

B、語音識別

C、圖像識別

D、股票預測

答案：ABD

90.相對于HadoopMapReduce,Spark的特點有（）。

A、通用性

B、易用性

C、速度快

D、容錯性

答案：ABC

91.對以下代碼說法正確的是（）。

A、該圖表是一個藍綠色的散點圖

B、圖表中有紅色實線的網(wǎng)格線

C、圖表中有圖例

D、該圖畫的是sin曲線

答案：CD

92.數(shù)據(jù)增值存在于哪些過程中（）。

A、數(shù)據(jù)對象的封裝

B、數(shù)據(jù)系統(tǒng)的研發(fā)

C、數(shù)據(jù)的集成應用

D、基于數(shù)據(jù)的創(chuàng)新

答案：ABCD

93.可能導致交叉檢驗模型評估較差可能是由于（）的原因?qū)е碌挠校ǎ?/p>

A、模型過擬合

B、模型欠擬合

C、模型過度復雜

D、模型過度簡單

答案：ABCD

94.在選擇高斯函數(shù)作為核函數(shù)的支持向量機中，參數(shù)的選取會影響擬合的結(jié)果,

如果出現(xiàn)過擬合的現(xiàn)象，則導致該結(jié)果的原因有可能是（）。

A、其他參數(shù)保持不變，C值過大

B、其他參數(shù)保持不變，C值較小

C、其他參數(shù)保持不變，。較大

D、其他參數(shù)保持不變，。較小

答案：AD

95.下面是Python注釋語句的是（）。

A、'heIIo'

B、"'helIo'''

C、"helIo"

D、#

答案：BD

96.下面關(guān)于隨機變量及其概率分布的說法，正確的是（）。

A、隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量

B、隨機變量的概率分布指的是一個隨機變量所有取值的可能性

C、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的

D、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為5的概率是最大的

答案：ABC

97.以下方法是tf-idf的變種的有（）o

A、TFC

B、EWC

C、ITC

D、IG

答案：AC

98.常見的聚類性能度量外部指標有（）。

A、Jaccard系數(shù)

B、DB指數(shù)

C、FM指數(shù)

D、以上答案都正確

答案：AC

99.聚類性能度量的指標主要分為外部指標和內(nèi)部指標，其中屬于內(nèi)部指標的是

。。

A、Jaccard指數(shù)

B、FM指數(shù)

GDB指數(shù)

D、unn指數(shù)

答案：CD

100.影響聚類算法效果的主要原因有（）。

A、特征選取

B、模式相似性測度

C、分類準則

D、已知類別的樣本質(zhì)量

答案：ABC

101.下面哪些是Spark的組件（）o

A、SparkStreaming

B、MLib

C、GraphX

D\SparkR

答案：ABC

102.下列關(guān)于AUC面積的描述，正確的是()。

A、UC被定義為ROC曲線下與坐標軸圍成的面積

B、AUG面積的值大于1

C、AUC等于0.5時，則真實性最低，無應用價值

D、AUC越接近1.0,檢測方法真實性越高

答案：ACD

103.MapReduce對map()函數(shù)的返回值處理后才傳給reduce()函數(shù)，其中涉

及哪些操作()。

A、合并

B、排序

C、分區(qū)

D、抽樣

答案：ABC

104.特征選擇的目的是()o

A、減少特征數(shù)量、降維

B、使模型泛化能力更強

C、增強模型擬合能力

D、減少過擬合。

答案：ABD

105.下面對LDA判別分析的思想描述，正確的是（）。

A、同類樣例的投影點盡可能近

B、異類樣例的投影點盡可能遠

C、同類樣例的投影點盡可能遠

D、異類樣例的投影點盡可能近

答案：AB

106.列式數(shù)據(jù)庫（如BigTable和HBase）以表的形式存儲數(shù)據(jù)，表結(jié)構(gòu)包括（）

等元素。

A、關(guān)鍵字

B、時間戳

G列簇

D、數(shù)據(jù)類型

答案：ABC

107.Numpy數(shù)組中將一個數(shù)組分割成多個小數(shù)組數(shù)組的分割函數(shù)包括（）。

A、hspIitB

B、vspIitC

C、spIitD

Dvsplit

答案：ABCD

108.下列跟人工智能場景相關(guān)的是（）。

A\圖像識別

B\人臉識別

C、語音識別

D、語義分析

答案：ABCD

109.以下選項中是正確的字符串有（）。

A、'abc"ab"

B、‘a(chǎn)bc"ab'

C、“abc”ab”

D、“abc\"ab”

答案：BD

110.DGI定義的數(shù)據(jù)治理任務包括（）。

A、數(shù)據(jù)質(zhì)量的評估

B、主動定義或序化規(guī)則

C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護與服務

D、應對并解決因不遵守規(guī)則而產(chǎn)生的問題

答案：BCD

111.大數(shù)據(jù)偏見包括（）。

A、數(shù)據(jù)源的選擇偏見

B、算法與模型偏見

C、結(jié)果解讀方法的偏見

D、數(shù)據(jù)呈現(xiàn)方式的偏見

答案：ABCD

112.關(guān)于Dropout說法，正確的是（）。

A、Dropout背后的思想其實就是把DNN當作一個集成模型來訓練，之后取所有

值的平均值，而不只是訓練單個DNN

B、DNN網(wǎng)絡將Dropout率設置為p,也就是說，一個神經(jīng)元被保留的概率是1-p。

當一個神經(jīng)元被丟棄時，無論輸入或者相關(guān)的參數(shù)是什么，它的輸出值就會被設

置為0

C、丟棄的神經(jīng)元在訓練階段，對BP算法的前向和后向階段都沒有貢獻。由于這

個原因，每一次訓練它都像是在訓練一個新的網(wǎng)絡

D\ropout方法通常和L2正則化或者其他參數(shù)約束技術(shù)（比如MaxNorm）一起使

用，來防止神經(jīng)網(wǎng)絡的過擬合

答案：ABCD

113.下列場景適合使用Python的是（）。

A、可作為腳本語言，快速編寫小型程序、腳本等

B、可應用在數(shù)據(jù)科學、交互式計算及可視化領域

C、可作為膠水語言，整合如C++等語言代碼

D\Python適用于低延時'高利用率的應用場景

答案：ABC

114.關(guān)于Hive的說法正確的是（）。

A、Hive是基于Hadoop的數(shù)據(jù)倉庫工具

B、Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表

C、最初，Hive由Google開源，用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計問題

D、Hive的主要應用場景是離線分析

答案：ABD

115.下列關(guān)于詞袋模型說法正確的是（）。

A、詞袋模型可以忽略每個詞出現(xiàn)的順序

B、詞袋模型不可以忽略每個詞出現(xiàn)的順序

C\TensorFIow支持詞袋模型

D、詞袋模型可以表出單詞之間的前后關(guān)系

答案：AC

116.下列關(guān)于密度聚類說法，錯誤的是（）。

A、DBSCAN是一種著名的密度聚類算法

B、密度聚類從樣本數(shù)量的角度來考察樣本之間的可連接性

C、密度聚類基于不可連接樣本不斷擴展聚類簇，以獲得最終的聚類結(jié)果

D、密度直達關(guān)系通常滿足對稱性

答案：BCD

117.數(shù)據(jù)挖掘算法的組件包括（）。

A、模型或模型結(jié)構(gòu)

B、評分函數(shù)

C、優(yōu)化和搜索方法

D、數(shù)據(jù)管理策略

答案：ABCD

118.Python中jieba庫支持哪幾種模式為（）。

A、精準模式

B、匹配模式

C、全模式

D、搜索引擎模式

答案：ACD

119.下列關(guān)于特征的稀疏性說法，正確的是（）。

A、稀疏性指的是矩陣中有許多列與當前學習任務無關(guān)

B、稀疏樣本可減少學習任務的計算開銷

C、學習任務難度可能有所降低

D、稀疏矩陣沒有高效的存儲方法

答案：ABC

120.以下屬于規(guī)則的分詞方法的是（）。

A、正向最大匹配法

B、逆向最大匹配法

C、雙向最大匹配法

D、條件隨機場

答案：ABC

121.以下（）是一元通用函數(shù)。

A、np.add）

B\np.maximum）

C、np.exp）

D\np.sqrt）

答案：CD

122.我們想要減少數(shù)據(jù)集中的特征數(shù)即降維，以下方案合適的是（）。

A、使用前向特征選擇方法

B、使用后向特征排除方法

C、我們先把所有特征都使用，去訓練一個模型，得到測試集上的表現(xiàn)。然后我

們?nèi)サ粢粋€特征，再去訓練，用交叉驗證看看測試集上的表現(xiàn)。如果表現(xiàn)比原來

還要好，我們可以去除這個特征

D、查看相關(guān)性表，去除相關(guān)性最高的一些特征

答案：ABCD

123.在Spark的基本流程中，主要涉及（）。

A、DriverProgram

B、CIusterManager

C、WorkerNode

D\Executor

答案：ABCD

124.以下關(guān)于HBase說法正確的是（）。

A、面向列的數(shù)據(jù)庫

B、非結(jié)構(gòu)化的數(shù)據(jù)庫

C、支持大規(guī)模的隨機、實時讀寫

D、采用松散數(shù)據(jù)模型

答案：ABCD

125.下列說法中正確的是（）o

A、云計算的主要特點是非常昂貴

B、大數(shù)據(jù)是多源、異構(gòu)'動態(tài)的復雜數(shù)據(jù)，即具有4V特征的數(shù)據(jù)

C、大數(shù)據(jù)是數(shù)據(jù)科學的研究對象之一

D、MapReduce是采用云計算這種新的計算模式研發(fā)出的具體工具軟件(或算法)

答案：BCD

126.()是Spark比MapReduce計算快的原因。

A、基于內(nèi)存的計算

B、基于DAG的調(diào)度框架

C、基于Lineage的容錯機制

D、基于分布式計算的框架

答案：ABC

127.下面關(guān)于單樣本Z檢驗的說法，正確的是()。

A、在Python中,單樣本Z檢驗可以使用scipy.stats.s()實現(xiàn)

B、單樣本Z檢驗適用于樣本量較大的情況

C、單樣本Z檢驗假設要檢驗的統(tǒng)計量(近似)滿足正態(tài)分布

D、單樣本Z檢驗常用于檢驗總體平均值是否等于某個常量

答案：BCD

128.下列屬于CNN關(guān)鍵層的是()o

A、輸入層

B、卷積層

C、激活層

D、池化層

答案：ABCD

129.在正則化公式中，入為正則化參數(shù)，關(guān)于人的描述正確的是（）。

A、若正則化參數(shù)人過大，可能會導致出現(xiàn)欠擬合現(xiàn)象

B、若入的值太大，則梯度下降可能不收斂

C、取一個合理的人值，可以更好地應用正則化

D、如果令人的值很大的話，為了使CostFunction盡可能的小,所有6的值（不

包括eo）都會在一定程度上減小

答案：ABCD

130.下列有關(guān)MapReduce計算框架的描述正確的是（）。

A、MapReduce可以計算任務的劃分和調(diào)度

B、MapReduce可完成數(shù)據(jù)的分布存儲和劃分

CvMapReduce可以實現(xiàn)處理系統(tǒng)節(jié)點出錯檢測和失效恢復

DvMapReduce可實現(xiàn)處理數(shù)據(jù)與計算任務的同步

答案：ABCD

131.以下關(guān)于MapReducel.0版本說法正確的是（）。

A、擴展性差

B、可靠性差

C、資源利用率低

D、無法支持多種計算框架

答案：ABCD

132.HighBias（高偏差）的解決方案有（）。

A、Boosting

B、復雜模型（非線性模型、增加神經(jīng)網(wǎng)絡中的層）

G更多特征

D、-

答案：ABC

133.常用的數(shù)據(jù)審計方法可以分為（）。

A、預定義審計

B、自定義審計

C、可視化審計

D、結(jié)構(gòu)化審計

答案：ABC

134.以下關(guān)于HTML標簽嵌套規(guī)則的說法，正確的是（）。

A、塊元素可以包含內(nèi)聯(lián)元素或某些塊元素，但內(nèi)聯(lián)元素也可以包含塊元素

B、HTML標簽包括塊級元素和內(nèi)嵌元素

C、內(nèi)嵌元素一般用在網(wǎng)站內(nèi)容之中的某些細節(jié)或部位，用以“強調(diào)區(qū)分樣式上

標下標錨點”等，通常包括：aabbrbbrfontiimginputkbdIabeIqsseIectsmaIIs

pansubttuvar等

D、其中塊級元素一般用來搭建網(wǎng)絡架構(gòu)布局承載內(nèi)容，通常包括的標簽有：ad

dressdirdivdIdtddformhl~h6hrisindexmenunoframesnoscriptoIppretabIeuI

等

答案：BCD

135.在數(shù)據(jù)科學中，計算模式發(fā)生了根本性的變化—從集中式計算、分布式計

算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算，有一定的代表性的是Google云計算三

大技術(shù)，這三大技術(shù)包括（）。

A、HadoopYRN資源管理器

B、GFS分布式存儲系統(tǒng)

C\MapRedue分布式處理技術(shù)

D、BigTable分布式數(shù)據(jù)庫

答案：BCD

136.在Python中，以下導入模塊方式正確的是()。

A、import模塊名

B、import模塊名as模塊的別名

C\from模塊名import函數(shù)名

D\from模塊名import函數(shù)名A,函數(shù)名B

答案：ABCD

137.下面定義函數(shù)正確的是()。

A、defcaIc(*numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

B、defcaIc(**numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

C\defcaIc(**numbers,n):sum=0forninnumbers:sum=sum+n*nreturnsum

D、efcaIc(**numbers,n=0):sum=0forninnumbers:sum=sum+n*nreturnsum

答案：AB

138.字典的遍歷正確的有()o

A、forin變量i,字典：使用i遍歷所有的鍵，有鍵就可以通過變量訪問其值

B、for變量iin字典：使用i遍歷所有的鍵，有鍵就可以通過變量訪問其值

C\for變量i,變量jin字典items):使用變量i遍歷所有鍵，通過變量j遍

歷所有值

D、forin變量i,變量j字典items）:使用變量i遍歷所有鍵，通過變量j遍歷

所有值

答案：BC

139.與自然語言處理相關(guān)的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的

區(qū)別是（）。

A、Jieba專注于中文分詞操作

B、NLTK主要用于一般自然語言處理任務（標記化，P0S標記，解析等）

C、Gensim主要用于題和向量空間建模、文檔集合相似性等

D、Scikit-learn為機器學習提供了一個大型庫，其中包含了用于文本預處理的

工具，例如詞頻-逆文檔頻率特征提?。═fidfVectorizer）等。

答案：ABCD

140.下面屬于范數(shù)規(guī)則化的作用的是（）。

A、保證模型盡可能的簡單，避免過擬合

B、約束模型特征

C、最小化問題

D、最大化問題

答案：AB

141.以下關(guān)于L1和L2范數(shù)的描述，正確的是（）。

A、L1范數(shù)為x向量各個元素絕對值之和。

B、L2范數(shù)為x向量各個元素平方和的1/2次方，L2范數(shù)又稱Euclidean范數(shù)或

Frobenius范數(shù)

C、L1范數(shù)可以使權(quán)值稀疏，方便特征提取

D、L2范數(shù)可以防止過擬合，提升模型的泛化能力。

答案：ABCD

142.某單位運用隨機森林算法思想建立搶修熱點模型。該模型主要預測下期臺區(qū)

工單數(shù)量，構(gòu)建搶修熱點。以下模型算法構(gòu)建步驟中合理的順序是（）。

A、將歷史數(shù)據(jù)進行隨機自助法重抽樣，生成N個訓練樣本集

B、將N個訓練樣本集分別做決策樹，生成N棵決策樹

C、將N棵決策樹隨機構(gòu)成隨機森林

D、未來根據(jù)預測樣本氣候環(huán)境、設備屬性、設備工況進行隨機森林決策投票，

得出針對該預測樣本最優(yōu)的決策樹進行運算，并計算出最終結(jié)果。

答案：ABCD

143.預剪枝使得決策樹的很多分子都沒有展開，會導致（）。

A、顯著減少訓練時間開銷

B、顯著減少測試時間開銷

C、降低過擬合風險

D、提高欠擬合風險

答案：ABCD

144.數(shù)據(jù)可視化是利用計算機圖形學和圖像處理技術(shù)，將數(shù)據(jù)轉(zhuǎn)換成（）或（）

在屏幕上顯示出來，并進行交互處理的理論、方法和技術(shù)。

A、文字

B、圖形

C、圖像

D、視頻

答案：BC

145.下列屬于TF-IDF的應用有（）o

A、搜索引擎

B、關(guān)鍵詞提取

C、文本相似性

D、數(shù)據(jù)降維

答案：ABC

146.集成學習中增強多樣性的常見做法有（）。

A、數(shù)據(jù)樣本擾動

B、輸入屬性擾動

C、輸出表示擾動

D、算法參數(shù)擾動

答案：ABCD

147.以下哪層是卷積神經(jīng)網(wǎng)絡的組成部分（）。

A、卷積層

B、中間層

C、池化層

D、全連接層

答案：ACD

148.可作為決策樹選擇劃分屬性的參數(shù)是（）。

A、信息增益

B、增益率

C、基尼指數(shù)

D\密度函數(shù)

答案：ABC

149.假設目標遍歷的類別非常不平衡，即主要類別占據(jù)了訓練數(shù)據(jù)的99%,現(xiàn)在

你的模型在訓練集上表現(xiàn)為99%的準確度，那么下面說法正確的是（）。

A、準確度并不適合衡量不平衡類別問題

B、準確度適合衡量不平衡類別問題

C、精確度和召回率適合于衡量不平衡類別問題

D、精確度和召回率不適合衡量不平衡類別問題

答案：AC

150.DGI定義的數(shù)據(jù)治理任務包括（）。

A、數(shù)據(jù)質(zhì)量的評估

B、主動定義或序化規(guī)則

C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護與服務

D、應對并解決因不遵守規(guī)則而產(chǎn)生的問題

答案：BCD

151.在數(shù)據(jù)科學中，計算模式發(fā)生了根本性的變化—從集中式計算,分布式計

算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算，有一定的代表性的是Google云計算三

大技術(shù)，這三大技術(shù)包括（）。

A、HadoopYRN資源管理器

B、GFS分布式存儲系統(tǒng)

C\MapRedue分布式處理技術(shù)

D、BigTable分布式數(shù)據(jù)庫

答案：BCD

152.（）是通過對無標記訓練樣本的學習來進行分類的。

A、密度估計

B、異常檢測

G線性回歸

D、聚類分析

答案：ABD

153.以下（）屬于數(shù)據(jù)統(tǒng)計分析工具。

A、Weka

B、SAS

C、SPSS

D\MatIab

答案：ABCD

154.決策樹的劃分選擇有（）。

A、增益系數(shù)

B、信息增益

C、增益率

D、基尼系數(shù)

答案：BCD

155.下面是Python的特點和優(yōu)點是（）。

A、解釋性強

B、使用動態(tài)特性

C、面向?qū)ο?/p>

D、語法簡潔

答案：ABCD

156.以下屬于漢語未登錄詞的類型的有（）。

A、存在于詞典但出現(xiàn)頻率較少的詞

B、新出現(xiàn)的普通詞匯

C、專有名詞

D、專業(yè)名詞和研究領域名稱

答案：BCD

157.假設檢驗中，首先需要提出零假設和備擇假設，零假設是（），備擇假設是

（）。

A、只有出現(xiàn)的概率大于閾值才會被拒絕的，只有零假設出現(xiàn)的概率大于閾值才

會被承認的

B、希望推翻的結(jié)論，希望證明的結(jié)論

C、只有出現(xiàn)的概率小于閾值才會被拒絕的，只有零假設出現(xiàn)的概率小于閾值才

會被承認的

D、希望證明的結(jié)論，希望推翻的結(jié)論

答案：BC

158.聚類性能度量外部指標包括（）。

A、Jaccard系數(shù)

B、FM指數(shù)

C\Dunn指數(shù)

D、Rand指數(shù)

答案：ABD

159.以下可用于處理由于光照不均帶來的影響的圖像處理方法有（）。

A、同態(tài)濾波

B、頂帽變換

C、基于移動平均的局部閾值處理

D、拉普拉斯算子

答案：ABC

160.圖像識別的一般步驟包括（）。

A、預處理

B、特征提取

C、超像素生成

D、識別分類

答案：ABD

161.關(guān)于降維說法正確的是（）。

A、PA是根據(jù)方差這一屬性降維的

B、降維可以防止模型過擬合

C、降維降低了數(shù)據(jù)集特征的維度

D、降維方法有PLA等

答案：ACD

162.按照涉及自變量的多少，可以將回歸分析分為（）。

A、線性回歸分析

B、非線性回歸分析

C、一元回歸分析

D、多元回歸分析

答案：CD

163.特征向量的缺失值處理：缺失值較多，直接將該特征舍棄掉，否則可能反倒

會帶入較大的noise,對結(jié)果造成不良影響；缺失值較少,其余的特征缺失值都

在10%以內(nèi)，我們可以采取的處理方式有（）。

A、把NaN直接作為一個特征，假設用0表示

B、用均值填充

C、用隨機森林等算法預測填充

D、以上答案都不正確

答案：ABC

164.關(guān)于分析學習和歸納學習的比較，說法正確的是（）。

A、歸納學習擬合數(shù)據(jù)假設，分析學習擬合領域理論的假設

B、歸納學習論證方式為統(tǒng)計推理，分析學習為演繹推理

C、歸納學習不需要先驗知識

D、訓練數(shù)據(jù)不足時歸納學習可能會失敗

答案：ABCD

165.在假設檢驗中，當原假設為“偽”，但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤

叫（）。

A、a錯誤

B、B錯誤

c、取偽錯誤

D、棄真錯誤

答案：BC

166.如將A、B、C三個分類器的PR曲線畫在一個圖中，其中A、B的PR曲線可

以完全包含住C的PR曲線，A與B的PR曲線有交點，A、B、C的平衡點分別為

0.79、0.66、0.58,以下說法中正確的是（）。

A、學習器A的性能優(yōu)于學習器C

B、學習器A的性能優(yōu)于學習器B

C、學習器B的性能優(yōu)于學習器C

D、學習器C的性能優(yōu)于學習器B

答案：ABC

167.以下屬于數(shù)據(jù)挖掘與分析工具的有（）。

A、TabIeau

B、Python

C、SPSS

D、Alteyx

答案：ABCD

168.數(shù)據(jù)挖掘的挖掘方法包括（）。

A、聚類

B\回歸分析

C、神經(jīng)網(wǎng)絡

D、決策樹算法

答案：ABCD

169.Pandas中刪除列的方式是（）□

A、df.drop（［"列名,axis=1）

B\df.drop（coIumns=［"列名"］）

C\df.drop（［0,1］）

D\f.drop（［0］）

答案：AB

170.常用的數(shù)據(jù)審計方法可以分為（）。

A、預定義審計

B、自定義審計

C、可視化審計

D、結(jié)構(gòu)化審計

答案：ABC

171.“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征，表現(xiàn)在（）

方面。

A、數(shù)據(jù)驅(qū)動

B、數(shù)據(jù)密集型

C、數(shù)據(jù)范式

D、數(shù)據(jù)可視化

答案：ABC

172.主要面向或關(guān)注“過去”的數(shù)據(jù)分析過程為（）。

A、描述性分析

B、診斷性分析

C、預測性分析

D、規(guī)范性分析

答案：AB

173.下列模型屬于機器學習生成式模型的是（）。

A、樸素貝葉斯

B、隱馬爾科夫模型

C、線性回歸模型

D\深度信念網(wǎng)絡

答案：ABD

174.下列關(guān)于探索型數(shù)據(jù)分析常用圖表的說法，正確的有（）。

A、絕大部分情況下使用餅圖代替條形圖能更加直觀地展示數(shù)據(jù)之間的特征和對

比

B、探索型數(shù)據(jù)分析常用的圖表包括條形圖、直方圖、餅圖、折線圖、散點圖、

箱型圖等

C、在探索型數(shù)據(jù)分析時應該盡量避免使用餅圖，然而在數(shù)據(jù)報告中可以使用餅

圖達到更加美觀的效果

D、直方圖和箱型圖都可以用來展示數(shù)據(jù)的分布情況

答案：BCD

175.決策樹在（）情況下會導致遞歸返回。

A、當前節(jié)點包含的樣本全屬于同一類

B、當前屬性集為空

C、當前節(jié)點包含的樣本集合為空

D、所有樣本在所有屬性上取值相同

答案：ABCD

176.Analytics1.0的主要特點有()。

A、分析活動滯后于數(shù)據(jù)的生成

B、重視結(jié)構(gòu)化數(shù)據(jù)的分析

C、以對歷史數(shù)據(jù)的理解為主要目的

D、注重描述性分析

答案：ABCD

177.回歸分析有很多種類，常見的有()。

A、線性回歸

B、系數(shù)回歸

G邏輯回歸

D、曲線回歸

答案：ACD

178.以下()是scipy中的模塊。

A、cIuster

B\constants

C、integrate

D、io

答案：ABCD

179.決策樹遞歸停止的條件為（）。

A、訓練數(shù)據(jù)集使用完

B、所有的類標簽完全相同

C、特征用完

D、遇到丟失值

答案：BC

180.下面屬于范數(shù)規(guī)則化的作用的是（）。

A、保證模型盡可能的簡單，避免過擬合

B、約束模型特征

C、最小化問題

D、最大化問題

答案：AB

181.下列既可以用于分類，又可以用于回歸的機器學習算法有（）。

A\k近鄰

B、邏輯回歸

C、決策樹

D、線性回歸

答案：AC

182.下面選項是python標準庫的是（）。

A、os

B、sys

C、numpy

D、re

答案：ABD

183.語音識別的方法包括0o

A、聲道模型方法

B、模板匹配的方法

C、利用人工神經(jīng)網(wǎng)絡的方法

D、語音知識方法

答案：ABCD

184.數(shù)據(jù)科學基本原則中，三世界原則指的是（）

A、精神世界

B、數(shù)據(jù)世界

C、物理世界

D、數(shù)字世界

答案：ABC

185.Spark提交工作的方式（）。

AvClient

B、CIuster

C、StandaIone

D、YARN

答案：AB

186.下面導入模塊正確的是（）。

A、importnumpy

B、importnumpyasnp

C、frommatpIotIibimportpypIot

DvfrommatpIotIibimportpypIotasp11

答案：ABCD

187.SparkRDD的依賴機制包括O。

A、寬依賴

B、深度依賴

C、廣度依賴

D、窄依賴

答案：AD

188.在假設檢驗中，當原假設為“偽"但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤

叫（）。

A、a錯誤

B、B錯誤

C、取偽錯誤

D、棄真錯誤

答案：BC

189.下列關(guān)于自然語言處理中的關(guān)鍵詞提取的說法，正確的是（）。

A、關(guān)鍵詞提取是指用人工方法提取文章關(guān)鍵詞的方法

B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法

C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題

D、這個問題涉及數(shù)據(jù)挖掘、文本處理'信息檢索等領域

答案：BD

190.下列關(guān)于深度學習的實質(zhì)及其與淺層學習的說法，正確的是（）。

A、深度學習強調(diào)模型深度

B、深度學習突出特征學習的重要性：特征變換+非人工

C、沒有區(qū)別

D、以上答案都不正確

答案：AB

191.Hadoop中map輸出結(jié)果說法正確的是（）。

A、＜key,value〉鍵值對

B、輸出中間臨時結(jié)果

C、輸出最終計算結(jié)果

D、輸出結(jié)果永久保留

答案：AB

192.數(shù)據(jù)故事化描述應遵循的基本原則是（）。

A、忠于原始數(shù)據(jù)原則

B、設定共同場景原則

C、有效性利用原則

D、3c精神原則

答案：ABCD

193.以下算法中可以應用于圖像分割的是（）。

A、邊緣檢測技術(shù)

B、閾值分割技術(shù)

C、基于區(qū)域的分割技術(shù)

D、區(qū)域生長方法

答案：ABCD

194.統(tǒng)計模式分類問題中，當先驗概率未知時，可以使用（）。

A、最小最大損失準則

B、最小誤判概率準則

C、最小損失準則

D、N-P判決

答案：AD

195.請問下面哪些是離散型變量（）。

A、示波器

B、心電圖及腦動電圖掃描器對腦電波的測量

C、過去數(shù)月的總銷售額

D、公司每年的紅利

答案：CD

196.能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點的系數(shù)降至0

附近的濾波器有（）。

A、同態(tài)濾波

B、圖斯濾波

C、巴特沃斯濾波

D、中值濾波

答案：BC

197.決策樹的劃分選擇有（）。

A、增益系數(shù)

B、信息增益

C、增益率

D、基尼系數(shù)

答案：BCD

198.圖像壓縮是建立在圖像存在（）幾種冗余之上。

A、編程冗余

B、像素間冗余

C、心理視覺冗余

D、計算資源冗余

答案：ABC

199.下列方法中，屬于詞語情感分析的方法有（）。

A、基于網(wǎng)絡的分析方法

B、基于word-embedding的分析方法

C、基于詞典的分析方法

D、基于詞頻的分析方法

答案：AC

200.Numpy中計算數(shù)組的標準差和方差的函數(shù)是（）。

A、std）

B、diff）

C\exp)

D\var)

答案：AD

201.Spark的技術(shù)架構(gòu)可以分為哪幾層（）。

A、資源管理層

B、Spark核心層

C、應用層

D、服務層

答案：ABD

202.以下關(guān)于神經(jīng)網(wǎng)絡模型描述正確的是（）。

A、神經(jīng)網(wǎng)絡模型是許多邏輯單元按照不同層級組織起來的網(wǎng)絡，每一層的輸出

變量都是下一層的輸入變量

B、神經(jīng)網(wǎng)絡模型建立在多神經(jīng)元之上

C、神經(jīng)網(wǎng)絡模型中，無中間層的神經(jīng)元模型的計算可用來表示邏輯運算

D、神經(jīng)網(wǎng)絡模型一定可以解決所有分類問題

答案：ABC

203.類的特點有（）o

A、封裝

B、繼承

C、多態(tài)

D、重復

答案：ABC

204.下列方法中，可以用于特征降維的方法包括（）。

A、主成分分析PCA

B、線性判別分析LDA

G深度學習SparseAutoEncoder

D、矩陣奇異值分解SVD

答案：ABD

205.處理圖像平滑處理的濾波有（）。

A、盒式濾波

B、均值濾波

C、圖斯濾波

D、中值濾波

答案：ABCD

206.關(guān)于相關(guān)與線性關(guān)系，下列說法正確的是（）

A、相關(guān)不一定是線性關(guān)系，可能是非線性關(guān)系

B、相關(guān)一定是線性關(guān)系，不可能是非線性關(guān)系

C、相關(guān)時若有相關(guān)系數(shù)r為0,說明兩個變量之間不存在線性關(guān)系，仍可能存

在非線性關(guān)系

D、相關(guān)系數(shù)為0是兩個變量獨立的必要不充分條件

答案：ACD

207.關(guān)于CAP理論說法正確的是（）。

A、一個分布式系統(tǒng)不能同時滿足一致性,可用性和分區(qū)容錯性等需求

B、一致性主要指強一致性

C、一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證（爭?。┛赡軐е铝?/p>

一個特征的損失（放棄）

D、可用性指每個操作總是在“給定時間”之內(nèi)得到返回“所需要的結(jié)果”

答案：ABCD

208.常見的聚類性能度量外部指標有（）。

A、Jaccard系數(shù)

B、DB指數(shù)

C、FM指數(shù)

D、以上答案都正確

答案：AC

209.在網(wǎng)絡爬蟲的爬行策略中，應用最為常見的是（）。

A、深度優(yōu)先遍歷策略

B、廣度優(yōu)先遍歷策略

C、高度優(yōu)先遍歷策略

D、反向鏈接策略

答案：AB

210.下列關(guān)于情感分析的說法正確的是（）。

A、簡單而言，是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過

程

B、情感分析的發(fā)展得益于社交媒體的興起

C、按照處理文本的粒度不同，情感分析大致可分為詞語級、句子級、篇章級三個

D、情感分析可以應用于文本挖掘

答案：ABCD

211.假設檢驗中，首先需要提出零假設和備擇假設，零假設是()，備擇假設是

()。

A、只有出現(xiàn)的概率大于閾值才會被拒絕的，只有零假設出現(xiàn)的概率大于閾值才

會被承認的

B、希望推翻的結(jié)論，希望證明的結(jié)論

C、只有出現(xiàn)的概率小于閾值才會被拒絕的，只有零假設出現(xiàn)的概率小于閾值才

會被承認的

D、希望證明的結(jié)論，希望推翻的結(jié)論

答案：BC

212.關(guān)于卷積神經(jīng)網(wǎng)絡的敘述中，正確的是()。

A、可用于處理時間序列數(shù)據(jù)

B、可用于處理圖像數(shù)據(jù)

C、卷積網(wǎng)絡中使用的卷積運算就是數(shù)學中的卷積計算

D、至少在網(wǎng)絡的一層中使用卷積

答案：ABD

213.在Python中,執(zhí)行importdatetimeasdt語句后，如下下列時間或日期定義

方式正確的是()。

A、dt.datetime(2019,12,12,23,23,23)

B、dt.datetime(2019,0,0,23,23,23)

C\dt.datetime(2019,12,12,0)

D、1.1ime(23,23,23)

答案：AC

214.數(shù)據(jù)科學項目主要涉及的活動包括（）。

A、模式/模型的應用及維護

B、模式/模型的洞見

C、結(jié)果的可視化與文檔化

D、模式/模型的驗證和優(yōu)化

答案：ABCD

215.0是Hadoop運行的模式。

A、單機版

B、偽分布式

C、分布式

D、全分布式

答案：ABC

216.列式數(shù)據(jù)庫（如BigTable和HBase）以表的形式存儲數(shù)據(jù)，表結(jié)構(gòu)包括（）

等元素。

A、關(guān)鍵字

B、時間戳

G列簇

D、數(shù)據(jù)類型

答案：ABC

217.Python邏輯表達式中，（）會導致邏輯短路，即不會繼續(xù)向下推算而直接

返回結(jié)果。

A、FaIse開頭的and語句

B\FaIse開頭的or語句

C\True開頭的and語句

D、True開頭的or語句

答案：AD

218.下面關(guān)于機器學習的理解，正確的是（）。

A、非監(jiān)督學習的樣本數(shù)據(jù)是要求帶標簽的

B、監(jiān)督學習和非監(jiān)督學習的區(qū)別在于是否要求樣本數(shù)據(jù)帶標簽

C、強化學習以輸入數(shù)據(jù)作為對模型的反饋

D、卷積神經(jīng)網(wǎng)絡一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)

答案：BCD

219.不屬于使用池化層相比于相同步長的卷積層的優(yōu)勢有（）。

A、參數(shù)更少

B、可以獲得更大下采樣

G速度更快

D、有助于提升精度

答案：BCD

220.在監(jiān)督式學習中使用聚類算法的方法有（）。

A、首先，可以創(chuàng)建聚類，然后分別在不同的集群上應用監(jiān)督式學習算法

B、在應用監(jiān)督式學習算法之前，可以將其類別ID作為特征空間中的一個額外的

特征

C、在應用監(jiān)督式學習之前，不能創(chuàng)建聚類

D、在應用監(jiān)督式學習算法之前，不能將其類別ID作為特征空間中的一個額外的

特征

答案：AB

221.以下描述中正確的是0o

A、統(tǒng)計學是數(shù)據(jù)科學的理論基礎之一

B、Python語言是統(tǒng)計學家發(fā)明的語言

C、機器學習是數(shù)據(jù)科學的理論基礎之一

D、數(shù)據(jù)科學是統(tǒng)計學的一個分支領域（子學科）

答案：AC

222.Spark支持的計算模型有（）。

A、批處理

B、實時計算

C、機器學習模型

D、交互式查詢

答案：ABCD

223.一個回歸模型存在多重共線問題，在不損失過多信息的情況下，可采取的措

施有（）。

A、剔除所有的共線性變量

B、剔除共線性變量中的一個

C、通過計算方差膨脹因子（VariancelnflationFactor,VIF）來檢查共線性程

度，并采取相應措施

D、刪除相關(guān)變量可能會有信息損失，我們可以不刪除相關(guān)變量，而使用一些正

則化方法來解決多重共線性問題，例如Ridge或Lasso回歸

答案：BCD

224.以下選項中，不是Python語言保留字的是（）。

A、do

B、pass

Cvexcept

DvuntiI

答案：AD

225.圖像分割中常使用的領域有（）。

A、0鄰域

B、4鄰域

C、8鄰域

D、24鄰域

答案：BC

226.以下描述中屬于Analytics2.0的主要特點的是（）。

A、側(cè)重嵌入式分析

B、重視非結(jié)構(gòu)化數(shù)據(jù)的分析

C、以決策支持為主要目的

D、注重解釋性分析和預測性分析

答案：BCD

227.下列選項中基于核的機器學習算法有（）。

A、最大期望算法

B、徑向基核函數(shù)

C、線性判別分析法

D、支持向量機

答案：BCD

228.EDA（探索性數(shù)據(jù)分析）方法與傳統(tǒng)統(tǒng)計學的驗證性分析方法的區(qū)別有（）o

A、EDA需要事先提出假設，而驗證性分析不需要

B、EDA中采用的方法往往比驗證性分析簡單

C、在一般數(shù)據(jù)科學項目中，探索性分析在先，驗證性分析在后

D、EDA更為簡單、易學和易用

答案：BCD

229.從可視化處理視角看，可以將數(shù)據(jù)分為四個類型（）四個類型并采用不同的

視覺映射方法。

A、定類數(shù)據(jù)

B、定序數(shù)據(jù)

C、定距離數(shù)據(jù)

D、定比暑假

答案：ABCD

230.屬于特征選擇的優(yōu)點有（）。

A、解決模型自身的缺陷

B、減少過擬合

C、提升模型的性能

D、增強模型的泛化能力

答案：BCD

231.Spark容錯性的方式有哪些（）。

A、數(shù)據(jù)檢查點

B、存儲原始數(shù)據(jù)

C、記錄數(shù)據(jù)的更新

D、自建數(shù)據(jù)版本

答案：AC

232.下列可以用來構(gòu)造神經(jīng)網(wǎng)絡的算法有（）。

A、kNN

B、線性回歸

G邏輯回歸

D、-

答案：BC

233.Hadoop組件Zookeeper的設計目標和主要特點包括（）。

A、簡單性

B、自我復制

C、順序訪問

D、高速讀取

答案：ABCD

234.Pig說法正確的是（）o

A、彌補MapReduce編程復雜性

B\封裝MapReduce處理過程

C、PigLatin是一種數(shù)據(jù)分析語言

D、適用于并行處理

答案：ABCD

235.Python變量命名規(guī)則包含（）。

A、變量名只能包含字母、數(shù)字和下劃線。變量名可以字母或下劃線開頭，但不

能以數(shù)字開頭。例如，可將變量命名為message」，但不能將其命名為1_messa

ge。

B、變量名不能包含空格，但可使用下劃線來分隔其中的單詞。例如，變量名gr

eeting_message可行，但變量名greetingmessage會引發(fā)錯誤。

C\不要將Python關(guān)鍵字和函數(shù)名用作變量名，即不要使用Python保留用于特

殊用途的單詞，如print。

D\變量名應既簡短又具有描述性。例如，name比n好，student_name比s_n

好，name_lengthbtIength_of_persons_name好。

答案：ABCD

236.以下跟圖像處理相關(guān)的是（）。

A、圖像識別

B、人臉識別

C、視頻分析

D、自然語言處理

答案：ABC

237.關(guān)于總體和樣本的說法，正確的是（）。

A、總體也就是研究對象的全體

B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品，那么樣本可以是每間隔10s抽

取的產(chǎn)品

C、樣本是從總體的隨機抽樣

D、如果總體是某一小學的1000名學生，那么樣本可以是一年級的100名學生

答案：ABC

238.深度學習方法不適用于的場景有（）。

A、數(shù)據(jù)樣本充足

B、數(shù)據(jù)樣本不足

C、數(shù)據(jù)集具有局部相關(guān)特性

D、數(shù)據(jù)集沒有局部相關(guān)特性

答案：BD

239.在Windows系統(tǒng)中通過Geany編寫Python程序，運行Python程序的常用步

驟是（）。

A、菜單Build>Execute

B、菜單Execute>BuiId

G按F5

D、按F10

答案：AC

240.在Spark中，彈性分布式數(shù)據(jù)集的特點包括（）。

A、可分區(qū)

B、可序列化

C、可直接修改

D、可持久化

答案：ABD

241.下列哪些是RDBMS中事務遵循的原則()o

A、原子性(Atomicity)

B、一致性(Connsistency)

G隔離性(Isolation)

Dv持久性(DurabiIity)

答案：ABCD

242.Spark組件包含哪兩個算子()。

A、Map

B、Action

C、Transformation

D、Reduce

答案：BC

243.特征選擇的目的是()。

A、減少特征數(shù)量、降維

B、使模型泛化能力更強

C、增強模型擬合能力

D、減少過擬合。

答案：ABD

244.對于不同場景內(nèi)容，一般數(shù)字圖像可以分為()。

A、二值圖像

B、灰度圖像

C、彩色圖像

D、深度圖像

答案：ABC

245.

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2024年數(shù)據(jù)價值挖掘技能競賽考試題庫大全-下（多選題）

文檔簡介

溫馨提示

最新文檔

評論

2024年數(shù)據(jù)價值挖掘技能競賽考試題庫大全-下（多選題）

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔