版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第頁數(shù)據(jù)挖掘競賽復(fù)習(xí)測試卷含答案1.屬于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用方向的是()。A、圖像分類B、目標檢測C、圖像語義分割D、以上答案都正確【正確答案】:D解析:
卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分類、目標檢測及圖像語義分割。2.給定詞匯表如下:{Bob,ok,like,football,car}。則下面句子Botlikesfootball的詞袋模型表示為()。A、[11100]B、[10110]C、[10010]D、[01101]【正確答案】:B解析:
統(tǒng)計文檔中每個詞的數(shù)量,根據(jù)詞表的位置,將各個詞的數(shù)量拼接成一個向量即可。3.下列屬于無監(jiān)督學(xué)習(xí)的是()。A、K-meansB、SVMC、最大熵D、CRF【正確答案】:A解析:
K-means是一個將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進行分類組織的過程,這是一個典型聚類算法,聚類就是一種發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù),該類算法被稱為無監(jiān)督學(xué)習(xí)。4.關(guān)于Python程序格式框架的描述,以下選項中錯誤的是()。A、Python語言不采用嚴格的“縮進”來表明程序的格式框架B、Python單層縮進代碼屬于之前最鄰近的一行非縮進代碼,多層縮進代碼根據(jù)縮進關(guān)系決定所屬范圍C、Python語言的縮進可以采用Tab鍵實現(xiàn)D、判斷、循環(huán)、函數(shù)等語法形式能夠通過縮進包含一批Python代碼,進而表達對應(yīng)的語義【正確答案】:A解析:
Python語言采用嚴格的“縮進”來表明程序的格式框架,縮進可以用Tab鍵或者空格實現(xiàn)。5.Spark的劣勢是()。A、運算速度快B、業(yè)務(wù)實現(xiàn)需要較少代碼C、提供很多現(xiàn)成函數(shù)D、需要更多機器內(nèi)存【正確答案】:D解析:
Spark采用的是內(nèi)存計算模式,需要的內(nèi)存較多。6.一元線性回歸方程y=0.7+0.82x,判定系數(shù)等于0.64,則x與y的相關(guān)系數(shù)為()。A、0.82B、0.64C、0.8D、0.7【正確答案】:C解析:
一元回歸分析中,自變量和因變量的相關(guān)系數(shù)的平方等于回歸模型的判定系數(shù)。所以,相關(guān)系數(shù)=sqrt(0.64)=0.8。7.MapReduce默認的分區(qū)函數(shù)是()。A、hashB、diskC、reduceD、map【正確答案】:A解析:
MapReduce默認的分區(qū)函數(shù)是hash。8.以下關(guān)于連接數(shù)組的描述,不正確的是()。A、concatenate連接沿現(xiàn)有軸的數(shù)組序列B、stack沿著新的軸加入一系列數(shù)組。C、vstack水平堆疊序列中的數(shù)組(列方向)D、hstack3D堆疊序列中的數(shù)組(行方向)【正確答案】:D解析:
hstack)為數(shù)組水平拼接。9.通?!奥湮檎摺笔怯绊慚apReduce總執(zhí)行時間的主要影響因素之一,為此MapReduce采用()機制來解決。A、分布式計算B、惰性計算C、推測性執(zhí)行的任務(wù)備份D、先進先出【正確答案】:C解析:
MapReduce采用“推測性執(zhí)行的任務(wù)備份”機制,當作業(yè)中大多數(shù)的任務(wù)都已經(jīng)完成時,系統(tǒng)在幾個空閑的節(jié)點上調(diào)度執(zhí)行剩余任務(wù)的備份,并在多個Worker上同時進行相同的剩余任務(wù)。10.PHOTO_PATH="./photo/{}.jpg"指令可以實現(xiàn)()。A、復(fù)制jpg文件到photo目錄下B、定義一個名為photo的存儲路徑C、打開photo里所有的jpg文件D、重命名目錄【正確答案】:B解析:
PHOTO_PATH="./photo/{}.jpg"指令可以實現(xiàn)定義一個名為photo的相對存儲路徑。11.以下關(guān)于Python模塊理解錯誤的有()。A、模塊是包含函數(shù)和變量的Python文件B、不可以使用.操作符訪問模塊中的函數(shù)和變量C、可以導(dǎo)入模塊中的所有類D、可以在一個模塊中導(dǎo)入另一個模塊【正確答案】:B解析:
導(dǎo)入模塊后,可直接使用“模塊.函數(shù)名/變量名”訪問函數(shù)或變量。12.在Python文件操作中,使用關(guān)鍵字()可以在文件訪問后自動將其關(guān)閉。A、assertB、breakC、nonlocalD、with【正確答案】:D解析:
在Python文件操作中,使用關(guān)鍵字with可以在文件訪問后自動將其關(guān)閉。13.下列圖像邊緣檢測算子中抗噪性能最好的是()。A、梯度算子B、Prewitt算子C、Roberts算子D、Laplacian算子【正確答案】:B解析:
Prewitt算子是一種一階微分算子的邊緣檢測,利用像素點上下、左右鄰點的灰度差,在邊緣處達到極值檢測邊緣,去掉部分偽邊緣,對噪聲具有平滑作用。14.以下不屬于大數(shù)據(jù)在社會活動中的典型應(yīng)用的是()。A、美團實現(xiàn)了快速精準的送餐服務(wù)B、共享單車、滴滴打車方便了人們的日常出行C、快遞實現(xiàn)了訂單的實時跟蹤D、供電公司提供電費賬單查詢【正確答案】:D解析:
電費賬單查詢屬于簡單報表查詢,用電情況分析、竊電行為分析、基于交易大數(shù)據(jù)分析用戶的購買習(xí)慣、基于傳感器感知的海量數(shù)據(jù)分析自然災(zāi)害的危害程度、基于搜索引擎的搜索關(guān)鍵詞分析社會熱點等屬于大數(shù)據(jù)應(yīng)用。15.下列哪種業(yè)務(wù)場景中,不能直接使用Reducer充當Combiner使用()A、sum求和B、max求最大值C、count求計數(shù)D、avg求平均【正確答案】:D解析:
求平均需要對全部數(shù)據(jù)進行計算而非部分數(shù)據(jù),在不更改業(yè)務(wù)邏輯的情況,使用Reducer充當Combiner,最終會造成業(yè)務(wù)結(jié)果不正確。16.()不是Spark服務(wù)層的功能。A、SQL查詢B、實時處理C、機器學(xué)習(xí)D、內(nèi)存計算【正確答案】:D解析:
Spark服務(wù)層主要提供面向特定類型的計算服務(wù),如SQL查詢、實時處理、機器學(xué)習(xí)以及圖計算。17.在回歸分析中,說法正確的是()。A、解釋變量和被解釋變量都是隨機變量B、解釋變量為非隨機變量,被解釋變量為隨機變量C、解釋變量和被解釋變量都為非隨機變量D、解釋變量為隨機變量,被解釋變量為非隨機變量【正確答案】:B解析:
在回歸分析中,解釋變量可以理解為自變量,具有確定性,因此為非隨機變量;被解釋變量可以理解為因變量,具有隨機性,因此為隨機變量。18.下列算法中:①K-NN最近鄰算法;②線性回歸;③邏輯回歸,可以用神經(jīng)網(wǎng)絡(luò)構(gòu)建的算法是()。A、①②B、②③C、①②③D、以上都不是【正確答案】:B解析:
KNN是關(guān)于距離的學(xué)習(xí)算法,沒有任何參數(shù),所以無法用神經(jīng)網(wǎng)絡(luò)構(gòu)建。19.下列關(guān)于數(shù)據(jù)科學(xué)流程與方法的描述中,錯誤的是()。A、數(shù)據(jù)科學(xué)的基本流程包括數(shù)據(jù)化、數(shù)據(jù)加工(DataWrangling或DataMunging)、數(shù)據(jù)規(guī)整化、探索性分析、數(shù)據(jù)分析與洞見、結(jié)果展現(xiàn)以及數(shù)據(jù)產(chǎn)品的提供B、對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過清洗成為規(guī)整數(shù)據(jù)C、數(shù)據(jù)分析包括描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析D、數(shù)據(jù)可視化會遇到視覺假象問題,人眼對亮度和顏色的相對判斷容易造成視覺假象【正確答案】:B解析:
對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過規(guī)整化處理(DataTyding)成為規(guī)整數(shù)據(jù)20.HBase依靠()存儲底層數(shù)據(jù)。A、HDFSB、HadoopC、MemoryD、MapReduce【正確答案】:A解析:
HBase位于結(jié)構(gòu)化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持。21.關(guān)于混合模型聚類算法的優(yōu)缺點,下面說法正確的是()。A、當簇只包含少量數(shù)據(jù)點或者數(shù)據(jù)點近似協(xié)線性時,混合模型也能很好地處理B、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇C、混合模型比K均值或模糊C均值更一般,因為它可以使用各種類型的分布D、混合模型在有噪聲和離群點時不會存在問題【正確答案】:C解析:
K均值與模糊C均值都是迭代求取最終值的聚類劃分,即聚類中心與隸屬度值。兩者都不能保證找到問題的最優(yōu)解,都有可能收斂到局部極值。模糊C均值是K均值方法的改進,算法的目標函數(shù)與K均值一致,區(qū)別在于目標函數(shù)中增加了模糊權(quán)重指數(shù);GMM高斯混合模型聚類采用了新的判斷依據(jù)——概率,即通過屬于某一類的概率大小來判斷最終的歸屬類別。22.Python安裝擴展庫常用的是()工具。A、pyinstallB、pipC、popD、post【正確答案】:B解析:
略。23.下列表達式中[print(x,y,100-x-y)forxinrange(21)foryinrange(34)if(100-x-y)%3==0and5*x+3*y+(100-x-y)//3==100],第三次輸出的結(jié)果是()。A、41878B、42175C、81478D、81181【正確答案】:D解析:
執(zhí)行結(jié)果應(yīng)為:24.以下說法錯誤的是()。A、當目標函數(shù)是凸函數(shù)時,梯度下降的解時全局最優(yōu)解B、進行PCA降維時需要計算協(xié)方差矩陣C、沿負梯度下降的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題【正確答案】:C解析:
梯度下降法并不是下降最快的方向,它只是目標函數(shù)在當前的點的切平面上下降最快的方向,可以說負梯度下降的方向一定是局部最優(yōu)的方向。25.關(guān)于PythonNumpy,、Scipy,、Pandas這些庫的區(qū)別,描述不對的是()。A、Numpy是以矩陣為基礎(chǔ)的數(shù)學(xué)計算模塊,純數(shù)學(xué)B、Scipy基于Numpy,科學(xué)計算庫,有一些高階抽象和物理模型C、Pandas提供了一套名為DataFrame的數(shù)據(jù)結(jié)構(gòu)D、三個模塊分別獨立【正確答案】:D解析:
模塊之間不是相互獨立的,例如Pandas和Scipy都基于Numpy。26.依托(),結(jié)合應(yīng)用推進數(shù)據(jù)歸集,形成統(tǒng)一的數(shù)據(jù)資源中心。A、全業(yè)務(wù)數(shù)據(jù)中心和數(shù)據(jù)平臺B、營銷基礎(chǔ)數(shù)據(jù)平臺和大數(shù)據(jù)平臺C、全業(yè)務(wù)中心和營銷基礎(chǔ)數(shù)據(jù)平臺D、全業(yè)務(wù)數(shù)據(jù)中心和大數(shù)據(jù)平臺【正確答案】:A解析:
詳見互聯(lián)數(shù)據(jù)〔2019〕14號《國網(wǎng)互聯(lián)網(wǎng)部關(guān)于加強數(shù)據(jù)管理的通知》。27.執(zhí)行下面操作后,list2的值是()。A、[4,5,6]B、[4,3,6]C、[4,5,3]D、以上答案都不正確【正確答案】:C解析:
賦值語句是淺復(fù)制操作,沒有復(fù)制子對象,所以原始數(shù)據(jù)改變,子對象會改變。28.關(guān)于Python布爾值,下列選項描述正確的是()。A、整型的0不可以表示FalseB、浮點型的0不可以表示FalseC、0+0j可以表示FalseD、布爾值不可以進行算術(shù)運算【正確答案】:C解析:
整型、浮點型0均可表示False,布爾值可參加運算。29.關(guān)于Hive說法正確的是()。A、一種數(shù)據(jù)倉庫B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】:A解析:
Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,用來進行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。30.彩色圖像增強時,()處理可以采用RGB。A、直方圖均衡化B、同態(tài)濾波C、加權(quán)均值濾波D、中值濾波【正確答案】:C解析:
RGB是彩色圖像的三通道像素值,均值濾波進行的是線性操作,不影響原本圖像的相對亮度。31.BP神經(jīng)網(wǎng)絡(luò)具有很的表示能力,它經(jīng)常遭遇(),其訓(xùn)練誤差持續(xù)降低,但測試誤差卻可能上升。A、欠擬合B、誤差過大C、誤差過小D、過擬合【正確答案】:D解析:
由于其強大的表示能力,BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過擬合,其訓(xùn)練誤差持續(xù)降低,但測試誤差卻可能上升。32.以下代碼的輸出結(jié)果為()。A、[[123][345][456]]B、3.6666666666667C、[2.666666673.666666674.66666667]D、[2.4.5.]【正確答案】:C解析:
對每列求均值。33.后剪枝是先從訓(xùn)練集生成一顆完整的決策樹,然后()對非葉結(jié)點進行考察。A、自上而下B、在劃分前C、禁止分支展開D、自底向上【正確答案】:D解析:
--34.當我們需要在一張圖表中特意指出某個特殊點,并加上標注達到醒目的目的時,需要用到()函數(shù)。A、plt.axvspan)B、plt.axhspan)C、plt.annotate)D、plt.text)【正確答案】:C解析:
annotate為圖的某個位置添加注解。35.sklearn.cluster模塊實現(xiàn)的了哪個功能是()。A、集群B、降維C、回歸D、聚類【正確答案】:D解析:
sklearn.cluster模塊收集了流行的無監(jiān)督聚類算法,包括K-means,、密度聚據(jù)類,、層次聚類等。36.在python中可以通過調(diào)用random庫來產(chǎn)生隨機數(shù)。a=random.randint(1,99),并賦值給變量a。以下描述正確的是()。A、隨機產(chǎn)生一個1~~99的小數(shù);B、隨機產(chǎn)生一個1~~99的整數(shù);C、產(chǎn)生一個值為99的整數(shù);D、隨機產(chǎn)生一個1~~99的無理數(shù);【正確答案】:B解析:
randint)函數(shù)用來生成閉區(qū)間的整數(shù)。37.以下關(guān)于隨機森林的說法正確的是()。A、隨機森林對于高維數(shù)據(jù)集的處理能力比較好B、在對缺失數(shù)據(jù)進行估計時,隨機森林是一個十分有效的方法C、當存在分類不平衡的情況時,隨機森林能夠提供平衡數(shù)據(jù)集誤差的有效方法D、以上答案都正確【正確答案】:D解析:
隨機森林對于高維數(shù)據(jù)集的處理能力比較好,在對缺失數(shù)據(jù)進行估計時,隨機森林是一個十分有效的方法,當存在分類不平衡的情況時,隨機森林能夠提供平衡數(shù)據(jù)集誤差的有效方法。38.()負責(zé)MapReduce任務(wù)調(diào)度。A、NameNodeB、JobtrackerC、TaskTrackerD、SecondaryNameNode【正確答案】:B解析:
Jobtracker負責(zé)MapReduce任務(wù)調(diào)度,TaskTracker負責(zé)任務(wù)執(zhí)行。39.下列屬于卷積網(wǎng)絡(luò)類型分類的是()。A、普通卷積B、擴張卷積C、轉(zhuǎn)置卷積D、以上答案都正確【正確答案】:D解析:
卷積神經(jīng)網(wǎng)絡(luò)四種卷積類型為普通卷積、擴張卷積、轉(zhuǎn)置卷積、可分離卷積。40.連續(xù)不斷地爬取網(wǎng)頁信息,較容易被網(wǎng)站識別,想要實現(xiàn)間隔15s來爬取網(wǎng)頁需要使用以下哪一項的指令是()。A、timestop(5)B、timesleep(15)C、timestrptime(15)D、timesleep(5)【正確答案】:B解析:
連續(xù)不斷地爬取網(wǎng)頁信息,較容易被網(wǎng)站識別,想要實現(xiàn)間隔15s來爬取網(wǎng)頁需要使用timesleep(15)。41.將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為()。A、編輯器B、編譯器C、虛擬機D、解釋器【正確答案】:B解析:
將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為編譯器。42.()算法是決策樹學(xué)習(xí)的基本算法,其他多數(shù)決策樹學(xué)習(xí)方法都是它的變體。A、Find-SB、KNNC、概念D、ID3【正確答案】:D解析:
--43.高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的轉(zhuǎn)移函數(shù)加上一常數(shù)量以便引入一些低頻分量。這樣濾波器叫()。A、巴特沃斯高通濾波器B、高頻提升濾波器C、高頻加強濾波器D、理想高通濾波器【正確答案】:B解析:
高頻增強濾波器由于相對削弱了低頻成分,因而濾波所得的圖像往往偏暗。44.下列選項中,用于關(guān)閉文件的方法是()。A、read)B、tell)C、seek)D、close)【正確答案】:D解析:
read)為讀取操作;tell)函數(shù)用于判斷文件指針當前所處的位置操作;seek)為用于將文件指針移動至指定位置操作;close)為關(guān)閉文件操作。45.以下分割方法中不屬于區(qū)域算法的是()。A、分裂合并B、閾值分割C、區(qū)域生長D、邊緣檢測【正確答案】:D解析:
邊緣檢測算法是標識數(shù)字圖像中亮度變化明顯的點,不屬于區(qū)域算法發(fā)范疇。46.關(guān)于__new__和__init__的區(qū)別,下列說法不正確的是()。A、__new__是一個實例方法,而__init__是一個靜態(tài)方法B、__new__方法會返回一個創(chuàng)建的實例,而__init__什么都不返回C、只有在__new__返回一個cls的實例時,后面的__init__才能被調(diào)用D、當創(chuàng)建一個新實例時調(diào)用__new__,初始化一個實例時用__init__【正確答案】:A解析:
__init__是一個實例方法,而__new__是一個靜態(tài)方法。47.關(guān)于文件的打開方式,以下選項中描述正確的是()。A、文件只能選擇二進制或文本方式打開B、文本文件只能以文本方式打開C、所有文件都可能以文本方式打開D、所有文件都可能以二進制方式打開【正確答案】:D解析:
計算機內(nèi)保存數(shù)據(jù)是以二進制保存的,因此都能用二進制方式打開讀取。48.()負責(zé)HDFS數(shù)據(jù)存儲。A、NameNodeB、JobTrackerC、DataNodeD、SecondaryNameNode【正確答案】:C解析:
DataNode負責(zé)HDFS的數(shù)據(jù)塊存儲。49.為了提高系統(tǒng)性能,Spark采取“惰性計算模式”,具體為()。A、執(zhí)行Transformation操作時不會提交,只有執(zhí)行Action操作時才會被提交到集群中開始被執(zhí)行B、執(zhí)行Action操作時不會提交,只有執(zhí)行Transformation操作時才會被提交到集群中開始被執(zhí)行C、只有執(zhí)行完Action操作和Transformation操作時,所有操作才會被提交到集群中開始被執(zhí)行D、執(zhí)行完Action操作或Transformation操作時都不會提交到集群【正確答案】:A解析:
Spark“惰性計算模式”定義。50.當在卷積神經(jīng)網(wǎng)絡(luò)中加入池化層(poolinglayer)時,變換的不變性會被保留。該說法()正確。A、不知道B、看情況C、是D、否【正確答案】:C解析:
使用池化時會導(dǎo)致出現(xiàn)不變性。51.PageRank是一個函數(shù),它對Web中的每個網(wǎng)頁賦予一個實數(shù)值。它的意圖在于網(wǎng)頁的PageRank越高,那么它就()。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要【正確答案】:D解析:
PageRank認為,如果A頁面有一個鏈接指向B頁面,那就可以看作是A頁面對B頁面的一種信任或推薦。所以,如果一個頁面的反向鏈接越多,根據(jù)這些鏈接的價值加權(quán)越高,那搜索引擎就會判斷這樣的頁面更為重要。52.關(guān)于數(shù)據(jù)創(chuàng)新,下列說法正確的是()。A、個數(shù)據(jù)集的總和價值等于單個數(shù)據(jù)集價值相加B、于數(shù)據(jù)的再利用,數(shù)據(jù)應(yīng)該永久保存下去C、同數(shù)據(jù)多次用于相同或類似用途,其有效性會降低D、數(shù)據(jù)開放價值可以得到真正釋放【正確答案】:D解析:
略。53.如果規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為()。A、無序規(guī)則B、窮舉規(guī)則C、互斥規(guī)則D、有序規(guī)則【正確答案】:C解析:
--54.()操作屬于預(yù)剪枝。A、信息增益B、計算最好的特征切分點C、限制樹模型的深度D、可視化樹模型【正確答案】:C解析:
預(yù)剪枝是指在決策樹生成過程中,對每個結(jié)點在劃分前先進行估計,若當前結(jié)點的劃分不能帶來決策樹泛化性能提升,則停止劃分并將當前結(jié)點標記為葉結(jié)點。限制樹模型的深度屬于預(yù)剪枝。55.數(shù)據(jù)安全不只是技術(shù)問題,還涉及()。A、人員問題B、管理問題C、行政問題D、領(lǐng)導(dǎo)問題【正確答案】:B解析:
數(shù)據(jù)安全不只是技術(shù)問題,還涉及管理問題。56.以下可以作為文本分類準則的是()。A、預(yù)測準確率B、魯棒性C、可擴展性D、以上答案都正確【正確答案】:D解析:
文本分類準則包含預(yù)測準確性,魯棒性和可擴展性。57.在linux下預(yù)裝了Python2,、Python3且默認Python版本為Python3,下列描述可以正確啟動Python有的是()。A、在linux應(yīng)用程序Terminal,打開一個終端窗口。輸入whichPythonB、在linux應(yīng)用程序Terminal,打開一個終端窗口。輸入Python2或Python3C、在linux應(yīng)用程序Terminal,打開一個終端窗口。輸入whichPython3D、在linux應(yīng)用程序Terminal,打開一個終端窗口。輸入輸入whichPython2【正確答案】:B解析:
Windows系統(tǒng)下通過在命令行直接輸入python2或者python3啟動Python,;Linux系統(tǒng)下通過在Terminal輸入python2或者python3啟動Python。58.以下代碼的輸出結(jié)果為()。A、[[1,2],[3,4],[1,2],[3,4]]B、[[1,2,3,4],[1,2,3,4]]C、[[1,2],[3,4]]D、[1,2,3,4,1,2,3,4]【正確答案】:A解析:
vstack)為數(shù)組垂直拼接。59.訓(xùn)練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分類。該說法()。A、正確B、錯誤C、-D、-【正確答案】:A解析:
--60.文本信息往往包含客觀事實和主觀情感,對于文本的情感分析主要是識別文章中的主觀類詞語,其中()不適用于情感分析。A、表達觀點的關(guān)鍵詞B、表達程度的關(guān)鍵詞C、表達情緒的關(guān)鍵詞D、表達客觀事實的關(guān)鍵詞【正確答案】:D解析:
D中表達客觀事實的關(guān)鍵詞是對事物的客觀性描述,不帶有感情色彩和情感傾向,即為客觀性文本,不適用于情感分析。而主觀性文本則是作者對各種事物的看法或想法,帶有作者的喜好厭惡等情感傾向,如ABC中表觀點、程度和情緒的關(guān)鍵詞都是帶有情感傾向的主觀性文本,適用于情感分析。61.()先對數(shù)據(jù)集進行特征選擇,然后再訓(xùn)練學(xué)習(xí)器。A、過濾式選擇B、包裹式選擇C、稀疏表示D、嵌入式選擇【正確答案】:A解析:
--62.sklearn庫中對數(shù)據(jù)進行預(yù)處理和規(guī)范化主要依靠()模塊。A、neighbors模塊B、preprocessing模塊C、pipeline模塊D、datasets模塊【正確答案】:B解析:
sklearn.preprocessing模塊包括縮放,、居中,、歸一化,、二值化和插補方法,主要是對數(shù)據(jù)進行預(yù)處理和規(guī)范化。63.在pandas中,哪一個函數(shù)()可以統(tǒng)計Series每個唯一值出現(xiàn)的次數(shù)()。A、nunique)B、unique)C、sort_values)D、value_counts)【正確答案】:D解析:
value_counts)可以統(tǒng)計每個唯一值出現(xiàn)的次數(shù),unique)可以查看有哪些唯一值,nunique)可以統(tǒng)計唯一值的數(shù)量,sort_values)是按值進行排序。64.()不可以直接來對文本分類。A、K-meansB、決策樹C、支持向量機D、KNN【正確答案】:A解析:
K-means是聚類方法,屬于無監(jiān)督學(xué)習(xí)。BCD都是常見的分類方法。65.下列關(guān)于聚類挖掘技術(shù)的說法中,錯誤的是()。A、不預(yù)先設(shè)定數(shù)據(jù)歸類類目,完全根據(jù)數(shù)據(jù)本身性質(zhì)將數(shù)據(jù)聚合成不同類別B、要求同類數(shù)據(jù)的內(nèi)容相似度盡可能小C、要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小D、與分類挖掘技術(shù)相似的是,都是要對數(shù)據(jù)進行分類處理【正確答案】:B解析:
聚類挖掘技術(shù)中要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小。66.在線性回歸問題中,我們用R方來衡量擬合的好壞。在線性回歸模型中增加特征值并再訓(xùn)練同一模型。下列說法正確的是()。A、如果R方上升,則該變量是顯著的B、如果R方下降,則該變量不顯著C、單單R方不能反映變量重要性,不能就此得出正確結(jié)論D、以上答案都不正確【正確答案】:C解析:
單單R方不能表示變量顯著性,因為每次加入一個特征值,R方都會上升或維持不變。但在調(diào)整R方的情況下這也有誤(如果特征值顯著的話,調(diào)整R方會上升)。67.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為()。A、信息(活動)價值鏈和信息技術(shù)價值鏈B、信息技術(shù)價值鏈和信息(活動)價值鏈C、信息交互價值鏈和信息技術(shù)價值鏈D、信息(活動)價值鏈和信息交互價值鏈【正確答案】:A解析:
大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價值鏈的信息價值鏈(水平軸)和信息技術(shù)價值鏈(垂直軸)兩個維度組織展開68.egrate模塊的主要作用是()。A、里面有各種特殊的數(shù)學(xué)函數(shù),可以直接調(diào)用,如貝塞爾函數(shù)B、可以求多重積分,高斯積分,解常微分方程C、包括樣條插值,卷積,差分等濾波函數(shù)D、提供各種線性代數(shù)中的常規(guī)操作【正確答案】:B解析:
egrate模塊是積分模塊,可以求多重積分,、高斯積分,解常微分方程等。69.下列()不屬于Statsmodels模塊的主要特點的是()。A、線性模型B、方差分析C、時間序列D、插值運算【正確答案】:D解析:
插值運算不是統(tǒng)計分析的主要內(nèi)容。70.數(shù)據(jù)可視化的基本類型是()。A、科學(xué)可視化、信息可視化、可視分析學(xué)B、物理可視化、數(shù)字可視化、化學(xué)可視化C、科學(xué)可視化、數(shù)字可視化、可視分析學(xué)D、科學(xué)可視化、信息可視化、文本可視化【正確答案】:A解析:
大數(shù)據(jù)可視化可以說是傳統(tǒng)數(shù)據(jù)可視化的一個繼承和延伸,它是指將大規(guī)模海量數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。大數(shù)據(jù)可視化是大數(shù)據(jù)整個過程的最后環(huán)節(jié),也是非常重要的一個環(huán)節(jié)。71.關(guān)于bagging下列說法錯誤的是()。A、各基分類器之間有較強依賴,不可以進行并行訓(xùn)練B、最著名的算法之一是基于決策樹基分類器的隨機森林C、當訓(xùn)練樣本數(shù)量較少時,子集之間可能有重疊D、為了讓基分類器之間互相獨立,需要將訓(xùn)練集分為若干子集【正確答案】:A解析:
Bagging方法在訓(xùn)練過程中,各基分類器之間無強依賴,可以進行并行訓(xùn)練,隨機森林就是一種典型的例子。72.線性模型中的權(quán)重w值可以看做各個屬性x的()。A、正則化系數(shù)B、對最終決策結(jié)果的貢獻度C、高維映射D、取值【正確答案】:B解析:
--73.a=[[1.,2.,1.],[1.,2.,1.]],a+3的值為()。A、[[1,2,1],[4,5,4]]B、[[4,5,4],[4,5,4]]C、[[4,5,4],[1,2,1]]D、以上答案都不正確【正確答案】:D解析:
列表不能和數(shù)字相加,因此會報錯。74.Matplotlib的核心是面向()。A、過程B、對象C、結(jié)果D、服務(wù)【正確答案】:B解析:
Matplotlib的核心是面向?qū)ο蟮?。如果需要更多控制和自定義圖,我們建議直接使用對象。75.IDLE環(huán)境的退出命令是()。A、exit)B、回車鍵C、close)D、esc)【正確答案】:A解析:
IDLE使用exit)退出環(huán)境。76.卷積神經(jīng)網(wǎng)絡(luò)能通過卷積以及池化等操作將不同種類的鳥歸為一類。關(guān)于卷積神經(jīng)網(wǎng)絡(luò)能達到該效果的原因,下列說法不正確的是()。A、同樣模式的內(nèi)容(如鳥嘴)在圖像不同位置可能出現(xiàn)B、池化之后的圖像主體內(nèi)容基本不變C、不同種類鳥的相同部位(如鳥嘴)形狀相似D、池化作用能使不同種類鳥變得相似【正確答案】:D解析:
特征維數(shù)的減少并不會讓之前的特征丟失。77.考慮值集{12243324556826},其四分位數(shù)極差是:()。A、21B、24C、55D、3【正確答案】:A解析:
四分位差,也稱為內(nèi)距或四分間距,它是上四分位數(shù)(QU,即位于75%)與下四分位數(shù)(QL,即位于25%)的差。計算公式為:QD=QU-QL。將數(shù)據(jù)從小到大排序,可得到QU=33,QL=12,因此QD=QU-QL=2178.K折交叉驗證器是以下哪個()方法()。A、model_selection.GroupKFold)B、model_selection.GroupShuffleSplit)C、model_selection.KFold)D、model_selection.RepeatedKFold)【正確答案】:C解析:
model_selection.KFold)實現(xiàn)了K折交叉驗證功能。79.RNN不同于其他神經(jīng)網(wǎng)絡(luò)的地方在于()。A、實現(xiàn)了記憶功能B、速度快C、精度高D、易于搭建【正確答案】:A解析:
--80.Python中statsmodels庫適用于()場景。A、統(tǒng)計分析B、機器學(xué)習(xí)C、圖像處理D、數(shù)據(jù)建模【正確答案】:A解析:
Statsmodelsstatsmodels用于統(tǒng)計分析。81.在比較模型的擬合效果時,甲、乙、丙三個模型的相關(guān)指數(shù)R2的值分別約為0.71、0.85、0.90,則擬合效果較好的模型是()。A、甲B、乙C、丙D、效果一樣【正確答案】:C解析:
R2的取值為0~1,越靠近1,擬合效果越好。82.所有預(yù)測模型在廣義上都可稱為一個或一組()。A、公式B、邏輯C、命題D、規(guī)則【正確答案】:D解析:
--83.給定一個長度為n的不完整單詞序列,我們希望預(yù)測下一個字母是什么。比如輸入是predictio(9個字母組成),希望預(yù)測第十個字母是什么。()適用于解決這個工作。A、循環(huán)神經(jīng)網(wǎng)絡(luò)B、全連接神經(jīng)網(wǎng)絡(luò)C、受限波爾茲曼機D、卷積神經(jīng)網(wǎng)絡(luò)【正確答案】:A解析:
循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備,因此在對序列的非線性特征進行學(xué)習(xí)時具有一定優(yōu)勢。循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語言處理(NaturalLanguageProcessing,NLP),例如語音識別、語言建模、機器翻譯等領(lǐng)域有應(yīng)用,也被用于各類時間序列預(yù)報。84.機器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好稱為()。A、訓(xùn)練偏好B、歸納偏好C、分析偏好D、假設(shè)偏好【正確答案】:B解析:
--85.數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要特別注意的基本活動不包括()。A、創(chuàng)造性設(shè)計B、數(shù)據(jù)洞見C、虛擬化D、個性化描述【正確答案】:D解析:
數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要注意有創(chuàng)造性設(shè)計、數(shù)據(jù)洞見、虛擬化等基本活動。86.多分類LDA將樣本投影到N-1維空間,N-1通常遠小于數(shù)據(jù)原有的屬性數(shù),可通過這個投影來減小樣本點的維數(shù),且投影過程中使用了類別信息,因此LDA也常被視為一種經(jīng)典的()技術(shù)。A、無監(jiān)督特征選擇B、無監(jiān)督降維C、監(jiān)督特征選擇D、監(jiān)督降維【正確答案】:D解析:
--87.以下可以作為文本分類準則的是()。A、預(yù)測準確率B、魯棒性C、可擴展性D、以上答案都正確【正確答案】:D解析:
文本分類準則包含預(yù)測準確性,魯棒性和可擴展性。88.檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于()的離群點檢測。A、統(tǒng)計方法B、鄰近度C、密度D、機器學(xué)習(xí)技術(shù)【正確答案】:A解析:
略。89.在深度學(xué)習(xí)中,我們經(jīng)常會遇到收斂到localminimum,下面不屬于解決localminimum問題的方法是()。A、隨機梯度下降B、設(shè)置MomentumC、設(shè)置不同初始值D、增大batchsize【正確答案】:D解析:
增大batchsize無法解決localminimum問題。90.os.path模塊的下列方法,()可以用來判斷指定路徑是否存在。A、exists)B、exist)C、getsize)D、isfile)【正確答案】:A解析:
判斷指定路徑是否存在使用exists)函數(shù)。91.下列有關(guān)函數(shù)的說法中,正確的是()。A、函數(shù)的定義必須在程序的開頭B、函數(shù)定義后,其中的程序就可以自動執(zhí)行C、函數(shù)定義后需要調(diào)用才會執(zhí)行D、函數(shù)體與關(guān)鍵字關(guān)鍵字關(guān)鍵字def必須左對齊【正確答案】:C解析:
函數(shù)的定義只要出現(xiàn)在調(diào)用之前即可;函數(shù)定義后需調(diào)用才可以執(zhí)行;函數(shù)定義時主體語句應(yīng)縮進4個空格。92.下列關(guān)于文本分類的說法不正確的是()。A、文本分類是指按照預(yù)先定義的主題類別,由計算機自動地為文檔集合中的每個文檔確定一個類別B、文本分類系統(tǒng)大致可分為基于知識工程的分類系統(tǒng)和基于機器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計算兩個步驟【正確答案】:C解析:
詞袋模型沒有考慮文本詞語的原本行文順序。93.在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中,感知機輸出層中的M-P神經(jīng)元通常被稱為()。A、閾值邏輯單元B、激活函數(shù)C、擠壓函數(shù)D、連接函數(shù)【正確答案】:A解析:
--94.Python語句print(0xA+0xB)的輸出結(jié)果是()。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】:D解析:
0x是16進制運算,0xA+0xB換為十進制為10+11=21。95.任一隨機事件出現(xiàn)的概率為()。A、在–1與1之間B、小于0C、不小于1D、在0與1之間【正確答案】:D解析:
如果沒有其他的附加條件的話,一般概率P的取值范圍是0≤P≤1。0代表不可能發(fā)生,1代表一定會發(fā)生。96.np.linalg.svd)函數(shù)可以實現(xiàn)()功能。A、計算協(xié)方差矩陣B、實現(xiàn)奇異值分解C、計算方差D、計算均值;【正確答案】:B解析:
svd實現(xiàn)奇異值分解。97.一位母親記錄了兒子3~9歲的身高,由此建立的身高與年齡的回歸直線方程為y=7.19x+73.93,據(jù)此可以預(yù)測這個孩子10歲時的身高,則正確的敘述是()。A、身高一定是145.83cmB、身高一定超過146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正確答案】:D解析:
回歸直線方程預(yù)測時,出現(xiàn)的誤差方向不能確定。98.線性回歸的基本假設(shè)不包括()。A、隨機誤差項是一個期望值為0的隨機變量B、對于解釋變量的所有觀測值,隨機誤差項有相同的方差C、隨機誤差項彼此相關(guān)D、解釋變量是確定性變量不是隨機變量,與隨機誤差項之間相互獨立【正確答案】:C解析:
線性回歸的基本假設(shè):(1)線性關(guān)系假設(shè)。(2)正態(tài)性假設(shè),指回歸分析中的Y服從正態(tài)分布。(3)獨立性假設(shè),包含兩個意思:①與某一個X對應(yīng)的一組Y和與另一個X對應(yīng)的一組Y之間沒有關(guān)系,彼此獨立;②誤差項獨立,不同的X所產(chǎn)生的誤差之間應(yīng)相互獨立,無自相關(guān)。(4)誤差等分散性假設(shè):特定X水平的誤差,除了應(yīng)呈隨機化的常態(tài)分配,其變異量也應(yīng)相等,稱為誤差等分散性。99.scipy庫中用于物理和數(shù)學(xué)常量計算的模塊是()。A、scipy.clusterB、scipy.ioC、scipy.constantsD、scipy.linalg【正確答案】:C解析:
scipy中,constants是常量計算模塊。100.Python中定義私有屬性的方法是()。A、使用private關(guān)鍵字B、使用public關(guān)鍵字C、使用__XX__定義屬性名D、使用__XX定義屬性名【正確答案】:D解析:
使用__XX定義屬性名是定義私有屬性的方法。1.對于不同場景內(nèi)容,一般數(shù)字圖像可以分為()。A、二值圖像B、灰度圖像C、彩色圖像D、深度圖像【正確答案】:ABC解析:
深度圖像中深度通道為描述距離,一般對其進行采樣或數(shù)值離散化。2.CNN相比于全連接的DNN,具有的優(yōu)勢是()。A、參數(shù)更少B、泛化更好C、訓(xùn)練更快D、更容易搭建【正確答案】:ABC解析:
DNN直接對數(shù)據(jù)做加權(quán)線性連接,而CNN則是移動卷積核,并對圖像中的各區(qū)域做卷積操作。因此,DNN更容易搭建,D錯誤。3.直方圖修正法包括()。A、直方圖統(tǒng)計B、直方圖均衡C、直方圖過濾D、直方圖規(guī)定化【正確答案】:BD解析:
直方圖統(tǒng)計是對圖像特征值的統(tǒng)計;直方圖過濾屬于圖像處理技術(shù)。4.訓(xùn)練CNN時,GPU顯存溢出,此時可以采取的辦法有()。A、減少mini_batch大小B、移除一些卷積層C、減少圖片輸入大小D、增加激活函數(shù)【正確答案】:ABC解析:
增加激活函數(shù)反而會加重負擔(dān),D選項錯誤。5.任何函數(shù)都可以修改,所以盡量少用全局變量,主要原因包括()。A、不夠安全B、一直占用內(nèi)存C、容易失效D、一直占用字符【正確答案】:AB解析:
全局變量安全性差、相關(guān)內(nèi)存一直無法釋放。6.Numpy數(shù)組中將一個數(shù)組分割成多個小數(shù)組數(shù)組的分割函數(shù)包括()。A、hsplitBB、vsplitCC、splitDD、dsplit【正確答案】:ABCD解析:
以上都是分割函數(shù),分別為水平分割,、數(shù)值分割,、通用分割,、深度分割。7.下列對字符串函數(shù)或方法說法正確的有()。A、istitle)如果字符串是標題化的(見title)則返回True,否則返回FalseB、max(str)返回字符串str中最大的字母。C、replace(old,new,max)把將字符串中的str1替換成str2,如果max指定,則替換不超過max次D、upper)轉(zhuǎn)換字符串中所有大寫字符為小寫【正確答案】:ABC解析:
upper)轉(zhuǎn)換字符串中所有小寫字符為大寫。8.ApacheFlume主要解決的是日志數(shù)據(jù)的收集和處理問題,F(xiàn)lume的主要設(shè)計目的和特征是()。A、高可靠性B、可擴展性C、管理復(fù)雜D、不支持用戶自定義【正確答案】:AB解析:
Flume的主要設(shè)計目的和特征包括高可靠性、可擴展性、支持方便管理、支持用戶自定義。9.下面關(guān)于隨機變量及其概率分布的說法,正確的是()。A、隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量B、隨機變量的概率分布指的是一個隨機變量所有取值的可能性C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率是最大的【正確答案】:ABC解析:
扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率不是最大的。10.常用分詞方法包含()。A、基于Binarytree的分詞方法B、基于HMM的分詞方法C、基于CRF的分詞方法D、基于K-means的分詞方法【正確答案】:BC解析:
K-means一般用于聚類,Binarytree(二叉樹)也不用于分詞。11.下列關(guān)于數(shù)據(jù)科學(xué)中常用的統(tǒng)計學(xué)知識說法錯誤的是()。A、從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統(tǒng)計的數(shù)據(jù)分析方法又可分為描述統(tǒng)計和推斷統(tǒng)計C、描述統(tǒng)計可分為集中趨勢分析、離中趨勢分析、參數(shù)估計和假設(shè)檢驗D、推斷統(tǒng)計包括采樣分布和相關(guān)分析【正確答案】:ABCD解析:
從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計方法包括描述統(tǒng)計、假設(shè)檢驗、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計可分為集中趨勢分析和離散趨勢分析;推斷統(tǒng)計包括總體參數(shù)估計和假設(shè)檢驗兩方面內(nèi)容。12.可能導(dǎo)致交叉檢驗?zāi)P驮u估較差可能是由于()的原因?qū)е碌挠校ǎ?。A、模型過擬合B、模型欠擬合C、模型過度復(fù)雜D、模型過度簡單【正確答案】:ABCD解析:
以上問題都可能導(dǎo)致模型評估效果較差。13.關(guān)于Hive的說法正確的是()。A、Hive是基于Hadoop的數(shù)據(jù)倉庫工具B、Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表C、最初,Hive由Google開源,用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計問題D、Hive的主要應(yīng)用場景是離線分析【正確答案】:ABD解析:
Hive不是由谷歌提出和開源的,谷歌提出的三大核心技術(shù)是GFS、BigTable、MapReduce。14.Spark容錯性的方式有哪些()。A、數(shù)據(jù)檢查點B、存儲原始數(shù)據(jù)C、記錄數(shù)據(jù)的更新D、自建數(shù)據(jù)版本【正確答案】:AC解析:
Spark容錯性有數(shù)據(jù)檢查點和記錄數(shù)據(jù)的更新兩種方式。15.卷積神經(jīng)網(wǎng)絡(luò)為了保證圖像對位移、縮放、扭曲的魯棒性,可采取的措施有()。A、局部感受野B、共享權(quán)值C、池采樣D、正則化【正確答案】:ABC解析:
正則化是為了減少泛化誤差。16.對以下代碼說法正確的是()。A、該圖表是一個藍綠色的散點圖B、圖表中有紅色實線的網(wǎng)格線C、圖表中有圖例D、該圖畫的是sin曲線【正確答案】:CD解析:
該圖畫的是點虛線形式的折線圖,紅色點線網(wǎng)格,帶有圖例。17.下面關(guān)于單樣本Z檢驗的說法,正確的是()。A、在Python中,單樣本Z檢驗可以使用scipy.stats.ttest_1samp()實現(xiàn)B、單樣本Z檢驗適用于樣本量較大的情況C、單樣本Z檢驗假設(shè)要檢驗的統(tǒng)計量(近似)滿足正態(tài)分布D、單樣本Z檢驗常用于檢驗總體平均值是否等于某個常量【正確答案】:BCD解析:
在Python中,單樣本Z檢驗可以使用statsmodels.stats.weightstats.ztest實現(xiàn)。18.關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較,說法正確的是()。A、歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)B、歸納學(xué)習(xí)論證方式為統(tǒng)計推理,分析學(xué)習(xí)為演繹推理C、歸納學(xué)習(xí)不需要先驗知識D、訓(xùn)練數(shù)據(jù)不足時歸納學(xué)習(xí)可能會失敗【正確答案】:ABCD解析:
分析學(xué)習(xí)是相對于歸納學(xué)習(xí)的一種提法,其特點是使用先驗知識來分析或解釋每個訓(xùn)練樣本,以推理出樣本的哪些特征與目標函數(shù)相關(guān)或不相關(guān)。因此,這些解釋能使機器學(xué)習(xí)系統(tǒng)比單獨依靠數(shù)據(jù)進行泛化有更高的精度。分析學(xué)習(xí)使用先驗知識來減小待搜索假設(shè)空間的復(fù)雜度,減小了樣本復(fù)雜度并提高了機器學(xué)習(xí)系統(tǒng)的泛化精度。可見,分析學(xué)習(xí)與歸納學(xué)習(xí)的優(yōu)缺點在一定程度上具有互補性,分析學(xué)習(xí)方法的優(yōu)點在于可用先驗知識從較少的數(shù)據(jù)中更精確地泛化以引導(dǎo)學(xué)習(xí)。但是,當先驗知識不正確或不足時,分析學(xué)習(xí)的缺點也會被突顯;歸納學(xué)習(xí)具有的優(yōu)點是不需要顯式的先驗知識,并且主要基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)到規(guī)律。然而,若訓(xùn)練數(shù)據(jù)不足時它能會失敗,并且會被其中隱式的歸納偏置所誤導(dǎo),而歸納偏置是從觀察數(shù)據(jù)中泛化所必需的過程。因此,我們可以考慮如何將二者結(jié)合成一個單獨的算法,以獲得它們各自的優(yōu)點。19.RNN網(wǎng)絡(luò)的激活函數(shù)要選用雙曲正切而不是Sigmod的原因有()。A、使用Sigmod函數(shù)容易出現(xiàn)梯度消失B、Sigmod的導(dǎo)數(shù)形式較為復(fù)雜C、雙曲正切更簡單D、Sigmoid函數(shù)實現(xiàn)較為復(fù)雜【正確答案】:AB解析:
第一,采用Sigmoid等函數(shù),反向傳播求誤差梯度時,求導(dǎo)計算量很大,而ReLU求導(dǎo)非常容易。第二,對于深層網(wǎng)絡(luò),Sigmoid函數(shù)反向傳播時,很容易就會出現(xiàn)梯度消失的情況(在Sigmoid接近飽和區(qū)時,變換太緩慢,導(dǎo)數(shù)趨于0),從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練。20.DGI定義的數(shù)據(jù)治理任務(wù)包括()。A、數(shù)據(jù)質(zhì)量的評估B、主動定義或序化規(guī)則C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護與服務(wù)D、應(yīng)對并解決因不遵守規(guī)則而產(chǎn)生的問題【正確答案】:BCD解析:
DGI(TheDataGovermanceInstitute)認為數(shù)據(jù)治理是對數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動。它是一個信息處理過程中根據(jù)模型來執(zhí)行的決策權(quán)和承擔(dān)責(zé)任的系統(tǒng),規(guī)定了誰可以在什么情況下對哪些信息做怎樣的處理。21.決策樹遞歸停止的條件為()。A、訓(xùn)練數(shù)據(jù)集使用完B、所有的類標簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:
決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導(dǎo)致遞歸返回:①結(jié)點包含的樣本全屬于同一類別,無須劃分;②當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當前結(jié)點包含的樣本集合為空,不能劃分。22.在MapReduce1.0版本中,JobTracker功能是()。A、資源管理B、作業(yè)控制C、作業(yè)存儲D、作業(yè)審核【正確答案】:AB解析:
在MapReduce1.0中,JobTracker同時兼?zhèn)淞速Y源管理和作業(yè)控制兩個功能。23.下列哪些是傳統(tǒng)RDBMS的缺點()。A、表結(jié)構(gòu)schema擴展不方便B、全文搜索功能較弱C、大數(shù)據(jù)場景下I/O較高D、存儲和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱【正確答案】:ABCD解析:
傳統(tǒng)RDBMS的缺點包括表結(jié)構(gòu)schema擴展不方便、全文搜索功能較弱、大數(shù)據(jù)場景下I/O較高、存儲和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱。24.下列屬于字符串匹配的分詞方法的是()。A、正向最大匹配法(由左到右的方向)B、逆向最大匹配法(由右到左的方向)C、最少切分(使每一句中切出的詞數(shù)最小)D、雙向最大匹配法(進行由左到右、由右到左兩次掃描)【正確答案】:ABCD解析:
正向最大匹配、逆向最大匹配、最少切分、雙向最大匹配都屬于字符串匹配的常用方法。25.SparkRDD的依賴機制包括()。A、寬依賴B、深度依賴C、廣度依賴D、窄依賴【正確答案】:AD解析:
RDD之間的依賴關(guān)系可以分為窄依賴和寬依賴兩種。26.以下()函數(shù)是累積函數(shù)。A、cumsumB、argminC、cumprodD、argmax【正確答案】:AC解析:
cumsum、cumprod分別為累加和累乘函數(shù)。27.常用的數(shù)據(jù)審計方法可以分為()。A、預(yù)定義審計B、自定義審計C、可視化審計D、結(jié)構(gòu)化審計【正確答案】:ABC解析:
常用的數(shù)據(jù)審計方法有預(yù)定義審計、自定義審計和可視化審計三種。28.特征選擇在子集生成與搜索方面引入了人工智能搜索技術(shù)和子集評價方法。其中人工智能搜索技術(shù)有()。A、分支界限法B、浮動搜索法C、信息熵D、AIC【正確答案】:ABCD解析:
特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術(shù),如分支界限法、浮動搜索法等;在子集評價方法則采用了很多源于信息論的準則,如信息熵、AIC等。29.關(guān)于相關(guān)與線性關(guān)系,下列說法正確的是()A、相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系B、相關(guān)一定是線性關(guān)系,不可能是非線性關(guān)系C、相關(guān)時若有相關(guān)系數(shù)r為0,說明兩個變量之間不存在線性關(guān)系,仍可能存在非線性關(guān)系D、相關(guān)系數(shù)為0是兩個變量獨立的必要不充分條件【正確答案】:ACD解析:
相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系。30.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。A、具有勞動增值B、涉及法律權(quán)屬C、具有財務(wù)價值D、涉及道德與倫理【正確答案】:ABCD解析:
大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動增值、涉及法律權(quán)屬、具有財務(wù)價值、涉及道德與倫理。31.在正則化公式中,λ為正則化參數(shù),關(guān)于λ的描述正確的是()。A、若正則化參數(shù)λ過大,可能會導(dǎo)致出現(xiàn)欠擬合現(xiàn)象B、若λ的值太大,則梯度下降可能不收斂C、取一個合理的λ值,可以更好地應(yīng)用正則化D、如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會在一定程度上減小【正確答案】:ABCD解析:
正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。32.如將A、B、C三個分類器的PR曲線畫在一個圖中,其中A、B的PR曲線可以完全包含住C的PR曲線,A與B的PR曲線有交點,A、B、C的平衡點分別為0.79、0.66、0.58,以下說法中正確的是()。A、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器CB、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器BC、學(xué)習(xí)器B的性能優(yōu)于學(xué)習(xí)器CD、學(xué)習(xí)器C的性能優(yōu)于學(xué)習(xí)器B【正確答案】:ABC解析:
若一個學(xué)習(xí)器的PR曲線被另一個學(xué)習(xí)器的曲線完全包住,則可斷言后者的性能優(yōu)于前者,如果兩個學(xué)習(xí)器的PR曲線發(fā)生了交叉,則可用平衡點度量。33.下面屬于可視化高維數(shù)據(jù)技術(shù)的是()。A、矩陣B、.平行坐標系C、星形坐標系D、散布圖【正確答案】:ABC解析:
矩陣、平行坐標系和星形坐標系都屬于可視化高維數(shù)據(jù)的常用技術(shù),而散布圖又叫相關(guān)圖,只能處理二維數(shù)據(jù)。34.當我們構(gòu)造線性模型時,我們注意變量間的相關(guān)性。在相關(guān)矩陣中搜索相關(guān)系數(shù)時,如果我們發(fā)現(xiàn)3對變量的相關(guān)系數(shù)是(Var1和Var2,Var2和Var3,Var3和Var1),相關(guān)系數(shù)分別是-0.98、0.45、1.23。我們可以得出的結(jié)論是()。A、Var1和Var2是非常相關(guān)的B、因為Va1r和Var2是非常相關(guān)的,可以去除其中一個C、Var3和Var1的1.23相關(guān)系數(shù)是不可能的D、-【正確答案】:ABC解析:
Var1和Var2之間的相關(guān)性非常高,并且是負的,可視為多重共線性的情況,可以去掉一個。一般來說,如果相關(guān)大于0.7或小于-0.7,則認為特征之間有很高的相關(guān)性。相關(guān)系數(shù)范圍為[-1,1],C選項中1.23明顯有誤。35.算法“歧視”現(xiàn)象可能出現(xiàn)在()。A、算法設(shè)計B、算法實現(xiàn)C、算法投入使用D、算法驗證【正確答案】:ABC解析:
算法歧視是指算法設(shè)計、實現(xiàn)和投入使用過程中出現(xiàn)的各種“歧視”現(xiàn)象。36.以下屬于數(shù)據(jù)挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:
常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。37.Spark的技術(shù)架構(gòu)可以分為哪幾層()。A、資源管理層B、Spark核心層C、應(yīng)用層D、服務(wù)層【正確答案】:ABD解析:
Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。38.下列關(guān)于詞袋模型說法正確的是()。A、詞袋模型可以忽略每個詞出現(xiàn)的順序B、詞袋模型不可以忽略每個詞出現(xiàn)的順序C、TensorFlow支持詞袋模型D、詞袋模型可以表出單詞之間的前后關(guān)系【正確答案】:AC解析:
詞袋模型的缺點之一就是不考慮詞語的順序關(guān)系,因此BD錯誤。39.()是Hadoop運行的模式。A、單機版B、偽分布式C、分布式D、全分布式【正確答案】:ABC解析:
Hadoop運行模式包括單機版、偽分布式和分布式。40.一個監(jiān)督觀測值集合會被劃分為()。A、訓(xùn)練集B、驗證集C、測試集D、預(yù)處理集【正確答案】:ABC解析:
一個監(jiān)督觀測值集合會被劃分為訓(xùn)練集、測試集、預(yù)測集。其中測試集來測試學(xué)習(xí)器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作為泛化誤差的近似。41.()是Hadoop運行的模式。A、單機版B、偽分布式C、分布式D、全分布式【正確答案】:ABC解析:
Hadoop運行模式包括單機版、偽分布式和分布式。42.決策樹遞歸停止的條件為()。A、訓(xùn)練數(shù)據(jù)集使用完B、所有的類標簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:
決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導(dǎo)致遞歸返回:①結(jié)點包含的樣本全屬于同一類別,無須劃分;②當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當前結(jié)點包含的樣本集合為空,不能劃分。43.下面是Python的特點和優(yōu)點是()。A、解釋性強B、使用動態(tài)特性C、面向?qū)ο驞、語法簡潔【正確答案】:ABCD解析:
Python的特點和優(yōu)點是基于面向?qū)ο笤O(shè)計,、代碼解釋性強,、使用動態(tài)特性、語法簡潔。44.下列關(guān)于集合操作結(jié)果正確的有()。A、name={‘d’,‘s’}nameadd(‘sd’),name值為:{‘sd’,‘d’,‘s’}B、name={‘sd’,d’,‘s’}nameremove(‘s’),name值為:{‘sd’,‘d’}C、name={‘sd’,d’,‘s’}nameclear),name值為:{}D、name={‘sd’,d’,‘s’}nameupdate(‘df’),name值為:{‘sd’,’d’,‘f’,’s’,’j’}【正確答案】:ABC解析:
D結(jié)果應(yīng)為{'d','f','s','sd'}。45.下列不屬于聚類性能度量內(nèi)部指標的是()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】:CD解析:
聚類常用的外部指標包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標包括DB指數(shù)、Dunn指數(shù)。46.以下關(guān)于數(shù)據(jù)維度的描述,正確的是()。A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】:ABC解析:
字典可以表示二維以上的高維數(shù)據(jù)。47.RNN在NLP領(lǐng)域的應(yīng)用包括()。A、語言模型與文本生成B、機器翻譯C、語音識別D、圖像描述生成【正確答案】:ABCD解析:
RNN在NLP領(lǐng)域的應(yīng)用包括語言模型與文本生成、機器翻譯、語音識別、圖像描述生成、情感分析、對話系統(tǒng)等。48.Apriori算法的計算復(fù)雜度受()影響。A、支持度閾值B、項數(shù)(維度)C、事務(wù)數(shù)D、事務(wù)平均寬度【正確答案】:ABCD解析:
--49.下列可以用來構(gòu)造神經(jīng)網(wǎng)絡(luò)的算法有()。A、kNNB、線性回歸C、邏輯回歸D、-【正確答案】:BC解析:
kNN是一種基于實例的學(xué)習(xí)算法,不具有任何訓(xùn)練參數(shù)。因此不能用來構(gòu)造神經(jīng)網(wǎng)絡(luò),線性回歸和邏輯回歸都可以用來構(gòu)造神經(jīng)網(wǎng)絡(luò)模型,其實二者就是單神經(jīng)元的神經(jīng)網(wǎng)絡(luò)。50.使用極大似然估計的前提條件有()。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分數(shù)據(jù)集C、提前已知某先驗概率D、數(shù)據(jù)集各個屬性相對獨立【正確答案】:AB解析:
極大似然估計要求樣本獨立同分布,否則無法用概率密度函數(shù)乘積的形式。假設(shè)的分布與真實的分布要一致,否則會南轅北轍。如果對總體分布一無所知是無法使用MLE的。51.特征向量的缺失值處理:缺失值較多,直接將該特征舍棄掉,否則可能反倒會帶入較大的noise,對結(jié)果造成不良影響;缺失值較少,其余的特征缺失值都在10%以內(nèi),我們可以采取的處理方式有()。A、把NaN直接作為一個特征,假設(shè)用0表示B、用均值填充C、用隨機森林等算法預(yù)測填充D、以上答案都不正確【正確答案】:ABC解析:
缺失值較少的處理方法:①把NAN直接作為一個特征,假設(shè)用0表示;②用均值填充;③用隨機森林等算法預(yù)測填充;④用插值法填充。52.假設(shè)目標遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準確度,那么下面說法正確的是()。A、準確度并不適合衡量不平衡類別問題B、準確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問題【正確答案】:AC解析:
精確度和召回率適合于衡量不平衡類別問題,準確度并不適合衡量不平衡類別問題。53.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是()。A、深度優(yōu)先遍歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略【正確答案】:AB解析:
在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。54.神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)可以分為()和隨機型網(wǎng)絡(luò)等。A、前向型B、后向型C、反饋型D、自組織競爭型【正確答案】:ACD解析:
--55.許多功能更為強大的非線性模型可在線性模型基礎(chǔ)上通過引入()而得。A、層級結(jié)構(gòu)B、高維映射C、降維D、分類【正確答案】:AB解析:
--56.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面()。A、能夠直觀反映成對數(shù)據(jù)之間的空間關(guān)系B、能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系C、能夠靜態(tài)演化事物的變化及變化的規(guī)律D、能夠動態(tài)演化事物的變化及變化的規(guī)律【正確答案】:BD解析:
可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系,以及能夠動態(tài)演化事物的變化及變化的規(guī)律。57.關(guān)于Python組合數(shù)據(jù)類型,以下選項中描述正確的是()。A、Python的str、tuple和list類型都屬于序列類型B、Python組合數(shù)據(jù)類型能夠?qū)⒍鄠€同類型或不同類型的數(shù)據(jù)組織起來,通過單一的表示使數(shù)據(jù)操作更有序更容易C、組合數(shù)據(jù)類型可以分為3類:序列類型、集合類型和映射類型3類D、序列類型是二維元素向量,元素之間存在先后關(guān)系,通過序號訪問【正確答案】:ABC解析:
序列類型是一維元素向量。58.以下屬于關(guān)鍵詞提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潛在語義分析)D、LDA【正確答案】:ABCD解析:
關(guān)鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語義分析)orLSI(潛在語義索引)、LDA等。59.非頻繁模式()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負模式和負相關(guān)模式D、對異常數(shù)據(jù)項敏感【正確答案】:AD解析:
非頻繁模式是一個項集或規(guī)則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及數(shù)據(jù)中的負相關(guān)時。它對異常數(shù)據(jù)項敏感。60.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點分析及()等方面。A、關(guān)聯(lián)分析B、分類和預(yù)測C、聚類分析D、偏差分析【正確答案】:ABCD解析:
--61.可視分析學(xué)的幾個特點包含()。A、強調(diào)數(shù)據(jù)到知識的轉(zhuǎn)換過程B、強調(diào)可視化分析與自動化建模之間的相互作用C、強調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性D、強調(diào)數(shù)據(jù)加工(DataWrangling或DataMunging)工作的必要性E、⑤強調(diào)人機交互的重要性?!菊_答案】:ABCDE解析:
從可視分析學(xué)模型可以看出,可視分析學(xué)的流程具有如下特點:①強調(diào)數(shù)據(jù)到知識的轉(zhuǎn)換過程??梢暬治鰧W(xué)中對數(shù)據(jù)可視化工作的理解發(fā)生了根本性變化——數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識,而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上。從數(shù)據(jù)到知識的轉(zhuǎn)換途徑有可視化分析和自動化建模兩種。②強調(diào)可視化分析與自動化建模之間的相互作用。二者的相互作用主要體現(xiàn)在:一方面,可視化技術(shù)可用于數(shù)據(jù)建模中的參數(shù)改進的依據(jù);另一方面,數(shù)據(jù)建模也可以支持數(shù)據(jù)可視化活動,為更好地實現(xiàn)用戶交互提供參考。③強調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性。從數(shù)據(jù)到知識轉(zhuǎn)換的兩種途徑——可視化分析與自動化建模分別通過數(shù)據(jù)映射和數(shù)據(jù)挖掘兩種不同方法實現(xiàn)。因此,數(shù)據(jù)映射和數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)可視化的兩個重要支撐技術(shù)。用戶可以通過兩種方法的配合使用實現(xiàn)模型參數(shù)調(diào)整和可視化映射方式的改變,盡早發(fā)現(xiàn)中間步驟中的錯誤,進而提升可視化操作的信度與效度。④強調(diào)數(shù)據(jù)加工工作的必要性。數(shù)據(jù)可視化處理之前一般需要對數(shù)據(jù)進行預(yù)處理(轉(zhuǎn)換)工作,且預(yù)處理活動的質(zhì)量將影響數(shù)據(jù)可視化效果。⑤強調(diào)人機交互的重要性??梢暬^程往往涉及人機交互操作,需要重視人與計算機在數(shù)據(jù)可視化工作中的互補性優(yōu)勢。因此,人機交互以及人機協(xié)同工作也將成為未來數(shù)據(jù)可視化研究與實踐的重要手段。62.在建立模型時,需要用到()。A、訓(xùn)練數(shù)據(jù)B、測試數(shù)據(jù)C、原始數(shù)據(jù)D、驗證數(shù)據(jù)【正確答案】:ABD解析:
在機器學(xué)習(xí)中,通常將數(shù)據(jù)分為訓(xùn)練集、測試集和驗證集。63.數(shù)據(jù)科學(xué)基本原則中,三世界原則指的是()A、精神世界B、數(shù)據(jù)世界C、物理世界D、數(shù)字世界【正確答案】:ABC解析:
大數(shù)據(jù)時代的到來,在我們的“精神世界”和“物理世界”之間出現(xiàn)了一種新的世界——“數(shù)據(jù)世界”。因此,在數(shù)據(jù)科學(xué)中,通常需要研究如何運用“數(shù)據(jù)世界”中已存在的“痕跡數(shù)據(jù)”的方式解決“物理世界”中的具體問題,而不是直接到“物理世界”,采用問卷和訪談等方法親自收集“采訪數(shù)據(jù)”。相對于“采訪數(shù)據(jù)”,“痕跡數(shù)據(jù)”更具有客觀性。圖靈獎獲得者JimGray提出的科學(xué)研究第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensiveScientificDiscovery)是“三世界原則”的代表性理論之一。64.下列哪些是RDBMS中事務(wù)遵循的原則()。A、原子性(Atomicity)B、一致性(Connsistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:
關(guān)系數(shù)據(jù)庫中的事務(wù)需要具備一定的規(guī)則——ACID特征。ACID是指數(shù)據(jù)庫事務(wù)正確執(zhí)行的4個基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。65.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:
聚類算法是無監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標記信息是未知的。66.列式數(shù)據(jù)庫(如BigTable和HBase)以表的形式存儲數(shù)據(jù),表結(jié)構(gòu)包括()等元素。A、關(guān)鍵字B、時間戳C、列簇D、數(shù)據(jù)類型【正確答案】:ABC解析:
BigTable和HBase的索引由行關(guān)鍵字、列簇和時間戳組成。67.Hadoop中map輸出結(jié)果說法正確的是()。A、<key,value>鍵值對B、輸出中間臨時結(jié)果C、輸出最終計算結(jié)果D、輸出結(jié)果永久保留【正確答案】:AB解析:
map輸出結(jié)果并非是最終結(jié)果且只暫時保留。68.以下()屬于數(shù)據(jù)統(tǒng)計分析工具。A、WekaB、SASC、SPSSD、Matlab【正確答案】:ABCD解析:
常用統(tǒng)計軟件的種類包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。69.關(guān)于Python分隔代碼塊,描述錯誤的是()。A、內(nèi)嵌代碼的每一行,都比外面的if語句的縮進更多B、代碼以“begin”開頭,“end”結(jié)尾C、每行代碼的縮進都一致D、代碼塊被封裝在花括號中【正確答案】:BCD解析:
python代碼沒有開頭與結(jié)尾標識;不同級別的語句縮進不同;python代碼用縮進區(qū)分代碼塊,不用{}。70.關(guān)于Dropout說法,正確的是()。A、Dropout背后的思想其實就是把DNN當作一個集成模型來訓(xùn)練,之后取所有值的平均值,而不只是訓(xùn)練單個DNNB、DNN網(wǎng)絡(luò)將Dropout率設(shè)置為p,也就是說,一個神經(jīng)元被保留的概率是1-p。當一個神經(jīng)元被丟棄時,無論輸入或者相關(guān)的參數(shù)是什么,它的輸出值就會被設(shè)置為0C、丟棄的神經(jīng)元在訓(xùn)練階段,對BP算法的前向和后向階段都沒有貢獻。由于這個原因,每一次訓(xùn)練它都像是在訓(xùn)練一個新的網(wǎng)絡(luò)Dropout方法通常和L2正則化或者其他參數(shù)約束技術(shù)(比如MaxNorm)一起使用,來防止神經(jīng)網(wǎng)絡(luò)的過擬合【正確答案】:ABCD解析:
dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程中,對于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其暫時從網(wǎng)絡(luò)中丟棄。注意是暫時,對于隨機梯度下降來說,由于是隨機丟棄,故而每一個mini-batch都在訓(xùn)練不同的網(wǎng)絡(luò)。防止過擬合的方法:提前終止(當驗證集上的效果變差的時候);L1和L2正則化加權(quán);softweightsharingdropout。dropout率的選擇:經(jīng)過交叉驗證,隱含節(jié)點dropout率等于0.5的時候效果最好,原因是0.5的時候dropout隨機生成的網(wǎng)絡(luò)結(jié)構(gòu)最多。dropout也可以被用作一種添加噪聲的方法,直接對input進行操作。輸入層設(shè)為更接近1的數(shù)。使得輸入變化不會太大(0.8)。71.字符串的格式化可以使用()。A、%B、formatC、inputD、+【正確答案】:AB解析:
input是輸入,+是加法運算符。72.Spark中的Scheduler模塊可以分為()。A、DAGSchedulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正確答案】:AC解析:
Scheduler模塊分為DAGScheduler和TaskScheduler兩個部分。73.Python變量命名規(guī)則包含()。A、變量名只能包含字母、數(shù)字和下劃線。變量名可以字母或下劃線開頭,但不能以數(shù)字開頭,。例如,可將變量命名為message_1,但不能將其命名為1_message。B、變量名不能包含空格,但可使用下劃線來分隔其中的單詞。例如,變量名greeting_message可行,但變量名greetingmessage會引發(fā)錯誤。C、不要將Python關(guān)鍵字和函數(shù)名用作變量名,即不要使用Python保留用于特殊用途的單詞,如print。D、變量名應(yīng)既簡短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好?!菊_答案】:ABCD解析:
Python變量名只能包含字母、數(shù)字和下劃線,但不能以數(shù)字開頭,避免使用關(guān)鍵字,變量名應(yīng)既簡短又具有描述性。74.在正則化公式中,λ為正則化參數(shù),關(guān)于λ的描述正確的是()。A、若正則化參數(shù)λ過大,可能會導(dǎo)致出現(xiàn)欠擬合現(xiàn)象B、若λ的值太大,則梯度下降可能不收斂C、取一個合理的λ值,可以更好地應(yīng)用正則化D、如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會在一定程度上減小【正確答案】:ABCD解析:
正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。75.在Spark中,彈性分布式數(shù)據(jù)集的特點包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:
RDD不可修改。76.TF-IDF的缺點包含()。A、字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比B、將一些生僻字誤當作文檔關(guān)鍵詞C、只考慮特征詞和文本之間的關(guān)系,忽略了一個特征項在不同類別間的分布情況D、沒有考慮特征詞的位置因素對文本的區(qū)分度【正確答案】:BCD解析:
低頻詞匯的重要性和出現(xiàn)次數(shù)成正比。77.處理圖像平滑處理的濾波有()。A、盒式濾波B、均值濾波C、高斯濾波D、中值濾波【正確答案】:ABCD解析:
--78.基于Hadoop開源大數(shù)據(jù)平臺主要提供了針對數(shù)據(jù)分布式計算和存儲能力,如下屬于分布式存儲組件的有()。A、MapReduceB、SparkC、HDFSD、HBase【正確答案】:CD解析:
MapReduce和Spark的核心功能是分布式計算。79.下列可以用來評估線性回歸模型的指標有()。A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正確答案】:ABCD解析:
R-Squa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025江蘇省安全員《A證》考試題庫
- 靈芝種植產(chǎn)業(yè)基地項目可行性研究報告-靈芝市場需求持續(xù)擴大
- 廣州中醫(yī)藥大學(xué)《試劑生產(chǎn)工藝》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025青海省建筑安全員-B證考試題庫及答案
- 廣州醫(yī)科大學(xué)《哲學(xué)通論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025遼寧建筑安全員考試題庫
- 2025年江蘇建筑安全員考試題庫及答案
- 2025年-江蘇省安全員《B證》考試題庫及答案
- 《FOOD中國飲食文化》課件
- 【語文課件】冀中的地道戰(zhàn)課件
- 財稅公司合同范本
- 臨時用電電纜線租賃合同
- DB34T4829-2024公路工程泡沫輕質(zhì)土設(shè)計與施工技術(shù)規(guī)程
- 抗腫瘤藥物臨床管理辦法培訓(xùn)
- 福建省福州市2023-2024學(xué)年高一上學(xué)期1月期末地理試題(解析版)
- 各部門月度安全環(huán)保考評細則
- 預(yù)防性侵害安全教育
- 科大訊飛招聘在線測評題
- 醫(yī)學(xué)文獻檢索復(fù)習(xí)試題和答案解析(四)
- 科學(xué)備考講解模板
- 譯林小學(xué)二年級上冊英語知識綜合訓(xùn)練50題含答案
評論
0/150
提交評論