數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)測(cè)試題_第1頁(yè)
數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)測(cè)試題_第2頁(yè)
數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)測(cè)試題_第3頁(yè)
數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)測(cè)試題_第4頁(yè)
數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)測(cè)試題_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁(yè)數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)測(cè)試題1.()是指理解挖掘項(xiàng)目的目標(biāo)業(yè)務(wù)需求。A、業(yè)務(wù)理解B、數(shù)據(jù)理解C、數(shù)據(jù)準(zhǔn)備D、數(shù)據(jù)建?!菊_答案】:A解析:

根據(jù)CRISP-DM(cross-industrystandardprocessfordatamining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)模型,業(yè)務(wù)理解是指從業(yè)務(wù)的角度了解項(xiàng)目的要求和最終目的,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來(lái)。2.下列程序打印結(jié)果為()。A、PythonB、PythC、thon’sD、Python‘sfeatures【正確答案】:B3.Python安裝擴(kuò)展庫(kù)常用的是()工具。A、pyinstallB、pipC、popD、post【正確答案】:B解析:

略。4.考察一個(gè)由三個(gè)卷積層組成的CNN:kernel=3×3,stride=2,padding=SAME。最低層輸出100個(gè)特征映射(featuremap),中間層200個(gè)特征映射,最高層400個(gè)特征映射。輸入是200×300的RGB圖片,則總參數(shù)的數(shù)量是()。A、903400B、2800C、180200D、720400【正確答案】:A解析:

第一層中由于第一個(gè)卷積kernel=3×3,輸入有3個(gè)通道(channel),因此每個(gè)特征映射有3×3×3個(gè)weight,加上bias,每個(gè)特征映射對(duì)應(yīng)28個(gè)參數(shù)。由于第一層有100個(gè)特征映射,因此有2800個(gè)參數(shù);第二層中kernel=3×3,輸入是前一層的100個(gè)特征映射,因此每個(gè)特征映射有3×3×100=900個(gè)weight,加上一個(gè)bias。由于共有200個(gè)特征映射,因此需要901×200=180200個(gè)參數(shù);第三層中kernel=3×3,輸入是前一層的200個(gè)特征映射,因此(第三層的)每個(gè)特征映射有3×3×200=1800個(gè)weight,加上bias。由于第三層有400個(gè)特征映射。因此這一層共有1801×400=720400個(gè)參數(shù)。以上求和共有2800+180200+720400=903400個(gè)參數(shù)。5.()分類方法可以較好地避免樣本的不平衡問(wèn)題。A、KNNB、SVMC、BayesD、神經(jīng)網(wǎng)絡(luò)【正確答案】:A解析:

KNN只是取了最近的幾個(gè)樣本點(diǎn)做平均,離預(yù)測(cè)數(shù)據(jù)較遠(yuǎn)的訓(xùn)練數(shù)據(jù)對(duì)預(yù)測(cè)結(jié)果不會(huì)造成影響,但是SVM、Bayes和KNN的每一個(gè)訓(xùn)練樣本結(jié)果都會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響。6.以下描述中錯(cuò)誤的是()。A、數(shù)據(jù)科學(xué)中的“數(shù)據(jù)”不僅僅是“數(shù)值”,也不等同于“數(shù)值”B、數(shù)據(jù)科學(xué)中的“計(jì)算”包括數(shù)據(jù)的查詢、挖掘、洞見(jiàn)等C、數(shù)據(jù)科學(xué)強(qiáng)調(diào)的是跨學(xué)科視角D、數(shù)據(jù)科學(xué)不包括“理論知識(shí)”,只包括“領(lǐng)域?qū)崉?wù)經(jīng)驗(yàn)”【正確答案】:D解析:

數(shù)據(jù)科學(xué)既包括“理論知識(shí)”,又包括“領(lǐng)域?qū)崉?wù)經(jīng)驗(yàn)”。7.在pandas中,以下使用其本身可以達(dá)成數(shù)據(jù)透視功能的函數(shù)是()。A、groupbyB、transformC、crosstabD、pivot_table【正確答案】:D解析:

pivot_table用于創(chuàng)建數(shù)據(jù)透視表。8.以下說(shuō)法正確的是()。A、一個(gè)機(jī)器學(xué)習(xí)模型如果有較高準(zhǔn)確率,總是說(shuō)明這個(gè)分類器是好的B、如果增加模型復(fù)雜度,那么模型的測(cè)試錯(cuò)誤率不一定會(huì)降低C、如果增加模型復(fù)雜度,那么模型的訓(xùn)練錯(cuò)誤率總是會(huì)降低D、-【正確答案】:C解析:

對(duì)于不平衡的數(shù)據(jù)集進(jìn)行預(yù)測(cè)時(shí),正確率不能反映模型的性能。模型越復(fù)雜,在訓(xùn)練集上越容易表現(xiàn)好,在測(cè)試集上越容易表現(xiàn)不好。9.卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層(Convolutionallayer)由若干卷積單元組成,每個(gè)卷積單元的參數(shù)都是通過(guò)反向傳播算法最佳化得到,其作用是()。A、增強(qiáng)圖像B、簡(jiǎn)化圖像C、特征提取D、圖像處理【正確答案】:C解析:

卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層(Convolutionallayer)由若干卷積單元組成,每個(gè)卷積單元的參數(shù)都是通過(guò)反向傳播算法最佳化得到的。卷積運(yùn)算的目的是提取輸入的不同特征,第一層卷積層可能只能提取一些低級(jí)的特征如邊緣、線條和角等層級(jí),更多層的網(wǎng)路能從低級(jí)特征中迭代提取更復(fù)雜的特征。10.文檔是待處理的數(shù)據(jù)對(duì)象,它由一組詞組成,這些詞在文檔中不計(jì)順序,如一篇論文、一個(gè)網(wǎng)頁(yè)都可以看作一個(gè)文檔。這樣的表示方式稱為()。A、語(yǔ)句B、詞袋C、詞海D、詞塘【正確答案】:B解析:

詞袋模型下,像是句子或是文件這樣的文字可以用一個(gè)袋子裝著這些詞的方式表現(xiàn),這種表現(xiàn)方式不考慮文法以及詞的順序。11.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正確答案】:B解析:

Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三種。12.當(dāng)我們需要在一張圖表中特意指出某個(gè)特殊點(diǎn),并加上標(biāo)注達(dá)到醒目的目的時(shí),需要用到()函數(shù)。A、plt.axvspan)B、plt.axhspan)C、plt.annotate)D、plt.text)【正確答案】:C解析:

annotate為圖的某個(gè)位置添加注解。13.不屬于模型集成方法的是()。A、直接集成法B、增強(qiáng)法C、堆疊法D、遞歸法【正確答案】:D解析:

模型集成方法包括直接集成法、自助法、隨機(jī)森林、增強(qiáng)法和堆疊法等。14.DAGScheduler的作用是()。A、負(fù)責(zé)分配任務(wù)B、負(fù)責(zé)調(diào)度Worker的運(yùn)行C、負(fù)責(zé)創(chuàng)建執(zhí)行計(jì)劃D、負(fù)責(zé)清理執(zhí)行完畢的任務(wù)【正確答案】:C解析:

Scheduler模塊分為DAGScheduler和TaskScheduler兩個(gè)部分。DAGScheduler負(fù)責(zé)創(chuàng)建執(zhí)行計(jì)劃;TaskScheduler負(fù)責(zé)分配任務(wù)并調(diào)度Worker的運(yùn)行。15.在數(shù)據(jù)科學(xué)中,通??梢圆捎茫ǎ┯行П苊鈹?shù)據(jù)加工和數(shù)據(jù)備份的偏見(jiàn)。A、A/B測(cè)試B、訓(xùn)練集和測(cè)試集的劃分C、測(cè)試集和驗(yàn)證集的劃分D、圖靈測(cè)試【正確答案】:A解析:A/B測(cè)試是一種對(duì)比試驗(yàn),準(zhǔn)確說(shuō)是一種分離式組間試驗(yàn),在試驗(yàn)過(guò)程中,我們從總體中隨機(jī)抽取一些樣本進(jìn)行數(shù)據(jù)統(tǒng)計(jì),進(jìn)而得出對(duì)總體參數(shù)的多個(gè)評(píng)估。A/B測(cè)試有效避免數(shù)據(jù)加工和數(shù)據(jù)備份的偏見(jiàn),對(duì)算法/模型選擇偏見(jiàn)具有重要借鑒意義。16.以等可能性為基礎(chǔ)的概率是()。A、古典概率B、經(jīng)驗(yàn)概率C、試驗(yàn)概率D、主觀概率【正確答案】:A解析:

古典概率是以這樣的假設(shè)為基礎(chǔ)的,即隨機(jī)現(xiàn)象所能發(fā)生的事件是有限的、互不相容的,而且每個(gè)基本事件發(fā)生的可能性相等。根據(jù)大量的、重復(fù)的統(tǒng)計(jì)試驗(yàn)結(jié)果計(jì)算隨機(jī)事件中各種可能發(fā)生結(jié)果的概率,稱為試驗(yàn)概率或頻率概率。主觀概率,是指建立在過(guò)去的經(jīng)驗(yàn)與判斷的基礎(chǔ)上,根據(jù)對(duì)未來(lái)事態(tài)發(fā)展的預(yù)測(cè)和歷史統(tǒng)計(jì)資料的研究確定的概率,反映的只是一種主觀可能性。17.進(jìn)行主成分分析的前提條件是各變量間()。A、高度相關(guān)B、低度相關(guān)C、相互獨(dú)立D、完全相關(guān)【正確答案】:B解析:

--18.np.linalg.svd)函數(shù)可以實(shí)現(xiàn)()功能。A、計(jì)算協(xié)方差矩陣B、實(shí)現(xiàn)奇異值分解C、計(jì)算方差D、計(jì)算均值;【正確答案】:B解析:

svd實(shí)現(xiàn)奇異值分解。19.egrate模塊的主要作用是()。A、里面有各種特殊的數(shù)學(xué)函數(shù),可以直接調(diào)用,如貝塞爾函數(shù)B、可以求多重積分,高斯積分,解常微分方程C、包括樣條插值,卷積,差分等濾波函數(shù)D、提供各種線性代數(shù)中的常規(guī)操作【正確答案】:B解析:

egrate模塊是積分模塊,可以求多重積分,、高斯積分,解常微分方程等。20.對(duì)于PCA處理后的特征,其樸素貝葉斯特征相互獨(dú)立的假設(shè)一定成立,因?yàn)樗兄鞒煞侄际钦坏?,所以不相關(guān)。這句話()。A、正確B、錯(cuò)誤C、-D、-【正確答案】:B解析:

這句話有兩處錯(cuò)誤:一是PCA轉(zhuǎn)換之后的特征不一定不相關(guān);二是不相關(guān)并不等價(jià)于相互獨(dú)立。正交和不相關(guān)沒(méi)有必然關(guān)系,只有當(dāng)一個(gè)隨機(jī)變量的統(tǒng)計(jì)平均等于零時(shí),正交和不相關(guān)等價(jià)。獨(dú)立則必定不相關(guān),而不相關(guān)卻不一定互相獨(dú)立,只有是高斯時(shí)獨(dú)立和不相關(guān)才等價(jià)。21.Scikit-Learn中,()可以實(shí)現(xiàn)整數(shù)分類值轉(zhuǎn)化為獨(dú)熱向量。A、OridinalEncoderB、OneHotEncoderC、LableEncoderD、AutoEncoder【正確答案】:B解析:

onehot編碼是將整數(shù)分類值轉(zhuǎn)化為獨(dú)熱向量。22.()算法是決策樹(shù)學(xué)習(xí)的基本算法,其他多數(shù)決策樹(shù)學(xué)習(xí)方法都是它的變體。A、Find-SB、KNNC、概念D、ID3【正確答案】:D解析:

--23.在Python中,調(diào)用open)時(shí)需要將內(nèi)容附加到文件末尾,而不是覆蓋文件原來(lái)內(nèi)容,則第二個(gè)實(shí)參應(yīng)該使用()。A、’a'B、'g'C、'm'D、'w'【正確答案】:A解析:

'r'讀模式、'w'寫模式、'a'追加模式、'b'二進(jìn)制模式、'+'讀/寫模式。24.np.diag)函數(shù)的作用是()。A、根據(jù)參數(shù)創(chuàng)建矩陣B、根據(jù)一個(gè)向量創(chuàng)建斜對(duì)角線方陣C、根據(jù)參數(shù)切割矩陣D、根據(jù)一個(gè)向量創(chuàng)建三角矩陣【正確答案】:B解析:

np.diag)的作用是根據(jù)一個(gè)向量建立斜對(duì)角線方陣,對(duì)角線為向量值,與eye的區(qū)別是對(duì)角線可以不全為1。25.Hadoop中partition()函數(shù)代表的是()。A、分區(qū)函數(shù)B、特征函數(shù)C、算法函數(shù)D、排序函數(shù)【正確答案】:A解析:

partition()代表分區(qū)函數(shù)。26.數(shù)據(jù)科學(xué)家可能會(huì)同時(shí)使用多個(gè)算法(模型)進(jìn)行預(yù)測(cè),并且最后把這些算法的結(jié)果集成起來(lái)進(jìn)行最后的預(yù)測(cè)(集成學(xué)習(xí)),以下對(duì)集成學(xué)習(xí)說(shuō)法正確的是()。A、單個(gè)模型之間具有高相關(guān)性B、單個(gè)模型之間具有低相關(guān)性C、在集成學(xué)習(xí)中使用“平均權(quán)重”而不是“投票”會(huì)比較好D、單個(gè)模型都用同一個(gè)算法【正確答案】:B解析:

集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好、更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱模型得到了錯(cuò)誤的預(yù)測(cè),其他的弱模型也可以將錯(cuò)誤糾正回來(lái)。某一個(gè)弱模型要有一定的“準(zhǔn)確性”,即學(xué)習(xí)器不能太壞,并且要有多樣性,即個(gè)體學(xué)習(xí)器間具有差異。集成中即可包含同種類型的弱模型,也可包含不同類型的弱模型。27.以下分割方法中不屬于區(qū)域算法的是()。A、分裂合并B、閾值分割C、區(qū)域生長(zhǎng)D、邊緣檢測(cè)【正確答案】:D解析:

邊緣檢測(cè)算法是標(biāo)識(shí)數(shù)字圖像中亮度變化明顯的點(diǎn),不屬于區(qū)域算法發(fā)范疇。28.對(duì)模型進(jìn)行超參數(shù)優(yōu)化,詳盡搜索指定參數(shù)的估計(jì)值使用以下哪種()方法()。A、ParameterGrid)B、ParameterSampler)C、GridSearchCV)D、RandomizedSearchCV)【正確答案】:C解析:

ParameterGrid網(wǎng)格搜索,ParameterSampler參數(shù)生成器,GridSearchCV詳盡搜索指定參數(shù)的估計(jì)值,RandomizedSearchCV隨機(jī)搜索超參數(shù)。29.PageRank是一個(gè)函數(shù),它對(duì)Web中的每個(gè)網(wǎng)頁(yè)賦予一個(gè)實(shí)數(shù)值。它的意圖在于網(wǎng)頁(yè)的PageRank越高,那么它就()。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要【正確答案】:D解析:

PageRank認(rèn)為,如果A頁(yè)面有一個(gè)鏈接指向B頁(yè)面,那就可以看作是A頁(yè)面對(duì)B頁(yè)面的一種信任或推薦。所以,如果一個(gè)頁(yè)面的反向鏈接越多,根據(jù)這些鏈接的價(jià)值加權(quán)越高,那搜索引擎就會(huì)判斷這樣的頁(yè)面更為重要。30.客戶端從HDFS上讀取數(shù)據(jù)時(shí)會(huì)()。A、從NameNode上獲取數(shù)據(jù)B、從DataNode上獲取Block位置C、從NameNode上獲取Block位置D、從NameNode上獲取數(shù)據(jù)和Block位置【正確答案】:C解析:

NameNode保存數(shù)據(jù)Block的位置,DataNode保存數(shù)據(jù)。31.過(guò)濾式特征選擇與學(xué)習(xí)器(),包裹式特征選擇與學(xué)習(xí)器()。A、相關(guān),相關(guān)B、相關(guān),不相關(guān)C、不相關(guān),相關(guān)D、不相關(guān),不相關(guān)【正確答案】:C解析:

過(guò)濾式特征選擇先對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過(guò)程與后續(xù)學(xué)習(xí)器無(wú)關(guān)。包裹式特征選擇把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則。32.概率模型的訓(xùn)練過(guò)程就是()過(guò)程。A、分類B、聚類C、參數(shù)估計(jì)D、參數(shù)選擇【正確答案】:C解析:

--33.正則化是將樣本在向量空間模型上的一個(gè)轉(zhuǎn)換,經(jīng)常被使用在分類與聚類中,正則化在preprocessing模塊中如何的實(shí)現(xiàn)方法是()。A、preprocessing.maxabs_scale)方法B、preprocessing.RobustScaler)方法C、preprocessing.normalize)方法D、preprocessing.Binarizer)方法【正確答案】:C解析:

preprocessing模塊中函數(shù)normalize提供了一個(gè)快速有又簡(jiǎn)單的方式在一個(gè)單向量上來(lái)實(shí)現(xiàn)正則化的功能的方式。34.在其他條件不變的前提下,()容易引起機(jī)器學(xué)習(xí)中的過(guò)擬合問(wèn)題。A、增加訓(xùn)練集量B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)C、刪除稀疏的特征D、SVM算法中使用高斯核/RBF核代替線性核【正確答案】:D解析:

神經(jīng)網(wǎng)絡(luò)減少隱藏層節(jié)點(diǎn),就是在減少參數(shù),只會(huì)將訓(xùn)練誤差變高,不會(huì)導(dǎo)致過(guò)擬合。D選項(xiàng)中SVM高斯核函數(shù)比線性核函數(shù)模型更復(fù)雜,容易過(guò)擬合。35.下列關(guān)于RBM的說(shuō)法,錯(cuò)誤的是()。A、學(xué)習(xí)過(guò)程很快B、RBM訓(xùn)練可以看作對(duì)一個(gè)深層BP網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值參數(shù)的初始化C、RBM不用人工選擇特征D、RBM有標(biāo)簽樣本集【正確答案】:A解析:

RBM學(xué)習(xí)率更新相比DBN速度較慢。36.任一隨機(jī)事件出現(xiàn)的概率為()。A、在–1與1之間B、小于0C、不小于1D、在0與1之間【正確答案】:D解析:

如果沒(méi)有其他的附加條件的話,一般概率P的取值范圍是0≤P≤1。0代表不可能發(fā)生,1代表一定會(huì)發(fā)生。37.關(guān)于Python程序中與“縮進(jìn)”有關(guān)的說(shuō)法中,以下選項(xiàng)中正確的是()。A、縮進(jìn)統(tǒng)一為4個(gè)空格B、縮進(jìn)是非強(qiáng)制性的,僅為了提高代碼可讀性C、縮進(jìn)在程序中長(zhǎng)度統(tǒng)一且強(qiáng)制使用D、縮進(jìn)可以用在任何語(yǔ)句之后,表示語(yǔ)句間的包含關(guān)系【正確答案】:C解析:

本題考查縮進(jìn)。38.列表是Python語(yǔ)言中基本數(shù)據(jù)類型之一。我們可以通過(guò)“l(fā)ist[i]”獲取列表中第i個(gè)元素的值,那么“l(fā)ist[i:j]”有什么的作用是()。A、將列表中第i個(gè)元素的值設(shè)置為jB、返回一個(gè)列表切片——由原列表第i個(gè)到第j-1個(gè)元素組成的新列表C、返回一個(gè)擁有第i和j個(gè)元素的新列表D、返回一個(gè)擁有第j和i個(gè)元素的新列表【正確答案】:B解析:

切片得到索引從i到末尾。39.在一個(gè)神經(jīng)網(wǎng)絡(luò)中,可以用來(lái)處理過(guò)擬合的方法是()。A、DropoutB、分批歸一化(BatchNormalization)C、正則化(regularization)D、都可以【正確答案】:D解析:

--40.()的主要目標(biāo)是提供可擴(kuò)展的機(jī)器學(xué)習(xí)算法及其實(shí)現(xiàn),旨在幫助開(kāi)發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】:A解析:

Mahout是ApacheSoftwareFoundation(ASF)旗下的一個(gè)開(kāi)源項(xiàng)目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開(kāi)發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),如聚類、分類、推薦過(guò)濾、頻繁子項(xiàng)挖掘等。41.AUC是衡量()模型優(yōu)劣的一種評(píng)價(jià)指標(biāo)。A、回歸B、分類C、二分類D、聚類【正確答案】:C解析:

--42.關(guān)于Python內(nèi)存管理,下列說(shuō)法錯(cuò)誤的是哪項(xiàng)()。A、變量不必事先聲明B、變量無(wú)須先創(chuàng)建和賦值而直接使用C、變量無(wú)須指定類型D、可以使用del釋放資源【正確答案】:B解析:

Python變量需要事先聲明并賦值才能使用。43.a=[[1.,2.,1.],[1.,2.,1.]],a+3的值為()。A、[[1,2,1],[4,5,4]]B、[[4,5,4],[4,5,4]]C、[[4,5,4],[1,2,1]]D、以上答案都不正確【正確答案】:D解析:

列表不能和數(shù)字相加,因此會(huì)報(bào)錯(cuò)。44.對(duì)于一個(gè)圖像識(shí)別問(wèn)題(在一張照片里找出一只貓),()可以更好地解決這個(gè)問(wèn)題。A、循環(huán)神經(jīng)網(wǎng)絡(luò)B、感知機(jī)C、多層感知機(jī)D、卷積神經(jīng)網(wǎng)絡(luò)【正確答案】:D解析:

卷積神經(jīng)網(wǎng)絡(luò)可以提取圖像特征,且具有平移不變性。循環(huán)神經(jīng)網(wǎng)絡(luò)適合語(yǔ)言類數(shù)據(jù)。45.多分類學(xué)習(xí)中,最經(jīng)典的三種拆分策略不包括()。A、一對(duì)一B、一對(duì)其余C、一對(duì)多D、多對(duì)多【正確答案】:A解析:

多分類學(xué)習(xí)中,最經(jīng)典的三種拆分策略包括一對(duì)多、多對(duì)多、一對(duì)其余。46.Numpy.linspace(0,3,3)的結(jié)果為()。A、[0,1,2]B、[1,2,3]C、[0,1.5,3]D、[0,3,6]【正確答案】:C解析:

np.linspace)指定開(kāi)始值、結(jié)束值和值的個(gè)數(shù),默認(rèn)包含結(jié)束值,注意與arange的區(qū)別。47.下列方法中,能夠返回某個(gè)子串在字符串中出現(xiàn)次數(shù)的是()。A、lengthB、indexC、countD、find【正確答案】:C解析:

count能夠返回某個(gè)子串在字符串中出現(xiàn)次數(shù)。48.()不適合使用機(jī)器學(xué)習(xí)方法解決。A、判斷電子郵件是否是垃圾郵件B、判斷給定的圖中是否有環(huán)C、判斷是否給指定用戶辦理信用卡D、對(duì)滴滴拼車乘客分簇【正確答案】:B解析:

判斷給定的圖中是否有環(huán)采用深度學(xué)習(xí)。49.執(zhí)行以下代碼段時(shí),輸出為()。A、['honda','yamaha','suzuki']B、['yamaha','suzuki','ducati']C、['honda','yamaha','suzuki','ducati']D、['honda','suzuki','ducati']【正確答案】:D解析:

pop出第一位置的元素50.scipy庫(kù)中用于物理和數(shù)學(xué)常量計(jì)算的模塊是()。A、scipy.clusterB、scipy.ioC、scipy.constantsD、scipy.linalg【正確答案】:C解析:

scipy中,constants是常量計(jì)算模塊。51.在MapReduce中,為了發(fā)現(xiàn)Worker故障,Master周期性進(jìn)行()操作。A、JoinB、PingCheckD、Connect【正確答案】:B解析:

為了發(fā)現(xiàn)Worker故障,Master周期性進(jìn)行Ping操作。52.使用似然函數(shù)的目的是()。A、求解目標(biāo)函數(shù)B、得到最優(yōu)數(shù)據(jù)樣本C、找到最適合數(shù)據(jù)的參數(shù)D、改變目標(biāo)函數(shù)分布【正確答案】:C解析:

似然估計(jì)是一種確定模型參數(shù)值的方法。確定參數(shù)值的過(guò)程,是找到能最大化模型產(chǎn)生真實(shí)觀察數(shù)據(jù)可能性的那一組參數(shù)。53.BASE原則的含義不包括()A、基本可用B、柔性狀態(tài)C、最終一致D、基礎(chǔ)條件【正確答案】:D解析:

BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventuallyConsistent(最終一致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致?tīng)顟B(tài);EventuallyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實(shí)時(shí)一致,系統(tǒng)在某一個(gè)時(shí)刻后達(dá)到一致性要求即可。54.探索性分析與驗(yàn)證性分析的不同點(diǎn)是()。A、探索性分析需要事先假設(shè)B、探索性分析比驗(yàn)證性分析復(fù)雜C、探索性分析在前D、驗(yàn)證性分析在前【正確答案】:C解析:

驗(yàn)證性分析需要事先假設(shè),因數(shù)據(jù)不同復(fù)雜程度也不同,探索性分析一般在前,為驗(yàn)證性分析提供參考。55.scipy.stats.moment函數(shù)的作用是()。A、隨機(jī)變量的概率密度函數(shù)B、隨機(jī)變量的累積分布函數(shù)C、隨機(jī)變量的生存函數(shù)D、計(jì)算分布的非中心矩【正確答案】:D解析:

--56.下列關(guān)于支持向量機(jī)優(yōu)化性問(wèn)題的形式,說(shuō)法正確的是()。A、它是一個(gè)凸二次規(guī)劃問(wèn)題B、它是一個(gè)凸一次規(guī)劃問(wèn)題C、它是一個(gè)凹二次規(guī)劃問(wèn)題D、它是一個(gè)凹一次規(guī)劃問(wèn)題【正確答案】:A解析:

支持向量機(jī)優(yōu)化性問(wèn)題的一個(gè)凸二次規(guī)劃問(wèn)題。57.一組數(shù)據(jù)相加后除以數(shù)據(jù)個(gè)數(shù)得到的值叫作做()。A、最大值B、平均值C、中位數(shù)D、眾數(shù)【正確答案】:B解析:

平均值有算術(shù)平均值,、幾何平均值,、平方平均值(均方根平均值),)、調(diào)和平均值,、加權(quán)平均值等。算術(shù)平均值是指一組數(shù)據(jù)相加后除以數(shù)據(jù)個(gè)數(shù)的平均值。58.scipyScipy中的圖像處理模塊是哪個(gè)()。A、imageB、ndimageC、photoD、optimize【正確答案】:B解析:

ndimage模塊是Scipy庫(kù)中的多維圖像處理模塊,提供一些多維圖像處理上的常用算法。59.pynlpir是一種常用的自然語(yǔ)言理解工具包,其中進(jìn)行分詞處理的函數(shù)是()。A、open()B、segment()C、AddUserWord()D、generate()【正確答案】:B解析:

--60.解決Master故障的方法是設(shè)置檢查點(diǎn),當(dāng)Master失效時(shí),從()檢查點(diǎn)開(kāi)始啟動(dòng)另一個(gè)Master進(jìn)程。A、第一個(gè)B、中間一個(gè)C、最后一個(gè)D、隨機(jī)選擇一個(gè)【正確答案】:C解析:

從最后一個(gè)檢查點(diǎn)開(kāi)始啟動(dòng)另一Master進(jìn)程使得因故障產(chǎn)生的影響更小。61.()和假設(shè)檢驗(yàn)又可歸結(jié)為統(tǒng)計(jì)推斷的范疇,即對(duì)總體的數(shù)量特征做出具有一定可靠程度的估計(jì)和判斷。A、參數(shù)估計(jì)B、邏輯分析C、方差分析D、回歸分析【正確答案】:A解析:

推斷統(tǒng)計(jì)包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩方面的內(nèi)容。62.當(dāng)需要在字符串中使用特殊字符時(shí),python使用()作為轉(zhuǎn)義字符。A、\B、/C、#D、%【正確答案】:A解析:

轉(zhuǎn)義字符為反斜線\。63.以下不屬于數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)區(qū)別的是()。A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值B、數(shù)據(jù)科學(xué)關(guān)注的不僅僅是“單一學(xué)科”問(wèn)題,超出了數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等單一學(xué)科的范疇C、數(shù)據(jù)科學(xué)不僅僅是理論研究,也不是純領(lǐng)域?qū)崉?wù)知識(shí),它關(guān)注和強(qiáng)調(diào)的是二者的結(jié)合D、數(shù)據(jù)科學(xué)和統(tǒng)計(jì)學(xué)中的計(jì)算一樣,僅僅是加減乘除【正確答案】:D解析:

數(shù)據(jù)科學(xué)中的“計(jì)算”并不僅僅是加/減/乘/除等數(shù)學(xué)計(jì)算,而是包括數(shù)據(jù)的查詢、挖掘、洞見(jiàn)、分析、可視化等更多類型的“計(jì)算”。64.下列方法中,不可以使用類名訪問(wèn)的是()。A、實(shí)例方法B、類方法C、靜態(tài)方法D、以上答案都不正確【正確答案】:A解析:

實(shí)例方法不可以使用類名訪問(wèn)。65.下面選項(xiàng)不正確的是()。A、[[12][34]]B、[[-2.1.][1.5-0.5]]C、[[1.0.][2.1.]]D、以上答案均不正確【正確答案】:B解析:

linalg.inv)是矩陣求逆,輸入與結(jié)果相乘為單位矩陣。66.()選擇是直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則。A、嵌入式B、過(guò)濾式C、包裹式D、一體式【正確答案】:C解析:

包裹式特征選擇直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則。67.有關(guān)異常說(shuō)法正確的是()。A、程序中拋出異常終止程序B、程序中拋出異常不一定終止程序C、拼寫錯(cuò)誤會(huì)導(dǎo)致程序終止D、縮進(jìn)錯(cuò)誤會(huì)導(dǎo)致程序終止【正確答案】:B解析:

拋出異常指停止運(yùn)行這個(gè)函數(shù)中的代碼,將程序執(zhí)行轉(zhuǎn)到except語(yǔ)句。68.下面方法中,屬于映射數(shù)據(jù)到新的空間的方法是()。A、傅里葉變換B、特征加權(quán)C、漸進(jìn)抽樣D、維歸約【正確答案】:A解析:

傅里葉變換是將時(shí)間域映射到頻率域。69.以下代碼的輸出結(jié)果為()。A、[[1,2],[3,4],[1,2],[3,4]]B、[[1,2,3,4],[1,2,3,4]]C、[[1,2],[3,4]]D、[1,2,3,4,1,2,3,4]【正確答案】:A解析:

vstack)為數(shù)組垂直拼接。70.下列方法中,能夠讓所有單詞的首字母變成大寫的方法是()。A、capitalizeB、titleC、upperD、Ijust【正確答案】:B解析:

capitalize)將字符串的第一個(gè)字母變成大寫,其他字母變小寫;upper)方法將字符串中的小寫字母轉(zhuǎn)為大寫字母;Iljust左對(duì)齊。71.文本信息往往包含客觀事實(shí)和主觀情感,對(duì)于文本的情感分析主要是識(shí)別文章中的主觀類詞語(yǔ),其中()不適用于情感分析。A、表達(dá)觀點(diǎn)的關(guān)鍵詞B、表達(dá)程度的關(guān)鍵詞C、表達(dá)情緒的關(guān)鍵詞D、表達(dá)客觀事實(shí)的關(guān)鍵詞【正確答案】:D解析:

D中表達(dá)客觀事實(shí)的關(guān)鍵詞是對(duì)事物的客觀性描述,不帶有感情色彩和情感傾向,即為客觀性文本,不適用于情感分析。而主觀性文本則是作者對(duì)各種事物的看法或想法,帶有作者的喜好厭惡等情感傾向,如ABC中表觀點(diǎn)、程度和情緒的關(guān)鍵詞都是帶有情感傾向的主觀性文本,適用于情感分析。72.在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是()。A、有放回的簡(jiǎn)單隨機(jī)抽樣B、無(wú)放回的簡(jiǎn)單隨機(jī)抽樣C、分層抽樣D、漸進(jìn)抽樣【正確答案】:D解析:

略。73.HBase的一個(gè)典型應(yīng)用是webtable,它是一個(gè)以網(wǎng)頁(yè)()為主鍵的表。A、標(biāo)題B、URLC、內(nèi)容D、類別【正確答案】:B解析:

webtable中,以網(wǎng)頁(yè)URL為主鍵。74.K折交叉驗(yàn)證器是以下哪個(gè)()方法()。A、model_selection.GroupKFold)B、model_selection.GroupShuffleSplit)C、model_selection.KFold)D、model_selection.RepeatedKFold)【正確答案】:C解析:

model_selection.KFold)實(shí)現(xiàn)了K折交叉驗(yàn)證功能。75.以下可以作為文本分類準(zhǔn)則的是()。A、預(yù)測(cè)準(zhǔn)確率B、魯棒性C、可擴(kuò)展性D、以上答案都正確【正確答案】:D解析:

文本分類準(zhǔn)則包含預(yù)測(cè)準(zhǔn)確性,魯棒性和可擴(kuò)展性。76.下列關(guān)于數(shù)據(jù)科學(xué)流程與方法的描述中,錯(cuò)誤的是()。A、數(shù)據(jù)科學(xué)的基本流程包括數(shù)據(jù)化、數(shù)據(jù)加工(DataWrangling或DataMunging)、數(shù)據(jù)規(guī)整化、探索性分析、數(shù)據(jù)分析與洞見(jiàn)、結(jié)果展現(xiàn)以及數(shù)據(jù)產(chǎn)品的提供B、對(duì)于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過(guò)清洗成為規(guī)整數(shù)據(jù)C、數(shù)據(jù)分析包括描述性分析、診斷性分析、預(yù)測(cè)性分析和規(guī)范性分析D、數(shù)據(jù)可視化會(huì)遇到視覺(jué)假象問(wèn)題,人眼對(duì)亮度和顏色的相對(duì)判斷容易造成視覺(jué)假象【正確答案】:B解析:

對(duì)于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過(guò)規(guī)整化處理(DataTyding)成為規(guī)整數(shù)據(jù)77.關(guān)于Hive說(shuō)法正確的是()。A、一種數(shù)據(jù)倉(cāng)庫(kù)B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】:A解析:

Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。78.留出法直接將數(shù)據(jù)集劃分為()個(gè)互斥的集合。A、一B、二C、三D、四【正確答案】:B解析:

留出法(hold-out)直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集,另一個(gè)作為測(cè)試集T。79.關(guān)于模塊下列說(shuō)法不正確的是()。A、Python模塊(Module),是一個(gè)Python文件,以.py結(jié)尾,包含了Python對(duì)象定義和Python語(yǔ)句。B、模塊讓你能夠有邏輯地組織你的Python代碼段。C、把相關(guān)的代碼分配到一個(gè)模塊里能讓你的代碼更好用,更易懂。D、模塊不能定義類【正確答案】:D解析:

模塊中可以定義類。80.在Hadoop生態(tài)系統(tǒng)中,()建立在MapReduce之上,主要用來(lái)彌補(bǔ)MapReduce編程的復(fù)雜性。A、HbaseB、FlumeC、PigD、Sqoop【正確答案】:C解析:

Pig是對(duì)MapReduce編程復(fù)雜性的抽象,Pig平臺(tái)包含用于分析Hadoop數(shù)據(jù)集的執(zhí)行環(huán)境和腳本語(yǔ)言(PigLatin)。81.數(shù)據(jù)使用環(huán)節(jié)的安全技術(shù)措施除防火墻、()、防病毒、防DDOS、漏洞檢測(cè)等網(wǎng)絡(luò)安全防護(hù)技術(shù)措施外,還需實(shí)現(xiàn)以下安全技術(shù)能力:賬號(hào)權(quán)限管理、數(shù)據(jù)安全域、數(shù)據(jù)脫敏、日志管理和審計(jì)、異常行為實(shí)時(shí)監(jiān)控和終端數(shù)據(jù)防泄漏。A、入侵檢測(cè)B、病毒檢測(cè)C、程序檢測(cè)D、進(jìn)程檢測(cè)【正確答案】:A解析:

數(shù)據(jù)使用環(huán)節(jié)的安全技術(shù)措施除防火墻、入侵檢測(cè)、防病毒、防DDOS、漏洞檢測(cè)等網(wǎng)絡(luò)安全防護(hù)技術(shù)措施外,還需實(shí)現(xiàn)以下安全技術(shù)能力:賬號(hào)權(quán)限管理、數(shù)據(jù)安全域、數(shù)據(jù)脫敏、日志管理和審計(jì)、異常行為實(shí)時(shí)監(jiān)控和終端數(shù)據(jù)防泄漏。82.下列屬于小波去噪步驟的是()。A、對(duì)圖像信號(hào)進(jìn)行小波分解B、對(duì)經(jīng)過(guò)層次分解后的高頻系數(shù)進(jìn)行閾值量化C、利用二維小波重構(gòu)圖像信號(hào)D、以上答案都正確【正確答案】:D解析:

小波去噪是通過(guò)短波實(shí)現(xiàn)噪聲消除,與高斯去噪的基本原理一致。小波去噪方法包括三個(gè)基本的步驟:對(duì)含噪聲信號(hào)進(jìn)行小波變換;對(duì)變換得到的小波系數(shù)進(jìn)行某種處理,以去除其中包含的噪聲;對(duì)處理后的小波系數(shù)進(jìn)行小波逆變換,得到去噪后的信號(hào)。83.@app.route的作用為()。A、程序代碼的規(guī)范,沒(méi)什么作用B、類似裝飾器,返回本地網(wǎng)絡(luò)測(cè)試地址C、返回127005000D、以上答案都不正確【正確答案】:B解析:

@app.route是flask裝飾器,調(diào)用后返回返回本地網(wǎng)絡(luò)測(cè)試地址。84.()計(jì)算框架源自一種分布式計(jì)算模型,其輸入和輸出值均為“鍵值對(duì)”結(jié)構(gòu)。A、MahoutB、MapReduceC、SparkD、Sqoop【正確答案】:B解析:

MapReduce定義。85.下列語(yǔ)句在Python中是不合法的有()。A、i="A"+2B、i=True+2C、x,y=y,xD、x=y=z=1【正確答案】:A解析:

Python語(yǔ)言不能對(duì)字符串和數(shù)字進(jìn)行“+”運(yùn)算。86.對(duì)于隨機(jī)森林和GBDT,下面說(shuō)法正確的是()。A、在隨機(jī)森林的單個(gè)樹(shù)中,樹(shù)和樹(shù)之間是有依賴的,而GBDT中的單個(gè)樹(shù)之間是沒(méi)有依賴的B、這兩個(gè)模型都使用隨機(jī)特征子集,來(lái)生成許多單個(gè)的樹(shù)C、我們可以并行地生成GBDT單個(gè)樹(shù),因?yàn)樗鼈冎g是沒(méi)有依賴的D、GBDT訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林好【正確答案】:B解析:

組成隨機(jī)森林的樹(shù)可以并行生成;而GBDT只能是串行生成。87.下列關(guān)于可視化方法體系說(shuō)法不正確的是()。A、通常采用視覺(jué)圖形元素和視覺(jué)通道兩個(gè)維度進(jìn)行視覺(jué)編碼B、常用的共性方法有統(tǒng)計(jì)圖表、圖論方法、視覺(jué)隱喻和圖形符號(hào)學(xué)等C、領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果往往低于基礎(chǔ)方法的直接應(yīng)用D、視覺(jué)編碼為其他數(shù)據(jù)可視化方法提供了方法學(xué)基礎(chǔ)【正確答案】:C解析:

領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果高于基礎(chǔ)方法的直接應(yīng)用。88.sklearn中對(duì)模型進(jìn)行選擇主要是依靠()模塊。A、decompositionB、model_selectionC、linear_modelD、mixture【正確答案】:B解析:

sklearn.model_selection主要提供一些功能幫助進(jìn)行模型選擇和調(diào)優(yōu),包括訓(xùn)練測(cè)試集劃分、交叉驗(yàn)證、學(xué)習(xí)曲線、網(wǎng)格搜索等。89.假設(shè)有n組數(shù)據(jù)集,每組數(shù)據(jù)集中,x的平均值都是9,x的方差都是11,y的平均值都是7.50,x與y的相關(guān)系數(shù)都是0.816,擬合的線性回歸方程都是y=3.00+0.500x。那么這n組數(shù)據(jù)集()。A、一樣B、不一樣C、無(wú)法確定是否一樣D、-【正確答案】:C解析:

只比較平均值、方差、相關(guān)系數(shù)和回歸方程,無(wú)法確定數(shù)據(jù)集是否相同,還需比較Anscombe'squartet。90.以下代碼的輸出結(jié)果為()。A、[[1,2],[3,4],[1,2],[3,4]]B、[[1,2,3,4],[1,2,3,4]]C、[[1,2],[3,4]]D、[1,2,3,4,1,2,3,4]【正確答案】:A解析:

vstack)為數(shù)組垂直拼接。91.使用pip工具查看當(dāng)前已安裝的Python擴(kuò)展庫(kù)的完整命令是()。A、pipupdateB、piplistC、pipinstallD、pipshowall【正確答案】:B解析:

使用pip工具查看當(dāng)前已安裝的Python擴(kuò)展庫(kù)的完整命令piplist。92.診斷性分析主要采取的分析方法是()。A、關(guān)聯(lián)分析法和因果分析法B、關(guān)聯(lián)分析法和分類分析法C、關(guān)聯(lián)分析法和運(yùn)籌學(xué)D、因果分析法和分類分析法【正確答案】:A解析:

診斷性分析主要關(guān)注過(guò)去,回答為什么發(fā)生,主要采用關(guān)聯(lián)分析法和因果分析法。93.圖像與灰度直方圖的對(duì)應(yīng)關(guān)系為()。A、一一對(duì)應(yīng)B、一對(duì)多C、多對(duì)一D、以上答案都正確【正確答案】:C解析:

灰度直方圖是灰度級(jí)的函數(shù),它表示圖像中具有每種灰度級(jí)的像素的個(gè)數(shù),反映圖像中每種灰度出現(xiàn)的頻率?;叶戎狈綀D的橫坐標(biāo)是灰度級(jí),縱坐標(biāo)是該灰度級(jí)出現(xiàn)的頻率,是圖像的最基本的統(tǒng)計(jì)特征。與圖像之間的關(guān)系是多對(duì)一的映射關(guān)系。一幅圖像唯一確定出與之對(duì)應(yīng)的直方圖,但不同圖像可能有相同的直方圖,選C。94.Python使用()符號(hào)標(biāo)示注釋。A、&B、*C、#D、//【正確答案】:C解析:

單行注釋使用#號(hào)。95.關(guān)于數(shù)據(jù)創(chuàng)新,下列說(shuō)法正確的是()。A、個(gè)數(shù)據(jù)集的總和價(jià)值等于單個(gè)數(shù)據(jù)集價(jià)值相加B、于數(shù)據(jù)的再利用,數(shù)據(jù)應(yīng)該永久保存下去C、同數(shù)據(jù)多次用于相同或類似用途,其有效性會(huì)降低D、數(shù)據(jù)開(kāi)放價(jià)值可以得到真正釋放【正確答案】:D解析:

略。96.()的系數(shù)沒(méi)有封閉形式(closed-form)的解。A、Ridge回歸B、LassoC、Ridge回歸和LassoD、以上答案都不正確【正確答案】:B解析:

Ridge回歸是一般的線性回歸再加上L2正則項(xiàng),它具有封閉形式的解,可以基于最小二乘法求解。97.關(guān)于L1、L2正則化,下列說(shuō)法正確的是()。A、L2正則化能防止過(guò)擬合,提升模型的泛化能力,但L1做不到這點(diǎn)B、L2正則化技術(shù)又稱為L(zhǎng)assoRegularizationC、L1正則化得到的解更加稀疏D、L2正則化得到的解更加稀疏【正確答案】:C解析:

L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個(gè)稀疏模型,可以用于特征選擇;L2正則化可以防止模型過(guò)擬合,一定程度上L1也可以防止過(guò)擬合,L1正則化又稱LassoRegression。98.下列語(yǔ)句中,在python3中合法的語(yǔ)句為()。A、printHello,World!B、print'Hello,World!'C、print('Hello,World!')D、print"Hello,World!"【正確答案】:C解析:

A選項(xiàng)存在語(yǔ)法錯(cuò)誤,B、D選項(xiàng)為Python2打印語(yǔ)句。99.RDD中的數(shù)據(jù)被()在集群中,使得任務(wù)可以并行執(zhí)行。A、順序存儲(chǔ)B、連續(xù)存儲(chǔ)C、分塊存儲(chǔ)D、分區(qū)存儲(chǔ)【正確答案】:D解析:

RDD為分區(qū)存儲(chǔ)。100.語(yǔ)句np.random.randn(5,4)的運(yùn)算結(jié)果是()。A、生成一個(gè)5行4列的隨機(jī)矩陣B、將矩陣的第5行第4列改成一個(gè)隨機(jī)值C、將矩陣的第4行第3列改成一個(gè)隨機(jī)值D、將矩陣的第5列和第4列都用隨機(jī)值代替【正確答案】:A解析:

rand)和randn)是簡(jiǎn)化的隨機(jī)函數(shù),傳遞形狀參數(shù)不需要元組,傳入的所有參數(shù)構(gòu)成數(shù)組的形狀元組,此題中就用(5,4)作為數(shù)組的形狀參數(shù)。1.Spark支持的計(jì)算模型有()。A、批處理B、實(shí)時(shí)計(jì)算C、機(jī)器學(xué)習(xí)模型D、交互式查詢【正確答案】:ABCD解析:

Spark支持的計(jì)算模型有批處理、實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)模型、交互式查詢。2.下列屬于文本處理流程的是()。A、NormalizationB、TokenizationStopwordsC、Part-of-speechTaggingD、NamedEntityRecognition【正確答案】:ABCD解析:

文本處理的流程為正則化(Normalization)、引入停止詞(TokenizationStopwords)、詞性標(biāo)注(Part-of-speechTagging)、命名實(shí)體識(shí)別(NamedEntityRecognition)。3.以下屬于圖像分割的算法的是()。A、閾值分割方法(thresholdsegmentationmethod)B、區(qū)域增長(zhǎng)細(xì)分(regionalgrowthsegmentation)C、邊緣檢測(cè)分割方法(edgedetectionsegmentationmethod)D、基于聚類的分割(segmentationbasedonclustering)E、基于能量的分割【正確答案】:ABCDE解析:

--4.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。A、具有勞動(dòng)增值B、涉及法律權(quán)屬C、具有財(cái)務(wù)價(jià)值D、涉及道德與倫理【正確答案】:ABCD解析:

大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動(dòng)增值、涉及法律權(quán)屬、具有財(cái)務(wù)價(jià)值、涉及道德與倫理。5.與自然語(yǔ)言處理相關(guān)的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的區(qū)別是()。A、Jieba專注于中文分詞操作B、NLTK主要用于一般自然語(yǔ)言處理任務(wù)(標(biāo)記化,POS標(biāo)記,解析等)C、Gensim主要用于題和向量空間建模、文檔集合相似性等D、Scikit-learn為機(jī)器學(xué)習(xí)提供了一個(gè)大型庫(kù),其中包含了用于文本預(yù)處理的工具,例如詞頻-逆文檔頻率特征提?。═fidfVectorizer)等?!菊_答案】:ABCD解析:

題中列出了自然語(yǔ)言處理工具包的特點(diǎn)和區(qū)別,四個(gè)選項(xiàng)均正確。6.訓(xùn)練CNN時(shí),GPU顯存溢出,此時(shí)可以采取的辦法有()。A、減少mini_batch大小B、移除一些卷積層C、減少圖片輸入大小D、增加激活函數(shù)【正確答案】:ABC解析:

增加激活函數(shù)反而會(huì)加重負(fù)擔(dān),D選項(xiàng)錯(cuò)誤。7.以下屬于規(guī)則的分詞方法的是()。A、正向最大匹配法B、逆向最大匹配法C、雙向最大匹配法D、條件隨機(jī)場(chǎng)【正確答案】:ABC解析:

條件隨機(jī)場(chǎng)是一種鑒別式機(jī)率模型,常用于標(biāo)注或分析序列資料。8.線性模型的基本形式有()。A、線性回歸B、對(duì)數(shù)幾率回歸(二分類問(wèn)題)C、線性判別分析(Fisher判別分析)D、多分類學(xué)習(xí)【正確答案】:ABCD解析:

--9.與自然語(yǔ)言處理相關(guān)的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的區(qū)別是()。A、Jieba專注于中文分詞操作B、NLTK主要用于一般自然語(yǔ)言處理任務(wù)(標(biāo)記化,POS標(biāo)記,解析等)C、Gensim主要用于題和向量空間建模、文檔集合相似性等D、Scikit-learn為機(jī)器學(xué)習(xí)提供了一個(gè)大型庫(kù),其中包含了用于文本預(yù)處理的工具,例如詞頻-逆文檔頻率特征提?。═fidfVectorizer)等?!菊_答案】:ABCD解析:

題中列出了自然語(yǔ)言處理工具包的特點(diǎn)和區(qū)別,四個(gè)選項(xiàng)均正確。10.已定義級(jí)(DefinedLevel)的主要特點(diǎn)包括()。A、組織機(jī)構(gòu)已明確給出了關(guān)鍵過(guò)程的“標(biāo)準(zhǔn)定義”,并定期對(duì)其進(jìn)行改進(jìn)B、已提供了關(guān)鍵過(guò)程的測(cè)量與預(yù)測(cè)方法C、關(guān)鍵過(guò)程的執(zhí)行過(guò)程并不是簡(jiǎn)單或死板地執(zhí)行組織機(jī)構(gòu)給出的“標(biāo)準(zhǔn)定義”,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的“裁剪”工作D、數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識(shí),將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一【正確答案】:ABCD解析:

DMM的已定義級(jí)(DefinedLevel):組織機(jī)構(gòu)已經(jīng)定義了自己的“標(biāo)準(zhǔn)關(guān)鍵過(guò)程”。其主要特點(diǎn)如下:①組織機(jī)構(gòu)已明確給出了關(guān)鍵過(guò)程的“標(biāo)準(zhǔn)定義”,并定期對(duì)其進(jìn)行改進(jìn);②已提供了關(guān)鍵過(guò)程的測(cè)量與預(yù)測(cè)方法;③關(guān)鍵過(guò)程的執(zhí)行過(guò)程并不是簡(jiǎn)單或死板地執(zhí)行組織機(jī)構(gòu)給出的“標(biāo)準(zhǔn)定義”,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的“裁剪”工作;④數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識(shí),將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一。11.我們想要訓(xùn)練一個(gè)ML模型,樣本數(shù)量有100萬(wàn)個(gè),特征維度是5000,面對(duì)如此大數(shù)據(jù),有效地訓(xùn)練模型可以采取的措施是()A、對(duì)訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機(jī)器學(xué)習(xí)算法C、使用PCA算法減少特征維度D、-【正確答案】:ABC解析:

大數(shù)據(jù)可以采用對(duì)訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型,嘗試使用在線機(jī)器學(xué)習(xí)算法,使用PCA算法減少特征維度。12.請(qǐng)問(wèn)下面哪些是離散型變量()。A、示波器B、心電圖及腦動(dòng)電圖掃描器對(duì)腦電波的測(cè)量C、過(guò)去數(shù)月的總銷售額D、公司每年的紅利【正確答案】:CD解析:

在統(tǒng)計(jì)學(xué)中,變量按其數(shù)值表現(xiàn)是否連續(xù),分為連續(xù)變量和離散變量。離散變量指變量值可以按一定順序一一列舉,通常以整數(shù)位取值的變量,如職工人數(shù)、工廠數(shù)、機(jī)器臺(tái)數(shù)等。有些性質(zhì)上屬于連續(xù)變量的現(xiàn)象也按整數(shù)取值,即可以把它們當(dāng)做離散變量來(lái)看待。例如年齡、評(píng)定成績(jī)等雖屬連續(xù)變量,但一般按整數(shù)計(jì)算,按離散變量來(lái)處理。離散變量的數(shù)值用計(jì)數(shù)的方法取得。13.NoSQL數(shù)據(jù)庫(kù)常用的數(shù)據(jù)模型包括()。A、Key-ValueB、Key-DocumentC、Key-ColumnD、圖存儲(chǔ)【正確答案】:ABCD解析:

NoSQL數(shù)據(jù)庫(kù)常用的數(shù)據(jù)模型包括Key-Value、Key-Document、Key-Column、圖存儲(chǔ)。14.下列關(guān)于RNN、LSTM、GRU說(shuō)法正確的是()。A、RNN引入了循環(huán)的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的變體D、RNN、LSTM、GRU是同一神經(jīng)網(wǎng)絡(luò)的不同說(shuō)法,沒(méi)有區(qū)別【正確答案】:ABC解析:RNN:循環(huán)神經(jīng)網(wǎng)絡(luò),是非線性動(dòng)態(tài)系統(tǒng),將序列映射到序列。LSTM通過(guò)刻意的設(shè)計(jì)來(lái)避免長(zhǎng)期依賴問(wèn)題,記住長(zhǎng)期的信息在實(shí)踐中是LSTM的默認(rèn)行為,而非需要付出很大代價(jià)才能獲得的能力。GRU:LSTM有很多變體,其中較大改動(dòng)的是GatedRecurrentUnit(GRU),它將忘記門和輸入門合成了一個(gè)單一的更新門,同樣還混合了細(xì)胞狀態(tài)和隱藏狀態(tài),和其他一些改動(dòng)。最終的模型比標(biāo)準(zhǔn)的LSTM模型要簡(jiǎn)單。效果和LSTM差不多,但是參數(shù)少了1/3,不容易過(guò)擬合。15.K均值聚類和層次聚類在一些方面有重大差異。以下說(shuō)法正確的是()。A、在K均值聚類中,必須在運(yùn)行算法前選定想要的簇的個(gè)數(shù)B、在K均值聚類中,可以在運(yùn)行算法后選定想要的簇的個(gè)數(shù)C、在層次聚類中,可以在運(yùn)行算法后選定想要的簇的個(gè)數(shù)D、K均值聚類算法所需的計(jì)算量比層次聚類算法小得多【正確答案】:ACD解析:

在K均值聚類中,需要在運(yùn)行算法前確定想要的簇的個(gè)數(shù)K。16.()是通過(guò)對(duì)無(wú)標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來(lái)進(jìn)行分類的。A、密度估計(jì)B、異常檢測(cè)C、線性回歸D、聚類分析【正確答案】:ABD解析:

--17.在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為“偽”,但數(shù)據(jù)分析人員沒(méi)有拒絕它時(shí)犯的錯(cuò)誤叫()。A、α錯(cuò)誤B、β錯(cuò)誤C、取偽錯(cuò)誤D、棄真錯(cuò)誤【正確答案】:BC解析:

α錯(cuò)誤(棄真錯(cuò)誤):當(dāng)原假設(shè)為真時(shí),但我們錯(cuò)誤地認(rèn)為“原假設(shè)是不成立的”,進(jìn)而導(dǎo)致拒絕這個(gè)正確假設(shè);β錯(cuò)誤(取偽錯(cuò)誤):當(dāng)原假設(shè)為假時(shí),但我們錯(cuò)誤地認(rèn)為“原假設(shè)是成立的”,進(jìn)而導(dǎo)致接受此錯(cuò)誤假設(shè)18.關(guān)于相關(guān)與線性關(guān)系,下列說(shuō)法正確的是()A、相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系B、相關(guān)一定是線性關(guān)系,不可能是非線性關(guān)系C、相關(guān)時(shí)若有相關(guān)系數(shù)r為0,說(shuō)明兩個(gè)變量之間不存在線性關(guān)系,仍可能存在非線性關(guān)系D、相關(guān)系數(shù)為0是兩個(gè)變量獨(dú)立的必要不充分條件【正確答案】:ACD解析:

相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系。19.假設(shè)目標(biāo)遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度,那么下面說(shuō)法正確的是()。A、準(zhǔn)確度并不適合衡量不平衡類別問(wèn)題B、準(zhǔn)確度適合衡量不平衡類別問(wèn)題C、精確度和召回率適合于衡量不平衡類別問(wèn)題D、精確度和召回率不適合衡量不平衡類別問(wèn)題【正確答案】:AC解析:

精確度和召回率適合于衡量不平衡類別問(wèn)題,準(zhǔn)確度并不適合衡量不平衡類別問(wèn)題。20.Spark的技術(shù)架構(gòu)可以分為哪幾層()。A、資源管理層B、Spark核心層C、應(yīng)用層D、服務(wù)層【正確答案】:ABD解析:

Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。21.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。A、具有勞動(dòng)增值B、涉及法律權(quán)屬C、具有財(cái)務(wù)價(jià)值D、涉及道德與倫理【正確答案】:ABCD解析:

大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動(dòng)增值、涉及法律權(quán)屬、具有財(cái)務(wù)價(jià)值、涉及道德與倫理。22.下列有關(guān)MapReduce計(jì)算框架的描述正確的是()。A、MapReduce可以計(jì)算任務(wù)的劃分和調(diào)度B、MapReduce可完成數(shù)據(jù)的分布存儲(chǔ)和劃分C、MapReduce可以實(shí)現(xiàn)處理系統(tǒng)節(jié)點(diǎn)出錯(cuò)檢測(cè)和失效恢復(fù)D、MapReduce可實(shí)現(xiàn)處理數(shù)據(jù)與計(jì)算任務(wù)的同步【正確答案】:ABCD解析:

根據(jù)MapReduce定義可得,A、B、C、D都可以實(shí)現(xiàn)。23.特征工程一般需要做哪些工作()。A、正則化B、標(biāo)準(zhǔn)化C、特征處理D、特征選擇【正確答案】:CD解析:

特征工程包括特征選擇、特征處理、特征變換、特征衍生等。24.以下說(shuō)法正確的是()。A、負(fù)梯度方向是使函數(shù)值下降最快的方向B、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí),梯度下降法的解是全局最優(yōu)解C、梯度下降法比牛頓法收斂速度快D、牛頓法不需要計(jì)算Hesse矩陣【正確答案】:ABD解析:

牛頓法是二階收斂,梯度下降是一階收斂,所以牛頓法就更快。25.在建立模型時(shí),需要用到()。A、訓(xùn)練數(shù)據(jù)B、測(cè)試數(shù)據(jù)C、原始數(shù)據(jù)D、驗(yàn)證數(shù)據(jù)【正確答案】:ABD解析:

在機(jī)器學(xué)習(xí)中,通常將數(shù)據(jù)分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。26.下面關(guān)于中心極限定理的說(shuō)法,正確的是()。A、中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗(yàn)提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計(jì)學(xué)和誤差分析的基礎(chǔ)【正確答案】:ACD解析:

中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限。27.關(guān)于數(shù)據(jù)產(chǎn)品研發(fā),下列說(shuō)法錯(cuò)誤的是()。A、從加工程度看,可以將數(shù)據(jù)分為一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)B、一次數(shù)據(jù)中往往存在缺失值、噪聲、錯(cuò)誤或虛假數(shù)據(jù)等質(zhì)量問(wèn)題C、二次數(shù)據(jù)是對(duì)一次數(shù)據(jù)進(jìn)行深度處理或分析后得到的“增值數(shù)據(jù)”D、三次數(shù)據(jù)是對(duì)二次數(shù)據(jù)進(jìn)行洞察與分析后得到的、可以直接用于決策支持的“洞見(jiàn)數(shù)據(jù)”【正確答案】:ABD解析:

二次數(shù)據(jù)是一種按照信息的生產(chǎn)過(guò)程和加工深度進(jìn)行對(duì)信息進(jìn)行分類的,是指根據(jù)特定的需求,對(duì)一次信息進(jìn)行加工、分析、改編、重組、綜合概括生成的信息。28.下面屬于范數(shù)規(guī)則化的作用的是()。A、保證模型盡可能的簡(jiǎn)單,避免過(guò)擬合B、約束模型特征C、最小化問(wèn)題D、最大化問(wèn)題【正確答案】:AB解析:

--29.下列屬于CNN關(guān)鍵層的是()。A、輸入層B、卷積層C、激活層D、池化層【正確答案】:ABCD解析:

CNN關(guān)鍵層有:①輸入層,對(duì)數(shù)據(jù)去均值,做dataaugmentation等工作;②卷積層,局部關(guān)聯(lián)抽取feature;③激活層,非線性變化;④池化層,下采樣;⑤全連接層,增加模型非線性;⑥高速通道,快速連接;⑦BN層,緩解梯度彌散。30.決策樹(shù)在()情況下會(huì)導(dǎo)致遞歸返回。A、當(dāng)前節(jié)點(diǎn)包含的樣本全屬于同一類B、當(dāng)前屬性集為空C、當(dāng)前節(jié)點(diǎn)包含的樣本集合為空D、所有樣本在所有屬性上取值相同【正確答案】:ABCD解析:

決策樹(shù)的生成是一個(gè)遞歸過(guò)程.在決策樹(shù)基本算法中,有三種情形會(huì)導(dǎo)致遞歸返回:①當(dāng)前結(jié)點(diǎn)包含的樣本全屬于同一類別,無(wú)須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無(wú)法劃分;③當(dāng)前結(jié)點(diǎn)包含的樣本集合為空,不能劃分。31.以下關(guān)于L1和L2范數(shù)的描述,正確的是()。A、L1范數(shù)為x向量各個(gè)元素絕對(duì)值之和。B、L2范數(shù)為x向量各個(gè)元素平方和的1/2次方,L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C、L1范數(shù)可以使權(quán)值稀疏,方便特征提取D、L2范數(shù)可以防止過(guò)擬合,提升模型的泛化能力。【正確答案】:ABCD解析:

L0是指向量中非0的元素的個(gè)數(shù),L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和,L2范數(shù)向量元素絕對(duì)值的平方和再開(kāi)平方。L1范數(shù)可以使權(quán)值稀疏,方便特征提取。L2范數(shù)可以防止過(guò)擬合,提升模型的泛化能力。32.以下選項(xiàng)中是正確的字符串有()。A、‘a(chǎn)bc”ab”B、‘a(chǎn)bc”ab’C、“abc”ab”D、“abc\”ab”【正確答案】:BD解析:

需要兩端引號(hào)符號(hào)相同。33.假設(shè)檢驗(yàn)中,首先需要提出零假設(shè)和備擇假設(shè),零假設(shè)是(),備擇假設(shè)是()。A、只有出現(xiàn)的概率大于閾值才會(huì)被拒絕的,只有零假設(shè)出現(xiàn)的概率大于閾值才會(huì)被承認(rèn)的B、希望推翻的結(jié)論,希望證明的結(jié)論C、只有出現(xiàn)的概率小于閾值才會(huì)被拒絕的,只有零假設(shè)出現(xiàn)的概率小于閾值才會(huì)被承認(rèn)的D、希望證明的結(jié)論,希望推翻的結(jié)論【正確答案】:BC34.ETL包含下列哪些過(guò)程()。A、數(shù)據(jù)抽取B、數(shù)據(jù)轉(zhuǎn)換C、數(shù)據(jù)加載D、數(shù)據(jù)展現(xiàn)【正確答案】:ABC解析:

ETL是英文Extract-Transform-Load的縮寫,用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程。35.以下對(duì)模型性能提高有幫助的是()。A、數(shù)據(jù)預(yù)處理B、特征工程C、機(jī)器學(xué)習(xí)算法D、模型集成【正確答案】:ABCD解析:

數(shù)據(jù)預(yù)處理、特征工程、機(jī)器學(xué)習(xí)算法、模型集成均可提高模型性能。36.以下方法是tf-idf的變種的有()。A、TFCB、EWCC、ITCD、IG【正確答案】:AC解析:

TFC:對(duì)文本長(zhǎng)度進(jìn)行歸一化處理后的TF-IDF。ITC:在TFC基礎(chǔ)上,用tf的對(duì)數(shù)值取代tf。37.以下圖像技術(shù)中屬于圖像處理技術(shù)的是()。A、圖像編碼B、圖像合成C、圖像增強(qiáng)D、圖像分類【正確答案】:AC解析:

圖像合成輸入是數(shù)據(jù),圖像分類輸出是類別數(shù)據(jù)。38.下列選項(xiàng)中屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的性質(zhì)有()。A、上一時(shí)刻的網(wǎng)絡(luò)狀態(tài)信息將會(huì)作用于下一時(shí)刻的網(wǎng)絡(luò)狀態(tài)B、并行處理序列中所有信息C、容易梯度爆炸/消失D、易于搭建【正確答案】:AC解析:

循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是一類以序列(sequence)數(shù)據(jù)為輸入,在序列的演進(jìn)方向進(jìn)行遞歸(recursion)且所有節(jié)點(diǎn)(循環(huán)單元)按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetwork)。循環(huán)神經(jīng)網(wǎng)絡(luò)在誤差梯度在經(jīng)過(guò)多個(gè)時(shí)間步的反向傳播后容易導(dǎo)致極端的非線性行為,包括梯度消失(gradientvanishing)和梯度爆炸(gradientexplosion)。實(shí)踐中,梯度爆炸雖然對(duì)學(xué)習(xí)有明顯的影響,但較少出現(xiàn),使用梯度截?cái)嗫梢越鉀Q。梯度消失是更常見(jiàn)的問(wèn)題且不易察覺(jué),發(fā)生梯度消失時(shí),循環(huán)神經(jīng)網(wǎng)絡(luò)在多個(gè)時(shí)間步后的輸出幾乎不與序列的初始值有關(guān),因此無(wú)法模擬序列的長(zhǎng)距離依賴(long-termdependency)。在數(shù)值試驗(yàn)中,SRN對(duì)時(shí)間步跨度超過(guò)20的長(zhǎng)距離依賴進(jìn)行成功學(xué)習(xí)的概率接近于0。恰當(dāng)?shù)臋?quán)重初始化(weightinitialization)或使用非監(jiān)督學(xué)習(xí)策略,例如神經(jīng)歷史壓縮器(NHC)可提升循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)長(zhǎng)距離依賴的能力,但對(duì)更一般的情形,循環(huán)神經(jīng)網(wǎng)絡(luò)發(fā)展了一系列優(yōu)化策略,其中有很多涉及網(wǎng)絡(luò)結(jié)構(gòu)的改變和算法的改進(jìn)。39.數(shù)據(jù)科學(xué)基本原則中,三世界原則指的是()A、精神世界B、數(shù)據(jù)世界C、物理世界D、數(shù)字世界【正確答案】:ABC解析:

大數(shù)據(jù)時(shí)代的到來(lái),在我們的“精神世界”和“物理世界”之間出現(xiàn)了一種新的世界——“數(shù)據(jù)世界”。因此,在數(shù)據(jù)科學(xué)中,通常需要研究如何運(yùn)用“數(shù)據(jù)世界”中已存在的“痕跡數(shù)據(jù)”的方式解決“物理世界”中的具體問(wèn)題,而不是直接到“物理世界”,采用問(wèn)卷和訪談等方法親自收集“采訪數(shù)據(jù)”。相對(duì)于“采訪數(shù)據(jù)”,“痕跡數(shù)據(jù)”更具有客觀性。圖靈獎(jiǎng)獲得者JimGray提出的科學(xué)研究第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensiveScientificDiscovery)是“三世界原則”的代表性理論之一。40.在詞袋模型中使用單個(gè)的單詞來(lái)構(gòu)建詞向量這樣的序列被稱為()。A、1元組(1-gram)B、單元組(unigram)模型C、列表D、字典【正確答案】:AB解析:

列表和字典一般包含多個(gè)單詞41.()可以幫助解決訓(xùn)練集在特征空間中線性不可分的問(wèn)題。A、硬間隔B、軟間隔C、核函數(shù)D、拉格朗日乘子法【正確答案】:BC解析:

核函數(shù)解決線性不可分的本質(zhì)思想就是把原始的樣本通過(guò)核函數(shù)映射到高維空間中,讓樣本在高維特征空間中是線性可分的。軟間隔允許某些樣本不滿足約束,使得樣本在特征空間中不是線性可分。42.圖像壓縮是建立在圖像存在()幾種冗余之上。A、編程冗余B、像素間冗余C、心理視覺(jué)冗余D、計(jì)算資源冗余【正確答案】:ABC解析:

圖像壓縮是通過(guò)算法的改進(jìn),對(duì)重復(fù)像素用壓縮算法減少儲(chǔ)存空間和并行算法達(dá)到的。43.卷積神經(jīng)網(wǎng)絡(luò)中常用的池化函數(shù)包括()。A、最大池化函數(shù)B、L2范數(shù)C、相鄰矩形區(qū)域內(nèi)的平均值D、基于據(jù)中心像素距離的加權(quán)平均函數(shù)【正確答案】:ABCD解析:

卷積神經(jīng)網(wǎng)絡(luò)中常用的池化函數(shù)有最大池化函數(shù)、L2范數(shù)、相鄰矩形區(qū)域內(nèi)的平均值、基于據(jù)中心像素距離的加權(quán)平均函數(shù)、重疊池化、空金字塔池化。44.Python中,復(fù)合賦值運(yùn)算符包括()。A、簡(jiǎn)單的賦值運(yùn)算符B、乘法賦值運(yùn)算符C、取模賦值運(yùn)算符D、取整除賦值運(yùn)算符【正確答案】:ABCD解析:

Python中,復(fù)合賦值運(yùn)算符包括簡(jiǎn)單的賦值運(yùn)算符、乘法賦值運(yùn)算符、取模賦值運(yùn)算符、取整除賦值運(yùn)算符。45.以下()是scipy.stats可實(shí)現(xiàn)的連續(xù)隨機(jī)變量方法。A、rvsB、pdfC、ppfD、cdf【正確答案】:ABCD解析:

scipy基礎(chǔ)知識(shí)。46.在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為“偽”,但數(shù)據(jù)分析人員沒(méi)有拒絕它時(shí)犯的錯(cuò)誤叫()。A、α錯(cuò)誤B、β錯(cuò)誤C、取偽錯(cuò)誤D、棄真錯(cuò)誤【正確答案】:BC解析:

α錯(cuò)誤(棄真錯(cuò)誤):當(dāng)原假設(shè)為真時(shí),但我們錯(cuò)誤地認(rèn)為“原假設(shè)是不成立的”,進(jìn)而導(dǎo)致拒絕這個(gè)正確假設(shè);β錯(cuò)誤(取偽錯(cuò)誤):當(dāng)原假設(shè)為假時(shí),但我們錯(cuò)誤地認(rèn)為“原假設(shè)是成立的”,進(jìn)而導(dǎo)致接受此錯(cuò)誤假設(shè)47.列式數(shù)據(jù)庫(kù)(如BigTable和HBase)以表的形式存儲(chǔ)數(shù)據(jù),表結(jié)構(gòu)包括()等元素。A、關(guān)鍵字B、時(shí)間戳C、列簇D、數(shù)據(jù)類型【正確答案】:ABC解析:

BigTable和HBase的索引由行關(guān)鍵字、列簇和時(shí)間戳組成。48.鑒別了多元共線特征,下一步可能的操作是()。A、移除兩個(gè)共線變量B、不移除兩個(gè)變量,而是移除一個(gè)C、移除相關(guān)變量可能會(huì)導(dǎo)致信息損失,可以使用懲罰線性回歸模型(如ridge或lassoregression)D、-【正確答案】:BC解析:

移除兩個(gè)變量會(huì)損失一切信息,所以只能移除一個(gè)特征,或者也可以使用正則化算法。49.下列關(guān)于密度聚類說(shuō)法,錯(cuò)誤的是()。A、DBSCAN是一種著名的密度聚類算法B、密度聚類從樣本數(shù)量的角度來(lái)考察樣本之間的可連接性C、密度聚類基于不可連接樣本不斷擴(kuò)展聚類簇,以獲得最終的聚類結(jié)果D、密度直達(dá)關(guān)系通常滿足對(duì)稱性【正確答案】:BCD解析:

密度聚類從樣本密度的角度來(lái)考察樣本之間的可連接性;密度聚類基于可連接樣本不斷擴(kuò)展聚類簇,以獲得最終的聚類結(jié)果;密度直達(dá)關(guān)系通常不滿足對(duì)稱性;密度可達(dá)關(guān)系滿足直遞性,但不滿足對(duì)稱性;密度相連關(guān)系滿足對(duì)稱性。50.以下算法中可以應(yīng)用于圖像分割的是()。A、邊緣檢測(cè)技術(shù)B、閾值分割技術(shù)C、基于區(qū)域的分割技術(shù)D、區(qū)域生長(zhǎng)方法【正確答案】:ABCD解析:

邊緣檢測(cè)技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長(zhǎng)方法均是圖像分割技術(shù)。51.以下屬于關(guān)鍵詞提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潛在語(yǔ)義分析)D、LDA【正確答案】:ABCD解析:

關(guān)鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語(yǔ)義分析)orLSI(潛在語(yǔ)義索引)、LDA等。52.以下描述中正確的是()。A、統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一B、Python語(yǔ)言是統(tǒng)計(jì)學(xué)家發(fā)明的語(yǔ)言C、機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一D、數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)分支領(lǐng)域(子學(xué)科)【正確答案】:AC解析:

Python發(fā)明者是GuidoVanRossum,并非為統(tǒng)計(jì)學(xué)家;數(shù)據(jù)科學(xué)是一門獨(dú)立學(xué)科,已經(jīng)超出了統(tǒng)計(jì)學(xué)一個(gè)學(xué)科的研究范疇,并非為統(tǒng)計(jì)學(xué)的一個(gè)分支。53.Analytics1.0的主要特點(diǎn)有()。A、分析活動(dòng)滯后于數(shù)據(jù)的生成B、重視結(jié)構(gòu)化數(shù)據(jù)的分析C、以對(duì)歷史數(shù)據(jù)的理解為主要目的D、注重描述性分析【正確答案】:ABCD解析:

著名管理學(xué)家Thomas·H·Davernport于2013年在《哈佛商業(yè)論壇(HarvardBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的方法、技術(shù)和工具——分析學(xué)(Analytics)分為三個(gè)不同時(shí)代——商務(wù)智能時(shí)代、大數(shù)據(jù)時(shí)代和數(shù)據(jù)富足供給時(shí)代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics1.0是商務(wù)智能時(shí)代(1950~2000年),Analytics1.0中常用的工具軟件為數(shù)據(jù)倉(cāng)庫(kù)及商務(wù)智能類軟件,一般由數(shù)據(jù)分析師或商務(wù)智能分析師負(fù)責(zé)完成。Analytics1.0的主要特點(diǎn)有分析活動(dòng)滯后于數(shù)據(jù)的生成、重視結(jié)構(gòu)化數(shù)據(jù)的分析、以對(duì)歷史數(shù)據(jù)的理解為主要目的、注重描述性分析。54.下列關(guān)于Ridge回歸的說(shuō)法,正確的是()。A、若λ=0,則等價(jià)于一般的線性回歸B、若λ=0,則不等價(jià)于一般的線性回歸C、若λ=+∞,則得到的權(quán)重系數(shù)很小,接近于零D、若λ=+∞,則得到的權(quán)重系數(shù)很大,接近與無(wú)窮大【正確答案】:AC解析:

Ridge回歸中,若λ=0,則等價(jià)于一般的線性回歸;若λ=+∞,則得到的權(quán)重系數(shù)很小,接近于零。55.DGI定義的數(shù)據(jù)治理任務(wù)包括()。A、數(shù)據(jù)質(zhì)量的評(píng)估B、主動(dòng)定義或序化規(guī)則C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)D、應(yīng)對(duì)并解決因不遵守規(guī)則而產(chǎn)生的問(wèn)題【正確答案】:BCD解析:

DGI(TheDataGovermanceInstitute)認(rèn)為數(shù)據(jù)治理是對(duì)數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動(dòng)。它是一個(gè)信息處理過(guò)程中根據(jù)模型來(lái)執(zhí)行的決策權(quán)和承擔(dān)責(zé)任的系統(tǒng),規(guī)定了誰(shuí)可以在什么情況下對(duì)哪些信息做怎樣的處理。56.下列屬于描述gensim庫(kù)的特性的是()。A、訓(xùn)練語(yǔ)料的預(yù)處理B、主題向量的變換C、文檔相似度的計(jì)算D、文章切分詞語(yǔ)統(tǒng)計(jì)計(jì)算【正確答案】:ABC解析:

gensim不用于分詞。57.下列關(guān)于深度學(xué)習(xí)的實(shí)質(zhì)及其與淺層學(xué)習(xí)的說(shuō)法,正確的是()。A、深度學(xué)習(xí)強(qiáng)調(diào)模型深度B、深度學(xué)習(xí)突出特征學(xué)習(xí)的重要性:特征變換+非人工C、沒(méi)有區(qū)別D、以上答案都不正確【正確答案】:AB解析:

深度模型是手段,特征學(xué)習(xí)是目的。58.下列關(guān)于特征的稀疏性說(shuō)法,正確的是()。A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無(wú)關(guān)B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開(kāi)銷C、學(xué)習(xí)任務(wù)難度可能有所降低D、稀疏矩陣沒(méi)有高效的存儲(chǔ)方法【正確答案】:ABC解析:

在一個(gè)矩陣中,若非零元素的個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于零元素的個(gè)數(shù),且非零元素的分布沒(méi)有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲(chǔ)空間并且加快并行程序處理速度,可對(duì)稀疏矩陣進(jìn)行壓縮存儲(chǔ)。59.深度學(xué)習(xí)方法不適用于的場(chǎng)景有()。A、數(shù)據(jù)樣本充足B、數(shù)據(jù)樣本不足C、數(shù)據(jù)集具有局部相關(guān)特性D、數(shù)據(jù)集沒(méi)有局部相關(guān)特性【正確答案】:BD解析:

以下數(shù)據(jù)集不適合用深度學(xué)習(xí):①數(shù)據(jù)集太小,數(shù)據(jù)樣本不足時(shí),深度學(xué)習(xí)相對(duì)其他機(jī)器學(xué)習(xí)算法沒(méi)有明顯優(yōu)勢(shì)。②數(shù)據(jù)集沒(méi)有局部相關(guān)特性,目前深度學(xué)習(xí)表現(xiàn)比較好的領(lǐng)域主要是圖像/語(yǔ)音/自然語(yǔ)言處理等領(lǐng)域,這些領(lǐng)域的一個(gè)共性是局部相關(guān)性。圖像中像素組成物體,語(yǔ)音信號(hào)中音位組合成單詞,文本數(shù)據(jù)中單詞組合成句子,這些特征元素的組合一旦被打亂,表示的含義同時(shí)也被改變。對(duì)于沒(méi)有這樣的局部相關(guān)性的數(shù)據(jù)集,不適于使用深度學(xué)習(xí)算法進(jìn)行處理。60.關(guān)于Python組合數(shù)據(jù)類型,以下選項(xiàng)中描述正確的是()。A、Python的str、tuple和list類型都屬于序列類型B、Python組合數(shù)據(jù)類型能夠?qū)⒍鄠€(gè)同類型或不同類型的數(shù)據(jù)組織起來(lái),通過(guò)單一的表示使數(shù)據(jù)操作更有序更容易C、組合數(shù)據(jù)類型可以分為3類:序列類型、集合類型和映射類型3類D、序列類型是二維元素向量,元素之間存在先后關(guān)系,通過(guò)序號(hào)訪問(wèn)【正確答案】:ABC解析:

序列類型是一維元素向量。61.不屬于使用池化層相比于相同步長(zhǎng)的卷積層的優(yōu)勢(shì)有()。A、參數(shù)更少B、可以獲得更大下采樣C、速度更快D、有助于提升精度【正確答案】:BCD解析:

池化層公式與卷積一樣,只是不需要參數(shù)。62.數(shù)據(jù)增值存在于哪些過(guò)程中()。A、數(shù)據(jù)對(duì)象的封裝B、數(shù)據(jù)系統(tǒng)的研發(fā)C、數(shù)據(jù)的集成應(yīng)用D、基于數(shù)據(jù)的創(chuàng)新【正確答案】:ABCD解析:

數(shù)據(jù)對(duì)象的封裝、數(shù)據(jù)系統(tǒng)的研發(fā)、數(shù)據(jù)的集成應(yīng)用、基于數(shù)據(jù)的創(chuàng)新均需要進(jìn)行數(shù)據(jù)增值。63.以下關(guān)于HBase說(shuō)法正確的是()。A、面向列的數(shù)據(jù)庫(kù)B、非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)C、支持大規(guī)模的隨機(jī)、實(shí)時(shí)讀寫D、采用松散數(shù)據(jù)模型【正確答案】:ABCD解析:

HBase是非結(jié)構(gòu)化的、多版本的、面向列和開(kāi)源的數(shù)據(jù)庫(kù);HBase提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問(wèn);從存儲(chǔ)模型看,HBase采用的是松散數(shù)據(jù)模型。64.文本分類過(guò)程包括()。A、選擇訓(xùn)練文本B、選擇文本特征C、建立文本表示模型D、選擇分類方法【正確答案】:ABCD解析:

文本分類過(guò)程包括:①選擇訓(xùn)練文本;②選擇文本特征;③建立文本表示模型;④選擇分類方法;⑤分類結(jié)果的評(píng)估。65.TF-IDF的缺點(diǎn)包含()。A、字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比B、將一些生僻字誤當(dāng)作文檔關(guān)鍵詞C、只考慮特征詞和文本之間的關(guān)系,忽略了一個(gè)特征項(xiàng)在不同類別間的分布情況D、沒(méi)有考慮特征詞的位置因素對(duì)文本的區(qū)分度【正確答案】:BCD解析:

低頻詞匯的重要性和出現(xiàn)次數(shù)成正比。66.長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)三個(gè)門是()。A、進(jìn)化門B、輸出門C、輸入門D、遺忘門【正確答案】:BCD解析:

LSTM擁有三個(gè)門(輸入門、遺忘門、輸出門),用來(lái)保護(hù)和控制細(xì)胞狀態(tài)。67.常用來(lái)緩解BP網(wǎng)絡(luò)的過(guò)擬合的兩種策略是()。A、晚停B、早停C、正則化D、加入損失函數(shù)【正確答案】:BC解析:

通常有兩種策略來(lái)緩解BP網(wǎng)絡(luò)的過(guò)擬合。第一種策略是早停(earlystopping),即將數(shù)據(jù)分成訓(xùn)練集合驗(yàn)證集,訓(xùn)練集用來(lái)計(jì)算梯度、更新連接權(quán)和閾值,驗(yàn)證集用來(lái)估計(jì)誤差,若訓(xùn)練集誤差降低但驗(yàn)證集誤差升高,則停止訓(xùn)練,同時(shí)返回具有最小驗(yàn)證集誤差的連接權(quán)和閾值。第二種策略是正則化(regularization),其基本思想是在誤差目標(biāo)函數(shù)中增加一個(gè)用于描述網(wǎng)絡(luò)復(fù)雜度的部分,例如連接權(quán)和閾值的平方和。68.下列模型屬于機(jī)器學(xué)習(xí)生成式模型的是()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】:ABD解析:

機(jī)器學(xué)習(xí)生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。69.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正確答案】:ABCD解析:

Spark支持上述四種運(yùn)行模式,在實(shí)驗(yàn)中為了充分利用資源,一般配置Standalone模式運(yùn)行。70.關(guān)于總體和樣本的說(shuō)法,正確的是()。A、總體也就是研究對(duì)象的全體B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間隔10s抽取的產(chǎn)品C、樣本是從總體的隨機(jī)抽樣D、如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是一年級(jí)的100名學(xué)生【正確答案】:ABC解析:

小學(xué)包括多個(gè)年級(jí),樣本沒(méi)有代表性。71.下面關(guān)于單樣本Z檢驗(yàn)的說(shuō)法,正確的是()。A、在Python中,單樣本Z檢驗(yàn)可以使用scipy.stats.ttest_1samp()實(shí)現(xiàn)B、單樣本Z檢驗(yàn)適用于樣本量較大的情況C、單樣本Z檢驗(yàn)假設(shè)要檢驗(yàn)的統(tǒng)計(jì)量(近似)滿足正態(tài)分布D、單樣本Z檢驗(yàn)常用于檢驗(yàn)總體平均值是否等于某個(gè)常量【正確答案】:BCD解析:

在Python中,單樣本Z檢驗(yàn)可以使用statsmodels.stats.weightstats.ztest實(shí)現(xiàn)。72.下列哪些是傳統(tǒng)RDBMS的缺點(diǎn)()。A、表結(jié)構(gòu)schema擴(kuò)展不方便B、全文搜索功能較弱C、大數(shù)據(jù)場(chǎng)景下I/O較高D、存儲(chǔ)和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱【正確答案】:ABCD解析:

傳統(tǒng)RDBMS的缺點(diǎn)包括表結(jié)構(gòu)schema擴(kuò)展不方便、全文搜索功能較弱、大數(shù)據(jù)場(chǎng)景下I/O較高、存儲(chǔ)和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱。73.下列跟人工智能場(chǎng)景相關(guān)的是()。A、圖像識(shí)別B、人臉識(shí)別C、語(yǔ)音識(shí)別D、語(yǔ)義分析【正確答案】:ABCD解析:

人工智能的概念很廣義,圖像識(shí)別、人臉識(shí)別、語(yǔ)音識(shí)別、語(yǔ)義分析都屬于人工智能的應(yīng)用場(chǎng)景。74.下列模型屬于機(jī)器學(xué)習(xí)生成式模型的是()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】:ABD解析:

機(jī)器學(xué)習(xí)生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。75.以下關(guān)于MapReduce1.0版本說(shuō)法正確的是()。A、擴(kuò)展性差B、可靠性差C、資源利用率低D、無(wú)法支持多

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論