版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第頁(yè)數(shù)據(jù)挖掘競(jìng)賽練習(xí)試題附答案1.已知一組數(shù)據(jù)的協(xié)方差矩陣,下面關(guān)于主分量說(shuō)法錯(cuò)誤的是()。A、主分量分析的最佳準(zhǔn)則是對(duì)一組數(shù)據(jù)按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計(jì)算截尾誤差最小B、在經(jīng)主分量分解后,協(xié)方差矩陣成為對(duì)角矩陣C、主分量分析就是K-L變換D、主分量是通過(guò)求協(xié)方差矩陣的特征值得到【正確答案】:C解析:
K-L變換與PCA變換是不同的概念,PCA的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種。如二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等。當(dāng)K-L變換矩陣為協(xié)方差矩陣時(shí),等同于PCA。2.在Numpy中,下列哪個(gè)()模塊可以計(jì)算逆矩陣、求特征值、解線性方程組以及求解行列式()。A、randomB、linalgC、NdarrayD、unicode【正確答案】:B解析:
random函數(shù)為隨機(jī)模塊,linalg模塊為線性計(jì)算庫(kù),Ndarray為array數(shù)組簡(jiǎn)稱,無(wú)unicode模塊。3.某籃運(yùn)動(dòng)員在三分線投球的命中率是2(1),他投球10次,恰好投進(jìn)3個(gè)球的概率為()。A、128(15)B、16(3)C、8(5)D、16(7)【正確答案】:A解析:
投籃只有兩種結(jié)果:進(jìn)或者不進(jìn),符合二項(xiàng)分布,二項(xiàng)分布概率的概率可以用公式求得,其中n=10代表試驗(yàn)次數(shù),k=3代表事件連續(xù)發(fā)生的次數(shù),p=1/2代表事件發(fā)生的概率。4.對(duì)模型進(jìn)行超參數(shù)優(yōu)化,詳盡搜索指定參數(shù)的估計(jì)值使用以下哪種()方法()。A、ParameterGrid)B、ParameterSampler)C、GridSearchCV)D、RandomizedSearchCV)【正確答案】:C解析:
ParameterGrid網(wǎng)格搜索,ParameterSampler參數(shù)生成器,GridSearchCV詳盡搜索指定參數(shù)的估計(jì)值,RandomizedSearchCV隨機(jī)搜索超參數(shù)。5.()不僅可用于多層前饋神經(jīng)網(wǎng)絡(luò),還可用于其他類型的神經(jīng)網(wǎng)絡(luò)。A、感知機(jī)B、神經(jīng)元C、神經(jīng)系統(tǒng)D、誤差逆?zhèn)鞑ァ菊_答案】:D解析:
誤差逆?zhèn)鞑ィ╡rrorBackPropagation,BP)算法不僅可用于多層前饋神經(jīng)網(wǎng)絡(luò),還可用于其他類型的神經(jīng)網(wǎng)絡(luò),如訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)[Pineda,1987]。6.Numpy.linspace(0,3,3)的結(jié)果為()。A、[0,1,2]B、[1,2,3]C、[0,1.5,3]D、[0,3,6]【正確答案】:C解析:
np.linspace)指定開(kāi)始值、結(jié)束值和值的個(gè)數(shù),默認(rèn)包含結(jié)束值,注意與arange的區(qū)別。7.在Apriori算法中,候選項(xiàng)集劃分為不同的桶,存放在()中。A、字典B、集合C、Hash樹(shù)D、列表【正確答案】:C解析:
--8.a=1,b=2,c=3,以下表達(dá)式值為True的是()。A、a>=bor(c+5)%3==1B、not(a==1andb!=c)C、notaandb==cD、aanda+b>=c【正確答案】:D解析:
注意優(yōu)先級(jí)。9.視覺(jué)通道表現(xiàn)力評(píng)價(jià)指標(biāo)不包括()。A、精確性B、可辨認(rèn)性C、可分離性D、可轉(zhuǎn)換性【正確答案】:D解析:
--10.()是指為最小化總體風(fēng)險(xiǎn),只需在每個(gè)樣本上選擇能使特定條件風(fēng)險(xiǎn)最小的類別標(biāo)記。A、支持向量機(jī)B、間隔最大化C、線性分類器D、貝葉斯判定準(zhǔn)則【正確答案】:D解析:
--11.下列說(shuō)法錯(cuò)誤的是()。A、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí),梯度下降算法的解一般就是全局最優(yōu)解B、進(jìn)行PCA降維時(shí),需要計(jì)算協(xié)方差矩C、沿負(fù)梯度的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問(wèn)題【正確答案】:C解析:
沿負(fù)梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。12.下列選項(xiàng)中,用于觸發(fā)異常的是()。A、tryB、catchC、raiseD、except【正確答案】:C解析:
--13.以下選項(xiàng)中,不是Python對(duì)文件的打開(kāi)模式的是()。A、'w'B、'+'C、'c'D、'r'【正確答案】:C解析:
'r'讀模式、'w'寫(xiě)模式、'a'追加模式、'b'二進(jìn)制模式、'+'讀/寫(xiě)模式。14.()是以樣本統(tǒng)計(jì)量作為未知總體參數(shù)的估計(jì)量,并通過(guò)對(duì)樣本單位的實(shí)際觀察取得樣本數(shù)據(jù),計(jì)算樣本統(tǒng)計(jì)量的取值作為被估計(jì)參數(shù)的估計(jì)值。A、參數(shù)估計(jì)B、邏輯分析C、方差分析D、回歸分析【正確答案】:A解析:
參數(shù)估計(jì)是統(tǒng)計(jì)推斷的一種。根據(jù)從總體中抽取的隨機(jī)樣本來(lái)估計(jì)總體分布中未知參數(shù)的過(guò)程。15.以下算法中,sklearn中未提及的是()。A、K-Meansmeans聚類算法B、LogisticRegressionC、KNN最近鄰分類算法D、Apriori關(guān)聯(lián)規(guī)則算法【正確答案】:D解析:
關(guān)聯(lián)規(guī)則在sklearn庫(kù)中未涉及。16.以下可以作為文本分類準(zhǔn)則的是()。A、預(yù)測(cè)準(zhǔn)確率B、魯棒性C、可擴(kuò)展性D、以上答案都正確【正確答案】:D解析:
文本分類準(zhǔn)則包含預(yù)測(cè)準(zhǔn)確性,魯棒性和可擴(kuò)展性。17.設(shè)置圖的標(biāo)題的命令是()。A、plt.text('標(biāo)題')B、plt.legend('標(biāo)題')C、plt.xticks('標(biāo)題')D、plt.title('標(biāo)題')【正確答案】:D解析:
A選項(xiàng)是添加文字說(shuō)明命令,B選項(xiàng)是添加標(biāo)識(shí)命令,C選項(xiàng)是添加X(jué)軸坐標(biāo)軸標(biāo)識(shí)命令。18.以下關(guān)于代碼規(guī)范描述,哪些是錯(cuò)誤的是()。A、類總是使用駝峰格式命名,即所有單詞首字母大寫(xiě)其余字母小寫(xiě)。B、除特殊模塊__init__之外,模塊名稱都使用不帶下劃線的小寫(xiě)字母。C、不要濫用*args和**kwargsD、建議把所有方法都放在一個(gè)類中【正確答案】:D解析:
以上關(guān)于代碼規(guī)范描述,把所有方法都放在一個(gè)類中是錯(cuò)誤的。19.大數(shù)據(jù)環(huán)境下的隱私擔(dān)憂,主要表現(xiàn)為()A、人信息的被識(shí)別與暴露B、用戶畫(huà)像的生成C、廣告的推送D、病毒入侵【正確答案】:A解析:
大數(shù)據(jù)環(huán)境下的隱私擔(dān)憂,主要表現(xiàn)為人信息的被識(shí)別與暴露。20.以下關(guān)于模塊的描述不正確的是()。A、模塊是包含函數(shù)和變量的Python文件B、模塊可以被導(dǎo)入C、可以使用“.”操作符訪問(wèn)模塊中的函數(shù)和變量D、模塊使得代碼更復(fù)雜,可讀性變差【正確答案】:D解析:
模塊化編程使得Python程序可讀性變高。21.當(dāng)我們需要在一張圖表中加上文字標(biāo)注,達(dá)到提醒讀者的目的時(shí),需要用到()函數(shù)。A、plt.axvspan)B、plt.axhspan)C、plt.annotate)D、plt.text)【正確答案】:D解析:
文字標(biāo)注是text函數(shù)。22.新興數(shù)據(jù)管理技術(shù)主要包括NoSQL技術(shù)、NewSQL技術(shù)和()。A、數(shù)據(jù)倉(cāng)庫(kù)B、關(guān)系云C、數(shù)據(jù)庫(kù)系統(tǒng)D、文件系統(tǒng)【正確答案】:B解析:
關(guān)系云是在云計(jì)算環(huán)境中部署和虛擬化的關(guān)系數(shù)據(jù)庫(kù),進(jìn)而使傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)具備云計(jì)算的彈性計(jì)算、虛擬化、按需服務(wù)和高經(jīng)濟(jì)性等特征。關(guān)系云代表了數(shù)據(jù)管理的一個(gè)重要發(fā)展方向。23.關(guān)于L1、L2正則化,下列說(shuō)法正確的是()。A、L2正則化能防止過(guò)擬合,提升模型的泛化能力,但L1做不到這點(diǎn)B、L2正則化技術(shù)又稱為L(zhǎng)assoRegularizationC、L1正則化得到的解更加稀疏D、L2正則化得到的解更加稀疏【正確答案】:C解析:
L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個(gè)稀疏模型,可以用于特征選擇;L2正則化可以防止模型過(guò)擬合,一定程度上L1也可以防止過(guò)擬合,L1正則化又稱LassoRegression。24.GatedRecurrentunits的出現(xiàn)可以幫助防止在RNN中的梯度消失問(wèn)題。()A、可以這么理解B、不可以這么理解C、-D、-【正確答案】:A解析:
--25.下列數(shù)據(jù)類型中,Numpy不支持以下哪種數(shù)據(jù)類型的是()。A、float32B、uint64C、boolD、byte【正確答案】:D解析:
Numpy支持的數(shù)據(jù)類型包括bool、int(8,16,32,64)、unit(16,32,64)、float(16,32,64)、complex(64,128)等類型,不支持byte、short等類型。26.假設(shè)已從標(biāo)準(zhǔn)庫(kù)functools導(dǎo)入reduce)函數(shù),那么表達(dá)式reduce(lambdax,y:x+y,[1,2,3])的值為()。A、NoneB、6C、3D、9【正確答案】:B解析:
reduce是聚合函數(shù),該操作完成數(shù)組求和功能。27.()不屬于聚類性能度量外部指標(biāo)。A、Jaccard系數(shù)B、FM系數(shù)C、Rand指數(shù)DB指數(shù)【正確答案】:D解析:
聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。28.scipy中,線性模塊是以下哪個(gè)()模塊()。A、fftpackB、signalC、linalgD、ndimage【正確答案】:C解析:
fftpack米快是傅里葉變換模塊,signal是信號(hào)處理模塊,linalg是線性代數(shù)模塊,ndimage是多維圖像處理模塊,29.下面哪個(gè)功能不是大數(shù)據(jù)平臺(tái)安全管理組件提供的功能()。A、接口代理B、接口認(rèn)證C、接口授權(quán)D、路由代理【正確答案】:D解析:
接口可以對(duì)用戶的身份和請(qǐng)求的參數(shù)進(jìn)行驗(yàn)證,以保證接口的安全。通過(guò)添加身份驗(yàn)證和數(shù)字簽名的方法提高接口安全性,防止數(shù)據(jù)被篡改和信息泄露。30.以下選項(xiàng)中,執(zhí)行后可以查看Python的版本的是()。A、importsystemB、C、Print(sys.version)D、importsystem【正確答案】:B解析:
查看Python版本可以通過(guò)調(diào)用操作系統(tǒng)模塊sys,語(yǔ)句print(sys.version)實(shí)現(xiàn)。31.下列對(duì)于Sigmoid函數(shù)的說(shuō)法,錯(cuò)誤的是()。A、存在梯度爆炸的問(wèn)題B、不是關(guān)于原點(diǎn)對(duì)稱C、計(jì)算exp比較耗時(shí)D、存在梯度消失的問(wèn)題【正確答案】:A解析:
對(duì)于Sigmoid函數(shù),S型函數(shù)圖像向兩邊的斜率逼近0,因此隨著網(wǎng)絡(luò)層增加,梯度消失比梯度爆炸更容易發(fā)生的多。32.深度學(xué)習(xí)是當(dāng)前很熱門的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)涉及大量的矩陣相乘,現(xiàn)在需要計(jì)算三個(gè)稠密矩陣A、B、C的乘積ABC,假設(shè)三個(gè)矩陣的尺寸分別為m×n,n×p,p×q,且m<nA、(AB)CB、AC(B)C、A(BC)D、所有效率都相同【正確答案】:A解析:
B選項(xiàng)中A的列數(shù)與C的行數(shù)不相等,無(wú)法相乘,B選項(xiàng)排除。A選項(xiàng)需要的乘法次數(shù)為m×n×p+m×p×q,C選項(xiàng)需要的乘法次數(shù)為n×p×q+m×n×q,由于m<n33.隨機(jī)森林等樹(shù)狀算法通過(guò)哪個(gè)()模塊進(jìn)行調(diào)用()。A、dummyB、ensembleC、treeD、experimental【正確答案】:B解析:
sklearn.ensemble模塊包含了很多集成學(xué)習(xí)的算法,包括隨機(jī)森林、Adaboost、GBDT等。34.一切皆可連,任何數(shù)據(jù)之間邏輯上都有可能存在聯(lián)系,這體現(xiàn)了大數(shù)據(jù)思維維度中的()。A、定量思維B、相關(guān)思維C、因果思維D、檢驗(yàn)思維【正確答案】:B解析:
《我們的大數(shù)據(jù)時(shí)代》一切皆可連,任何數(shù)據(jù)之間邏輯上都有可能存在聯(lián)系,這體現(xiàn)了大數(shù)據(jù)思維維度中的相關(guān)思維。35.關(guān)于缺失值填補(bǔ),不正確的說(shuō)法是()。A、填補(bǔ)數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等B、Pandas.dropna可以用來(lái)填補(bǔ)缺失值C、用平均值填補(bǔ)會(huì)引入相關(guān)性D、啞變量填補(bǔ)是將缺失值當(dāng)做一類新特征處理【正確答案】:B解析:
Pandas.dropna可以用來(lái)刪除缺失值。36.Python中用()快捷鍵表示運(yùn)行當(dāng)前程序。A、Ctrl+F10B、Ctrl+Alt+F10C、Shift+F10D、Ctrl+Shift+F10【正確答案】:D解析:
Python中用()快捷鍵表示運(yùn)行當(dāng)前程序的快捷鍵是Ctrl+Shift+F10。37.統(tǒng)計(jì)描述的種類主要包括均值、百分位數(shù)、中位數(shù)、眾數(shù)、全距和方差等,()是指如果將一組數(shù)據(jù)從小到大排序,并計(jì)算相應(yīng)的累計(jì)百分位,則某一百分位所對(duì)應(yīng)數(shù)據(jù)的值。A、均值B、百分位數(shù)C、中位數(shù)D、眾數(shù)【正確答案】:B解析:
百分位數(shù)是指如果將一組數(shù)據(jù)從小到大排序,并計(jì)算相應(yīng)的累計(jì)百分位,則某一百分位所對(duì)應(yīng)數(shù)據(jù)的值。38.以下哪個(gè)模塊()不是Scipy庫(kù)中的()模塊。A、clusterB、randomC、signalD、misc【正確答案】:B解析:
cluster、signal、misc都是Scipy庫(kù)中的模塊,random是Numpy中的模塊,Python本身也帶有random庫(kù)。39.如果需要訓(xùn)練的特征維度成千上萬(wàn),在高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏、距離計(jì)算困難。我們通過(guò)()可以緩解這個(gè)問(wèn)題。A、K均值算法B、支持向量機(jī)C、降維D、以上答案都不正確【正確答案】:C解析:
--40.matplotlib中的barh函數(shù)可以繪制()圖。A、直方圖B、餅圖C、條形圖D、氣泡圖【正確答案】:C解析:
barh用于繪制條形圖,相當(dāng)于橫向的柱狀圖。41.如果要清空文件,需要使用的命令是()。A、close)B、seek(0)C、truncate(0)Dwrite('stuff')【正確答案】:C解析:
truncate(size)方法將截?cái)辔募?,大小為size,size為0即清空42.以下代碼的輸出結(jié)果為()。A、[[0123][4567][891011]]B、[0123467891011]C、[[023][467][81011]]D、[246810]【正確答案】:B解析:
delete)默認(rèn)展平后刪除。43.下列描述中不屬于情感分析的具體任務(wù)是()。A、情感分類B、觀點(diǎn)抽取C、觀點(diǎn)問(wèn)答D、段落匹配【正確答案】:D解析:
情感分析又稱意見(jiàn)挖掘、傾向性分析等,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程,包括情感分類、觀點(diǎn)抽取、觀點(diǎn)問(wèn)答等,沒(méi)有段落匹配。44.下列判斷錯(cuò)誤的是()。A、XML數(shù)據(jù)屬于半結(jié)構(gòu)化數(shù)據(jù)B、JSON文件屬于非結(jié)構(gòu)化數(shù)據(jù)C、PPT文件屬于非結(jié)構(gòu)化數(shù)據(jù)D、音視頻文件屬于非結(jié)構(gòu)化數(shù)據(jù)【正確答案】:B解析:
JSON文件屬于半結(jié)構(gòu)化數(shù)據(jù)。45.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換,正確的是()。A、Json內(nèi)的取值只能有統(tǒng)一格式B、PDF文件在不同平臺(tái)上打開(kāi)顯示不同C、可以通過(guò)Python將CSV文件轉(zhuǎn)換成Excel格式D、Excel存儲(chǔ)數(shù)據(jù)的量無(wú)限制【正確答案】:C解析:
Json內(nèi)的取值可以有多種格式,PDF文件在不同平臺(tái)上打開(kāi)顯示相同,Excel存儲(chǔ)數(shù)據(jù)的量在Excel2007及以后版本,一個(gè)工作表最多可有1048576行、16384列。46.HBase依靠()提供消息通信機(jī)制。A、ZooKeeperB、ChubbyC、RPCD、Socket【正確答案】:A解析:
ZooKeeper是一個(gè)高可用、高性能的分布式協(xié)調(diào)服務(wù),為HBase提供消息通信機(jī)制。47.以下代碼的輸出結(jié)果為()。A、[022345]B、[543220]C、[[230][542]]D、[[235][024]]【正確答案】:A解析:
默認(rèn)按最后一個(gè)軸進(jìn)行排序,軸參數(shù)設(shè)置為None時(shí)先展平再進(jìn)行排序。48.對(duì)模型進(jìn)行交叉驗(yàn)證可以使用以下哪種()方法()。A、learning_curve)B、cross_val_score)C、permutation_test_scoreD、validation)【正確答案】:B解析:
通過(guò)model_sleection.cross_val_score)可以進(jìn)行交叉驗(yàn)證以簡(jiǎn)便地評(píng)估模型。49.以下for語(yǔ)句結(jié)構(gòu)中,total初始值為0,不能完成1~~10的累加功能的是()。A、foriinrange(10,0):total+=iB、foriinrange(1,11):total+=iC、forIinrange(10,0,-1):total+=iD、forIin(10,9,8,7,6,5,4,3,2,1):total+=i【正確答案】:A解析:
A中range初始值大于結(jié)束值,且未設(shè)置步進(jìn)(默認(rèn)+1),故無(wú)可迭代數(shù),進(jìn)不了循環(huán)。50.關(guān)于Python程序中與“縮進(jìn)”有關(guān)的說(shuō)法中,以下選項(xiàng)中正確的是()。A、縮進(jìn)統(tǒng)一為4個(gè)空格B、縮進(jìn)是非強(qiáng)制性的,僅為了提高代碼可讀性C、縮進(jìn)在程序中長(zhǎng)度統(tǒng)一且強(qiáng)制使用D、縮進(jìn)可以用在任何語(yǔ)句之后,表示語(yǔ)句間的包含關(guān)系【正確答案】:C解析:
本題考查縮進(jìn)。51.數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和(),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來(lái),并進(jìn)行交互處理的理論、方法和技術(shù)。A、視覺(jué)處理技術(shù)B、視頻處理技術(shù)C、圖像處理技術(shù)D、圖片處理技術(shù)【正確答案】:C解析:
數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來(lái),并進(jìn)行交互處理的理論、方法和技術(shù)。它涉及涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)輔助設(shè)計(jì)等多個(gè)領(lǐng)域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問(wèn)題的綜合技術(shù)。52.在Python文件操作中,使用關(guān)鍵字()可以在文件訪問(wèn)后自動(dòng)將其關(guān)閉。A、assertB、breakC、nonlocalD、with【正確答案】:D解析:
在Python文件操作中,使用關(guān)鍵字with可以在文件訪問(wèn)后自動(dòng)將其關(guān)閉。53.以下代碼的輸出結(jié)果為()。A、[[1074][321]]B、3.5C、[6.54.52.5]D、[7.2.]【正確答案】:B解析:
percentile是百分位數(shù),此處是50%,即中位數(shù),因?yàn)閿?shù)組個(gè)數(shù)為偶數(shù)個(gè),因此中位數(shù)為3和4的均值。54.關(guān)于Python注釋,以下選項(xiàng)中描述錯(cuò)誤的是()。A、Python注釋語(yǔ)句不被解釋器過(guò)濾掉,也不被執(zhí)行B、注釋可以輔助程序調(diào)試C、注釋可用于標(biāo)明作者和版權(quán)信息D、注釋用于解釋代碼原理或者用途【正確答案】:A解析:
Python注釋語(yǔ)句會(huì)被解釋器過(guò)濾掉,不被執(zhí)行。55.文檔是待處理的數(shù)據(jù)對(duì)象,它由一組詞組成,這些詞在文檔中不計(jì)順序,如一篇論文、一個(gè)網(wǎng)頁(yè)都可以看作一個(gè)文檔。這樣的表示方式稱為()。A、語(yǔ)句B、詞袋C、詞海D、詞塘【正確答案】:B解析:
詞袋模型下,像是句子或是文件這樣的文字可以用一個(gè)袋子裝著這些詞的方式表現(xiàn),這種表現(xiàn)方式不考慮文法以及詞的順序。56.“數(shù)據(jù)的故事化描述”是指為了提升數(shù)據(jù)的(),將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過(guò)程。A、可理解性、可記憶性、可體驗(yàn)性B、可接受性、可記憶性、可體驗(yàn)性C、可接受性、可記憶性、可呈現(xiàn)性D、可理解性、可記憶性、可呈線性【正確答案】:A解析:
“數(shù)據(jù)的故事化描述(Storytelling)”是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗(yàn)性,將“數(shù)據(jù)”還原成關(guān)聯(lián)至特定的“情景”的過(guò)程。57.大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)不包含的是()A、數(shù)據(jù)整合B、數(shù)據(jù)存儲(chǔ)C、數(shù)據(jù)計(jì)算D、數(shù)據(jù)溯源【正確答案】:D解析:
利用大數(shù)據(jù)平臺(tái)可以實(shí)現(xiàn)數(shù)據(jù)整合、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算等技術(shù),無(wú)法實(shí)現(xiàn)數(shù)據(jù)溯源。58.()的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息,從而既不需要進(jìn)行完全聯(lián)合概率計(jì)算,又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。A、貝葉斯判定準(zhǔn)則B、貝葉斯決策論C、樸素貝葉斯分類器D、半樸素貝葉斯分類器【正確答案】:D解析:
--59.基于詞的N元文法模型,其最后的粗分結(jié)果集合大?。ǎ㎞。A、大于B、大于等于C、小于D、小于等于【正確答案】:B解析:
基于N-最短路徑分詞算法,其基本思想是根據(jù)詞典,找出字串中所有可能的詞,構(gòu)造詞語(yǔ)切分有向無(wú)環(huán)圖。每個(gè)詞對(duì)應(yīng)圖中的一條有向邊,并賦給相應(yīng)的邊長(zhǎng)(權(quán)值)。然后針對(duì)該切分圖,在起點(diǎn)到終點(diǎn)的所有路徑中,求出長(zhǎng)度并按嚴(yán)格升序排列(任何兩個(gè)不同位置上的值一定不等,下同)依次為第1,第2,…,第i,…,第N的路徑集合作為相應(yīng)的粗分結(jié)果集。如果兩條或兩條以上路徑長(zhǎng)度相等,那么他們的長(zhǎng)度并列第i,都要列入粗分結(jié)果集,而且不影響其他路徑的排列序號(hào),最后的粗分結(jié)果集合大小大于等于N。60.有數(shù)組n=np.arange(24).reshape(2,-1,2,2),np.shape的返回結(jié)果是()。A、(2,3,2,2)B、(2,2,2,2)C、(2,4,2,2)D、(2,6,2,2)【正確答案】:A解析:
reshape里-1的作用是可以先不計(jì)算,由數(shù)組size和其他的reshape參數(shù)確定這個(gè)數(shù)值,此處用24除以其他不是-1的值得到3。61.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是以下哪個(gè)步驟的任務(wù)()。A、頻繁模式挖掘B、分類和預(yù)測(cè)C、數(shù)據(jù)預(yù)處理D、數(shù)據(jù)流挖掘【正確答案】:C解析:
數(shù)據(jù)預(yù)處理是對(duì)原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約的過(guò)程。頻繁模式挖掘、分類和預(yù)測(cè)和數(shù)據(jù)流挖掘均屬于數(shù)據(jù)挖掘范疇。62.關(guān)于boosting下列說(shuō)法錯(cuò)誤的是()。A、boosting方法的主要思想是迭代式學(xué)習(xí)B、訓(xùn)練基分類器時(shí)采用并行的方式C、測(cè)試時(shí),根據(jù)各層分類器的結(jié)果的加權(quán)得到最終結(jié)果D、基分類器層層疊加,每一層在訓(xùn)練時(shí),對(duì)前一層基分類器分錯(cuò)的樣本給予更高的權(quán)值【正確答案】:B解析:
Boosing訓(xùn)練基分類器時(shí)只能采用順序的方式,Bagging訓(xùn)練基分類器時(shí)采用并行的方式。63.Numpy中對(duì)數(shù)組進(jìn)行轉(zhuǎn)置的函數(shù)是哪個(gè)()。A、transpose)B、rollaxis)C、swapaxes)D、tan)【正確答案】:A解析:
transpose)對(duì)矩陣進(jìn)行矩陣轉(zhuǎn)置,rollaxis)向后滾動(dòng)指定的軸,swapaxes)對(duì)換數(shù)組的兩個(gè)軸,tan)求三角函數(shù),64.TF-IDF中的TF是指()。A、某個(gè)詞在文檔中出現(xiàn)的次數(shù)B、文章的總次數(shù)C、某個(gè)詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)D、以上答案都不正確【正確答案】:C解析:
TF是詞頻(TermFrequency),表示某個(gè)詞出現(xiàn)的頻率,也就是某個(gè)詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)。65.在matplotlib中,imread方法的讀取到圖像后是以()類型進(jìn)行存儲(chǔ)。A、列表B、數(shù)組C、字符串D、圖片【正確答案】:B解析:
imread函數(shù)的作用的是從文件中讀取圖像到數(shù)組。66.HBase依靠()提供強(qiáng)大的計(jì)算能力。A、ZooKeeperB、ChubbyC、RPCD、MapReduce【正確答案】:D解析:
Chubby是分布式協(xié)調(diào)系統(tǒng),類似于ZooKeeper。RPC(RemoteProcedureCall)是遠(yuǎn)程過(guò)程調(diào)用,它是一種通過(guò)網(wǎng)絡(luò)從遠(yuǎn)程計(jì)算機(jī)程序上請(qǐng)求服務(wù),而不需要了解底層網(wǎng)絡(luò)技術(shù)的協(xié)議。HBase依靠MapReduce提供強(qiáng)大的計(jì)算能力。67.機(jī)器學(xué)習(xí)中做特征選擇時(shí),可能用到的方法有()。A、卡方B、信息增益C、平均互信息D、期望交叉熵E、以上都有【正確答案】:E解析:
--68.sklearn中對(duì)模型進(jìn)行選擇主要是依靠()模塊。A、decompositionB、model_selectionC、linear_modelD、mixture【正確答案】:B解析:
sklearn.model_selection主要提供一些功能幫助進(jìn)行模型選擇和調(diào)優(yōu),包括訓(xùn)練測(cè)試集劃分、交叉驗(yàn)證、學(xué)習(xí)曲線、網(wǎng)格搜索等。69.以下分割方法中不屬于區(qū)域算法的是()。A、分裂合并B、閾值分割C、區(qū)域生長(zhǎng)D、邊緣檢測(cè)【正確答案】:D解析:
邊緣檢測(cè)算法是標(biāo)識(shí)數(shù)字圖像中亮度變化明顯的點(diǎn),不屬于區(qū)域算法發(fā)范疇。70.()是數(shù)據(jù)庫(kù)管理系統(tǒng)運(yùn)行的基本工作單位。A、事務(wù)B、數(shù)據(jù)倉(cāng)庫(kù)C、數(shù)據(jù)單元D、數(shù)據(jù)分析【正確答案】:A解析:
在關(guān)系數(shù)據(jù)庫(kù)中,事務(wù)(Transaction)是保證數(shù)據(jù)一致性的重要手段,可以幫助用戶維護(hù)數(shù)據(jù)的一致性。事務(wù)是用戶定義的一個(gè)數(shù)據(jù)庫(kù)操作序列,這些操作要么全做,要么全不做,是一個(gè)不可分割的工作單位。71.關(guān)于Python內(nèi)存管理,下列說(shuō)法錯(cuò)誤的是哪項(xiàng)()。A、變量不必事先聲明B、變量無(wú)須先創(chuàng)建和賦值而直接使用C、變量無(wú)須指定類型D、可以使用del釋放資源【正確答案】:B解析:
Python變量需要事先聲明并賦值才能使用。72.在Spark中,()是指RDD的每個(gè)分區(qū)都只被子RDD的一個(gè)分區(qū)所依賴。A、子分區(qū)B、父分區(qū)C、寬依賴D、窄依賴【正確答案】:D解析:
窄依賴定義。73.scipy中,線性模塊是以下哪個(gè)()模塊()。A、fftpackB、signalC、linalgD、ndimage【正確答案】:C解析:
fftpack米快是傅里葉變換模塊,signal是信號(hào)處理模塊,linalg是線性代數(shù)模塊,ndimage是多維圖像處理模塊,74.假設(shè)precision=TP/(TP+FP),recall=TP/(TP+FN),則在二分類問(wèn)題中,當(dāng)測(cè)試集的正例和負(fù)例數(shù)量不均衡時(shí),以下評(píng)價(jià)方案中()是相對(duì)不合理的。Accuracy:(TP+TN)/allB、F-value:2recallprecision/(recall+precision)C、G-mean:sqrt(precision*recall)D、AUC:曲線下面積【正確答案】:A解析:
測(cè)試集正例和負(fù)例數(shù)量不均衡,那么假設(shè)正例數(shù)量很少占10%,負(fù)例數(shù)量占大部分90%。而且算法能正確識(shí)別所有負(fù)例,但正例只有一半能正確判別。那么TP=0.05×all,TN=0.9×all,Accuracy=95%。雖然Accuracy很高,precision是100%,但正例recall只有50%。75.對(duì)于一個(gè)二維數(shù)組n=np.array([[1,2,3],[4,5,6],[7,8,9]]),n[[0,1],[0,1]],輸出的結(jié)果是()。A、[[1,2],[4,5]]B、[1,2,4,5]C、[1,5]D、[2,4]【正確答案】:C解析:
注意這種情況只選擇A[0,0]和A[1,1]兩個(gè)值,與帶冒號(hào)的索引不同。76.對(duì)矩陣[[0,0,3],[1,1,0],[0,2,1],[1,0,2]]進(jìn)行獨(dú)熱編碼訓(xùn)練后,對(duì)矩陣[[0,1,3]]進(jìn)行獨(dú)熱編碼輸出結(jié)果為()。A、[0,1,0,1,0,0,0,1,0]B、[1,0,0,1,0,0,0,0,1]C、[0,1,0,0,1,0,0,0,1]D、[1,0,0,0,1,0,0,1,0]【正確答案】:B解析:
對(duì)于訓(xùn)練矩陣第一列為第一個(gè)特征維度,有兩種取值01,所以對(duì)應(yīng)編碼方式為10、01;同理,第二列為第二個(gè)特征維度,有三種取值012,所以對(duì)應(yīng)編碼方式為100、010、001;同理,第三列為第三個(gè)特征維度,有四中種取值0123,所以對(duì)應(yīng)編碼方式為1000、0100、0010、0001,再來(lái)看要進(jìn)行編碼的參數(shù)[0,1,3],0作為第一個(gè)特征編碼為10,1作為第二個(gè)特征編碼為010,3作為第三個(gè)特征編碼為0001,故此編碼結(jié)果為[1,0,0,1,0,0,0,0,1]。77.()不屬于CRF模型對(duì)于HMM和MEMM模型的優(yōu)勢(shì)。A、特征靈活B、速度快C、可容納較多上下文信息D、全局最優(yōu)【正確答案】:B解析:
CRF模型的優(yōu)點(diǎn):1)與HMM:CRF沒(méi)有HMM那樣嚴(yán)格的獨(dú)立性假設(shè)條件,因而可以容納任意的上下文信息,特征設(shè)計(jì)靈活。2)與MEMM:由于CRF計(jì)算全局最優(yōu)輸出節(jié)點(diǎn)的條件概率,他還克服了MEMM模型標(biāo)記偏置的缺點(diǎn)。78.大數(shù)據(jù)涌現(xiàn)現(xiàn)象的形式有多種,不屬于大數(shù)據(jù)涌現(xiàn)形式的是()。A、價(jià)值涌現(xiàn)B、隱私涌現(xiàn)C、物質(zhì)涌現(xiàn)D、質(zhì)量涌現(xiàn)【正確答案】:C解析:
大數(shù)據(jù)并不等同于“小數(shù)據(jù)的集合”。從“小數(shù)據(jù)”到“大數(shù)據(jù)”的過(guò)程中出現(xiàn)了“涌現(xiàn)”現(xiàn)象,“涌現(xiàn)”才是大數(shù)據(jù)的本質(zhì)特征。涌現(xiàn)(Emergence)就是系統(tǒng)大于元素之和,或者系統(tǒng)在跨越層次時(shí),出現(xiàn)了新的質(zhì)。大數(shù)據(jù)涌現(xiàn)現(xiàn)象的具體表現(xiàn)形式有多種,如價(jià)值涌現(xiàn)、隱私涌現(xiàn)、質(zhì)量涌現(xiàn)和安全涌現(xiàn)等。79.以下有關(guān)計(jì)算機(jī)編程語(yǔ)言說(shuō)法錯(cuò)誤的是()。A、編程語(yǔ)言是用于書(shū)寫(xiě)計(jì)算機(jī)程序的語(yǔ)言;B、計(jì)算機(jī)語(yǔ)言可分為機(jī)器語(yǔ)言、匯編語(yǔ)言、高級(jí)語(yǔ)言;C、計(jì)算機(jī)能識(shí)別和執(zhí)行所有編程語(yǔ)言寫(xiě)的程序;D、C/C++、pascal、java、pythonPython都屬于高級(jí)編程語(yǔ)言;【正確答案】:C解析:
只有機(jī)器語(yǔ)言才能被計(jì)算機(jī)直接識(shí)別,Python等高級(jí)語(yǔ)言源程序,不能直接運(yùn)行,必須翻譯成機(jī)器語(yǔ)言才能執(zhí)行。80.PageRank是一個(gè)函數(shù),它對(duì)Web中的每個(gè)網(wǎng)頁(yè)賦予一個(gè)實(shí)數(shù)值。它的意圖在于網(wǎng)頁(yè)的PageRank越高,那么它就()。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要【正確答案】:D解析:
PageRank認(rèn)為,如果A頁(yè)面有一個(gè)鏈接指向B頁(yè)面,那就可以看作是A頁(yè)面對(duì)B頁(yè)面的一種信任或推薦。所以,如果一個(gè)頁(yè)面的反向鏈接越多,根據(jù)這些鏈接的價(jià)值加權(quán)越高,那搜索引擎就會(huì)判斷這樣的頁(yè)面更為重要。81.執(zhí)行下面操作后,list2的值是()。A、[4,5,6]B、[4,3,6]C、[4,5,3]D、以上答案都不正確【正確答案】:C解析:
賦值語(yǔ)句是淺復(fù)制操作,沒(méi)有復(fù)制子對(duì)象,所以原始數(shù)據(jù)改變,子對(duì)象會(huì)改變。82.令N為數(shù)據(jù)集的大小[注:設(shè)訓(xùn)練樣本(xi,yi),N即訓(xùn)練樣本個(gè)數(shù)],d是輸入空間的維數(shù)(注:d即向量xi的維數(shù))。硬間隔SVM問(wèn)題的原始形式[即在不等式約束(yi(wTxi+b)≥1)下最小化(1/2)wTw]在沒(méi)有轉(zhuǎn)化為拉格朗日對(duì)偶問(wèn)題之前,是()。A、一個(gè)含N個(gè)變量的二次規(guī)劃問(wèn)題B、一個(gè)含N+1個(gè)變量的二次規(guī)劃問(wèn)題C、一個(gè)含d個(gè)變量的二次規(guī)劃問(wèn)題D、一個(gè)含d+1個(gè)變量的二次規(guī)劃問(wèn)題【正確答案】:D解析:
欲找到具有最大間隔的劃分超平面,也就是要找到能滿足題中不等式約束的參數(shù)w和b,是一個(gè)含d+1個(gè)變量的二次規(guī)劃問(wèn)題。83.MapReduce默認(rèn)的分區(qū)函數(shù)是()。A、hashB、diskC、reduceD、map【正確答案】:A解析:
MapReduce默認(rèn)的分區(qū)函數(shù)是hash。84.數(shù)據(jù)產(chǎn)品的定義是()。A、數(shù)據(jù)產(chǎn)品是指能夠供給市場(chǎng),被人們使用和消費(fèi),并能滿足人們某種需求的任何東西B、數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價(jià)值去輔助用戶更優(yōu)地做決策(甚至行動(dòng))的一種產(chǎn)品形式C、數(shù)據(jù)產(chǎn)品是指為了滿足自身的需要,通過(guò)科技發(fā)明或經(jīng)驗(yàn)總結(jié)而形成的技術(shù)D、數(shù)據(jù)產(chǎn)品是數(shù)據(jù)科學(xué)的結(jié)果,創(chuàng)造了新的實(shí)物形態(tài)和使用價(jià)值的產(chǎn)品?!菊_答案】:B解析:
數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價(jià)值去輔助用戶更優(yōu)的做決策(甚至行動(dòng))的一種產(chǎn)品形式。85.Numpy庫(kù)的主要功能是()。A、科學(xué)計(jì)算B、繪圖C、爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)D、機(jī)器學(xué)習(xí)庫(kù)【正確答案】:A解析:
Numpy是一個(gè)開(kāi)源Python庫(kù),主要用于科學(xué)計(jì)算。用于繪圖的Python庫(kù)有Matplotlib,、Seaborn等,爬取數(shù)據(jù)的庫(kù)有Requests等,機(jī)器學(xué)習(xí)庫(kù)有Sklearn等。86.二項(xiàng)分布的數(shù)學(xué)期望為()。A、n(1-n)pB、np(1-p)C、npD、n(1-p)【正確答案】:C解析:
二項(xiàng)分布即重復(fù)n次的伯努利試驗(yàn)。如果事件發(fā)生的概率是p,則不發(fā)生的概率q=1-p.則期望為np,方差為npq。87.圖像與灰度直方圖的對(duì)應(yīng)關(guān)系為()。A、一一對(duì)應(yīng)B、一對(duì)多C、多對(duì)一D、以上答案都正確【正確答案】:C解析:
灰度直方圖是灰度級(jí)的函數(shù),它表示圖像中具有每種灰度級(jí)的像素的個(gè)數(shù),反映圖像中每種灰度出現(xiàn)的頻率?;叶戎狈綀D的橫坐標(biāo)是灰度級(jí),縱坐標(biāo)是該灰度級(jí)出現(xiàn)的頻率,是圖像的最基本的統(tǒng)計(jì)特征。與圖像之間的關(guān)系是多對(duì)一的映射關(guān)系。一幅圖像唯一確定出與之對(duì)應(yīng)的直方圖,但不同圖像可能有相同的直方圖,選C。88.()不是HDFS的守護(hù)進(jìn)程。A、SecondaryNameNodeB、DataNodeC、MRAppMaster/YarnChildD、NameNode【正確答案】:C解析:
NameNode是HDFS集群的主節(jié)點(diǎn),DataNode是HDFS集群的從節(jié)點(diǎn),SecondaryNameNode是HDFS集群?jiǎn)?dòng)的用來(lái)給NameNode節(jié)點(diǎn)分擔(dān)壓力的角色,這個(gè)三個(gè)服務(wù)進(jìn)程會(huì)一直啟動(dòng)著。MRAppMaster/YarnChild進(jìn)程是只有在YARN集群運(yùn)行了MapReduce程序之后才會(huì)啟動(dòng)的程序。89.RNN不同于其他神經(jīng)網(wǎng)絡(luò)的地方在于()。A、實(shí)現(xiàn)了記憶功能B、速度快C、精度高D、易于搭建【正確答案】:A解析:
--90.下列數(shù)據(jù)中,不屬于字符串的是()。A、'ab'B、"perfect"'C、"52wo"D、abc【正確答案】:D解析:
D無(wú)引號(hào),故只是變量。91.()是交叉驗(yàn)證法的一種特例。A、自助法B、留一法C、交叉驗(yàn)證法D、錯(cuò)誤率分析【正確答案】:B解析:
--92.數(shù)據(jù)科學(xué)基本原則中,“基于數(shù)據(jù)的智能”的主要特點(diǎn)是()。A、數(shù)據(jù)簡(jiǎn)單、但算法簡(jiǎn)單B、數(shù)據(jù)復(fù)雜、但算法簡(jiǎn)單C、數(shù)據(jù)簡(jiǎn)單、但算法復(fù)雜D、數(shù)據(jù)復(fù)雜、但算法復(fù)雜【正確答案】:B解析:
數(shù)據(jù)科學(xué)對(duì)“智能的實(shí)現(xiàn)方式”有了新的認(rèn)識(shí)——從“基于算法的智能”到“基于數(shù)據(jù)的智能”過(guò)渡?!盎跀?shù)據(jù)的智能”的重要特點(diǎn)是“數(shù)據(jù)復(fù)雜,但算法簡(jiǎn)單”。93.CNN神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征提取帶來(lái)了變革性的變化,使之前的人工特征提取升級(jí)到數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)特征提取,在CNN中,起到特征提取作用的網(wǎng)絡(luò)層是()。A、convolution層B、fullconnect層C、maxpooling層D、norm層【正確答案】:A解析:
卷積層負(fù)責(zé)提取特征,采樣層負(fù)責(zé)特征選擇,全連接層負(fù)責(zé)分類。94.HDFS是基于流數(shù)據(jù)模式訪問(wèn)和處理超大文件的需求而開(kāi)發(fā)的,具有高容錯(cuò)、高可靠性、高可擴(kuò)展性、高吞吐率等特征,適合的讀寫(xiě)任務(wù)是()。A、一次寫(xiě)入,少次讀取B、多次寫(xiě)入,少次讀取C、多次寫(xiě)入,多次讀取D、一次寫(xiě)入,多次讀取【正確答案】:D解析:
HDFS的設(shè)計(jì)以“一次寫(xiě)入、多次讀取”為主要應(yīng)用場(chǎng)景。95.給定一個(gè)長(zhǎng)度為n的不完整單詞序列,我們希望預(yù)測(cè)下一個(gè)字母是什么。比如輸入是predictio(9個(gè)字母組成),希望預(yù)測(cè)第十個(gè)字母是什么。()適用于解決這個(gè)工作。A、循環(huán)神經(jīng)網(wǎng)絡(luò)B、全連接神經(jīng)網(wǎng)絡(luò)C、受限波爾茲曼機(jī)D、卷積神經(jīng)網(wǎng)絡(luò)【正確答案】:A解析:
循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備,因此在對(duì)序列的非線性特征進(jìn)行學(xué)習(xí)時(shí)具有一定優(yōu)勢(shì)。循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理(NaturalLanguageProcessing,NLP),例如語(yǔ)音識(shí)別、語(yǔ)言建模、機(jī)器翻譯等領(lǐng)域有應(yīng)用,也被用于各類時(shí)間序列預(yù)報(bào)。96.pyplot.pie)所畫(huà)的圖像是()。A、箱線圖B、折線圖C、直方圖D、餅圖【正確答案】:D解析:
pyplot.pie)的作用是繪制餅圖。97.Python語(yǔ)句print(0xA+0xB)的輸出結(jié)果是()。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】:D解析:
0x是16進(jìn)制運(yùn)算,0xA+0xB換為十進(jìn)制為10+11=21。98.scipy.stats模塊中對(duì)隨機(jī)變量進(jìn)行隨機(jī)取值的函數(shù)是()。A、rvsB、pdfC、cdfD、sf【正確答案】:A解析:
stats模塊中每個(gè)分布都rvs函數(shù),對(duì)隨機(jī)變量取值。99.數(shù)據(jù)安全不只是技術(shù)問(wèn)題,還涉及()。A、人員問(wèn)題B、管理問(wèn)題C、行政問(wèn)題D、領(lǐng)導(dǎo)問(wèn)題【正確答案】:B解析:
數(shù)據(jù)安全不只是技術(shù)問(wèn)題,還涉及管理問(wèn)題。100.以下濾波器中,對(duì)圖像中的椒鹽噪聲濾波效果最好的是()。A、中值濾波B、均值濾波C、最大值濾波D、最小值濾波【正確答案】:A解析:
--1.在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化——從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過(guò)渡至云計(jì)算,有一定的代表性的是Google云計(jì)算三大技術(shù),這三大技術(shù)包括()。A、HadoopYRN資源管理器B、GFS分布式存儲(chǔ)系統(tǒng)C、MapRedue分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫(kù)【正確答案】:BCD解析:
Goolge于2003~2008年間發(fā)表的3篇論文在云計(jì)算和大數(shù)據(jù)技術(shù)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響,被稱為Google三大技術(shù)或三大論文:①GFS論文——GhemawatS,Gobioff2.下面屬于可視化高維數(shù)據(jù)技術(shù)的是()。A、矩陣B、.平行坐標(biāo)系C、星形坐標(biāo)系D、散布圖【正確答案】:ABC解析:
矩陣、平行坐標(biāo)系和星形坐標(biāo)系都屬于可視化高維數(shù)據(jù)的常用技術(shù),而散布圖又叫相關(guān)圖,只能處理二維數(shù)據(jù)。3.特征選擇的目的是()。A、減少特征數(shù)量、降維B、使模型泛化能力更強(qiáng)C、增強(qiáng)模型擬合能力D、減少過(guò)擬合?!菊_答案】:ABD解析:
特征選擇的主要目的是減少特征的數(shù)量、降低特征維度、使模型泛化能力更強(qiáng)、減少過(guò)擬合。4.做一個(gè)二分類預(yù)測(cè)問(wèn)題,先設(shè)定閾值為0.5,概率不小于0.5的樣本歸入正例類(即1),小于0.5的樣本歸入反例類(即0)。然后,用閾值n(n>0.5)重新劃分樣本到正例類和反例類,下面說(shuō)法正確的是()。A、增加閾值不會(huì)提高召回率B、增加閾值會(huì)提高召回率C、增加閾值不會(huì)降低查準(zhǔn)率D、增加閾值會(huì)降低查準(zhǔn)率【正確答案】:AC解析:
召回率=TP/TP+FN,查準(zhǔn)率=TP/TP+FP。當(dāng)概率閾值增加時(shí),TP、FP減少或者持平,TP+FN不變,所以召回率不會(huì)增加。5.隨機(jī)森林在做數(shù)據(jù)處理方面的優(yōu)勢(shì)是()。A、不需要做缺失值處理B、不需要處理噪音C、不需要做特征選擇D、不需要平衡數(shù)據(jù)集【正確答案】:ACD解析:
理論上隨機(jī)森林不會(huì)產(chǎn)生過(guò)擬合現(xiàn)象,但噪聲是不能忽略的,增加樹(shù)雖然能夠減小過(guò)擬合,但樹(shù)的數(shù)目不可能無(wú)限增加,沒(méi)有辦法完全消除過(guò)擬合。6.線性模型的基本形式有()。A、線性回歸B、對(duì)數(shù)幾率回歸(二分類問(wèn)題)C、線性判別分析(Fisher判別分析)D、多分類學(xué)習(xí)【正確答案】:ABCD解析:
--7.下列說(shuō)法中正確的是()。A、云計(jì)算的主要特點(diǎn)是非常昂貴B、大數(shù)據(jù)是多源、異構(gòu)、動(dòng)態(tài)的復(fù)雜數(shù)據(jù),即具有4V特征的數(shù)據(jù)C、大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究對(duì)象之一D、MapReduce是采用云計(jì)算這種新的計(jì)算模式研發(fā)出的具體工具軟件(或算法)【正確答案】:BCD解析:
云計(jì)算的一個(gè)重要優(yōu)勢(shì)在于其經(jīng)濟(jì)性。與其他計(jì)算模式不同的是,云計(jì)算的出發(fā)點(diǎn)是如何使用成本低的商用機(jī)(而不是成本很高的高性能服務(wù)器)實(shí)現(xiàn)強(qiáng)大的計(jì)算能力8.關(guān)于總體和樣本的說(shuō)法,正確的是()。A、總體也就是研究對(duì)象的全體B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間隔10s抽取的產(chǎn)品C、樣本是從總體的隨機(jī)抽樣D、如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是一年級(jí)的100名學(xué)生【正確答案】:ABC解析:
小學(xué)包括多個(gè)年級(jí),樣本沒(méi)有代表性。9.在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為“偽”,但數(shù)據(jù)分析人員沒(méi)有拒絕它時(shí)犯的錯(cuò)誤叫()。A、α錯(cuò)誤B、β錯(cuò)誤C、取偽錯(cuò)誤D、棄真錯(cuò)誤【正確答案】:BC解析:
α錯(cuò)誤(棄真錯(cuò)誤):當(dāng)原假設(shè)為真時(shí),但我們錯(cuò)誤地認(rèn)為“原假設(shè)是不成立的”,進(jìn)而導(dǎo)致拒絕這個(gè)正確假設(shè);β錯(cuò)誤(取偽錯(cuò)誤):當(dāng)原假設(shè)為假時(shí),但我們錯(cuò)誤地認(rèn)為“原假設(shè)是成立的”,進(jìn)而導(dǎo)致接受此錯(cuò)誤假設(shè)10.下列關(guān)于特征的稀疏性說(shuō)法,正確的是()。A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無(wú)關(guān)B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開(kāi)銷C、學(xué)習(xí)任務(wù)難度可能有所降低D、稀疏矩陣沒(méi)有高效的存儲(chǔ)方法【正確答案】:ABC解析:
在一個(gè)矩陣中,若非零元素的個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于零元素的個(gè)數(shù),且非零元素的分布沒(méi)有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲(chǔ)空間并且加快并行程序處理速度,可對(duì)稀疏矩陣進(jìn)行壓縮存儲(chǔ)。11.機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵組成要素是()。A、任務(wù)TB、性能指標(biāo)PC、目標(biāo)函數(shù)VD、經(jīng)驗(yàn)來(lái)源E【正確答案】:ABD解析:
--12.以下關(guān)于降維方法的敘述,正確的是()。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法D、度量學(xué)習(xí)繞過(guò)降維的過(guò)程,將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對(duì)距離度量計(jì)算的權(quán)重矩陣的學(xué)習(xí)【正確答案】:CD解析:
本質(zhì)上講,主成分分析是一種線性降維方法,在處理非線性問(wèn)題時(shí),效果不太理想。核化線性降維是一種非線性降維方法。13.以下關(guān)于L1和L2范數(shù)的描述,正確的是()。A、L1范數(shù)為x向量各個(gè)元素絕對(duì)值之和。B、L2范數(shù)為x向量各個(gè)元素平方和的1/2次方,L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C、L1范數(shù)可以使權(quán)值稀疏,方便特征提取D、L2范數(shù)可以防止過(guò)擬合,提升模型的泛化能力?!菊_答案】:ABCD解析:
L0是指向量中非0的元素的個(gè)數(shù),L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和,L2范數(shù)向量元素絕對(duì)值的平方和再開(kāi)平方。L1范數(shù)可以使權(quán)值稀疏,方便特征提取。L2范數(shù)可以防止過(guò)擬合,提升模型的泛化能力。14.Pig說(shuō)法正確的是()。A、彌補(bǔ)MapReduce編程復(fù)雜性B、封裝MapReduce處理過(guò)程C、PigLatin是一種數(shù)據(jù)分析語(yǔ)言D、適用于并行處理【正確答案】:ABCD解析:
Pig建立在MapReduce之上,主要目的是彌補(bǔ)MapReduce編程的復(fù)雜性;Pig較好地封裝了MapReduce的處理過(guò)程;PigLatin是數(shù)據(jù)分析的描述語(yǔ)言;Pig程序的結(jié)構(gòu)適合于并行處理。15.預(yù)剪枝使得決策樹(shù)的很多分子都沒(méi)有展開(kāi),會(huì)導(dǎo)致()。A、顯著減少訓(xùn)練時(shí)間開(kāi)銷B、顯著減少測(cè)試時(shí)間開(kāi)銷C、降低過(guò)擬合風(fēng)險(xiǎn)D、提高欠擬合風(fēng)險(xiǎn)【正確答案】:ABCD解析:
預(yù)剪枝使得決策樹(shù)的很多分支都沒(méi)有展開(kāi),這不僅降低了過(guò)擬合的風(fēng)險(xiǎn),還顯著減少了決策樹(shù)的訓(xùn)練時(shí)間開(kāi)銷和測(cè)試時(shí)間開(kāi)銷。但另一方面,有些分支的當(dāng)前劃分雖不能提升泛化性能,甚至可能導(dǎo)致泛化性能暫時(shí)下降,但在其基礎(chǔ)上進(jìn)行的后續(xù)劃分卻有可能導(dǎo)致性能顯著提高;預(yù)剪枝基于貪心原則,禁止這些分支展開(kāi),提高了欠擬合的風(fēng)險(xiǎn)。16.下列關(guān)于數(shù)據(jù)科學(xué)中常用的統(tǒng)計(jì)學(xué)知識(shí)說(shuō)法錯(cuò)誤的是()。A、從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統(tǒng)計(jì)的數(shù)據(jù)分析方法又可分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)C、描述統(tǒng)計(jì)可分為集中趨勢(shì)分析、離中趨勢(shì)分析、參數(shù)估計(jì)和假設(shè)檢驗(yàn)D、推斷統(tǒng)計(jì)包括采樣分布和相關(guān)分析【正確答案】:ABCD解析:
從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法包括描述統(tǒng)計(jì)、假設(shè)檢驗(yàn)、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計(jì)可分為集中趨勢(shì)分析和離散趨勢(shì)分析;推斷統(tǒng)計(jì)包括總體參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩方面內(nèi)容。17.Pandas中刪除列的方式是()。A、df.drop(["列名"],axis=1)B、df.drop(columns=["列名"])C、df.drop([0,1])D、df.drop([0])【正確答案】:AB解析:
--18.針對(duì)維數(shù)災(zāi)難,我們主要采用的降維方法有()。A、多維縮放B、主成分分析C、核化線性降維D、流形學(xué)習(xí)E、度量學(xué)習(xí)【正確答案】:ABCDE解析:
--19.以下跟圖像處理相關(guān)的是()。A、圖像識(shí)別B、人臉識(shí)別C、視頻分析D、自然語(yǔ)言處理【正確答案】:ABC解析:
--20.以下屬于圖像分割的算法的是()。A、閾值分割方法(thresholdsegmentationmethod)B、區(qū)域增長(zhǎng)細(xì)分(regionalgrowthsegmentation)C、邊緣檢測(cè)分割方法(edgedetectionsegmentationmethod)D、基于聚類的分割(segmentationbasedonclustering)E、基于能量的分割【正確答案】:ABCDE解析:
--21.Spark組件包含哪兩個(gè)算子()。A、MapB、ActionC、TransformationD、Reduce【正確答案】:BC解析:
Spark針對(duì)RDD提供了多種基礎(chǔ)操作,可以大致分為Action和Transformation兩種。22.RDD具有()特征。A、可容錯(cuò)性B、簡(jiǎn)潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】:AC解析:
RDD是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu)。23.在Spark中,彈性分布式數(shù)據(jù)集的特點(diǎn)包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:
RDD不可修改。24.以下算法中可以應(yīng)用于圖像分割的是()。A、邊緣檢測(cè)技術(shù)B、閾值分割技術(shù)C、基于區(qū)域的分割技術(shù)D、區(qū)域生長(zhǎng)方法【正確答案】:ABCD解析:
邊緣檢測(cè)技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長(zhǎng)方法均是圖像分割技術(shù)。25.下列跟人工智能場(chǎng)景相關(guān)的是()。A、圖像識(shí)別B、人臉識(shí)別C、語(yǔ)音識(shí)別D、語(yǔ)義分析【正確答案】:ABCD解析:
人工智能的概念很廣義,圖像識(shí)別、人臉識(shí)別、語(yǔ)音識(shí)別、語(yǔ)義分析都屬于人工智能的應(yīng)用場(chǎng)景。26.Spark的技術(shù)架構(gòu)可以分為哪幾層()。A、資源管理層B、Spark核心層C、應(yīng)用層D、服務(wù)層【正確答案】:ABD解析:
Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。27.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正確答案】:ABCD解析:
Spark支持上述四種運(yùn)行模式,在實(shí)驗(yàn)中為了充分利用資源,一般配置Standalone模式運(yùn)行。28.特征選擇方法有()。AIC赤池信息準(zhǔn)則B、LARS嵌入式特征選擇方法C、LVW包裹式特征選擇方法D、Relief過(guò)濾式特征選擇方法【正確答案】:BCD解析:
AIC赤池信息準(zhǔn)則是常用的模型選擇方法。29.以下屬于頻率域圖像濾波的方法有()。A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾波【正確答案】:CD解析:
頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。30.一個(gè)回歸模型存在多重共線問(wèn)題,在不損失過(guò)多信息的情況下,可采取的措施有()。A、剔除所有的共線性變量B、剔除共線性變量中的一個(gè)C、通過(guò)計(jì)算方差膨脹因子(VarianceInflationFactor,VIF)來(lái)檢查共線性程度,并采取相應(yīng)措施D、刪除相關(guān)變量可能會(huì)有信息損失,我們可以不刪除相關(guān)變量,而使用一些正則化方法來(lái)解決多重共線性問(wèn)題,例如Ridge或Lasso回歸【正確答案】:BCD解析:
為了檢查多重共線性,我們可以創(chuàng)建相關(guān)系數(shù)矩陣來(lái)辨別和移除相關(guān)系數(shù)大于75%的變量(閾值根據(jù)情況設(shè)定)。除此之外,可以使用VIF方法來(lái)檢查當(dāng)前存在的共線變量。VIF≤4表明沒(méi)有多種共線,VIF≥10表明有著嚴(yán)重的多重共線性,也可以使用公差(tolerance)作為評(píng)估指標(biāo)。但是,移除相關(guān)變量可能導(dǎo)致信息的丟失,為了保留這些變量,可以使用帶懲罰的回歸方法。可以在相關(guān)變量之間隨機(jī)加入噪聲,使得變量之間存在差異。但增加噪聲可能影響準(zhǔn)確度,因此這種方法應(yīng)該小心使用。31.若b=np.array([True,False,False]),以下能輸出[FalseTrueTrue]的是()。A、print(b-1)B、print(~b)C、print(np.logical_not(b)D、print(>>b)【正確答案】:BC解析:
數(shù)組分別邏輯取反的兩種方式,:可以使用np.logical_not)函數(shù)或者直接用取反符號(hào)~。32.Python中,復(fù)合賦值運(yùn)算符包括()。A、簡(jiǎn)單的賦值運(yùn)算符B、乘法賦值運(yùn)算符C、取模賦值運(yùn)算符D、取整除賦值運(yùn)算符【正確答案】:ABCD解析:
Python中,復(fù)合賦值運(yùn)算符包括簡(jiǎn)單的賦值運(yùn)算符、乘法賦值運(yùn)算符、取模賦值運(yùn)算符、取整除賦值運(yùn)算符。33.實(shí)時(shí)計(jì)算類應(yīng)用主要通過(guò)()來(lái)實(shí)現(xiàn)。A、流計(jì)算組件B、內(nèi)存計(jì)算組件C、MPP數(shù)據(jù)庫(kù)D、Hadoop的后臺(tái)定時(shí)分析計(jì)算任務(wù)【正確答案】:AB解析:
實(shí)時(shí)計(jì)算類應(yīng)用主要通過(guò)流計(jì)算組件、內(nèi)存計(jì)算組件來(lái)實(shí)現(xiàn)。34.下列關(guān)于自然語(yǔ)言處理中的關(guān)鍵詞提取的說(shuō)法,正確的是()。A、關(guān)鍵詞提取是指用人工方法提取文章關(guān)鍵詞的方法B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題D、這個(gè)問(wèn)題涉及數(shù)據(jù)挖掘、文本處理、信息檢索等領(lǐng)域【正確答案】:BD解析:
關(guān)鍵詞提取旨在自動(dòng)化;出現(xiàn)次數(shù)最多可能為無(wú)用詞。35.下面選項(xiàng)是python標(biāo)準(zhǔn)庫(kù)的是()。A、osB、sysC、numpyD、re【正確答案】:ABD解析:
numpy屬于第三方庫(kù)。36.以下可用于處理由于光照不均帶來(lái)的影響的圖像處理方法有()。A、同態(tài)濾波B、頂帽變換C、基于移動(dòng)平均的局部閾值處理D、拉普拉斯算子【正確答案】:ABC解析:
拉普拉斯算子屬于銳化濾波器,并不能處理光照不均勻帶來(lái)的影響。37.下列場(chǎng)景適合使用Python的是()。A、可作為腳本語(yǔ)言,快速編寫(xiě)小型程序、腳本等B、可應(yīng)用在數(shù)據(jù)科學(xué)、交互式計(jì)算及可視化領(lǐng)域C、可作為膠水語(yǔ)言,整合如C++等語(yǔ)言代碼D、Python適用于低延時(shí)、高利用率的應(yīng)用場(chǎng)景【正確答案】:ABC解析:
Python作為腳本語(yǔ)言,以解釋方式逐條執(zhí)行語(yǔ)句,相比C++等語(yǔ)言運(yùn)行速度較慢,不適用于低延時(shí)場(chǎng)景。38.以下關(guān)于HBase說(shuō)法正確的是()。A、面向列的數(shù)據(jù)庫(kù)B、非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)C、支持大規(guī)模的隨機(jī)、實(shí)時(shí)讀寫(xiě)D、采用松散數(shù)據(jù)模型【正確答案】:ABCD解析:
HBase是非結(jié)構(gòu)化的、多版本的、面向列和開(kāi)源的數(shù)據(jù)庫(kù);HBase提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫(xiě)訪問(wèn);從存儲(chǔ)模型看,HBase采用的是松散數(shù)據(jù)模型。39.下面關(guān)于機(jī)器學(xué)習(xí)的理解,正確的是()。A、非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的B、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)據(jù)帶標(biāo)簽C、強(qiáng)化學(xué)習(xí)以輸入數(shù)據(jù)作為對(duì)模型的反饋D、卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)【正確答案】:BCD解析:
非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是不要求帶標(biāo)簽的,監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的。40.下列不屬于聚類性能度量?jī)?nèi)部指標(biāo)的是()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】:CD解析:
聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。41.假設(shè)目標(biāo)遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度,那么下面說(shuō)法正確的是()。A、準(zhǔn)確度并不適合衡量不平衡類別問(wèn)題B、準(zhǔn)確度適合衡量不平衡類別問(wèn)題C、精確度和召回率適合于衡量不平衡類別問(wèn)題D、精確度和召回率不適合衡量不平衡類別問(wèn)題【正確答案】:AC解析:
精確度和召回率適合于衡量不平衡類別問(wèn)題,準(zhǔn)確度并不適合衡量不平衡類別問(wèn)題。42.區(qū)塊鏈?zhǔn)牵ǎ┑扔?jì)算機(jī)技術(shù)的新型應(yīng)用模式。A、分布式數(shù)據(jù)存儲(chǔ)B、點(diǎn)對(duì)點(diǎn)傳輸C、共識(shí)機(jī)制D、加密算法【正確答案】:ABCD解析:
區(qū)塊鏈?zhǔn)欠植际綌?shù)據(jù)存儲(chǔ)、點(diǎn)對(duì)點(diǎn)傳輸、共識(shí)機(jī)制、加密算法等計(jì)算機(jī)技術(shù)的新型應(yīng)用模式。43.常見(jiàn)的聚類性能度量外部指標(biāo)有()。A、Jaccard系數(shù)B、DB指數(shù)C、FM指數(shù)D、以上答案都正確【正確答案】:AC解析:
聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。44.關(guān)于降維說(shuō)法正確的是()。A、PA是根據(jù)方差這一屬性降維的B、降維可以防止模型過(guò)擬合C、降維降低了數(shù)據(jù)集特征的維度D、降維方法有PLA等【正確答案】:ACD解析:
降維不能用于防止模型過(guò)擬合。45.ETL技術(shù)主要涉及()操作。A、抽取B、轉(zhuǎn)換C、加載D、分析【正確答案】:ABC解析:
ETL技術(shù)主要涉及抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)。46.Analytics1.0的主要特點(diǎn)有()。A、分析活動(dòng)滯后于數(shù)據(jù)的生成B、重視結(jié)構(gòu)化數(shù)據(jù)的分析C、以對(duì)歷史數(shù)據(jù)的理解為主要目的D、注重描述性分析【正確答案】:ABCD解析:
著名管理學(xué)家Thomas·H·Davernport于2013年在《哈佛商業(yè)論壇(HarvardBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的方法、技術(shù)和工具——分析學(xué)(Analytics)分為三個(gè)不同時(shí)代——商務(wù)智能時(shí)代、大數(shù)據(jù)時(shí)代和數(shù)據(jù)富足供給時(shí)代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics1.0是商務(wù)智能時(shí)代(1950~2000年),Analytics1.0中常用的工具軟件為數(shù)據(jù)倉(cāng)庫(kù)及商務(wù)智能類軟件,一般由數(shù)據(jù)分析師或商務(wù)智能分析師負(fù)責(zé)完成。Analytics1.0的主要特點(diǎn)有分析活動(dòng)滯后于數(shù)據(jù)的生成、重視結(jié)構(gòu)化數(shù)據(jù)的分析、以對(duì)歷史數(shù)據(jù)的理解為主要目的、注重描述性分析。47.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。A、具有勞動(dòng)增值B、涉及法律權(quán)屬C、具有財(cái)務(wù)價(jià)值D、涉及道德與倫理【正確答案】:ABCD解析:
大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動(dòng)增值、涉及法律權(quán)屬、具有財(cái)務(wù)價(jià)值、涉及道德與倫理。48.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中,正確的是()。A、可用于處理時(shí)間序列數(shù)據(jù)B、可用于處理圖像數(shù)據(jù)C、卷積網(wǎng)絡(luò)中使用的卷積運(yùn)算就是數(shù)學(xué)中的卷積計(jì)算D、至少在網(wǎng)絡(luò)的一層中使用卷積【正確答案】:ABD解析:
--49.對(duì)以下代碼說(shuō)法正確的是()。A、該圖表是一個(gè)藍(lán)綠色的散點(diǎn)圖B、圖表中有紅色實(shí)線的網(wǎng)格線C、圖表中有圖例D、該圖畫(huà)的是sin曲線【正確答案】:CD解析:
該圖畫(huà)的是點(diǎn)虛線形式的折線圖,紅色點(diǎn)線網(wǎng)格,帶有圖例。50.非頻繁模式()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負(fù)模式和負(fù)相關(guān)模式D、對(duì)異常數(shù)據(jù)項(xiàng)敏感【正確答案】:AD解析:
非頻繁模式是一個(gè)項(xiàng)集或規(guī)則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及數(shù)據(jù)中的負(fù)相關(guān)時(shí)。它對(duì)異常數(shù)據(jù)項(xiàng)敏感。51.下列關(guān)于Spark中的RDD描述正確的有()。A、RDD(ResilientDistributedDataset)叫作彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式,可以并行在集群計(jì)算Dataset:就是一個(gè)集合,用于存放數(shù)據(jù)【正確答案】:ABCD解析:
A、B、C、D全部正確。52.大數(shù)據(jù)的參考架構(gòu)分為哪三個(gè)層次()A、角色B、活動(dòng)C、邏輯構(gòu)件D、功能組件【正確答案】:ABD解析:
GB/T35589—2017《信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動(dòng)的功能組件以及它們之間的關(guān)系。53.下列可以用來(lái)評(píng)估線性回歸模型的指標(biāo)有()。A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正確答案】:ABCD解析:
R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指標(biāo)均可以評(píng)估線性回歸模型。54.以下屬于規(guī)則的分詞方法的是()。A、正向最大匹配法B、逆向最大匹配法C、雙向最大匹配法D、條件隨機(jī)場(chǎng)【正確答案】:ABC解析:
條件隨機(jī)場(chǎng)是一種鑒別式機(jī)率模型,常用于標(biāo)注或分析序列資料。55.集成學(xué)習(xí)中增強(qiáng)多樣性的常見(jiàn)做法有()。A、數(shù)據(jù)樣本擾動(dòng)B、輸入屬性擾動(dòng)C、輸出表示擾動(dòng)D、算法參數(shù)擾動(dòng)【正確答案】:ABCD解析:
集成學(xué)習(xí)中增強(qiáng)多樣性的常見(jiàn)做法主要是是對(duì)數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進(jìn)行擾動(dòng)。56.以下屬于漢語(yǔ)未登錄詞的類型的有()。A、存在于詞典但出現(xiàn)頻率較少的詞B、新出現(xiàn)的普通詞匯C、專有名詞D、專業(yè)名詞和研究領(lǐng)域名稱【正確答案】:BCD解析:
未登錄詞就是未知的新詞。判斷一個(gè)新字符串是否應(yīng)作為一個(gè)詞,是基于世界知識(shí)的,需要人參與才能確認(rèn)。57.以下選項(xiàng)中是正確的字符串有()。A、‘a(chǎn)bc”ab”B、‘a(chǎn)bc”ab’C、“abc”ab”D、“abc\”ab”【正確答案】:BD解析:
需要兩端引號(hào)符號(hào)相同。58.下列模型屬于機(jī)器學(xué)習(xí)生成式模型的是()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】:ABD解析:
機(jī)器學(xué)習(xí)生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。59.數(shù)據(jù)增值存在于哪些過(guò)程中()。A、數(shù)據(jù)對(duì)象的封裝B、數(shù)據(jù)系統(tǒng)的研發(fā)C、數(shù)據(jù)的集成應(yīng)用D、基于數(shù)據(jù)的創(chuàng)新【正確答案】:ABCD解析:
數(shù)據(jù)對(duì)象的封裝、數(shù)據(jù)系統(tǒng)的研發(fā)、數(shù)據(jù)的集成應(yīng)用、基于數(shù)據(jù)的創(chuàng)新均需要進(jìn)行數(shù)據(jù)增值。60.對(duì)于不同場(chǎng)景內(nèi)容,一般數(shù)字圖像可以分為()。A、二值圖像B、灰度圖像C、彩色圖像D、深度圖像【正確答案】:ABC解析:
深度圖像中深度通道為描述距離,一般對(duì)其進(jìn)行采樣或數(shù)值離散化。61.在監(jiān)督式學(xué)習(xí)中使用聚類算法的方法有()。A、首先,可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個(gè)額外的特征C、在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個(gè)額外的特征【正確答案】:AB解析:
我們可以為不同的集群構(gòu)建獨(dú)立的機(jī)器學(xué)習(xí)模型,并且可以提高預(yù)測(cè)精度。將每個(gè)類別的ID作為特征空間中的一個(gè)額外的特征可能會(huì)提高的精度結(jié)果。62.下列有關(guān)Flume的描述正確的是()。A、Flume具有一定的容錯(cuò)性B、Flume使用Java編寫(xiě)C、Flume不支持failoverD、Flume是一個(gè)分布式的輕量級(jí)工具,適應(yīng)各種方式的數(shù)據(jù)收集【正確答案】:ABD解析:
Flume本身提供了failover機(jī)制,可以自動(dòng)切換和恢復(fù)。63.聚類性能度量的指標(biāo)主要分為外部指標(biāo)和內(nèi)部指標(biāo),其中屬于內(nèi)部指標(biāo)的是()。A、Jaccard指數(shù)B、FM指數(shù)C、DB指數(shù)Dunn指數(shù)【正確答案】:CD解析:
AB為外部指標(biāo)。64.Hadoop中map輸出結(jié)果說(shuō)法正確的是()。A、<key,value>鍵值對(duì)B、輸出中間臨時(shí)結(jié)果C、輸出最終計(jì)算結(jié)果D、輸出結(jié)果永久保留【正確答案】:AB解析:
map輸出結(jié)果并非是最終結(jié)果且只暫時(shí)保留。65.下面是Python的特點(diǎn)和優(yōu)點(diǎn)是()。A、解釋性強(qiáng)B、使用動(dòng)態(tài)特性C、面向?qū)ο驞、語(yǔ)法簡(jiǎn)潔【正確答案】:ABCD解析:
Python的特點(diǎn)和優(yōu)點(diǎn)是基于面向?qū)ο笤O(shè)計(jì),、代碼解釋性強(qiáng),、使用動(dòng)態(tài)特性、語(yǔ)法簡(jiǎn)潔。66.下列關(guān)于詞袋模型說(shuō)法正確的是()。A、詞袋模型可以忽略每個(gè)詞出現(xiàn)的順序B、詞袋模型不可以忽略每個(gè)詞出現(xiàn)的順序C、TensorFlow支持詞袋模型D、詞袋模型可以表出單詞之間的前后關(guān)系【正確答案】:AC解析:
詞袋模型的缺點(diǎn)之一就是不考慮詞語(yǔ)的順序關(guān)系,因此BD錯(cuò)誤。67.列式數(shù)據(jù)庫(kù)(如BigTable和HBase)以表的形式存儲(chǔ)數(shù)據(jù),表結(jié)構(gòu)包括()等元素。A、關(guān)鍵字B、時(shí)間戳C、列簇D、數(shù)據(jù)類型【正確答案】:ABC解析:
BigTable和HBase的索引由行關(guān)鍵字、列簇和時(shí)間戳組成。68.任何函數(shù)都可以修改,所以盡量少用全局變量,主要原因包括()。A、不夠安全B、一直占用內(nèi)存C、容易失效D、一直占用字符【正確答案】:AB解析:
全局變量安全性差、相關(guān)內(nèi)存一直無(wú)法釋放。69.假設(shè)檢驗(yàn)中,首先需要提出零假設(shè)和備擇假設(shè),零假設(shè)是(),備擇假設(shè)是()。A、只有出現(xiàn)的概率大于閾值才會(huì)被拒絕的,只有零假設(shè)出現(xiàn)的概率大于閾值才會(huì)被承認(rèn)的B、希望推翻的結(jié)論,希望證明的結(jié)論C、只有出現(xiàn)的概率小于閾值才會(huì)被拒絕的,只有零假設(shè)出現(xiàn)的概率小于閾值才會(huì)被承認(rèn)的D、希望證明的結(jié)論,希望推翻的結(jié)論【正確答案】:BC70.Python變量命名規(guī)則包含()。A、變量名只能包含字母、數(shù)字和下劃線。變量名可以字母或下劃線開(kāi)頭,但不能以數(shù)字開(kāi)頭,。例如,可將變量命名為message_1,但不能將其命名為1_message。B、變量名不能包含空格,但可使用下劃線來(lái)分隔其中的單詞。例如,變量名greeting_message可行,但變量名greetingmessage會(huì)引發(fā)錯(cuò)誤。C、不要將Python關(guān)鍵字和函數(shù)名用作變量名,即不要使用Python保留用于特殊用途的單詞,如print。D、變量名應(yīng)既簡(jiǎn)短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好?!菊_答案】:ABCD解析:
Python變量名只能包含字母、數(shù)字和下劃線,但不能以數(shù)字開(kāi)頭,避免使用關(guān)鍵字,變量名應(yīng)既簡(jiǎn)短又具有描述性。71.下面對(duì)范數(shù)規(guī)則化描述,正確的是()。A、L0是指向量中0的元素的個(gè)數(shù)B、L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和C、L2范數(shù)向量元素絕對(duì)值的平方和再開(kāi)平方D、L0是指向量中非0的元素的個(gè)數(shù)【正確答案】:BCD解析:
L0是指向量中非0的元素的個(gè)數(shù),L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和,L2范數(shù)向量元素絕對(duì)值的平方和再開(kāi)平方。72.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測(cè)度C、分類準(zhǔn)則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:
聚類算法是無(wú)監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標(biāo)記信息是未知的。73.屬于特征選擇的優(yōu)點(diǎn)有()。A、解決模型自身的缺陷B、減少過(guò)擬合C、提升模型的性能D、增強(qiáng)模型的泛化能力【正確答案】:BCD解析:
特征選擇無(wú)法克服模型自身的缺陷,二者是獨(dú)立的。74.()是Spark比MapReduce計(jì)算快的原因。A、基于內(nèi)存的計(jì)算B、基于DAG的調(diào)度框架C、基于Lineage的容錯(cuò)機(jī)制D、基于分布式計(jì)算的框架【正確答案】:ABC解析:
Spark比MapReduce計(jì)算快的原因包括基于內(nèi)存計(jì)算、使用基于Lineage的容錯(cuò)機(jī)制和基于DAG的調(diào)度框架。75.以下方法中可用于圖像分割的有()。A、霍夫曼編碼B、分水嶺算法C、K-meansD、區(qū)域增長(zhǎng)法【正確答案】:BCD解析:
分水嶺、K-means算法、區(qū)域生長(zhǎng)都是常見(jiàn)的分割算法,而霍夫曼編碼不屬于分割算法。76.下面哪些是Spark的組件()。A、SparkStreamingB、MLibC、GraphXD、SparkR【正確答案】:ABC解析:
Spark的組件包括SparkSQL、SparkStreaming、MLid、GraphX。77.下面關(guān)于中心極限定理的說(shuō)法,正確的是()。A、中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗(yàn)提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計(jì)學(xué)和誤差分析的基礎(chǔ)【正確答案】:ACD解析:
中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限。78.RNN網(wǎng)絡(luò)的激活函數(shù)要選用雙曲正切而不是Sigmod的原因有()。A、使用Sigmod函數(shù)容易出現(xiàn)梯度消失B、Sigmod的導(dǎo)數(shù)形式較為復(fù)雜C、雙曲正切更簡(jiǎn)單D、Sigmoid函數(shù)實(shí)現(xiàn)較為復(fù)雜【正確答案】:AB解析:
第一,采用Sigmoid等函數(shù),反向傳播求誤差梯度時(shí),求導(dǎo)計(jì)算量很大,而ReLU求導(dǎo)非常容易。第二,對(duì)于深層網(wǎng)絡(luò),Sigmoid函數(shù)反向傳播時(shí),很容易就會(huì)出現(xiàn)梯度消失的情況(在Sigmoid接近飽和區(qū)時(shí),變換太緩慢,導(dǎo)數(shù)趨于0),從而無(wú)法完成深層網(wǎng)絡(luò)的訓(xùn)練。79.在網(wǎng)絡(luò)爬蟲(chóng)的爬行策略中,應(yīng)用最為常見(jiàn)的是()。A、深度優(yōu)先遍歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略【正確答案】:AB解析:
在網(wǎng)絡(luò)爬蟲(chóng)的爬行策略中,應(yīng)用最為常見(jiàn)的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。80.Hadoop中map輸出結(jié)果說(shuō)法正確的是()。A、<key,value>鍵值對(duì)B、輸出中間臨時(shí)結(jié)果C、輸出最終計(jì)算結(jié)果D、輸出結(jié)果永久保留【正確答案】:AB解析:
map輸出結(jié)果并非是最終結(jié)果且只暫時(shí)保留。81.下面是Python注釋語(yǔ)句的是()。A、'hello'B、'''hello'''C、"hello"D、#【正確答案】:BD解析:
python語(yǔ)句單行注釋使用單個(gè)#號(hào),多行注釋使用三個(gè)單引號(hào)。82.下列既可以用于分類,又可以用于回歸的機(jī)器學(xué)習(xí)算法有()。A、k近鄰B、邏輯回歸C、決策樹(shù)D、線性回歸【正確答案】:AC解析:
邏輯回歸只用于分類,線性回歸只用于回歸。83.圖像處理中的去噪算法有()。A、中值濾波B、均值濾波C、峰值濾波D、高值濾波【正確答案】:AB解析:
圖像處理中噪聲可用中值濾波或均值濾波將其與周圍圖像像素融合,達(dá)到降噪目的。84.Spark的關(guān)鍵技術(shù)包括()。A、RDDB、SchedulerC、StorageD、Shuffle【正確答案】:ABCD解析:
Spark的關(guān)鍵技術(shù)包括RDD、Scheduler、Storage、Shuffle。85.MapReduce與HBase的關(guān)系,哪些描述是正確的()。A、兩者不可或缺,MapReduce是HBase可以正常運(yùn)行的保證B、兩者不是強(qiáng)關(guān)聯(lián)關(guān)系,沒(méi)有MapReduce,HBase可以正常運(yùn)行C、MapReduce可以直接訪問(wèn)HBaseD、它們之間沒(méi)有任何關(guān)系【正確答案】:BC解析:
HBase是Hadoop數(shù)據(jù)庫(kù)。它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù),與MapReduce并無(wú)強(qiáng)關(guān)聯(lián)關(guān)系,HadoopMapReduce為HBase提供了高性能的計(jì)算能力,可直接訪問(wèn)HBase。86.特征工程一般需要做哪些工作()。A、正則化B、標(biāo)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025湖北省安全員-A證考試題庫(kù)及答案
- 2025年山東建筑安全員C證考試題庫(kù)
- 2025年云南省安全員-B證(項(xiàng)目經(jīng)理)考試題庫(kù)
- 【課件】搜索引擎營(yíng)銷的部分問(wèn)題探討
- DB14T-紅地球葡萄主要病蟲(chóng)害綜合防控技術(shù)規(guī)程編制說(shuō)明
- 單位人力資源管理制度集合大全十篇
- 單位管理制度展示大全人員管理十篇
- 2024年土地登記代理人題庫(kù)附參考答案(鞏固)
- 2025年社會(huì)服務(wù)行業(yè)尋找彈性與韌性中的結(jié)構(gòu)機(jī)會(huì)
- 單位管理制度展示大合集人員管理十篇
- 實(shí)習(xí)終止及解除協(xié)議書(shū)
- 中國(guó)冠心病康復(fù)循證實(shí)踐指南(2024版)解讀
- 2024-2030年中國(guó)再生水行業(yè)發(fā)展前景預(yù)測(cè)規(guī)劃分析報(bào)告
- 城市公益性公墓建設(shè)項(xiàng)目施工組織設(shè)計(jì)
- 2022-2024年江蘇中考語(yǔ)文試題匯編:名著閱讀(教師版)
- 2024年秋季新人教版七年級(jí)上冊(cè)數(shù)學(xué)全冊(cè)教案
- 安全員年終總結(jié)報(bào)告
- 《客房服務(wù)與管理》課程標(biāo)準(zhǔn)課程內(nèi)容與要求
- GB/T 44823-2024綠色礦山評(píng)價(jià)通則
- 營(yíng)銷中心建設(shè)實(shí)施方案
- 工程竣工驗(yàn)收(消防查驗(yàn))報(bào)告
評(píng)論
0/150
提交評(píng)論