大數(shù)據(jù)題庫-綜合練習(xí)測(cè)試題附答案_第1頁
大數(shù)據(jù)題庫-綜合練習(xí)測(cè)試題附答案_第2頁
大數(shù)據(jù)題庫-綜合練習(xí)測(cè)試題附答案_第3頁
大數(shù)據(jù)題庫-綜合練習(xí)測(cè)試題附答案_第4頁
大數(shù)據(jù)題庫-綜合練習(xí)測(cè)試題附答案_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁大數(shù)據(jù)題庫-綜合練習(xí)測(cè)試題附答案1.下列屬于NoSQL數(shù)據(jù)庫中Key-Value缺點(diǎn)的是()。A、不記錄結(jié)構(gòu)信息B、查詢性能不高,缺乏統(tǒng)一查詢語法C、功能相對(duì)有限D(zhuǎn)、功能相對(duì)有限,不易于做分布式集群【正確答案】:A解析:

Key-Value型數(shù)據(jù)通常Key與Value之間采用某種方法(如哈希表)建立KValue映射,其缺點(diǎn)是不記錄結(jié)構(gòu)信息,無法建立索引。2.下列關(guān)于文本分類的說法不正確的是()。A、文本分類是指按照預(yù)先定義的主題類別,由計(jì)算機(jī)自動(dòng)地為文檔集合中的每個(gè)文檔確定一個(gè)類別B、文本分類系統(tǒng)大致可分為基于知識(shí)工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個(gè)步驟【正確答案】:C解析:

詞袋模型沒有考慮文本詞語的原本行文順序。3.下列描述中不屬于數(shù)據(jù)治理內(nèi)容的是()。A、理解自己的數(shù)據(jù)B、行為規(guī)范的制定C、崗位職責(zé)的定義D、獲得更多的數(shù)據(jù)【正確答案】:D解析:

獲得更多的數(shù)據(jù)不屬于數(shù)據(jù)治理。4.在Hadoop生態(tài)系統(tǒng)中,()可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并提供簡(jiǎn)單的查詢語言。A、PigB、HBascC、HiveD、MapReduce【正確答案】:C解析:

在Hadoop生態(tài)系統(tǒng)中,Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并提供簡(jiǎn)單的查詢語言。5.在Hadoop的分區(qū)階段,默認(rèn)的Partitioner是()。A、RangePartitionerB、PartitionerC、HashPartitionerD、用戶自定義的Partitioner【正確答案】:C解析:

Hadoop中默認(rèn)的Partitioner是HashPartitioner。6.對(duì)參數(shù)進(jìn)行L2正則,是機(jī)器學(xué)習(xí)常用的防止過擬合的方法。對(duì)參數(shù)做L2正則時(shí),()是對(duì)參數(shù)本身做先驗(yàn)分布假設(shè)。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勻分布【正確答案】:A解析:

L2正則假設(shè)參數(shù)的先驗(yàn)分布是高斯分布,可以保證模型的穩(wěn)定性,也就是參數(shù)的值不會(huì)太大或太小。7.依托(),結(jié)合應(yīng)用推進(jìn)數(shù)據(jù)歸集,形成統(tǒng)一的數(shù)據(jù)資源中心。A、全業(yè)務(wù)數(shù)據(jù)中心和數(shù)據(jù)平臺(tái)B、營銷基礎(chǔ)數(shù)據(jù)平臺(tái)和大數(shù)據(jù)平臺(tái)C、全業(yè)務(wù)中心和營銷基礎(chǔ)數(shù)據(jù)平臺(tái)D、全業(yè)務(wù)數(shù)據(jù)中心和大數(shù)據(jù)平臺(tái)【正確答案】:A解析:

詳見《國網(wǎng)互聯(lián)網(wǎng)部關(guān)于加強(qiáng)數(shù)據(jù)管理的通知》(互聯(lián)數(shù)據(jù)[2019]14號(hào))。8.下列關(guān)于文本分類的說法不正確的是()A、文本分類是指按照預(yù)先定義的主題類別,由計(jì)算機(jī)自動(dòng)地為文檔集合中的每個(gè)文檔確定一個(gè)類別B、文本分類大致可分為基于知識(shí)工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個(gè)步驟【正確答案】:C解析:

詞袋模型是指將所有詞語裝進(jìn)一個(gè)袋子里,不考慮其詞法和語序的問題,即每個(gè)詞語都是獨(dú)立的,所以該模型沒有考慮文本詞語的行文順序,C錯(cuò)誤,選C9.下列不屬于數(shù)據(jù)科學(xué)項(xiàng)目主要角色的是()。A、項(xiàng)目發(fā)起人B、項(xiàng)目經(jīng)理C、操作員D、驗(yàn)收人員【正確答案】:D解析:

數(shù)據(jù)科學(xué)項(xiàng)目涉及的主要角色有項(xiàng)目發(fā)起人(ProjectSponsor)、項(xiàng)目經(jīng)理(ProjecManager)、客戶(Client)、數(shù)據(jù)科學(xué)家(DataScientist)、數(shù)據(jù)工程師(DataEngineer)、操作員(Operations)等。10.SVM在()情況下表現(xiàn)糟糕。A、線性可分?jǐn)?shù)據(jù)B、清洗過的數(shù)據(jù)C、含噪聲數(shù)據(jù)與重疊數(shù)據(jù)點(diǎn)【正確答案】:C解析:

[y1(wx,+b)≥1]下11.屬于深度學(xué)習(xí)框架的是()A、TensorflowB、CaffeC、PyTorchD、以上答案都正確【正確答案】:D解析:

解析:Tensorflow、Caffe、PyTorch都是流行的深度學(xué)習(xí)框架。12.通過K-means算法進(jìn)行聚類分析后得出的聚類結(jié)果的特征是()。A、同一聚類中的對(duì)象間相似度高,不同聚類中的對(duì)象間相似度高B、同一聚類中的對(duì)象間相似度高,不同聚類中的對(duì)象間相似度低C、同一聚類中的對(duì)象間相似度低,不同聚類中的對(duì)象間相似度低D、同一聚類中的對(duì)象間相似度低,不同聚類中的對(duì)象間相似度高【正確答案】:B13.下列業(yè)務(wù)場(chǎng)景中,不能直接使用Reducer充當(dāng)Combiner的是()。A、sum求和B、max求最大值C、count求計(jì)數(shù)D、avg求平均【正確答案】:D解析:

求平均需要對(duì)全部數(shù)據(jù)進(jìn)行計(jì)算而非部分?jǐn)?shù)據(jù),在不更改業(yè)務(wù)邏輯的情況,使用Reducer充當(dāng)Combiner,最終會(huì)造成業(yè)務(wù)結(jié)果不正確。14.假設(shè)你需要調(diào)整參數(shù)來最小化代價(jià)函數(shù)(costfunction),會(huì)使用()技術(shù)。A、窮舉搜索B、隨機(jī)搜索C、Bayesian優(yōu)化D、以上全是【正確答案】:D15.Spark比MapReduce快的原因不包括()。A、Spark基于內(nèi)存迭代,而MapReduce基于磁盤迭代B、DAG計(jì)算模型比MapReduce更有效率C、Spark是粗粒度的資源調(diào)度,而MapReduce是細(xì)粒度的資源調(diào)度D、Spark支持交互式處理,MapReduce善于處理流計(jì)算【正確答案】:D解析:

A、B、C是Spark比MapReduce快的原因。MapReduce不善于處理除批處理算模式之外的其他計(jì)算模式,如流計(jì)算、交互式計(jì)算和圖計(jì)算等。16.下列關(guān)于DMM(數(shù)據(jù)管理成熟度模型)中已管理級(jí)基本特點(diǎn)的描述正確的是()。A、組織機(jī)構(gòu)的數(shù)據(jù)管理關(guān)鍵活動(dòng)能夠根據(jù)結(jié)構(gòu)自身的反饋以及外部環(huán)境的變革進(jìn)行不斷優(yōu)化B、組織機(jī)構(gòu)已用定量化的方式管理其關(guān)鍵過程的執(zhí)行過程C、組織機(jī)構(gòu)只在項(xiàng)目管理過程中執(zhí)行了D、M給出的關(guān)鍵過程,而缺乏機(jī)構(gòu)層次的統(tǒng)籌與管理E、組織機(jī)構(gòu)的數(shù)據(jù)管理工作超出了項(xiàng)目管理的范疇,由組織機(jī)構(gòu)統(tǒng)一管理其數(shù)據(jù)管理關(guān)鍵過程【正確答案】:D解析:

DMM(數(shù)據(jù)管理成熟度模型)中“已管理級(jí)”的基本特點(diǎn)是組織機(jī)構(gòu)的數(shù)據(jù)管埋工作超出了項(xiàng)目管理的范疇,由組織機(jī)構(gòu)統(tǒng)一管理其數(shù)據(jù)管理關(guān)鍵過程。17.下列關(guān)于Apriori算法原理的敘述錯(cuò)誤的是()。Apriori算法通常使用先驗(yàn)知識(shí)或者假設(shè)B、如果某個(gè)項(xiàng)集是頻繁的,那么它的所有子集也是頻繁的C、如果一個(gè)項(xiàng)集是非頻繁集,那么它的所有超集也是非頻繁的D、Apriori算法不可以用來發(fā)現(xiàn)頻繁集【正確答案】:D解析:

Apriori算法可以用來發(fā)現(xiàn)頻繁集。18.對(duì)連續(xù)圖像的離散化采樣決定了圖像的()A、空間分辨率B、時(shí)間分辨率C、地面分辨率D、灰度值【正確答案】:A解析:

連續(xù)圖像變?yōu)殡x散圖像需要每隔一定距離取一次樣,這里的一定距離就是采樣距離,采樣距離越大,而像素點(diǎn)越少,圖像越模糊,反之亦然。19.下列關(guān)于隨機(jī)森林的說法正確的是()。A、隨機(jī)森林對(duì)于高維數(shù)據(jù)集的處理能力比較好B、在對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì)時(shí),隨機(jī)森林是一個(gè)十分有效的方法C、當(dāng)存在分類不平衡的情況時(shí),隨機(jī)森林能夠提供平衡數(shù)據(jù)集誤差的有效方法D、以上答案都正確【正確答案】:D解析:

隨機(jī)森林對(duì)于高維數(shù)據(jù)集的處理能力比較好,在對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì)時(shí),隨機(jī)森林是一個(gè)十分有效的方法,當(dāng)存在分類不平衡的情況時(shí),隨機(jī)森林能夠提供平衡數(shù)據(jù)集誤差的有效方法。20.HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯(cuò)、高可靠性、高可擴(kuò)展性、高吞吐率等特征,適合的讀寫任務(wù)是()。A、一次寫入、少次讀取B、多次寫入、少次讀取C、多次寫入、多次讀取D、一次寫入、多次讀取【正確答案】:D解析:

HDFS的設(shè)計(jì)以一次寫入、多次讀取為主要應(yīng)用場(chǎng)景。21.決策樹的基本流程遵循()的策略。A、貪心B、最優(yōu)化C、分而治之D、順序【正確答案】:C22.視覺編碼的前提是分析并了解目標(biāo)用戶的(),盡量降低目標(biāo)用戶的()A、視覺感知特征;感知障礙B、視覺感知特征;感知時(shí)間C、視覺感知習(xí)慣;感知障礙D、視覺感知習(xí)慣;感知時(shí)間【正確答案】:A23.()屬于SVM應(yīng)用。A、文本和超文本分類B、圖像分類C、新文章聚類D、以上均是【正確答案】:D解析:

SVM可用于分類與回歸,文本和超文本分類、圖像分類、新文章聚類。24.下列關(guān)于關(guān)鍵詞提取的說法錯(cuò)誤的是()A、關(guān)鍵詞提取是指借用自然語言處理方法提取文章關(guān)鍵詞B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題D、這個(gè)問題設(shè)計(jì)數(shù)據(jù)挖掘,文本處理,信息檢索等領(lǐng)域【正確答案】:C解析:

只依靠文本中出現(xiàn)次數(shù)即詞頻所得到的關(guān)鍵詞有很大的不確定性,對(duì)于長度比較長的文本,這個(gè)方法會(huì)有很大的噪音,雖然它在文本中出現(xiàn)的次數(shù)最多,但它很可能在語料庫中出現(xiàn)的次數(shù)也很高,所以單憑文本中出現(xiàn)次數(shù)最多這一個(gè)特性并不能準(zhǔn)確的代表文本的主題,所以C錯(cuò)誤,選C。25.圖像與灰度直方圖的對(duì)應(yīng)關(guān)系為()A、一一對(duì)應(yīng)B、一對(duì)多C、多對(duì)一D、以上答案都正確【正確答案】:C解析:

灰度直方圖是灰度級(jí)的函數(shù),它表示圖像中具有每種灰度級(jí)的像素的個(gè)數(shù),反映圖像中每種灰度出現(xiàn)的頻率。灰度直方圖的橫坐標(biāo)是灰度級(jí),縱坐標(biāo)是該灰度級(jí)出現(xiàn)的頻率,是圖像的最基本的統(tǒng)計(jì)特征。與圖像之間的關(guān)系是多對(duì)一的映射關(guān)系。一幅圖像唯一確定出與之對(duì)應(yīng)的直方圖,但不同圖像可能有相同的直方圖,選C。26.常見的圖像預(yù)處理方法不包括()A、圖像降噪B、圖像增強(qiáng)C、圖像尺寸歸一化D、圖像標(biāo)注【正確答案】:D解析:

圖像預(yù)處理的主要目的是消除圖像中無關(guān)的信息,恢復(fù)有用的真實(shí)信息,主要包括去噪、對(duì)比度增強(qiáng)。圖像尺寸歸一化也是為了增強(qiáng)對(duì)比度。圖像標(biāo)注是圖像處理方法。27.()的主要目標(biāo)是提供可擴(kuò)展的機(jī)器學(xué)習(xí)算法及其實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】:A解析:

Mahout是ApacheSoftwareFoundation(ASF)旗下的一個(gè)開源項(xiàng)目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),如聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘等。28.()不是k最近鄰分類器的特點(diǎn)。A、它使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),不必維護(hù)源自數(shù)據(jù)的模型B、分類一個(gè)測(cè)試樣例開銷很大C、最近鄰分類器基于全局信息進(jìn)行預(yù)測(cè)D、可以生產(chǎn)任意形狀的決策邊界【正確答案】:C解析:

k最近鄰中(k-nearestneighbors,KNN)的近鄰指的是距離待預(yù)測(cè)數(shù)據(jù)的數(shù)據(jù)點(diǎn),而k近鄰指的是取距k最近的幾個(gè)數(shù)據(jù)點(diǎn),并非基于全局信息進(jìn)行預(yù)測(cè)。29.()是指針對(duì)用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實(shí)現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價(jià)值最重要也是最直接的發(fā)現(xiàn)方式。A、數(shù)據(jù)服務(wù)B、數(shù)據(jù)分析C、數(shù)據(jù)治理D、數(shù)據(jù)應(yīng)用【正確答案】:A解析:

數(shù)據(jù)服務(wù)指針對(duì)用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實(shí)現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價(jià)值最重要也是最直接的發(fā)現(xiàn)方式。30.考察一個(gè)由三個(gè)卷積層組成的CNN:keernel=3x3,stride=2,padding=SAME。最低層輸出100個(gè)特征映射(featuremap),中間層200個(gè)特征映射,最高層400個(gè)特征映射。輸入是200x300的RGB圖片,則總參數(shù)的數(shù)量是()。A、903400B、2800C、180200D、720400【正確答案】:A解析:

解析:第一層中由于第一個(gè)卷積keternel=3x3,輸入有3個(gè)通道(channel),因此每個(gè)特征映射有3x3x3=27個(gè)weight,加上1個(gè)偏置項(xiàng)bias,每個(gè)特征映射對(duì)應(yīng)28個(gè)參數(shù)。由于第一層有100個(gè)特征映射,因此有2800個(gè)參數(shù);第二層中kernel=3x3,,輸入是前一層的100個(gè)特征映射,因此每個(gè)特征映射有3x3x3x100=900weight,加上1個(gè)偏置項(xiàng)bias,每個(gè)特征映射對(duì)應(yīng)901個(gè)參數(shù)。由于共有200個(gè)特征映射,因此需要901200=180200個(gè)參01x200=18數(shù);第三層中kernel=3x3,輸入是前一層的200個(gè)特征映射,因此(第三層的)每個(gè)特征映射有3x3x200=1800個(gè)weight,加上1個(gè)偏置項(xiàng)bias,每個(gè)特征映射對(duì)應(yīng)1801個(gè)參數(shù)。由于第三層有400個(gè)特征映射。因此這一層共有1801x400=720400個(gè)參數(shù)。以上求和共有2800+180200+720400=903400個(gè)參數(shù)。31.對(duì)文本數(shù)據(jù)處理,通常采用()核函數(shù)A、多項(xiàng)式B、SigmoidC、線性D、拉普拉斯【正確答案】:C32.情感信息歸納常見的存在形式是()A、語料庫B、情感文摘C、情感評(píng)論D、情感傾向【正確答案】:B33.K-Means算法無法聚()樣本。A、圓形分布B、螺旋分布C、帶狀分布D、凸多邊形分布【正確答案】:B解析:

K-Means算法是基于距離測(cè)量的,無法聚非凸形狀的樣本。34.因子分析把每個(gè)原始變量分解為()兩部分因素。A、公共因子和特殊因子B、特殊因子和相關(guān)因子C、相關(guān)因子和獨(dú)立因子D、獨(dú)立因子和公共因子【正確答案】:A解析:

因子分析把每個(gè)原始變量分解為公共因子和特殊因子兩部分因素。35.MapReduce默認(rèn)的分區(qū)函數(shù)是()。A、hashB、diskC、reduceD、map【正確答案】:A解析:

MapReduce默認(rèn)的分區(qū)函數(shù)是hash。36.長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)被設(shè)計(jì)用來解決的問題是()。A、傳統(tǒng)RNN存在的梯度消失/爆炸問題B、傳統(tǒng)RNN計(jì)算量大的問題C、傳統(tǒng)RNN速度較慢的問題D、傳統(tǒng)RNN容易過過擬合的問題【正確答案】:A37.()是一種著名的密度聚類算法,它基于一組鄰域參數(shù)來刻畫樣本的緊密程度。A、DBSCANB、原型聚類C、密度聚類D、層次聚類【正確答案】:A38.Spark中引人RDD概念的目的是()。A、數(shù)據(jù)存儲(chǔ)B、數(shù)據(jù)查重C、提升容錯(cuò)能力D、增強(qiáng)數(shù)據(jù)一致性【正確答案】:C解析:

在Spark中引入RDD概念的目的是實(shí)現(xiàn)Spark的并行操作和靈活的容錯(cuò)能力。39.下列描述中屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域數(shù)據(jù)戰(zhàn)略的是()。A、數(shù)據(jù)戰(zhàn)略制定B、業(yè)務(wù)術(shù)語表C、數(shù)據(jù)質(zhì)量評(píng)估D、過程質(zhì)量保障【正確答案】:A解析:

數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域“數(shù)據(jù)戰(zhàn)略”。40.()用于對(duì)RDD中的數(shù)據(jù)進(jìn)行計(jì)算。A、分區(qū)B、算子C、日志D、數(shù)據(jù)塊【正確答案】:B解析:

算子是Spark中定義的函數(shù),用于對(duì)RDD中的數(shù)據(jù)進(jìn)行操作、轉(zhuǎn)換和計(jì)算。41.()不是長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)三個(gè)門中的一個(gè)門A、輸入門B、輸出門C、遺忘門D、進(jìn)化門【正確答案】:D解析:

解析:長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)增加了三個(gè)門用來控制信息傳遞和最后的結(jié)果計(jì)算,三個(gè)門分別為遺忘門、輸入門、輸出門。42.對(duì)分類任務(wù)來說,學(xué)習(xí)器從類別標(biāo)記集合中預(yù)測(cè)出一個(gè)標(biāo)記,最常見的結(jié)合策略是()。A、投票法B、平均法C、學(xué)習(xí)法D、排序法【正確答案】:A43.當(dāng)訓(xùn)練樣本近似線性可分時(shí),()。A、通過硬間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī)B、通過軟間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī)C、通過硬間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī)D、通過軟間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī)【正確答案】:B44.大數(shù)據(jù)平臺(tái)核心分布式存儲(chǔ)與計(jì)算組件采用Hadoop技術(shù)體系中的分布式存儲(chǔ)、分布式計(jì)算框架及Spark等開源產(chǎn)品和技術(shù),實(shí)現(xiàn)對(duì)數(shù)據(jù)的安全控制和管理功能,其中分布式存儲(chǔ)不包括()。A、HDFSB、PostgresqC、HiveD、HBase【正確答案】:B解析:

Postgresql并非分布式存儲(chǔ)。45.數(shù)據(jù)科學(xué)處于()三大領(lǐng)域的重疊之處。A、數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識(shí)B、數(shù)據(jù)挖掘、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識(shí)C、數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、數(shù)據(jù)挖掘、領(lǐng)域?qū)崉?wù)知識(shí)D、數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能、數(shù)據(jù)挖掘【正確答案】:A解析:

根據(jù)DrewConway的數(shù)據(jù)科學(xué)韋恩圖(DataScienceVennDiagram),數(shù)據(jù)科學(xué)處于數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能和領(lǐng)域?qū)崉?wù)知識(shí)等三大領(lǐng)域的交叉之處。46.下列關(guān)于Bagging的說法錯(cuò)誤的是()。A、各基分類器之間有較強(qiáng)依賴,不可以進(jìn)行并行訓(xùn)練B、最著名的算法之一是基于決策樹基分類器的隨機(jī)森林C、當(dāng)訓(xùn)練樣本數(shù)量較少時(shí),子集之間可能有重疊D、為了讓基分類器之間互相獨(dú)立,需要將訓(xùn)練集分為若干子集【正確答案】:A解析:

Bagging方法在訓(xùn)練過程中,各基分類器之間無強(qiáng)依賴,可以進(jìn)行并行訓(xùn)練,隨機(jī)森林就是一種典型的例子。47.對(duì)于一個(gè)分類任務(wù),如果開始時(shí)神經(jīng)網(wǎng)絡(luò)的權(quán)重不是隨機(jī)賦值的,而是都設(shè)成0,則下列敘述正確的是()A、沒有問題,神經(jīng)網(wǎng)絡(luò)會(huì)正常開始訓(xùn)練B、神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練,但是所有的神經(jīng)元最后都會(huì)變成識(shí)別同樣的東西C、神經(jīng)網(wǎng)絡(luò)不會(huì)開始訓(xùn)練,因?yàn)闆]有梯度改變D、以上選項(xiàng)都不對(duì)【正確答案】:B48.SparkJob默認(rèn)的調(diào)度模式是()。A、FIFOB、FAIRC、無D、運(yùn)行時(shí)指定【正確答案】:A解析:

默認(rèn)情況下Spark的調(diào)度模式是FIFO(先進(jìn)先出)。49.下列不屬于數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)區(qū)別的是(A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值B、數(shù)據(jù)科學(xué)關(guān)注的不僅僅是“單一學(xué)科”問題,超出了數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等單一學(xué)科的范疇C、數(shù)據(jù)科學(xué)不僅僅是理論研究,也不是純領(lǐng)域?qū)崉?wù)知識(shí),它關(guān)注和強(qiáng)調(diào)的是二者的結(jié)合D、數(shù)據(jù)科學(xué)和統(tǒng)計(jì)學(xué)中的計(jì)算一樣,僅僅是加減乘除【正確答案】:D解析:

數(shù)據(jù)科學(xué)中的計(jì)算并不僅僅是加/減/乘/除等數(shù)學(xué)計(jì)算,而是包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型的計(jì)算。50.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為()。A、信息(活動(dòng))價(jià)值鏈和信息技術(shù)價(jià)值鏈B、信息技術(shù)價(jià)值鏈和信息(活動(dòng))價(jià)值鏈C、信息交互價(jià)值鏈和信息技術(shù)價(jià)值鏈D、信息(活動(dòng))價(jià)值鏈和信息交互價(jià)值鏈【正確答案】:A解析:

大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價(jià)值鏈的信息價(jià)值鏈(水平軸)和信息技術(shù)價(jià)值鏈(垂直軸)兩個(gè)維度組織展開。51.輸入圖像為37x37,經(jīng)過第一層卷積(thenumberoffilteters=25,kemelsizesize=5x5,,paddingvalid,strid)與池化層maxpooling(kemelsimelsize=3x3,,padding=valid),輸出特征圖rde=l大小為()A、10x10B、11x11C、12x12D、13x13【正確答案】:B解析:

解析:(37-5+1)/3=11。52.()算法是決策樹學(xué)習(xí)的基本算法,其他多數(shù)決策樹學(xué)習(xí)方法都是它的變體。A、Find-SB、KNNC、概念D、ID3【正確答案】:D53.AUC是衡量()模型優(yōu)劣的一種評(píng)價(jià)指標(biāo)。A、回歸B、分類C、二分類D、聚類【正確答案】:C54.假定使用SVM學(xué)習(xí)數(shù)據(jù)X,數(shù)據(jù)X里面有些點(diǎn)存在錯(cuò)誤?,F(xiàn)在如果使用一個(gè)二次核函數(shù),多項(xiàng)式階數(shù)為2,使用松弛變量C作為超參之一。當(dāng)使用較大的C(C趨于無窮),則()。A、仍然能正確分類數(shù)據(jù)B、不能正確分類C、不確定D、以上均不正確【正確答案】:A解析:

采用更大的C,誤分類點(diǎn)的懲罰就更大,因此決策邊界將盡可能完美地分類數(shù)據(jù)。55.基于Bagging的集成學(xué)習(xí)代表算法有()。AdaboostB、GBDTC、XGBOOSTD、隨機(jī)森林【正確答案】:D解析:

基于Boosting的集成學(xué)習(xí)算法的集成學(xué)習(xí)代表算法包含Adaboost、GBDT、XGBOOST,隨機(jī)森林是基于Bagging。56.假設(shè)在龐大的數(shù)據(jù)集上使用Logistic回歸模型,可能遇到一個(gè)問題,Logistic回歸需要很長時(shí)間才能訓(xùn)練,如果對(duì)相同的數(shù)據(jù)進(jìn)行邏輯回歸,則花費(fèi)更少的時(shí)間,并給出比較相似的精度的方法是()。A、降低學(xué)習(xí)率,減少迭代次數(shù)B、降低學(xué)習(xí)率,增加迭代次數(shù)C、提高學(xué)習(xí)率,增加迭代次數(shù)D、增加學(xué)習(xí)率,減少迭代次數(shù)【正確答案】:D解析:

如果在訓(xùn)練時(shí)減少迭代次數(shù),就能花費(fèi)更少的時(shí)間獲得相同的精度,但需要增加學(xué)習(xí)率。57.下列關(guān)于OLAP和OLTP的區(qū)別描述不正確的是()。A、OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應(yīng)用程序不同B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù)C、OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高D、OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對(duì)的用戶是相同的【正確答案】:C解析:

OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,記錄即時(shí)的增、刪、改、查,比如在銀行存取一筆款,就是一個(gè)事務(wù)交易。OLAP即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉庫的核心,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動(dòng)態(tài)報(bào)表系統(tǒng)。58.下列關(guān)于計(jì)算機(jī)存儲(chǔ)容量單位的說法錯(cuò)誤的是()。A、1kBB、基本單位是字節(jié)(Byte)C、一個(gè)漢字需要一個(gè)字節(jié)的存儲(chǔ)空間D、一個(gè)字節(jié)能夠容納一個(gè)英文字符【正確答案】:C解析:

通常,一個(gè)漢字需要兩個(gè)字節(jié)的存儲(chǔ)空間。59.決策樹模型的規(guī)模應(yīng)當(dāng)是()。A、越復(fù)雜越好B、越簡(jiǎn)單越好C、適當(dāng)限制其復(fù)雜程度D、盡可能利用所有特征【正確答案】:C解析:

決策樹模型的規(guī)模復(fù)雜可能產(chǎn)生過擬合,因此并非越復(fù)雜做好,應(yīng)適當(dāng)限制其復(fù)雜程度。60.下面算法中屬于圖像銳化處理的是()A、低通濾波B、加權(quán)平均法C、高通濾波D、中值濾波【正確答案】:C解析:

高通濾波(high-passfilter)是一種過濾方式,規(guī)則為高頻信號(hào)能正常通過,而低于設(shè)定臨界值的低頻信號(hào)則被阻隔、減弱。通濾波屬于頻率域?yàn)V波,它保留高頻,抑制低頻,是圖像銳化的一種方式。61.下列進(jìn)程中不是HDFS的守護(hù)進(jìn)程的是()。A、SecondaryNameNodeB、DataNodeC、MRAppMaster/YamChildD、NameNode【正確答案】:C解析:

NameNode是HDFS集群的主節(jié)點(diǎn),DataNode是HDFS集群的從節(jié)點(diǎn),SecondaryNameNode是HDFS集群?jiǎn)?dòng)的用來給NameNode節(jié)點(diǎn)分擔(dān)壓力的角色,這個(gè)三個(gè)服務(wù)進(jìn)程會(huì)一直啟動(dòng)著。MRAppMaster/YarnChild進(jìn)程是只有在YARN集群運(yùn)行了MapReduce程序之后才會(huì)啟動(dòng)的程序。62.如果自變量X和因變量Y之間存在高度的非線性和復(fù)雜關(guān)系,那么樹模型很可能優(yōu)于經(jīng)典回歸方法。則以上說法()。A、正確B、錯(cuò)誤C、無法確定D、模型效果差別不大【正確答案】:A解析:

當(dāng)數(shù)據(jù)非線性時(shí),經(jīng)典回歸模型泛化能力不強(qiáng),而基于樹的模型通常表現(xiàn)更好。63.常用的數(shù)據(jù)歸約方法可以分為()。A、維歸約、數(shù)據(jù)壓縮B、維歸約、參數(shù)歸約C、維歸約、值歸約D、數(shù)據(jù)壓縮、值歸約【正確答案】:C解析:

常用的數(shù)據(jù)歸約方法有維歸約和值歸約兩種。64.假如使用一個(gè)較復(fù)雜的回歸模型來擬合樣本數(shù)據(jù),使用Ridge回歸,調(diào)試正則化參數(shù)入,來降低模型復(fù)雜度。在入較大時(shí),下列關(guān)于偏差(bias)和方差(variance)關(guān)系的說法正確的是()。A、偏差減小,方差減小B、偏差減小,方差增大C、偏差增大,方差減小D、偏差增大,方差增大【正確答案】:C解析:

入較小,偏差減小,方差增大,容易發(fā)生過擬合;入較大,偏差增大,方差減小,容易發(fā)生欠擬合。65.在方差分析中,()反映的是樣本數(shù)據(jù)與其組平均值的差異。A、總離差B、組間誤差C、抽樣誤差D、組內(nèi)誤差【正確答案】:D解析:

組內(nèi)誤差是來自樣本內(nèi)部數(shù)據(jù)之間的隨機(jī)誤差,它反映了樣本數(shù)據(jù)自身的差異程度;組間誤差由因子的不同處理造成的處理誤差和抽樣的隨機(jī)誤差組成,反映了不同樣本之間數(shù)據(jù)的差異程度。P(AB)=P(A)·P(B)66.()情況下,LDA會(huì)失敗。A、如果有辨識(shí)性的信息不是平均值,而是數(shù)據(jù)的方差B、如果有辨識(shí)性的信息是平均值,而不是數(shù)據(jù)方差C、如果有辨識(shí)性的信息是數(shù)據(jù)的均值和方差D、以上答案都不正確【正確答案】:A解析:

LDA的思想是投影后類內(nèi)方差最小、類間方差最大。67.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的(不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。A、暫時(shí)隔離B、暫時(shí)刪除C、永久刪除D、不做處理【正確答案】:C解析:

數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的永刪除、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。68.輸入圖像為32x32,經(jīng)過步長為1、不進(jìn)行padding、卷積核為5x5的卷積層后,得到的特征圖尺寸是()A、28x28B、27x27C、29x29D、32x32【正確答案】:A解析:

解析:((32+0-5)/1+1=28。69.HDFS是Hadoop平臺(tái)上的分布式文件系統(tǒng),它是由()組成的。A、一個(gè)NameNode、一個(gè)SecondaryNamcNode和多個(gè)DataNodeB、一個(gè)DataNode、--個(gè)SecondaryNameNode和多個(gè)NameNodeC、多個(gè)NameNode、一個(gè)SecondaryNameNode和多個(gè)DataNodeD、一個(gè)NameNode、一個(gè)SecondaryNameNode和一個(gè)DataNode【正確答案】:A解析:

HDFS由一個(gè)NameNodc、一個(gè)SecondaryNamcNode和多個(gè)DataNode組成。70.下列關(guān)于線性模型的描述錯(cuò)誤的是()。A、支持向量機(jī)的判別函數(shù)一定屬于線性函數(shù)B、在樣本為某些分布情況時(shí),線性判別函數(shù)可以成為最小錯(cuò)誤率或最小風(fēng)險(xiǎn)意義下的最優(yōu)分類器C、在一般情況下,線性分類器只能是次優(yōu)分類器D、線性分類器簡(jiǎn)單而且在很多情況下效果接近最優(yōu),所以應(yīng)用比較廣泛【正確答案】:A解析:

支持向量機(jī)的判別函數(shù)不一定是線性函數(shù)。71.機(jī)器學(xué)習(xí)中L1正則化和L2正則化的區(qū)別是()。A、使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值B、使用Ll可以得到平滑的權(quán)值,使用L2可以得到平滑的權(quán)值C、使用Ll可以得到平滑的權(quán)值,使用L2可以得到稀疏的權(quán)值D、使用L1可以得到稀疏的權(quán)值,使用L2可以得到稀疏的權(quán)值【正確答案】:A解析:

使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值。72.下列關(guān)于Spark的說法錯(cuò)誤的是()。A、采用內(nèi)存計(jì)算模式B、可利用多種語言編程C、主要用于批處理D、可進(jìn)行map()操作【正確答案】:C解析:

HadoopMapReduce主要用于批處理,與Hadoop不同的是,Spark更為通用--些,可以很好地支持流計(jì)算、交互式處理、圖計(jì)算等多種計(jì)算模式。73.基于詞的N元文法模型,其最后的粗分結(jié)果集合大小()NA、大于B、大于等于C、小于D、小于等于【正確答案】:B解析:

基于N-最短路徑分詞算法,其基本思想是根據(jù)詞典,找出字串中所有可能的詞,構(gòu)造詞語切分有向無環(huán)圖。每個(gè)詞對(duì)應(yīng)圖中的一條有向邊,并賦給相應(yīng)的邊長(權(quán)值)。然后針對(duì)該切分圖,在起點(diǎn)到終點(diǎn)的所有路徑中,求出長度并按嚴(yán)格升序排列(任何兩個(gè)不同位置上的值一定不等,下同)依次為第1,第2,…,第i,…,第N的路徑集合作為相應(yīng)的粗分結(jié)果集。如果兩條或兩條以上路徑長度相等,那么他們的長度并列第i,都要列入粗分結(jié)果集,而且不影響其他路徑的排列序號(hào),最后的粗分結(jié)果集合大小大于等于N。74.下列算法中:①KNN;②線性回歸;③對(duì)數(shù)幾率回歸??梢杂蒙窠?jīng)網(wǎng)絡(luò)去構(gòu)造的()。A、①②B、②③C、①②③D、以上答案都不正確【正確答案】:B解析:

解析:KNN算法不需要訓(xùn)練參數(shù),而所有神經(jīng)網(wǎng)絡(luò)都需要訓(xùn)練參數(shù),因此神經(jīng)網(wǎng)絡(luò)幫不上忙。最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)-感知器,其實(shí)就是線性回歸的訓(xùn)練。我們可以用一層的神經(jīng)網(wǎng)絡(luò)構(gòu)造對(duì)數(shù)幾率回歸。75.下列不能作為數(shù)據(jù)科學(xué)數(shù)據(jù)源的是()。A、醫(yī)院里的病歷、檢查、診斷等與健康相關(guān)的數(shù)據(jù)B、物聯(lián)網(wǎng)中涉及設(shè)備運(yùn)行情況的日志數(shù)據(jù)C、金融領(lǐng)域客戶的借款記錄以及信用情況D、個(gè)人電腦中用于備忘的日記【正確答案】:D解析:

數(shù)據(jù)科學(xué)數(shù)據(jù)源的前提條件是數(shù)據(jù)需要具備規(guī)律性、周期性等特征,個(gè)人電腦中用于備忘的日記一般不具備規(guī)律性。76.以下算法中不屬于基于深度學(xué)習(xí)的圖像分割算法是()A、FCNB、deeplabC、Mask-RCNND、kNN【正確答案】:D解析:

kNN為傳統(tǒng)機(jī)器學(xué)習(xí)方法并非深度學(xué)習(xí)方法。77.在神經(jīng)網(wǎng)絡(luò)中引入了非線性的是()A、隨機(jī)梯度下降B、修正線性單元(ReLU)C、卷積函數(shù)D、以上答案都不正確【正確答案】:B解析:

解析:ReLU是目前最常用的激勵(lì)函數(shù),增加了神經(jīng)網(wǎng)絡(luò)模型的非線性。78.某單位運(yùn)用隨機(jī)森林算法思想建立搶修熱點(diǎn)模型,該模型主要預(yù)測(cè)下期臺(tái)區(qū)工單數(shù)量,構(gòu)建搶修熱點(diǎn)。模型構(gòu)建步驟如下:①將歷史數(shù)據(jù)進(jìn)行隨機(jī)自助法重抽樣,生成N個(gè)訓(xùn)練樣本集;②將N個(gè)訓(xùn)練樣本集分別做決策樹,生成N棵決策樹;③將N棵決策樹隨機(jī)構(gòu)成隨機(jī)森林;④未來根據(jù)預(yù)測(cè)樣本氣候環(huán)境、設(shè)備屬性、設(shè)備工況進(jìn)行隨機(jī)森林決策投票,得出針對(duì)該預(yù)測(cè)樣本最優(yōu)的決策樹進(jìn)行運(yùn)算,并計(jì)算出最終結(jié)果。則上列模型算法構(gòu)建步驟合理的順序是()。A、①②③④B、①③②④C、④①②③D、④②①③【正確答案】:A79.下列關(guān)于Logistic回歸和SVM的描述不正確的是()。A、Logistic回歸本質(zhì)上是一種根據(jù)樣本對(duì)權(quán)值進(jìn)行極大似然估計(jì)的方法,用先驗(yàn)概率的乘積代替后驗(yàn)概率B、Logistic回歸的輸出就是樣本屬于正類別的概率C、SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,屬于結(jié)構(gòu)風(fēng)險(xiǎn)最小化D、SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合【正確答案】:A解析:

Logistic回歸目標(biāo)函數(shù)是最小化后驗(yàn)概率,Logistic回歸可以用于預(yù)測(cè)事件發(fā)生概率的大小,SVM目標(biāo)是結(jié)構(gòu)風(fēng)險(xiǎn)最小化,SVM可以有效避免模型過擬合。80.下列可分解為偏差、方差與噪聲之和的是()。A、訓(xùn)練誤差(trainingerror)B、經(jīng)驗(yàn)誤差(empiricalerror)C、均方誤差(meansquarederror)D、泛化誤差(generalizationerror)【正確答案】:D解析:

泛化誤差可分解為偏差、方差與噪聲之和。81.()會(huì)發(fā)生權(quán)重共享。A、卷積神經(jīng)網(wǎng)絡(luò)B、循環(huán)神經(jīng)網(wǎng)絡(luò)C、全連接神經(jīng)網(wǎng)絡(luò)D、A、B【正確答案】:D82.下列關(guān)于缺失值的說法錯(cuò)誤的是()。A、可以利用統(tǒng)計(jì)量對(duì)缺失值進(jìn)行填補(bǔ)B、可以利用K近鄰值對(duì)缺失值進(jìn)行填補(bǔ)C、只要有缺失值就必須把對(duì)應(yīng)記錄刪除D、對(duì)于缺失值較多的屬性可以考慮刪除【正確答案】:C解析:

缺失值可以通過刪除、填補(bǔ)等方法進(jìn)行處理。83.劃分聚類算法是一種簡(jiǎn)單的較為基本的重要聚類方法。它的主要思想是通過將數(shù)據(jù)點(diǎn)集分為()個(gè)劃分,并使用重復(fù)的控制策略使某個(gè)準(zhǔn)則最優(yōu)化,以達(dá)到最終的結(jié)果。A、DB、KC、ED、F【正確答案】:B解析:

劃分聚類算法K-Means將數(shù)據(jù)點(diǎn)集分為K個(gè)子集。84.某籃運(yùn)動(dòng)員在三分線投球的命中率是1/2,他投球10次,恰好投進(jìn)3個(gè)球的概率為()。A、15/128B、1212122022年3月16日C、1212122022年5月8日D、1212122022年7月16日【正確答案】:A解析:

P(X=K)=(/)(1-P)P=1/2投籃只有兩種結(jié)果:進(jìn)或者不進(jìn),符合二項(xiàng)分布。二項(xiàng)分布概率的概率可以用公式求得,其中n=10代表試驗(yàn)次數(shù),k=3代表事件連續(xù)發(fā)生的次數(shù),代表事件發(fā)生的概率。85.下列關(guān)于深度學(xué)習(xí)框架的描述正確的是()A、Tensorfow是一款使用C++語言開發(fā)的開源數(shù)學(xué)計(jì)算軟件B、Caffe對(duì)于卷積網(wǎng)絡(luò)的支持特別好,同時(shí)提供C++接口、matlab接口和python接口C、PyTorch的前身便是Torch,其底層和Torch框架一樣,但是使用Python重新寫了很多內(nèi)容D、以上答案都正確【正確答案】:D86.數(shù)據(jù)管理成熟度模型中成熟度等級(jí)最高的是()。A、已優(yōu)化級(jí)B、已測(cè)量級(jí)C、已定義級(jí)D、已管理級(jí)【正確答案】:A解析:

已優(yōu)化是數(shù)據(jù)管理成熟度模型中成熟度的最高等級(jí)。87.以下關(guān)于圖像識(shí)別任務(wù)的敘述,錯(cuò)誤的是()A、目標(biāo)在于檢測(cè)出圖像中的對(duì)象是什么B、在識(shí)別前往往需要對(duì)圖像進(jìn)行預(yù)處理CNN是一種常用的圖像識(shí)別網(wǎng)絡(luò)D、圖像的采集和傳輸方式對(duì)于圖像識(shí)別結(jié)果沒有影響【正確答案】:D88.在MapReduce中,為了發(fā)現(xiàn)Worker故障,Master周期性進(jìn)行的操作是()。A、JoinB、PingCheckD、Connect【正確答案】:B解析:

為了發(fā)現(xiàn)Worker故障,Master周期性進(jìn)行Ping操作。89.數(shù)據(jù)資產(chǎn)應(yīng)用以安全可控為前提,按照()的原則,落實(shí)安全與保密責(zé)任。A、誰經(jīng)手,誰使用,誰負(fù)責(zé)B、誰主管,誰負(fù)責(zé)C、誰使用,誰主管,誰負(fù)責(zé)D、誰錄入,誰使用,誰負(fù)責(zé)【正確答案】:A解析:

數(shù)據(jù)資產(chǎn)應(yīng)用以安全可控為前提,按照誰經(jīng)手,誰使用,誰負(fù)責(zé)的原則,落實(shí)安全與保密責(zé)任。90.一幅512*512的圖像,若灰度級(jí)數(shù)為16,則該圖像大小為()A、32KBB、128KBC、1MBD、2MB【正確答案】:B解析:

512*512表示像素個(gè)數(shù),16級(jí)灰度用二進(jìn)制表示需要4位,故存儲(chǔ)圖像所需的二進(jìn)制位數(shù)為:512*512*4,即1024Kbit,所需字節(jié)數(shù)除以8為128KB,注意單位的不同。91.下列關(guān)于MapReduce說法不正確的是()。A、MapReduce是一種計(jì)算框架B、MapRcduce來源于Google的學(xué)術(shù)論文C、MapReduce程序只能用java語言編寫D、MapReduce隱藏了并行計(jì)算的細(xì)節(jié),方便使用【正確答案】:C解析:

MapReduce程序可用多種語言編寫,如Ruby、Python、Java等。92.下列關(guān)于ZooKecper特點(diǎn)的描述錯(cuò)誤的是()。A、復(fù)雜性B、自我復(fù)制C、順序訪問D、高速讀取【正確答案】:A解析:

ZooKeeper的設(shè)計(jì)回標(biāo)和特點(diǎn)包括簡(jiǎn)單性、自我復(fù)制、順序訪問和高速讀取。93.高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的轉(zhuǎn)移函數(shù)加上一常數(shù)量以便引入一些低頻分量。這樣濾波器叫()。A、巴特沃斯高通濾波器B、高頻提升濾波器C、高頻加強(qiáng)濾波器D、理想高通濾波器【正確答案】:B解析:

高頻增強(qiáng)濾波器由于相對(duì)削弱了低頻成分,因而濾波所得的圖像往往偏暗。94.假設(shè)有n組數(shù)據(jù)集,每組數(shù)據(jù)集中x的平均值都是9,x的方差都是11,y的平均值都是7.50,x與y的相關(guān)系數(shù)都是0.816,擬合的線性回歸方程都是

Y=3.00+0.500x。那么這n組數(shù)據(jù)集()。A、一樣B、不一樣C、無法確定是否一樣D、以上都不對(duì)【正確答案】:C解析:

只比較平均值、方差、相關(guān)系數(shù)和回歸方程,無法確定數(shù)據(jù)集是否相同,還需比較Anscombe'squartet。95.若A與B是任意的兩個(gè)事件,且,則可稱事件A與B()。A、等價(jià)B、互不相容C、相互獨(dú)立D、相互對(duì)立【正確答案】:C解析:

P(A+B)=P(A)+P(B)P(A+B)=P(A)+P(B)-P(AB若A與B為互斥事件,則有概率加法公式);若A與B不為互斥事件,則有公式);若A與B為相互獨(dú)立事件,則有概率乘法公式FP(AB)=P(A)P(96.下列關(guān)于大數(shù)據(jù)的分析理念的說法錯(cuò)誤的是()。A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B、在分析方法上更注重相關(guān)分析而不是因果分析C、在分析效果上更追求效率而不是絕對(duì)精確D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)【正確答案】:D解析:

在大數(shù)據(jù)的分析理念中,數(shù)據(jù)規(guī)模上強(qiáng)調(diào)絕對(duì)數(shù)據(jù)而不是相對(duì)數(shù)據(jù)。97.一篇文章中某些名詞的TF-IDF值比較大,則說明()A、這些名詞對(duì)這篇文章的區(qū)分度比較高B、這些名詞對(duì)這篇文章的區(qū)分度比較低C、不能說明什么D、以上答案都不正確【正確答案】:A解析:

TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。名詞的TF-IDF值越大說明這些名詞對(duì)這篇文章的區(qū)分度越高。98.()不屬于聚類性能度量外部指標(biāo)。A、Jaccard系數(shù)B、FM系數(shù)C、Rand指數(shù)DB指數(shù)【正確答案】:D解析:

聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。99.將一副圖像進(jìn)行分割后,分割出的區(qū)域彼此之間()重疊A、可以B、不可以C、根據(jù)任務(wù)需要確定是否可以D、根據(jù)分割方法確定是否可以【正確答案】:B解析:

解析:圖像分割技術(shù)指將圖像分成互不重疊,具有各自特征的區(qū)域的技術(shù)。100.選擇神經(jīng)網(wǎng)絡(luò)的深度時(shí),對(duì)于下面參數(shù):①神經(jīng)網(wǎng)絡(luò)的類型(如MLP,CNN);②輸入數(shù)據(jù);③計(jì)算能力(硬件和軟件能力決定);④學(xué)習(xí)速率;⑤映射的輸出函數(shù)。需要考慮的是()。A、①②③④B、②③④⑤C、都需要考慮D、①③④⑤【正確答案】:C解析:

解析:上述所有因素對(duì)于選擇神經(jīng)網(wǎng)絡(luò)模型的深度都是重要的。特征抽取所需分層越多,輸入數(shù)據(jù)維度越高,映射的輸出函數(shù)非線性越復(fù)雜,所需深度就越深。另外,為了達(dá)到最佳效果,增加深度所帶來的參數(shù)量,也需要考慮硬件計(jì)算能力和學(xué)習(xí)速率以設(shè)計(jì)合理的訓(xùn)練時(shí)間。1.下列跟人工智能場(chǎng)景相關(guān)的是()A、圖像識(shí)別B、人臉識(shí)別C、語音識(shí)別D、語義分析【正確答案】:ABCD解析:

人工智能的概念很廣義,圖像識(shí)別、人臉識(shí)別、語音識(shí)別、語義分析都屬于人工智能的應(yīng)用場(chǎng)景。2.在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化-從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過渡至云計(jì)算,有一定的代表性的是Google云計(jì)算三大技術(shù),這三大技術(shù)包括()。A、HadoopYARN資源管理器B、GFS分布式存儲(chǔ)系統(tǒng)C、MapReduce分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫【正確答案】:BCD解析:

Google云計(jì)算的三大核心技術(shù)為GFS、MapReduce和BigTable。HadoopYARN資源管理器屬于Hadoopo3.下列屬于文本處理流程的是()A、NormalizationB、TokenizationStopwordsC、Part-of-speechTaggingD、NamedEntityRecognition【正確答案】:ABCD解析:

文本處理的流程為正則化(Normalization)、引入停止詞(TokenizationStopwords)、詞性標(biāo)注(Part-of-speechTagging)、命名實(shí)體識(shí)別(NamedEntityRecognition)。4.下列關(guān)于連續(xù)型隨機(jī)變量以及連續(xù)型概率密度函數(shù)的說法正確的有()。A、一個(gè)客服一天可能接聽到多少個(gè)電話是一個(gè)連續(xù)型隨機(jī)變量B、正態(tài)分布是一種連續(xù)型隨機(jī)變量的概率分布C、可以使用概率密度函數(shù)來描述連續(xù)型隨機(jī)變量的概率分布D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1【正確答案】:BCD解析:

一個(gè)客服一天可能接聽到多少個(gè)電話是一個(gè)離散型隨機(jī)變量。5.在數(shù)據(jù)缺失嚴(yán)重時(shí),會(huì)對(duì)分析結(jié)果造成較大的影響,因此對(duì)于剔除的異常值和缺失值,要采用合理的方法進(jìn)行填補(bǔ)。常用的填補(bǔ)方法有()。A、平均值填充B、K最近鄰距離法C、回歸法D、極大似然估計(jì)E、多重插補(bǔ)法【正確答案】:ABCDE解析:

在數(shù)據(jù)缺失嚴(yán)重時(shí),會(huì)對(duì)分析結(jié)果造成較大的影響,因此對(duì)于剔除的異常值和缺失值,要采用合理的方法進(jìn)行填補(bǔ)。常用的填補(bǔ)方法有平均值填充、K最近鄰距離法、回歸法、極大似然估計(jì)、多重插補(bǔ)法。6.下列關(guān)于中心極限定理的說法正確的有()。A、中心極限定理說明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗(yàn)提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計(jì)學(xué)和誤差分析的基礎(chǔ)【正確答案】:ACD解析:

中心極限定理說明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限。7.可視分析學(xué)是一門以可視交互為基礎(chǔ),綜合運(yùn)用()等技術(shù)等多個(gè)學(xué)科領(lǐng)域的知識(shí),以實(shí)現(xiàn)人機(jī)協(xié)同完成可視化任務(wù)為主要目的的分析推理學(xué)科。A、物理學(xué)B、圖形學(xué)C、數(shù)據(jù)挖掘D、人機(jī)交互【正確答案】:BCD解析:

可視分析學(xué)(VisualAnalytics);科學(xué)可視化和信息可視化理論的進(jìn)一步演變以及與其他學(xué)科相互交融發(fā)展之后的結(jié)果。在數(shù)據(jù)科學(xué)中,通常采用數(shù)據(jù)可視化的廣義定義方法,并以可視分析學(xué)為主要理論基礎(chǔ)。8.下列屬于HBasc性能優(yōu)化的有()。A、讀優(yōu)化B、寫優(yōu)化C、配置優(yōu)化D、JVM優(yōu)化【正確答案】:ABCD解析:

HHBase性能優(yōu)化包含讀優(yōu)化、寫優(yōu)化、配置優(yōu)化、JVM優(yōu)化。9.下列說法正確的有()。A、條件獨(dú)立性假設(shè)不成立時(shí),樸素貝葉斯分類器仍有可能產(chǎn)生最優(yōu)貝葉斯分類器B、在估計(jì)概率值時(shí)使用的拉普拉斯修正避免了因訓(xùn)練集樣本不充分而導(dǎo)致概率估值為零的問題C、由于馬爾可夫鏈通常很快就能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度很快D、二分類任務(wù)中兩類數(shù)據(jù)滿足高斯分布且方差相同時(shí),線性判別分析產(chǎn)生貝葉斯最優(yōu)分類器【正確答案】:ABD解析:

由于馬爾可夫鏈通常需要很長時(shí)間才能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度較慢。10.下列屬于TF-IDF的應(yīng)用有哪些()A、搜索引擎B、關(guān)鍵詞提取C、文本相似性D、數(shù)據(jù)降維【正確答案】:ABC解析:

TF-IDF只用來提取關(guān)鍵詞,不做降維。11.決策樹在()情況下會(huì)導(dǎo)致遞歸返回。A、當(dāng)前節(jié)點(diǎn)包含的樣本全屬于同一類B、當(dāng)前屬性集為空C、當(dāng)前節(jié)點(diǎn)包含的樣本集合為空D、所有樣本在所有屬性上取值相同【正確答案】:ABCD解析:

決策樹的生成是一個(gè)遞歸過程。在決策樹基本算法中,有三種情形會(huì)導(dǎo)致遞歸返回:①當(dāng)前節(jié)點(diǎn)包含的樣本全屬于同一類別,無須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當(dāng)前節(jié)點(diǎn)包含的樣本集合為空,不能劃分。12.下列關(guān)于Ridge回歸的說法正確的有()。A、若λ=0,則等價(jià)于一般的線性回歸B、若λ=0,則不等價(jià)于一般的線性回歸C、o+=YD、若,則得到的權(quán)重系數(shù)很小,接近于零E、8+ルF、若,則得到的權(quán)重系數(shù)很大,接近與無窮大【正確答案】:AC解析:

λ=+0Ridge回歸中,若λ=0,則等價(jià)于一般的線性回歸;若,則得到的權(quán)重系數(shù)很小,接近于零。13.下列關(guān)于單樣本:檢驗(yàn)的說法錯(cuò)誤的有()。A、當(dāng)單樣本t檢驗(yàn)的自由度越來越大時(shí),正態(tài)分布越來越趨向于t分布B、單樣本t檢驗(yàn)適用于樣本量比較多(n>30)的情況C、t分布的不確定性比正態(tài)分布小,其原因是樣本數(shù)量比較小D、單樣本t檢驗(yàn)通常也被叫作學(xué)生t檢驗(yàn)【正確答案】:ABC解析:

t檢驗(yàn),也稱studentt檢驗(yàn)(Student'sttest),主要用于樣本含量較?。ɡ鏽<30),總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布。t檢驗(yàn)是用1分布理論來推論差異發(fā)生的概率,從而比較兩個(gè)平均數(shù)的差異是否顯著。14.下列關(guān)于HDFS文件寫人的描述正確的有()。A、不支持多用戶對(duì)同一文件的寫操作B、用戶不可以在文件任意位置進(jìn)行修改C、默認(rèn)將文件復(fù)制成三份存放D、復(fù)制的文件塊默認(rèn)不存在同一機(jī)架上【正確答案】:ABCD解析:

根據(jù)HDFS定義。15.數(shù)據(jù)從產(chǎn)生到終結(jié)共包含的環(huán)節(jié)有()。A、數(shù)據(jù)產(chǎn)生B、數(shù)據(jù)傳輸C、數(shù)據(jù)使用D、數(shù)據(jù)共享E、數(shù)據(jù)銷毀【正確答案】:ABCDE解析:

數(shù)據(jù)的全壽命周期有獲?。óa(chǎn)生)、存儲(chǔ)、共享、維護(hù)、應(yīng)用(使用)、消亡(銷毀),在以上這些過程都會(huì)有數(shù)據(jù)傳輸過程。16.()是通過對(duì)無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來進(jìn)行分類的。A、密度估計(jì)B、異常檢測(cè)C、線性回歸D、聚類分析【正確答案】:ABD17.下列關(guān)于CAP理論說法正確的有()。A、一個(gè)分布式系統(tǒng)不能同時(shí)滿足一致性、可用性和分區(qū)容錯(cuò)性等需求B、一致性主要指強(qiáng)一致性C、一致性、可用性和分區(qū)容錯(cuò)性中的任何兩個(gè)特征的保證(爭(zhēng)?。┛赡軐?dǎo)致另一特征的損失(放棄)D、可用性指每個(gè)操作總是在給定時(shí)間之內(nèi)得到返回所需要的結(jié)果【正確答案】:ABCD解析:

CAP理論認(rèn)為,一個(gè)分布式系統(tǒng)不能同時(shí)滿足一致性(Consistency)、可用(Availability)和分區(qū)容錯(cuò)性(PartitionTolerance)等需求,而最多只能同時(shí)滿足其中的兩個(gè)特征。CAP理論告訴我們,數(shù)據(jù)管理不一定是理想的-一致性、可用性和分區(qū)容錯(cuò)性中的任何兩個(gè)特征的保證(爭(zhēng)?。┛赡軐?dǎo)致另一個(gè)特征的損失(放棄)。18.大數(shù)據(jù)平臺(tái)的計(jì)算組件主要有()。A、StormB、SparkC、MapReduceD、Sqoop【正確答案】:ABC解析:

Storm是Twitter開源的分布式實(shí)時(shí)大數(shù)據(jù)處理框架;Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎;MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算;Sqoop是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的傳遞;因此A、B、C正確。19.下列關(guān)于范數(shù)規(guī)則化的描述正確的有()。A、LO是指向量中0的元素的個(gè)數(shù)B、L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和C、L2范數(shù)向量元素絕對(duì)值的平方和再開平方D、LO是指向量中非0的元素的個(gè)數(shù)【正確答案】:BCD解析:

LO是指向量中非0的元素的個(gè)數(shù),Ll范數(shù)是指向量中各個(gè)元素絕對(duì)值之和,L2范數(shù)向量元素絕對(duì)值的平方和再開平方。20.下列關(guān)于Zookecper的描述正確的有()。A、Zookccper維護(hù)著一個(gè)樹形的層次結(jié)構(gòu)B、Zookeeper的數(shù)據(jù)訪問具有原子性C、Zookecper被設(shè)計(jì)用來實(shí)現(xiàn)協(xié)調(diào)服務(wù)D、Zookceper被設(shè)計(jì)用來實(shí)現(xiàn)大容量數(shù)據(jù)存儲(chǔ)【正確答案】:ABC解析:

Zookeeper無法用來存儲(chǔ)數(shù)據(jù)。21.以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征,表現(xiàn)方面有()。A、數(shù)據(jù)驅(qū)動(dòng)B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化【正確答案】:ABC解析:

以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征。數(shù)據(jù)產(chǎn)品的以數(shù)據(jù)中心的特征不僅體現(xiàn)在以數(shù)據(jù)為核心生產(chǎn)要素,而且還主要表現(xiàn)在數(shù)據(jù)驅(qū)動(dòng)、數(shù)據(jù)密集和數(shù)據(jù)范式。22.神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以分為()和隨機(jī)型網(wǎng)絡(luò)等A、前向型B、后向型C、反饋型D、自組織競(jìng)爭(zhēng)型【正確答案】:ACD23.RDD的特征有()。A、可容錯(cuò)性B、簡(jiǎn)潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】:AC解析:

RDD是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu)。24.下列為RDBMS中事務(wù)遵循原則的有()。A、原子性(Atomicity)B、一致性(Consistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:

關(guān)系數(shù)據(jù)庫中的事務(wù)需要具備一定的規(guī)則-ACID特征。ACID是指數(shù)據(jù)庫事務(wù)正確執(zhí)行的4個(gè)基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。25.可以幫助解決訓(xùn)練集在特征空間中線性不可分的問題的方法有()。A、硬間隔B、軟間隔C、核函數(shù)D、拉格朗日乘子法【正確答案】:BC解析:

核函數(shù)解決線性不可分的本質(zhì)思想就是把原始的樣本通過核函數(shù)映射到高維空間中,讓樣本在高維特征空間中是線性可分的。軟間隔允許某些樣本不滿足約束,使得樣本在特征空間中不是線性可分。26.下列屬于卷積神經(jīng)網(wǎng)絡(luò)組成部分的有()。A、卷積層B、中間層C、池化層D、全連接層【正確答案】:ACD解析:

卷積神經(jīng)網(wǎng)絡(luò)的組成部分不包括中間層。27.下面屬于可視化高維數(shù)據(jù)技術(shù)的是哪些()A、矩陣B、平行坐標(biāo)系C、星形坐標(biāo)系D、散布圖【正確答案】:ABC解析:

矩陣、平行坐標(biāo)系和星形坐標(biāo)系都屬于可視化高維數(shù)據(jù)的常用技術(shù),而散布圖又叫相關(guān)圖,只能處理二維數(shù)據(jù)。28.下列關(guān)于降維說法正確的有()。A、PA是根據(jù)方差這一屬性降維的B、降維可以防止模型過擬合C、降維降低了數(shù)據(jù)集特征的維度D、降維方法有PLA等【正確答案】:ACD解析:

降維不能用于防止模型過擬合。29.以下屬于漢語未登錄詞的類型的有哪幾項(xiàng)()A、存在于詞典但出現(xiàn)頻率較少的詞B、新出現(xiàn)的普通詞匯C、專有名詞D、專業(yè)名詞和研究領(lǐng)域名稱【正確答案】:BCD解析:

未登錄詞就是未知的新詞。判斷一個(gè)新字符串是否應(yīng)作為一個(gè)詞,是基于世界知識(shí)的,需要人參與才能確認(rèn)。30.RNN網(wǎng)絡(luò)的激活函數(shù)選用雙曲正切而不是Sigmod的原因有()A、使用Sigmod函數(shù)容易出現(xiàn)梯度消失B、Sigmod的導(dǎo)數(shù)形式較為復(fù)雜C、雙曲正切更簡(jiǎn)單D、Sigmoid函數(shù)實(shí)現(xiàn)較為復(fù)雜【正確答案】:AB解析:

解析:第一,采用Sigmoid等函數(shù),反向傳播求誤差梯度時(shí),求導(dǎo)計(jì)算量很大,而ReLU求導(dǎo)非常容易;第二,對(duì)于深層網(wǎng)絡(luò),Sigmoid函數(shù)反向傳播時(shí),很容易就會(huì)出現(xiàn)梯度消失的情況(在Sigmoid接近飽和區(qū)時(shí),變換太緩慢,導(dǎo)數(shù)趨于0),從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練。31.下列關(guān)于相關(guān)與線性關(guān)系的說法正確的有()。A、相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系B、相關(guān)一定是線性關(guān)系,不可能是非線性關(guān)系C、相關(guān)時(shí)若有相關(guān)系數(shù)為0,說明兩個(gè)變量之間不存在線性關(guān)系,仍可能存在非線性關(guān)系D、相關(guān)系數(shù)為0是兩個(gè)變量獨(dú)立的必要不充分條件【正確答案】:ACD解析:

相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系。32.下列關(guān)于Spark中RDD的描述正確的有()。A、RDD(ResilientDistributedDataset)叫作彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式,可以并行在集群計(jì)算Dataset:就是一個(gè)集合,用于存放數(shù)據(jù)【正確答案】:ABCD解析:

A、B、C、D全部正確。33.下列關(guān)于神經(jīng)網(wǎng)絡(luò)的說法正確的有()。A、增加網(wǎng)絡(luò)層數(shù),可能會(huì)增加測(cè)試集分類錯(cuò)誤率B、增加網(wǎng)絡(luò)層數(shù),一定會(huì)增加訓(xùn)練集分類錯(cuò)誤率C、減少網(wǎng)絡(luò)層數(shù),可能會(huì)減少測(cè)試集分類錯(cuò)誤率D、減少網(wǎng)絡(luò)層數(shù),一定會(huì)減少訓(xùn)練集分類錯(cuò)誤率【正確答案】:AC解析:

增加網(wǎng)絡(luò)層數(shù)可能造成訓(xùn)練誤差和測(cè)試誤差減小,但神經(jīng)網(wǎng)絡(luò)層數(shù)過多容易造成過擬合、訓(xùn)練誤差小,但是測(cè)試誤差很大。34.機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵組成要素包含()。A、任務(wù)TB、性能指標(biāo)PC、目標(biāo)函數(shù)VD、經(jīng)驗(yàn)來源E【正確答案】:ABD35.下列關(guān)于EM算法的描述正確的有()。A、EM算法是常用的估計(jì)參數(shù)隱變量的利器B、EM算法即是期望最大化算法C、EM算法常被用來學(xué)習(xí)高斯混合模型的參數(shù)D、EM算法是一種迭代式的方法【正確答案】:ABCD36.以下方法中可用于圖像分割的有()A、霍夫曼編碼B、分水嶺算法C、K-meansD、區(qū)域增長法【正確答案】:BCD解析:

分水嶺、K-means算法、區(qū)域生長都是常見的分割算法,而霍夫曼編碼不屬于分割算法。37.下列關(guān)于特征的稀疏性的說法正確的有()。A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開銷C、學(xué)習(xí)任務(wù)難度可能有所降低D、稀疏矩陣沒有高效的存儲(chǔ)方法【正確答案】:ABC解析:

在一個(gè)矩陣中,若非零元素的個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于零元素的個(gè)數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲(chǔ)空間并且加快并行程序處理速度,可對(duì)稀疏矩陣進(jìn)行壓縮存儲(chǔ)。38.一個(gè)監(jiān)督觀測(cè)值集合會(huì)被劃分為()。A、訓(xùn)練集B、驗(yàn)證集C、測(cè)試集D、預(yù)處理集【正確答案】:ABC解析:

一個(gè)監(jiān)督觀測(cè)值集合會(huì)被劃分為訓(xùn)練集、測(cè)試集、預(yù)測(cè)集。其中測(cè)試集來測(cè)試學(xué)習(xí)器對(duì)新樣本的判別能力,然后以測(cè)試集上的測(cè)試誤差(testingerror)作為泛化誤差的近似。39.以下屬于頻率域圖像濾波的方法有()A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾波【正確答案】:CD解析:

頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。40.在詞袋模型中使用單個(gè)的單詞來構(gòu)建詞向量這樣的序列被稱為()A、1元組(1-gram)B、單元組(unigram)模型C、列表D、字典【正確答案】:AB解析:

列表和字典一般包含多個(gè)單詞41.數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評(píng)價(jià)指標(biāo)包括()。A、精確性B、可辨認(rèn)性C、可分離性D、視覺突出性【正確答案】:ABCD解析:

在數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評(píng)價(jià)指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺突出性。評(píng)價(jià)指標(biāo)描述如下:①精確性代表的是人類感知系統(tǒng)對(duì)于可視化編碼結(jié)果和原始數(shù)據(jù)之間的吻合程度。斯坦福大學(xué)Mackinlay曾于1986年提出了不同視覺通道所表示信息的精確性。②可辨認(rèn)性是指視覺通道的可辨認(rèn)度。③可分離性是指同一個(gè)視覺圖形元素的不同視覺通道的表現(xiàn)力之間應(yīng)具備一定的獨(dú)立性。④視覺突出性是指視覺編碼結(jié)果能否在很短的時(shí)間內(nèi)(如毫秒級(jí))能夠迅速準(zhǔn)確表達(dá)出可視化編碼的主要意圖。42.最常見的分詞算法可以分為哪三大類()A、基于字符串匹配的分詞方法B、基于理解的分詞方法C、基于統(tǒng)計(jì)的分詞方法D、基于閱讀的分詞方法【正確答案】:ABC解析:

無基于閱讀的分詞方法。43.以下方法是tf-idf的變種的有哪些()A、TFCB、EWCC、ITCD、IG【正確答案】:AC解析:

TFC:對(duì)文本長度進(jìn)行歸一化處理后的TF-IDF。ITC:在TFC基礎(chǔ)上,用tf的對(duì)數(shù)值取代tf。44.常用的沖突消解策略包括()。A、投票法B、排序法C、元規(guī)則法D、調(diào)研法【正確答案】:ABC45.下列屬于數(shù)據(jù)統(tǒng)計(jì)分析工具的有()。A、WekaB、SASC、SPSSD、Matlab【正確答案】:ABCD解析:

常用統(tǒng)計(jì)軟件的種類包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。46.當(dāng)構(gòu)造線性模型時(shí),應(yīng)注意變量間的相關(guān)性。在相關(guān)矩陣中搜索相關(guān)系數(shù)時(shí),如果發(fā)現(xiàn)3對(duì)變址的相關(guān)系數(shù)是(Varl和Var2、Var2和Var3、Var3和Varl),相關(guān)系數(shù)分別是-0.98、0.45、1.23,則可以得出的結(jié)論有()。A、Varl和Var2是非常相關(guān)的B、因?yàn)閂arl和Var2是非常相關(guān)的,可以去除其中一個(gè)C、Var3和Varl的相關(guān)系數(shù)1.23是不可能的【正確答案】:ABC解析:

Varl和Var2之間的相關(guān)性非常高,并且是負(fù)的,可視為多重共線性的情況,可以去掉一個(gè)。一般來說,如果相關(guān)大于0.7或小于-0.7,則認(rèn)為特征之間有很高的相關(guān)性。相關(guān)系數(shù)范圍為[-1,1],C選項(xiàng)中1.23明顯有誤。47.HighBias(高偏差)的解決方式有()。A、BoostingB、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)C、更多特征D、以上選項(xiàng)都不正確【正確答案】:ABC解析:

偏差刻畫了學(xué)習(xí)算法本身的擬合能力,高偏差意味著欠擬合,可通過Boosting、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)、更多特征等方式解決。48.以下可用于處理由于光照不均帶來的影響的圖像處理方法有()A、同態(tài)濾波B、頂帽變換C、基于移動(dòng)平均的局部閾值處理D、拉普拉斯算子【正確答案】:ABC解析:

拉普拉斯算子屬于銳化濾波器,并不能處理光照不均勻帶來的影響。49.如果想要訓(xùn)練一個(gè)ML模型,樣本數(shù)量為100萬個(gè),特征維度為5000個(gè),面對(duì)如此大數(shù)據(jù),那么有效地訓(xùn)練模型可以采取的措施有()。A、對(duì)訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機(jī)器學(xué)習(xí)算法C、使用PCA算法減少特征維度【正確答案】:ABC解析:

大數(shù)據(jù)可以采用對(duì)訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型,嘗試使用在線機(jī)器學(xué)習(xí)算法,使用PCA算法減少特征維度。50.Spark支持的計(jì)算模型有()。A、批處理B、實(shí)時(shí)計(jì)算C、機(jī)器學(xué)習(xí)模型D、交互式查詢【正確答案】:ABCD解析:

Spark支持的計(jì)算模型有批處理、實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)模型、交互式查詢。51.數(shù)據(jù)管理包含的管理活動(dòng)有()。A、識(shí)別B、度量C、監(jiān)拉D、預(yù)警【正確答案】:ABCD解析:

數(shù)據(jù)管理指對(duì)數(shù)據(jù)生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識(shí)別、度量、監(jiān)控以及預(yù)警等一系列管理活動(dòng),并通過改善和提高組織的管理水平是的數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。52.下列關(guān)于L1和L2范數(shù)的描述正確的有()。)A、L1范數(shù)為x向量各個(gè)元素絕對(duì)值之和B、L2范數(shù)為x向量各個(gè)元素平方和的1/2次方,L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C、L1范數(shù)可以使權(quán)值稀疏,方便特征提取D、L2范數(shù)可以防止過擬合,提升模型的泛化能力【正確答案】:ABCD解析:

LO是指向量中非0的元素的個(gè)數(shù),L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和,L2范數(shù)向量元素絕對(duì)值的平方和再開平方。L1范數(shù)可以使權(quán)值稀疏,方便特征提取。L2范數(shù)可以防止過擬合,提升模型的泛化能力。53.對(duì)于主成分分析方法,確定降維后低維空間的維數(shù)d的方法有()。A、由用戶事先指定B、通過在d不同的低維空間中對(duì)開銷較小的學(xué)習(xí)器進(jìn)行交叉驗(yàn)證來選取C、可從重構(gòu)的角度設(shè)置一個(gè)重構(gòu)閾值,選取使得特定公式成立的最小值D、隨機(jī)設(shè)置【正確答案】:ABC解析:

降維后低維空間的維數(shù)通常是由用戶事先指定,或通過在d不同的低維空間中對(duì)k近鄰分類器(或其他開銷較小的學(xué)習(xí)器)進(jìn)行交叉驗(yàn)證來選取較好的d。還可從重構(gòu)的角度設(shè)置一個(gè)重構(gòu)閾值,選取使得特定公式成立的最小值。54.下列屬于數(shù)據(jù)挖掘方法的有()。A、聚類B、回歸分析C、神經(jīng)網(wǎng)絡(luò)D、決策樹算法【正確答案】:ABCD解析:

利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)則、特征、變化和偏差分析、Web頁挖掘等。分類方法有決策樹算法、KNN算法(k-nearestneighbor)、SVM算法、VSM算*Bayes算法、神經(jīng)網(wǎng)絡(luò)等。聚類算法有基于密度、基于層次、基于模型、基于網(wǎng)格等。關(guān)聯(lián)規(guī)則算法有Apriori算法、FP-Growth算法。55.預(yù)剪枝使得決策樹的很多分子都沒有展開,則會(huì)導(dǎo)致的結(jié)果有()。A、顯著減少訓(xùn)練時(shí)間開銷B、顯著減少測(cè)試時(shí)間開銷C、降低過擬合風(fēng)險(xiǎn)D、提高欠擬合風(fēng)險(xiǎn)【正確答案】:ABCD解析:

預(yù)剪枝使得決策樹的很多分支都沒有展開,這不僅降低了過擬合的風(fēng)險(xiǎn),還顯著減少了決策樹的訓(xùn)練時(shí)間開銷和測(cè)試時(shí)間開銷。但另一方面,有些分支的當(dāng)前劃分雖不能提升泛化性能,甚至可能導(dǎo)致泛化性能暫時(shí)下降,但在其基礎(chǔ)上進(jìn)行的后續(xù)劃分卻有可能導(dǎo)致性能顯著提高;預(yù)剪枝基于貪心原則,禁止這些分支展開,提高了欠擬合的風(fēng)險(xiǎn)。56.可視分析學(xué)的特點(diǎn)包含()。A、強(qiáng)調(diào)數(shù)據(jù)到知識(shí)的轉(zhuǎn)換過程B、強(qiáng)調(diào)可視化分析與自動(dòng)化建模之間的相互作用C、強(qiáng)調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性D、強(qiáng)調(diào)數(shù)據(jù)加工(DataWrangling或DataMunging)工作的必要性E、強(qiáng)調(diào)人機(jī)交互的重要性【正確答案】:ABCDE解析:

從可視分析學(xué)模型可以看出,可視分析學(xué)的流程具有如下特點(diǎn):①強(qiáng)調(diào)數(shù)據(jù)到知識(shí)的轉(zhuǎn)換過程??梢暬治鰧W(xué)中對(duì)數(shù)據(jù)可視化工作的理解發(fā)生了根本性變化-數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識(shí),而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上。從數(shù)據(jù)到知識(shí)的轉(zhuǎn)換途徑有可視化分析和自動(dòng)化建模兩種。②強(qiáng)調(diào)可視化分析與自動(dòng)化建模之間的相互作用。二者的相互作用主要體現(xiàn)在:一方面,可視化技術(shù)可用于數(shù)據(jù)建模中的參數(shù)改進(jìn)的依據(jù);另一方面,數(shù)據(jù)建模也可以支持?jǐn)?shù)據(jù)可視化活動(dòng),為更好地實(shí)現(xiàn)用戶交互提供參考。③強(qiáng)調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性。從數(shù)據(jù)到知識(shí)轉(zhuǎn)換的兩種途徑-可視化分析與自動(dòng)化建模分別通過數(shù)據(jù)映射和數(shù)據(jù)挖掘兩種不同方法實(shí)現(xiàn)。因此,數(shù)據(jù)映射和數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)可視化的兩個(gè)重要支撐技術(shù)。用戶可以通過兩種方法的配合使用實(shí)現(xiàn)模型參數(shù)調(diào)整和可視化映射方式的改變,盡早發(fā)現(xiàn)中間步驟中的錯(cuò)誤,進(jìn)而提升可視化操作的信度與效度。④強(qiáng)調(diào)數(shù)據(jù)加工工作的必要性。數(shù)據(jù)可視化處理之前一般需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理(轉(zhuǎn)換)工作,且預(yù)處理活動(dòng)的質(zhì)量將影響數(shù)據(jù)可視化效果。⑤強(qiáng)調(diào)人機(jī)交互的重要性??梢暬^程往往涉及人機(jī)交互操作,需要重視人與計(jì)算機(jī)在數(shù)據(jù)可視化工作中的互補(bǔ)性優(yōu)勢(shì)。因此,人機(jī)交互以及人機(jī)協(xié)同工作也將成為未來數(shù)據(jù)可視化研究與實(shí)踐的重要手段。57.下列關(guān)于AUC面積的描述正確的有()。AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積B、AUC面積的值大于1C、AUC面積的值等于0.5時(shí),真實(shí)性最低,無應(yīng)用價(jià)值D、AUC面積的值越接近1.0,檢測(cè)方法真實(shí)性越高【正確答案】:ACD解析:

AUC面積的值不大于1。58.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測(cè)度C、分類準(zhǔn)則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:

聚類算法是無監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標(biāo)記信息是未知的。59.下列描述中屬于特征選擇的優(yōu)點(diǎn)有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強(qiáng)模型的泛化能力【正確答案】:BCD解析:

特征選擇無法克服模型自身的缺陷,二者是獨(dú)立的。60.主要面向或關(guān)注過去的數(shù)據(jù)分析過程有()。A、描述性分析B、診斷性分析C、預(yù)測(cè)性分析D、規(guī)范性分析【正確答案】:AB解析:

Gartner分析學(xué)價(jià)值扶梯模型認(rèn)為,從復(fù)雜度及價(jià)值高低兩個(gè)維度,可以將數(shù)據(jù)分析分為描述性分析、診斷性分析、預(yù)測(cè)性分析和規(guī)范性分析四種,其中描述性分析和診斷性分析關(guān)注和面向的是過去的時(shí)間點(diǎn)。61.以下算法中可以應(yīng)用于圖像分割的是()A、邊緣檢測(cè)技術(shù)B、閾值分割技術(shù)C、基于區(qū)域的分割技術(shù)D、區(qū)域生長方法【正確答案】:ABCD解析:

邊緣檢測(cè)技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長方法均是圖像分割技術(shù)。62.下列屬于數(shù)據(jù)挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:

常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。三、(共33題)63.空間域?yàn)V波是直接以圖像中的像素操作為基礎(chǔ)的濾波,空間濾波器有時(shí)也可稱為()A、空間掩模B、核C、模板D、窗口【正確答案】:ABCD64.在Hive架構(gòu)中,支持的數(shù)據(jù)操作有()。A、插入B、查詢C、刪除D、分析【正確答案】:BD解析:

Hive提供簡(jiǎn)單的HiveQL查詢、分析功能,可以較好地滿足基于數(shù)據(jù)倉庫的統(tǒng)計(jì)分析需要。65.在監(jiān)督式學(xué)習(xí)中使用聚類算法的方法有()。A、首先可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個(gè)額外的特征C、在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個(gè)額外的特征【正確答案】:AB解析:

我們可以為不同的集群構(gòu)建獨(dú)立的機(jī)器學(xué)習(xí)模型,并且可以提高預(yù)測(cè)精度。將每個(gè)類別的ID作為特征空間中的一個(gè)額外的特征可能會(huì)提高的精度結(jié)果。66.關(guān)于TF-IDF模型描述正確的有()A、TF是詞頻B、IDF是逆文本頻率C、該模型基于統(tǒng)計(jì)方法D、在信息檢索中應(yīng)用較少【正確答案】:ABC解析:

TF-IDF算法應(yīng)用較為廣泛,在信息檢索中也常用。67.數(shù)據(jù)故事化描述應(yīng)遵循的基本原則有()。A、忠于原始數(shù)據(jù)原則B、設(shè)定共同場(chǎng)景原則C、有效性利用原則D、3C精神原則【正確答案】:ABCD解析:

數(shù)據(jù)的故事化描述應(yīng)遵循的基本原則包括忠于原始數(shù)據(jù)原則、設(shè)定共同情景原則、體驗(yàn)式講述原則、個(gè)性化定制原則、有效性利用原則、3C精神原則。68.Spark2.0提供的應(yīng)用庫包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正確答案】:ABCD解析:

Spark2.0提供的應(yīng)用庫包括SparkSQL、SparkStreaming、MLib、GraphX。69.下列關(guān)于梯度消失和梯度爆炸的說法正確的有()。A、根據(jù)鏈?zhǔn)椒▌t,如果每一層神經(jīng)元對(duì)上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都小于1的話,那么即使這個(gè)結(jié)果是0.99,在經(jīng)過足夠多層傳播之后,誤差對(duì)輸入層的偏導(dǎo)會(huì)趨于0B、可以采用ReLU激活函數(shù)有效地解決梯度消失的情況C、根據(jù)鏈?zhǔn)椒▌t,如果每一層神經(jīng)元對(duì)上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都大于1的話,在經(jīng)過足夠多層傳播之后,誤差對(duì)輸入層的偏導(dǎo)會(huì)趨于無窮大D、可以通過減小初始權(quán)重矩陣的值來緩解梯度爆炸【正確答案】:ABCD解析:

解析:使用標(biāo)準(zhǔn)化初始w,那么各個(gè)層次的相乘都是0~1的小數(shù),而激活函數(shù)f的導(dǎo)數(shù)也是0~1的數(shù),其連乘后,結(jié)果會(huì)變得很小,導(dǎo)致梯度消失。若我們初始化的w是很大

的數(shù),w大到乘以激活函數(shù)的導(dǎo)數(shù)都大于1,那么連乘后,可能會(huì)導(dǎo)致求導(dǎo)的結(jié)果很大,老成梯度爆炸。70.相對(duì)于HadoopMapReduce,Spark的特點(diǎn)有()。A、通用性B、易用性C、速度快D、容錯(cuò)性【正確答案】:ABC解析:

相對(duì)于HadoopMapReduce,Spark的特點(diǎn)包括速度快、通用性和易用性。71.下列關(guān)于現(xiàn)階段大數(shù)據(jù)技術(shù)體系的說法正確的有()。A、基礎(chǔ)設(shè)施提供數(shù)據(jù)計(jì)算、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加工(D

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論