![大數(shù)據(jù)題庫(kù)-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測(cè)試附答案_第1頁(yè)](http://file4.renrendoc.com/view11/M00/31/3B/wKhkGWWLkBCAYO9uAAHrMXKr0Zg149.jpg)
![大數(shù)據(jù)題庫(kù)-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測(cè)試附答案_第2頁(yè)](http://file4.renrendoc.com/view11/M00/31/3B/wKhkGWWLkBCAYO9uAAHrMXKr0Zg1492.jpg)
![大數(shù)據(jù)題庫(kù)-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測(cè)試附答案_第3頁(yè)](http://file4.renrendoc.com/view11/M00/31/3B/wKhkGWWLkBCAYO9uAAHrMXKr0Zg1493.jpg)
![大數(shù)據(jù)題庫(kù)-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測(cè)試附答案_第4頁(yè)](http://file4.renrendoc.com/view11/M00/31/3B/wKhkGWWLkBCAYO9uAAHrMXKr0Zg1494.jpg)
![大數(shù)據(jù)題庫(kù)-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測(cè)試附答案_第5頁(yè)](http://file4.renrendoc.com/view11/M00/31/3B/wKhkGWWLkBCAYO9uAAHrMXKr0Zg1495.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第頁(yè)大數(shù)據(jù)題庫(kù)-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測(cè)試附答案1.下列描述中不屬于數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)“三同步”原則的是()。A、同步規(guī)劃B、同步建設(shè)C、同步使用D、同步運(yùn)維【正確答案】:D解析:
數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)包含同步規(guī)劃、同步建設(shè)、同步使用三項(xiàng)原則。2.數(shù)據(jù)變換的策略包括()。A、平滑處理、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、離散化B、平滑處理、特征構(gòu)造、聚集、審計(jì)、離散化C、平滑處理、聚集、標(biāo)準(zhǔn)化、審計(jì)、離散化D、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、審計(jì)、離散化【正確答案】:A解析:
數(shù)據(jù)變換的策略不包括審計(jì)。3.下列關(guān)于數(shù)據(jù)相關(guān)性的說(shuō)法錯(cuò)誤的是()。A、相關(guān)性體現(xiàn)了大數(shù)據(jù)的靈魂B、相關(guān)性思維實(shí)現(xiàn)了從“為什么”到“是什么”的思維轉(zhuǎn)變C、相關(guān)性關(guān)注事物的因果關(guān)系D、相關(guān)性關(guān)注事物的相關(guān)關(guān)系【正確答案】:C解析:
相關(guān)性是指兩個(gè)變量的關(guān)聯(lián)程度,可以有正相關(guān)、負(fù)相關(guān)、不相關(guān)。4.下列不屬于大數(shù)據(jù)在社會(huì)活動(dòng)中的典型應(yīng)用的是()。A、美團(tuán)實(shí)現(xiàn)了快速精準(zhǔn)的送餐服務(wù)B、共享單車、滴滴打車方便了人們的日常出行C、快遞實(shí)現(xiàn)了訂單的實(shí)時(shí)跟蹤D、供電公司提供電費(fèi)賬單查詢【正確答案】:D解析:
電費(fèi)賬單查詢屬于簡(jiǎn)單報(bào)表查詢,用電情況分析、竊電行為分析、基于交易大數(shù)據(jù)分析用戶的購(gòu)買習(xí)慣、基于傳感器感知的海量數(shù)據(jù)分析自然災(zāi)害的危害程度、基于搜索引擎的搜索關(guān)鍵詞分析社會(huì)熱點(diǎn)等屬于大數(shù)據(jù)應(yīng)用。5.BASE原則的含義不包括()。A、基本可用B、柔性狀態(tài)C、最終一致D、基礎(chǔ)條件【正確答案】:D解析:
BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventallyConsistent(最終--致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致?tīng)顟B(tài);EventuallyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實(shí)時(shí)一致,系統(tǒng)在某一個(gè)時(shí)刻后達(dá)到一致性要求即可。6.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()。A、可關(guān)聯(lián)性B、可溯源性C、可理解性D、可復(fù)制性【正確答案】:A解析:
數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)系組成的一整套數(shù)據(jù)保護(hù)措施,其目的是保障數(shù)據(jù)的可用性、可信性和可控性,降低數(shù)據(jù)的失用、失信和失控的風(fēng)險(xiǎn)??坍嫈?shù)據(jù)連續(xù)性的特點(diǎn)描述如下:①可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是不同數(shù)據(jù)對(duì)象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,代表了數(shù)據(jù)是否具備支持開(kāi)放關(guān)聯(lián)和跨域存取的能力,進(jìn)而避免數(shù)據(jù)資源的碎片化。因此,研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的“失用”風(fēng)險(xiǎn)。②可溯源性是在時(shí)間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是同一個(gè)數(shù)據(jù)對(duì)象的歷史版本之間的連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提,代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理、可信度評(píng)估以及預(yù)測(cè)分析的能力。因此,研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)的“失信”風(fēng)險(xiǎn)。③可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性,代表的是數(shù)據(jù)與其產(chǎn)生、管理和維護(hù)的主體(包括人與計(jì)算機(jī))之間的連續(xù)性。它是降低數(shù)據(jù)的可控性的重要前提,代表了數(shù)據(jù)是否具備自描述和自包含信息。因此,研究數(shù)據(jù)可理解性的意義在于降低數(shù)據(jù)的“失控”風(fēng)險(xiǎn)。7.不屬于Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)的思維變革的是()。A、不是隨機(jī)樣本,而是全體數(shù)據(jù)B、不是精確性,而是混雜性C、不是描述性分析,而是預(yù)測(cè)性分析D、不是因果關(guān)系,而是相關(guān)關(guān)系【正確答案】:C解析:
Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)的思維變革:①不是隨機(jī)樣本,而是全體數(shù)據(jù):大數(shù)據(jù)時(shí)代應(yīng)遵循“樣本=總體”的理念,需要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。②不是精確性,而是混雜性;大數(shù)據(jù)時(shí)代應(yīng)承認(rèn)數(shù)據(jù)的復(fù)雜性,數(shù)據(jù)分析目的不應(yīng)追求精確性,數(shù)據(jù)分析的主要瓶頸是如何提升效率而不是保證分析結(jié)果的精確度。③不是因果關(guān)系,而是相關(guān)關(guān)系:大數(shù)據(jù)時(shí)代的思想方式應(yīng)轉(zhuǎn)變--不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。8.在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是()。A、有放回的簡(jiǎn)單隨機(jī)抽樣B、無(wú)放回的簡(jiǎn)單隨機(jī)抽樣C、分層抽樣D、漸進(jìn)抽樣【正確答案】:D解析:
略。9.下列不屬于視覺(jué)通道表現(xiàn)力評(píng)價(jià)指標(biāo)的是()。A、精確性B、可辨認(rèn)性C、可分離性D、可轉(zhuǎn)換性【正確答案】:D解析:
在數(shù)據(jù)來(lái)源和目標(biāo)用戶已定的情況下,不同視覺(jué)通道的表現(xiàn)力不同。視覺(jué)通道表現(xiàn)力的評(píng)價(jià)指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺(jué)突出性。10.數(shù)據(jù)科學(xué)是一門以()為主要研究任務(wù)的獨(dú)立學(xué)科。A、數(shù)據(jù)驅(qū)動(dòng)、數(shù)據(jù)業(yè)務(wù)化、數(shù)據(jù)洞見(jiàn)、數(shù)據(jù)產(chǎn)品研發(fā)和(或)數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)B、數(shù)據(jù)研發(fā)C、數(shù)據(jù)處理D、數(shù)據(jù)洞見(jiàn)【正確答案】:A解析:
數(shù)據(jù)科學(xué)是一門以實(shí)現(xiàn)從數(shù)據(jù)到信息、從數(shù)據(jù)到知識(shí)和(或)從數(shù)據(jù)到智慧的轉(zhuǎn)化為主要研究目的,以數(shù)據(jù)驅(qū)動(dòng)、數(shù)據(jù)業(yè)務(wù)化、數(shù)據(jù)洞見(jiàn)、數(shù)據(jù)產(chǎn)品研發(fā)和(或)數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)為主要研究任務(wù)的獨(dú)立學(xué)科。11.下列判斷錯(cuò)誤的是()。A、XML數(shù)據(jù)屬于半結(jié)構(gòu)化數(shù)據(jù)B、JSON文件屬于非結(jié)構(gòu)化數(shù)據(jù)C、PPT文件屬于非結(jié)構(gòu)化數(shù)據(jù)D、音視頻文件屬于非結(jié)構(gòu)化數(shù)據(jù)【正確答案】:B解析:
JSON文件屬于半結(jié)構(gòu)化數(shù)據(jù)。12.下列不屬于數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)區(qū)別的是(A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值B、數(shù)據(jù)科學(xué)關(guān)注的不僅僅是“單一學(xué)科”問(wèn)題,超出了數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等單一學(xué)科的范疇C、數(shù)據(jù)科學(xué)不僅僅是理論研究,也不是純領(lǐng)域?qū)崉?wù)知識(shí),它關(guān)注和強(qiáng)調(diào)的是二者的結(jié)合D、數(shù)據(jù)科學(xué)和統(tǒng)計(jì)學(xué)中的計(jì)算一樣,僅僅是加減乘除【正確答案】:D解析:
數(shù)據(jù)科學(xué)中的計(jì)算并不僅僅是加/減/乘/除等數(shù)學(xué)計(jì)算,而是包括數(shù)據(jù)的查詢、挖掘、洞見(jiàn)、分析、可視化等更多類型的計(jì)算。13.因子分析把每個(gè)原始變量分解為()兩部分因素。A、公共因子和特殊因子B、特殊因子和相關(guān)因子C、相關(guān)因子和獨(dú)立因子D、獨(dú)立因子和公共因子【正確答案】:A解析:
因子分析把每個(gè)原始變量分解為公共因子和特殊因子兩部分因素。14.新興數(shù)據(jù)管理技術(shù)主要包括NoSQL技術(shù)、NewSQL技術(shù)和()。A、數(shù)據(jù)倉(cāng)庫(kù)B、關(guān)系云C、數(shù)據(jù)庫(kù)系統(tǒng)D、文件系統(tǒng)【正確答案】:B解析:
關(guān)系云是在云計(jì)算環(huán)境中部署和虛擬化的關(guān)系數(shù)據(jù)庫(kù),進(jìn)而使傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)具備云計(jì)算的彈性計(jì)算、虛擬化、按需服務(wù)和高經(jīng)濟(jì)性等特征。關(guān)系云代表了數(shù)據(jù)管理的一個(gè)重要發(fā)展方向。15.數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)進(jìn)行()等處理的過(guò)程。A、更正B、刪除C、補(bǔ)充錄入D、以上答案都正確【正確答案】:D解析:
數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)進(jìn)行更正、刪除、補(bǔ)充錄入等處理的過(guò)程。16.診斷性分析主要采取的分析方法是()。A、關(guān)聯(lián)分析法和因果分析法B、關(guān)聯(lián)分析法和分類分析法C、關(guān)聯(lián)分析法和運(yùn)籌學(xué)D、因果分析法和分類分析法【正確答案】:A解析:
診斷性分析主要關(guān)注過(guò)去,回答為什么發(fā)生,主要采用關(guān)聯(lián)分析法和因果分析17.下列關(guān)于基本元數(shù)據(jù)描述正確的是()。A、基本元數(shù)據(jù)是與數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理、分析處理以及管理方面的信息【正確答案】:D解析:
基本元數(shù)據(jù)(Metadata)又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)。18.關(guān)系數(shù)據(jù)庫(kù)中存儲(chǔ)、計(jì)算和管理的數(shù)據(jù)是()。A、結(jié)構(gòu)化數(shù)據(jù)B、海量數(shù)據(jù)C、半結(jié)構(gòu)化數(shù)據(jù)D、非結(jié)構(gòu)化數(shù)據(jù)【正確答案】:A解析:
通常,結(jié)構(gòu)化數(shù)據(jù)是指直接可以用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)、計(jì)算和管理的數(shù)據(jù)。19.()是指給目標(biāo)用戶產(chǎn)生的錯(cuò)誤或不準(zhǔn)確的視覺(jué)感知,而這種感知與數(shù)據(jù)可化者的意圖或數(shù)據(jù)本身的真實(shí)情況不一致。A、視覺(jué)假象B、視覺(jué)認(rèn)知C、視覺(jué)感知D、數(shù)據(jù)可視【正確答案】:A解析:
視覺(jué)假象(VisualIllusion)是數(shù)據(jù)可視化工作中不可忽略的特殊問(wèn)題。視覺(jué)假象是指給目標(biāo)用戶產(chǎn)生的錯(cuò)誤或不準(zhǔn)確的視覺(jué)感知,而這種感知與數(shù)據(jù)可視化者的意圖或數(shù)據(jù)本身的真實(shí)情況不一致。20.在數(shù)據(jù)科學(xué)中,通常下載R的包的服務(wù)器是()。A、PIPB、CRANC、RstudioD、PyP1【正確答案】:B解析:
CRAN的全稱為TheComprehensiveRArchivcNetwork,在R編程中通常從該服務(wù)器下載所需包。21.下列關(guān)于數(shù)據(jù)科學(xué)流程與方法的描述錯(cuò)誤的是()。A、數(shù)據(jù)科學(xué)的基本流程包括數(shù)據(jù)化、數(shù)據(jù)加工(DataWrangling或DataMunging)、數(shù)據(jù)規(guī)整化、探索性分析、數(shù)據(jù)分析與洞見(jiàn)、結(jié)果展現(xiàn)以及數(shù)據(jù)產(chǎn)品的提供B、對(duì)于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過(guò)清洗成為規(guī)整數(shù)據(jù)C、數(shù)據(jù)分析包括描述性分析、診斷性分析、預(yù)測(cè)性分析和規(guī)范性分析D、數(shù)據(jù)可視化會(huì)遇到視覺(jué)假象問(wèn)題,人眼對(duì)亮度和顏色的相對(duì)判斷容易造成視覺(jué)假象【正確答案】:B解析:
對(duì)于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過(guò)規(guī)整化處理(DataTyding)成為規(guī)整數(shù)據(jù)。22.下列關(guān)于數(shù)據(jù)分析的說(shuō)法正確的是()。A、描述性分析和預(yù)測(cè)性分析是診斷性分析的基礎(chǔ)B、診斷性分析是對(duì)規(guī)范性分析的進(jìn)一步理解C、預(yù)測(cè)性分析是規(guī)范性分析的基礎(chǔ)D、規(guī)范性分析是數(shù)據(jù)分析的最高階段,可以直接產(chǎn)生產(chǎn)業(yè)價(jià)值【正確答案】:C解析:
在數(shù)據(jù)分析中,流程分為以下方式:描述性分析、診斷性分析、預(yù)測(cè)性分析、規(guī)范性分析。23.下列不屬于數(shù)據(jù)脫敏要求的是()。A、雙向性B、單向性C、無(wú)殘留D、易于實(shí)現(xiàn)【正確答案】:A解析:
數(shù)據(jù)脫敏操作不能停留在簡(jiǎn)單地將敏感信息屏蔽掉或匿名處理。數(shù)據(jù)脫敏操作必須滿足以下3個(gè)要求:?jiǎn)蜗蛐?、無(wú)殘留、易于實(shí)現(xiàn)。24.在著名管理學(xué)家Thomas·H.Davernport在《哈佛商業(yè)論壇》上發(fā)表的題為《第三代分析學(xué)(Analytics3.0)》的經(jīng)典論文中,Analytics3.0時(shí)代是指()。A、商務(wù)智能時(shí)代B、大數(shù)據(jù)時(shí)代C、數(shù)據(jù)富足供給時(shí)代D、數(shù)據(jù)智能時(shí)代【正確答案】:C解析:
Analytics3.0的名稱為數(shù)據(jù)富足供給時(shí)代(Data-enrichedOfferings)。與Analytics2.0不同的是,Analytics3.0中數(shù)據(jù)分析更為專業(yè)化,從技術(shù)實(shí)現(xiàn)和常用工具角度看,Analytics3.0將采用更為專業(yè)的分析工具,而不再直接采用Hadoop、Spark、NoSQL等大數(shù)據(jù)分析技術(shù)。同時(shí),數(shù)據(jù)分析工作也由專業(yè)從事數(shù)據(jù)分析的數(shù)據(jù)科學(xué)家-首席分析師完成,數(shù)據(jù)科學(xué)家的類型將得到進(jìn)一步細(xì)化。25.下列關(guān)于等距離散化和等頻離散化的敘述不正確的是()。A、等距離散化是將連續(xù)型特征的取值區(qū)間均勻地劃分成多個(gè)區(qū)間段B、等距離散化對(duì)數(shù)據(jù)離群值不敏感C、等頻離散化考慮了區(qū)間段中的樣本個(gè)數(shù),使每個(gè)區(qū)間段的樣本數(shù)相同D、等頻離散化會(huì)將相似的樣本劃分到不同的區(qū)間【正確答案】:B解析:
等距離散化對(duì)數(shù)據(jù)離群值敏感。26.()反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價(jià)值越高。A、規(guī)模B、靈活性C、關(guān)聯(lián)度D、顆粒度【正確答案】:D解析:
顆粒度反映的是數(shù)據(jù)的精細(xì)化程度。27.相關(guān)關(guān)系是一種與函數(shù)關(guān)系區(qū)別的非確定性關(guān)系,而相關(guān)分析就是研究事物或象之間是否存在這種非確定性關(guān)系的統(tǒng)計(jì)方法,下列不屬于相關(guān)性分析方法的()。A、Pearson相關(guān)系數(shù)B、Spearman秩相關(guān)系數(shù)C、Kendall相關(guān)系數(shù)D、傅里葉系數(shù)【正確答案】:D解析:
傅里葉系數(shù)由Fouriercoefficient翻譯而來(lái),有多個(gè)中文譯名。它是數(shù)學(xué)分析中的個(gè)概念,常常被應(yīng)用在信號(hào)處理領(lǐng)域中。對(duì)于任意的周期信號(hào),如果滿足一定條件,都可以展開(kāi)三角函數(shù)的線性組合,每個(gè)展開(kāi)項(xiàng)的系數(shù)稱為傅里葉系數(shù),不能用于解釋相關(guān)性。28.下列關(guān)于組織機(jī)構(gòu)的數(shù)據(jù)管理成熟度等級(jí)劃分中的已執(zhí)行級(jí)的描述錯(cuò)誤的是()。A、在具體項(xiàng)目中,DMM關(guān)鍵過(guò)程域(KPA)中給出的關(guān)鍵過(guò)程已被執(zhí)行,但隨意性和臨時(shí)性較大B、DMM關(guān)鍵過(guò)程的執(zhí)行不僅僅局限于特定業(yè)務(wù)范疇,存在跨越不同業(yè)務(wù)領(lǐng)域的關(guān)鍵過(guò)程C、缺少針對(duì)DMM關(guān)鍵過(guò)程的反饋與優(yōu)化D、雖然有可能在特定業(yè)務(wù)過(guò)程中進(jìn)行了基礎(chǔ)性改進(jìn),但沒(méi)有進(jìn)行持續(xù)跟進(jìn),也未拓展到整個(gè)組織機(jī)構(gòu)【正確答案】:B解析:
DMM的執(zhí)行級(jí)(PerformedLevel):組織機(jī)構(gòu)只在個(gè)別項(xiàng)目的范圍之內(nèi)執(zhí)行了DMM給出的關(guān)鍵過(guò)程,但缺乏機(jī)構(gòu)層次的統(tǒng)籌與管理。主要特點(diǎn)如下:①在具體項(xiàng)目中,DMM關(guān)鍵過(guò)程域(KPA)中給出的關(guān)鍵過(guò)程(KcyProcess)已被執(zhí)行,但隨意性和臨時(shí)性較大。②DMM關(guān)鍵過(guò)程(KeyProcess)的執(zhí)行往往僅限于特定業(yè)務(wù)范疇,很少存在跨越不同業(yè)務(wù)領(lǐng)域的關(guān)鍵過(guò)程。③缺少針對(duì)DMM關(guān)鍵過(guò)程(KeyProcess)的反饋與優(yōu)化。以DMM關(guān)鍵過(guò)程(KeyProcess)中的數(shù)據(jù)質(zhì)量為例,其數(shù)據(jù)管理工作可能過(guò)于集中在一個(gè)特定業(yè)務(wù),如數(shù)據(jù)修復(fù)活動(dòng),并沒(méi)有擴(kuò)散到整個(gè)的業(yè)務(wù)范圍或并沒(méi)有開(kāi)展對(duì)數(shù)據(jù)修復(fù)活動(dòng)本身的反饋與優(yōu)化工作;④雖然有可能在特定業(yè)務(wù)過(guò)程中已進(jìn)行了基礎(chǔ)性改進(jìn),但沒(méi)有進(jìn)行持續(xù)跟進(jìn),也未拓展到整個(gè)組織機(jī)構(gòu);⑤組織機(jī)構(gòu)沒(méi)有統(tǒng)籌其數(shù)據(jù)管理工作,而數(shù)據(jù)管理活動(dòng)局限在具體項(xiàng)目中,主要按照其具體項(xiàng)目的實(shí)施需求進(jìn)行,如果一個(gè)具體項(xiàng)目中需要進(jìn)行數(shù)據(jù)管理,可能會(huì)執(zhí)行DMM中給出的相關(guān)過(guò)程,反之亦然。29.下列關(guān)于數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)特點(diǎn)的描述不正確的是()。A、數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)要從數(shù)據(jù)出發(fā)B、數(shù)據(jù)倉(cāng)庫(kù)使用的需求在開(kāi)發(fā)初期就要明確C、數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)是一個(gè)不斷循環(huán)的過(guò)程,是啟發(fā)式的開(kāi)發(fā)D、在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)分析和處理更靈活,且沒(méi)有固定的模式【正確答案】:A解析:
數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)要從需求出發(fā)。30.已知一組數(shù)據(jù)的協(xié)方差矩陣,下列關(guān)于主分量說(shuō)法的錯(cuò)誤的是()。A、主分量分析的最佳準(zhǔn)則是對(duì)一組數(shù)據(jù)按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計(jì)算截尾誤差最小B、在經(jīng)主分量分解后,協(xié)方差矩陣成為對(duì)角矩陣C、主分量分析就是K-L變換D、主分量是通過(guò)求協(xié)方差矩陣的特征值得到【正確答案】:C解析:
K-L變換與PCA變換是不同的概念,PCA的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種。如二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等。當(dāng)K-L變換矩陣為協(xié)方差矩陣時(shí),等同于PCA。31.下列關(guān)于計(jì)算機(jī)存儲(chǔ)容量單位的說(shuō)法錯(cuò)誤的是()。A、1kBB、基本單位是字節(jié)(Byte)C、一個(gè)漢字需要一個(gè)字節(jié)的存儲(chǔ)空間D、一個(gè)字節(jié)能夠容納一個(gè)英文字符【正確答案】:C解析:
通常,一個(gè)漢字需要兩個(gè)字節(jié)的存儲(chǔ)空間。32.下列不能作為數(shù)據(jù)科學(xué)數(shù)據(jù)源的是()。A、醫(yī)院里的病歷、檢查、診斷等與健康相關(guān)的數(shù)據(jù)B、物聯(lián)網(wǎng)中涉及設(shè)備運(yùn)行情況的日志數(shù)據(jù)C、金融領(lǐng)域客戶的借款記錄以及信用情況D、個(gè)人電腦中用于備忘的日記【正確答案】:D解析:
數(shù)據(jù)科學(xué)數(shù)據(jù)源的前提條件是數(shù)據(jù)需要具備規(guī)律性、周期性等特征,個(gè)人電腦中用于備忘的日記一般不具備規(guī)律性。33.下列描述中不屬于向量空間模型缺陷的是()。A、維度災(zāi)難B、模型稀疏性C、語(yǔ)義信息缺失D、無(wú)法計(jì)算文本相似度【正確答案】:D解析:
無(wú)法計(jì)算文本相似度的原因有出現(xiàn)新詞在向量模型中沒(méi)有該詞匯或分詞工具對(duì)于詞匯切分與上次不同等其他原因。34.在一些算法中,為了進(jìn)行屬性之間的比較或運(yùn)算,需要把不同屬性的不同變量取值范圍變換成同一范圍,以免使得結(jié)果發(fā)生扭曲,偏向取值范圍大的變量。這一過(guò)程稱為()。A、合并B、數(shù)據(jù)聚合C、歸一化D、數(shù)據(jù)處理【正確答案】:C解析:
歸一化是一種無(wú)量綱處理手段,使物理系統(tǒng)數(shù)值的絕對(duì)值變成某種相對(duì)值關(guān)系,是簡(jiǎn)化計(jì)算、縮小量值的有效辦法。35.下列關(guān)于數(shù)據(jù)產(chǎn)品開(kāi)發(fā)關(guān)鍵環(huán)節(jié)的描述正確的是()。A、數(shù)據(jù)收集B、數(shù)據(jù)預(yù)處理C、數(shù)據(jù)學(xué)習(xí)D、數(shù)據(jù)加工【正確答案】:D解析:
數(shù)據(jù)加工(DataWrangling或DataMunging)是數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的關(guān)鍵環(huán)節(jié)。36.數(shù)據(jù)科學(xué)處于()三大領(lǐng)域的重疊之處。A、數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識(shí)B、數(shù)據(jù)挖掘、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識(shí)C、數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、數(shù)據(jù)挖掘、領(lǐng)域?qū)崉?wù)知識(shí)D、數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能、數(shù)據(jù)挖掘【正確答案】:A解析:
根據(jù)DrewConway的數(shù)據(jù)科學(xué)韋恩圖(DataScienceVennDiagram),數(shù)據(jù)科學(xué)處于數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能和領(lǐng)域?qū)崉?wù)知識(shí)等三大領(lǐng)域的交叉之處。37.2003年,Tableau在斯坦福大學(xué)誕生,它起源于一種改變數(shù)據(jù)使用方式的新技術(shù),即()A、VizQL語(yǔ)言B、SQL語(yǔ)言C、XSQL語(yǔ)言D、NewSQL語(yǔ)言【正確答案】:A解析:
VizQL是一種可視化查詢語(yǔ)言,可將拖放動(dòng)作轉(zhuǎn)化為數(shù)據(jù)查詢,然后以可視化的形式表達(dá)數(shù)據(jù),是Tableau的起源。38.下列關(guān)于數(shù)據(jù)清洗的說(shuō)法不正確的是()。A、對(duì)單數(shù)據(jù)源,主鍵取值不能重復(fù)B、多數(shù)據(jù)源會(huì)存在數(shù)據(jù)重復(fù)、單位不一致的問(wèn)題C、連續(xù)型數(shù)據(jù)不存在冗余問(wèn)題D、缺失值可以采用刪除和填補(bǔ)等方法處理【正確答案】:C解析:
連續(xù)型數(shù)據(jù)可能存在冗余問(wèn)題。39.下列關(guān)于缺失值填補(bǔ)的說(shuō)法不正確的是()。A、填補(bǔ)數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等B、Pandas.dropna可以用來(lái)填補(bǔ)缺失值C、用平均值填補(bǔ)會(huì)引入相關(guān)D、啞變量填補(bǔ)是將缺失值當(dāng)做一類新特征處理【正確答案】:B解析:
Pandas.dropna可以用來(lái)刪除缺失值。40.下列不屬于數(shù)據(jù)預(yù)處理方法的是()。A、數(shù)據(jù)清洗B、數(shù)據(jù)集成C、數(shù)據(jù)變換D、數(shù)據(jù)統(tǒng)計(jì)【正確答案】:D解析:
數(shù)據(jù)統(tǒng)計(jì)并非為數(shù)據(jù)預(yù)處理的常見(jiàn)內(nèi)容。41.下列描述中不屬于數(shù)據(jù)治理內(nèi)容的是()。A、理解自己的數(shù)據(jù)B、行為規(guī)范的制定C、崗位職責(zé)的定義D、獲得更多的數(shù)據(jù)【正確答案】:D解析:
獲得更多的數(shù)據(jù)不屬于數(shù)據(jù)治理。42.從復(fù)雜度及價(jià)值高低兩個(gè)維度,可以將數(shù)據(jù)分析分為()。A、描述性分析、診斷性分析、預(yù)測(cè)性分析、探索性分析B、探索性分析、診斷性分析、預(yù)測(cè)性分析、規(guī)范性分析C、探索性分析、描述性分析、預(yù)測(cè)性分析、規(guī)范性分析D、描述性分析、診斷性分析、預(yù)測(cè)性分析、規(guī)范性分析【正確答案】:D解析:
大數(shù)據(jù)分析使得決策有了科學(xué)基礎(chǔ),現(xiàn)在做決策可以基于實(shí)際的數(shù)據(jù)而不僅僅依賴于過(guò)去的經(jīng)驗(yàn)或者直覺(jué)。根據(jù)分析結(jié)果的不同,我們大致可以將數(shù)據(jù)分析分為描述性分析、診斷性分析、預(yù)測(cè)性分析、規(guī)范性分析四類,不同的分析類型將需要不同的技術(shù)和分析算法。43.下列關(guān)于在回歸分析中解釋變量與非解釋變量的說(shuō)法正確的是()。A、解釋變量和被解釋變量都是隨機(jī)變量B、解釋變量為非隨機(jī)變量,被解釋變量為隨機(jī)變量C、解釋變量和被解釋變量都為非隨機(jī)變量D、解釋變量為隨機(jī)變量,被解釋變量為非隨機(jī)變量【正確答案】:B解析:
在回歸分析中,解釋變量可以理解為自變量,具有確定性,因此為非隨機(jī)變量被解釋變量可以理解為因變量,具有隨機(jī)性,因此為隨機(jī)變量。44.大數(shù)據(jù)涌現(xiàn)現(xiàn)象的形式有多種,不屬于大數(shù)據(jù)涌現(xiàn)形式的是()。A、價(jià)值涌現(xiàn)B、隱私涌現(xiàn)C、物質(zhì)涌現(xiàn)D、質(zhì)量涌現(xiàn)【正確答案】:C解析:
大數(shù)據(jù)并不等同于小數(shù)據(jù)的集合。從小數(shù)據(jù)到大數(shù)據(jù)的過(guò)程中出現(xiàn)了涌現(xiàn)現(xiàn)象,涌現(xiàn)才是大數(shù)據(jù)的本質(zhì)特征。涌現(xiàn)(Emergence)就是系統(tǒng)大于元素之和,或者系統(tǒng)在跨越層次時(shí),出現(xiàn)了新的質(zhì)。大數(shù)據(jù)涌現(xiàn)現(xiàn)象的具體表現(xiàn)形式有多種,如價(jià)值涌現(xiàn)、隱私涌現(xiàn)、質(zhì)量涌現(xiàn)和安全涌現(xiàn)等。45.數(shù)據(jù)管理成熟度模型-DMM將一個(gè)機(jī)構(gòu)的數(shù)據(jù)管理工作抽象成6個(gè)關(guān)鍵過(guò)程域,即數(shù)據(jù)戰(zhàn)略、()、數(shù)據(jù)質(zhì)量、平臺(tái)與架構(gòu)、數(shù)據(jù)操作以及輔助性過(guò)程。A、數(shù)據(jù)管理B、數(shù)據(jù)治理C、數(shù)據(jù)策略D、數(shù)據(jù)安全【正確答案】:B解析:
DMM模型將一個(gè)機(jī)構(gòu)的數(shù)據(jù)管理工作抽象成6個(gè)關(guān)鍵過(guò)程域,即數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量、平臺(tái)與架構(gòu)、數(shù)據(jù)操作以及輔助性過(guò)程。46.關(guān)系云的一個(gè)重要功能是提供()。A、數(shù)據(jù)庫(kù)即服務(wù)B、虛擬服務(wù)C、彈性計(jì)算D、按需服務(wù)【正確答案】:A解析:
關(guān)系云的一個(gè)重要功能是提供數(shù)據(jù)庫(kù)即服務(wù)(DatabaseasaService),用戶無(wú)須在本機(jī)安裝數(shù)據(jù)庫(kù)管理軟件,也不需要搭建自己的數(shù)據(jù)管理集群,而只需要使用服務(wù)提供商提供的數(shù)據(jù)庫(kù)服務(wù)。47.數(shù)據(jù)的可用性取決于()。A、數(shù)據(jù)分析B、數(shù)據(jù)集采C、數(shù)據(jù)質(zhì)量D、數(shù)據(jù)需求【正確答案】:C解析:
略。48.集群的最主要“瓶頸”通常是()。A、CPUB、網(wǎng)絡(luò)C、磁盤I/OD、內(nèi)存【正確答案】:C解析:
磁盤I/O是不可擴(kuò)充的,其他的可以擴(kuò)充。49.數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù)是數(shù)據(jù)產(chǎn)品研發(fā)的()。A、零次數(shù)據(jù)B、一次數(shù)據(jù)C、二次數(shù)據(jù)D、采集數(shù)據(jù)【正確答案】:A解析:
零次數(shù)據(jù)是數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù),如各種感知儀器設(shè)備中直接生成的數(shù)據(jù)。零次數(shù)據(jù)中往往存在缺失值、噪聲、錯(cuò)誤或虛假數(shù)據(jù)等質(zhì)量問(wèn)題。50.數(shù)據(jù)科學(xué)家可能會(huì)同時(shí)使用多個(gè)算法(模型)進(jìn)行預(yù)測(cè),并且把這些算法的結(jié)果集成起來(lái)進(jìn)行最后的預(yù)測(cè)(集成學(xué)習(xí)),下列關(guān)于集成學(xué)習(xí)的說(shuō)法正確的是()。A、單個(gè)模型之間具有高相關(guān)性B、單個(gè)模型之間具有低相關(guān)性C、在集成學(xué)習(xí)中使用平均權(quán)重而不是投票會(huì)比較好D、單個(gè)模型都用同一個(gè)算法【正確答案】:B解析:
集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好、更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱模型得到了錯(cuò)誤的預(yù)測(cè),其他的弱模型也可以將錯(cuò)誤
糾正回來(lái)。某一個(gè)弱模型要有一定的準(zhǔn)確性,即學(xué)習(xí)器不能太壞,并且要有多樣性,即個(gè)體學(xué)習(xí)器間具有差異。集成中既可包含同種類型的弱模型,也可包含不同類型的弱模型。51.下列關(guān)于數(shù)據(jù)科學(xué)的描述錯(cuò)誤的是()。A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值,也不等同于數(shù)值B、數(shù)據(jù)科學(xué)中的計(jì)算包括數(shù)據(jù)的查詢、挖掘、洞見(jiàn)等C、數(shù)據(jù)科學(xué)強(qiáng)調(diào)的是跨學(xué)科視角D、數(shù)據(jù)科學(xué)不包括理論知識(shí),只包括領(lǐng)域?qū)崉?wù)經(jīng)驗(yàn)【正確答案】:D解析:
數(shù)據(jù)科學(xué)既包括理論知識(shí),又包括領(lǐng)域?qū)崉?wù)經(jīng)驗(yàn)。52.下列不屬于數(shù)據(jù)科學(xué)開(kāi)源工具的是()。A、MapReduceB、ERPC、HadoopD、Spark【正確答案】:B解析:
ERP系統(tǒng)是企業(yè)資源計(jì)劃(EnterpriseResourcePlanning)的簡(jiǎn)稱,是指建立在信息技術(shù)基礎(chǔ)上,集信息技術(shù)與先進(jìn)管理思想于一身,以系統(tǒng)化的管理思想,為企業(yè)員工及決策層提供決策手段的管理平臺(tái)。53.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換的說(shuō)法正確的是()。A、Json內(nèi)的取值只能有統(tǒng)一格式B、PDF文件在不同平臺(tái)上打開(kāi)顯示不同C、可以通過(guò)Python將CSV文件轉(zhuǎn)換成Excel格式D、Excel存儲(chǔ)數(shù)據(jù)的量無(wú)限制【正確答案】:C解析:
Json內(nèi)的取值可以有多種格式,PDF文件在不同平臺(tái)上打開(kāi)顯示相同,Excel存儲(chǔ)數(shù)據(jù)的量在Excel2007及以后版本,一個(gè)工作表最多可有1048576行、16384列。54.()是指?jìng)€(gè)體對(duì)視覺(jué)感知信息的進(jìn)一步加工處理過(guò)程,包括視覺(jué)信息的抽取、轉(zhuǎn)換、存儲(chǔ)、簡(jiǎn)化、合并、理解和決策加工活動(dòng)。A、視覺(jué)感知B、視覺(jué)認(rèn)知C、視覺(jué)編碼D、視覺(jué)轉(zhuǎn)換【正確答案】:B解析:
視覺(jué)感知(VisualPerception)是指客觀事物通過(guò)視覺(jué)感覺(jué)器官(眼睛等)在人腦中產(chǎn)生直接反應(yīng)的過(guò)程。視覺(jué)感知是產(chǎn)生視覺(jué)認(rèn)知的前提條件。視覺(jué)認(rèn)知(VisualCognition)是指?jìng)€(gè)體對(duì)視覺(jué)感知信息的進(jìn)一步加工處理過(guò)程,包括視覺(jué)信息的抽取、轉(zhuǎn)換、存儲(chǔ)、簡(jiǎn)化、合并、理解和決策等加工活動(dòng)。55.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為()。A、信息(活動(dòng))價(jià)值鏈和信息技術(shù)價(jià)值鏈B、信息技術(shù)價(jià)值鏈和信息(活動(dòng))價(jià)值鏈C、信息交互價(jià)值鏈和信息技術(shù)價(jià)值鏈D、信息(活動(dòng))價(jià)值鏈和信息交互價(jià)值鏈【正確答案】:A解析:
大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價(jià)值鏈的信息價(jià)值鏈(水平軸)和信息技術(shù)價(jià)值鏈(垂直軸)兩個(gè)維度組織展開(kāi)。56.下列關(guān)于可視化方法體系的說(shuō)法不正確的是()。A、通常采用視覺(jué)圖形元素和視覺(jué)通道兩個(gè)維度進(jìn)行視覺(jué)編碼B、常用的共性方法有統(tǒng)計(jì)圖表、圖論方法、視覺(jué)隱喻和圖形符號(hào)學(xué)等C、領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果往往低于基礎(chǔ)方法的直接應(yīng)用D、視覺(jué)編碼為其他數(shù)據(jù)可視化方法提供了方法學(xué)基礎(chǔ)【正確答案】:C解析:
領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果高于基礎(chǔ)方法的直接應(yīng)用。57.下列關(guān)于數(shù)據(jù)倉(cāng)庫(kù)最終目的的描述正確的是()。A、收集業(yè)務(wù)需求B、建立數(shù)據(jù)倉(cāng)庫(kù)邏輯模型C、開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用分析D、為用戶和業(yè)務(wù)部門提供決策支持【正確答案】:D解析:
數(shù)據(jù)倉(cāng)庫(kù)的最終目的是為用戶和業(yè)務(wù)部門提供決策支持。58.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過(guò)軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的(不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。A、暫時(shí)隔離B、暫時(shí)刪除C、永久刪除D、不做處理【正確答案】:C解析:
數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過(guò)軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的永刪除、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。59.()是指針對(duì)用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實(shí)現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價(jià)值最重要也是最直接的發(fā)現(xiàn)方式。A、數(shù)據(jù)服務(wù)B、數(shù)據(jù)分析C、數(shù)據(jù)治理D、數(shù)據(jù)應(yīng)用【正確答案】:A解析:
數(shù)據(jù)服務(wù)指針對(duì)用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實(shí)現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價(jià)值最重要也是最直接的發(fā)現(xiàn)方式。60.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是下列步驟中()的任務(wù)。A、頻繁模式挖掘B、分類和預(yù)測(cè)C、數(shù)據(jù)預(yù)處理D、數(shù)據(jù)流挖掘【正確答案】:C解析:
數(shù)據(jù)預(yù)處理是對(duì)原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約的過(guò)程。頻繁模式挖掘、分類和預(yù)測(cè)和數(shù)據(jù)流挖掘均屬于數(shù)據(jù)挖掘范疇。61.根據(jù)數(shù)據(jù)管理計(jì)劃,設(shè)計(jì)或選擇具體方法實(shí)行計(jì)劃中的工作內(nèi)容,屬于數(shù)據(jù)治理的()過(guò)程。A、計(jì)劃B、執(zhí)行C、檢查D、改進(jìn)【正確答案】:B解析:
數(shù)據(jù)治理并不是一次性工作,而是一種循序漸進(jìn)的過(guò)程,主要包含計(jì)劃、執(zhí)行、檢查和改進(jìn)等基本活動(dòng),即數(shù)據(jù)治理的PDCA模型,其中:①計(jì)劃(Plan):數(shù)據(jù)管理方針和目標(biāo)的確定,明確組織機(jī)構(gòu)的數(shù)據(jù)管理的目的、邊界和工作內(nèi)容;②執(zhí)行(Do):根據(jù)數(shù)據(jù)管理計(jì)劃,設(shè)計(jì)或選擇具體的方法、技術(shù)、工具等解決方案,實(shí)現(xiàn)計(jì)劃中的工作內(nèi)容;③檢查(Check):定期檢查執(zhí)行效果,進(jìn)行績(jī)效評(píng)估,并發(fā)現(xiàn)存在問(wèn)題與潛在風(fēng)險(xiǎn);④改進(jìn)(Action):根據(jù)檢查結(jié)果中發(fā)現(xiàn)的問(wèn)題與風(fēng)險(xiǎn),進(jìn)一步改進(jìn)自己的數(shù)據(jù)管理工作。62.()是一個(gè)組織機(jī)構(gòu)的數(shù)據(jù)管理的愿景、目標(biāo)以及功能藍(lán)圖的統(tǒng)一管理。A、數(shù)據(jù)治理B、數(shù)據(jù)戰(zhàn)略C、數(shù)據(jù)加工D、數(shù)據(jù)能力【正確答案】:B解析:
數(shù)據(jù)戰(zhàn)略(DataStrategy)是一個(gè)機(jī)構(gòu)的數(shù)據(jù)管理的愿景、目標(biāo)以及功能藍(lán)圖的統(tǒng)一管理。從DMM模型可看出,數(shù)據(jù)戰(zhàn)略是組織機(jī)構(gòu)的數(shù)據(jù)管理工作的重要前提。63.異常檢測(cè)中,檢測(cè)一元正態(tài)分布中的離群點(diǎn)基于的技術(shù)是()。A、統(tǒng)計(jì)方法B、鄰近度C、密度D、機(jī)器學(xué)習(xí)技術(shù)【正確答案】:A解析:
略。64.()是從(多條)信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論、方法。A、信息B、數(shù)據(jù)C、知識(shí)D、智慧【正確答案】:C解析:
知識(shí)是人們從數(shù)據(jù)、信息中發(fā)現(xiàn)的,在數(shù)據(jù)/信息中存在的共性規(guī)律、認(rèn)識(shí)、經(jīng)驗(yàn)與常識(shí)。通常根據(jù)能否清晰地表述和有效地轉(zhuǎn)移,將知識(shí)分為顯性知識(shí)(ExplicitKnowledge)和隱性知識(shí)(TacitKnowledge)兩種。65.有研究發(fā)現(xiàn)“頁(yè)面的顯示速度每延遲1s,網(wǎng)站訪問(wèn)量就會(huì)降低11%,從而導(dǎo)致?tīng)I(yíng)業(yè)額或者注冊(cè)量減少7%,顧客滿意度下降16%”。該項(xiàng)研究表明了在數(shù)據(jù)產(chǎn)品開(kāi)發(fā)中更加重要的是()。A、查全率B、用戶體驗(yàn)C、數(shù)據(jù)可視化D、查準(zhǔn)率【正確答案】:B解析:
在大數(shù)據(jù)時(shí)代,用戶體驗(yàn)更加重要。66.下列關(guān)于數(shù)據(jù)整合和分組的說(shuō)法不正確的是()。A、數(shù)據(jù)連接可以用concat或merge函數(shù)B、axiis=11表示軸向連接C、數(shù)據(jù)分組可以使用mean函數(shù)D、使用agg可以自定義多個(gè)聚合函數(shù)【正確答案】:C解析:
數(shù)據(jù)分組不可以使用mcan函數(shù),mean函數(shù)為求平均數(shù)函數(shù)。67.下列關(guān)于描述性分析與探索性分析的描述正確的是()。A、描述性分析是相對(duì)于驗(yàn)證性分析的一種提法B、探索性分析是驗(yàn)證性分析的基礎(chǔ)C、探索性分析是相對(duì)于驗(yàn)證性分析的一種提法D、探索性分析是數(shù)據(jù)分析的第一步【正確答案】:C解析:
描述性分析與探索性分析兩者的區(qū)別:
(1)描述性分析(DescriptiveAnalytics)是相對(duì)于診斷性分析、預(yù)測(cè)性分析和規(guī)范性分析的一種提法,主要指的是對(duì)一組數(shù)據(jù)的各種統(tǒng)計(jì)特征(如平均數(shù)、標(biāo)準(zhǔn)差、中位數(shù)、頻數(shù)分布、正態(tài)或偏態(tài)程度等)進(jìn)行分析,以便描述測(cè)量樣本的各種特征及其所對(duì)應(yīng)總體的特征。
(2)探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)是相對(duì)于驗(yàn)證性分析的一種提法,主要指的是指在盡量少的先驗(yàn)假定下,對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))進(jìn)行探索,并通過(guò)作圖、制表、方程擬合、計(jì)算特征量等較為簡(jiǎn)單的方法,探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。68.下列關(guān)于數(shù)據(jù)的描述錯(cuò)誤的是()。A、數(shù)據(jù)化與數(shù)字化是兩個(gè)不同概念B、數(shù)據(jù)與數(shù)值是一個(gè)概念C、大數(shù)據(jù)與海量數(shù)據(jù)是兩個(gè)不同的概念D、數(shù)據(jù)和信息是兩個(gè)不同的概念【正確答案】:B解析:
除了數(shù)值,數(shù)據(jù)科學(xué)中的數(shù)據(jù)還包括文字、圖形、圖像、動(dòng)畫、文本、語(yǔ)音、視頻、多媒體和富媒體等多種類型。69.下列關(guān)于數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間變化的描述不正確的是()。A、數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容B、捕捉到的新數(shù)據(jù)會(huì)覆蓋原來(lái)的快照C、數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間變化不斷刪去舊的數(shù)據(jù)內(nèi)容D、數(shù)據(jù)倉(cāng)庫(kù)中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合【正確答案】:C解析:
一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。70.大數(shù)據(jù)的“4V”特性不包括()。A、VolumeB、VelocityC、VisualD、Variety【正確答案】:C解析:
通常,用“4V”來(lái)表示大數(shù)據(jù)的基本特征:Volume(數(shù)據(jù)量大)、Variety(類型多)、Value(價(jià)值高)、Velocity(速度快)。71.具有體量大、來(lái)源多樣、生成極快和多變等特征并且難以用傳統(tǒng)數(shù)據(jù)體系機(jī)構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)是()。A、海量數(shù)據(jù)B、大數(shù)據(jù)C、厚數(shù)據(jù)D、異構(gòu)數(shù)據(jù)【正確答案】:B解析:
GB/T35295-2017《信息技術(shù)/大數(shù)據(jù)/術(shù)語(yǔ)》認(rèn)為,大數(shù)據(jù)是具有體量大、來(lái)源多樣、生成極快、多變等特征,并且難以用傳統(tǒng)數(shù)據(jù)體系機(jī)構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)。72.()的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過(guò)程。A、數(shù)據(jù)處理B、數(shù)據(jù)計(jì)算C、數(shù)據(jù)加工D、整齊數(shù)據(jù)【正確答案】:C解析:
數(shù)據(jù)加工(DataWrangling或DataMunging)的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過(guò)程。從加工程度看,數(shù)據(jù)可以分為零次、一次、二次、三次數(shù)據(jù)。73.數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),下列不是其搜索過(guò)程特點(diǎn)的是()。A、有選擇B、有策略C、有目標(biāo)D、反復(fù)進(jìn)行的【正確答案】:C解析:
數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),其搜索過(guò)程是有選擇、有策略和反復(fù)進(jìn)行的。74.一位母親記錄了兒子3~9歲的身高,由此建立的身高與年齡的回歸直線方程J=7.19x+73.93,據(jù)此可以預(yù)測(cè)這個(gè)孩子10歲時(shí)的身高,則下列敘述正確的是(A、身高一定是145.83cmB、身高一定超過(guò)146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正確答案】:D解析:
回歸直線方程預(yù)測(cè)時(shí),出現(xiàn)的誤差方向不能確定。75.下列關(guān)于數(shù)據(jù)重組的說(shuō)法錯(cuò)誤的是()。A、數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集B、數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C、數(shù)據(jù)重組實(shí)現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D、數(shù)據(jù)重組有利于實(shí)現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新【正確答案】:A解析:
數(shù)據(jù)重組將數(shù)據(jù)庫(kù)內(nèi)各數(shù)據(jù)的相關(guān)信息重新組織。76.()是指理解挖掘項(xiàng)目的目標(biāo)業(yè)務(wù)需求。A、業(yè)務(wù)理解B、數(shù)據(jù)理解C、數(shù)據(jù)準(zhǔn)備D、數(shù)據(jù)建模【正確答案】:A解析:
根據(jù)跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(cross-industrystandardprocessfordatamining,CRISP-DM)模型,業(yè)務(wù)理解是指從業(yè)務(wù)的角度了解項(xiàng)目的要求和最終目的,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來(lái)。77.數(shù)據(jù)科學(xué)基本原則中,基于數(shù)據(jù)的智能的主要特點(diǎn)是()。A、數(shù)據(jù)簡(jiǎn)單,但算法簡(jiǎn)單B、數(shù)據(jù)復(fù)雜,但算法簡(jiǎn)單C、數(shù)據(jù)簡(jiǎn)單,但算法復(fù)雜D、數(shù)據(jù)復(fù)雜,但算法復(fù)雜【正確答案】:B解析:
數(shù)據(jù)科學(xué)對(duì)智能的實(shí)現(xiàn)方式有了新的認(rèn)識(shí)-從基于算法的智能到基于數(shù)據(jù)的智能過(guò)渡。基于數(shù)據(jù)的智能的重要特點(diǎn)是數(shù)據(jù)復(fù)雜,但算法簡(jiǎn)單。78.大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用()。A、所有數(shù)據(jù)B、部分?jǐn)?shù)據(jù)C、少量數(shù)據(jù)D、抽樣數(shù)據(jù)【正確答案】:A解析:
大數(shù)據(jù)的一種表現(xiàn)形式為接近其總體的所有數(shù)據(jù)。79.DIKW金字塔模型中,頂層與底層的名稱分別為()。A、智慧與數(shù)據(jù)B、知識(shí)與數(shù)據(jù)C、智慧與數(shù)值D、知識(shí)與數(shù)值【正確答案】:A解析:
DIKW金字塔(DIKWPyramid)模型揭示了數(shù)據(jù)(Data)與信息(Information)、知識(shí)(Knowledge)、智慧(Wisdom)之間的區(qū)別與聯(lián)系,自底向上分別為數(shù)據(jù)、信息、知識(shí)、智慧。80.下列不是開(kāi)源工具特點(diǎn)的是()。A、免費(fèi)B、可以直接獲取源代碼C、用戶可以修改源代碼并不加說(shuō)明用于自己的軟件中D、開(kāi)源工具一樣具有版權(quán)【正確答案】:C解析:
延伸的代碼中(修改和有源代碼衍生的代碼中)需要帶有原來(lái)代碼中的協(xié)議、商標(biāo)、專利聲明和其他原來(lái)作者規(guī)定需要包含的說(shuō)明。如果再發(fā)布的產(chǎn)品中包含一個(gè)Notice文件,則在Notice文件中需要帶有開(kāi)源工具的Licence。你可以在Notice中增加自己的許可,但不可以表現(xiàn)為對(duì)開(kāi)源工具Licence構(gòu)成更改。81.()是指對(duì)于數(shù)據(jù)局部不良行為的非敏感性,是探索性分析追求的主要目標(biāo)之一。A、魯棒性B、穩(wěn)定性C、可靠性D、耐抗性【正確答案】:D解析:
耐抗性(Resistance)為探索性數(shù)據(jù)分析的四個(gè)指標(biāo)之一,是指對(duì)于數(shù)據(jù)的局部不良行為的非敏感性,是探索性分析追求的主要目標(biāo)之一。對(duì)于具有耐抗性的分析結(jié)果,當(dāng)數(shù)據(jù)的一小部分被新的數(shù)據(jù)代替時(shí),即使它們與原來(lái)的數(shù)值差別很大,分析結(jié)果也只會(huì)有輕微的改變。82.下列描述中屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過(guò)程域數(shù)據(jù)戰(zhàn)略的是()。A、數(shù)據(jù)戰(zhàn)略制定B、業(yè)務(wù)術(shù)語(yǔ)表C、數(shù)據(jù)質(zhì)量評(píng)估D、過(guò)程質(zhì)量保障【正確答案】:A解析:
數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過(guò)程域“數(shù)據(jù)戰(zhàn)略”。83.大數(shù)據(jù)環(huán)境下的隱私擔(dān)憂,主要表現(xiàn)為()。A、人信息的被識(shí)別與暴露B、用戶畫像的生成C、廣告的推送D、病毒入侵【正確答案】:A解析:
大數(shù)據(jù)環(huán)境下的隱私擔(dān)憂,主要表現(xiàn)為人信息的被識(shí)別與暴露。84.離散程度的測(cè)度值愈大,則()。A、反映變量值愈分散,算術(shù)平均數(shù)代表性愈差B、反映變量值愈集中,算術(shù)平均數(shù)代表性愈差C、反映變量值愈分散,算術(shù)平均數(shù)代表性愈好D、反映變量值愈集中,算術(shù)平均數(shù)代表性愈好【正確答案】:A解析:
離散程度的測(cè)度值愈大,則反映變量值愈分散,算術(shù)平均數(shù)代表性愈差。85.數(shù)據(jù)科學(xué)中,人們開(kāi)始注意到傳統(tǒng)數(shù)據(jù)處理方式中普遍存在的信息丟失現(xiàn)象,進(jìn)而數(shù)據(jù)處理范式變?yōu)椋ǎ?。A、從產(chǎn)品在先,數(shù)據(jù)在后范式轉(zhuǎn)向數(shù)據(jù)在先,產(chǎn)品在后范式或無(wú)模式B、從模式在先,產(chǎn)品在后范式轉(zhuǎn)向產(chǎn)品在先,模式在后范式或無(wú)模式C、從數(shù)據(jù)在先,模式在后范式或無(wú)模式轉(zhuǎn)向模式在先,數(shù)據(jù)在后范式D、從模式在先,數(shù)據(jù)在后范式轉(zhuǎn)向數(shù)據(jù)在先,模式在后范式或無(wú)模式【正確答案】:D解析:
傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中,先定義模式,然后嚴(yán)格按照模式要求存儲(chǔ)數(shù)據(jù);當(dāng)需要調(diào)整模式時(shí),不僅需要數(shù)據(jù)結(jié)構(gòu),而且還需要修改上層應(yīng)用程序。然而,NoSQL技術(shù)則采用了非常簡(jiǎn)單的Key-Value等模式在后(SchemaLater)和無(wú)模式(Schemaless)的方式提升了數(shù)據(jù)管理系統(tǒng)的自適應(yīng)能力。當(dāng)然,模式在后(SchemaLater)和無(wú)模式(Schemaless)也會(huì)帶來(lái)新問(wèn)題,如降低了數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)處理能力。86.下列屬于無(wú)監(jiān)督學(xué)習(xí)的是()。A、K-meansB、SVMC、最大熵D、CRF【正確答案】:A解析:
K-means是一個(gè)將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進(jìn)行分類組織的過(guò)程,這是一個(gè)典型聚類算法,聚類就是一種發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù),該類算法被稱為無(wú)監(jiān)督學(xué)習(xí)。87.數(shù)據(jù)科學(xué)項(xiàng)目應(yīng)遵循一般項(xiàng)目管理的原則和方法,涉及()。A、整體、范圍、時(shí)間、成本、質(zhì)量、溝通、風(fēng)險(xiǎn)、宣傳、消費(fèi)B、整體、范圍、時(shí)間、成本、質(zhì)量、人力資源、溝通、風(fēng)險(xiǎn)、采購(gòu)C、整體、范圍、時(shí)間、成本、質(zhì)量、人力資源、運(yùn)維、采購(gòu)、宣傳D、整體、范圍、時(shí)間、成本、質(zhì)量、人力資源、采購(gòu)、宣傳、運(yùn)維【正確答案】:B解析:
數(shù)據(jù)科學(xué)項(xiàng)目應(yīng)遵循一般項(xiàng)目管理的原則和方法,涉及整體、范圍、時(shí)間、成本、質(zhì)量、人力資源、溝通、風(fēng)險(xiǎn)、采購(gòu)。88.下列關(guān)于線性回歸分析中的殘差的說(shuō)法正確的是()。A、殘差均值總是為零B、殘差均值總是約等于零C、殘差均值總是大于零D、以上答案都不正確【正確答案】:A解析:
線性回歸分析中,目標(biāo)是殘差最小化。殘差平方和是關(guān)于參數(shù)的函數(shù),為了求殘差極小值,令殘差關(guān)于參數(shù)的偏導(dǎo)數(shù)為零,會(huì)得到殘差和為零,即殘差均值為零。89.下列不屬于大數(shù)據(jù)平臺(tái)安全管理組件提供的功能的是()。A、接口代理B、接口認(rèn)證C、接口授權(quán)D、路由代理【正確答案】:D解析:
接口可以對(duì)用戶的身份和請(qǐng)求的參數(shù)進(jìn)行驗(yàn)證,以保證接口的安全。通過(guò)添加身份驗(yàn)證和數(shù)字簽名的方法提高接口安全性,防止數(shù)據(jù)被篡改和信息泄露。90.建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的()。A、基礎(chǔ)B、前提C、核心D、條件【正確答案】:C解析:
略。91.下列關(guān)于特征編碼的敘述不正確的是()。A、特征編碼是將非數(shù)值型特征轉(zhuǎn)換成數(shù)值型特征的方法B、數(shù)字編碼與特征的排序無(wú)關(guān)C、One-Hot編碼中,原始特征有n種取值,轉(zhuǎn)換后就會(huì)產(chǎn)生n列新特征D、啞變量編碼解決了One-Hot編碼中存在線性關(guān)系的問(wèn)題【正確答案】:B解析:
數(shù)字編碼與特征的排序有關(guān),先出現(xiàn)的優(yōu)先排序。92.下列基本活動(dòng)中不屬于數(shù)據(jù)產(chǎn)品開(kāi)發(fā)工作之中需要特別注意的是()。A、創(chuàng)造性設(shè)計(jì)B、數(shù)據(jù)洞見(jiàn)C、虛擬化D、個(gè)性化描述【正確答案】:D解析:
數(shù)據(jù)產(chǎn)品開(kāi)發(fā)工作之中需要注意有創(chuàng)造性設(shè)計(jì)、數(shù)據(jù)洞見(jiàn)、虛擬化等基本活動(dòng)。93.圖靈獎(jiǎng)獲得者JimGray提出的科學(xué)研究第四范式的全稱為()。A、數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)B、以數(shù)據(jù)為中心的科學(xué)發(fā)現(xiàn)C、數(shù)據(jù)驅(qū)動(dòng)型的科學(xué)發(fā)現(xiàn)D、大數(shù)據(jù)科學(xué)研究【正確答案】:A解析:
2007年,圖靈獎(jiǎng)獲得者JimGray提出了科學(xué)研究的第四范式-數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensiveScientificDiscovery)。在他看來(lái),人類科學(xué)研究活動(dòng)已經(jīng)歷過(guò)三種不同范式的演變過(guò)程(原始社會(huì)的實(shí)驗(yàn)科學(xué)范式、以模型和歸納為特征的理論科學(xué)范式和以模擬仿真為特征的計(jì)算科學(xué)范式),目前正在從計(jì)算科學(xué)范式轉(zhuǎn)向數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式。94.第一數(shù)字定律中使用概率最大的數(shù)字是()。A、0B、1C、2D、3【正確答案】:B解析:
第一數(shù)字定律表示,數(shù)字1使用最多,使用概率接近1/3;數(shù)字2為17.6%;數(shù)字3為12.5%;依次遞減,數(shù)字9的使用概率是4.6%。95.下列描述中不屬于數(shù)據(jù)預(yù)處理方法的是()。A、數(shù)據(jù)清洗:去噪聲和無(wú)關(guān)數(shù)據(jù)B、數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中C、數(shù)據(jù)變換:把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式D、數(shù)據(jù)轉(zhuǎn)化:把連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)【正確答案】:D解析:
數(shù)據(jù)轉(zhuǎn)化多為將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。例如將性別[男,女]分別轉(zhuǎn)換為[0,1]。96.下列情景中不屬于數(shù)據(jù)故事化的是()。A、還原情景B、統(tǒng)計(jì)情景C、移植情景D、虛構(gòu)情景【正確答案】:B解析:
數(shù)據(jù)的故事化描述(Storytelling)是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗(yàn)性,將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過(guò)程。由此可見(jiàn),數(shù)據(jù)故事化也是數(shù)據(jù)轉(zhuǎn)換的表現(xiàn)形式之一,其本質(zhì)是以故事講述的方式展現(xiàn)數(shù)據(jù)的內(nèi)容。數(shù)據(jù)故事化中的情景,可以是:①還原情景:還原數(shù)據(jù)所計(jì)量和記錄信息時(shí)的原始情景;②移植情景:并非對(duì)應(yīng)信息的原始情景,而是將數(shù)據(jù)移植到另一個(gè)真實(shí)發(fā)生的情景(如目標(biāo)用戶比較熟悉的情景)之中;③虛構(gòu)情景:數(shù)據(jù)的故事化描述中所選擇的情景并非為真實(shí)存在的情景,而是根據(jù)講述人的想象力設(shè)計(jì)出來(lái)的虛構(gòu)情景。97.數(shù)據(jù)集成的基本類型是()。A、內(nèi)容集成、結(jié)構(gòu)集成B、內(nèi)容集成、規(guī)約集成C、規(guī)約集成、結(jié)構(gòu)集成D、模式集成、結(jié)構(gòu)集成【正確答案】:A解析:
數(shù)據(jù)集成是指通過(guò)應(yīng)用間的數(shù)據(jù)交換從而達(dá)到集成,主要解決數(shù)據(jù)的分布性和異構(gòu)性的問(wèn)題,其前提是被集成應(yīng)用必須公開(kāi)數(shù)據(jù)結(jié)構(gòu),即必須公開(kāi)表間結(jié)構(gòu)、表間關(guān)系、編碼的含義等。98.在數(shù)據(jù)科學(xué)項(xiàng)目的活動(dòng)流程中,主要用于回答“我們用什么方式記錄和展現(xiàn)數(shù)據(jù)結(jié)果”問(wèn)題的是()。A、數(shù)據(jù)的獲得與管理B、模式/模型的驗(yàn)證和優(yōu)化C、結(jié)果的可視化與文檔化D、模式/模型的應(yīng)用及維護(hù)【正確答案】:C解析:
結(jié)果的可視化與文檔化階段主要回答的問(wèn)題是“我們用什么方式記錄和展現(xiàn)數(shù)據(jù)結(jié)果”。結(jié)果的可視化和文檔化分別代表的是數(shù)據(jù)項(xiàng)目結(jié)果的可視化表達(dá)和文檔化記錄(包括故事化描述)。可視化和文檔化方式的選擇對(duì)于數(shù)據(jù)科學(xué)項(xiàng)目的成敗,尤其是項(xiàng)目干系人(Stakeholders)的正確理解具有重要意義。99.下列關(guān)于OLAP和OLTP的區(qū)別描述不正確的是()。A、OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應(yīng)用程序不同B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù)C、OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高D、OLAP是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的,但其最終數(shù)據(jù)來(lái)源與OLTP一樣均來(lái)自底層的數(shù)據(jù)庫(kù)系統(tǒng),兩者面對(duì)的用戶是相同的【正確答案】:C解析:
OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,記錄即時(shí)的增、刪、改、查,比如在銀行存取一筆款,就是一個(gè)事務(wù)交易。OLAP即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉(cāng)庫(kù)的核心,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動(dòng)態(tài)報(bào)表系統(tǒng)。100.下列不屬于現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型的是()。A、數(shù)據(jù)源與AppB、基礎(chǔ)設(shè)施C、HadoopD、數(shù)據(jù)資源【正確答案】:C解析:
Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape),首次較為全面地刻畫了當(dāng)時(shí)快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來(lái),該圖及其畫法成為大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具,得到廣泛地應(yīng)用和不斷地更新。MattTurck等組織繪制了2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)。從2017人數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型包括數(shù)據(jù)資源、數(shù)據(jù)源與App、開(kāi)源工具、跨平臺(tái)基礎(chǔ)設(shè)施和分析工具、行業(yè)應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。1.傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)包括()。A、數(shù)據(jù)一致性高B、數(shù)據(jù)冗余度低C、簡(jiǎn)單處理的效率高D、產(chǎn)品成熟度高【正確答案】:ABD解析:
略。2.下列關(guān)于中心極限定理的說(shuō)法正確的有()。A、中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗(yàn)提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計(jì)學(xué)和誤差分析的基礎(chǔ)【正確答案】:ACD解析:
中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限。3.ETL包含的過(guò)程有()。A、數(shù)據(jù)抽取B、數(shù)據(jù)轉(zhuǎn)換C、數(shù)據(jù)加載D、數(shù)據(jù)展現(xiàn)【正確答案】:ABC解析:
ETL是英文Extract-Transform-Load的縮寫,用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取tract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程。4.下列既可以用于分類,又可以用于回歸的機(jī)器學(xué)習(xí)算法有()。A、k近鄰B、邏輯回歸C、決策樹(shù)D、線性回歸【正確答案】:AC解析:
邏輯回歸只用于分類,線性回歸只用于回歸。5.下列屬于大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)的方面有()。A、具有勞動(dòng)增值B、涉及法律權(quán)屬C、具有財(cái)務(wù)價(jià)值D、涉及道德與倫理【正確答案】:ABCD解析:
大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動(dòng)增值、涉及法律權(quán)屬、具有財(cái)務(wù)價(jià)值、涉及道德與倫理。6.區(qū)塊鏈?zhǔn)牵ǎ┑扔?jì)算機(jī)技術(shù)的新型應(yīng)用模式。A、分布式數(shù)據(jù)存儲(chǔ)B、點(diǎn)對(duì)點(diǎn)傳輸C、共識(shí)機(jī)制D、加密算法【正確答案】:ABCD解析:
區(qū)塊鏈?zhǔn)欠植际綌?shù)據(jù)存儲(chǔ)、點(diǎn)對(duì)點(diǎn)傳輸、共識(shí)機(jī)制、加密算法等計(jì)算機(jī)技術(shù)的新型應(yīng)用模式。7.下列關(guān)于CAP理論說(shuō)法正確的有()。A、一個(gè)分布式系統(tǒng)不能同時(shí)滿足一致性、可用性和分區(qū)容錯(cuò)性等需求B、一致性主要指強(qiáng)一致性C、一致性、可用性和分區(qū)容錯(cuò)性中的任何兩個(gè)特征的保證(爭(zhēng)取)可能導(dǎo)致另一特征的損失(放棄)D、可用性指每個(gè)操作總是在給定時(shí)間之內(nèi)得到返回所需要的結(jié)果【正確答案】:ABCD解析:
CAP理論認(rèn)為,一個(gè)分布式系統(tǒng)不能同時(shí)滿足一致性(Consistency)、可用(Availability)和分區(qū)容錯(cuò)性(PartitionTolerance)等需求,而最多只能同時(shí)滿足其中的兩個(gè)特征。CAP理論告訴我們,數(shù)據(jù)管理不一定是理想的-一致性、可用性和分區(qū)容錯(cuò)性中的任何兩個(gè)特征的保證(爭(zhēng)?。┛赡軐?dǎo)致另一個(gè)特征的損失(放棄)。8.下列屬于數(shù)據(jù)統(tǒng)計(jì)分析工具的有()。A、WekaB、SASC、SPSSD、Matlab【正確答案】:ABCD解析:
常用統(tǒng)計(jì)軟件的種類包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。9.下列關(guān)于數(shù)據(jù)產(chǎn)品研發(fā)的說(shuō)法錯(cuò)誤的有()。A、從加工程度看,可以將數(shù)據(jù)分為一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)B、一次數(shù)據(jù)中往往存在缺失值、噪聲、錯(cuò)誤或虛假數(shù)據(jù)等質(zhì)量問(wèn)題C、二次數(shù)據(jù)是對(duì)一次數(shù)據(jù)進(jìn)行深度處理或分析后得到的增值數(shù)據(jù)D、三次數(shù)據(jù)是對(duì)二次數(shù)據(jù)進(jìn)行洞察與分析后得到的、可以直接用于決策支持的洞見(jiàn)數(shù)據(jù)【正確答案】:ABD解析:
二次數(shù)據(jù)是一種按照信息的生產(chǎn)過(guò)程和加工深度進(jìn)行對(duì)信息進(jìn)行分類的,是指根據(jù)特定的需求,對(duì)一次信息進(jìn)行加工、分析、改編、重組、綜合概括生成的信息。10.大數(shù)據(jù)偏見(jiàn)包括()。A、數(shù)據(jù)源的選擇偏見(jiàn)B、算法與模型偏見(jiàn)C、結(jié)果解讀方法的偏見(jiàn)D、數(shù)據(jù)呈現(xiàn)方式的偏見(jiàn)【正確答案】:ABCD解析:
大數(shù)據(jù)偏見(jiàn)是數(shù)據(jù)科學(xué)項(xiàng)目中必須關(guān)注和加以避免的問(wèn)題,上述四個(gè)活動(dòng)中均可能出現(xiàn)偏見(jiàn)。11.參數(shù)估計(jì)可以分為()。A、點(diǎn)估計(jì)B、一致估計(jì)C、區(qū)間估計(jì)D、無(wú)偏估計(jì)【正確答案】:AC解析:
參數(shù)估計(jì)可以分為點(diǎn)估計(jì)、區(qū)間估計(jì)。12.下列為離散型變量的有()。A、示波器B、心電圖及腦動(dòng)電圖掃描器對(duì)腦電波的測(cè)量C、過(guò)去數(shù)月的總銷售額D、公司每年的紅利【正確答案】:CD解析:
在統(tǒng)計(jì)學(xué)中,變量按其數(shù)值表現(xiàn)是否連續(xù),分為連續(xù)變量和離散變量。離散變量指變量值可以按一定順序一一列舉,通常以整數(shù)位取值的變量,如職工人數(shù)、工廠數(shù)、機(jī)器臺(tái)數(shù)等。有些性質(zhì)上屬于連續(xù)變量的現(xiàn)象也按整數(shù)取值,即可以把它們當(dāng)做離散變量來(lái)看待。例如年齡、評(píng)定成績(jī)等雖屬連續(xù)變量,但一般按整數(shù)計(jì)算,按離散變量來(lái)處理。離散變量的數(shù)值用計(jì)數(shù)的方法取得。13.下列關(guān)于連續(xù)型隨機(jī)變量以及連續(xù)型概率密度函數(shù)的說(shuō)法正確的有()。A、一個(gè)客服一天可能接聽(tīng)到多少個(gè)電話是一個(gè)連續(xù)型隨機(jī)變量B、正態(tài)分布是一種連續(xù)型隨機(jī)變量的概率分布C、可以使用概率密度函數(shù)來(lái)描述連續(xù)型隨機(jī)變量的概率分布D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1【正確答案】:BCD解析:
一個(gè)客服一天可能接聽(tīng)到多少個(gè)電話是一個(gè)離散型隨機(jī)變量。14.在建立模型時(shí),需要用到的數(shù)據(jù)有()。A、訓(xùn)練數(shù)據(jù)B、測(cè)試數(shù)據(jù)C、原始數(shù)據(jù)D、驗(yàn)證數(shù)據(jù)【正確答案】:ABD解析:
在機(jī)器學(xué)習(xí)中,通常將數(shù)據(jù)分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。15.下列關(guān)于數(shù)據(jù)維度的描述正確的有()。A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】:ABC解析:
字典可以表示二維以上的高維數(shù)據(jù)。16.已測(cè)量級(jí)(MeasuredLevel)的主要特點(diǎn)包括()。A、已構(gòu)建了關(guān)鍵過(guò)程矩陣B、已定義了變革管理的正式流程C、已實(shí)現(xiàn)用定量化方式計(jì)算關(guān)鍵過(guò)程的質(zhì)量和效率D、關(guān)鍵過(guò)程的質(zhì)量和效率的管理涉及整個(gè)生命周期【正確答案】:ABCD解析:
DMM的已測(cè)量級(jí)(McasuredLevel);組織機(jī)構(gòu)已用定量化的方式管理其關(guān)鍵過(guò)程的共行過(guò)程。主要特點(diǎn)如下:①已構(gòu)建了關(guān)鍵過(guò)程矩陣;②已定義了變革管理的正式流程;③已實(shí)現(xiàn)用定量化方式計(jì)算關(guān)健過(guò)程的質(zhì)量和效率;④關(guān)鍵過(guò)程的質(zhì)量和效率的管理涉及其全生命周期。17.在數(shù)據(jù)安全領(lǐng)域常用的P2DR模型中,P、D和R代表的是()。A、策略B、防護(hù)C、檢測(cè)D、響應(yīng)【正確答案】:ABCD解析:
P2DR模型是美國(guó)ISS公司提出的一種動(dòng)態(tài)網(wǎng)絡(luò)安全體系,認(rèn)為網(wǎng)絡(luò)安全是一種動(dòng)態(tài)的、有條件的相對(duì)安全。P2DR模型包括四個(gè)主要部分:Policy(策略)、Protection(防護(hù))、Detection(檢測(cè))和Response(響應(yīng))。其中,安全策略處于核心地位,為其他三個(gè)組成部分提供支持和指導(dǎo),而保護(hù)、檢測(cè)和響應(yīng)為網(wǎng)絡(luò)安全的三個(gè)基本活動(dòng)。18.DGI定義的數(shù)據(jù)治理任務(wù)包括()。A、數(shù)據(jù)質(zhì)量的評(píng)估B、主動(dòng)定義或序化規(guī)則C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)D、應(yīng)對(duì)并解決因不遵守規(guī)則而產(chǎn)生的問(wèn)題【正確答案】:BCD解析:
DGI(TheDataGovemanceInstitute)認(rèn)為數(shù)據(jù)治理是對(duì)數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動(dòng)。它是一個(gè)信息處理過(guò)程中根據(jù)模型來(lái)執(zhí)行的決策權(quán)和承擔(dān)責(zé)任的系統(tǒng),規(guī)定了誰(shuí)可以在什么情況下對(duì)哪些信息做怎樣的處理。19.大數(shù)據(jù)處理流程可以概括為()。A、數(shù)據(jù)分析與挖掘B、數(shù)據(jù)采集C、數(shù)據(jù)儲(chǔ)存D、結(jié)果展示【正確答案】:ABCD解析:
算法歧視是指算法設(shè)計(jì)、實(shí)現(xiàn)和投入使用過(guò)程中出現(xiàn)的各種“歧視”現(xiàn)象。
6.?dāng)?shù)據(jù)增值存在的過(guò)程有()。
A.數(shù)據(jù)對(duì)象的封裝
B.數(shù)據(jù)系統(tǒng)的研發(fā)
C.數(shù)據(jù)的集成應(yīng)用
D.基于數(shù)據(jù)的創(chuàng)新
參考【正確答案】:ABCD
解析:數(shù)據(jù)對(duì)象的封裝、數(shù)據(jù)系統(tǒng)的研發(fā)、數(shù)據(jù)的集成應(yīng)用、基于數(shù)據(jù)的創(chuàng)新均需要進(jìn)行數(shù)據(jù)增值。
7.大數(shù)據(jù)參考架構(gòu)的三個(gè)層次包含()。
A.角色
B.活動(dòng)
C.邏輯構(gòu)件
D.功能組件
參考【正確答案】:ABD
解析:GB/T35589-2017《信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動(dòng)的功能組件以及它們之間的關(guān)系。
8.分布式列式存儲(chǔ)的功能有()。
A.支持在線快速讀寫
B.支持線性擴(kuò)展
C.具備節(jié)點(diǎn)監(jiān)控管理
D.數(shù)據(jù)同源不壓縮
參考【正確答案】:ABC
解析:分布式列式存儲(chǔ)的功能包括數(shù)據(jù)壓縮。
9.下列關(guān)于現(xiàn)階段大數(shù)據(jù)20.使用極大似然估計(jì)的前提條件有()。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分?jǐn)?shù)據(jù)集C、提前已知某先驗(yàn)概率D、數(shù)據(jù)集各個(gè)屬性相對(duì)獨(dú)立【正確答案】:AB解析:
極大似然估計(jì)(MLE)要求樣本獨(dú)立同分布,否則無(wú)法用概率密度函數(shù)乘積的形式。假設(shè)的分布與真實(shí)的分布要一致,否則會(huì)南轅北轍。如果對(duì)總體分布一無(wú)所知是無(wú)法使用MLE的。21.Analytics1.0的主要特點(diǎn)有()。A、分析活動(dòng)滯后于數(shù)據(jù)的生成B、重視結(jié)構(gòu)化數(shù)據(jù)的分析C、以對(duì)歷史數(shù)據(jù)的理解為主要目的D、注重描述性分析【正確答案】:ABCD解析:
著名管理學(xué)家Thomas·H·Davemport于2013年在《哈佛商業(yè)論壇(HarvaBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的法、技術(shù)和工具-分析學(xué)(Analytics)分為三個(gè)不同時(shí)代-商務(wù)智能時(shí)代、大數(shù)據(jù)時(shí)代數(shù)據(jù)富足供給時(shí)代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics1.0是商智能時(shí)代(1950~2000年),Analytics1.0中常用的工具軟件為數(shù)據(jù)倉(cāng)庫(kù)及商務(wù)智能類軟件,般由數(shù)據(jù)分析師或商務(wù)智能分析師負(fù)責(zé)完成。Analytics1.0的主要特點(diǎn)有分析活動(dòng)滯后于數(shù)據(jù)的生成、重視結(jié)構(gòu)化數(shù)據(jù)的分析、以對(duì)歷史數(shù)據(jù)的理解為主要目的、注重描述性分析。22.下列描述中屬于Analytics2.0主要特點(diǎn)的有()。A、側(cè)重嵌入式分析B、重視非結(jié)構(gòu)化數(shù)據(jù)的分析C、以決策支持為主要目的D、注重解釋性分析和預(yù)測(cè)性分析【正確答案】:BCD解析:
著名管理學(xué)家Thomas·H·Davernport于2013年在《哈佛商業(yè)論壇(HarvardBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的方法、技術(shù)和工具-分析學(xué)(Analytics)分為三個(gè)不同時(shí)代-商務(wù)智能時(shí)代、大數(shù)據(jù)時(shí)代和數(shù)據(jù)富足供給時(shí)代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics2.0的主要特點(diǎn)有分析活動(dòng)與數(shù)據(jù)的生成幾乎同步,強(qiáng)調(diào)數(shù)據(jù)分析的實(shí)時(shí)性;重視非結(jié)構(gòu)化數(shù)據(jù)的分析;以決策支持為主要目的;注重解釋性分析和預(yù)測(cè)性分析。23.大數(shù)據(jù)參考架構(gòu)的三個(gè)層次包含()。A、角色B、活動(dòng)C、邏輯構(gòu)件D、功能組件【正確答案】:ABD解析:
GB/T35589-2017《信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動(dòng)的功能組件以及它們之間的關(guān)系。24.在數(shù)據(jù)科學(xué)中,通??梢圆捎茫ǎ┯行П苊鈹?shù)據(jù)加工和數(shù)據(jù)備份的偏見(jiàn)。A/B測(cè)試B、訓(xùn)練集和測(cè)試集的劃分C、測(cè)試集和驗(yàn)證集的劃分D、圖靈測(cè)試【正確答案】:A解析:
A/B測(cè)試是一種對(duì)比試驗(yàn),準(zhǔn)確說(shuō)是一種分離式組間試驗(yàn),在試驗(yàn)過(guò)程中,我們從總體中隨機(jī)抽取一些樣本進(jìn)行數(shù)據(jù)統(tǒng)計(jì),進(jìn)而得出對(duì)總體參數(shù)的多個(gè)評(píng)估。A/B測(cè)試能有效避免數(shù)據(jù)加工和數(shù)據(jù)備份的偏見(jiàn),對(duì)算法/模型選擇偏見(jiàn)具有重要借鑒意義。25.下列關(guān)于降維說(shuō)法正確的有()。A、PA是根據(jù)方差這一屬性降維的B、降維可以防止模型過(guò)擬合C、降維降低了數(shù)據(jù)集特征的維度D、降維方法有PLA等【正確答案】:ACD解析:
降維不能用于防止模型過(guò)擬合。26.下列關(guān)于總體和樣本的說(shuō)法正確的有()。A、總體也就是研究對(duì)象的全體B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間隔10s抽取的產(chǎn)品C、樣本是從總體的隨機(jī)抽樣D、如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是一年級(jí)的100名學(xué)生【正確答案】:ABC解析:
小學(xué)包括多個(gè)年級(jí),樣本沒(méi)有代表性。27.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠()。A、直觀反映成對(duì)數(shù)據(jù)之間的空間關(guān)系B、直觀反映多維數(shù)據(jù)之間的空間關(guān)系C、靜態(tài)演化事物的變化及變化的規(guī)律D、動(dòng)態(tài)演化事物的變化及變化的規(guī)律E、提供高性能并行計(jì)算技術(shù)的強(qiáng)力支撐【正確答案】:BD解析:
可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系,以及能夠動(dòng)態(tài)演化事物的變化及變化的規(guī)律。28.下列關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較的說(shuō)法正確的有()。A、歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)B、歸納學(xué)習(xí)論證方式為統(tǒng)計(jì)推理,分析學(xué)習(xí)為演繹推理C、歸納學(xué)習(xí)不需要先驗(yàn)知識(shí)D、訓(xùn)練數(shù)據(jù)不足時(shí)歸納學(xué)習(xí)可能會(huì)失敗【正確答案】:ABCD解析:
分析學(xué)習(xí)是相對(duì)于歸納學(xué)習(xí)的一種提法,其特點(diǎn)是使用先驗(yàn)知識(shí)來(lái)分析或解釋每個(gè)訓(xùn)練樣本,以推理出樣本的哪些特征與目標(biāo)函數(shù)相關(guān)或不相關(guān)。因此,這些解釋能使機(jī)器學(xué)習(xí)系統(tǒng)比單獨(dú)依靠數(shù)據(jù)進(jìn)行泛化有更高的精度。分析學(xué)習(xí)使用先驗(yàn)知識(shí)來(lái)減小待搜索假設(shè)空間的復(fù)雜度,減小了樣本復(fù)雜度并提高了機(jī)器學(xué)習(xí)系統(tǒng)的泛化精度??梢?jiàn),分析學(xué)習(xí)與歸納學(xué)習(xí)的優(yōu)缺點(diǎn)在一定程度上具有互補(bǔ)性,分析學(xué)習(xí)方法的優(yōu)點(diǎn)在于可用先驗(yàn)知識(shí)從較少的數(shù)據(jù)中更精確地泛化以引導(dǎo)學(xué)習(xí)。但是,當(dāng)先驗(yàn)知識(shí)不正確或不足時(shí),分析學(xué)習(xí)的缺點(diǎn)也會(huì)被突顯;歸納學(xué)習(xí)具有的優(yōu)點(diǎn)是不需要顯式的先驗(yàn)知識(shí),并且主要基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)到規(guī)律。然而,若訓(xùn)練數(shù)據(jù)不足時(shí)它能會(huì)失敗,并且會(huì)被其中隱式的歸納偏置所誤導(dǎo),而歸納偏置是從觀察數(shù)據(jù)中泛化所必需的過(guò)程。因此,我們可以考慮如何將二者結(jié)合成一個(gè)單獨(dú)的算法,以獲得它們各自的優(yōu)點(diǎn)。29.數(shù)據(jù)從產(chǎn)生到終結(jié)共包含的環(huán)節(jié)有()。A、數(shù)據(jù)產(chǎn)生B、數(shù)據(jù)傳輸C、數(shù)據(jù)使用D、數(shù)據(jù)共享E、數(shù)據(jù)銷毀【正確答案】:ABCDE解析:
數(shù)據(jù)的全壽命周期有獲取(產(chǎn)生)、存儲(chǔ)、共享、維護(hù)、應(yīng)用(使用)、消亡(銷毀),在以上這些過(guò)程都會(huì)有數(shù)據(jù)傳輸過(guò)程。30.在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化-從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過(guò)渡至云計(jì)算,有一定的代表性的是Google云計(jì)算三大技術(shù),這三大技術(shù)包括()。A、HadoopYRN資源管理器B、GFS分布式存儲(chǔ)系統(tǒng)C、MapRedue分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫(kù)【正確答案】:BCD解析:
Goolge于2003~2008年間發(fā)表的3篇論文在云計(jì)算和大數(shù)據(jù)技術(shù)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響,被稱為Google云計(jì)算三大技術(shù)或三大論文:①GFS論文--GhemawatS,GobiofH.LeungST.TheGooglefilesystem[C].ACMSIGOPSoperatingsystemsreview.ACM,2003,37(5);29-43.;②MapReduce論文DeanJ,GhemawatS.MapReduce:simplifieddataprocessingonlargeclusters[J].CommunicationsoftheACM,2008,51(1):107-113.;③Bigtable論文--ChangF.DeanJ,GhemawatS,etal.Bigtable:Adistributedstoragesystemforstructureddata[].ACMTransactionsonComputerSystems(TOCS),2008,26(2):4.。31.在數(shù)據(jù)缺失嚴(yán)重時(shí),會(huì)對(duì)分析結(jié)果造成較大的影響,因此對(duì)于剔除的異常值和缺失值,要采用合理的方法進(jìn)行填補(bǔ)。常用的填補(bǔ)方法有()。A、平均值填充B、K最近鄰距離法C、回歸法D、極大似然估計(jì)E、多重插補(bǔ)法【正確答案】:ABCDE解析:
在數(shù)據(jù)缺失嚴(yán)重時(shí),會(huì)對(duì)分析結(jié)果造成較大的影響,因此對(duì)于剔除的異常值和缺失值,要采用合理的方法進(jìn)行填補(bǔ)。常用的填補(bǔ)方法有平均值填充、K最近鄰距離法、回歸法、極大似然估計(jì)、多重插補(bǔ)法。32.下列描述中屬于特征選擇的優(yōu)點(diǎn)有()。A、解決模型自身的缺陷B、減少過(guò)擬合C、提升模型的性能D、增強(qiáng)模型的泛化能力【正確答案】:BCD解析:
特征選擇無(wú)法克服模型自身的缺陷,二者是獨(dú)立的。33.下列屬于卷積神經(jīng)網(wǎng)絡(luò)組成部分的有()。A、卷積層B、中間層C、池化層D、全連接層【正確答案】:ACD解析:
卷積神經(jīng)網(wǎng)絡(luò)的組成部分不包括中間層。34.下列關(guān)于單樣本Z檢驗(yàn)的說(shuō)法正確的有()。A、在Python中,單樣本Z檢驗(yàn)可以使用scipy.stats.ttest_1samp()實(shí)現(xiàn)B、單樣本Z檢驗(yàn)適用于樣本量較大的情況C、單樣本Z檢驗(yàn)假設(shè)要檢驗(yàn)的統(tǒng)計(jì)量(近似)滿足正態(tài)分布D、單樣本Z檢驗(yàn)常用于檢驗(yàn)總體平均值是否等于某個(gè)常量【正確答案】:BCD解析:
在Python中,單樣本Z檢驗(yàn)可以使用statsmodels.stats.weightstats.ztest實(shí)現(xiàn)。35.數(shù)據(jù)挖掘算法的組件包括()。A、模型或模型結(jié)構(gòu)B、評(píng)分函數(shù)C、優(yōu)化和搜索方法D、數(shù)據(jù)管理策略【正確答案】:ABCD解析:
數(shù)據(jù)挖掘算法的組件包括模型或模型結(jié)構(gòu)、評(píng)分函數(shù)、優(yōu)化和搜索方法、數(shù)據(jù)管理策略。36.在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為偽,但數(shù)據(jù)分析人員沒(méi)有拒絕它時(shí)犯的錯(cuò)誤叫()。A、a錯(cuò)誤B、β錯(cuò)誤C、取偽錯(cuò)誤D、棄真錯(cuò)誤【正確答案】:BC解析:
a錯(cuò)誤(棄真錯(cuò)誤):當(dāng)原假設(shè)為真時(shí),但我們錯(cuò)誤地認(rèn)為“原偶的”,進(jìn)而導(dǎo)致拒絕這個(gè)正確假設(shè);β錯(cuò)誤(取偽錯(cuò)誤):當(dāng)原假設(shè)為假時(shí),但我們錯(cuò)誤地認(rèn)為“原假設(shè)是成立的”,進(jìn)而導(dǎo)致接受此錯(cuò)誤假設(shè)。37.()是指幾組不同的數(shù)據(jù)中均存在一種趨勢(shì),但當(dāng)這些數(shù)據(jù)組組合在一起后,這種趨勢(shì)將消失或反轉(zhuǎn)。A、辛普森悖論B、大數(shù)據(jù)悖論C、大數(shù)據(jù)偏見(jiàn)D、幸存者偏差【正確答案】:A解析:
辛普森悖論是概率和統(tǒng)計(jì)學(xué)中的一種現(xiàn)象,即兒組不同的數(shù)據(jù)中均存在一種趨勢(shì),
但當(dāng)這些數(shù)據(jù)組組合在一起后,這種趨勢(shì)將消失或反轉(zhuǎn)。例如,在腎結(jié)石治療數(shù)據(jù)分析中,比較兩種腎結(jié)石治療的成功率。38.假設(shè)檢驗(yàn)中,首先需要提出零假設(shè)和備擇假設(shè),下列關(guān)于零假設(shè)和備擇假設(shè)的描述正確的有()。A、零假設(shè)是只有出現(xiàn)的概率大于閾值才會(huì)被拒絕的;備擇假設(shè)是只有零假設(shè)出現(xiàn)的概率大于閾值才會(huì)被承認(rèn)的B、零假設(shè)是希望推翻的結(jié)論;備擇假設(shè)是希望證明的結(jié)論C、零假設(shè)是只有出現(xiàn)的概率小于閾值才會(huì)被拒絕的;備擇假設(shè)是只有零假設(shè)出現(xiàn)的概率小于閾值才會(huì)被承認(rèn)的D、零假設(shè)是希望證明的結(jié)論;備擇假設(shè)是希望推翻的結(jié)論【正確答案】:BC解析:
略39.數(shù)據(jù)故事化描述應(yīng)遵循的基本原則有()。A、忠于原始數(shù)據(jù)原則B、設(shè)定共同場(chǎng)景原則C、有效性利用原則D、3C精神原則【正確答案】:ABCD解析:
數(shù)據(jù)的故事化描述應(yīng)遵循的基本原則包括忠于原始數(shù)據(jù)原則、設(shè)定共同情景原則、體驗(yàn)式講述原則、個(gè)性化定制原則、有效性利用原則、3C精神原則。40.下列為傳統(tǒng)RDBMS缺點(diǎn)的有()。A、表結(jié)構(gòu)schema擴(kuò)展不方便B、全文搜索功能較弱C、大數(shù)據(jù)場(chǎng)景下I/O較高D、存儲(chǔ)和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱【正確答案】:ABCD解析:
傳統(tǒng)RDBMS的缺點(diǎn)包括表結(jié)構(gòu)schema擴(kuò)展不方便、全文搜索功能較弱、大數(shù)據(jù)場(chǎng)景下I/O較高、存儲(chǔ)和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱。41.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見(jiàn)的有()。A、深度優(yōu)先遇歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略E、大站優(yōu)先策略【正確答案】:AB解析:
在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見(jiàn)的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。42.已定義級(jí)(DefinedLevel)的主要特點(diǎn)包括()。A、組織機(jī)構(gòu)已明確給出了關(guān)鍵過(guò)程的標(biāo)準(zhǔn)定義,并定期對(duì)其進(jìn)行改進(jìn)B、已提供了關(guān)鍵過(guò)程的測(cè)量與預(yù)測(cè)方法C、關(guān)鍵過(guò)程的執(zhí)行過(guò)程并不是簡(jiǎn)單或死板地執(zhí)行組織機(jī)構(gòu)給出的標(biāo)準(zhǔn)定義,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的裁剪工作D、數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識(shí),將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一【正確答案】:ABCD解析:
DMM的已定義級(jí)(DefinedLevel):組織機(jī)構(gòu)已經(jīng)定義了自己的標(biāo)準(zhǔn)關(guān)鍵過(guò)程。其主要特點(diǎn)如下:①組織機(jī)構(gòu)已明確給出了關(guān)鍵過(guò)程的標(biāo)準(zhǔn)定義,并定期對(duì)其進(jìn)行改進(jìn);②已提供了關(guān)鍵過(guò)程的測(cè)量與預(yù)測(cè)方法;③關(guān)鍵過(guò)程的執(zhí)行過(guò)程并不是簡(jiǎn)單或死板地執(zhí)行組織機(jī)構(gòu)給出的標(biāo)準(zhǔn)定義,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的裁剪工作;④數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識(shí),將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一。43.下列關(guān)于數(shù)據(jù)科學(xué)中常用統(tǒng)計(jì)學(xué)知識(shí)的說(shuō)法錯(cuò)誤的有()。A、從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統(tǒng)計(jì)的數(shù)據(jù)分析方法又可分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)C、描述統(tǒng)計(jì)可分為集中趨勢(shì)分析、離散趨勢(shì)分析、參數(shù)估計(jì)和假設(shè)檢驗(yàn)D、推斷統(tǒng)計(jì)包括采樣分布和相關(guān)分析【正確答案】:ABCD解析:
從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法包括描述統(tǒng)計(jì)、假設(shè)檢驗(yàn)、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計(jì)可分為集中趨勢(shì)分析和離散趨勢(shì)分析;推斷統(tǒng)計(jì)包括總體參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩方面內(nèi)容。44.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)計(jì)學(xué)的驗(yàn)證性分析方法的區(qū)別有()。A、EDA需要事先提出假設(shè),而驗(yàn)證性分析不需要B、EDA中采用的方法往往比驗(yàn)證性分析簡(jiǎn)單C、在一般數(shù)據(jù)科學(xué)項(xiàng)目中,探索性分析在先,驗(yàn)證性分析在后D、EDA更為簡(jiǎn)單、易學(xué)和易用【正確答案】:BCD解析:
在一般數(shù)據(jù)科學(xué)項(xiàng)目中,探索性分析在先,驗(yàn)證性分析在后,EDA中采用的方往往比驗(yàn)證性分析簡(jiǎn)單。45.數(shù)據(jù)科學(xué)基本原則中,“三世界
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 勞工外包合同范例
- 2025年度教育資源共享合作合同封面版
- 2025年中國(guó)收獲機(jī)械市場(chǎng)運(yùn)行態(tài)勢(shì)及行業(yè)發(fā)展前景預(yù)測(cè)報(bào)告
- 2025年嫩手霜行業(yè)深度研究分析報(bào)告
- 中國(guó)包裝輔助材料行業(yè)發(fā)展監(jiān)測(cè)及市場(chǎng)發(fā)展?jié)摿︻A(yù)測(cè)報(bào)告
- 2025年卷式收銀紙項(xiàng)目可行性研究報(bào)告
- 2025-2031年中國(guó)撲熱息痛行業(yè)發(fā)展全景監(jiān)測(cè)及投資方向研究報(bào)告
- 2025年大頂?shù)?xiàng)目投資可行性研究分析報(bào)告
- 童鞋鞋材行業(yè)深度研究報(bào)告
- 2025年度風(fēng)力發(fā)電工程施工合同管理細(xì)則
- 重視心血管-腎臟-代謝綜合征(CKM)
- 小學(xué)生作文方格紙A4紙直接打印版
- 木質(zhì)包裝材料行業(yè)報(bào)告
- 孤獨(dú)癥康復(fù)教育上崗人員考試必備題庫(kù)(含答案)
- 中國(guó)通史(明朝)
- 《醫(yī)療器械監(jiān)督管理?xiàng)l例》培訓(xùn)試題
- 老人心理特征和溝通技巧
- TMS開(kāi)發(fā)業(yè)務(wù)需求文檔
- 關(guān)于公交隊(duì)長(zhǎng)述職的報(bào)告
- GB/T 11379-2008金屬覆蓋層工程用鉻電鍍層
- 移出經(jīng)營(yíng)異常名錄申請(qǐng)表
評(píng)論
0/150
提交評(píng)論