



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第9章大數(shù)據(jù)處理習(xí)題9.1選擇題1、在數(shù)據(jù)預(yù)處理階段,數(shù)據(jù)合并到一致的存儲介質(zhì)中,使得數(shù)據(jù)挖掘更有效、挖掘模式更易理解,這一過程是(B )。A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)歸約D.數(shù)據(jù)轉(zhuǎn)換2、以下(B )不是數(shù)據(jù)歸約策略。C.實例規(guī)約D.屬性值的規(guī)約C.規(guī)格化處理D.以上全是A.屬性子集的選擇 B.屬性構(gòu)造 3、數(shù)據(jù)轉(zhuǎn)換包括以下的(A )策略。A.合計處理B.平滑處理 4、目前機(jī)器學(xué)習(xí)的首要步驟一般是(C )。5、下面哪一項不是監(jiān)督學(xué)習(xí)算法(B )。A. K最近鄰算法B. DBSCAN算法C.決策樹算法D.邏輯回歸算法6、以下屬于數(shù)據(jù)處理任務(wù)的是(D )oA,分類B.聚類C.關(guān)聯(lián)分析D.以上全
2、是7、支持向量機(jī)SVM常常用來進(jìn)行(C )。A.處理數(shù)據(jù)B.聚類C.分類D.關(guān)聯(lián)分析8、以下(A )在神經(jīng)網(wǎng)絡(luò)中引入了非線性。A.修正線性單元(ReLU) B.隨機(jī)梯度下降C.卷積函數(shù)D.以上都不是A.模型訓(xùn)I練B.交叉驗證C.特征提取 D.數(shù)據(jù)可視化9、神經(jīng)網(wǎng)絡(luò)中過擬合問題的處理方法包括以下的(AD. A 和 BA.正那么化B.隨機(jī)失活C.池化函數(shù)10、集成學(xué)習(xí)方法不包括以下的(C )。A. BoostingB. StackingC. DropoutD.BaggingII、批歸一化層的目的是(C )。A.它將權(quán)重的歸一化平均值和標(biāo)準(zhǔn)差B.減少神經(jīng)元的輸出C.讓每一層的輸入的范圍都大致固定D.
3、使得反向傳播(BP)有效 12、下面(B )不是數(shù)據(jù)清洗方法。C.離群點檢測D.冗余數(shù)據(jù)處理A.缺失值處理B.泛化處理13、聚類過程的要求包括(D )。A.可擴(kuò)展性B.可進(jìn)行基于約束的聚類C.對輸入數(shù)據(jù)不敏感D.以上全是14、對分布式處理架構(gòu)的描述不正確的選項是(D ).A,多個節(jié)點并行工作B.數(shù)據(jù)處理效率高C.每個節(jié)點負(fù)責(zé)一局部任務(wù)D.存在唯一的中心節(jié)點15、對激活函數(shù)Sigmoid的描述不正確的選項是(D )。A.可用于二分類問題B.容易造成梯度消失C.可以減少網(wǎng)絡(luò)計算量D.是一條非線性曲線9.2填空題1、Apriori算法的核心步驟是( 連接步 )和( 剪枝步 )。2、機(jī)器學(xué)習(xí)的特征選擇
4、方法包括(過漉器方法)、(包裝器方法)和(嵌入式方法)等。3、目前大數(shù)據(jù)處理架構(gòu)一般分為(集中式處理架構(gòu) )和(分布式處理架構(gòu))兩種。4、人工神經(jīng)網(wǎng)絡(luò)中,當(dāng)數(shù)量眾多的神經(jīng)元全部連接起來后,可呈現(xiàn)網(wǎng)絡(luò)狀,如果各個神經(jīng) 元之間無環(huán),那么被稱為( 多層前饋 )神經(jīng)網(wǎng)絡(luò)。5、神經(jīng)網(wǎng)絡(luò)中的池化方法包括(最大池化)和( 平均池化 )。9.3簡答題1、請簡述數(shù)據(jù)預(yù)處理的目的及典型的幾種類型。答:數(shù)據(jù)預(yù)處理目的是為數(shù)據(jù)挖掘模塊提供準(zhǔn)確、有效、具有針對性的數(shù)據(jù),提高數(shù)據(jù)挖掘 與知識發(fā)現(xiàn)的效率。數(shù)據(jù)預(yù)處理方法包括:數(shù)據(jù)清洗,刪除重復(fù)數(shù)據(jù)、糾正數(shù)據(jù)中存在的錯誤,并使數(shù)據(jù)保 持致性;數(shù)據(jù)集成,將存儲在不同存儲介質(zhì)中的
5、數(shù)據(jù)合并到致的存儲介質(zhì)中;數(shù)據(jù)轉(zhuǎn)換, 將數(shù)據(jù)從一種表示形式轉(zhuǎn)換為另一種表現(xiàn)形式;數(shù)據(jù)歸約,在盡可能保持?jǐn)?shù)據(jù)原貌的前提下, 最大限度地精簡數(shù)據(jù)量。2、分別簡述數(shù)據(jù)挖掘算法中的監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的含義,并列舉各自包含的幾種典型 方法。答:監(jiān)督學(xué)習(xí):通過己有的訓(xùn)練樣本訓(xùn)練得到一個最優(yōu)模型,通過模型對未知數(shù)據(jù)進(jìn)行分類。 主要包括K最近鄰算法、決策樹、線性回歸、邏輯回歸等方法。無監(jiān)督學(xué)習(xí):沒有任何訓(xùn)練樣本,直接對數(shù)據(jù)進(jìn)行建模。主要包括K-Mcans算法、 DBSCAN 算法、Apriori 算法、FP-growih 算法等。3、請描述卷積神經(jīng)網(wǎng)絡(luò)中卷積層和池化層的作用。答:卷積層:由數(shù)量不定的卷積核加
6、上偏置項(Bias)組成。本質(zhì)上是個權(quán)值矩陣,矩陣中 的值是稀疏的。它主要進(jìn)行局部特征提取,通過卷積核與上一層輸出的特征完成點積和累加 操作,得到特征矩陣,也稱為特征圖(Feature Map)o卷積層的所有卷積核在進(jìn)行特征提取 的過程中,其參數(shù)值,也就是權(quán)值矩陣的值是固定且共享的。池化層:在構(gòu)建個完整的卷積神經(jīng)網(wǎng)絡(luò)時的作用僅次于卷積層,具有縮小特征圖的作 用,由于其不含參數(shù),因此比卷積層中進(jìn)行的采樣更高效。4、簡述機(jī)器學(xué)習(xí)中進(jìn)行特征選擇的原因和目標(biāo)。答:特征選擇指選擇出適合模型算法的最優(yōu)特征子集來提升模型的性能。機(jī)器學(xué)習(xí)中進(jìn)行特 征選擇的原因是:當(dāng)數(shù)據(jù)維度到達(dá)一定水平時,將所有特征放入算法中
7、將會帶來維度災(zāi)難。特征選擇的目標(biāo)是:1)提高模型的泛化能力,防止過擬合并,降低誤差。2)減少特征 數(shù)量,提高計算效率,提供更快的、具有本錢效益的模型。3)篩選出不相關(guān)特征,降低模 型的學(xué)習(xí)難度,前提是對特征本身有更深入的了解。5、請簡述分布式大數(shù)據(jù)處理架構(gòu)及其優(yōu)點,并列舉出幾個著名的分布式大數(shù)據(jù)開源平臺。 答:分布式處理架構(gòu)是先將一組節(jié)點連接起來形成系統(tǒng),然后將需要處理的大批量數(shù)據(jù)分布 在多個節(jié)點上,由多個節(jié)點去執(zhí)行,通過分布式并行處理提高處理效率,最后合并計算得出 最終結(jié)果。優(yōu)點主要有:1)可以平衡負(fù)載和共享資源。2)降低大數(shù)據(jù)處理的本錢。3)支 持大數(shù)據(jù)在更多場景下的應(yīng)用。目前基于服務(wù)器集
8、群的分布式大數(shù)據(jù)平臺:Hadoop、Spark、StormSamza、Flink等。9.4解答題1、數(shù)據(jù)挖掘任務(wù)中分類一般分為幾個步驟?請描述每個步驟的作用,并列舉用于分類的典 型數(shù)據(jù)挖掘算法,并回答交叉驗證的方式是如何評價分類模型的。答:1)分類一般分為3個步驟,分別是構(gòu)建模型、測試模型和使用模型。構(gòu)建模型主要是對每個樣本進(jìn)行類別標(biāo)記,通過數(shù)據(jù)的訓(xùn)練集構(gòu)成分類模型。測試模型 主要是通過比照測試樣本的識別類別與實際類別來評價模型正確竹:.。使用模型主要是要利用 模型來完成數(shù)據(jù)分類任務(wù),輸出最終的分類結(jié)果。用于分類的數(shù)據(jù)挖掘算法:K最近鄰算法、決策樹算法。2)以交叉驗證的方式評價分類模型:數(shù)組分
9、組,將原始數(shù)組分成訓(xùn)練集和驗證集; 模型訓(xùn)練,先用訓(xùn)練集對分類器進(jìn)行訓(xùn)練,再利用驗證集測試訓(xùn)練得到的模型作為評價分 類器的性能指標(biāo)。常見的交叉驗證方式有Hold-out驗證、K折疊交叉驗證、留一驗證等。2、循環(huán)神經(jīng)網(wǎng)絡(luò)組成局部是什么?請畫出按時間展開的前后結(jié)構(gòu)圖,并描述圖中各個元素 是如何進(jìn)行運(yùn)算的。答:1)循環(huán)神經(jīng)網(wǎng)絡(luò)主要由輸入層、隱藏層和輸出層組成。輸出層輸出層險藏層輸入乂按時間展開的前后結(jié)構(gòu)圖2)由圖可知,將循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)按照時間序列展開之前的X是輸入層的值,S是隱藏 層的值,O是當(dāng)前節(jié)點的輸出,U是輸入層到隱藏層的權(quán)重矩陣,V是隱藏層到輸出層的權(quán) 重矩陣。循環(huán)層的作用是在隱藏層之間運(yùn)算,隱藏層S的值不僅取決于輸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村衛(wèi)浴維修合同范本
- 專業(yè)護(hù)欄安裝合同范本
- 住建部合同范本0204
- 北京農(nóng)村土地租賃合同范本
- 兼職app推廣合同范本
- 交房質(zhì)量糾紛合同范本
- 公司貸款抵押合同范本
- 全國青島版信息技術(shù)七年級下冊專題二第6課《閱讀材料 濾鏡》教學(xué)設(shè)計
- 包裝木箱合同范本
- 劇團(tuán)戲服贈與合同范本
- 掩體構(gòu)筑與偽裝教學(xué)法教案
- 讓我們一起去追“星”!兩彈一星之核彈老人魏世杰課件高二下學(xué)期愛國主義教育主題班會
- 2024年日歷表電子版(帶農(nóng)歷-含周數(shù)-周一開始-打印版)
- 2024年計算機(jī)組成原理期末考試試題及答案共五套
- DB32T-認(rèn)知障礙老年人康復(fù)訓(xùn)練服務(wù)規(guī)范編制說明
- 三年級上冊科學(xué)全冊知識點2024年新青島版六三制
- 網(wǎng)絡(luò)營銷(第三版) 課件 項目一 網(wǎng)絡(luò)營銷概述
- 【小米公司手機(jī)市場營銷策略8700字(論文)】
- JGJT163-2008 城市夜景照明設(shè)計規(guī)范
- 期末情境卷考核-2023-2024學(xué)年語文二年級下冊統(tǒng)編版
- 【紅樓夢中的林黛玉性格探析5200字(論文)】
評論
0/150
提交評論