版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)分析與預(yù)測(cè)技術(shù)智慧樹知到課后章節(jié)答案2023年下山東財(cái)經(jīng)大學(xué)山東財(cái)經(jīng)大學(xué)
第一章測(cè)試
以下哪些情景可以使用大數(shù)據(jù)分析與預(yù)測(cè)建模技術(shù)?
A:預(yù)測(cè)某移動(dòng)運(yùn)營(yíng)商客戶轉(zhuǎn)移到競(jìng)爭(zhēng)對(duì)手的可能性B:保險(xiǎn)公司的騙保分析C:統(tǒng)計(jì)某零售超市一個(gè)月內(nèi)哪類牛奶的銷量最大D:預(yù)測(cè)電商網(wǎng)站某商品未來的銷售量
答案:預(yù)測(cè)某移動(dòng)運(yùn)營(yíng)商客戶轉(zhuǎn)移到競(jìng)爭(zhēng)對(duì)手的可能性;保險(xiǎn)公司的騙保分析;預(yù)測(cè)電商網(wǎng)站某商品未來的銷售量
有關(guān)大數(shù)據(jù)分析與預(yù)測(cè)的過程認(rèn)識(shí)正確的是?
A:大數(shù)據(jù)分析與預(yù)測(cè)一般需要人的參與,只要把數(shù)據(jù)輸入合適的算法就可以得到有用的結(jié)果。B:大數(shù)據(jù)分析與預(yù)測(cè)的問題一般都是用戶給定的,因此不需要與用戶交流和調(diào)研。C:大數(shù)據(jù)分析與預(yù)測(cè)得到的結(jié)果需要通過檢驗(yàn)樣本的測(cè)試,甚至需要在現(xiàn)實(shí)中實(shí)驗(yàn)才能投入使用。D:A零售企業(yè)的客戶行為數(shù)據(jù)分析得到的規(guī)律也可以直接用于B零售企業(yè)。
答案:大數(shù)據(jù)分析與預(yù)測(cè)得到的結(jié)果需要通過檢驗(yàn)樣本的測(cè)試,甚至需要在現(xiàn)實(shí)中實(shí)驗(yàn)才能投入使用。
有關(guān)數(shù)據(jù)質(zhì)量的認(rèn)識(shí)正確的是?
A:有些機(jī)器學(xué)習(xí)算法具有比較強(qiáng)的抗噪型,因此不需要預(yù)處理也能得到有用的規(guī)律。B:數(shù)據(jù)質(zhì)量一般可以由機(jī)器自動(dòng)完成,不需要數(shù)據(jù)分析人員參與。C:各種數(shù)據(jù)質(zhì)量問題對(duì)機(jī)器學(xué)習(xí)算法的影響很大,因此需要充分預(yù)處理才能進(jìn)入建模階段。D:數(shù)據(jù)預(yù)處理就是刪除有問題的數(shù)據(jù)。
答案:各種數(shù)據(jù)質(zhì)量問題對(duì)機(jī)器學(xué)習(xí)算法的影響很大,因此需要充分預(yù)處理才能進(jìn)入建模階段。
下面有關(guān)機(jī)器學(xué)習(xí)正確的說法是?
A:在機(jī)器學(xué)習(xí)過程中,需要人的經(jīng)驗(yàn)指導(dǎo)數(shù)據(jù)的選擇、噪聲的消除、合適算法的選擇以及調(diào)參等工作。B:機(jī)器學(xué)習(xí)就是簡(jiǎn)單的統(tǒng)計(jì)分析。C:每種機(jī)器學(xué)習(xí)算法都有一定的使用范圍,只能處理某類數(shù)據(jù)和問題。D:機(jī)器學(xué)習(xí)可以從有限的樣本數(shù)據(jù)中得到有用的規(guī)律,并能對(duì)新樣本進(jìn)行一定的泛化預(yù)測(cè)。
答案:在機(jī)器學(xué)習(xí)過程中,需要人的經(jīng)驗(yàn)指導(dǎo)數(shù)據(jù)的選擇、噪聲的消除、合適算法的選擇以及調(diào)參等工作。;每種機(jī)器學(xué)習(xí)算法都有一定的使用范圍,只能處理某類數(shù)據(jù)和問題。;機(jī)器學(xué)習(xí)可以從有限的樣本數(shù)據(jù)中得到有用的規(guī)律,并能對(duì)新樣本進(jìn)行一定的泛化預(yù)測(cè)。
組織通過銷售數(shù)據(jù)或洞察以創(chuàng)造新的收入來源,這屬于大數(shù)據(jù)應(yīng)用成熟度的哪一個(gè)階段?
A:業(yè)務(wù)監(jiān)控B:數(shù)據(jù)貨幣化C:業(yè)務(wù)轉(zhuǎn)型D:業(yè)務(wù)優(yōu)化
答案:數(shù)據(jù)貨幣化
如果以藥品B來代替藥品A的使用,那么這個(gè)病人生存的幾率有多大?這種分析屬于
A:預(yù)測(cè)性分析B:描述性分析C:診斷性分析D:規(guī)范性分析
答案:預(yù)測(cè)性分析
NoSQL數(shù)據(jù)庫作為非關(guān)系型數(shù)據(jù)庫,只能夠用來存儲(chǔ)非結(jié)構(gòu)數(shù)據(jù)。
A:錯(cuò)B:對(duì)
答案:錯(cuò)
根據(jù)患者的視網(wǎng)膜圖像等相關(guān)醫(yī)療信息,使用機(jī)器學(xué)習(xí)算法進(jìn)行建模,預(yù)測(cè)患者患糖尿病的可能性。這個(gè)任務(wù)需要以下使用哪一類機(jī)器學(xué)習(xí)算法?
A:無監(jiān)督學(xué)習(xí)B:監(jiān)督學(xué)習(xí)C:診斷性分析D:統(tǒng)計(jì)分析
答案:監(jiān)督學(xué)習(xí)
大數(shù)據(jù)分析的預(yù)測(cè)建模任務(wù)主要包括哪幾大類問題?
A:回歸B:模式發(fā)現(xiàn)C:關(guān)聯(lián)分析D:分類
答案:回歸;關(guān)聯(lián)分析;分類
下列哪些分析需要機(jī)器學(xué)習(xí)?
A:預(yù)測(cè)移動(dòng)運(yùn)營(yíng)商用戶未來使用的網(wǎng)絡(luò)流量B:比較不同移動(dòng)運(yùn)營(yíng)商用戶對(duì)漫游業(yè)務(wù)的使用量C:尋找移動(dòng)運(yùn)營(yíng)商用戶對(duì)某類套餐使用的潛在客戶D:統(tǒng)計(jì)移動(dòng)運(yùn)營(yíng)商的用戶在某段時(shí)間對(duì)短信的使用數(shù)量
答案:預(yù)測(cè)移動(dòng)運(yùn)營(yíng)商用戶未來使用的網(wǎng)絡(luò)流量;尋找移動(dòng)運(yùn)營(yíng)商用戶對(duì)某類套餐使用的潛在客戶;統(tǒng)計(jì)移動(dòng)運(yùn)營(yíng)商的用戶在某段時(shí)間對(duì)短信的使用數(shù)量
第二章測(cè)試
將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?
A:分類和預(yù)測(cè)B:數(shù)據(jù)預(yù)處理C:頻繁模式挖掘D:數(shù)據(jù)流挖掘
答案:數(shù)據(jù)預(yù)處理
下面哪個(gè)步驟不屬于數(shù)據(jù)預(yù)處理的過程?
A:數(shù)據(jù)歸約B:數(shù)據(jù)轉(zhuǎn)換C:分類和預(yù)測(cè)D:數(shù)據(jù)清洗
答案:分類和預(yù)測(cè)
下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?
A:估計(jì)遺漏值B:變量代換C:聚集D:離散化
答案:估計(jì)遺漏值
以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法
A:過濾B:嵌入C:抽樣D:包裝
答案:抽樣
下面不屬于創(chuàng)建新屬性的相關(guān)方法的是
A:特征構(gòu)造B:映射數(shù)據(jù)到新的空間C:特征修改D:特征提取
答案:特征修改
數(shù)據(jù)清洗包括以下哪幾個(gè)方面?
A:缺失數(shù)據(jù)處理方法B:噪聲數(shù)據(jù)平滑技術(shù)C:按標(biāo)準(zhǔn)差進(jìn)行的標(biāo)準(zhǔn)化D:時(shí)間相關(guān)數(shù)據(jù)的處理
答案:缺失數(shù)據(jù)處理方法;噪聲數(shù)據(jù)平滑技術(shù);時(shí)間相關(guān)數(shù)據(jù)的處理
以下哪幾個(gè)是數(shù)據(jù)歸約的策略?
A:數(shù)據(jù)立方體聚集B:離散化和概念分層產(chǎn)生C:維度歸約D:數(shù)值歸約E:數(shù)據(jù)壓縮
答案:數(shù)據(jù)立方體聚集;離散化和概念分層產(chǎn)生;維度歸約;數(shù)值歸約;數(shù)據(jù)壓縮
以下哪些是數(shù)據(jù)離散化技術(shù)?
A:分箱技術(shù)B:餅圖分析C:ChiMerge技術(shù)D:基于熵的離散化
答案:分箱技術(shù);ChiMerge技術(shù);基于熵的離散化
特征選擇的目標(biāo)有哪些?
A:挖掘多個(gè)抽象層上的數(shù)據(jù)B:更好地理解生成數(shù)據(jù)的基本過程C:提高數(shù)據(jù)挖掘模型的性能D:提供更快、性價(jià)比更高的學(xué)習(xí)過程
答案:更好地理解生成數(shù)據(jù)的基本過程;提高數(shù)據(jù)挖掘模型的性能;提供更快、性價(jià)比更高的學(xué)習(xí)過程
特征選擇算法一般分為那幾類?
A:特征排列算法B:基于熵的離散化C:子集選擇算法D:分箱技術(shù)
答案:特征排列算法;子集選擇算法
第三章測(cè)試
有關(guān)決策樹的說法哪個(gè)是錯(cuò)誤的?
A:對(duì)新樣本起到分類預(yù)測(cè)的作用B:可以轉(zhuǎn)化為決策規(guī)則C:決策樹的算法和神經(jīng)網(wǎng)絡(luò)的原理不一樣D:決策樹的深度越大越好
答案:決策樹的深度越大越好
有關(guān)決策樹與特征工程的關(guān)系,以下說法錯(cuò)誤的是?
A:決策樹獲得的特征是區(qū)分不同類別的最優(yōu)特征。B:如果要了解影響簽署合同快慢的主要因素,可以使用決策樹算法。C:決策樹獲得的特征可以作為其他算法(例如回歸算法的自變量)輸入的依據(jù)。D:決策樹可以得到對(duì)分類重要的屬性,因此可以作為分類特征獲取的一種方法。
答案:決策樹獲得的特征是區(qū)分不同類別的最優(yōu)特征。
下面有關(guān)支持向量機(jī)錯(cuò)誤的說法是?
A:支持向量機(jī)一般處理兩分類的問題。B:支持向量機(jī)既可以處理線性可分的問題,也可以處理非線性可分的問題。C:支持向量機(jī)是把高維的數(shù)據(jù)投影到低維的空間進(jìn)行分類。D:對(duì)于小樣本集,支持向量機(jī)的分類準(zhǔn)確度可能優(yōu)于其他對(duì)樣本數(shù)量要求比較高的分類算法。
答案:支持向量機(jī)是把高維的數(shù)據(jù)投影到低維的空間進(jìn)行分類。
以下哪些不是貝葉斯網(wǎng)絡(luò)的應(yīng)用場(chǎng)景?
A:招聘人才選拔規(guī)則B:根據(jù)客戶消費(fèi)行為對(duì)其進(jìn)行分組C:中文分詞D:機(jī)器故障診斷
答案:招聘人才選拔規(guī)則;根據(jù)客戶消費(fèi)行為對(duì)其進(jìn)行分組
下面有關(guān)線性判別分析錯(cuò)誤的說法是哪個(gè)?
A:提高不同類樣本的可分性。B:線性判別分析中線性變換可以使同類樣本的方差變大。C:線性變換可以使不同類別樣本的距離加大。D:通過對(duì)原始的數(shù)據(jù)進(jìn)行線性變換,使得不同類的樣本盡量分開。
答案:線性判別分析中線性變換可以使同類樣本的方差變大。
下面有關(guān)隨機(jī)森林的說法哪個(gè)是錯(cuò)誤的?
A:類似裝袋法的樣本抽樣方法,保證每棵樹的學(xué)習(xí)樣本集的多樣性。B:隨機(jī)森林是一種集成算法,可以使用CART等基學(xué)習(xí)器提高分類的性能。C:隨機(jī)森林訓(xùn)練后只需選擇性能最好的樹最為預(yù)測(cè)模型。D:每顆樹都是從屬性集隨機(jī)抽取一定數(shù)目的屬性作為候選的特征。
答案:隨機(jī)森林訓(xùn)練后只需選擇性能最好的樹最為預(yù)測(cè)模型。
如果發(fā)現(xiàn)決策樹模型的檢驗(yàn)結(jié)果達(dá)不到要求,可以執(zhí)行下面哪些方法進(jìn)行改進(jìn)?
A:采用多種算法組合。B:補(bǔ)充或調(diào)整樣本的選擇,并加強(qiáng)樣本的預(yù)處理。C:對(duì)算法的選擇以及參數(shù)的調(diào)整進(jìn)行優(yōu)化。D:修改用戶的需求。
答案:采用多種算法組合。;補(bǔ)充或調(diào)整樣本的選擇,并加強(qiáng)樣本的預(yù)處理。;對(duì)算法的選擇以及參數(shù)的調(diào)整進(jìn)行優(yōu)化。
以下哪個(gè)算法不是基于規(guī)則的分類器?
A:C4.5B:貝葉斯分類器C:ID3D:C5.0
答案:貝葉斯分類器
如果從員工的日常表現(xiàn)數(shù)據(jù)預(yù)測(cè)其升職的可能性可以使用下面哪種機(jī)器學(xué)習(xí)方法?
A:決策樹類算法B:聚類分析C:線性回歸分析D:關(guān)聯(lián)分析
答案:決策樹類算法
以下哪個(gè)指標(biāo)不能用于決策樹的性能評(píng)價(jià)指標(biāo)?
A:ROC曲線下的面積AUCB:召回率C:準(zhǔn)確率D:決策樹規(guī)則的數(shù)目
答案:決策樹規(guī)則的數(shù)目
以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述正確的說法是?
A:只能用于分類B:神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的噪聲不敏感,因此數(shù)據(jù)質(zhì)量可以差一些也沒關(guān)系C:訓(xùn)練ANN是一個(gè)很耗時(shí)的過程D:不能確定輸入屬性的重要性
答案:訓(xùn)練ANN是一個(gè)很耗時(shí)的過程
神經(jīng)網(wǎng)絡(luò)由許多神經(jīng)元(Neuron)組成,下列關(guān)于神經(jīng)元的陳述中哪一個(gè)是正確的?
A:一個(gè)神經(jīng)元可以有一個(gè)輸入和多個(gè)輸出B:其他選項(xiàng)都正確C:一個(gè)神經(jīng)元可以有多個(gè)輸入和一個(gè)輸出D:一個(gè)神經(jīng)元可以有多個(gè)輸入和多個(gè)輸出
答案:其他選項(xiàng)都正確
有關(guān)前饋神經(jīng)網(wǎng)絡(luò)的認(rèn)識(shí)正確的是?
A:神經(jīng)網(wǎng)絡(luò)模型的分類能力比決策樹好B:神經(jīng)網(wǎng)絡(luò)可用于分類和聚類C:神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程是擬合訓(xùn)練數(shù)據(jù)模式的過程D:神經(jīng)網(wǎng)絡(luò)訓(xùn)練后很容易得到分類的規(guī)則
答案:神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程是擬合訓(xùn)練數(shù)據(jù)模式的過程
下面關(guān)于感知機(jī)的說法中正確的是?
A:其他都不對(duì)B:某一神經(jīng)元可以連接下一層的多個(gè)神經(jīng)元,表示該神經(jīng)元有多個(gè)輸出C:單個(gè)感知機(jī)是線性回歸的訓(xùn)練過程D:在感知機(jī)中引入激活函數(shù)可以解決與異或問題(XOR)
答案:單個(gè)感知機(jī)是線性回歸的訓(xùn)練過程
在一個(gè)神經(jīng)網(wǎng)絡(luò)里,確定每一個(gè)神經(jīng)元的權(quán)重和偏差是模型擬合訓(xùn)練樣本的目標(biāo),比較有效的辦法是什么?
A:賦予一個(gè)初始值,然后迭代更新權(quán)重,直至代價(jià)函數(shù)取得極小。B:根據(jù)人工經(jīng)驗(yàn)隨機(jī)賦值。C:搜索所有權(quán)重和偏差的組合,直到得到最佳值。D:其他選項(xiàng)都不正確
答案:賦予一個(gè)初始值,然后迭代更新權(quán)重,直至代價(jià)函數(shù)取得極小。
有關(guān)神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)使用的學(xué)習(xí)率參數(shù)說法正確的是
A:學(xué)習(xí)率可以隨著訓(xùn)練誤差動(dòng)態(tài)調(diào)整效果更好。B:學(xué)習(xí)率可以與其他網(wǎng)絡(luò)參數(shù)一起訓(xùn)練,對(duì)降低代價(jià)函數(shù)是有利的。C:網(wǎng)絡(luò)訓(xùn)練時(shí)剛開始學(xué)習(xí)率可以大一些,以便提高學(xué)習(xí)速度,隨后應(yīng)減少學(xué)習(xí)率,以免引起學(xué)習(xí)震蕩。D:學(xué)習(xí)率過大更容易導(dǎo)致訓(xùn)練陷入局部極小值。
答案:學(xué)習(xí)率可以隨著訓(xùn)練誤差動(dòng)態(tài)調(diào)整效果更好。;學(xué)習(xí)率可以與其他網(wǎng)絡(luò)參數(shù)一起訓(xùn)練,對(duì)降低代價(jià)函數(shù)是有利的。;網(wǎng)絡(luò)訓(xùn)練時(shí)剛開始學(xué)習(xí)率可以大一些,以便提高學(xué)習(xí)速度,隨后應(yīng)減少學(xué)習(xí)率,以免引起學(xué)習(xí)震蕩。
激活函數(shù)通過具有以下哪些性質(zhì)?
A:計(jì)算簡(jiǎn)單B:可微性C:非線性D:單調(diào)性
答案:計(jì)算簡(jiǎn)單;可微性;非線性;單調(diào)性
在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,有關(guān)學(xué)習(xí)率調(diào)整說法錯(cuò)誤的是?
A:學(xué)習(xí)率可以根據(jù)損失函數(shù)(代價(jià)函數(shù))減少的快慢動(dòng)態(tài)調(diào)整。B:學(xué)習(xí)率太小會(huì)使神經(jīng)網(wǎng)絡(luò)的訓(xùn)練迅速達(dá)到極小值。C:固定學(xué)習(xí)率設(shè)置太大可能會(huì)使神經(jīng)網(wǎng)絡(luò)訓(xùn)練震蕩不收斂。D:學(xué)習(xí)率設(shè)置不當(dāng)會(huì)引起神經(jīng)網(wǎng)絡(luò)過擬合。
答案:學(xué)習(xí)率太小會(huì)使神經(jīng)網(wǎng)絡(luò)的訓(xùn)練迅速達(dá)到極小值。;學(xué)習(xí)率設(shè)置不當(dāng)會(huì)引起神經(jīng)網(wǎng)絡(luò)過擬合。
減少神經(jīng)網(wǎng)絡(luò)過擬合可以通過增加網(wǎng)絡(luò)的神經(jīng)元個(gè)數(shù)或?qū)訑?shù)解決。
A:錯(cuò)B:對(duì)
答案:錯(cuò)
BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中,損失函數(shù)可能比較大,但隨著訓(xùn)練的進(jìn)行,損失函數(shù)基本不變化了,這種現(xiàn)象說明神經(jīng)網(wǎng)絡(luò)陷入全局最優(yōu)解
A:錯(cuò)B:對(duì)
答案:錯(cuò)
第四章測(cè)試
以下哪些數(shù)據(jù)的特征會(huì)對(duì)聚類有影響?
A:噪聲B:樣本規(guī)模C:離群點(diǎn)D:高維性
答案:噪聲;樣本規(guī)模;離群點(diǎn);高維性
有關(guān)聚類算法不正確的說法是?
A:聚類算法可以找出每組樣本不同的特征B:聚類是分類的基礎(chǔ)C:必須給出聚類的組數(shù)D:把分析的樣本根據(jù)距離分組
答案:必須給出聚類的組數(shù)
聚類是一類重要的機(jī)器學(xué)習(xí)算法,以下哪些場(chǎng)景不屬于聚類問題?
A:判斷一個(gè)網(wǎng)絡(luò)訪問是否為入侵訪問。B:根據(jù)學(xué)生的成績(jī),給出學(xué)生的名次。C:對(duì)數(shù)據(jù)庫的論文根據(jù)內(nèi)容主題的不同做劃分。D:某網(wǎng)商對(duì)客戶的購物行為進(jìn)行分析,從而分析不同組用戶的偏好。
答案:判斷一個(gè)網(wǎng)絡(luò)訪問是否為入侵訪問。;根據(jù)學(xué)生的成績(jī),給出學(xué)生的名次。
對(duì)聯(lián)通客戶進(jìn)行分組,以便根據(jù)各組的特點(diǎn),策劃不同的營(yíng)銷方案,需要客戶哪些數(shù)據(jù)?
A:家庭男女組成B:客戶長(zhǎng)途市話以及漫游等通話數(shù)據(jù)C:收入數(shù)據(jù)D:客戶人口數(shù)據(jù)
答案:家庭男女組成;客戶長(zhǎng)途市話以及漫游等通話數(shù)據(jù);客戶人口數(shù)據(jù)
下列說法錯(cuò)誤的是?
A:在聚類分析中,簇之間的相似性越大,簇內(nèi)樣本的差別越大,聚類的效果就越好B:聚類分析可以看作是一種非監(jiān)督的樣本分組過程C:k均值算法是一種常用的聚類算法,簇的個(gè)數(shù)算法不能自動(dòng)確定D:k均值算法的計(jì)算耗時(shí)與初始假設(shè)聚類中心的位置有關(guān)
答案:在聚類分析中,簇之間的相似性越大,簇內(nèi)樣本的差別越大,聚類的效果就越好
有關(guān)聚類的算法,正確的說法有以下哪些?
A:自底向上的層次聚類算法對(duì)樣本的輸入順序比較敏感。B:類似Kmeans基于劃分的聚類與基于層次的聚類都是樣本的距離為劃分基礎(chǔ)。C:聚類的簇密度指樣本的個(gè)數(shù)多少。D:聚類的結(jié)果要考慮業(yè)務(wù)的可解釋性。
答案:類似Kmeans基于劃分的聚類與基于層次的聚類都是樣本的距離為劃分基礎(chǔ)。;聚類的結(jié)果要考慮業(yè)務(wù)的可解釋性。
有關(guān)k-means下列說法正確的是?
A:適合任意數(shù)據(jù)集的分組B:聚類的結(jié)果與初始選擇的假設(shè)聚類中心有關(guān)C:可以確定樣本屬性的重要性D:可以處理凸型分布數(shù)據(jù)的聚類
答案:可以處理凸型分布數(shù)據(jù)的聚類
根據(jù)用戶使用移動(dòng)運(yùn)營(yíng)商的數(shù)據(jù),可以為他們?cè)O(shè)計(jì)合適的套餐,使用哪種挖掘方法比較合適?
A:聚類B:神經(jīng)網(wǎng)絡(luò)C:回歸分析D:關(guān)聯(lián)分析
答案:聚類
對(duì)于Kmeans而言,不同的初始聚類中心選擇可能導(dǎo)致不同的聚類結(jié)果。
A:錯(cuò)B:對(duì)
答案:對(duì)
在kmeans的訓(xùn)練過程中,可以選擇不同的k值,比較使絕對(duì)誤差標(biāo)準(zhǔn)較小的k值,結(jié)合聚類業(yè)務(wù)的可解釋性,從而選擇合適的k值。
A:對(duì)B:錯(cuò)
答案:對(duì)
第五章測(cè)試
以下有關(guān)關(guān)聯(lián)算法錯(cuò)誤的說法是哪個(gè)?
A:提升度是強(qiáng)關(guān)聯(lián)規(guī)則的一個(gè)必要條件。B:關(guān)聯(lián)算法主要由2個(gè)步驟組成:首先是求頻繁項(xiàng)目集,然后再篩選滿足最小置信度的關(guān)聯(lián)規(guī)則。C:關(guān)聯(lián)算法是一種非監(jiān)督學(xué)習(xí)算法。D:關(guān)聯(lián)算法可用于分析新聞庫中經(jīng)常一起出現(xiàn)的人物。
答案:提升度是強(qiáng)關(guān)聯(lián)規(guī)則的一個(gè)必要條件。
以下哪種情景最不適合用關(guān)聯(lián)分析?
A:在警務(wù)領(lǐng)域,發(fā)現(xiàn)有些罪犯會(huì)在一次犯罪的過程中實(shí)施多種罪行。B:根據(jù)以前的股價(jià)預(yù)測(cè)未來的股價(jià)。C:在醫(yī)療診斷領(lǐng)域,對(duì)一種疾病確診時(shí)提醒其他疾病的可能性。D:分析一個(gè)論文集中相關(guān)的研究主題。
答案:根據(jù)以前的股價(jià)預(yù)測(cè)未來的股價(jià)。
在頻繁項(xiàng)目集的分析過程中,以下說法哪種是正確的?
A:如果一個(gè)項(xiàng)目集是非頻繁的,那么它的子集肯定不是頻繁的。B:頻繁項(xiàng)目集的交集肯定是頻繁的。C:FP增長(zhǎng)算法計(jì)算頻繁項(xiàng)目集僅僅掃描1次樣本集。D:兩個(gè)頻繁項(xiàng)目集的并集也一定是頻繁的。
答案:頻繁項(xiàng)目集的交集肯定是頻繁的。
以下有關(guān)關(guān)聯(lián)分析的說法,正確的是哪些?
A:關(guān)聯(lián)分析本身就是一種推薦方法,用于網(wǎng)商商品的推薦,理由是購買某種商品的人在同次購物也可能會(huì)買其他商品。B:關(guān)聯(lián)分析的結(jié)果表明在同次事務(wù)中,有關(guān)聯(lián)的項(xiàng)目存在因果關(guān)系。C:提升度可以幫忙改進(jìn)某些商品的推薦或營(yíng)銷效果。D:關(guān)聯(lián)分析就是相關(guān)性分析。
答案:關(guān)聯(lián)分析本身就是一種推薦方法,用于網(wǎng)商商品的推薦,理由是購買某種商品的人在同次購物也可能會(huì)買其他商品。;提升度可以幫忙改進(jìn)某些商品的推薦或營(yíng)銷效果。
以下哪些領(lǐng)域可比較適合使用關(guān)聯(lián)分析?
A:從公司應(yīng)聘的候選人中選擇可能適合某崗位的候選人。B:預(yù)測(cè)貸款的人群中哪些人可能會(huì)產(chǎn)生壞賬。C:分析網(wǎng)上商品的評(píng)論和評(píng)分?jǐn)?shù)據(jù),討論什么樣的商品容易得到好的評(píng)分。D:從學(xué)生評(píng)教數(shù)據(jù)中,找到評(píng)分較好的課程相關(guān)重要因素。
答案:分析網(wǎng)上商品的評(píng)論和評(píng)分?jǐn)?shù)據(jù),討論什么樣的商品容易得到好的評(píng)分。;從學(xué)生評(píng)教數(shù)據(jù)中,找到評(píng)分較好的課程相關(guān)重要因素。
有關(guān)Apriori算法和FP-增長(zhǎng)算法,正確的說法有哪些?
A:對(duì)于同樣的樣本集和算法參數(shù)(支持度和置信度等),Apriori算法的速度一般要慢于FP增長(zhǎng)算法。B:對(duì)于Apriori算法和FP增長(zhǎng)算法,隨著最小支持度的提高(最小置信度不變),得到的關(guān)聯(lián)規(guī)則數(shù)會(huì)增加。C:Apriori算法發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則要比FP增長(zhǎng)算法多,因?yàn)榍罢邟呙璧拇螖?shù)多。D:對(duì)于同一個(gè)樣本集,Apriori算法和FP增長(zhǎng)算法的結(jié)果是相同的。
答案:對(duì)于同樣的樣本集和算法參數(shù)(支持度和置信度等),Apriori算法的速度一般要慢于FP增長(zhǎng)算法。;對(duì)于同一個(gè)樣本集,Apriori算法和FP增長(zhǎng)算法的結(jié)果是相同的。
假設(shè){花生,啤酒,可樂,牛奶}項(xiàng)目集的支持度大于最小支持度,請(qǐng)問下面哪些項(xiàng)目集的支持度一定能達(dá)到最小值支持度要求?
A:{啤酒,可樂}B:{花生,啤酒}C:{花生,可樂,土豆}D:{花生,啤酒,可樂}
答案:{啤酒,可樂};{花生,啤酒};{花生,啤酒,可樂}
下面哪個(gè)通常不是關(guān)聯(lián)算法的應(yīng)用領(lǐng)域?
A:分析文檔集是否有一定數(shù)量的文檔含有某2個(gè)主題B:分析某些用戶一次訪問網(wǎng)站購買的商品C:分析論壇用戶是否在一次訪問中瀏覽了不同版面的帖子D:分析信用卡欺詐
答案:分析信用卡欺詐
關(guān)聯(lián)規(guī)則中前向和后項(xiàng)存在因果關(guān)系才能投入使用。
A:對(duì)B:錯(cuò)
答案:錯(cuò)
關(guān)聯(lián)規(guī)則是有方向的,A->B與B->A的支持度相同,它們的置信度也相等。
A:錯(cuò)B:對(duì)
答案:錯(cuò)
第六章測(cè)試
常用的異常檢測(cè)算法有哪些?
A:KNN(K-最近鄰)B:基于聚類的方法C:高斯分布建模D:分類算法
答案:KNN(K-最近鄰);基于聚類的方法;高斯分布建模
下面這些場(chǎng)景中哪些用到異常檢?
A:系統(tǒng)入侵異于正常用戶登錄行為檢測(cè)入侵異常B:使用傳感器采集油氣井的地球物理數(shù)據(jù),構(gòu)建預(yù)測(cè)模型預(yù)測(cè)油氣井產(chǎn)量C:利用公交車上手機(jī)位置數(shù)據(jù),優(yōu)化車輛調(diào)度和交通實(shí)時(shí)訊息D:從盜竊信用卡的人的購買行為不同于信用卡持有者分析信用卡欺詐
答案:系統(tǒng)入侵異于正常用戶登錄行為檢測(cè)入侵異常;從盜竊信用卡的人的購買行為不同于信用卡持有者分析信用卡欺詐
基于統(tǒng)計(jì)方法的異常檢測(cè)有以下哪些局限性?
A:高維空間里,數(shù)據(jù)是稀疏的,鄰近度變得沒意義B:對(duì)于高維數(shù)據(jù)難以估算其真實(shí)分布C:大多數(shù)統(tǒng)計(jì)模型檢驗(yàn)只是針對(duì)單個(gè)特征D:許多情況下數(shù)據(jù)對(duì)象的分布是未知的
答案:對(duì)于高維數(shù)據(jù)難以估算其真實(shí)分布;大多數(shù)統(tǒng)計(jì)模型檢驗(yàn)只是針對(duì)單個(gè)特征;許多情況下數(shù)據(jù)對(duì)象的分布是未知的
基于鄰近度的異常檢測(cè)算法的局限性有哪些?
A:高維空間里,數(shù)據(jù)是稀疏的,鄰近度變得沒意義B:對(duì)于高維數(shù)據(jù)難以估算其真實(shí)分布C:參數(shù)k選擇困難D:對(duì)參數(shù)k選擇敏感,如k太小,少量的鄰近點(diǎn)導(dǎo)致離群點(diǎn)得分較低,而k太大,則點(diǎn)數(shù)少于k的數(shù)據(jù)點(diǎn)都可能成為離群點(diǎn)
答案:高維空間里,數(shù)據(jù)是稀疏的,鄰近度變得沒意義;對(duì)參數(shù)k選擇敏感,如k太小,少量的鄰近點(diǎn)導(dǎo)致離群點(diǎn)得分較低,而k太大,則點(diǎn)數(shù)少于k的數(shù)據(jù)點(diǎn)都可能成為離群點(diǎn)
以下哪個(gè)場(chǎng)景用到基于統(tǒng)計(jì)方法的異常檢測(cè)?
A:正常數(shù)據(jù)出現(xiàn)在高密度鄰域,異常數(shù)據(jù)則遠(yuǎn)離其最近鄰B:正常數(shù)據(jù)出現(xiàn)在隨機(jī)模型的高概率區(qū)域,異常數(shù)據(jù)則位于隨機(jī)模型的低概率區(qū)域C:正常數(shù)據(jù)出現(xiàn)在高密度鄰域,異常數(shù)據(jù)位于稀疏鄰域D:高維空間里,數(shù)據(jù)是稀疏的
答案:正常數(shù)據(jù)出現(xiàn)在隨機(jī)模型的高概率區(qū)域,異常數(shù)據(jù)則位于隨機(jī)模型的低概率區(qū)域
下面哪個(gè)是基于密度的方法算法的局限性?
A:對(duì)于高維數(shù)據(jù)難以估算其真實(shí)分布B:不能處理不同密度區(qū)域的數(shù)據(jù)集C:參數(shù)k選擇困難D:許多情況下數(shù)據(jù)對(duì)象的分布是未知的
答案:參數(shù)k選擇困難
高維空間里,數(shù)據(jù)是稀疏的,我們會(huì)用到以下哪種異常檢測(cè)的方法
A:支持向量機(jī)B:基于統(tǒng)計(jì)方法C:基于密度的方法D:基于鄰近度的方法
答案:基于密度的方法
異常檢測(cè)(Anomalydetection)是發(fā)現(xiàn)與大部分其他對(duì)象不同的對(duì)象,所以又成為離群點(diǎn)檢測(cè)
A:對(duì)B:錯(cuò)
答案:對(duì)
數(shù)據(jù)分析任務(wù)通常是去掉離群點(diǎn),離群點(diǎn)是沒有意義的點(diǎn)
A:錯(cuò)B:對(duì)
答案:錯(cuò)
在基于鄰近度的方法中,離群點(diǎn)的定義不包括以下哪個(gè)?
A:一個(gè)對(duì)象的離群點(diǎn)得分是該對(duì)象周圍密度的逆B:到K個(gè)最近鄰平均距離最大的前n個(gè)數(shù)據(jù)點(diǎn)為離群點(diǎn)C:在距離D內(nèi),最近鄰點(diǎn)數(shù)少于P的數(shù)據(jù)點(diǎn)為離群點(diǎn)D:到第K個(gè)最近鄰的距離最大的前n個(gè)數(shù)據(jù)點(diǎn)為離群點(diǎn)
答案:一個(gè)對(duì)象的離群點(diǎn)得分是該對(duì)象周圍密度的逆
第七章測(cè)試
有關(guān)文本特征的理解,錯(cuò)誤的說法是哪個(gè)?
A:文本不方便直接處理,需要提取表征內(nèi)容的特征數(shù)值化。B:one-hot可以表示一個(gè)詞的重要性。C:TF-IDF和互信息都是文本特征提取的方法。D:信息增益是文本特征提取的方法。
答案:one-hot可以表示一個(gè)詞的重要性。
下面哪個(gè)選項(xiàng)不是文本分析的組成?
A:語義分析B:詞法分析C:句法分析D:文本翻譯
答案:文本翻譯
有關(guān)文本分析的說法,正確的是哪些?
A:從一個(gè)word文檔中查詢是否包含某個(gè)詞匯屬于文本分析。B:處理文本分類需要經(jīng)歷原始文本的提取、分詞等預(yù)處理、特征提取與表示、分類模型構(gòu)建以及評(píng)估等階段。C:從一個(gè)文本集中查詢包含某些主題的文本也屬于文本分析。D:文本屬于非結(jié)構(gòu)化數(shù)據(jù),因此需要經(jīng)過預(yù)處理轉(zhuǎn)化為向量等結(jié)構(gòu)才方便處理。
答案:處理文本分類需要經(jīng)歷原始文本的提取、分詞等預(yù)處理、特征提取與表示、分類模型構(gòu)建以及評(píng)估等階段。;從一個(gè)文本集中查詢包含某些主題的文本也屬于文本分析。;文本屬于非結(jié)構(gòu)化數(shù)據(jù),因此需要經(jīng)過預(yù)處理轉(zhuǎn)化為向量等結(jié)構(gòu)才方便處理。
以下有關(guān)文本分詞的說法正確的是哪個(gè)?
A:英文文本不需要分詞。B:分詞算法都需要一個(gè)詞典。C:分詞合適與否不會(huì)引起句子的歧義。D:基于統(tǒng)計(jì)的分詞方法的性能與訓(xùn)練語料庫的質(zhì)量密切相關(guān)。
答案:基于統(tǒng)計(jì)的分詞方法的性能與訓(xùn)練語料庫的質(zhì)量密切相關(guān)。
下面有關(guān)向量空間模型(VSM)的描述中,錯(cuò)誤的是哪個(gè)?
A:文本特征詞的向量權(quán)重可通過TF-IDF實(shí)現(xiàn),從而保留文本詞序結(jié)構(gòu)信息B:以向量來表示文檔后,兩者的夾角余弦值越小說明相似度越高C:基于向量的文本相似度計(jì)算中,除了內(nèi)積外,還可以用夾角余弦等方法D:在向量空間模型中,當(dāng)有新文檔加入時(shí),需要重新計(jì)算特征詞的權(quán)重
答案:文本特征詞的向量權(quán)重可通過TF-IDF實(shí)現(xiàn),從而保留文本詞序結(jié)構(gòu)信息
下面哪種方法是文本特征獲取的方法?
A:信息增益B:卡方統(tǒng)計(jì)量C:互信息D:one-hot表示法
答案:信息增益;卡方統(tǒng)計(jì)量;互信息
面關(guān)于詞法分析的描述中,正確的說法有哪些?
A:語義角色標(biāo)注關(guān)注句子主要謂詞的論元及謂詞與論元之間的關(guān)系B:基于詞頻統(tǒng)計(jì)的分詞方法是一種無字典分詞方法C:基于統(tǒng)計(jì)的命名實(shí)體識(shí)別方法目前還主要采用統(tǒng)計(jì)的方法D:語義依存分析主要用于分析詞和詞之間的依存關(guān)系,例如句?的主語、謂語、賓語等形式結(jié)構(gòu)
答案:基于詞頻統(tǒng)計(jì)的分詞方法是一種無字典分詞方法;基于統(tǒng)計(jì)的命名實(shí)體識(shí)別方法目前還主要采用統(tǒng)計(jì)的方法
下面哪些算法不能用于文本的分詞?
A:TF-IDF算法B:基于規(guī)則的分詞C:詞嵌入D:反向最大匹配法
答案:TF-IDF算法;詞嵌入
下面有關(guān)文本分析正確的說法是哪些?
A:文本分類可以通過貝葉斯分類器完成。B:時(shí)間和日期都是需要識(shí)別的命名實(shí)體。C:信息抽取不需要了解實(shí)體之間的語義關(guān)系。D:句法分析可以表達(dá)組成句子的詞語之間的搭配或修辭關(guān)系。
答案:文本分類可以通過貝葉斯分類器完成。;時(shí)間和日期都是需要識(shí)別的命名實(shí)體。;句法分析可以表達(dá)組成句子的詞語之間的搭配或修辭關(guān)系。
使用基于統(tǒng)計(jì)的方法進(jìn)行特征選擇、分詞等分析都對(duì)語料庫的要求比較高。
A:錯(cuò)B:對(duì)
答案:對(duì)
第八章測(cè)試
可視化分析的說法正確的是哪一個(gè)?
A:可視化就是簡(jiǎn)單的畫圖,美觀就行。B:目前的可視化工具可以自動(dòng)展示數(shù)據(jù)中的規(guī)律。C:可視化是一種基本的數(shù)據(jù)分析方法,需要選擇合適的圖表,展示數(shù)據(jù)中隱藏的信息。D:可視化分析前不用對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,因?yàn)榭梢暬从沉藬?shù)據(jù)的趨勢(shì)和大致規(guī)律。
答案:可視化是一種基本的數(shù)據(jù)分析方法,需要選擇合適的圖表,展示數(shù)據(jù)中隱藏的信息。
有關(guān)可視化分析的方法,下面錯(cuò)誤的說法是哪種?
A:可視化分析在分析前,對(duì)數(shù)據(jù)進(jìn)行一定的變換,可能會(huì)提升分析結(jié)果的有用性。B:可視化只是表格數(shù)據(jù)的另一種簡(jiǎn)單呈現(xiàn)。C:可視化分析有多種圖形可供選擇,每種圖形只適用某些場(chǎng)合。D:錯(cuò)誤的數(shù)據(jù)如果不進(jìn)行處理,可能會(huì)影響可視化分析的結(jié)果質(zhì)量。
答案:可視化只是表格數(shù)據(jù)的另一種簡(jiǎn)單呈現(xiàn)。
有關(guān)可視化分析與其他機(jī)器學(xué)習(xí)方法的關(guān)系,錯(cuò)誤的說法是哪一種?
A:可視化分析可用于展示神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,從中確定模型是否出現(xiàn)過擬合。B:可視化分析可以為神經(jīng)網(wǎng)絡(luò)等分類算法初選重要的變量。C:可視化分析可以作為決策樹算法的預(yù)處理方法,從中找出錯(cuò)誤或異常的數(shù)據(jù)。D:可視化分析可以對(duì)分類模型的正確率進(jìn)行評(píng)估。
答案:可視化分析可以對(duì)分類模型的正確率進(jìn)行評(píng)估。
下面哪種可視化方法比較適合聚類分析?
A:箱圖B:條狀圖C:直方圖D:散點(diǎn)圖
答案:散點(diǎn)圖
在線教學(xué)學(xué)生行為的分析中,下面哪個(gè)選項(xiàng)不是可視化的作用?
A:可視化可以幫助發(fā)現(xiàn)有問題的學(xué)生,從而可以提前做學(xué)情預(yù)警。B:可視化可以預(yù)測(cè)一個(gè)剛選課不久的學(xué)生學(xué)完一門課程所需要的時(shí)間。C:可視化可用于分析不同類別學(xué)生的學(xué)習(xí)軌跡(流程)。D:可視化可動(dòng)態(tài)展示不同時(shí)期學(xué)生群體的學(xué)習(xí)行為。
答案:可視化可以預(yù)測(cè)一個(gè)剛選課不久的學(xué)生學(xué)完一門課程所需要的時(shí)間。
有關(guān)可視化分析錯(cuò)誤的說法有哪些?
A:可視化分析的結(jié)果是否可用不需要人工檢驗(yàn)。B:可視化分析可以與其他機(jī)器學(xué)習(xí)算法組合使用,可以應(yīng)用于機(jī)器學(xué)習(xí)的各個(gè)階段。C:可視化分析可以幫助決策者獲得其以前沒有意識(shí)到的規(guī)律。D:對(duì)于同樣數(shù)據(jù)、同樣的問題,不同數(shù)據(jù)分析師給出的可視化分析結(jié)果是一樣的。
答案:可視化分析的結(jié)果是否可用不需要人工檢驗(yàn)。;對(duì)于同樣數(shù)據(jù)、同樣的問題,不同數(shù)據(jù)分析師給出的可視化分析結(jié)果是一樣的。
有關(guān)箱(線)圖的說法,正確的是哪些?
A:箱圖可用于分析某個(gè)變量A對(duì)變量B的影響程度,主要看A的不同取值對(duì)應(yīng)B變化的箱子的大小和位置變化。B:若某變量的中位數(shù)是10,說明這個(gè)變量有一半的取值平均值小于10。C:從箱圖可以發(fā)現(xiàn)變量的異常或噪聲。D:在箱圖中,某個(gè)變量上四分位和下四分位的差(四分位矩)越大,說明此變量的方差可能越小。
答案:箱圖可用于分析某個(gè)變量A對(duì)變量B的影響程度,主要看A的不同取值對(duì)應(yīng)B變化的箱子的大小和位置變化。;若某變量的中位數(shù)是10,說明這個(gè)變量有一半的取值平均值小于10。;從箱圖可以發(fā)現(xiàn)變量的異?;蛟肼?。
在可視化分析的應(yīng)用過程中,最終用戶抱怨沒有看到有用的信息,可能的原因有以下哪些?
A:圖表展示出來了容易讓人誤解的信息,誤導(dǎo)了用戶。B:數(shù)據(jù)分析人員對(duì)業(yè)務(wù)理解不夠,未能選好指標(biāo)(變量),給出的可視化難以看到有用的信息。C:數(shù)據(jù)沒有充分的預(yù)處理,展示出來的信息基本是已經(jīng)的事實(shí)。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024正式的地區(qū)代理合同范文
- 工程合同功能解析
- 水利工程維修貸款合同
- 2024醫(yī)院藥品供銷合同
- 農(nóng)業(yè)領(lǐng)域合作協(xié)議范本
- 2024年咨詢顧問合作簡(jiǎn)單協(xié)議書
- 彩色鋼板工程承包協(xié)議書
- 集裝箱海運(yùn)合同范本
- 2024建筑業(yè)合同范本范文
- 2024個(gè)人房產(chǎn)轉(zhuǎn)讓合同
- 剪映:手機(jī)短視頻制作-配套課件
- 西氣東輸二線25標(biāo)段山嶺隧道內(nèi)管道安裝技術(shù)
- 小學(xué)綜合實(shí)踐活動(dòng)-綠色出行教學(xué)課件設(shè)計(jì)
- 防校園欺凌-課件(共28張PPT)
- 第6章 智能網(wǎng)聯(lián)汽車測(cè)評(píng)技術(shù)
- 單向板結(jié)構(gòu)設(shè)計(jì)
- 普通高等學(xué)校學(xué)生轉(zhuǎn)學(xué)申請(qǐng)表
- 房租、水、電費(fèi)(專用)收據(jù)Excel模板
- 習(xí)近平總書記關(guān)于教育的重要論述研究學(xué)習(xí)通章節(jié)答案期末考試題庫2023年
- 重癥急性胰腺炎ppt恢復(fù)課件
- 2022江蘇省沿海開發(fā)集團(tuán)限公司招聘23人上岸筆試歷年難、易錯(cuò)點(diǎn)考題附帶參考答案與詳解
評(píng)論
0/150
提交評(píng)論