華為大數(shù)據(jù) HCIE-v2.0 版本筆試題庫_第1頁
華為大數(shù)據(jù) HCIE-v2.0 版本筆試題庫_第2頁
華為大數(shù)據(jù) HCIE-v2.0 版本筆試題庫_第3頁
華為大數(shù)據(jù) HCIE-v2.0 版本筆試題庫_第4頁
華為大數(shù)據(jù) HCIE-v2.0 版本筆試題庫_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

華為大數(shù)據(jù)HCIE-V2.0版本筆試題庫(判斷)數(shù)據(jù)挖掘是通過對大量的數(shù)據(jù)進行分析,以發(fā)現(xiàn)和提取隱含在其中的具有價值的信息和知識的過程[單選題]*TRUE確答案)FALSE數(shù)據(jù)挖掘的開發(fā)工具除了Python以外,還包含以下哪些工具?*SparkMLlib(正確答案)MLS(機器學習服務)正確答公IBMSPSSModeler□.OracleDataMining以下哪些屬于Python運算符?*算數(shù)運算符(正確答案)推理運算符邏輯運算符正倏管奚)比較運算符(單選)假設A,B.C是三個矩陣,A是2X2,B是2X2階C是3x2階,以下哪一個矩陣的運算是有意義的?[單選題]才A+B(正確答突)ACAB+ACB+C以下關于Python列表的描述正確的是?*Python中的列表可以隨時進行元素的添加和刪除。Python中的列表是可變的,定的元素可以是任何的數(shù)據(jù)類型?!窹ython中的列表由個括號包裹住元素,元素用逗號隔開。仁角答矣,Python中的列表企形式上類似于數(shù)組,是一個有序的序列。(單選)以下哪個選項不是矩陣乘法對向量的變換?[單選題]*投影伸縮曲線化(正確答案)D旋轉(zhuǎn)(單選)若隨機變量X服從正態(tài)分布N(u,oA2)t則隨機變量Y=aX+b服從以下哪個正態(tài)分布?[單選題]*N(aA2u+b,aA2oA2)N(au+b,aA2oA2)(1Z硃答突)N(au+b,aA2oA2+b)N(au,aA2oA2)與面向過程相比,以下哪些是面向?qū)ο蟮奶攸c?*程序可拓展性沒有明顯的變化提高代碼復用性"炎案,增加了開發(fā)效率: 工案)使程序的編碼更加靈活,提高了代碼的可維護性L-硃汁賣,(單選)以下哪個措施屬于反爬措施?【單選題]*字體滑塊驗證碼數(shù)據(jù)收費以上全部正確正確答彳(判斷)數(shù)據(jù)的ETL.其中E為Extract,T為Transform,L為Load。[單選題]TRUE演答案)FALSE(單選)以下哪些選項不屬于數(shù)值特征離散化的必要性?[單選題]*數(shù)值高散化實際是一個數(shù)據(jù)簡化機制,通過數(shù)值離散化過程,一個完整的數(shù)據(jù)集變成一個個按照某種規(guī)則分類的子集,增強了模型的穩(wěn)定性?離散化數(shù)值在提高建模速度和提高模型精度上有顯著作用。離散化過程并沒有帶來信息丟失離散化后的特征對異常數(shù)據(jù)有很強的魯棒性,能減少噪音節(jié)點對數(shù)據(jù)的影響。函斷)不要在整個數(shù)據(jù)集上做歸一化處理,要區(qū)分訓練集和測試集。[單選題]TRUEFALSEi正諂答案)數(shù)據(jù)挖掘中用于解決預測問題的模型主要包括哪幾大類?*分類(正確答案)流行回歸(正確答案)復變(判斷)可以利用Python中的KNN算法進行數(shù)據(jù)缺失值的處理。[單選題]*A.TRUEB.FALSE(單選)”點擊率問題”是這樣一個預測問題,99%的人不會點擊,而1%的人會點擊,所以這是一個非常不平衡的數(shù)據(jù)集。假設,現(xiàn)在我們已經(jīng)建了一個模型來分類,而且有了99%的預測準確率,我們可以下的結論是?[單選題]*模型預測準確率已經(jīng)很高了,我們不需要做什么了。模型預測準確率不高,我們需要做點什么改進模型。無法下結論以上都不對機器學習中做特征選擇時,以下哪種技術屬于Filter(過濾法)[單選題|*方差選擇法B.互信息法C.卡方檢驗相關系數(shù)法以上全都正確E礁爸們(單選)我們可以使用Python中scikit-learn庫的()函數(shù),來對樣本集進feature_selection(特征選擇)和dimensionalityreduction(降維)?[單選題]*skleam.neighborssklearn.feature_selectionsklearn.linearmodelsklearn.cluster當數(shù)據(jù)預處理完成后,我們需要選擇有意義的特征輸入算法和模型進行訓練。通常來說,可以從哪些方面考慮來如何進行特征選擇?*特征是否發(fā)散特征與目標的相關性,5特征的名稱D.以上全都正對對于特征選擇中的互信息法,以下理解正確的是?*互信息法是從信息嫡的角度分析特征和輸出值之間的關系評分.(王頃終在Python工具的sklearn模塊中,可使用mutual_info_classif(分類)和mutual_info_regression(回歸)來計算各個輸入行征和輸出值之間的互信息?;バ畔⒌慕Y果對離散化的方式不敏感互信息值越大,說明該特征和輸岀值之間的相關性越大,越需要保留。手筈(單選)以下關于Trapped包裝法)和FiLter(過濾法)的描述不正確的是?[單選題]*Wrapper方法由于每次對子集的評價都要進行分類器的訓練和測試,所以算法計算復雜度很高?Trapper方法選出的特征通用性較強,當改變學習算法時,也不需要針對該學習算法重新進行特征選擇。(王確答奏)相對于Filler(過濾法),Wrapper方法找到的特征子集分類性能通常更好。對于大規(guī)模數(shù)據(jù)集來說,Wrapper算法的執(zhí)行時間很長。機器學習的分類主要有哪些?*無監(jiān)督學習正確答奏)強化學習(正確答案)監(jiān)督學習塢竺笑)半監(jiān)督學習確答矣關于裝袋((Bagging)算法的特點,以下描述正確的有?*Bagzing改進了預測準確率,也具有非常好的解釋性。由于每一個樣本被選中的概率相同,因此裝袋并不側(cè)重于訓練數(shù)據(jù)集中的任何特定實例c,正確答奏)對于噪聲數(shù)據(jù),裝袋不太受過分擬合的影響.Dragging通過降低基學習器的方差改善了泛化誤差。,:D自答(單選)當決策樹出現(xiàn)過擬合后,需要使用)技術來縮小樹的結構和規(guī)模。[單選題]*剪枝(正確答案)回歸小波調(diào)和(單選)以下哪項不是KNN算法的三要素?[單選題]*K值的選取分類決策規(guī)則距離度量的方式特征的順序(單選)在其它條件不變的前逞下家以千哪一方法容易引起模型的過擬合問題?[單選題]*增加訓練集數(shù)量減少神經(jīng)網(wǎng)絡險敲層市索數(shù)刪除稀疏的特征SVM算法中使用高斯核/RBP核替代(單選)樸素貝葉斯分類方法(NaiveBayes)是一種特殊的Bayes分類器,特征變量是x,類別標簽是C,它的一個假定是?[單選題]*以。為均值,sqr(2)/2為標準差的正態(tài)分布P(XIC)是高斯分布特征變量x的各個屬性之間互相獨立〔確答多)各類別的先驗概率P(C)是相等的

以下哪些是樸素貝葉斯算法的特點[單選題]低偏差高方差低方差高偏差答崇:CD(單選)下列哪個選項不是常用的聚類算法?[單選題]*A.SYMB.DBSCAN算法C.K-means算法□.HierarchicalClustering算法、BIRCH算法(單選)以下關于聚類算法的理華確的是?[單選題]*A.簇內(nèi)的相似性越大,族間的差別越小,聚類的效果就越好。B.簇內(nèi)的相似性越大,簇間的差別越小,聚類的效果就越差,C.簇內(nèi)的相似性越大,A.簇內(nèi)的相似性越大,族間的差別越小,聚類的效果就越好。B.簇內(nèi)的相似性越大,簇間的差別越小,聚類的效果就越差,C.簇內(nèi)的相似性越大,族間的差別越大,聚類的效果就越好,D.簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。影響K-均值算法的主要因素有?*K值的大小模式相似性測度王瓊答案)初始中心點的選擇聚類準則(單選)以下哪一項不屬于抽樣的類別?[單選題]*簡單隨機抽樣分層抽樣系統(tǒng)抽樣整群抽樣循環(huán)抽樣分類和回歸是預測問題的兩種主要類型,以下關于分類和回歸理解正確的是?*回歸的輸出是連續(xù)數(shù)值匚角竺:幻分類的輸出是離散的類別值「莉洪金,回歸的輸出是離散的類別值分類的輸出是連續(xù)數(shù)值(單選)以下哪一項不是最優(yōu)化問題的三個基本要素?|單選題]*約束條件:需要滿足的誤判條件,參數(shù)值:未知的因子且需要通過數(shù)據(jù)來確定。目標函數(shù):用來衡量結果的好壞。數(shù)據(jù)規(guī)模。正確答案)(單選)以下哪種場景比較適用于在保證召回率的前提下,盡量提升精確率的情況?[單選題]*搜索,正確答楽,地震檢測金融欺詐癌癥檢測以下關于模型過擬合、欠擬合的理解正確的是?*一般來說,模型過擬合容易出現(xiàn)高方差,低偏差一般來說,模型過擬合容易出現(xiàn)高偏差,低方差一般來說,模型欠擬合容易出觀高方差,低偏差D.一般來說,模型欠擬合容易出現(xiàn)高偏差,低方差己詭關至,(判斷)最小二乘法常被用于線性回歸中,它將回歸的問題轉(zhuǎn)化為凸優(yōu)化的問[單選題]*TRUE(正礁答奏)FALSE使用單獨的測試集或者驗證集對于模型會有哪些局限性?*分割后的測試轉(zhuǎn)樣本規(guī)模太小,(正確答奏)不同測試集生成的結果不同,則會造成測試集具備極大的不確定性, 京夸勻測試集是對模型的單次評估,無法完全展現(xiàn)評估結果的不確定性。,項答空)將大的測試集劃分成測試集和驗證集會增加模型性能評估的偏差。模型可能需要每個可能存在的數(shù)據(jù)點來確定模型值°以下哪些屬于數(shù)據(jù)挖掘的基本流程?[單選題]*特征工程王項答案)模型評估數(shù)據(jù)加載需求分析模型選擇數(shù)據(jù)預處理答案:bcdf(判斷)啞編碼與OneHot編碼很實似區(qū)別在于啞變量認為對于一個具有N個類別的特征,我們只需要考察N-1個類別是否存在,第N個類別自然就能得到。|單選題]*TRUE(單選)以下不屬于決策樹算法?[單選題]*ID3(工焼籍奏)CARTC4.5(判斷)SVM的核心要想就是建立一個最優(yōu)決策超平面,使得該平面兩側(cè)距離該平面最近的兩類樣本之間的距離最大化。[單選題]*TRUEFALSE除了精確率(Precision)和召回率(Recall),以下還有哪些常用的模型評估指標?*AUC數(shù)據(jù)"幻ROC曲線(ReceiveroperatingCharacteristic)F1值(FI-Measure)混淆矩陣((ConfusionMatrix)正值答案)BasicStatistic為數(shù)據(jù)度處理數(shù)據(jù)中統(tǒng)計分析提供支撐方法,包括(),(),()等數(shù)據(jù)分析方法。*ElementwiseProductStratifiedsamplingSummarystatistics□.Hypothesistesting可以用來計算相似度的指標有?*Tanimoto系數(shù)Pearson相關系數(shù)Cosine相似度 f吝D.歐式距離王乎j竺至)關于FP-groqth算法,以下描述正確的是?*FP-growth算法與Apriori算法不同,該算法的第二步使用后綴樹(FP-tree)結構來編碼事務,不顯式生成候選集CSparkMLlib中實現(xiàn)關聯(lián)規(guī)則算法的包是?org.apache.spark.mllib.fpa.SparkMlib中實現(xiàn)了FP-growth的平行版本,叫做PFP.PFP可以將FP-growth的工作分發(fā)到其他機器,比單機運行有更好的擴展性。給定一個交易數(shù)據(jù)集,F(xiàn)P-growth的第一步驟是計算項目的頻率,并確定頻繁項目。(判斷)使用Breeze庫時,需要同時導入相關包;:bTeaze.finalg._和breeze.numerics.一[單選題]*TRUEFALSE(單選)關于SparkMLlib中SVD算法的使用說法錯誤的是?[單選題]*必須先通過已有數(shù)據(jù)創(chuàng)建出相應矩陣類型的對象,然后調(diào)用該類的成員方法來進行SVD分解。(正確答案)如果需要獲得U成員,可以在進行SVD分解時,指定computet參數(shù),令其等于False,即可在分解后的svd對象中拿到U成員.SparkMLlib中SVD方法位于org.apache.spark.mllib.Linalg包下的RowMatrix和IndexedRowMatrix類中.函斷)K-Means算法選擇初始中心點的基本思想就是,初始的聚類中心之間的相互距離要盡可能的近。[單選題I*TRUEFALSE 產(chǎn)案I(判斷)華為M機S機器學習服務以MLS實例的方式提供紿用戶,具備的優(yōu)勢包括開放交互式Notebook,支持多種開源建模語言(Python等)。[單選題]*A.TRUEB.FALSE(判斷)MS,即MachineLearningService,是一一期數(shù)據(jù)挖掘分析平臺服務,可以幫助用戶通過機器學習技術發(fā)現(xiàn)已有數(shù)據(jù)中的趣律,從而創(chuàng)建機器學習模型,并基于機器學習模型處理新的數(shù)據(jù),為業(yè)務應用任成預測結果?!締芜x題]*TRUE(正確答案)FALSE(單選)購買與登錄專屬版MS的描述不正確的有?[單選題]*確認集群信息無誤后,依次單擊”立即購買“、”提交”.在購買專屬版S實例之前需要先購買"MapReduce服務”。在購買界面上,依次配置所需參數(shù),其中,Kerberos認證:關閉或者開啟均可.一旦提交,集群會立刻創(chuàng)建完成。在華為MLS中,使用、”梯度提升樹回歸”算法進行建模,以下操作描述正確的有?*創(chuàng)建工作流需要在主菜單中選擇“項目”創(chuàng)建二在彈出的對話框中的名稱欄輸入"Rearesen%(正確答壬選擇“建?;貧w”〉”梯度提升樹回歸二并拖拽到右側(cè)的畫布中,并進行連線。L確答變)C把實驗數(shù)據(jù)以csv格式下載到本地后,就可以進入MLS主菜單界面,選擇”數(shù)據(jù)文件系統(tǒng)傳文件”.(正確答案)選擇”數(shù)據(jù)轉(zhuǎn)換字段操作?!毙薷脑獢?shù)據(jù)”,并拖拽到右側(cè)的畫布中,并進行連線。(正確答案)選擇“輸入”保存模型”,并拖拽到右側(cè)的畫布中,并進行連線。(判斷)大數(shù)據(jù)統(tǒng)架構將機器學習和數(shù)據(jù)處理進一步整合,從核心上來說,統(tǒng)一架構依然以大數(shù)據(jù)基礎架構為主,只是對其進行了優(yōu)化和改造,重點是在流處理層新增了數(shù)據(jù)服務層(數(shù)據(jù)挖掘、機器學習等[單選題]*TRUE":?當筈妄1FALSE以下關于大數(shù)據(jù)架構重要性的描述正確的有?*好的大數(shù)據(jù)架構可擴展性強,可維護性高,能為企業(yè)未來的業(yè)務發(fā)展提供數(shù)據(jù)支撐。(正確答案)大數(shù)據(jù)架構作為數(shù)據(jù)提供者角色為大數(shù)據(jù)系統(tǒng)提供可用的數(shù)據(jù)。(E確答幻好的大數(shù)據(jù)架構需要圍繞著企業(yè)的業(yè)務進行設計,而不是單單圍繞著技術架構。業(yè)務是核心,而技術是業(yè)務的支持,好的大數(shù)據(jù)架構能滿足業(yè)務的持續(xù)發(fā)展,大數(shù)據(jù)架構作為大數(shù)據(jù)應用程序提供者可以是單個實例,乜可以是一組更細粒度的大數(shù)據(jù)應用提供者實例的集合、集合中的每個實例執(zhí)行數(shù)據(jù)生命周期中的不同活動。,正電答案,(單選)一個典型的大數(shù)據(jù)平臺系統(tǒng)架構不包括以下哪個層次?[單選題|*數(shù)據(jù)平臺層數(shù)據(jù)服務層數(shù)據(jù)應用層數(shù)據(jù)可視化層正確答案,(單選)以下關于大數(shù)據(jù)Kappa架構描述不正確的是?[單選題Kappa架構在Lambda架構的基礎上進行了優(yōu)化,將實時和流部分進行了合并,將數(shù)據(jù)通道以消息隊列進行替代,依舊以流處理為主,但是數(shù)據(jù)卻在數(shù)據(jù)湖層面進行了存儲在Kappa架構中,如果需要進行離線分析或者我次計算的時候,不必像實時分析那樣將數(shù)據(jù)湖的數(shù)據(jù)再次經(jīng)過消息隊列重播少次Kappa架構的缺點:實施難度相對較高,第其是在數(shù)據(jù)重播的部分Kappa架構的優(yōu)點:解決了Lambda架構里面的冗余部分,以數(shù)據(jù)可重播的超凡脫俗的思想進行了設計,整個架構軍常簡潔以下關于大數(shù)據(jù)流式架構的相關描述正確的有。*對于流式架構來說,不存在批處理,因此對于數(shù)據(jù)的重播和歷史統(tǒng)計無法很好的支撐。對于離線分析僅僅支撐窗口之內(nèi)的分析流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達的數(shù)據(jù)序列。應用于網(wǎng)絡監(jiān)控、確答案)傳感器網(wǎng)絡、航空航天、氣象測控和金融服務等領域。流式架構在數(shù)據(jù)接入端沒有了ETL,轉(zhuǎn)而替換為數(shù)據(jù)通道。經(jīng)過流處理加工后的數(shù)據(jù),以消息的形式直接推送給了消費者,滿足了用戶對數(shù)據(jù)的實效性需求。大數(shù)據(jù)流式架構在大數(shù)據(jù)基礎架構上,去掉批處理部分,從而更專注處理流式數(shù)據(jù)。(正確答案)流式架構在數(shù)據(jù)接入端沒有E配,轉(zhuǎn)而替換為數(shù)據(jù)通道。經(jīng)過流處理加工后的數(shù)據(jù),以消息的形式直接推送給了消費者,滿足了用戶對數(shù)據(jù)的實效性需求。(單選)以下關于數(shù)據(jù)挖掘描述不準確的是?[單選題]*大數(shù)據(jù)挖掘主要基于人工智能、機器學習、模式學習、統(tǒng)計學等。通過對大數(shù)據(jù)高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的模式。通過數(shù)據(jù)挖掘可以建立起企業(yè)整體而不是某個業(yè)務過程局部的不同類型的模型。(正確答案)目前,在很多領域尤其是在商業(yè)領域如銀行、電信、電商等,數(shù)據(jù)挖掘可以解決很多問題,包括市場營銷策略制定、背景分析、企業(yè)風險規(guī)避等大數(shù)據(jù)的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型數(shù)據(jù)庫中發(fā)現(xiàn)隱含在其中有價值的、潛在有用的信息和知識的過程。(單選)在案例”銀行客戶精準畫像”中,數(shù)據(jù)階段可以做的質(zhì)量核查不包括?[單選題I*數(shù)據(jù)的有效性校驗數(shù)據(jù)的可替換性校驗數(shù)據(jù)的缺失性校驗數(shù)據(jù)的連續(xù)性校驗以下描述屬于數(shù)據(jù)準備階段的是*因數(shù)據(jù)來自數(shù)據(jù)倉庫中多個數(shù)據(jù)表,可以經(jīng)過數(shù)據(jù)采集、清理和集成,生成個針對數(shù)據(jù)挖掘目標,確定與交易行為有關的數(shù)據(jù)項集合。考慮樣本是否具有代表性。(正確答突)為了確保各變量在分析中的地位相同,可以對數(shù)據(jù)進行中心化和標準化變換。確答宰)檢查數(shù)據(jù)的邏輯性,區(qū)分數(shù)據(jù)缺失”和”0”。根據(jù)邏輯推斷某些值、尋找反常數(shù)據(jù)、評估數(shù)據(jù)是否真實。"蒞*(判斷)一家公司或企使用數(shù)據(jù)挖掘作為工具或方法處理商業(yè)問題就像擁有了一把金鑰匙,這往往比擁有大量的熟悉和理解業(yè)務的人員更重要。[單選題]*TRUE(正確答案)FALSEPython常用數(shù)據(jù)結構,除了Number(數(shù)值)和String(字符串)外,還有哪些?*List(列表)(正確答案)Tuple(元組)Set(集合)(正確答案)Dictionary(字典)(單選)以下關于Python中函數(shù)定義的描述不正確的是?[單籠題|*函數(shù)內(nèi)容以冒號起始,并且縮進。在python中只能用關鍵字def創(chuàng)建函數(shù)。f俗案)Retum用于返回一個函數(shù)執(zhí)行的結果。用def聲明函數(shù),后面跟函數(shù)名和小括號,括號內(nèi)可以放置所需參數(shù)。(單選)設X、XI、X2、Y是四個隨機變量,a,b是常數(shù),以下關于協(xié)方差的性質(zhì)描述錯誤的是?[單選題]*如果Cov(X,Y)=0,則隨機變量X,Y相互獨立Cov(X1+X2.Y)=Cov(X1,Y)+Cov(X2,Y)Cov(aX,bY)=abCov(X,Y)(王確答竺)如果隨機變量x,Y相互獨立,貝IJCov(X,Y)=0設x、Y是兩個隨機變量,C是常數(shù),以下關于數(shù)學期望的性質(zhì)描述正確的是?[單選題1*E(X+Y)=E(X)+(Y)己麻W藝E(CX)=CE(X)E(C)=C(單選)以下關于Python正則表達式描述不正確的是?[單選題]*re正則表達式可以處理字符串數(shù)據(jù),也能處理數(shù)值數(shù)據(jù)。正恫專左,re正則表達式模塊使Python語擁有部分正則表是式功能。re正則表達式是用于處理字符串的強大工其以下關于特征值與特征向量分解的應用,說法正確的有?*在二次型最優(yōu)化中,矩陣特征值的大小與函數(shù)值的變化快慢有關,在最大特征值所對應的特征方向上函數(shù)值變化最大,也就是該方向上的方向?qū)?shù)最大。,正;J如果某幾個特征值很小,說明這個方向上的信息量很小,可以用來降維,,正確也就是刪除小特征值對應方向的數(shù)據(jù),只保留大特征值方向?qū)臄?shù)據(jù),這樣做以后數(shù)據(jù)維度減少,但有用信息量變化不大。從線性空間的角度看,特征值越大,說明矩陣在對應的特征向量上的方差越大,功率越大,信息量越多。上誨答須.在數(shù)據(jù)挖掘中,最大特征值對應的特征向量上包含最多的信息量°,王確答案)(單選)在數(shù)據(jù)抽取、轉(zhuǎn)換和加載過程中,以下哪種不是數(shù)據(jù)抽取的方式?[單選題]*全量抽取倒置抽取(正確答案)更新抽取增量抽取(單選)一般而言,若數(shù)據(jù)類別比例超過(),即認為數(shù)據(jù)集中存在不均衡數(shù)據(jù)的現(xiàn)象。[單選題]*A.2:lB.4:1(IE礁答案,c.r.iD.3:l(單選)以下哪個選項不屬于數(shù)據(jù)減洗的范疇?[單選題]*缺失值處理不均衡數(shù)據(jù)處理異常值處理數(shù)據(jù)加載處理 為答案)(判斷)若數(shù)據(jù)集中存在不均衡數(shù)據(jù),都需要進行不均衡數(shù)據(jù)處理。[單選題]*TRUEFALSE(單選)以下哪個選項不屬于直按冊除包含缺失值的元組(或記錄)產(chǎn)生的影響?[單選題]*降低模型準確性可能會引入噪音節(jié)點(正確答案,數(shù)據(jù)缺失占比較多時,直接刪除可能會改變原始數(shù)據(jù)的分右情況破壞數(shù)據(jù)的歷史完整性(單選)以下關于特征選擇方法中哪個不屬于特征減少的方法?[單選題]*Embcdded(嵌入法)Wrapper(包裝法)交叉驗證方法頂筍奚)Filter(過濾法)(單選)下列方法中,不可以用于特征降維的方怯包括?!締芜x題]*最小二乘法LeastSquares主成分分析PCA矩陣奇異值分解SVD局部線性嵌入LLEE.線性判別分析LDA(判斷)兩個變量的Pearson相關性系數(shù)為零,但這兩個變量的值同樣可以相關。[單選題]*TRUEFALSE(單選)以下關于PCA算法(主成分分析)說法不正確的是。《D)[單選題]*必須在使用PCA前規(guī)范他數(shù)察使數(shù)據(jù)降低到低維度上做數(shù)據(jù)可視化應該選擇使得模型有最小variance的主成分應該選擇使得模型有最大variance的主成分確爸幻(單選)以下關于Wrapper(包裝法)和Filter(過濾法)的描述不正確的是?[單選題]*對于大規(guī)模數(shù)據(jù)集來說,Wrapper算法的執(zhí)行時間很長。相對于Filter(過濾法),WTrapper方法找到的特征子集分類性能通常更好。Wrapper方法由于每次對子集的評價都要進行分類器的訓練和測試,所以算法計算復雜度很高C□.Wrapper方法選出的特征通用性較強,當改變學習算法時,也不需要針對該學習算法重新進行特征選擇。(正確答主)以下哪些方法可以用來做分受夢*KNN支持向量機航夕弓K-MeansD.決策樹(判斷)GBDT(GradientBoostingDecisionTree,簡稱GBDT)梯度提升決策樹中的樹都是回歸樹,不是分類樹。[單選題]*TRUE(正確答案)FALSE以下關于邏街口歸的抽述正確的是?*當特征空間很大時邏獨回歸的性能不是很好,容易欠擬合,一般準確度不太高。對邏輯回歸而言,多重共線性并不是問題,它可以結合L2正則化來解決該問題(正確答案)分類時計算量非常小,速度很快,存儲資源低匸琬答楽)只能處理兩分類問題,且必須線性可分以下關于決策樹的描述正確的是?*數(shù)據(jù)準備工作簡單,能夠同時處理數(shù)據(jù)型和常規(guī)型屬性,其他的技術往往要求數(shù)據(jù)屬性的單一。,正確答案)不容易導致過擬合問題。對中間值的缺失不敏感,比較適合處理有缺發(fā)屬性值的樣本,能夠處理不相關的特征。(正確答案)信息增益度量會偏向于取值較少的屬性作為分類屬性。關于各種分類算法的特點,以下說法正確的是?[單選題]*給定n個數(shù)據(jù)點,如果其中一半用于訓練,一半用戶測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減少,bazging改進了預測準確率,但損失了解釋性在adaboost算法中,所有被分錯樣本的權重更新比例相同函斷)PP-Growth算法改進字pr3ori算法的I/O瓶頸,巧妙的利用樹結構提高了算法運行速度。[單選題]*TRUBFALSE(單選)下列哪個選項不是常用的聚類算法?[單選題]*SYMi正確答主)HierarchicalClustering算法、BIRCH算法K-means算法DBSCAN算法凸優(yōu)化是機器學習的一個根本性問題,很多能A問題可以通過一定的手段或方法轉(zhuǎn)化為一個凸問題,一旦轉(zhuǎn)化為一個題,那么理論上來說,這個問題便得到了解訣。以下哪些是非凸優(yōu)化問要轉(zhuǎn)化為凸優(yōu)化問題的方法?*目標函數(shù)為凸函數(shù)約束條件為凸集拋棄一些約束條件,使新的可市城為凸集并且包含原可行域正箱簽案)修改目標函數(shù),使之轉(zhuǎn)化為凸函數(shù)正確答紊)我們可以使用以下哪些方法來劃分訓練集、測試集和驗證集?*K-中心點法K-折交叉驗證法(正確K案)留出法自助法:】答釘(單選)以下關于K-折交叉驗證法物逢排誤的是?【單選題]*K折交叉驗證取K:k最常用的以值是10,此時稱為10折交叉驗證。其他常用的K值還有5、20等.正確答案)交叉驗證的思想是,每次用k個子集的并集作為訓練集,余下的那個子集作為測試集,這樣就有k種訓練集/測試集劃分的情況,從而可進行K次訓練和測試,最終返回k次測試結果的均值,如果訓練集相對較小,則增大K值。(單選)以下關于模型超參數(shù)的特征描述不正確的是?[單選題]*模型超參數(shù)通常根據(jù)給定的預測建模問題而調(diào)整模型超參數(shù)常應用于估計模型參數(shù)的過程中模型的超參數(shù)可以通過數(shù)據(jù)直接得到,也可以通過人的經(jīng)驗來設定模型超參數(shù)通??梢允褂脝l(fā)式方法來設置E.模型超參數(shù)通常由實踐者直接指定(單選)以下關于模型評估描述不止房的是?[單選題]*在分類問題中,AUC越小,分類的質(zhì)量越好。正確答案)在聚類問題中,常用的性能度量參數(shù)包括Silhonette輪毅系數(shù)、蘭德系數(shù)(AdjustedRandindex).在回歸問題中,最常用的性能度量參數(shù)是均方誤差(Mse)、均方根誤差(fmse)、平均絕對誤差(Mae)),在分類問題中,常見的評估指標包括混淆矩陣(ConfusionMatrix)、精確率(Precision).召回率(Recall).Fl值((Fl-Measure).AUC、ROC曲線(ReceiverOperatingCharacteristic)sPR曲線(PrecisionandRecall)(單選)現(xiàn)實中大數(shù)據(jù)挖掘任務往社特征屬性過多,而一個普遍存在的事實是,大數(shù)據(jù)集帶來的關鍵信息只聚集在部分甚至少數(shù)特征上,因此我們需要進行以下哪種操作?[單選題]*特征標準化特征選擇(正雄答全)特征歸一化特征清洗(判斷)SVM的核心思想就是建立一個最優(yōu)決策超平面,使得該平面兩側(cè)距離該平面最近的兩類樣本之間的距離最大化。[單選題]*TRUEFALSE(單選)以下哪些不屬于無量綱化特征縮放的為法?[單選題]*最大-最小歸化OneHot編碼縮放成單位向量特征標準化均值歸一化正現(xiàn)終案)在進行完數(shù)據(jù)預處理和特征工程后,接下來要進行的就是竈擇合適的模型來訓練我們己經(jīng)處理好的數(shù)據(jù)和選擇的特征?假如你是一名數(shù)據(jù)挖掘工程師,一般會從以下哪幾個方面來進行特征分析?*其他要求:性能、時間、空間。(上確答案)特征是否獨立正鈞答案)對擬合程度的要求(王礁終実)特征空間的維度化確答是否為線性特征確簽否)(單選)以下關于SparkLlib中FP-Growth的超參數(shù)描述不正確的是?[單選題]*minConfidence:生成關聯(lián)規(guī)則的最小置信度。置信度表明關聯(lián)規(guī)則被發(fā)現(xiàn)的真實程度。minS叩port:對項目集的最小支持被識別為頻繁。C.numPartitions:用于分發(fā)工作的分區(qū)數(shù)?!?transform:以高于minConfidence的置信度生成的關聯(lián)規(guī)則。(單選)SparkMLlib中的BasicStatistic是專門用于進行大數(shù)據(jù)集群上的統(tǒng)計分析工具,以下哪個不屬于BasicStadsti6發(fā)持的功能?[單選題]*假設檢驗特征抽取匯總統(tǒng)計生成隨機數(shù)正確答交)(判斷)SparkLlib由一些通用的學習算法和工具組成包括分類、回歸、聚類、關聯(lián)規(guī)則、優(yōu)化計算、協(xié)同過濾、降維和推薦多種機器學習算法[單選題]*TRUE確答案)FALSE(單選)如一個原始數(shù)據(jù)為3行4列的數(shù)據(jù)框需要降維至兩維,利用SparkLlib的實現(xiàn)思路下述不正確的是?。[單選題]*在PCA中,可以選取值最小的2個待征值對應的特征向量并由該兩個特征向量組成矩陣C正確答至求協(xié)方差矩陣B的右特征向量求取矩陣A的協(xié)方差矩B將原始3行4列的數(shù)據(jù)轉(zhuǎn)換得到一個3乘4的矩陣A以下哪些方法是對數(shù)據(jù)集根據(jù)一定規(guī)則按列變換?*Normaslizer()StandardscalerOMaxAbsScalerOMinMaxScaler()在MLS中,使用”決策樹分類”節(jié)點建或的工作流包括如下:*修改元數(shù)據(jù)(工演答案)決策樹分類(正確答案)讀取HDFS文件由筈保存模型104.關于FusioninsightMiner的描述正確的是?*支持模型構建及發(fā)布模型,讓模型得到復用,組不提供打包功能。交互式Notebook,能夠靈活編寫代碼,交互性強,適用于具備編程能力,了解數(shù)據(jù)分析及算法的數(shù)據(jù)科學家U答案)Web管理界面,提供項目、模型、數(shù)據(jù)管理,讓管理更方便【正確答知提供拖拽式工作流,可以直觀的展示處理流程,適合對算法和接口無深入了解的數(shù)據(jù)分析業(yè)務人員(正確答案)(單選)購買與登錄專屬版航s的描述不正確的有?[單選題]*確認集群信息無誤后,依次單擊”立即購買”、”提交”。在購買專屬版MLs實之前需要先購買"MapReduce服務”。在購買界面上,依次配置所需參數(shù),其中:Kerberos認證:關閉或者開啟均可。一旦提交,集群會立刻創(chuàng)建完成確笞釘(判斷)大數(shù)據(jù)架構是關于大數(shù)據(jù)平臺系統(tǒng)整體結構與組件的抽象和全局描述,用于指導大數(shù)據(jù)平臺系統(tǒng)各個方面的設計和實施。[單選題]*TRUEFALSE在”運營商數(shù)據(jù)治理”案例中,可以結合新江移動11核心系統(tǒng)現(xiàn)狀,其數(shù)據(jù)治理工作的重點是圍繞()、()兩個方面展開*數(shù)據(jù)流管理主數(shù)據(jù)管理數(shù)據(jù)模型管理數(shù)據(jù)生命周期管理大數(shù)據(jù)治理系統(tǒng)整體架構包含如下哪些部分?*數(shù)據(jù)運維組織架構大數(shù)據(jù)平臺D.數(shù)據(jù)治理工具(單選)在”提升信用卡安全案例”中,其商業(yè)理解的階段可以選擇建立各類信用評分模型,其中不包括哪個類型?[單選題]*行為信用評分卡模式信用評分卡正確答:們申請信用卡評分卡催收信用評分卡以下哪些選項是屬性的類別?*二元屬性 答案)數(shù)值屬性標稱屬性弟答案)序數(shù)屬性{正,角答案)若隨機變量X服從參數(shù)為,入的泊松分布,以下關于X的期望和方差描述正確的是。*方差是AA2期望是A&期望是A確答全)方差是A毎答3"(判斷)Python語青可以在同一行中使用多條語句,語句之間使用逗號”。分割。[單選題]*IRCFFALSE r-m)(判斷)賴牢就是極率。|單選題]TRUEFALSE,正済筈軍I與面向過程相比,以下哪些是面向?qū)ο蟮奶貞B(tài)?*使程序的編碼更加靈活,提高了代碼的可紙護性增加了開發(fā)效正確答:幻提高代碼復用確筍門程序可拓展性沒有明顯的變化(單選)以下哪個選項是求解等式約來最優(yōu)化的常用方法|單選題]*牛頓*梯度下降拉格朗日(正確答案)KKT(判斷)ETL主要負責將分布的、異構的數(shù)據(jù)(Extract階段)根據(jù)一定的業(yè)務規(guī)則進行數(shù)據(jù)清洗、轉(zhuǎn)換、集成(Tra立sferr階段)。最終將處理后的數(shù)據(jù)加載到數(shù)據(jù)目的地(億*ad階段),比如數(shù)據(jù)倉庫,[單選題]*TROLE(正確答案)FALSE傳統(tǒng)的ETL與ELT存在局限性,為了更好地適應多數(shù)據(jù)源.實時數(shù)據(jù)處理.高容惜.并行化等業(yè)務需求,基于Kafka的ETL礦架應運而生,以下關于KafkaConnec的描述正確的是?*ApacheKafka是由ApacheHadoop開發(fā)的,能夠?qū)崟r處理數(shù)據(jù),為所有的消息處理目的地提供現(xiàn)實狀況來源管道,KafkaConect將數(shù)據(jù)源和數(shù)據(jù)目的地視為彼此獨立的任務,源端和目的端完全解耦,彼此不知道對方的存在,,正恫答案)Sources負責從其他異構系統(tǒng)中讀取數(shù)據(jù)井導入到afka中。D.Sinks負責把Kafka中的數(shù)據(jù)寫入到其他的系統(tǒng)中。正礁詹(單選)以下關于特征縮放的處理方法,量小值一最大值歸一化和標準化的應用場景描述錯誤的是?[單選題]*在實際應用中,特征縮放的標準化操作更常用。標準化方法在分、聚類算法中需要使用PCA技術進行降維最小值一最大值歸一化的數(shù)據(jù)不符合正態(tài)分布。最小值最大值歸一化和標準化都需要使用距高來度量相似性。'(單選)下列哪些方法不適合用來對高維數(shù)據(jù)進行降維?[單選題]*小波分析法線性判別分析LDA聚類分析(正哨答案}主成分分析法在SVM算法中,常用的核函數(shù)有哪些?*線性核函數(shù)(LinearKernel) :案)多項式核函數(shù)(PolymomialKernel)徑向基(高斯)核函數(shù)(RadicalbasisfunctionKernel)以上全不對(單選)決策樹是一種樹形結構,其中每個內(nèi)部節(jié)點表示個()上的測試,每個分支代表個測試(),每個葉節(jié)點代表一種0.[單選題]*輸出、類別、屬性屬性、類別、輸出(正確答案)屬性、輸出、類別類別、輸出、屬性(判斷)強規(guī)則是指同時滿足最小支持度閾值和最小置信度閾值的規(guī)則。[單選題]TRUEFALSE(單選)在有監(jiān)督學習中,我們?nèi)绾问褂镁垲惙椒ǎ浚蹎芜x題]*1.我們可以先創(chuàng)建聚類類別,然后在每個類別上用監(jiān)督學習分別進行學習2.我們可以使用聚類”類別id”作為一個新的特征項,然后再用監(jiān)督學習分別進行學習在進行監(jiān)督學習之前,我們不能新建聚人[填空題]我們不可以使用聚類”類別id”掙為一個新的特征項,然后再用監(jiān)督學習分別進行學習[單選題]*TOC\o"1-5"\h\z3和41和41和31和2以下關于對數(shù)損失函數(shù)描述正確的是?*預測正確的概率越大,損失函數(shù)的值越大預測正確的概率越大,損失函數(shù)的值越小「確責邏輯回歸算法可以使用對數(shù)損失函數(shù)對數(shù)損失函數(shù)(CrossEntroryLoss)用到了極大似然估計的思想(判斷)在函數(shù)圖像上任取兩個點,如果函數(shù)圖像在這兩點之間的部分總在連接這兩點線段的上方,則為凸函數(shù)[單選題]*TRUEFALSE(判斷)最小二乘法常被用于線性回歸中,它將回歸的問題轉(zhuǎn)化為凸優(yōu)化的問題。【單選題]*IRUE三確答案)FALSE算法的最優(yōu)化問題根據(jù)約束條件可以分成哪幾類?*不等式約束的優(yōu)化等式約束的優(yōu)化正角答案)部分約束優(yōu)化無約束優(yōu)化滿次矢)下哪些屬于模型的超參數(shù)?*支持向量機的懲罰系數(shù)c和。超參數(shù)。正籟答系)訓練神經(jīng)網(wǎng)絡的學習速率,選代次數(shù),批次大小訓練神經(jīng)網(wǎng)絡的激活函數(shù),神經(jīng)元的數(shù)量。,旋符秦)K近鄰中的K」下礁笞實)以下哪些屬于數(shù)據(jù)挖掘的基本流程?*模型評估(正確答案)數(shù)據(jù)加載正淺答至)特征工程數(shù)據(jù)預處理需求分析模型選擇(判斷)如果沒有特殊要求,盡量選擇簡單的模型,越商單的越合適?!締芜x題]TRUEFALSE,正済筈軍I(單選)在python中,關于Pandas模塊中的數(shù)據(jù)讀取函數(shù)read.table以下說法不正確的是?[單選題]*Dames:讀取數(shù)據(jù)時,可以通過names屬性設置列索引。header:用來制定標題行,如果數(shù)據(jù)禁中保有標題行,則制定為Noneindex_col:可以將數(shù)據(jù)集中的某列某幾列)設置為行索引,通過indexcol來進行指定。usecola:通過usecol3參數(shù)來設置需要使用的列,se/edaiter:用來制定數(shù)據(jù)之間的分隔符,read_table默認為逗號,redcav默認為表符。(正確答案)(單選)下列哪個不屬于決策樹的是?|單選題|*KNN(正確答案)CARTID3C4.5以下關于線性判別分析()和主成分析法PCA的描述不正確的是?*主成分分析法(PCA)可以理解為是一種無監(jiān)塔的降維方法IE渦答案}線性判別分析(LDA)是一種有監(jiān)怪的降維方法線性判別分析(LDA)是一種無監(jiān)督的降維方法。主成分分析法(PCA)可以理解為是有監(jiān)督的降維方法(單選)以下關于Spark的說法不正確的是?[單選題]*可以擴展MapReduce計算模型,高效支持多種計算模式,包括交互式查詢和流處理。(正確答案)擅長處理大規(guī)模數(shù)據(jù)集,速度快。(單選)以下關于SparkNI16中-Means優(yōu)化參數(shù)描述不正確的是?[單選題]*initializationjode指定隨機初始化。Runs:運行Kneans實法的微數(shù)。maxiterations:要運行的最大迭代次數(shù)。Epsilon:確定K-Means收斂的距離閾值。i計"次'(判斷)RDDResilientDistributedDataset)叫做彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象,它代表一個可變、可分區(qū)、里面的元素可并行計算的集合。I單選題]*TRUE(正確答案)FALSE(單選)以下關于SparkMLlib中決策樹模州礎參數(shù)描述不正確的是?[單選題]*impurity:用于在候選分割之間進行選并的條質(zhì)度量。(.頃氣3subsamplingRater用于學習決策樹的訓練數(shù)據(jù)的分數(shù),但對于訓練單個決策樹,該參數(shù)不太有用。C.maxBins:樹的最大深度。D.maxMemorylnMB用于收集足夠統(tǒng)計信息的內(nèi)存量。(判斷)K-Means算法選擇初始中心點的基本思想就是,初始的聚類中心之間的相互距離要盡可能的近?【單選題]*TRUEFALSB.正確答至)(判斷)虹S,即MchineLearoiung.Service,是一項數(shù)據(jù)挖掘分析平臺服務,可以幫助用戶通過機器學習技術發(fā)現(xiàn)已有數(shù)據(jù)中的規(guī)律,從而創(chuàng)建機器學習模型,并基于機器學習模小處埋新的數(shù)據(jù),為業(yè)務應用生成預測結果?!締芜x題TRUEFALS(判斷)FusionInsightMiner是企業(yè)級的機器學習平臺,基于華為FusioninsightHD的分布式存儲和并行計算技術,提供從海量數(shù)據(jù)中挖掘出有價值信息的平臺。[單選題]*TRUE[確答金)FALSEFusioninsightMiner典型應用場貫有*客戶分群正確答主)異常檢查疥箋仝)語音識別精準營銷(正確答案)(單選)在MS中,”決策樹分類”節(jié)點的參數(shù)設置描述不準嘛的是?|單選題]*不純度:樹節(jié)點標簽的混雜度計算標準,選值僅有”Gini”,最大樹深度:模型訓練的最大迭代次數(shù)°取值區(qū)間為【1,30】。最大分銷數(shù):對連續(xù)的值進行范圍劃分,不能小于各分類特征的最大取值處理異常值選項中可以選擇,”mull值代替(判斷)大數(shù)據(jù)架構是關于大數(shù)據(jù)案負系統(tǒng)整體結構與組件的抽象和全局描述,用于指導大數(shù)據(jù)平臺系統(tǒng)答個面的設計和實施【單選題]*TRUEFALSE以下關于大數(shù)據(jù)治理描述正確的有:*數(shù)據(jù)治理是門將數(shù)據(jù)視為一項企業(yè)資產(chǎn)的學科。正確答勻數(shù)據(jù)治理涉及到對組織內(nèi)的人員.流程.技術和策略的編排,以從企業(yè)數(shù)據(jù)獲取最優(yōu)的價值。,正確答案)數(shù)據(jù)治理涉及到以企業(yè)資產(chǎn)的形式對數(shù)據(jù)進行優(yōu)化.保護和利用的決策權利。D.從一開始,數(shù)據(jù)治理就在協(xié)調(diào)不同的、孤立的且常常沖突的策略(可能導致數(shù)據(jù)異常)的過程中扮演著重要角色。(單選)建設一個完整的數(shù)據(jù)治理平件作)數(shù)據(jù)平臺的管控系統(tǒng),從制度、標準、()、流程幾個方面提升數(shù)據(jù)信總管理能力。解決目前所面臨的數(shù)據(jù)標準問題、數(shù)據(jù)質(zhì)量問題、元數(shù)據(jù)管理問題和數(shù)據(jù)服務問題?!締芜x題]*實時管理(正確答案)分化監(jiān)控(單選)一個典型的大數(shù)據(jù)平臺系統(tǒng)架構不包括以下哪個層次?[單選題]*數(shù)據(jù)服務層數(shù)據(jù)可視化層數(shù)據(jù)應用層數(shù)據(jù)平臺層多選以下關守大安秀流式架構的相關描述正確的有,*大數(shù)據(jù)流式架構在大數(shù)據(jù)基礎架構上,去掉批處理部分,從而更專注處理流式數(shù)據(jù)。(正確答案)流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達的數(shù)據(jù)序列。應用于網(wǎng)絡監(jiān)控.傳感器網(wǎng)絡、航空航天、氣象測控和金融服務等領域。流式架構在數(shù)據(jù)接入端沒有了ETL,轉(zhuǎn)而替換為數(shù)據(jù)通道。頂答金)流式架構在數(shù)據(jù)接入端沒有了ETL轉(zhuǎn)而替換為數(shù)據(jù)通道。經(jīng)過流處理加工后的數(shù)據(jù),以消息的形式直接推送給了消費者,滿足了用戶時數(shù)據(jù)的實效性需求。確答案)對于流式架構來說,不存在批處理,因此對于數(shù)據(jù)的重播和歷史統(tǒng)計無法很好的支撐,對于離線分析僅持窗口分析。王嗚笞案)數(shù)據(jù)挖掘可以為企業(yè)實現(xiàn)如下哪些價值?*能為企業(yè)開發(fā)新的產(chǎn)品或服務。,正煥答宓)可以用來預測當條件發(fā)生變化后可能發(fā)生的狀況??梢悦枋銎髽I(yè)當前發(fā)展的現(xiàn)狀和規(guī)律。:王溪終=能為企業(yè)機構的重組提供決策支持依據(jù)。(單選)在案例”銀行客戶精準畫像”中,關于其數(shù)據(jù)挖掘不同階段的操作描述,屬于數(shù)據(jù)建模階段的是?[單選題]*在客戶分類問題中采用的主要是數(shù)據(jù)挖掘中分類和聚類的算法,需要結合需求規(guī)劃出適用模型。下礁答案)將來自數(shù)據(jù)倉庫中多個數(shù)據(jù)表,經(jīng)過乙數(shù)據(jù)采集.清理和集成,生成一個針對數(shù)據(jù)挖掘目標確定與交易行為有關的數(shù)據(jù)項集合。結果分析,并提供參看策略。對最近三個月的原始交易數(shù)露進行計算獲得變量°并整合在客戶的實際交易情祝上定義客戶的行為,每個客戶作為一條觀測從中隧機抽取2867個客戶作為研究實例的代表性樣本。(單選)KDD,是KDD-Knowledgediscoveryindalabasese的縮寫,中文含義是數(shù)據(jù)庫內(nèi)的知識發(fā)現(xiàn)?!締芜x題]*TRUEFALSE(單選)以下關于數(shù)據(jù)分析與數(shù)據(jù)挖掘的描述錯誤的是?[單選題]*數(shù)據(jù)分析更側(cè)重于統(tǒng)計學上面的一些方法,經(jīng)過人的推理演譯得到結論。數(shù)據(jù)挖掘更側(cè)重于側(cè)重由機器進行自學習,直換制列結論。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,挖掘出未知的一宜有價值的信息和知識的過程,重點是從數(shù)據(jù)中發(fā)現(xiàn)”知識規(guī)則“數(shù)據(jù)分析和數(shù)據(jù)挖掘的界限是非常消晰的?!?,數(shù)據(jù)分析會用到成熟的分析工具、比如EXCBL.SPSS.SAS等。數(shù)據(jù)挖掘則需楚有編程基礎。以下哪些屬于Python運算符?*邏輯運算符正礁答奏)推理運算符比較運算符算數(shù)運算符正礁警至)(單選)設X.Y是兩個隨機變量C是常數(shù),以下關于方差的性質(zhì)描述錯誤的是?[單選題]*D(C)=0正確D案ID(0)=0的充要條件是復概率取常數(shù)E(X),即P{X=E(X)=1D(X+Y)=D(X)+D(Y)(單選)梯度下降法找到的一定是全局最優(yōu)解。[單選題]*ATRUEB.FALSE(正確答案)(單選)數(shù)據(jù)的ETL,其中E為Extract,T為Transturm,L為Load.[單選題]*TRUE演答案)FALSE(單選)以下哪個選項是異常值處理的方法?[單選題]*刪除異常值將異常值視為缺失值,按照缺失值處理方法來處理異常值估算異常值以上全都正確正謫答柔)(單選)下列哪個不屬于常用的文本分類的特征選擇算法?[單選題]*主成分分析正確答奏)信息增益互信息法卡方檢驗(單選)對于PCA(成方分析)轉(zhuǎn)化過的特征,得到的所有主成分的。[單選題]*TRUE":?當筈妄1FALSE(單選)決策樹中不包含以下哪種節(jié)點?[單選題]*內(nèi)部節(jié)點(internalnode)外部節(jié)點(externalnode)根節(jié)點(rootnode)葉節(jié)點(單選)以下哪一項不是KNN算法的三要[單選題]*分類決策規(guī)則K值的選取距離度量的方式特征的順序正礁答案)(單選)我們想在大數(shù)據(jù)集上訓練決策樹,為了使用較少時間,我們可以[單選題]*減少樹的數(shù)量增加樹的深度減少樹的深度*尋增加學習率(learni

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論