![大數(shù)據(jù)分析基礎試卷_第1頁](http://file4.renrendoc.com/view/59dbf1a97be9cb27f90764e05724bc02/59dbf1a97be9cb27f90764e05724bc021.gif)
![大數(shù)據(jù)分析基礎試卷_第2頁](http://file4.renrendoc.com/view/59dbf1a97be9cb27f90764e05724bc02/59dbf1a97be9cb27f90764e05724bc022.gif)
![大數(shù)據(jù)分析基礎試卷_第3頁](http://file4.renrendoc.com/view/59dbf1a97be9cb27f90764e05724bc02/59dbf1a97be9cb27f90764e05724bc023.gif)
![大數(shù)據(jù)分析基礎試卷_第4頁](http://file4.renrendoc.com/view/59dbf1a97be9cb27f90764e05724bc02/59dbf1a97be9cb27f90764e05724bc024.gif)
![大數(shù)據(jù)分析基礎試卷_第5頁](http://file4.renrendoc.com/view/59dbf1a97be9cb27f90764e05724bc02/59dbf1a97be9cb27f90764e05724bc025.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)分析基礎一、基礎知識部分習題(共29題,67分)1、大數(shù)據(jù)的最顯著特征是()。(單選題,本題2分)A:數(shù)據(jù)規(guī)模大 B:數(shù)據(jù)類型多樣 C:數(shù)據(jù)處理速度快D:數(shù)據(jù)價值密度高2、美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標明了大風與洋流可能發(fā)生的地點。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。(單選題,本題2分)A:在數(shù)據(jù)基礎上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B:在分析方法上更注重相關分析而不是因果分析C:在分析效果上更追究效率而不是絕對精確D:在數(shù)據(jù)規(guī)模上強調相對數(shù)據(jù)而不是絕對數(shù)據(jù)3、下列對大數(shù)據(jù)特點的說法中,錯誤的是()。(單選題,本題2分)A:數(shù)據(jù)規(guī)模大 B:數(shù)據(jù)類型多樣C:數(shù)據(jù)處理速度快 D:數(shù)據(jù)價值密度高4、當前社會中,最為突出的大數(shù)據(jù)環(huán)境是()。(單選題,本題2分)A:互聯(lián)網(wǎng)B:物聯(lián)網(wǎng)C:綜合國力 0:自然資源5、下列關于計算機存儲容量單位的說法中,錯誤的是()。(單選題,本題2分)A:1KB<1MB<1GB B:基本單位是字節(jié)(Byte)C:一個漢字需要一個字節(jié)的存儲空間 D:一個字節(jié)能夠容納一個英文字符,6、下列關于聚類挖掘技術的說法中,錯誤的是()。(單選題,本題2分)A:不預先設定數(shù)據(jù)歸類類目,完全根據(jù)數(shù)據(jù)本身性質將數(shù)據(jù)聚合成不同類別B:要求同類數(shù)據(jù)的內容相似度盡可能小C:要求不同類數(shù)據(jù)的內容相似度盡可能小D:與分類挖掘技術相似的是,都是要對數(shù)據(jù)進行分類處理7、下列關于大數(shù)據(jù)的分析理念的說法中,錯誤的是().(單選題,本題2分)A:在數(shù)據(jù)基礎上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B:在分析方法上更注重相關分析而不是因果分析C:在分析效果上更追究效率而不是絕對精確D:在數(shù)據(jù)規(guī)模上強調相對數(shù)據(jù)而不是絕對數(shù)據(jù)8、大數(shù)據(jù)時代,數(shù)據(jù)使用的關鍵是()。(單選題,本題2分)B:數(shù)據(jù)存儲A:數(shù)據(jù)收集C:數(shù)據(jù)分析 B:數(shù)據(jù)存儲A:數(shù)據(jù)收集9、數(shù)據(jù)倉庫的最終目的是()。(單選題,本題2分)A:收集業(yè)務需求 B:建立數(shù)據(jù)倉庫邏輯模型C:開發(fā)數(shù)據(jù)倉庫的應用分析 D:為用戶和業(yè)務部門提供決策支持10、支撐大數(shù)據(jù)業(yè)務的基礎是()。(單選題,本題2分)A:數(shù)據(jù)科學 B:數(shù)據(jù)應用 C:數(shù)據(jù)硬件 D:數(shù)據(jù)人才11、在網(wǎng)絡爬蟲的爬行策略中,應用最為基礎的是()。(多選題,本題3分)A:深度優(yōu)先遍歷策略 B:廣度優(yōu)先遍歷策略C:高度優(yōu)先遍歷策略 D:反向鏈接策略 E:大站優(yōu)先策略12、當前,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的特點是().(多選題,本題3分)A:規(guī)模較大B:規(guī)模較小C:增速很快D:增速緩慢 E:多產(chǎn)業(yè)交叉融合13、下列關于數(shù)據(jù)生命周期管理的核心認識中,正確的是().(多選題,本題3分)A:數(shù)據(jù)從產(chǎn)生到被刪除銷毀的過程中,具有多個不同的數(shù)據(jù)存在階段B:在不同的數(shù)據(jù)存在階段,數(shù)據(jù)的價值是不同的C:根據(jù)數(shù)據(jù)價值的不同應該對數(shù)據(jù)采取不同的管理策略D:數(shù)據(jù)生命周期管理旨在產(chǎn)生效益的同時,降低生產(chǎn)成本E:數(shù)據(jù)生命周期管理最終關注的是社會效益14、下列關于基于大數(shù)據(jù)的營銷模式和傳統(tǒng)營銷模式的說法中,錯誤的是()。(多選題,本題3分)A:傳統(tǒng)營銷模式比基于大數(shù)據(jù)的營銷模式投入更小B:傳統(tǒng)營銷模式比基于大數(shù)據(jù)的營銷模式針對性更強C:傳統(tǒng)營銷模式比基于大數(shù)據(jù)的營銷模式轉化率低D:基于大數(shù)據(jù)的營銷模式比傳統(tǒng)營銷模式實時性更強E:基于大數(shù)據(jù)的營銷模式比傳統(tǒng)營銷模式精準性更強15、下列關于臟數(shù)據(jù)的說法中,正確的是()。(多選題,本題3分)A:格式不規(guī)范 B:編碼不統(tǒng)一 C:意義不明確D:與實際業(yè)務關系不大E:數(shù)據(jù)不完整16、數(shù)據(jù)再利用的意義在于()。(多選題,本題3分)A:挖掘數(shù)據(jù)的潛在價值 B:實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值C:利用數(shù)據(jù)可擴展性拓寬業(yè)務領域 D:優(yōu)化存儲設備,降低設備成本E:提高社會效益,優(yōu)化社會管理17、按照涉及自變量的多少,可以將回歸分析分為().(多選題,本題3分)A:線性回歸分析 B:非線性回歸分析 C:一元回歸分析D:多元回歸分析 E:綜合回歸分析18、大數(shù)據(jù)人才整體上需要具備( )等核心知識。(多選題,本題3分)A:數(shù)學與統(tǒng)計知識B:計算機相關知識C:馬克思主義哲學知識 D:市場運營管理知識E:在特定業(yè)務領域的知識19、下列關于大數(shù)據(jù)的說法中,錯誤的是()。(多選題,本題3分)A:大數(shù)據(jù)具有體量大、結構單一、時效性強的特征B:處理大數(shù)據(jù)需采用新型計算架構和智能算法等新技術C:大數(shù)據(jù)的應用注重相關分析而不是因果分析D:大數(shù)據(jù)的應用注重因果分析而不是相關分析E:大數(shù)據(jù)的目的在于發(fā)現(xiàn)新的知識與洞察并進行科學決策20、在噪聲數(shù)據(jù)中,波動數(shù)據(jù)比離群點數(shù)據(jù)偏離整體水平更大。(判斷題,本題2分)是否21、對于大數(shù)據(jù)而言,最基本、最重要的要求就是減少錯誤、保證質量.因此,大數(shù)據(jù)收集的信息量要盡量精確。(判斷題,本題2分)是否22、一般而言,分布式數(shù)據(jù)庫是指物理上分散在不同地點,但在邏輯上是統(tǒng)一的數(shù)據(jù)庫。因此分布式數(shù)據(jù)庫具有物理上的獨立性、邏輯上的一體性、性能上的可擴展性等特點。(判斷題,本題2分)是否23、具備很強的報告撰寫能力,可以把分析結果通過文字、圖表、可視化等多種方式清晰地展現(xiàn)出來,能夠清楚地論述分析結果及可能產(chǎn)生的影響,從而說服決策者信服并采納其建議,是數(shù)據(jù)分析能力對大數(shù)據(jù)人才的基本要求。(判斷題,本題2分)是否24、谷歌流感趨勢充分體現(xiàn)了數(shù)據(jù)重組和擴展對數(shù)據(jù)價值的重要意義。(判斷題,本題2分)是否25、決策樹是一種基于樹形結構的預測模型,每一個樹形分叉代表一個分類條件,葉子節(jié)點代表最終的分類結果,其優(yōu)點在于易于實現(xiàn),決策時間短,并且適合處理非數(shù)值型數(shù)據(jù)。(判斷題,本題2分)是否26、信息生命周期管理是據(jù)生命周期管理的來源,最早由英國企業(yè)提出。(判斷題,本題2分)是否27、簡單隨機抽樣,是從總體N個對象中任意抽取n個對象作為樣本,最終以這些樣本作為調查對象。在抽取樣本時,總體中每個對象被抽中為調查樣本的概率可能會有差異.(判斷題,本題2分)是否28、啤酒與尿布的經(jīng)典案例,充分體現(xiàn)了實驗思維在大數(shù)據(jù)分析理念中的重要性。(判斷題,本題2分)是否29、對于企業(yè)來說,給用戶進行各種促銷或者實施運營策略的時機也比較重要,而且對不同興趣偏好的用戶最好集中處理.(判斷題,本題2分)是否二、數(shù)據(jù)挖掘部分單選題(共20題,20分)()的目的縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結果。A.數(shù)據(jù)清洗 B。數(shù)據(jù)集成C.數(shù)據(jù)變換 D.數(shù)據(jù)歸約某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?( )A。關聯(lián)規(guī)則發(fā)現(xiàn) B。聚類C。分類 D。自然語言處理以下兩種描述分別對應哪兩種對分類算法的評價標準?( )(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。(b)描述有多少比例的小偷給警察抓了的標準.A.Precision,RecallB.Recall,PrecisionA.Precision,ROC D.Recall,ROC將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務?()A。頻繁模式挖掘 B.分類和預測C.數(shù)據(jù)預處理 D。數(shù)據(jù)流挖掘當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離?( )A.分類 B。聚類C.關聯(lián)分析 D.隱馬爾可夫鏈建立一個模型,通過這個模型根據(jù)已知的變量值來預測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務?( )A。根據(jù)內容檢索B.建模描述C.預測建模 D.尋找模式和規(guī)則下面哪種不屬于數(shù)據(jù)預處理的方法?()A.變量代換 B.離散化C。聚集 D。估計遺漏值假設12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內?()A。第一個 B。第二個C.第三個 D.第四個TOC\o"1-5"\h\z以下哪種方法不屬于特征選擇的標準方法:( )人。嵌入 B。過濾C.包裝 D。抽樣10)下面不屬于創(chuàng)建新屬性的相關方法的是:( )A。特征提取 B.特征修改C.映射數(shù)據(jù)到新的空間D。特征構造11)假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:( )A.0。821 B。1。224C.1.458 Do0.71612)一所大學內的各年紀人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人.則年級屬性的眾數(shù)是:()A.一年級 B.二年級Co三年級 Do四年級13)下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術:()A.等高線圖 B.餅圖C.曲面圖 Do矢量場圖14)在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是:( )A。有放回的簡單隨機抽樣B。無放回的簡單隨機抽樣C。分層抽樣D漸進抽樣15)以下哪些算法是分類算法( )A.DBSCANB。C4。5C.K-Mean D.EM16)決策樹中不包含一下哪種結點()A.根結點(rootnode)B.內部結點(internalnode)C.外部結點(externalnode)D.葉結點(leafnode)17)以下哪項關于決策樹的說法是錯誤的( )冗余屬性不會對決策樹的準確率造成不利的影響子樹可能在決策樹中重復多次決策樹算法對于噪聲的干擾非常敏感D.尋找最佳決策樹是NP完全問題18)通過聚集多個分類器的預測來提高分類準確率的技術稱為( )A。組合(ensemble)B。聚集(aggregate)C.合并(combination)D.投票(voting)19)在基本K均值算法里,當鄰近度函數(shù)采用()的時候,合適的質心是簇中各點的中位數(shù).A。曼哈頓距離 B.平方歐幾里德距離C。余弦距離 D.Bregman散度20)個性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎上的一種高級商務智能平臺,以幫助()為其顧客購物提供完全個性化的決策支持和信息服務.A。公司 B.各單位C。跨國企業(yè) D。電子商務網(wǎng)站三、計算題(共13分)1、根據(jù)下表中信用卡訓練樣本判斷(女性,年齡介于31~45之間,不具學生身份,收入中等)者會不會辦理信用卡。請自選兩種方法進行計算.
表信用卡訓練樣本項目性別年齡學生身分收入辦卡1男>45否高會2女31~45否高會3女20~30是低會4男〈20是低不會5女20~30是中不會6女20?30否中會7女31~45否高會8男31~45是中不會9男31~45否中會10女〈20是低會本題可以使用多種方法,沒有固定答案.解題方式合理,計算步驟無誤即可。首先根據(jù)訓練樣本計算各屬性相對于不同分類結果的條件機率:P(性別=女|辦卡=會)=5/7 P(性別=女1辦卡=不會)=1/3P(年齡=3廣45|辦卡=會)=3/7P(年齡=31~45I辦卡=不會)=1/3P(學生=否1辦卡=會)=5/7 P(學生=否1辦卡=不會)=0/3 P(收入=中|辦卡=會)=2/7 P(收入=中|辦卡=不會)=2/3 再應用樸素貝葉斯分類法進行類別預測:P(辦卡=會)=7/10P(女I會)P(31-45|會)P(否I會)P(中I會)=15/343=0。044P(辦卡=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45101-2024動物炭疽診斷技術
- PB-22-6-Hydroxyisoquinoline-isomer-生命科學試劑-MCE-4732
- KOTX1-生命科學試劑-MCE-8752
- Dipalmitelaidin-生命科學試劑-MCE-4147
- Asante-potassium-green-1-TMA-APG-1-TMA-生命科學試劑-MCE-1099
- 8-S-Hydroxy-9-S-hexahydrocannabinol-生命科學試劑-MCE-2932
- 1cP-MiPLA-生命科學試劑-MCE-6571
- 二零二五年度股權與合伙人協(xié)議書整合執(zhí)行細則
- 二零二五年度2025年度新材料研發(fā)與應用連帶保證借款合同
- 2025年度耕地復墾與農(nóng)業(yè)生態(tài)環(huán)境保護合同
- 電力服務收費標準附表
- 小學主題班會教學設計-《給你點個“贊”》通用版
- 【教學創(chuàng)新大賽】《系統(tǒng)解剖學》教學創(chuàng)新成果報告
- 賽意EAM設備管理IOT解決方案
- 氫氰酸安全技術說明書MSDS
- 動物檢疫技術-動物檢疫的范圍(動物防疫與檢疫技術)
- 比較思想政治教育學
- 醫(yī)用內窺鏡冷光源產(chǎn)品技術要求深圳邁瑞
- 砌墻磚和砌塊檢測作業(yè)指導書
- 護理教學查房評分標準
- GB/T 23505-2017石油天然氣工業(yè)鉆機和修井機
評論
0/150
提交評論