2024年秋江蘇開放大學大數(shù)據(jù)庫管理過程性考核作業(yè)1-3_第1頁
2024年秋江蘇開放大學大數(shù)據(jù)庫管理過程性考核作業(yè)1-3_第2頁
2024年秋江蘇開放大學大數(shù)據(jù)庫管理過程性考核作業(yè)1-3_第3頁
2024年秋江蘇開放大學大數(shù)據(jù)庫管理過程性考核作業(yè)1-3_第4頁
2024年秋江蘇開放大學大數(shù)據(jù)庫管理過程性考核作業(yè)1-3_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

2024年秋江蘇開放大學大數(shù)據(jù)庫管理060602第一次過程性考核作業(yè)(1~3單元)單選題1、Hadoop框架中最核心的設計是什么?A、為海量數(shù)據(jù)提供存儲的HDFS和對數(shù)據(jù)進行計算的MapReduceB、Hadoop被視為事實上的大數(shù)據(jù)處理標準C、Hadoop不僅可以運行在企業(yè)內(nèi)部的集群中,也可以運行在云計算環(huán)境中D提供整個HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務學生答案:A2下面對SecondaryNameNode第二名稱節(jié)點的描述,哪個是錯誤的?A、SecondaryNameNode一般是并行運行在多臺機器上B、SecondaryNameNode是HDFS架構中的一個組成部分C、SecondaryNameNode用來保存名稱節(jié)點中對HDFS元數(shù)據(jù)信息的備份D、SecondaryNameNode通過HTTPGET方式從NameNode上獲取到FsImage和EditLog文件,并下載到本地的相應目錄下學生答案:A3在一個基本的Hadoop集群中,DataNode主要負責什么?A負責協(xié)調集群中的數(shù)據(jù)存儲B存儲被拆分的數(shù)據(jù)塊C負責執(zhí)行由JobTracker指派的任務D協(xié)調數(shù)據(jù)計算任務學生答案:B4在HDFS中,NameNode的主要功能是什么?A維護blockid到DataNode本地文件的映射關系B存儲元數(shù)據(jù)C文件內(nèi)容保存在磁盤中D存儲文件內(nèi)容學生答案:B5下列哪一項不屬于HDFS采用抽象的塊概念帶來的好處?A強大的跨平臺兼容性B適合數(shù)據(jù)備份C簡化系統(tǒng)設計D支持大規(guī)模文件存儲學生答案:A6在Hadoop項目結構中,MapReduce指的是什么?A、Hadoop上的工作流管理系統(tǒng)B分布式并行編程模型C流計算框架D提供分布式協(xié)調一致性服務學生答案:B7第一次信息化浪潮主要解決什么問題?A信息轉換B信息處理C信息爆炸D信息傳輸學生答案:B8下面對FsImage的描述,哪個是正確的?A、FsImage記錄了每個塊具體被存儲在哪個數(shù)據(jù)節(jié)點B、FsImage用于維護文件系統(tǒng)樹以及文件樹中所有的文件和文件夾的元數(shù)據(jù)C、FsImage用于存儲文件內(nèi)容D、FsImage記錄了所有針對文件的創(chuàng)建、刪除、重命名等操作學生答案:B9下列哪一個不屬于Hadoop的大數(shù)據(jù)層的功能?A實時計算B數(shù)據(jù)挖掘C離線分析DBI分析學生答案:A10下列哪個不屬于Hadoop的特性?A成本高B運行在Linux平臺上C高可靠性D高容錯性學生答案:A11在Hadoop項目結構中,HDFS指的是什么?A資源管理和調度器B、Hadoop上的數(shù)據(jù)倉庫C分布式文件系統(tǒng)D分布式并行編程模型學生答案:C12在大數(shù)據(jù)的計算模式中,流計算解決的是什么問題?A針對大規(guī)模圖結構數(shù)據(jù)的處理B針對大規(guī)模數(shù)據(jù)的批量處理C針對流數(shù)據(jù)的實時計算D大規(guī)模數(shù)據(jù)的存儲管理和查詢分析學生答案:C13下面哪個不是Hadoop1.0的組件?A、NameNode和DataNodeB、YARNC、MapReduceD、HDFS學生答案:B14在Hadoop生態(tài)系統(tǒng)中,HBase指的是什么?A數(shù)據(jù)流處理環(huán)境B分布式數(shù)據(jù)庫C、Hadoop上的數(shù)據(jù)倉庫D分布式文件系統(tǒng)學生答案:B15下面哪個選項屬于大數(shù)據(jù)技術的“數(shù)據(jù)存儲和管理”技術層面的功能?A利用分布式并行編程模型和計算框架,結合機器學習和數(shù)據(jù)挖掘算法,實現(xiàn)對海量數(shù)據(jù)的處理和分析B把實時采集的數(shù)據(jù)作為流計算系統(tǒng)的輸入,進行實時處理分析C利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關系數(shù)據(jù)庫等實現(xiàn)對結構化、半結構化和非結構化海量數(shù)據(jù)的存儲和管理D構建隱私數(shù)據(jù)保護體系和數(shù)據(jù)安全體系,有效保護個人隱私和數(shù)據(jù)安全學生答案:C判斷題1大數(shù)據(jù)的特點包括數(shù)據(jù)的“大量化”、快速化”、“多樣化”、“高價值”。A正確B錯誤學生答案:B2、Hadoop可以部署在廉價的計算機集群中。A正確B錯誤學生答案:A3、HDFS采用了分層模型。A正確B錯誤學生答案:B4第三次信息化浪潮主要解決信息處理問題。A正確B錯誤學生答案:B5在HDFS中,默認一個塊的大小是64KB。A正確B錯誤學生答案:B多選題1下面哪個屬于大數(shù)據(jù)的應用領域?A實時掌握交通狀況B監(jiān)控身體情況C金融交易D智能醫(yī)療研發(fā)學生答案:A;B;C;D2、HDFS的應用局限性,主要包括以下哪幾個方面?A不支持多用戶寫入及任意修改文件B較差的跨平臺兼容性C無法高效存儲大量小文件D不適合低延遲數(shù)據(jù)訪問學生答案:A;C;D3、Hadoop的特性包括哪些?A高可擴展性B支持多種編程語言C運行在Linux平臺上D高效性學生答案:A;B;C;D4、HDFS具有較高的容錯性,設計了哪些相應的機制檢測數(shù)據(jù)錯誤和進行自動恢復?A數(shù)據(jù)出錯B名稱節(jié)點出錯C數(shù)據(jù)節(jié)點出錯D數(shù)據(jù)源太大學生答案:A;B;C5下列關于Hadoop的描述,哪些是正確的?A曾經(jīng)被公認為行業(yè)大數(shù)據(jù)標準開源軟件B具有很好的跨平臺特性C可以部署在廉價的計算機集群中D為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎架構學生答案:A;B;C;D6數(shù)據(jù)節(jié)點(DataNode)的主要功能包括哪些?A負責數(shù)據(jù)的存儲和讀取B用來保存名稱節(jié)點中對HDFS元數(shù)據(jù)信息的備份,并減少名稱節(jié)點重啟的時間C根據(jù)客戶端或者是名稱節(jié)點的調度來進行數(shù)據(jù)的存儲和檢索D向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表學生答案:A;C;D7HDFS特殊的設計,在實現(xiàn)優(yōu)良特性的同時,也使得自身具有一些應用局限性,主要包括以下哪幾個方面?A不支持多用戶寫入及任意修改文件B較差的跨平臺兼容性C不適合低延遲數(shù)據(jù)訪問D無法高效存儲大量小文件學生答案:A;C;D8Hadoop集群的整體性能主要受到什么因素影響?ACPU性能B內(nèi)存C網(wǎng)絡D存儲容量學生答案:A;B;C;D9、對于HDFS中的客戶端,下列描述哪些是正確的?A、HDFS客戶端是一個庫,暴露了HDFS文件系統(tǒng)接口B客戶端是用戶操作HDFS最常用的方式,HDFS在部署時都提供了客戶端C客戶端可以支持打開、讀取、寫入等常見的操作D嚴格來說,客戶端并不算是HDFS的一部分學生答案:A;B;C;D10、HDFS數(shù)據(jù)塊多副本存儲具備以下哪些優(yōu)點?A加快數(shù)據(jù)傳輸速度B適合多平臺上運行C保證數(shù)據(jù)可靠性D容易檢查數(shù)據(jù)錯誤學生答案:A;C;D簡答題1請闡述大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)三者之間的關系。參考答案:從整體上看,大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)是相輔相成的。---(1分)(1)大數(shù)據(jù)根植于云計算,大數(shù)據(jù)分析的很多技術來之云計算,云計算的分布式數(shù)據(jù)存儲和管理系統(tǒng)、分布式并行處理框架MapReduce,都是大數(shù)據(jù)技術的基礎,反之,大數(shù)據(jù)為云計算提供了“用武之地”......(2分)(2)物聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源,大數(shù)據(jù)技術為物聯(lián)網(wǎng)數(shù)據(jù)分析提供支撐............(2分)(3)云計算為物聯(lián)網(wǎng)提供海量數(shù)據(jù)存儲能力,物聯(lián)網(wǎng)為云計算技術提供了廣闊的應用空間。....(2分)

2024年秋江蘇開放大學大數(shù)據(jù)庫管理060602第二次過程性考核作業(yè)(4~6單元)單選題1下列關于NoSQL與關系數(shù)據(jù)庫的比較,哪個說法是錯誤的?A在數(shù)據(jù)完整性方面,RDBMS容易實現(xiàn)B擴展性方面,NoSQL比較好C在一致性方面,RDBMS強于NoSQLD在可用性方面,NoSQL優(yōu)于RDBMS學生答案:D2關于文檔數(shù)據(jù)庫的說法,下列哪一項是錯誤的?A性能好(高并發(fā))B缺乏統(tǒng)一的查詢語法C數(shù)據(jù)是規(guī)則的D復雜性低學生答案:C3下列哪一個不屬于云數(shù)據(jù)庫產(chǎn)品?A阿里云RDSB百度云數(shù)據(jù)庫C本地安裝MySQLD、OracleCloud學生答案:C4、HBase系統(tǒng)架構中,主服務器Master主要負責表和Region的管理工作,下面有關描述哪個是錯誤的?A管理用戶對表的增加、刪除、修改、查詢等操作B不支持不同Region服務器之間的負載均衡C對發(fā)生故障失效的Region服務器上的Region進行遷移D在Region分裂或合并后,負責重新調整Region的分布學生答案:B5下面關于NoSQL和關系數(shù)據(jù)庫的簡單比較,哪個是錯誤的?A、RDBMS借助于索引機制可以實現(xiàn)快速查詢,很多NoSQL數(shù)據(jù)庫沒有面向復雜查詢的索引B、NoSQL很難實現(xiàn)橫向擴展,RDBMS可以很容易通過添加更多設備來支持更大規(guī)模的數(shù)據(jù)C、RDBMS需要定義數(shù)據(jù)庫模式,嚴格遵守數(shù)據(jù)定義,NoSQL一般不存在數(shù)據(jù)庫模式,可以自由靈活定義并存儲各種不同類型的數(shù)據(jù)D、RDBMS有關系代數(shù)理論作為基礎,NoSQL沒有統(tǒng)一的理論基礎學生答案:B6、UMP系統(tǒng)是構建在一個大的集群之上的,下列哪一項不屬于系統(tǒng)向用戶提供的功能?A分庫分表B資源合并C讀寫分離D數(shù)據(jù)安全學生答案:B7、HBase只有一個針對行鍵的索引,如果要訪問HBase表中的行,下面哪種方式是不可行的?A通過一個行鍵的區(qū)間來訪問B通過單個行鍵訪問C通過時間戳訪問D全表掃描學生答案:C8下列關于鍵值數(shù)據(jù)庫的描述,哪一項是錯誤的?A大量寫操作時性能高B條件查詢效率高C擴展性好,靈活性好D無法存儲結構化信息學生答案:B9、HBase中需要根據(jù)“四維坐標”來確定一個單元格,下面哪個不屬于“四維坐標”?A、時間戳B、行鍵C關鍵字D列族學生答案:C10下列關于云數(shù)據(jù)庫的描述,哪個是錯誤的?A云數(shù)據(jù)庫是部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫B云數(shù)據(jù)庫具有高可擴展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點C云數(shù)據(jù)庫是在云計算的大背景下發(fā)展起來的一種新興的共享基礎架構的方法D云數(shù)據(jù)庫價格不菲,維護費用極其昂貴學生答案:D11下列哪個不屬于NoSQL數(shù)據(jù)庫的特點?A靈活的數(shù)據(jù)模型B靈活的可擴展性C數(shù)據(jù)存儲規(guī)模有限D與云計算緊密融合學生答案:C12下面關于HBase中Region的說法,哪個是錯誤的?A同一個Region不會被分拆到多個Region服務器B為了加快訪問速度,.META.表的全部Region都會被保存在內(nèi)存中C為了加速尋址,客戶端會緩存位置信息D一個-ROOT-表可以有多個Region學生答案:D13下列哪一項不屬于NoSQL的四大類型?A圖數(shù)據(jù)庫B列族數(shù)據(jù)庫C時間戳數(shù)據(jù)庫D文檔數(shù)據(jù)庫學生答案:C14關于HBase的三層結構中各層次的名稱和作用的說法,哪個是錯誤的?A、.META.表保存了HBase中所有用戶數(shù)據(jù)表的Region位置信息B、-ROOT-表記錄了.META.表的Region位置信息C、Zookeeper文件記錄了-ROOT-表的位置信息D、Zookeeper文件記錄了用戶數(shù)據(jù)表的Region位置信息學生答案:D15下列關于列族數(shù)據(jù)庫的描述,哪一項是錯誤的?A復雜性低B容易進行分布式擴展C功能較少,大都不支持強事務一致性D查找速度慢,可擴展性差學生答案:D判斷題1、HBase是基于列存儲的,操作不存在復雜的表與表之間的關系,不支持修改操作。A正確B錯誤學生答案:B2、Web2.0網(wǎng)站系統(tǒng)基本上不用關系數(shù)據(jù)庫來存儲數(shù)據(jù)。A正確B錯誤學生答案:B3同一個公司只能提供采用單一數(shù)據(jù)模型的單個云數(shù)據(jù)庫服務。A正確B錯誤學生答案:B4圖數(shù)據(jù)庫專門用于處理具有高度相互關聯(lián)關系的數(shù)據(jù)。A正確B錯誤學生答案:A5在HBase訪問接口中,Pig適合用于并行批處理HBase表數(shù)據(jù)。A正確B錯誤學生答案:B多選題1下列關于圖數(shù)據(jù)庫的描述,哪些是正確的?A靈活性高,支持復雜的圖算法B復雜性高,只能支持一定的數(shù)據(jù)規(guī)模C專門用于處理具有高度相互關聯(lián)關系的數(shù)據(jù)D比較適合于社交網(wǎng)絡、模式識別、依賴分析、推薦系統(tǒng)以及路徑尋找等問題學生答案:A;B;C;D2、HBase訪問接口類型包括哪些?A、ThriftGatewayB、NativeJavaAPIC、RESTGatewayD、HBaseShell學生答案:A;B;C;D3下列關于HBase中HLog工作原理的描述,哪些是正確的?A用戶更新數(shù)據(jù)必須首先寫入日志后,才能寫入MemStore緩存B系統(tǒng)出錯時,HBase采用HLog保證系統(tǒng)恢復C、HBase系統(tǒng)為每個Region服務器配置了一個HLog文件D、當某個Region服務器發(fā)生故障時,Master首先會處理該服務器上面遺留的HLog文件學生答案:A;B;C;D4下列關于MySQL集群的描述,哪些是正確的?A擴容問題:如果系統(tǒng)壓力過大需要增加新的機器,這個過程涉及數(shù)據(jù)重新劃分B動態(tài)數(shù)據(jù)遷移問題:如果某個數(shù)據(jù)庫組壓力過大,需要將其中部分數(shù)據(jù)遷移出去C復雜性:部署、管理、配置很復雜D數(shù)據(jù)庫復制:MySQL主備之間一般采用復制方式,很多時候是異步復制學生答案:A;B;C;D5當處理CAP的問題時,可以有哪幾個明顯的選擇?A、AP:也就是強調可用性(A)和分區(qū)容忍性(P),放棄一致性(C)B、CA:也就是強調一致性(C)和可用性(A),放棄分區(qū)容忍性(P)C、CAP:也就是同時兼顧可用性(A)、分區(qū)容忍性(P)和一致性(C)D、CP:也就是強調一致性(C)和分區(qū)容忍性(P),放棄可用性(A)學生答案:A;B;D6關系數(shù)據(jù)庫已經(jīng)無法滿足Web2.0的需求,主要表現(xiàn)在以下幾個方面?A無法滿足海量數(shù)據(jù)的管理需求B使用難度高C無法滿足高可擴展性和高可用性的需求D無法滿足數(shù)據(jù)高并發(fā)的需求學生答案:A;C;D7為什么說云數(shù)據(jù)庫是個性化數(shù)據(jù)存儲需求的理想選擇?A云數(shù)據(jù)庫可以滿足大企業(yè)的海量數(shù)據(jù)存儲需求B前期零投入、后期免維護的數(shù)據(jù)庫服務,可以很好地滿足需求C云數(shù)據(jù)庫可以滿足中小企業(yè)的低成本數(shù)據(jù)存儲需求D云數(shù)據(jù)庫可以滿足企業(yè)動態(tài)變化的數(shù)據(jù)存儲需求學生答案:A;B;C;D8下列關于云數(shù)據(jù)庫與其他數(shù)據(jù)庫的關系,哪些是正確的?A許多公司在開發(fā)云數(shù)據(jù)庫時,后端數(shù)據(jù)庫都是直接使用現(xiàn)有的各種關系數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫產(chǎn)品B同一個公司只能提供采用不同數(shù)據(jù)模型的單個云數(shù)據(jù)庫服務C從數(shù)據(jù)模型的角度來說,云數(shù)據(jù)庫并非一種全新的數(shù)據(jù)庫技術D云數(shù)據(jù)庫并沒有專屬于自己的數(shù)據(jù)模型,云數(shù)據(jù)庫所采用的數(shù)據(jù)模型可以是關系數(shù)據(jù)庫所使用的關系模型學生答案:A;C;D9、HBase的三層結構中,三層指的是哪三層?A、-ROOT-表B、.META.表C、數(shù)據(jù)類型D、Zookeeper文件學生答案:A;B;D10下列關于UMP系統(tǒng)架構的描述,哪些是正確的?A、UMP系統(tǒng)借助于LVS來實現(xiàn)集群內(nèi)部的負載均衡B、信息統(tǒng)計服務器定期將采集到的用戶的連接數(shù)進行統(tǒng)計C、LVS(LinuxVirtualServer)即Linux虛擬服務器D、Web控制臺無法向用戶提供系統(tǒng)管理界面學生答案:A;B;C簡答題1.請描述作為NoSQL數(shù)據(jù)庫的基石之一的BASE的含義。參考答案:BASE的基本含義如下:(1)基本可用(BasicallyAvailble):是指一個分布式系統(tǒng)的一部分發(fā)生問題變得不可用時,其他部分仍然可以正常使用,也就是允許分區(qū)失敗的情形出現(xiàn).。....................(2分)(2)軟狀態(tài)(Soft-state):是指與“硬狀態(tài)”相對應的一種提法。數(shù)據(jù)庫保存的數(shù)據(jù)是“硬狀態(tài)”時,可以保證數(shù)據(jù)一致性,即保證數(shù)據(jù)一直是正確的。“軟狀態(tài)”是指狀態(tài)可以有一段時間不同步,具有一定的滯后性。.....................(2分)(3)最終一致性(Eventualconsistency):是指允許后續(xù)的訪問操作可以暫時讀不到更新后的數(shù)據(jù),但是經(jīng)過一段時間之后,必須最終讀到更新后的數(shù)據(jù),這也是ACID的最終目的,最終數(shù)據(jù)是一致的就可以了,而不是實時都保持一致。...............................(2分)

2024年秋江蘇開放大學大數(shù)據(jù)庫管理第三次過程性考核作業(yè)(7~10單元)單選題1、關于HDFSFederation的設計的描述,哪個是錯誤的?A、HDFS的命名服務能夠水平擴展B屬于不同命名空間的塊可以構成同一個“塊池”C設計了多個相互獨立的名稱節(jié)點D、HDFSFederation中,所有名稱節(jié)點會共享底層的數(shù)據(jù)節(jié)點存儲資源,數(shù)據(jù)節(jié)點向所有名稱節(jié)點匯報學生答案:B2下列關于推薦系統(tǒng)的描述,有誤的是?A專家推薦:人工推薦,由資深的專業(yè)人士來進行物品的篩選和推薦,需要較多的人力成本性B協(xié)同過濾推薦:應用最早和最為成功的推薦方法之一C混合推薦:結合多種推薦算法來提升推薦效果D基于統(tǒng)計的推薦:通過機器學習的方法去描述內(nèi)容的特征,并基于內(nèi)容的特征來發(fā)現(xiàn)與之相似的內(nèi)容學生答案:D3下列哪個不屬于YARN體系結構中ResourceManager的功能?A處理來自ApplicationMaster的命令B監(jiān)控NodeManagerC處理客戶端請求D資源分配與調度學生答案:A4下列說法哪項有誤?A、Spark可以部署在資源管理器YARN之上,提供一站式的大數(shù)據(jù)解決方案B、Hadoop的設計遵循“一個軟件棧滿足不同應用場景”的理念C相對于Spark來說,使用Hadoop進行迭代計算非常耗資源D、Spark將數(shù)據(jù)載入內(nèi)存后,之后的迭代計算都可以直接使用內(nèi)存中的中間結果作運算,避免了從磁盤中頻繁讀取數(shù)據(jù)學生答案:B5下列關于Scala特性的描述,錯誤的是哪一項?A、Scala是Spark的主要編程語言B、Scala兼容Java,運行速度快,且能融合到Hadoop生態(tài)圈中C、Scala語法復雜,但是能提供優(yōu)雅的APID、Scala具備強大的并發(fā)性,支持函數(shù)式編程,可以更好地支持分布式系統(tǒng)學生答案:C6下列關于Spark中RDD的說法,描述有誤的是?A、RDD是可以直接修改的B、每個RDD可分成多個分區(qū),每個分區(qū)就是一個數(shù)據(jù)集片段C、一個RDD就是一個分布式對象集合,本質上是一個只讀的分區(qū)記錄集合D、RDD提供了一種高度受限的共享內(nèi)存模型學生答案:A7下列關于Map和Reduce函數(shù)的描述,哪個是錯誤的?A、Map每一個輸入的<k1,v1>會輸出一批<k2,v2>,B、Reduce輸入的中間結果<k2,List(v2)>中的List(v2)表示是一批屬于不同k2的valueC、Reduce輸入的中間結果<k2,List(v2)>中的List(v2)表示是一批屬于同一個k2的valueD、Map將小數(shù)據(jù)集進一步解析成一批<key,value>對,輸入Map函數(shù)中進行處理學生答案:B8、MapReduce1.0的體系結構中,JobTracker的主要任務是什么?A會周期性地通過“心跳”將本節(jié)點上資源的使用情況和任務的運行進度匯報給TaskTrackerB會跟蹤任務的執(zhí)行進度、資源使用量等信息,并將這些信息告訴任務(Task)C使用“slot”等量劃分本節(jié)點上的資源量(CPU、內(nèi)存等)D負責資源監(jiān)控和作業(yè)調度,監(jiān)控所有TaskTracker與Job的健康狀況學生答案:D9下列關于推薦系統(tǒng)的描述,哪一項是錯誤的?A推薦系統(tǒng)分為基于物品的協(xié)同過濾和基于商家的協(xié)同過濾B推薦系統(tǒng)可以創(chuàng)造全新的商業(yè)和經(jīng)濟模式,幫助實現(xiàn)長尾商品的銷售C推薦系統(tǒng)是自動聯(lián)系用戶和物品的一種工具D推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領域的典型應用學生答案:A10下列傳統(tǒng)并行計算框架,說法錯誤的是哪一項?A實時、細粒度計算、計算密集型B編程難度高C刀片服務器、高速網(wǎng)、SAN,價格貴,擴展性差D共享式(共享內(nèi)存/共享存儲),容錯性好學生答案:D11關于Spark運行架構,下列說法錯誤的是?A一個Job包含多個RDD及作用于相應RDD上的各種操作B、DAG反映RDD之間的依賴關系C、RDD是運行在工作節(jié)點(WorkerNode)的一個進程,負責運行TaskD、Application是用戶編寫的Spark應用程序學生答案:C12在Hadoop生態(tài)系統(tǒng)中,Kafka主要解決Hadoop中存在哪些的問題?A、Hadoop生態(tài)系統(tǒng)中各個組件和其他產(chǎn)品之間缺乏統(tǒng)一的、高效的數(shù)據(jù)交換中介B、不同的MapReduce任務之間存在重復操作,降低了效率C、抽象層次低,需要手工編寫大量代碼D、延遲高,而且不適合執(zhí)行迭代計算學生答案:A13下列關于Spark的描述,錯誤的是哪一項?A提供了完整而強大的技術棧,包括SQL查詢、流式計算、機器學習和圖算法組件B使用DAG執(zhí)行引擎以支持循環(huán)數(shù)據(jù)流與內(nèi)存計算C支持使用Scala、Java、Python和R語言進行編程,但是不可以通過SparkShell進行交互式編程D可運行于獨立的集群模式中,可運行于Hadoop中,也可運行于AmazonEC2等云環(huán)境中學生答案:C14下列哪個不屬于YARN體系結構中ApplicationMaster的功能?A將申請的資源分配給內(nèi)部任務B處理來自ResourceManger的命令C為應用程序申請資源D任務調度、監(jiān)控與容錯學生答案:B15在Spark生態(tài)系統(tǒng)組件的應用場景中,下列哪項說法是錯誤的?A、SparkCore應用在復雜的批量數(shù)據(jù)處理B、SparkSQL是基于歷史數(shù)據(jù)的交互式查詢C、GraphX是圖結構數(shù)據(jù)的處理D、SparkStreaming是基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘學生答案:D判斷題1、MapReduce將復雜的、運行于大規(guī)模集群上的并行計算過程高度地抽象到了兩個函數(shù)。A正確B錯誤學生答案:A2、MapReduce計算模型主要用于實時、計算密集型應用。A正確B錯誤學生答案:B3、推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領域的典型應用,是自動聯(lián)系用戶和愛好的一種工具。A正確B錯誤學生答案:B4、Spark運行架構中,每個Application都有自己專屬的Executor進程,該進程在Application運行期間一直駐留。A正確B錯誤學生答案:A5、在Hadoop生態(tài)系統(tǒng)中,Pig主要解決Hadoop中存在的延遲高、不適合執(zhí)行迭代計算的問題。A正確B錯誤學生答案:B多選題1、MapReduce體系結構主要由以下那幾個部分構成?A、JobTrackerB、ClientC、TaskD、TaskTracker學生答案:A;B;C;D2下列關于MapReduce的體系結構的描述,說法正確的有?A、TaskTracker監(jiān)控所有TaskTracker與Job的健康狀況B、TaskTracker使用“slot”等量劃分本節(jié)點上的資源量(CPU、內(nèi)存等)C、JobTracker負責資源監(jiān)控和作業(yè)調度D、用戶編寫的MapReduce程序通過Client提交到JobTracker端學生答案:B;C;D3、MapReduce的具體應用包括哪些?A矩陣-向量乘法B關系代數(shù)運算(選擇、投影、并、交、差、連接)C矩陣乘法D分組與聚合運算學生答案:A;B;C;D4下列哪些屬于大數(shù)據(jù)應用?A物流:基于大數(shù)據(jù)和物聯(lián)網(wǎng)技術的智能物流B汽車:無人駕駛汽車,實時采集車輛各種行駛數(shù)據(jù)和周圍環(huán)境C智能交通:利用交通大數(shù)據(jù),實現(xiàn)交通實時監(jiān)控D推薦系統(tǒng):為用戶推薦相關商品學生答案:A;B;C;D5在實際大數(shù)據(jù)處理應用中,當采用多種計算架構來滿足不同應用場景需求時,會帶來哪些問題?A比較難以對同一個集群中的各個系統(tǒng)進行統(tǒng)一的資源協(xié)調和分配B不同的軟件需要不同的開發(fā)和維護團隊C不同場景之間輸入輸出數(shù)據(jù)無法做到無縫共享,通常需要進行數(shù)據(jù)格式的轉換D需要較高的使用成本學生答案:A;B;C;D6下面哪個屬于不斷完善的Hadoop生態(tài)系統(tǒng)中的組件?A、KafkaB、TezC、DN8D、Pig學生答案:A;B;D7、MapReduce相較于傳統(tǒng)的并行計算框架有什么優(yōu)勢?A非共享式,容錯性好B使用普通PC機,便宜,擴展性好C編程簡單,只要告訴MapReduce做什么即可D批處理、非實時、數(shù)據(jù)密集型學生答案:A;B;C;D8、Spark采用RDD以后能夠實現(xiàn)高效計算的原因主要在于?A中間結果持久化到內(nèi)存,避免了不必要的讀寫磁盤開銷B存放的數(shù)據(jù)可以是Java對象,避免了不必要的對象序列化和反序列化C采用數(shù)據(jù)復制實現(xiàn)容錯D高效的容錯性學生答案:A;B;D9在實際應用中,大數(shù)據(jù)處理主要包括以下哪三個類型?A基于實時數(shù)據(jù)流的數(shù)據(jù)處理:通常時間跨度在數(shù)百毫秒到數(shù)秒之間B基于歷史數(shù)據(jù)的交互式查詢:通常時間跨度在數(shù)十秒到數(shù)分鐘之間C復雜的批量數(shù)據(jù)處理:通常時間跨度在數(shù)十分鐘到數(shù)小時之間D基于實時數(shù)據(jù)流的數(shù)據(jù)處理:通常時間跨度在數(shù)十秒到數(shù)分鐘之間學生答案:A;B;C10下列選項中,哪些屬于Hadoop1.0的核心組件的不足之處?A實時性差(適合批處理,不支持實時交互式)B執(zhí)行迭代操作效率低C資源浪費(Map和Reduce分兩階段執(zhí)行)D難以看到程序整體邏輯學生答案:A;B;C;D簡答題1.關于Spark,(1)相對于MapReduce而言,在執(zhí)行迭代計算方面,為什么Spark具有更好的性能?(2)為什么說Spark的設計具有天生的容錯性?(3)Spark有哪三種部署方式?答案:關于Spark的相關問題,以下是詳細解答:(1)相對于MapReduce而言,在執(zhí)行迭代計算方面,Spark具有更

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論