分布式計算框架(大連東軟信息學(xué)院)知到智慧樹章節(jié)答案_第1頁
分布式計算框架(大連東軟信息學(xué)院)知到智慧樹章節(jié)答案_第2頁
分布式計算框架(大連東軟信息學(xué)院)知到智慧樹章節(jié)答案_第3頁
分布式計算框架(大連東軟信息學(xué)院)知到智慧樹章節(jié)答案_第4頁
分布式計算框架(大連東軟信息學(xué)院)知到智慧樹章節(jié)答案_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

目錄緒論第一章單元測試第二章單元測試第三章單元測試第四章單元測試第五章單元測試第六章單元測試緒論1【判斷題】正確答案:BUserCF算法符合人們對于“趣味相投”的認(rèn)知,即興趣相似的用戶往往有相同的物品喜好。()。A.錯B.對第一章單元測試1【判斷題】正確答案:ASpark是一種快速、分布式、可擴(kuò)展、容錯的集群計算框架()。A.對B.錯2.【多選題】(5分)正確答案:ABCDSpark的主要特點()。A.通用性,Spark提供了完整而強(qiáng)大的技術(shù)棧B.運行速度快C.容易使用,簡潔的API設(shè)計有助于用戶輕松構(gòu)建并行程序D.運行模式多樣3.【多選題】(5分)正確答案:ACSpark任務(wù)執(zhí)行器中有存儲模塊,當(dāng)需要多輪迭代計算時,中間結(jié)果可以寫入()。A.硬盤B.CPUC.內(nèi)存D.U盤4【判斷題】正確答案:ASpark的資源管理器為任務(wù)執(zhí)行器分配資源,包括分配CPU和內(nèi)存()。A.對B.錯5.【多選題】(5分)正確答案:BDSpark應(yīng)用的計算邏輯會被解析成DAG,這個解析操作由以下哪個功能模塊完成()。A.ApplicationMasterB.DriverC.ClientD.Executor6【單選題】(3分)正確答案:D當(dāng)Spark運行時,每次執(zhí)行一個應(yīng)用程序,第一步應(yīng)該是()。A.并向任務(wù)執(zhí)行器發(fā)送應(yīng)用程序代碼和文件B.在任務(wù)執(zhí)行器上執(zhí)行TaskC.啟動任務(wù)執(zhí)行器D.DriverProgram即應(yīng)用程序的“指揮所”會向集群資源管理器申請資源7【單選題】(3分)正確答案:CSpark圖計算的產(chǎn)品是()。A.PowerGraphB.FlumeC.GraphXD.Pregel第二章單元測試1.【多選題】(5分)正確答案:ABCDSpark的運行架構(gòu)包括哪些()。A.WorkerNodeB.執(zhí)行進(jìn)程(Executor)C.任務(wù)控制節(jié)點DriverProgramD.集群資源管理器(Clustermanager)2【單選題】(3分)正確答案:Dscala語言是一種()式編程語言。A.指令式B.面向?qū)ο驝.面向過程D.函數(shù)式3.【多選題】(5分)正確答案:ACDScala關(guān)于變量定義、賦值,正確的是()A.vala=3B.vala:String=3C.varb="HelloWorld!";b="123"D.varb:Int=3;b=64【單選題】(3分)正確答案:D下面輸出與其他不一致的是()A.println("HelloWorld")B.print("HelloWorld\n")C.printf("Hello%s","World\n")D.valw="World";println("Hello$w")5【單選題】(3分)正確答案:DvarstrList=List("BigData","Hadoop","Spark");strList.tail運行的返回結(jié)果是()A.SparkB.BigDataC.HadoopD.Hadoop,Spark第三章單元測試1.【多選題】(5分)正確答案:ACD關(guān)于元組Tuple說法正確的是?()A.元組可以包含不同類型的元素B.元組最多只有2個元素C.訪問元組tuple第一個元素的方式為tuple._1D.元組是不可變的2.【多選題】(5分)正確答案:CDRDD操作包括哪兩種類型()A.分組GroupByB.連接joinC.轉(zhuǎn)換TransformationD.行動Action3.【多選題】(5分)正確答案:ABCD以下關(guān)于RDD的持久化的描述,正確的是()A.使用cache()方法時,會調(diào)用persist(MEMORY_ONLY)B.persist(MEMORY_AND_DISK):表示將RDD作為反序列化的對象存儲在JVM中,如果內(nèi)存不足,超出的分區(qū)將會被存放在硬盤上C.persist(MEMORY_ONLY):表示將RDD作為反序列化的對象存儲于JVM中,如果內(nèi)存不足,就要按照LRU原則替換緩存中的內(nèi)容D.通過持久化(緩存)機(jī)制可以避免重復(fù)計算的開銷4【單選題】(3分)正確答案:D下面哪個操作是窄依賴?()A.groupB.sortC.joinD.filter5【單選題】(3分)正確答案:D有一個pairRDD,包含元素為(“Spark”,1),(“Hadoop”,1),(“Python”,1)。則pairRDD.keys的結(jié)果為:()A.Array(Spark,Hadoop,Python)B.(“Spark”,1),(“Hadoop”,1),(“Python”,1)C.1,1,1D.Spark,Hadoop,Python6【單選題】(3分)正確答案:Bvalrdd1=sc.parallelize(List(1,2,3));valrdd2=sc.parallelize(List(1,2,4));valrdd3=rdd1.union(rdd2);上述語句執(zhí)行以后,rdd3的元素是:()A.Array(3,4)B.Array(1,2,3,1,2,4)C.Array(1,2)D.Array(1,2,3,4)7.【多選題】(5分)正確答案:BDRDD中按照制定列(第2列)的降序排序的是:()A.pairRDD.sortByKey()B.pairRDD.sortBy(x=>x._2,false)C.pairRDD.sortBy(x=>x._2)D.pairRDD.sortBy(_._2,false)8【單選題】(3分)正確答案:A“1718060010870”,race"輸出格式為學(xué)號、姓名、平均成績,兩個RDD可以采用的合并方法為:()A.joinB.intersectionC.subtractD.union第四章單元測試1【判斷題】正確答案:ASparkSQL是一個用來處理結(jié)構(gòu)化數(shù)據(jù)的Spark組件()。A.對B.錯2.【多選題】(5分)正確答案:ABC使用編程方式定義RDD時,主要包括三個步驟()A.把“表頭”和“表中的記錄”拼裝在一起B(yǎng).制作“表頭”C.制作“表中的記錄”D.制作映射表3.【多選題】(5分)正確答案:ABCD在Ubuntu中安裝MySQL的基本步驟包括()A.安裝MySQLB.安裝過程中,需要指定root賬戶的密碼C.更新軟件源D.啟動MySQL服務(wù)4【單選題】(3分)正確答案:B利用SparkSQL,查詢工資的最小值()A.df.agg("salary"->"avg")B.df.agg("salary"->"min")C.df.agg("salary"->"count")D.df.agg("salary"->"max")5.【多選題】(5分)正確答案:BDMySQL服務(wù)啟動和關(guān)閉的命令分別是()A.servicemysqlbeginB.servicemysqlstopC.servicemysqlendD.servicemysqlstart6【單選題】(3分)正確答案:B把一個DataFrame保存到people.json文件中,下面哪個語句正確:()A.df.json(“people.json”)B.df.write.json(“people.json”)C.df.write.format(“csv”).save(“people.json”)D.df.write.csv(“people.json”)7【單選題】(3分)正確答案:D統(tǒng)計每種商品購買總數(shù)的SQL語句()A.selectitem_id,count(*)fromuser_behaviorB.selectbehavior,count(*)fromuser_behaviorwherebehavior='buy'groupbyitem_idC.selectitem_id,count(*)fromuser_behaviorgroupbyitem_idD.selectitem_id,count(*)fromuser_behaviorwherebehavior='buy'groupbyitem_id8.【多選題】(5分)正確答案:ABCD利用SparkSQL,篩選出工資高于4000的記錄()A.df.where(df(“salary“)>4000)B.df.filter(df(“salary“)>4000)C.df.filter(“salary>4000”)D.df.where(“salary>4000”)第五章單元測試1【單選題】(3分)正確答案:B下面論述中錯誤的是()A.機(jī)器學(xué)習(xí)強(qiáng)調(diào)三個關(guān)鍵詞:算法、經(jīng)驗、性能B.機(jī)器學(xué)習(xí)和人工智能是不存在關(guān)聯(lián)關(guān)系的兩個獨立領(lǐng)域C.推薦系統(tǒng)、金融反欺詐、語音識別、自然語言處理和機(jī)器翻譯、模式識別、智能控制等領(lǐng)域,都用到了機(jī)器學(xué)習(xí)的知識D.機(jī)器學(xué)習(xí)可以看作是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能2.【多選題】(5分)正確答案:AD“詞頻-逆向文件頻率”(TF-IDF)是一種在文本挖掘中廣泛使用的特征向量化方法,以下說法正確的是()A.文件頻率DF(t,D):是包含詞語t的文檔的個數(shù)B.文件頻率DF(t,D):是包含詞語t的文檔的個數(shù)C.詞頻TF(t,d):是包含詞語t的文檔的個數(shù)D.詞頻TF(t,d):是詞語t在文檔d中出現(xiàn)的次數(shù)。3【單選題】(3分)正確答案:CSparkMllib中用卡方選擇器進(jìn)行特征選擇,選擇最好的幾個特征的參數(shù)是()A.setFeaturesColB.setOutputColC.setNumTopFeaturesD.setLabelCol4【單選題】(3分)正確答案:BLogistic回歸將輸出概率限定在[0,1]之間。下列哪個函數(shù)起到這樣的作用?()A.ReLU函數(shù)B.Sigmoid函數(shù)C.LeakyReLU函數(shù)D.tanh函數(shù)5【單選題】(3分)正確答案:B“從有標(biāo)簽的歷史數(shù)據(jù)中來預(yù)測下季度的收益會在20-30萬還是30-40萬”,這是一個什么問題?()A.回歸問題B.分類問題C.聚類問題D.規(guī)則問題第六章單元測試1.【多選題】正確答案:ABCD推薦算法中相似度度量方法包括()。A.歐式距離B.Jac

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論