大數(shù)據(jù)-單選復(fù)習(xí)試題有答案_第1頁
大數(shù)據(jù)-單選復(fù)習(xí)試題有答案_第2頁
大數(shù)據(jù)-單選復(fù)習(xí)試題有答案_第3頁
大數(shù)據(jù)-單選復(fù)習(xí)試題有答案_第4頁
大數(shù)據(jù)-單選復(fù)習(xí)試題有答案_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第頁大數(shù)據(jù)-單選復(fù)習(xí)試題有答案1.所有Hive處理的數(shù)據(jù)都存儲在()中。A、HBaseB、MapReduceC、HDFSD、Hadoop【正確答案】:C2.關(guān)于Hive建表基本操作,描述正確的是:()A、一旦表建好,不可再修改表名B、一旦表建好,不可再增加新列C、創(chuàng)建外表時需要指定external關(guān)鍵字D、一旦表建好,不可再修改列名【正確答案】:C3.以下哪項不屬于批量數(shù)據(jù)采集工具?A、SqoopB、FlumeC、其他ETL工具D、MapReduce【正確答案】:D4.給出如下代碼,可以輸出"Python"的是()S='Pythonisbeautiful!'A、print(s[0:6].lower())B、print(s[-21:-14].lower)C、print(s[:-14])D、print(s[1:6])【正確答案】:C5.以下保留字不屬于分支結(jié)構(gòu)的是A、ifB、elifC、elseD、while【正確答案】:D6.在抽樣方法中,當(dāng)合適的樣本容量很難確定時,可以使用的抽樣方法是:()A、有放回的簡單隨機抽樣B、無放回的簡單隨機抽樣C、分層抽樣D、漸進抽樣【正確答案】:D7.關(guān)于樸素貝葉斯分類算法,描述正確的是:A、它假設(shè)屬性之間相互獨立B、根據(jù)先驗概率計算后驗概率C、對于給定的待分類項X={a1,a2,…,an},求解在此項出現(xiàn)的條件下各個類別yi出現(xiàn)的概率,哪個P(yi|X)最大,就把此待分類項歸屬于哪個類別。D、有最小錯誤率判斷規(guī)則和最小風(fēng)險判斷規(guī)則【正確答案】:A8.與HadoopMapReduce的()不同的是,Spark采用的是()模式A、分布式計算,內(nèi)存計算B、硬盤計算,內(nèi)存計算C、批處理計算,分布式計算D、批處理計算,硬盤計算【正確答案】:B9.為提高計算性能,Spark中Transformation操作采用的是()計算模式A、活性B、惰性C、實時D、非實時【正確答案】:B10.SparkSQL快速的計算效率得益于()。A、CatalystB、ExecutionC、ParserD、Analyzer【正確答案】:A11.在MapReduce中,通常把Map拆分成了M個片段,把Reduce拆分成R個片段執(zhí)行。一般情況下,()由用戶指定。A、M值B、R值C、M值和R值D、以上都不正確【正確答案】:B12.設(shè)計分布式數(shù)據(jù)倉庫hive的數(shù)據(jù)表時,為取樣更高效,一般可以對表中的連續(xù)字段進行什么操作A、分桶B、分區(qū)C、索引D、分表【正確答案】:A13.屬于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用方向的是()。A、圖像分類B、目標(biāo)檢測C、圖像語義分割D、以上答案都正確【正確答案】:D14.EM算法是A、有監(jiān)督B、無監(jiān)督C、半監(jiān)督D、都不是【正確答案】:B15.我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時間,我們可以()A、減少樹的數(shù)量B、增加樹的深度C、減少樹的深度D、增加學(xué)習(xí)率【正確答案】:C16.Spark集群的任務(wù)是由()進行調(diào)度的。A、驅(qū)動器B、執(zhí)行器C、集群管理器D、應(yīng)用管理器【正確答案】:A17.交叉驗證如果設(shè)置K=5,會訓(xùn)練幾次A、4B、5C、6D、7【正確答案】:B18.以下哪個選項不屬于數(shù)據(jù)清洗的范疇()A、缺失值處理B、不均衡數(shù)據(jù)處理C、異常值處理D、數(shù)據(jù)加載處理【正確答案】:D19.假設(shè)有命令importnumpyasnpbArray=np.array([[1,2,3],[4,5,6]])則,bArray.ndim的結(jié)果是A、1B、2C、3D、4【正確答案】:B20.數(shù)據(jù)挖掘的英文簡寫是()A、DKDB、KDDC、DMDA【正確答案】:C21.以下描述正確的是:A、KNN算法中K值對分類效果影響較為顯著,一般K值較大時,對噪聲比較敏感。B、樸素貝葉斯算法對缺失數(shù)據(jù)特別敏感,事先需要知道先驗概率。C、SVM算法可以解決高維問題。提高泛化性能。D、集成學(xué)習(xí)算法存在過擬合、魯棒性不強等問題?!菊_答案】:C22.importpandasaspddf=pd.DataFrame('a':[1,2,3])print(df.shape)輸出結(jié)果是A、(3,)B、(3,1)C、(,3)D、-3【正確答案】:B23.下面哪個命令可以查詢Hive中的表及表的基本信息?()A、ShowCreateTabletableNameB、ShowTablesC、ShowTableinfotableNameD、ShowtableName【正確答案】:B24.XGBoost它的本質(zhì)是什么算法A、隨機森林B、GBDTC、線性回歸D、邏輯回歸【正確答案】:B25.deff1(a,b):a=a+breturnA,10Print(f1(1,2))Print函數(shù)輸出的結(jié)果是()A、(3,10)B、(10,3)C、(10,10)D、(3,3)【正確答案】:A26.Sk-learn中用于生成精準(zhǔn)率、召回率和F1得分的函數(shù)是()。APB、CMatrixC、completeness_scoreD、classification_report【正確答案】:D27.關(guān)于Python賦值語句,以下選項中不合法的是()A、x=y=1B、x=(y=1)C、x,y=y,xD、x=1;y=1【正確答案】:B28.在sklearn中,下面哪個類或方法,位于preprocessing模塊A、train_test_splitB、LabelEncoderC、accuracy_scoreDecisionTreeClassifier【正確答案】:B29.F1參數(shù)(),說明模型越穩(wěn)定。A、越小B、越大C、越趨近于某一特定值D、F1參數(shù)和模型穩(wěn)定性沒有關(guān)系【正確答案】:B30.下面哪些選項不正確描述了HBase的特性?()。A、事務(wù)性B、高性能C、面向列D、可伸縮【正確答案】:A31.以下關(guān)于神經(jīng)網(wǎng)絡(luò)的說法中,正確的是A、增加網(wǎng)絡(luò)層數(shù),一定能減小訓(xùn)練集錯誤率B、減小網(wǎng)絡(luò)層數(shù),一定能減小測試集錯誤率C、增加網(wǎng)絡(luò)層數(shù),可能增加測試集錯誤率D、增加網(wǎng)絡(luò)層數(shù),一定增加測試集錯誤率【正確答案】:C32.在HDFS中()是文件系統(tǒng)的工作節(jié)點。A、DataNodeB、ClientC、NameNodeD、Flume【正確答案】:A33.在shell腳本中,標(biāo)準(zhǔn)錯誤文件(stderr)的文件描述符為多少?A、0B、1C、2D、3【正確答案】:C34.以下關(guān)于程序異常的處理描述中,錯誤的是A、在try-except-else-finally結(jié)構(gòu)中,不管是否會發(fā)生異常,都會執(zhí)行finally子句中的代碼B、一般不建議在try中放太多代碼,而建議只放入可能會引發(fā)異常的代碼C、帶有else子句的異常處理結(jié)構(gòu),如果不發(fā)生異常則執(zhí)行else子句中的代碼D、在try-except-else結(jié)構(gòu)中,如果try子句的語句引發(fā)了異常,則會執(zhí)行else子句中的代碼【正確答案】:D35.邏輯回歸適用于以下哪種問題A、回歸問題B、二分類問題C、聚類問題D、關(guān)聯(lián)規(guī)則【正確答案】:B36.HBase為什么適用于海量數(shù)據(jù)存儲?A、集群規(guī)模小B、支持列存表C、多列簇特性D、HDFS做底層存儲【正確答案】:D37.在shell腳本里,可以通過哪個命令來刪除變量A、delB、deleteC、unsetD、unalias【正確答案】:C38.將兩個列表的內(nèi)容合并的方法是()A、newlist=listl+list2B、newlist=[listl,list2]C、newlist=listl.update(list2)D、listl.update(list2)【正確答案】:A39.用于分類與回歸應(yīng)用的主要算法有:()Apriori算法、HotSpot算法B、RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決策樹C、K均值法、SOM神經(jīng)網(wǎng)絡(luò)D、決策樹、BP神經(jīng)網(wǎng)絡(luò)、貝葉斯【正確答案】:D40.在數(shù)據(jù)清洗中,對“臟”數(shù)據(jù)源需要進行操作處理,不包括以下哪個方面A、完全清除某些輸入字段B、自動替換掉某些錯誤數(shù)據(jù)值C、對分配和調(diào)整的規(guī)則進行完備的文檔記錄D、補入一些丟失的數(shù)據(jù)【正確答案】:C41.字符串的strip方法的作用是A、刪除字符串頭尾指定的字符B、刪除字符串末尾的指定字符C、刪除字符串頭部的指定字符D、通過指定分隔符對字符串切片【正確答案】:A42.以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)的描述正確的是()A、神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲不敏感,因此不用考慮數(shù)據(jù)質(zhì)量B、神經(jīng)網(wǎng)絡(luò)訓(xùn)練后很容易得到分類的規(guī)則C、訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)是一個很耗時的過程D、只能用于分類任務(wù)【正確答案】:C43.在shell腳本中,當(dāng)腳本編寫完成后可以通過sh命令的什么參數(shù)來調(diào)試腳本?A、-xvB、-XvC、-oD、-t【正確答案】:A44.關(guān)于MapReduce的存儲,說法不正確的是()。A、輸入數(shù)據(jù)由GFS管理,一般存儲在集群機器的本地磁盤B、GFS把每個文件分解成多個分片,并將每一個分片保存在多臺機器C、MRv1采用基于槽位的資源分配模型,是一種粗粒度的資源劃分單位D、Hadoop將槽位Slot分為JobSlot和TaskSlot【正確答案】:D45.以下哪項不屬于Python語言的特點()A、依賴平臺B、支持中文C、語法簡潔D、類庫豐富【正確答案】:A46.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離A、分類B、聚類C、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)D、主成分分析【正確答案】:B47.在shell腳本中,以下哪個特殊符號代表腳本運行的當(dāng)前進程ID號?A、$#B、$*C、$?D、$$【正確答案】:D48.假如你在訓(xùn)練一個線性回歸模型,有下面兩句話:1、如果數(shù)據(jù)量較少,容易發(fā)生過擬合。2、如果假設(shè)空間較小,容易發(fā)生過擬合。關(guān)于這兩句話,下列說法正確的是?A、1和2都錯誤B、1正確,2錯誤C、1錯誤,2正確D、1和2都正確【正確答案】:B49.關(guān)于k折交叉驗證,下列說法正確的是?A、k值并不是越大越好,k值過大,會降低運算速度B、選擇更大的k值,會讓偏差更小,因為k值越大,訓(xùn)練集越接近整個訓(xùn)練樣本C、選擇合適的k值,能減小驗方差D、以上說法都正確【正確答案】:D50.執(zhí)行下列代碼,運行錯誤的是deffunc(a,b=1,c=2):passA、func(1,2,3)B、func(1,c=7)C、func(1,,3)D、func(1)【正確答案】:C51.下列不是遞歸程序特點的是()A、一定要有基例B、執(zhí)行效率高C、思路簡單,代碼不一定容易理解D、書寫簡單【正確答案】:B52.查看視圖的字段信息命令A(yù)、show視圖名B、DESCRIBE視圖名;C、create視圖名D、view視圖名【正確答案】:B53.以下哪種算法對離群值最敏感?()A、K均值聚類算法B、K中位數(shù)聚類算法C、K模型聚類算法D、K中心點聚類算法【正確答案】:A54.標(biāo)準(zhǔn)差的方法名稱為A、ptpB、stdC、covD、var【正確答案】:B55.Hadoop生態(tài)系統(tǒng)中,Hive是一種()。A、分布式文件系統(tǒng)B、數(shù)據(jù)倉庫C、實時分布式數(shù)據(jù)庫D、分布式計算系統(tǒng)【正確答案】:B56.函數(shù)dtypes的返回值為A、維度數(shù)B、索引C、元素D、類型【正確答案】:D57.以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法:()A、嵌入B、過濾C、包裝D、抽樣【正確答案】:D58.使用哪個關(guān)鍵字來創(chuàng)建python自定義函數(shù)A、functionB、funcC、procedureD、def【正確答案】:D59.以下聚合函數(shù)求平均數(shù)的是()A、COUNTB、MAXC、AVGD、SUM【正確答案】:C60.在Spark中,調(diào)用RDD的()方法,可以將RDD轉(zhuǎn)換為DataFrame對象。A、show()B、map()C、toDF()D、printSchema()【正確答案】:C61.關(guān)于定義函數(shù),說法正確是()A、函數(shù)中必須要寫return語句B、函數(shù)沒有return返回值為NoneC、函數(shù)要返回多少個值,就需要使用多少個return語句D、函數(shù)必需要return返回函數(shù)值【正確答案】:B62.python文件的追加模式是A、+B、aC、tD、r【正確答案】:B63.Numpy包中創(chuàng)建數(shù)組的函數(shù)為()A、arrayB、shapeC、reshapeD、ndim【正確答案】:A64.電影評分是以下哪些的應(yīng)用實例()A、分類B、聚類C、強化學(xué)習(xí)D、回歸【正確答案】:D65.以下不可以用來分類的模型是A、線性回歸模型B、神經(jīng)網(wǎng)絡(luò)模型C、邏輯回歸模型D、支持向量機【正確答案】:A66.deff1(a,b):c=a*breturna*b+10Print(f1(2,4))Print(c)第二print函數(shù)的輸出的是()A、c未定義B、4C、2D、8【正確答案】:A67.shell中,以下哪個命令能判斷變量var是否為空A、test[-f$var]B、test[-e$var]C、test[-a$var]D、test[-z$var]【正確答案】:D68.Hbase中數(shù)據(jù)存儲的文件格式是:()。A、HlogB、TextFileC、HfileD、SequenceFile【正確答案】:C69.將年齡用區(qū)間標(biāo)簽(例如0~18、19~44、45-59、60~100)或概念標(biāo)簽(如兒童、青年、中年和老年表示),該描述中用到的數(shù)據(jù)變換的策略為()。A、標(biāo)準(zhǔn)化B、數(shù)值化C、連續(xù)化D、離散化【正確答案】:D70.input()輸入的是數(shù)據(jù)類型是()A、整型B、復(fù)數(shù)型C、字符串型D、浮點型【正確答案】:C71.SparkSQL的前身是()。A、SQLB、SharkC、SparkRDDD、MapReduce【正確答案】:B72.在Spark運行過程中,每個Job可以劃分為更小的Task集合,每組任務(wù)被稱為()。A、DAGBlockC、ApplicationD、Stage【正確答案】:D73.在shell腳本中,awk內(nèi)的代碼如果想要引入腳本里的變量應(yīng)該使用什么參數(shù)?A、-xB、-aC、-vD、-i【正確答案】:C74.我們想在在一個百萬級的數(shù)據(jù)集上構(gòu)建機器學(xué)習(xí)模型,每條數(shù)據(jù)有5000個特征??墒怯?xùn)練這么大量的數(shù)據(jù)集會有很多困難,一下哪些步驟可以有效地訓(xùn)練模型A、我們可以從數(shù)據(jù)集中隨機選取一些樣本,在樣本上構(gòu)建模型B、我們可以嘗試聯(lián)機機器學(xué)習(xí)算法C、我們可以用主成分分析來減少特征D、以上所有【正確答案】:D75.在基本DBSCAN的參數(shù)選擇方法中,點到它的K個最近鄰的距離中的K選作為哪一個參數(shù)()A、EpsB、MinPtsC、質(zhì)心D、邊界【正確答案】:B76.列表變量lis共包含10個元素,lis索引的取值范圍是A、(0,10)B、(0,9)C、[0,10]D、[0,9]【正確答案】:D77.Spark計算框架在分布式環(huán)境下對數(shù)據(jù)處理后的結(jié)果進行隨機的、實時的存儲歸功于()。A、HiveB、OracleC、MongodbD、HBase【正確答案】:D78.數(shù)據(jù)湖探索(DataLakeInsight,簡稱DLI)是支持以下()形式的大數(shù)據(jù)計算分析服務(wù)。A、流式處理B、批處理C、流批一體D、都不支持【正確答案】:C79.以下哪些方法不可以直接來對文本分類?A、K-MeansB、決策樹C、支持向量機D、kNN【正確答案】:A80.下列屬于分類算法的是()A、多元線性回歸B、邏輯回歸C、K均值D、一元線性回歸【正確答案】:B81.使用SVM模型遇到了欠擬合的問題,以下哪個選項能提高模型性能A、增加懲罰參數(shù)“C”B、減少懲罰參數(shù)C、減少核系數(shù)(gamma的值)D、以上均可【正確答案】:A82.數(shù)據(jù)倉庫僅僅是提供存儲的,提供一種()的服務(wù),不面向最終分析用戶:而數(shù)據(jù)集市是()的,面向最終用戶。A、面向數(shù)據(jù)管理、面向分析應(yīng)用B、面向分析應(yīng)用、面向數(shù)據(jù)管理C、面向分析應(yīng)用、面向事務(wù)交互D、面向事務(wù)交互、面向數(shù)據(jù)管理【正確答案】:A83.下列表達式的值為True的是()A、5+5j>2-3jB、{'name1','name2'}!={'name2','name1'}C、(3,(6,4))>(3,(4,6))D、'abc'<'ab0'【正確答案】:C84.以下語句錯誤的是()A、altertableempdeletecolumnaddcolumn;B、altertableempmodifycolumnaddcolumnchar(10);C、altertableempchangeaddcolumnaddcolumnint;D、altertableempaddcolumnaddcolumnint;【正確答案】:A85.關(guān)于特征選擇,下列對Ridge回歸和Lasso回歸說法正確的是A、Ridge回歸適用于特征選擇B、Lasso回歸適用于特征選擇C、兩個都適用于特征選擇D、以上說法都不對【正確答案】:B86.以下不是Python的注釋方式是()A、//注釋第一行B、'''Python文檔注釋'''C、#注釋第一行D、#注釋第二行【正確答案】:A87.下列關(guān)于支持向量的說法正確的是()A、到分類超平面的距離最近的且滿足一定條件的幾個訓(xùn)練樣本點是支持向量B、訓(xùn)練集中的所有樣本點都是支持向量C、每一類樣本集中都分別只有一個支持向量D、支持向量的個數(shù)越多越好【正確答案】:A88.HDFS中的block默認(rèn)保存幾個備份A、3份B、2份C、1份D、不確定【正確答案】:A89.下面關(guān)于貝葉斯分類器描述錯誤的是A、以貝葉斯定理為基礎(chǔ)B、是基于后驗概率,推導(dǎo)出先驗概率C、可以解決有監(jiān)督學(xué)習(xí)的問題D、可以用極大似然估計法解貝葉斯分類器【正確答案】:B90.下列關(guān)于存儲過程的特點說法正確的是()A、用戶創(chuàng)建的存儲過程或自定義函數(shù)可以重復(fù)調(diào)用,因此數(shù)據(jù)傳輸量少。B、編寫的SOL存儲在數(shù)據(jù)庫中,因此執(zhí)行速度快。C、創(chuàng)建時編譯,執(zhí)行時調(diào)用,因此開發(fā)效率高。D、通過指定存儲過程的訪問權(quán)限,因此安全系數(shù)高?!菊_答案】:D91.關(guān)于累加器,下面哪個是錯誤的A、支持加法B、支持?jǐn)?shù)值類型C、可并行D、不支持自定義類型【正確答案】:D92.關(guān)于隨機森林算法,下列說法不正確的是()A、每一棵決策樹之間是沒有關(guān)聯(lián)的B、后一棵樹更關(guān)注上一棵樹分錯的樣本C、每一棵樹都不需要做剪枝D、每一棵樹都是一棵CART樹【正確答案】:B93.Scala中,數(shù)組的遍歷方式不包含()。A、for循環(huán)遍歷B、while循環(huán)遍歷C、do...while循環(huán)遍歷D、do...for循環(huán)遍歷【正確答案】:D94.當(dāng)決策樹出現(xiàn)過擬合后,需要使用()技術(shù)縮小樹的結(jié)構(gòu)和規(guī)模A、剪枝B、回歸C、小波D、調(diào)和【正確答案】:A95.一監(jiān)獄人臉識別準(zhǔn)入系統(tǒng)用來識別待進入人員的身份,此系統(tǒng)一共包括識別4種不同的人員:獄警,小偷,送餐員,其他。下面哪種學(xué)習(xí)方法最適合此種應(yīng)用需求A、二分類問題B、多分類問題C、層次聚類問題D、回歸問題【正確答案】:B96.下列選項中,不屬于Spark的四大組件的是()。A、SparkStreamingB、MlibC、GraphxD、SparkR【正確答案】:D97.Linux系統(tǒng)中,在/logs目錄中查找更改時間在5日以前的文件并刪除它們A、findlogs-typef-mtime+5-execrm\;B、findlogs-typef-atime+5-execrm\;C、findlogs-typef-ctime+5-execrm;D、findlogs-typef-mtime+5-execrm;【正確答案】:A98.下面正確的關(guān)閉文件的語句格式是()A、<變量名>.closeB、close(文件名)C、<變量名>.close()D、close(變量名)【正確答案】:C99.在HDFS中的塊默認(rèn)大小為()。A、16MBB、32MBC、64MBD、128MB【正確答案】:C100.有關(guān)樸素貝葉斯分類算法的敘述中正確的是()A、樸素貝葉斯分類算法是一種精確的分類算法B、采用樸素貝葉斯分類算法將一個樣本分到某個類別中,表示它100%屬于該類別C、樸素貝葉斯分類算法是一種基于概率的分類算法D、以上都不對【正確答案】:C101.最小二乘回歸方法的等效回歸方法()A、Logistic回歸B、多項式回歸C、非線性基函數(shù)回歸D、線性均值和正態(tài)誤差的最大似然回歸【正確答案】:D102.為數(shù)據(jù)表創(chuàng)建索引的目的是()A、提高查詢的檢索性能B、歸類C、創(chuàng)建唯一索引D、創(chuàng)建主鍵【正確答案】:A103.組合多條SQL查詢語句形成組合查詢的操作符是()A、SELECTB、ALLC、LINKD、UNION【正確答案】:D104.對Boosting模型的描述錯誤的是A、采用串行訓(xùn)練模式B、增加被錯誤分類樣本的權(quán)值C、通過改變訓(xùn)練集進行有針對性的學(xué)習(xí)D、基礎(chǔ)分類器采用少數(shù)服從多數(shù)原則進行集成【正確答案】:D105.在shell腳本中,顯示用戶的主目錄的命令是什么?A、echo$HOMEB、echo$USERDIRC、echo$ENVD、echo$ECHO【正確答案】:A106.以下不能創(chuàng)建一個字典的語句是A、dict1={}B、dict2={3:5}C、dict3={[1,2,3]:“uestc”}D、dict4={(1,2,3):“uestc”}【正確答案】:C107.與傳統(tǒng)關(guān)系數(shù)據(jù)庫不同的是,HBase是()的數(shù)據(jù)庫。A、結(jié)構(gòu)化的B、單一版本的C、面向列D、非開源的【正確答案】:C108.Spark核心層主要關(guān)注()問題A、存儲B、計算C、傳輸D、連接【正確答案】:B109.以下語句不能創(chuàng)建一個字典的是()A、d={3:5}B、d={(1,2,3):'Python'}C、d={[1,2,3]:'Python'}D、d={}【正確答案】:C110.以下()問題不適合應(yīng)用神經(jīng)網(wǎng)絡(luò)。A、預(yù)測電信客戶流失的可能性B、輔助確定是否給銀行的客戶貸款C、對基金公司的客戶進行分組,了解每組客戶的特點D、股票走勢的預(yù)測【正確答案】:C111.下面關(guān)于MapReduce模型中Map函數(shù)與Reduce函數(shù)的描述,正確的是()A、一個Map函數(shù)就是對一部分原始數(shù)據(jù)進行指定的操作。B、一個Map操作就是對每個ReDuce所產(chǎn)生的一部分中間結(jié)果進行合并操作。C、Map與Map之間不是相互獨立的。D、Reduce與Reduce之間不是相互獨立的。【正確答案】:A112.在其他條件不變的前提下,以下哪種做法容易引起機器學(xué)習(xí)中的過擬合問題A、增加訓(xùn)練集量B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點數(shù)C、刪除稀疏的特征D、SVM算法中使用高斯核/RBF核代替線性核【正確答案】:D113.Hadoop的三種運行模式不包括()。A、單機模式B、單分布式模式C、完全分布式模式D、偽分布式模式【正確答案】:B114.請輸入以下代碼的輸出形式x=np.array([1,2,3])y=np.array([4,5,6])print(x**y)A、["579"]B、["-3-3-3"]C、["41018"]D、["132729"]【正確答案】:D115.評估完模型后,我們發(fā)現(xiàn)模型中有很高的偏差。我們怎樣來減少這個偏差A(yù)、減少模型中特征的數(shù)量B、增加模型中特征的數(shù)量C、增加模型中的數(shù)據(jù)點D、以上所有【正確答案】:B116.一般來說,下列哪種方法常用來預(yù)測連續(xù)獨立變量?A、線性回歸B、邏輯回顧C、線性回歸和邏輯回歸都行D、以上說法都不對【正確答案】:A117.邏輯運算符中not、anor的優(yōu)先級從高到低排列的是()。A、not>and>orB、not>or>andC、and>not>orD、or>not>and【正確答案】:A118.以下哪個選項屬于大數(shù)據(jù)消息系統(tǒng)?A、ZookeeperB、HBaseC、KafkaD、Spark【正確答案】:C119.變量sstr='天使的翅膀帶著我在塵世飛翔',執(zhí)行下列選項,不能輸出'翅膀'的是A、print(sstr[3::2])B、print(sstr[3:-8])C、print(sstr[-10:-8])D、print(sstr[3:5])【正確答案】:A120.已知顧客的消費記錄:I1:西紅柿、排骨、雞蛋I2:西紅柿、茄子I3:雞蛋、襪子I4:西紅柿、排骨、茄子西紅柿茄子的支持度是(),置信度是()A、0.50.67B、0.50.5C、0.670.5D、0.250.67【正確答案】:D121.程序如下S=0Foriinrange(1,11):s=s+ii=i+1Print(s)以上程序去掉那一語句,將不影響程序的功能()A、i=i+1B、print(s)C、s=s+iD、foriinrange(1,11):【正確答案】:A122.Linux系統(tǒng)中,哪一條命令可以用來裝載所有在/etc/fstab中定義的文件系統(tǒng)?A、amountB、mount–aC、fmountD、mount–f【正確答案】:B123.在一個線性回歸問題中,我們使用R平方(R-Squared)來判斷擬合度。此時,如果增加一個特征,模型不變,則下面說法正確的是?A、如果R-Squared增加,則這個特征有意義B、如果R-Squared減小,則這個特征沒有意義C、僅看R-Squared單一變量,無法確定這個特征是否有意義。D、以上說法都不對【正確答案】:C124.在Python中,令s='3.14159',下列選項描述錯誤的是(____)。A、float(s)的結(jié)果是3.14159B、int(s)的結(jié)果是3C、bool(s)的結(jié)果是TrueD、bool(None)的結(jié)果是True【正確答案】:D125.為了觀察測試Y與X之間的線性關(guān)系,X是連續(xù)變量,使用下列哪種圖形比較適合?A、散點圖B、柱形圖C、直方圖D、以上都不對【正確答案】:A126.Python代碼中mpl.rcParams['font.sans-serif']=['SimHei']的作用是(____)。A、設(shè)置圖表中文顯示的字體B、設(shè)置圖表圖例的位置C、設(shè)置圖表標(biāo)題的顏色D、設(shè)置圖表標(biāo)題的位置【正確答案】:A127.Hadoop中MapReduce組件擅長處理()場景的計算任務(wù)。A、迭代計算B、離線計算C、實時交互計算D、流式計算【正確答案】:B128.可以創(chuàng)建3*3單位矩陣的命令是:A=np.zeros(3)B、A=np.ones(3)C、A=np.eye(3)D、A=np.full(3,3)【正確答案】:C129.啟動HBase集群的命令是()。A、start-dfs.shB、zkServer.shstartC、start-hbase.shD、start-yarn.sh【正確答案】:C130.1.如下:str1="Runoobexamplewow!!!"str2="exam";Print(str1.find(str2,5))打印的結(jié)果是A、6B、7C、8D、-1【正確答案】:B131.關(guān)于L1、L2正則化下列說法正確的是?A、L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B、L2正則化技術(shù)又稱為LassoRegularizationC、L1正則化得到的解更加稀疏D、L2正則化得到的解更加稀疏【正確答案】:C132.表達式[3foriinrange(3)]的值為A、3,3,3B、0,1,2C、[3,3,3]D、[0,1,2]【正確答案】:C133.隨機森林方法屬于()A、梯度下降優(yōu)化Bagging方法C、Boosting方法D、線性分類【正確答案】:B134.下列()選項屬于Hive的數(shù)據(jù)存儲模型。A、桶B、數(shù)據(jù)庫C、分區(qū)D、以上全都正確【正確答案】:D135.shell腳本中可使用____來對需要交互的程序進行輸入:A、pexpectB、awkC、expectD、send【正確答案】:C136.使用哪個關(guān)鍵字聲明匿名函數(shù)A、functionB、funcC、defD、lambda【正確答案】:D137.為了實現(xiàn)負(fù)載均衡、提升服務(wù)器端的數(shù)據(jù)處理能力、提高故障恢復(fù)能力以及保證服務(wù)質(zhì)量等目的,NoSQL數(shù)據(jù)庫采取()技術(shù)。A、數(shù)據(jù)存儲B、數(shù)據(jù)轉(zhuǎn)換C、數(shù)據(jù)交互D、數(shù)據(jù)分布【正確答案】:D138.下列Python3代碼運行的結(jié)果為()a=1try:a+=1except:a+=1else:a+=1finally:a+=1print(a)A、2B、3C、4D、5【正確答案】:C139.參數(shù)delimiter的使用說明為()A、str,數(shù)據(jù)的分割符B、bytes,編碼格式C、bool,是否將加載的數(shù)據(jù)拆分為多個組,True表示拆,F(xiàn)alse不拆D、int,跳過多少行,一般用于跳過前幾行的描述性文字【正確答案】:A140.在shell腳本中,標(biāo)準(zhǔn)輸出文件(stdout)的文件描述符為多少?A、0B、1C、2D、3【正確答案】:B141.YARN中默認(rèn)的資源調(diào)度器是:()。A、FIFO調(diào)度器B、容量調(diào)度器C、Fair調(diào)度器D、以上全部是【正確答案】:B142.在select語句的where子句中使用正則表達式過濾數(shù)據(jù)的關(guān)鍵字是()A、likeB、againstC、matchD、regexp【正確答案】:D143.交叉驗證的目的是()A、提高分類準(zhǔn)確率B、得到更穩(wěn)定的模型C、驗證結(jié)果的準(zhǔn)確性D、增大分類的誤差【正確答案】:B144.下列說法錯誤的是A、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時,梯度下降算法的解一般就是全局最優(yōu)解B、進行PCA降維時,需要計算協(xié)方差矩陣C、沿負(fù)梯度的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題【正確答案】:C145.?以下關(guān)于訓(xùn)練集、驗證集和測試集說法不正確的是A、驗證集用于調(diào)整模型參數(shù)B、測試集是純粹是用于測試模型泛化能力C、訓(xùn)練集是用來訓(xùn)練以及評估模型性能D、以上說法都不對【正確答案】:C146.在shell腳本中,下面哪個命令可以定義腳本里的環(huán)境變量?A、exportfsB、aliasC、exportsD、export【正確答案】:D147.在Numpy包中,計算中位數(shù)的函數(shù)為()A、numpy.var()B、numpy.mean()C、numpy.std()D、numpy.median()【正確答案】:D148.Python中關(guān)于函數(shù)的形參與實參,以下選項中描述不正確的是A、實參就是在函數(shù)調(diào)用的時候,通過函數(shù)后面的括號傳遞給函數(shù),讓函數(shù)處理的值B、形參只是在函數(shù)定義時使用C、實參可以是變量或值D、函數(shù)的實參不可以是表達式【正確答案】:D149.能夠提取出圖片邊緣特征的網(wǎng)絡(luò)是()。A、全連接層B、池化層C、卷積層D、隱藏層【正確答案】:C150.Python中定義函數(shù)的關(guān)鍵字是()A、functionB、defunC、defineD、def【正確答案】:D151.下列關(guān)于bootstrap說法正確的是?A、從總的M個特征中,有放回地抽取m個特征(m<M)B、從總的M個特征中,無放回地抽取m個特征(m<M)C、從總的N個樣本中,有放回地抽取n個樣本(n<N)D、從總的N個樣本中,無放回地抽取n個樣本(n<N)【正確答案】:C152.在n維空間中(n>1),下列哪種方法最適合用來檢測異常值?A、正態(tài)概率圖B、箱形圖C、馬氏距離D、散點圖【正確答案】:C153.在shell腳本中,以下哪個特殊符號代表所有向腳本傳遞的參數(shù)?A、$#B、$?C、$@D、$$【正確答案】:C154.()是一種處理時序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),常用語語音識別、機器翻譯等領(lǐng)域。A、前饋卷神經(jīng)網(wǎng)絡(luò)B、卷積神經(jīng)網(wǎng)絡(luò)C、循環(huán)神經(jīng)網(wǎng)絡(luò)D、對抗神經(jīng)網(wǎng)絡(luò)【正確答案】:C155.一般而言,若數(shù)據(jù)類別比例超過()即認(rèn)為數(shù)據(jù)集中存在不均衡數(shù)據(jù)的現(xiàn)象A、0.084027778B、0.167361111C、0.042361111D、0.125694444【正確答案】:B156.Spark提供了較為靈活的集群管理模式,不包括()A、Standalone模式B、Mesos模式C、Storage模式D、YARN模式【正確答案】:C157.考慮兩隊之間的足球比賽:隊0和隊1。假設(shè)65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為()A、0.75B、0.35C、0.4678D、0.5738【正確答案】:D158.下面()子句專用于GroupBy操作中的條件過濾功能。A、WHERE子句B、HAVING子句C、LIMIT子句D、ORDERBY子句【正確答案】:B159.importpandasaspddata={'a':[2,1,5,6],'b':['kl','d',1,'kl'],'c':[6,5,1,6]}df=pd.DataFrame(data)d1=df.iloc[0:2,2]d2=df.loc[df['b']=='kl','c']print(d1)print(d2)輸出結(jié)果是A、0,61,5Name:c,dtype:int64B、0,63,6Name:c,dtype:int64C、1,52,1Name:c,dtype:int64D、1,53,6Name:c,dtype:int64【正確答案】:A160.數(shù)據(jù)的存儲結(jié)果指的是n=1000whilen>1:print(n)n=n/2A、11B、10C、9D、無限循環(huán)【正確答案】:B161.將python中的.py文件轉(zhuǎn)換為.pyc文件的組件為()A、編輯器B、編譯器C、虛擬機D、解釋器【正確答案】:B162.Spark的技術(shù)架構(gòu)可以分為三層,不包括()A、Spark核心層B、服務(wù)層C、平臺層D、資源管理層【正確答案】:C163.某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布.這種屬于數(shù)據(jù)挖掘的哪類問題A、關(guān)聯(lián)規(guī)則分析B、聚類C、分類D、自然語言處理【正確答案】:A164.在HMM中,如果已知觀察序列和產(chǎn)生觀察序列的狀態(tài)序列,那么可用以下哪種方法直接進行參數(shù)估計A、EM算法B、維特比算法C、前向后向算法D、極大似然估計【正確答案】:D165.使用sklearn庫進行預(yù)測結(jié)果的交叉驗證,需要導(dǎo)入一下哪個包()A、sklearn.linear_modelB、sklearn.model_selectionC、sklearn.naive_bayesD、sklearn.ensemble【正確答案】:B166.函數(shù)中定義了2個參數(shù),并且兩個參數(shù)都指定了默認(rèn)值,調(diào)用函數(shù)時參數(shù)個數(shù)最少是()A、3B、1C、2D、0【正確答案】:D167.數(shù)據(jù)框中方法中dropna()的作用是A、去掉空值,并以默認(rèn)值填充B、去掉空值所在的行C、去掉指定的某行D、去掉指定的某些值【正確答案】:B168.不屬于KNN算法要素的是:A、k值的選擇B、距離度量C、分類決策的規(guī)則D、訓(xùn)練樣本的個數(shù)【正確答案】:D169.下列方法中沒有考慮先驗分布的是()A、最大后驗估計B、貝葉斯分類器C、貝葉斯學(xué)習(xí)D、最大似然估計【正確答案】:D170.以下語句的執(zhí)行結(jié)果是()Str1='||北京大學(xué)||'Print(str1.strip('|').replace('北京','南京'))A、||南京大學(xué)||B、南京大學(xué)||C、南京大學(xué)D、||南京大學(xué)【正確答案】:C171.下列哪個語句在Python中是非法的()A、x=(y=z+1)B、x=y=z=1C、x+=yD、x,y=y,x【正確答案】:A172.關(guān)于機器學(xué)習(xí)算法正確的是A、LR模型在加入正則化項后Variance將增大B、線性SVM是尋找最小邊緣的超平面的一個分類器C、xgboost和GDBT都是屬于boosting算法D、xgboost和隨機森林都是屬于bagging算法【正確答案】:C173.在利用linear_model.LinearRegression()構(gòu)造的reg對象訓(xùn)練模型后,可以通過以下哪行代碼查看回歸模型系數(shù)()。A、reg._coefficientB、reg._coefC、reg.coefficient_D、reg.coef_【正確答案】:D174.以下哪項屬于DDL操作()A、updateB、createC、insertD、delete【正確答案】:B175.一般情況下,K-NN最近鄰方法在()的情況下效果較好A、樣本較多但典型性不好B、樣本較少但典型性好C、樣本呈團狀分布D、樣本呈鏈狀分布【正確答案】:B176.卷積神經(jīng)網(wǎng)絡(luò)(convolu-tionalneuralnetwork,CNN),是一種專門用來處理具有類似()的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。A、網(wǎng)格結(jié)構(gòu)B、數(shù)組結(jié)構(gòu)C、序列結(jié)構(gòu)D、表格結(jié)構(gòu)【正確答案】:A177.評估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbias),應(yīng)該如何解決?A、減少模型的特征數(shù)量B、增加模型的特征數(shù)量C、增加樣本數(shù)量D、以上說法都正確【正確答案】:B178.以下哪個是回歸模型評判的指標(biāo)A、mean_squared_errorB、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論