《大數(shù)據(jù)應(yīng)用技術(shù)》理論考試題庫（帶答案）

上傳人：r*** IP屬地：山東上傳時間：2023-09-01 格式：DOCX 頁數(shù)：85 大小：245KB 積分：15 舉報 版權(quán)申訴

《大數(shù)據(jù)應(yīng)用技術(shù)》理論考試題庫（帶答案）_第2頁

《大數(shù)據(jù)應(yīng)用技術(shù)》理論考試題庫（帶答案）_第3頁

《大數(shù)據(jù)應(yīng)用技術(shù)》理論考試題庫（帶答案）_第4頁

《大數(shù)據(jù)應(yīng)用技術(shù)》理論考試題庫（帶答案）_第5頁

已閱讀5頁，還剩80頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

PAGEPAGE1《大數(shù)據(jù)應(yīng)用技術(shù)》理論考試題庫（帶答案）一、單選題1.HBase表的Rowkey設(shè)計是一個很重要的開發(fā)設(shè)計環(huán)節(jié)假設(shè)存在如下場景,最頻繁的查詢場景是基于手機號查詢每個月.每半年的歷史通話記錄,以下哪個Rowkey設(shè)計是最優(yōu)的?()A、姓名+手機號B、日期+手機號C、手機號+日期D、手機號+姓名答案：C2.IBM大數(shù)據(jù)平臺和應(yīng)用程序框架,()以經(jīng)濟高效的方式分析PB級的結(jié)構(gòu)化和非結(jié)構(gòu)化信息流計算A、AB、HadoopC、數(shù)據(jù)倉庫D、語境搜索答案：B3.若不針對MapReduce編程模型中的key和value值進行特別設(shè)置,()是MapReduce不適宜的運。A、MaxB、MinC、CountD、Average答案：D4.被譽為全球未來的三大高科技產(chǎn)業(yè)除了塑料電子學(xué)和仿生人體器官外,還有()A、物聯(lián)網(wǎng)B、數(shù)學(xué)C、經(jīng)典力學(xué)D、社會學(xué)答案：A5.下列()程序通常與NameNode在一個節(jié)點啟動A、SecondNameNodeB、D.ataNodeC、TaskTrackerD、JobTracker答案：B6.如何在瀏覽器中查看HDFS運行狀況的默認端口號是。()A、9000B、8080C、80D、50070答案：D7.在數(shù)據(jù)生命周期管理實踐中()是執(zhí)行方法A、數(shù)據(jù)存儲和備份規(guī)范B、數(shù)據(jù)管理和維護C、數(shù)據(jù)價值發(fā)覺和利用D數(shù)據(jù)應(yīng)用開發(fā)和管理答案：B8.MapReduce編程模型，鍵值對<key,value>的key必須實現(xiàn)哪個接口？()A、WritableparableB、C.omparableC、WritableD、LongWritable答案：A9.云計算是對()技術(shù)的發(fā)展與運用A、并行計算B、網(wǎng)格計算C、分布式計算D、三個選項都是答案：D10.以下對hbase的描述正確的是()A、regionserver負責(zé)對多個region實現(xiàn)負載均衡B、ROOT表可以有多個regionC、StoreFile是HFile的底層實現(xiàn)D、HLog是一個實現(xiàn)了WriteAheadLog的類答案：D11.下面哪個操作肯定是寬依賴()A、mapB、flatMapC、reduceByKeyD、Sample答案：C12.HBase數(shù)據(jù)庫的B.lockCache緩存的數(shù)據(jù)塊中，哪一項不一定能提高效率。()A、–ROOT-表B、META.表C、H.FileindexD、普通的數(shù)據(jù)塊答案：D13.大數(shù)據(jù)時代，數(shù)據(jù)使用的關(guān)鍵是()A、數(shù)據(jù)收集B、數(shù)據(jù)存儲C、數(shù)據(jù)分析D、數(shù)據(jù)再利用答案：D14.一個分布式應(yīng)用程序協(xié)調(diào)服務(wù),分布式應(yīng)用程序可以基于它實現(xiàn)同步服務(wù),配置維護和命名服務(wù)等的工具有()A、FlumeB、ZookeeperC、StormD、Sparkstreaming答案：B15.下面哪一項不是Hadoop框架的缺陷()A、MR編程框架的限制B、過多的磁盤操作,缺乏對分布式內(nèi)存的支持C、無法高效低支持迭代式計算D、海量的數(shù)據(jù)存儲答案：D16.Spark組成部件不包括()A、ResourceManagerB、ExecutorC、Driver答案：A17.Mapreduce適用于()A、任意應(yīng)用程序B、任意可在windowsservet2008上運行的程序C、可以串行處理的應(yīng)用程序D、可以并行處理的應(yīng)用程序答案：D18.下面與HDFS類似的框架是?()A、NTFSB、FAT32C、GFSD、EXT3答案：C19.HDFS無法高效存儲大量小文件,想讓它能處理好小文件,比較可行的改進策略不包括()A、利用SequenceFile.MapFile.Har等方式歸檔小文件B、多Master設(shè)計C、Block大小適當(dāng)調(diào)小D、調(diào)大namenode內(nèi)存或?qū)⑽募到y(tǒng)元數(shù)據(jù)存到硬盤里答案：D20.()的目的縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。A、數(shù)據(jù)清洗B、數(shù)據(jù)集成C、數(shù)據(jù)變換D、數(shù)據(jù)歸約答案：A21.美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與洋流可能發(fā)生的

地點。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B、在分析方法上更注重相關(guān)分析而不是因果分析C、在分析效果上更追究效率而不是絕對精確D、在數(shù)據(jù)規(guī)模上強調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)答案：B22.HDFS的是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯、高可靠性、高可擴展性、高吞吐率等特征,適合的讀寫任務(wù)是()。A、一次寫入,少次讀寫B(tài)、多次寫入,少次讀寫C、一次寫入,多次讀寫D、多次寫入,多次讀寫答案：C23.HDFS中當(dāng)前B.lock大小為128M，如果當(dāng)前要上傳到H.DFS中的文件大小為300M，那么在存儲時會分配()個B.lock進行存儲A、1B、2C、3D、4答案：C24.完全分布式ApacheHadoop的核心配置文件不包括()文件。A、core-site.xmlB、hdfs-site.xmlC、mapred-site.xmlD、yarn.xml答案：D25.HDfS中的block默認保存幾份?()A、3份B、2份C、1份D、不確定答案：A26.Hadoop中的HDFS架構(gòu)源于()A、Google分布式文件系統(tǒng)B、Yahoo分布式文件系統(tǒng)C、Facebook分布式文件系統(tǒng)答案：A27.在大數(shù)據(jù)時代，下列說法正確的是()。A、收集數(shù)據(jù)很簡單B、數(shù)據(jù)是最核心的部分C、對數(shù)據(jù)的分析技術(shù)和技能是最重要的D、數(shù)據(jù)非常重要，一定要很好的保護起來，防止泄露答案：B28.以MapReduce統(tǒng)計學(xué)員的平均成績，如果輸出結(jié)果的格式為“學(xué)生姓名平均成績”，例如“Alice89.5”，那么如何選用輸出鍵值對格式()A、job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);B、job.setOutputKeyClass(IntWritable.class);job.setOutputValueClass(Text.class);C、job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.class);D、job.setOutputKeyClass(Text.class);job.setOutputValueClass(DoubleWritable.class);答案：D29.關(guān)閉H.adoop集群的一般順序是()。①Stop-dfs.sh②Stop-yarn.sh③Mr-jobhistory-daemon.shstopH.istoryserverA、①②③B、②①③C、③②①D、①③②答案：B30.采樣分析的精確性隨著采樣隨機性的增加而()，但與樣本數(shù)量的增加關(guān)系不大。A、降低B、不變C、提高D、無關(guān)答案：C31.促進隱私保護的一種創(chuàng)新途徑是()：故意將數(shù)據(jù)模糊處理，促使對大數(shù)據(jù)庫的查詢不能顯示精確的結(jié)果。A、匿名化B、信息模糊化C、個人隱私保護D、差別隱私答案：D32.以下哪種技術(shù)不是大數(shù)據(jù)常用的框架或技術(shù)()A、SparkB、LinuxC、HadoopD、Hbase答案：B33.下面哪個端口不是spark自帶服務(wù)的端口()A、8080B、4040C、8090D、18080答案：C34.Namenode發(fā)送給Datanode什么命令可以讓Datanode對壞塊進行刪除()A、DNATRANSFER_B、DNAFINALIZE_C、DNAINVALIDATE_D、DNARECOVERBLOCK_答案：C35.哪個不是本地模式運行的幾個條件()A、spark.localExecution.enabled=trueB、顯式指定本地運行C、F.inalStage無父StageD、partition默認值答案：D36.在大數(shù)據(jù)關(guān)鍵技術(shù)中,Hadoop的分布式文件系統(tǒng)HDFS屬于大數(shù)據(jù)()。A、存儲技術(shù)B、分析技術(shù)C、并行分析技術(shù)D、挖掘技術(shù)答案：A37.一個作業(yè)的map個數(shù)是怎么確定的()A、屬性mapred.map.tasks設(shè)定B、JobTracker計算得出C、InputSplit分片的個數(shù)D、TaskTracker通過配置map的個數(shù)答案：C38.大數(shù)據(jù)是指不用隨機分析法這樣的捷徑，而采用()的方法A、所有數(shù)據(jù)B、絕大部分數(shù)據(jù)C、適量數(shù)據(jù)D、少量數(shù)據(jù)答案：A39.關(guān)于SecondaryNameNode哪項是正確的?()A、它是NameNode的熱備B、它對內(nèi)存沒有要求C、它的目的是幫助NameNode合并編輯日志,減少NameNode啟動時間D、SecondaryNameNode應(yīng)與NameNode部署到一個節(jié)點。答案：C40.默認的mapreduce輸入格式是()A、TextInputFormatB、KeyValueTextInputFormatC、NLineInputFormatD、SequenceFileInputFormat答案：A41.在M/R系統(tǒng)中,考慮以下情況:HDFS采用默認數(shù)據(jù)塊大小(64M);InputFormat采用的是FileInputFormat;現(xiàn)在有三個文件大小分別是64K,65M和127M,那么會有幾個map任務(wù)產(chǎn)生?()A、3個B、4個C、5個D、6個答案：C42.關(guān)系型數(shù)據(jù)庫與HDFS之間相互數(shù)據(jù)遷移的工具是()A、distcpB、fsckC、fastcopyD、sqoop答案：D43.HDFS1.0默認BlockSize大小是多少。()A、32MBB、64MBC、128MBD、256MB答案：B44.關(guān)于累加器，下面哪個是錯誤的()A、支持加法B、支持數(shù)值類型C、可并行D、不支持自定義類型答案：D45.HBase依賴()提供強大的計算能力。A、MapReduceB、ListC、GRaphD、ArrayList答案：A46.智能健康手環(huán)的應(yīng)用開發(fā)，體現(xiàn)了()的數(shù)據(jù)采集技術(shù)的應(yīng)用。A、統(tǒng)計報表B、網(wǎng)絡(luò)爬蟲C、A.PI接口D、傳感器答案：D47.支撐大數(shù)據(jù)業(yè)務(wù)的基礎(chǔ)是()A、數(shù)據(jù)科學(xué)B、數(shù)據(jù)應(yīng)用C、數(shù)據(jù)硬件D、數(shù)據(jù)人才答案：B48.yarn-site.xml文件的作用是什么()A、配置MapReduce框架B、配置H.adoop的H.DFS系統(tǒng)的命名C、配置YARN框架D、保存子節(jié)點的信息答案：C49.HBase官方版本不可以安裝在什么操作系統(tǒng)上?()A、CentOSB、UbuntuC、RedHatD、Windows答案：D50.HBase的Rowkey設(shè)計的原則,下列哪些選項的描述是不正確的?()A、盡量保證越短越好B、可以使用漢字C、可以使用字符串D、本身是無序的答案：D51.下列關(guān)于計算機存儲容量單位的說法中,錯誤的是()。A、1KB<1MB<1GBB、基本單位是字節(jié)(Byte)C、一個漢字需要一個字節(jié)的存儲空間D、一個字節(jié)能夠容納一個英文字符答案：C52.下面()程序負責(zé)H.DFS數(shù)據(jù)存儲。A、NameNodeB、JobtrackerC、D.atanodeD、SecondaryNameNode答案：C53.Hive是建立在()之上的一個數(shù)據(jù)倉庫?A、HDFSB、MapReduceC、HadoopD、Hbase答案：C54.信息技術(shù)發(fā)展史上的第二次信息化浪潮發(fā)生在()A、1950年前后B、1980年前后C、1995年前后D、2010年前后答案：C55.在Job類中對輸出鍵值對格式進行設(shè)置時，如果Mapper的輸出格式與Reducer的輸出格式一樣，那么可以省略下列哪一項的設(shè)置()。A、job.setOutputKeyClass()與job.setOutputValueClass()B、job.setMapOutputKeyClass()與job.setMapOutputValueClass()C、job.setReduceOutputKeyClass()與job.setReduceOutputValueClass()D、以上都不能省略答案：B56.下面程序負責(zé)HDFS數(shù)據(jù)存儲的是()A、NameNodeB、JobtrackerC、DatanodeD、secondaryNameNode答案：C57.執(zhí)行一個mapreduce程序,如果程序的輸出路徑已經(jīng)存在,那么程序會()A、覆蓋這個輸出路徑B、拋出警告,但是能夠繼續(xù)執(zhí)行C、拋出一個異常,然后退出D、創(chuàng)建一個新的輸出路徑答案：C58.在實驗集群的master節(jié)點使用jps命令查看進程時，終端出現(xiàn)以下哪項能說明H.adoop主節(jié)點啟動成功？()A、Namenode,Datanode,TaskTrackerB、Namenode,Datanode,secondaryNameNodeC、Namenode,Datanode,H.MasterD、Namenode,JobTracker,secondaryNameNode答案：D59.關(guān)于數(shù)據(jù)創(chuàng)新，下列說法正確的是()A、多個數(shù)據(jù)集的總和價值等于單個數(shù)據(jù)集價值相加；B、由于數(shù)據(jù)的再利用，數(shù)據(jù)應(yīng)該永久保存下去；C、相同數(shù)據(jù)多次用于相同或類似用途，其有效性會降低；D、數(shù)據(jù)只有開放價值才能得到真正釋放。答案：D60.spark中默認的存儲級別()A、MEMORYONLY_B、MEMORYONLYSER__C、MEMORYANDDISK__D、MEMORYANDDISKSER___答案：A61.下列哪個不是Hadoop運行的模式?()A、單機版B、偽分布式C、分散式D、分布式答案：C62.Hadoop項目不包括()A、HadoopDistributedFileSystem(HDFS)B、HadoopMapReduce編程模型C、HadoopStreamingD、Hadoopmon答案：C63.下面哪個程序負責(zé)HDFS數(shù)據(jù)存儲。()A、NameNodeB、JobtrackerC、DataNodeD、secondaryNameNode答案：C64.以下哪項是DataNode節(jié)點的職責(zé)()A、管理文件系統(tǒng)命名空間B、存儲元數(shù)據(jù)C、規(guī)范客戶端對文件的訪問D、根據(jù)客戶端的請求執(zhí)行讀寫操作答案：D65.HBase的檢索支持的方式不包括()。A、通過單個Rowkey訪問,即按照某個Rowkey鍵值進行g(shù)et操作,這樣獲取唯一一條記錄;B、通過Rowkey的range進行scan,即通過設(shè)置startRowKey和endRowKey,在這個范圍內(nèi)進行掃描。這樣可以按指定的條件獲取一批記錄;C、全表掃描,即直接掃描整張表中所有行記錄。D、用Select查詢表中記錄答案：D66.表示主機名與IP地址映射關(guān)系的文件是()A、/etc/host.confB、/etc/hostnameC、/etc/hostsD、/etc/resolv.conf答案：C67.當(dāng)前大數(shù)據(jù)技術(shù)的基礎(chǔ)是由()首先提出的。A、微軟B、百度C、谷歌D、阿里巴巴答案：C68.Spark引入了一個稱為()的概念，它是不可變的.容錯的.分布式對象集合。A、RDDB、SparkStreamingC、SparkSQLD、Shark答案：A69.查看yarn運行狀態(tài)的默認端口號是()A、8088B、8080C、9000D、80答案：A70.HDFS1.0默認B.lockSize的大小是()A、64MBB、128MC、32MD、1M答案：A71.Hadoop2.0的基本構(gòu)成不包括A、hdfsB、mapreduceC、yarnD、D答案：C72.LSM-Tree的含義是()。A、日志結(jié)構(gòu)合并樹B、二叉樹C、紅黑樹D、默克爾樹答案：A73.對大數(shù)據(jù)使用進行正規(guī)評測及正確引導(dǎo)，可以為數(shù)據(jù)使用者帶來什么切實的好處()A、他們無須再取得個人的明確同意，就可以對個人數(shù)據(jù)進行二次利用。B、數(shù)據(jù)使用者不需要為敷衍了事的評測和不達標(biāo)準的保護措施承擔(dān)法律責(zé)任。C、數(shù)據(jù)使用者的責(zé)任不需要強制力規(guī)范就能確保履行到位。D、所有項目，管理者必須設(shè)立規(guī)章，規(guī)定數(shù)據(jù)使用者應(yīng)如何評估風(fēng)險.如何規(guī)避或減輕潛在傷害。答案：A74.下列關(guān)于數(shù)據(jù)重組的說法中，錯誤的是()。A、數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集B、數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C、數(shù)據(jù)重組實現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D、數(shù)據(jù)重組有利于實現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新答案：A75.在Spark中,假設(shè)lines是一個DStream對象,filter語句可以過濾掉80%的數(shù)據(jù),針對以下兩個語句說法正確的是:()

X:lines.filter(...).groupByKey(...)

Y:lines.groupByKey(...).filter(...)A、X比Y的性能更高B、X比Y的性能更低C、X和Y和性能一樣D、無法確性X和Y的性能差異答案：A76.Reducer類中包括了哪些函數(shù)()A、startup,reduce,endB、setup,reduce,cleanupC、start.run,reduce,endD、startup,run,end答案：B77.下面哪個不是RDD的特點()A、可分區(qū)B、可序列化C、可修改D、可持久化答案：C78.克隆虛擬機之后需要修改哪些文件()

①/etc/udev/rules.d/70-persistent-net.rules

②/etc/sysconfig/network-scriptd/ifcfg-eth0

③/etc/sysconfig/networkA、①②B、①②③C、②③D、①③答案：B79.下列關(guān)于spark中的RDD描述不正確的有()A、RDD(ResilientDistributedDataset)叫做彈性分布式數(shù)據(jù)集,是spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的,彈性表示C、Destributed:分布式,不可以并行在集群計算D、Dataset:就是一個集合,用于存放數(shù)據(jù)的答案：C80.云計算的基礎(chǔ)層是()A、IaaS層B、PaaS層C、SaaS層D、BaaS層答案：A81.云計算就是把計算資源都放到()上。A、對等網(wǎng)B、因特網(wǎng)C、廣域網(wǎng)D、無線網(wǎng)答案：B82.HBase的Region組成中,必須要有()。A、StoreFileB、MemStoreC、HFileD、MetaStore答案：B83.Hadoop作者()A、MartinFowlerB、KentBeckC、DougcuttingD、Mark答案：C84.Stage的Task的數(shù)量由什么決定()A、PartitionB、JobC、StageD、TaskScheduler答案：A85.Spark支持的分布式部署方式中哪個是錯誤的。()A、standaloneB、sparkonmesosC、sparkonYARND、Sparkonlocal答案：D86.下列關(guān)于舍恩伯格對大數(shù)據(jù)特點的說法中,錯誤的是()。A、數(shù)據(jù)規(guī)模大B、數(shù)據(jù)類型多樣C、數(shù)據(jù)處理速度快D、數(shù)據(jù)價值密度高答案：D87.spark.deploy.recoveryMode不支持那種()A、ZooKeeperB、F.ileSystemC、NONED、H.adoop答案：D88.FusionInsightHD中,關(guān)于Hive的分區(qū)(partition)功能,如下描述錯誤的是?()A、分區(qū)字段要在創(chuàng)建表時定義B、分區(qū)字段只能有一個,不可以創(chuàng)建多級分區(qū)C、使用分區(qū),可以減少某些查詢的數(shù)據(jù)掃描范圍,進而提高查詢效率D、分區(qū)字段可以作為where字句的條件答案：B89.云計算的中間層是()A、IaaS層B、PaaS層C、SaaS層D、BaaS層答案：B90.Hadoop1.0默認的調(diào)度器策略是()A、先進先出調(diào)度器B、計算能力調(diào)度器C、公平調(diào)度器D、優(yōu)先級調(diào)度器答案：A91.hadoop2.x采用什么技術(shù)構(gòu)建源代碼()A、antB、ivyC、mavenD、Makefile答案：C92.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?()A、分類B、聚類C、關(guān)聯(lián)分析D、隱馬爾可夫鏈答案：B93.大數(shù)據(jù)的最顯著特征是()A、數(shù)據(jù)規(guī)模大B、數(shù)據(jù)類型多樣C、數(shù)據(jù)處理速度快D、數(shù)據(jù)價值密度高答案：A94.TaskTracker與JobTracker之間的通信協(xié)議是()A、JobSubmissionProtocolB、ClientProtocolC、TaskUmbilicalProtocolD、InterTrackerProtocol答案：D95.hive的元數(shù)據(jù)存儲在D.erby和MySQL中有什么區(qū)別()A、沒區(qū)別B、多會話C、支持網(wǎng)絡(luò)環(huán)境D、數(shù)據(jù)庫的區(qū)別答案：B96.HBase表中每個cell的多版本是通過什么表示的()A、timestampB、rowkeyC、blockidD、cellid答案：A97.在大數(shù)據(jù)時代，我們需要設(shè)立一個不一樣的隱私保護模式，這個模式應(yīng)該更著重于()為其行為承擔(dān)責(zé)任。A、數(shù)據(jù)使用者B、數(shù)據(jù)提供者C、個人許可D、數(shù)據(jù)分析者答案：A98.SparkJob默認的調(diào)度模式()A、F.IFOB、F.AIRC、無D、運行時指定答案：A99.HBase是分布式列式存儲系統(tǒng)，記錄按什么集中存放。()A、列族B、列C、行D、不確定答案：A100.HBase系統(tǒng)基本架構(gòu)中主服務(wù)器Master的作用是()A、包含訪問H.Base的接口，同時在緩存中維護著已經(jīng)訪問過的Region位置信息，用來加快后續(xù)數(shù)據(jù)訪問過程B、可以幫助選舉出一個Master作為集群的總管，并保證在任何時刻總有唯一一個Master在運行C、主要負責(zé)表和Region的管理工作D、是H.Base中最核心的模塊，負責(zé)維護分配給自己的Region，并響應(yīng)用戶的讀寫請求答案：C101.大數(shù)據(jù)不是要教機器像人一樣思考。相反，它是()A、把數(shù)學(xué)算法運用到海量的數(shù)據(jù)上來預(yù)測事情發(fā)生的可能性。B、被視為人工智能的一部分。C、被視為一種機器學(xué)習(xí)。D.預(yù)測與懲罰。答案：A102.在MapReduce程序中，Mapper模塊中的自定義類MyMapper，繼承自哪個父類()A、MapperB、ReducerC、binerD、Partitioner答案：A103.關(guān)于數(shù)據(jù)估值，下列說法錯誤的是()A、隨著數(shù)據(jù)價值被重視，公司所持有和使用的數(shù)據(jù)也漸漸納入了無形資產(chǎn)的范疇；B、無論是向公眾開放還是將其鎖在公司的保險庫中，數(shù)據(jù)都是有價值的；C、數(shù)據(jù)的價值可以通過授權(quán)的第三方使用來實現(xiàn)D、目前可以通過數(shù)據(jù)估值模型來準確的評估數(shù)據(jù)的價值評估答案：B104.YARN架構(gòu)中整個集群同一時間提供服務(wù)的ResourceManager有()個,負責(zé)集群資源的統(tǒng)一管理和調(diào)度。A、0B、1C、2D、3答案：B105.根目錄下創(chuàng)建hdfs文件夾的shell命令是().A、hdfsdfs-mkdir/hdfsB、hadoopfs-mkdirhdfsC、hadoopdfsmkdir/hdfs

Dhdfsdfs-mkdirhdfs答案：A106.Client端上傳文件的時候下列哪項正確?()A、數(shù)據(jù)經(jīng)過NameNode傳遞給DataNodeB、Client端將文件切分為Block,依次上傳C、Client只上傳數(shù)據(jù)到一臺DataNode,然后由NameNode負責(zé)Block復(fù)制工作D、以上都不正確答案：B107.下列哪個命令可以下載H.DFS目錄/user/root/live.txt到本地/opt()A、hdfsD.fs-get/user/root/live.txt/optB、hdfsD.fs-download/user/root/live.txt/optC、hdfsD.fs-put/user/root/live.txt/optD、hdfsD.fs-move/user/root/live.txt/opt答案：A108.解壓.tar.gz結(jié)尾的HBase壓縮包使用的Linux命令是?()A、tar-zxvfB、tar-zxC、tar-sD、tar-nf答案：A109.大數(shù)據(jù)的核心就是()A、告知與許可B、預(yù)測C、匿名化D、規(guī)模化答案：B110.設(shè)計分布式數(shù)據(jù)倉庫hive的數(shù)據(jù)表時,為取樣更高效,一般可以對表中的連續(xù)字段進行()。A、分桶B、分區(qū)C、索引D、分表答案：A111.以下哪個數(shù)據(jù)結(jié)構(gòu)是java中對文件讀取速度最快的()A、RandomAccessFileB、FileChannelC、BufferedInputStreamD、FileInputStream答案：C112.Spark應(yīng)用的計算邏輯會被解析成DAG,這個解析操作由以下哪個功能模塊完成?()A、ClientB、ApplicationMasterC、ExecutorD、Driver答案：D113.下面哪個操作肯定是寬依賴()A、mapB、F.latMapC、reduceByKeyD、sample答案：C114.HBase依賴()提供強大的計算能力A、ZookeeperB、ChubbyC、RPCD、MapReduce答案：D115.Hadoop具有特性不包括()A、高可靠性B、高效性C、高可擴展性D、低容錯性，答案：D116.HBase來源于哪篇博文?()A、TheGoogleFileSystemB、MapReduceC、BigTableD、Chubby答案：C117.Hive加載數(shù)據(jù)文件到數(shù)據(jù)表中的關(guān)鍵語法是?()A、LOADDATA[LOCAL]INPATHfilepath[OVERWRITE]INTOTABLEtablenameB、INSERTDATA[LOCAL]INPATHfilepath[OVERWRITE]INTOTABLEtablenameC、LOADDATAINFILEd:\car.csvAPPENDINTOTABLEt_car_tempFIELDSTERMINATEDBY,答案：A118.有多種瀏覽H.DFS文件目錄的方式，以下哪種是不對的？()A、通過H.DFS命令B、通過Web瀏覽器C、通過E.clipse中的ProjectE.xplorerD、通過SSH客戶端工具答案：D119.HBase依靠()存儲底層數(shù)據(jù)A、HDFSB、HadoopC、MemoryD、MapReduce答案：A120.SparkRDD的依賴機制不包括()A、寬依賴B、深度依賴C、窄依賴答案：B121.數(shù)據(jù)清洗的方法不包括()A、缺失值處理B、噪聲數(shù)據(jù)清除C、一致性檢查D、重復(fù)數(shù)據(jù)記錄處理答案：D122.下面對HBase的描述哪些是不正確的?()A、不是開源的B、是面向列的C、是分布式的D、是一種NoSQL數(shù)據(jù)庫答案：A123.以下hadoop的幾個進程名不包括()。A、NamenodeB、DatanodeC、ResourceManagerD、jps答案：D124.提交MapReduce任務(wù)時，如果命令行中指定的輸出目錄已經(jīng)存在，執(zhí)行的結(jié)果是()A、覆蓋原目錄B、自動創(chuàng)建新目錄C、報錯并中斷任務(wù)D、以上都不是答案：C125.下面哪個進程負責(zé)MapReduce任務(wù)調(diào)度。()A、NameNodeB、JobtrackerC、TaskTrackerD、secondaryNameNode答案：B126.面哪個不是RDD的特點()A、可分區(qū)B、可序列化C、可修改D、可持久化答案：C127.默認的Namenodeweb管理端口是()A、50070B、8020C、50030D、22答案：A128.下列描述不正確的是()A、進程(Process)是程序的一次執(zhí)行過程B、線程(Thread)是比進程更小的執(zhí)行單位C、線程不可共享相同的內(nèi)存單元D、在同一個應(yīng)用程序中可以有多個線程同時執(zhí)行答案：C129.數(shù)據(jù)節(jié)點通過運行什么后臺線程來檢測是否有數(shù)據(jù)損壞()A、DataXceiverB、ReplicationManagerC、BlockPoolManagerD、DataBlockScanner答案：D130.下列哪個程序通常與NameNode在一個節(jié)點啟動?()A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、Jobtracker答案：D131.()下列說法正確的是A、有價值的數(shù)據(jù)是附屬于企業(yè)經(jīng)營核心業(yè)務(wù)的一部分數(shù)據(jù)；B、數(shù)據(jù)挖掘它的主要價值后就沒有必要再進行分析了；C、所有數(shù)據(jù)都是有價值的；D、在大數(shù)據(jù)時代，收集.存儲和分析數(shù)據(jù)非常簡單；答案：C132.只要得到了合理的利用，而不單純只是為了“數(shù)據(jù)”而“數(shù)據(jù)”，大數(shù)據(jù)就會變成()A、強大的威脅B、強大的武器C、預(yù)測工具D、分析工具答案：B133.下列哪個命令可以顯示出H.DFS文件系統(tǒng)中在線的數(shù)據(jù)節(jié)點()A、hdfsD.fsadmin-report-liveB、hdfsD.fsadmin-report-activeC、hdfsD.fsadmin-report-deadD、hdfsD.fsadmin-report-demissioning答案：A134.下列哪項通常是集群的最主要瓶頸:()A、CPUB、網(wǎng)絡(luò)C、磁盤IOD、內(nèi)存答案：C135.下列論據(jù)中,能夠支撐“大數(shù)據(jù)無所不能”的觀點的是()。A、互聯(lián)網(wǎng)金融打破了傳統(tǒng)的觀念和行為B、大數(shù)據(jù)存在泡沫C、大數(shù)據(jù)具有非常高的成本D、個人隱私泄露與信息安全擔(dān)憂答案：A136.下面哪個操作是窄依賴()A、joinB、F.ilterC、G.roupD、sort答案：B137.Hive是由哪家公司開源的大數(shù)據(jù)處理組件?()A、GoogleB、ApacheC、Facebook答案：B138.大數(shù)據(jù)的發(fā)展，使信息技術(shù)變革的重點從關(guān)注技術(shù)轉(zhuǎn)向關(guān)注()A、信息B、數(shù)字C、文字D、方位答案：A139.spark的四大組件下面哪個不是()A、SparkStreamingB、MlibC、GraphxD、SparkR答案：D140.下列關(guān)于HadoopAPI的說法錯誤的是()A、Hadoop的文件API不是通用的,只用于HDFS文件系統(tǒng)B、Configuration類的默認實例化方法是以HDFS系統(tǒng)的資源配置為基礎(chǔ)的C、FileStatus對象存儲文件和目錄的元數(shù)據(jù)D、FSDataInputStream是java.io.DataInputStream的子類答案：A141.下面與Zookeeper類似的框架是?()A、ProtobufB、JavaC、KafkaD、Chubby答案：D142.HIVE默認采用()數(shù)據(jù)庫進行元數(shù)據(jù)的存儲。A、MySQLB、HIVEC、DerbyD、HDFS答案：C143.當(dāng)前社會中,最為突出的大數(shù)據(jù)環(huán)境是()。A、物聯(lián)網(wǎng)B、綜合國力C、自然資源D、互聯(lián)網(wǎng)答案：D144.云數(shù)據(jù)庫的特性不包括()A、動態(tài)可擴展B、高可用性C、高性能D、較高的使用代價答案：D145.以下哪一項屬于非結(jié)構(gòu)化數(shù)據(jù)。()A、企業(yè)ERP數(shù)據(jù)B、財務(wù)系統(tǒng)數(shù)據(jù)C、視頻監(jiān)控數(shù)據(jù)D、日志數(shù)據(jù)答案：C146.配置Hadoop時,JAVA_HOME包含在哪一個配置文件中()A、hadoop-default.xmlB、hadoop-env.shC、hadoop-site.xmlD、configuration.xs答案：B147.大數(shù)據(jù)的起源是()A、金融B、電信C、互聯(lián)網(wǎng)D、公共管理答案：C148.智慧城市的構(gòu)建,不包含()A、數(shù)字城市B、物聯(lián)網(wǎng)C、聯(lián)網(wǎng)監(jiān)控D、云計算答案：C149.Hive的計算引擎是什么?()A、SparkB、MapReduceC、HDFS答案：B150.向H.adoop集群提交MapReduce任務(wù)時，可以使用下列哪個命令()A、hadoopsubmitB、hadoopputC、hadoopjarD、mapreducejar答案：C151.在Bigtable中()主要用來存儲子表數(shù)據(jù)以及一些日志文件A、GFSB、ChubbyC、SSTableD、MapReduce答案：A152.隨著數(shù)據(jù)科學(xué)家的崛起，()的地位將發(fā)生動搖。A、國家領(lǐng)導(dǎo)人B、大型企業(yè)C、行業(yè)專家和技術(shù)專家D、職業(yè)經(jīng)理人答案：C153.spark1.4版本的最大變化()A、sparksqlRelease版本B、引入SparkRC、D.ataFrameD、支持動態(tài)資源分配答案：B154.配置H.adoop時，JAVA_HOME包含在()配置文件中A、H.adoop-default.xmlB、H.adoop-env.shC、H.adoop-site.xmlD、C.onfiguration.xs答案：B155.啟動H.adoop集群的一般順序是()。①Stop-dfs.sh②Stop-yarn.sh③Mr-jobhistory-daemon.shstopH.istoryserverA、①②③B、②①③C、③②①D、①③②答案：A156.SecondaryNamenode的作用是()A、監(jiān)控NamenodeB、管理DatanodeC、合并fsimage和editlogsD、支持NamenodeHA答案：C157.作為分布式消息隊列,既有非常優(yōu)秀的吞吐量,又有較高的可靠性和擴展性,同時接受SparkStreaming的請求,將流量日志按序發(fā)送給SparkStreaming集群是()A、FlumeB、ZookeeperC、KafkaD、Sparkstreaming答案：C158.相比依賴于小數(shù)據(jù)和精確性的時代，大數(shù)據(jù)因為更強調(diào)數(shù)據(jù)的()，幫助我們進一步接近事實的真相。A、安全性B、完整性C、混雜性D、完整性和混雜性答案：D159.HIVE真實的數(shù)據(jù)是存儲在()中。A、MySQLB、HIVEC、DerbyD、HDFS答案：D160.H.adoop官方示例程序包H.addop-mapreduce-examples-2.6.4.jar中，封裝了一些常用的測試模塊?？梢垣@得文件中單詞長度的中位數(shù)的模塊是()A、wordcountB、wordmeanC、wordmedianD、wordstandarddeviation答案：C161.HBase分布式模式最少需要()個節(jié)點?A、1B、2C、3D、最少答案：C162.下列哪個命令可以顯示出H.DFS目錄/user/root中的內(nèi)容()A、hdfsD.fs-dir/user/root/B、hdfsD.fs-report/user/root/C、hdfsD.fs-ls/user/root/D、hdfsD.fs-display/user/root/答案：C163.使用()命令可查看hadoop進程。A、HadoopB、HDFSC、JAVAD、JPS答案：D164.下列哪些選項是安裝HBase前所必須安裝的?()A、JDKB、ShellScriptC、JavaCodeD、Mysql答案：A165.下列哪個不是RDD的緩存方法()A、persist()B、C.ache()C、Memory()答案：C166.建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的()A、基礎(chǔ)B、前提C、核心D、條件答案：C167.下列關(guān)于聚類挖掘技術(shù)的說法中，錯誤的是()A、不預(yù)先設(shè)定數(shù)據(jù)歸類類目，完全根據(jù)數(shù)據(jù)本身性質(zhì)將數(shù)據(jù)聚合成不同類別B、要求同類數(shù)據(jù)的內(nèi)容相似度盡可能小C、要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小D、與分類挖掘技術(shù)相似的是，都是要對數(shù)據(jù)進行分類處理答案：B168.下列關(guān)于H.adoopA.PI的說法錯誤的是()A、H.adoop的文件A.PI不是通用的，只用于H.DFS文件系統(tǒng)B、C.onfiguration類的默認實例化方法是以H.DFS系統(tǒng)的資源配置為基礎(chǔ)的C、F.ileStatus對象存儲文件和目錄的元數(shù)據(jù)D、F.SDataInputStream是java.io.DataInputStream的子類答案：A169.HBase依靠()存儲底層數(shù)據(jù)。A、HDFSB、CPUC、GPUD、內(nèi)存答案：A170.以下哪種說法是錯誤的()A、將罪犯的定罪權(quán)放在數(shù)據(jù)手中，借以表達對數(shù)據(jù)和分析結(jié)果的崇尚，這實際上是一種濫用。B、隨著數(shù)據(jù)量和種類的增多，大數(shù)據(jù)促進了數(shù)據(jù)內(nèi)容的交叉檢驗，匿名化的數(shù)據(jù)不會威脅到任何人的隱私。C、采集個人數(shù)據(jù)的工具就隱藏在我們?nèi)粘Ｉ钏貍涞墓ぞ弋?dāng)中，比如網(wǎng)頁和智能手機應(yīng)用程序。D、預(yù)測與懲罰，不是因為所做，而是因為將做。答案：B171.云計算體系結(jié)構(gòu)的()負責(zé)資源管理.任務(wù)管理用戶管理和安全管理等工作A、物理資源層B、資源池層C、管理中間件層D、SOA構(gòu)建層答案：C172.與開源云計算系統(tǒng)HadoopHDFS相對應(yīng)的商用云計算軟件系統(tǒng)是()A、GoogleGFSB、GoogleMapReduceC、GoogleBigtableD、GoogleChubby答案：A173.Client端與Namenode之間的RPC通信協(xié)議是()A、ClientNamenodeProtocolB、NamenodeProtoclC、DatanodeProtocolD、ClientProtocol答案：D174.在詞頻統(tǒng)計(WordCount)的執(zhí)行過程中，()模塊負責(zé)進行單詞的拆分和映射。A、MapperB、ReducerC、DriverD、Main答案：A175.hbase中的paction過程發(fā)生在什么時候()A、MemStore發(fā)生flush的時候B、HLog大小達到一定閾值的時候C、StoreFile文件個數(shù)達到一定閾值的時候D、HFile寫入HDFS的時候答案：C176.HBase中的批量加載底層使用()實現(xiàn)。A、MapReduceB、HiveC、CoprocessorD、BloomFilter答案：A177.默認的存儲級別()A、MEMORYONLY_B、MEMORYONLYSER__C、MEMORYA.NDD.ISKD、MEMORYA.NDD.ISKSER___答案：A178.DataFrame和RDD最大的區(qū)別()A、科學(xué)統(tǒng)計支持B、多了schemaC、存儲方式不一樣D、外部數(shù)據(jù)源支持答案：B179.以下哪個組件可以指定對key進行Reduce分發(fā)的策略?()A、RecordReaderB、binerC、PartitionerD、FileInputFormat答案：C180.最早是Cloudera提供的日志收集系統(tǒng),目前是Apache下的一個孵化項目,支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)的工具是()A、FlumeB、ZookeeperC、StormD、Sparkstreaming答案：A181.云計算里面面臨的一個很大的問題,就是()。A、服務(wù)器B、存儲C、計算D、節(jié)能答案：D182.Hadoop組件的核心功能不包括()A、分布式數(shù)據(jù)存儲B、分析C、分布式計算答案：B183.大數(shù)據(jù)的簡單算法與小數(shù)據(jù)的復(fù)雜算法相比()A、更有效B、相當(dāng)C、不具備可比性D、無效答案：A184.現(xiàn)豐有一個Linux虛擬節(jié)點，在節(jié)點中有解壓的H.adoop安裝包(未配置)，若要搭建包含4個節(jié)點的H.adoop集群，以下選項中步驟正確的有()

①克隆虛擬機②配置SSH免密碼登錄③格式化④修改配置文件⑤配置時間同步服務(wù)A、④①②⑤③B、③②①⑤④C、⑤①③②④D、②⑤④①③答案：A185.有一組數(shù)據(jù)(W,2,C,2,8,S,W)，如果用MapReduce程序?qū)ζ渲械拿總€元素進行計數(shù)，那么輸出的鍵值對結(jié)果中，鍵的排列順序應(yīng)該是()A、8，2，C.，S，WB、2，8，C.，S，WC、C，S，W，8，2D、2，8，W，C.，S答案：C186.下面哪個操作是窄依賴?()A、joinB、filterC、groupD、sort答案：B187.PageRank是一個函數(shù),它對Web中的每個網(wǎng)頁賦予一個實數(shù)值,它的意圖在于網(wǎng)頁的PageRank越高,那么它就()A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要答案：D188.當(dāng)提交某個MapReduce任務(wù)后，在任務(wù)列表中顯示該任務(wù)的狀態(tài)(state)值為”ACCEPTED”，這表示()A、正在接受中B、正在執(zhí)行中C、等待執(zhí)行中D、任務(wù)恢復(fù)中答案：C189.大數(shù)據(jù)不是要教機器像人一樣思考。相反，它是()A、把數(shù)學(xué)算法運用到海量的數(shù)據(jù)上來預(yù)測事情發(fā)生的可能性。B、被視為人工智能的一部分。C、被視為一種機器學(xué)習(xí)。D、預(yù)測與懲罰。答案：A190.hadoop處在云計算三層模型中哪一層()A、PaaSB、SaaSC、IasSD、介于IaaS和PaaS之間答案：A191.Task運行在下來哪里個選項中E.xecutor上的工作單元()A、D.riverprogramB、sparkmasterC、workernodeD、C.lustermanager答案：C192.下面哪個不是spark比Mapreduce計算快的原因()A、基于內(nèi)存的計算B、基于DAG的調(diào)度框架C、基于Lineage的容錯機制D、基于分布式計算的框架答案：D193.下列屬于H.adoop內(nèi)置數(shù)據(jù)類型的是()A、IntegerWritableB、StringWritableC、ListWritableD、MapWritable答案：D194.Client端上傳文件的時候下列哪項正確？()A、數(shù)據(jù)經(jīng)過NameNode傳遞給D.ataNodeB、C.lient端將文件切分為B.lock，依次上傳C、lient只上傳數(shù)據(jù)到一臺D.ataNode，然后由NameNode負責(zé)B.lock復(fù)制工作D、以上都不正確答案：B195.YARN的H.ttp端口默認是()A、80B、8080C、8090D、8088答案：D196.HBase虛擬分布式模式需要()個節(jié)點?A、1B、2C、3D、最少3個答案：A197.大數(shù)據(jù)時代，我們是要讓數(shù)據(jù)自己“發(fā)聲”，沒必要知道為什么，只需要知道()A、原因B、是什么C、關(guān)聯(lián)物D、預(yù)測的關(guān)鍵答案：B198.Task運行在下面哪個選項中Executor上的工作單元。()A、DriverB、masterC、workerD、clustermanager答案：C199.HDFS遞歸顯示根目錄下的文件列表的命令shell命令是()。A、hdfsdfs-ls-R/B、hadoopfs-ls/C、hdfsdfs-ls/D、hdfsdfsls-R/答案：A200.下列()程序通常與NameNode在一個節(jié)點啟動A、SecondNameNodeB、D.ataNodeC、TaskTrackerD、JobTracker答案：D201.大數(shù)據(jù)的基本特征不包括()A、數(shù)據(jù)量大B、數(shù)據(jù)類型繁多C、處理速度快D、價值密度高答案：D202.HBase依賴()提供消息通信機制。A、ZookeeperB、ChubbyC、RPCD、Socket答案：A203.spark的master和worker通過什么方式進行通信的？()A、H.ttpB、nioC、nettyD、A.kka答案：D204.大數(shù)據(jù)公司的多樣性表明了()A、數(shù)據(jù)作用的體現(xiàn)B、數(shù)據(jù)價值的轉(zhuǎn)移C、數(shù)據(jù)技術(shù)的發(fā)展D、數(shù)據(jù)思維的創(chuàng)新答案：B205.HDFS的組成不包括()A、NameNodeB、DataNodeC、SecondaryNameNodeD、task答案：D206.以下對hbase的描述錯誤的是()A、當(dāng)StoreFile的大小達到一定閾值的時候就會發(fā)生spilt操作B、HFile格式中的Magic內(nèi)容放的就是一些隨機數(shù)字C、ROOT表的存放位置可以通過詢問HMaster進程得到D、META表可以有任意多的region答案：C207.HBase中通過()提供消息通信機制A、ProtobufB、JavaC、KafkaD、Zookeeper答案：D208.客戶端首次查詢H.Base數(shù)據(jù)庫時，首先需要從哪個表開始查找。()A、META.B、–ROOT-C、用戶表D、信息表答案：B多選題1.下列屬于數(shù)據(jù)中間商的是()A、中國最大的銀行中國銀行，擁有大量客戶的數(shù)據(jù)。B、西雅圖的交通數(shù)據(jù)處理公司Inrix，匯集了來自美洲和歐洲近1億輛汽車的實時交通數(shù)據(jù)。C、中國最大的汽車網(wǎng)站，汽車之家，各家汽車的數(shù)據(jù)和大量用戶。D、Quantcast通過幫助網(wǎng)站記錄用戶的網(wǎng)頁瀏覽歷史來測評用戶的年齡、收入、喜好等個人信息，然后向用戶發(fā)送有針對性的定向廣告。答案：BCD2.下面關(guān)于大數(shù)據(jù)的解說正確的是()。A、大數(shù)據(jù)是人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做到的事情，而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法完成的。B、大數(shù)據(jù)是人們獲得新的認知.創(chuàng)造新的價值的源泉。C、大數(shù)據(jù)還是改變市場.組織機構(gòu)，以及政府與公民關(guān)系的方法。D、無效的數(shù)據(jù)越來越多。答案：ABC3.下列關(guān)于大數(shù)據(jù)的說法中，錯誤的是()。A、大數(shù)據(jù)具有體量大.結(jié)構(gòu)單一.時效性強的特征B、處理大數(shù)據(jù)需采用新型計算架構(gòu)和智能算法等新技術(shù)C、大數(shù)據(jù)的應(yīng)用注重相關(guān)分析而不是因果分析D、大數(shù)據(jù)的應(yīng)用注重因果分析而不是相關(guān)分析E、大數(shù)據(jù)的目的在于發(fā)現(xiàn)新的知識與洞察并進行科學(xué)決策答案：AD4.關(guān)于大數(shù)據(jù)和互聯(lián)網(wǎng)，以下哪些說法是正確的()A、互聯(lián)網(wǎng)的出現(xiàn)使得監(jiān)視變得更容易.成本更低廉也更有用處。B、大數(shù)據(jù)不管如何運用都是我們合理決策過程中的有力武器。C、大數(shù)據(jù)的價值不再單純來源于它的基本用途，而更多源于它的二次利用。D、大數(shù)據(jù)時代，很多數(shù)據(jù)在收集的時候并無意用作其他用途，而最終卻產(chǎn)生了很多創(chuàng)新性的用途。答案：ABD5.大數(shù)據(jù)產(chǎn)業(yè)發(fā)展特點______A、規(guī)模較大B、規(guī)模較小C、增速較快D、增速緩慢E、多產(chǎn)業(yè)交叉融合答案：ACE6.下列哪些屬于數(shù)據(jù)廢氣()A、搜索關(guān)鍵詞時，人們的錯誤拼寫；B、人們?yōu)g覽網(wǎng)頁時停留的時間；C、人們閱讀電子書章節(jié)的時間長短；D、商品每月被購買的數(shù)量。答案：ABC7.數(shù)據(jù)研究經(jīng)歷了幾種范式，包括______A、實驗B、理論C、計算D、數(shù)據(jù)答案：ABCD8.按照涉及自變量的多少，可以將回歸分析分為()。A、線性回歸分析B、非線性回歸分析C、一元回歸分析D、多元回歸分析E、綜合回歸分析答案：CD9.社會將兩個折中的想法不知不覺地滲入了我們的處事方法中，我們甚至不再把這當(dāng)成一種折中，而是把它當(dāng)成了事物的自然狀態(tài)。這兩個折中的方法是什么？()A、第一個折中是我們默認自己不能使用更多的數(shù)據(jù)，所以我們就不會去使用更多的數(shù)據(jù)。B、第二個折中出現(xiàn)在數(shù)據(jù)的質(zhì)量上。C、第一個折中是我們能夠容忍模糊和不確定出現(xiàn)在一些過去依賴于清晰和精確的領(lǐng)域。D、第二個折中是能夠得到一個事物更完整的概念，我們就能

接受模糊和不確定的存在。答案：AB10.關(guān)于大數(shù)據(jù)的說話正確的有()A、大數(shù)據(jù)時代要求我們重新審視精確性的優(yōu)劣。B、大數(shù)據(jù)不僅讓我們不再期待精確性，也讓我們無法實現(xiàn)精確性。C、錯誤并不是大數(shù)據(jù)固有的特性，而是一個亟需我們?nèi)ヌ幚淼默F(xiàn)實問題，并且有可能長期存在。D、錯誤性是大數(shù)據(jù)本身固有的。答案：ABC11.數(shù)據(jù)再利用的意義在于()。A、挖掘數(shù)據(jù)的潛在價值B、實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值C、利用數(shù)據(jù)可擴展性拓寬業(yè)務(wù)領(lǐng)域D、優(yōu)化存儲設(shè)備，降低設(shè)備成本E、提高社會效益，優(yōu)化社會管理答案：ABC12.下列關(guān)于臟數(shù)據(jù)的說法中，正確的是()。A、格式不規(guī)范B、編碼不統(tǒng)一C、意義不明確D、與實際業(yè)務(wù)關(guān)系不大E、數(shù)據(jù)不完整答案：ABCDE13.進行大數(shù)據(jù)分析的人可以輕松地看到大數(shù)據(jù)的價值潛力，這極大地刺激著他們進一步()我們個人數(shù)據(jù)的野心。A、采集B、存儲C、分析D、循環(huán)利用答案：ABD14.大數(shù)據(jù)的科學(xué)價值和社會價值正是體現(xiàn)在()A、一方面，對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟價值的來源。B、另一方面，大數(shù)據(jù)已經(jīng)撼動了世界的方方面面，從商業(yè)科技到醫(yī)療.政府.教育.經(jīng)濟.人文以及社會的其他各個領(lǐng)域。C、大數(shù)據(jù)的價值不再單純來源于它的基本用途，而更多源于它的二次利用。D、大數(shù)據(jù)時代，很多數(shù)據(jù)在收集的時候并無意用作其他用途，而最終卻產(chǎn)生了很多創(chuàng)新性的用途。答案：AB15.下列關(guān)于數(shù)據(jù)生命周期管理的核心認識中，正確的是______A、數(shù)據(jù)從產(chǎn)生到被刪除銷毀的過程中，具有多個不同的數(shù)據(jù)存在階段B、在不同的數(shù)據(jù)存在階段，數(shù)據(jù)的價值是不同的C、根據(jù)數(shù)據(jù)價值的不同應(yīng)該對數(shù)據(jù)采取不同的管理策略D、數(shù)據(jù)生命周期管理旨在產(chǎn)生效益的同時，降低生產(chǎn)成本答案：ABC16.按照涉及自變量的多少，可以將回歸分析分為______A、線性回歸分析B、非線性回歸分析C、一元回歸分析D、多元回歸分析答案：CD17.傳統(tǒng)數(shù)據(jù)密集型行業(yè)積極探索和布局大數(shù)據(jù)應(yīng)用的表現(xiàn)是()。A、投資入股互聯(lián)網(wǎng)電商行業(yè)B、打通多源跨域數(shù)據(jù)C、提高分析挖掘能力D、自行開發(fā)數(shù)據(jù)產(chǎn)品E、實現(xiàn)科學(xué)決策與運營答案：BCE18.關(guān)于數(shù)據(jù)的潛在價值，說法正確的是()。A、數(shù)據(jù)的真實價值就像漂浮在海洋中的冰山，第一眼只能看到冰山一角，而絕大部分則隱藏在表面之下。B、判斷數(shù)據(jù)的價值需要考慮到未來它可能被使用的各種方式，而非僅僅考慮其目前的用途。C、在基本用途完成后，數(shù)據(jù)的價值仍然存在，只是處于休眠狀態(tài)D、數(shù)據(jù)的價值是其所有可能用途的總和答案：ABCD19.數(shù)據(jù)化最早的根基是什么()A、計量B、數(shù)字化C、記錄D、阿拉伯?dāng)?shù)字答案：AC20.大數(shù)據(jù)時代對信息進行有效.公正管理的三項策略是什么()A、在使用預(yù)測分析時考慮個人動因B、隱私保護從個人許可到數(shù)據(jù)使用者承擔(dān)責(zé)任的轉(zhuǎn)變C、催生大數(shù)據(jù)審計員D、將反壟斷法付諸行動答案：ABC21.下面例子屬于大數(shù)據(jù)技術(shù)公司的是()A、四大機票預(yù)訂系統(tǒng)之一的ITASoftwareB、與各行各業(yè)的公司合作應(yīng)用高級無線感應(yīng)技術(shù)來收集數(shù)據(jù)，然后對這些數(shù)據(jù)進行分析的埃森哲咨詢公司。C、微軟研究中心與華盛頓中心醫(yī)院合作分析了多年來的匿名醫(yī)療記錄D、在對沖基金工作的金融工程師杰夫?貝索斯創(chuàng)建了網(wǎng)上書店亞馬遜。答案：ABCD22.關(guān)于數(shù)據(jù)創(chuàng)新包含()A、數(shù)據(jù)的再利用B、重組數(shù)據(jù)C、可擴展數(shù)據(jù)D、數(shù)據(jù)的折舊值E、數(shù)據(jù)廢氣F、開放數(shù)據(jù)答案：ABCDEF23.大數(shù)據(jù)與三個重大的思維轉(zhuǎn)變有關(guān)，這三個轉(zhuǎn)變是什么？()。A、要分析與某事物相關(guān)的所有數(shù)據(jù)，而不是依靠分析少量的數(shù)據(jù)樣本。B、我們樂于接受數(shù)據(jù)的紛繁復(fù)雜，而不再追求精確性。C、在數(shù)字化時代，數(shù)據(jù)處理變得更加容易.更加快速，人們能夠在瞬間處理成千上萬的數(shù)據(jù)。D、我們的思想發(fā)生了轉(zhuǎn)變，不再探求難以捉摸的因果關(guān)系，轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。答案：ACD24.大數(shù)據(jù)人才整體上需要具備______等核心知識A、數(shù)學(xué)與統(tǒng)計知識B、計算機相關(guān)知識C、馬克思主義哲學(xué)知識D、市場運營管理知識E、在特定業(yè)務(wù)領(lǐng)域的知識答案：ABE25.單純依據(jù)大數(shù)據(jù)預(yù)測作出決策需遵循哪些原則()A、公開原則B、公正原則C、可反駁原則D、確保個人動因能防范數(shù)據(jù)獨裁的危害答案：ABCD判斷題1.HBase支持數(shù)據(jù)的隨機讀寫。()A、正確B、錯誤答案：A2.數(shù)據(jù)化就是數(shù)字化，是相互等同的關(guān)系。()A、正確B、錯誤答案：B3.聚類是指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。()A、正確B、錯誤答案：A4.“互聯(lián)網(wǎng)+”將依靠創(chuàng)新驅(qū)動，推動經(jīng)濟結(jié)構(gòu)優(yōu)化，向產(chǎn)業(yè)服務(wù)化方向調(diào)整。()A、正確B、錯誤答案：A5.Trident的核心數(shù)據(jù)模型是“流”(Stream)，它與普通的拓撲相同。()A、正確B、錯誤答案：B6.簡單隨機抽樣，是從總體N個對象中任意抽取n個對象作為樣本，最終以這些樣本作為調(diào)查對象。在抽取樣本時，總體中每個對象被抽中為調(diào)查樣本的概率可能會有差異。A、正確B、錯誤答案：B7.HBase對于空(NULL)的列，不需要占用存儲空間。()A、正確B、錯誤答案：A8.采樣分析的精確性隨著采樣隨機性的增加而大幅提高，但與樣本數(shù)量的增加關(guān)系不大。()A、正確B、錯誤答案：A9.在一個MapReduce應(yīng)用程序中，map函數(shù)的輸出經(jīng)由MapReduce框架處理后，發(fā)送到reduce函數(shù)這個處理過程是基于鍵值對進行排序和分組的()A、正確B、錯誤答案：A10.HBase可以有列，可以沒有列族。()A、正確B、錯誤答案：B11.鏈式MapReduce計算中，對任意一個MapReduce作業(yè)，Map和Reduce階段可以有無限個Mapper，但Reducer只能有一個。()A、正確B、錯誤答案：A12.MapReduce的inputsplit一定是一個block。()A、正確B、錯誤答案：B13.在FusionInsightHD中，Spark默認采用YARN作為集群資源管理系統(tǒng)()A、正確B、錯誤答案：A14.一個數(shù)據(jù)流指的是在分布式環(huán)境中并行創(chuàng)建、處理的一組元組(tuple)的無界序列。()A、正確B、錯誤答案：A15.大數(shù)據(jù)的核心思想就是用規(guī)模劇增來改變現(xiàn)狀。()A、正確B、錯誤答案：A16.HDFS采用的是“一次寫入、多次讀取”的文件訪問模型所以推薦一個文件經(jīng)過創(chuàng)建、寫入和關(guān)閉之后，就不要再去修改。()A、正確B、錯誤答案：A17.大數(shù)據(jù)是指不用隨機分析法這樣的捷徑，而采用所有數(shù)據(jù)的方法。()A、正確B、錯誤答案：A18.Pig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺，它為復(fù)雜的海量數(shù)據(jù)并行計算提供了一個簡單的操作和編程接口。A、正確B、錯誤答案：A19.即使數(shù)據(jù)用于基本用途的價值會減少，但潛在價值卻依然強大。()A、正確B、錯誤答案：A20.HDFS能提供高吞吐量的數(shù)據(jù)訪問，非常適合于大規(guī)模數(shù)據(jù)集上的應(yīng)用。A、正確B、錯誤答案：A21.對于大數(shù)據(jù)而言，最基本、最重要的要求就是減少錯誤、保證質(zhì)量。因此，大數(shù)據(jù)收集的信息量要盡量精確。A、正確B、錯誤答案：B22.Spark是一個高效的分布式計算系統(tǒng)，它有MapReduce所有優(yōu)點，同時性能與Hadoop一樣高。A、正確B、錯誤答案：B23.要想獲得大規(guī)模數(shù)據(jù)帶來的好處，混亂應(yīng)該是一種標(biāo)準途徑，而不應(yīng)該是竭力避免的。()A、正確B、錯誤答案：A24.云計算可以把普通的服務(wù)器或者PC連接起來以獲得超級計算機的計算和存儲等功能，但是成本更低。()A、正確B、錯誤答案：A25.內(nèi)大數(shù)據(jù)是指不用隨機分析法這樣的捷徑，而采用所有數(shù)據(jù)的方法。()A、正確B、錯誤答案：A26.信息生命周期管理是據(jù)生命周期管理的來源，最早由英國企業(yè)提出。A、正確B、錯誤答案：B27.內(nèi)部算法師將扮演公正的審計員的角色，在客戶或政府所要求的任何時候，根據(jù)法律指令或規(guī)章對大數(shù)據(jù)的準確程度或者有效性進行鑒定。()A、正確B、錯誤答案：B28.物聯(lián)網(wǎng)與互聯(lián)網(wǎng)不同，不需要考慮網(wǎng)絡(luò)數(shù)據(jù)安全。()A、正確B、錯誤答案：B29.MapReduce適于PB級別以上的海量數(shù)據(jù)在線處理。()A、正確B、錯誤答案：B30.利用數(shù)據(jù)融合、數(shù)學(xué)模型、仿真技術(shù)等，可以逼近事物的本質(zhì)，可以揭示出原來沒有想到或難以展現(xiàn)的關(guān)聯(lián)，大大提升政府決策的科學(xué)性。A、正確B、錯誤答案：A31.MapReduce計算過程中，相同的key默認會被發(fā)送到同一個reducetask處理。()A、正確B、錯誤答案：A32.互聯(lián)網(wǎng)是技術(shù)、是工具，最終會成為全社會的標(biāo)配。()A、正確B、錯誤答案：A33.大數(shù)據(jù)預(yù)測能夠分析和挖掘出人們不知道或沒有注意到的模式，確定判斷事件必然會發(fā)生。A、正確B、錯誤答案：B34.Storm的拓撲是對實時計算應(yīng)用邏輯的封裝。()A、正確B、錯誤答案：A35.因為HDFS有多個副本，所以NameNode是不存在單點問題的。()A、正確B、錯誤答案：B36.數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則，從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。()A、正確B、錯誤答案：A37.Hadoop支持數(shù)據(jù)的隨機讀寫。()A、正確B、錯誤答案：B38.數(shù)據(jù)取樣時，除了要求抽樣時嚴把質(zhì)量關(guān)外，還要求抽樣數(shù)據(jù)必須在足夠范圍內(nèi)有代表性。()A、正確B、錯誤答案：A39.execute方法負責(zé)接收一個元組作為輸入，并且使用OutputCollector對象發(fā)送新的元組。()A、正確B、錯誤答案：A40.每個map槽就是一個線程。()A、正確B、錯誤答案：B41.大數(shù)據(jù)思維，是指一種意識，認為公開的數(shù)據(jù)一旦處理得當(dāng)就能為千百萬人急需解決的問題提供答案。()A、正確B、錯誤答案：A42.NameNode負責(zé)管理元數(shù)據(jù)信息metadata，client端每次讀寫請求，它都會從磁盤中讀取或會寫入metadata信息并反饋給client端。()A、正確B、錯誤答案：B43.對于大型、中等、小型規(guī)模的公司而言，大數(shù)據(jù)對中等規(guī)模的公司幫助最大。()A、正確B、錯誤答案：B簡答題1.單機(本地)模式中的注意點?答案：在單機模式(standalone)中不會存在守護進程，所有東西都運行在一個JVM上。這里同樣沒有DFS，使用的是本地文件系統(tǒng)。單機模式適用于開發(fā)過程中運行MapReduce程序，這也是最少使用的一個模式。2.試述大數(shù)據(jù)對思維方式的重要影響答案：大數(shù)據(jù)時代對思維方式的重要影響是三種思維的轉(zhuǎn)變：全樣而非抽樣，效率而非精確，相關(guān)而非因果。3.大數(shù)據(jù)產(chǎn)業(yè)包含哪些關(guān)鍵技術(shù)。答案：IT基礎(chǔ)設(shè)施層.數(shù)據(jù)源層.數(shù)據(jù)管理層.數(shù)據(jù)分析層.數(shù)據(jù)平臺層.數(shù)據(jù)應(yīng)用層。4.試述Hadoop在各個領(lǐng)域的應(yīng)用情況。答案：2007年，雅虎在Sunnyvale總部建立了M45——一個包含了4000個處理器和1.5PB容量的Hadooop集群系統(tǒng)；

Facebook主要將Hadoop平臺用于日志處理，推薦系統(tǒng)和數(shù)據(jù)倉庫等方面；

百度主要使用Hadoop于日志的存儲和統(tǒng)計.網(wǎng)頁數(shù)據(jù)的分析和挖掘.商業(yè)分析.在線數(shù)據(jù)反饋.網(wǎng)頁聚類等。5.如何重啟Namenode?答案：點擊stop-all.sh，再點擊start-all.sh。6.Hadoop生態(tài)體系答案：7.試述hadoop和谷歌的mapreduce.gfs等技術(shù)之間的關(guān)系答案：Hadoop的核心是分布式文件系統(tǒng)HDFS和MapReduce，HDFS是谷歌文件系統(tǒng)GFS的開源實現(xiàn)，

MapReduces是針對谷歌MapReduce的開源實現(xiàn)。8.偽分布模式中的注意點?答案：偽分布式(Pseudo)適用于開發(fā)和測試環(huán)境，在這個模式中，所有守護進程都在同一臺機器上運行。9.試述HDFS中的名稱節(jié)點和數(shù)據(jù)節(jié)點的具體功能。答案：名稱節(jié)點負責(zé)管理分布式文件系統(tǒng)系統(tǒng)的命名空間，記錄分布式文件系統(tǒng)中的每個文件中各個塊所在的數(shù)據(jù)節(jié)點的位置信息；

數(shù)據(jù)節(jié)點是分布式文件系統(tǒng)HDFS的工作節(jié)點，負責(zé)數(shù)據(jù)的存儲和讀取，會根據(jù)客戶端或者是名稱節(jié)點的調(diào)度來進行數(shù)據(jù)的存儲和檢索，并向名稱節(jié)點定期發(fā)送自己所存儲的塊的列10.Masters配置文件由什么組成?答案：Masters同樣是主機的列表組成，每臺一行，用于說明第二Namenode服務(wù)器。11.啟動Hadoop系統(tǒng)，當(dāng)使用bin/start-all.sh命令

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《大數(shù)據(jù)應(yīng)用技術(shù)》理論考試題庫（帶答案）

文檔簡介

溫馨提示

最新文檔

評論

《大數(shù)據(jù)應(yīng)用技術(shù)》理論考試題庫（帶答案）

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔