大數(shù)據(jù)技術(shù)導(dǎo)論課后習(xí)題及答案

上傳人：追*** IP屬地：河北上傳時間：2025-01-12 格式：PDF 頁數(shù)：17 大?。?.90MB 積分：12 舉報 版權(quán)申訴

大數(shù)據(jù)技術(shù)導(dǎo)論課后習(xí)題及答案_第2頁

大數(shù)據(jù)技術(shù)導(dǎo)論課后習(xí)題及答案_第3頁

大數(shù)據(jù)技術(shù)導(dǎo)論課后習(xí)題及答案_第4頁

大數(shù)據(jù)技術(shù)導(dǎo)論課后習(xí)題及答案_第5頁

已閱讀5頁，還剩12頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

項目一

1.大數(shù)據(jù)的特性有哪些？

答：Volume（數(shù)據(jù)量大）、Variety（數(shù)據(jù)類型繁多）、Velocity（處理

速度快）、Value（價值密度低）、Online（在線）。

2.大數(shù)據(jù)時代產(chǎn)生的原因有哪些？

答：外部原因：（1）存儲設(shè)備容量不斷增加。（2）CPU處理能力大幅提升。

（3）網(wǎng)絡(luò)帶寬不斷增加。根本原因：數(shù)據(jù)產(chǎn)生方式的巨大變化是大數(shù)據(jù)時

代產(chǎn)生的本質(zhì)原因。

3.一般情況下，大數(shù)據(jù)處理流程分為哪幾個階段？

答：大數(shù)據(jù)處理流程分為五步，分別是數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲

和數(shù)據(jù)計算、數(shù)據(jù)分析、數(shù)據(jù)可視化。

4.谷歌公司在大數(shù)據(jù)的發(fā)展中起了重要作用，谷歌“三架馬車”指的是

什么？

答:在2003年，谷歌公司發(fā)表了谷歌分布式文件系統(tǒng)（GoogleFileSystem,

GFS）的論文。在2004年，谷歌又發(fā)表了谷歌大數(shù)據(jù)分布式計算框架

MapReduce的論文。在2006年，谷歌又發(fā)表了大表BigTable的論文。這

三篇論文是大數(shù)據(jù)技術(shù)發(fā)展史上重要的里程碑，史稱谷歌大數(shù)據(jù)的“三架

馬車”。

5.請結(jié)合自己的專業(yè)談?wù)勅绾卫么髷?shù)據(jù)技術(shù)解決具體問題。

答：略

項目二

1.敘述大數(shù)據(jù)處理和傳統(tǒng)數(shù)據(jù)處理有什么不同？

答：傳統(tǒng)數(shù)據(jù)處理平臺在大數(shù)據(jù)時代將面臨嚴(yán)重挑戰(zhàn)。主要在以下幾個方

面：

（1）由于傳統(tǒng)數(shù)據(jù)處理平臺多部署于單機環(huán)境下，用于處理結(jié)構(gòu)化數(shù)據(jù)。

計算數(shù)據(jù)量也較小，數(shù)據(jù)存儲大多采用關(guān)系型數(shù)據(jù)庫。數(shù)據(jù)計算效率依賴單

機的性能，數(shù)據(jù)處理速度方面存在瓶頸，對于大數(shù)據(jù)量的處理無法達到實時

性要求。

（2）傳統(tǒng)的數(shù)據(jù)處理方法以計算為中心，所有數(shù)據(jù)必須匯總傳輸?shù)揭慌_

機器進行計算，計算完畢后再返回，增加了數(shù)據(jù)傳輸時間,隨著數(shù)據(jù)量的增

加，處理速度會越來越慢。

（3）傳統(tǒng)數(shù)據(jù)處理平臺數(shù)據(jù)來源單一，多用于處理結(jié)構(gòu)化數(shù)據(jù)，對于非

結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)無能為力。

大數(shù)據(jù)處理平臺具有以下特點。

（1）分布式數(shù)據(jù)計算

（2）動態(tài)擴展性

（3）容錯性強

（4）I/O傳輸速度快

2.Hadoop的設(shè)計思想是什么？

答：Hadoop的設(shè)計思想如下。

（1）能夠大幅度降低高性能計算成本

用戶可以通過家庭或者工作中普通的PC機組成大數(shù)據(jù)服務(wù)集群，集群節(jié)

點數(shù)量根據(jù)機器性能可以達到數(shù)千個。不必花費高昂的代價去購買集群服務(wù)

器用于環(huán)境搭建。使高性能計算實現(xiàn)成本降低，適用面更廣泛。

（2）具有良好的穩(wěn)定性和可靠性

爭對集群中單個或多個服務(wù)器節(jié)點失效問題，Hadoop具有自動維護數(shù)據(jù)

的多份復(fù)本，同時在任務(wù)失敗后能夠重新部署計算任務(wù)的機制，從而保障了

服務(wù)器集群的穩(wěn)定性和可靠性。

（3）能夠大幅度提高數(shù)據(jù)計算和存儲效率

Hadoop采用并行數(shù)據(jù)處理機制，把海量數(shù)據(jù)分割成多個小型的數(shù)據(jù)塊，

并通過數(shù)據(jù)分發(fā)機制，把數(shù)據(jù)分發(fā)給集群上面的其他節(jié)點進行處理，減少了

系統(tǒng)對于海量數(shù)據(jù)存儲和處理的時間。

（4）以數(shù)據(jù)為中心

秉承機柜內(nèi)數(shù)據(jù)傳輸速度大于機柜間傳輸速度的思想（即移動計算比移

動數(shù)據(jù)更高效），對于海量數(shù)據(jù)采用“一次寫，多次讀”的方式，使文件不

會被頻繁寫入和修改，保證了集群各個節(jié)點的數(shù)據(jù)處理的高效性。

3.大數(shù)據(jù)有幾種計算模式？代表技術(shù)分別是什么？

計算模式應(yīng)用場景實時代表技術(shù)

性

批處理計算模大規(guī)模數(shù)據(jù)的不高MapReduce、Spark、Flink

式離線批量處理等

流計算模式流數(shù)據(jù)的在線高StormxFlink、

實時計算Spark-Streaming>S4等

圖計算大規(guī)模圖結(jié)構(gòu)不高PregeRGiraph>GraphX

數(shù)據(jù)的處理等

交互查詢分析大規(guī)模數(shù)據(jù)的較高Hive^Impala等

模式交互查詢分析

4.敘述大數(shù)據(jù)處理平臺5種主流架構(gòu)和各自的特點？

答：

（1）傳統(tǒng)大數(shù)據(jù)架構(gòu)

傳統(tǒng)大數(shù)據(jù)架構(gòu)主耍為了解決傳統(tǒng)BI的問題，傳統(tǒng)BI經(jīng)過長期的發(fā)展

已經(jīng)形成了一套成熟和穩(wěn)定的系統(tǒng)，但是隨著大數(shù)據(jù)時代的到來，傳統(tǒng)BI系

統(tǒng)遇到諸多挑戰(zhàn)。由于傳統(tǒng)BI系統(tǒng)處理數(shù)據(jù)量較少，且多為結(jié)構(gòu)化數(shù)據(jù)的處

理。在大數(shù)據(jù)時代面對大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)和文件、圖片、視頻等非結(jié)構(gòu)化

數(shù)據(jù)的沖擊，傳統(tǒng)BI遇到性能瓶頸問題。因此，我們必須對傳統(tǒng)BI系統(tǒng)進

行升級改造，引入大數(shù)據(jù)處理技術(shù)搭建架構(gòu)，稱之為傳統(tǒng)大數(shù)據(jù)架構(gòu)。傳統(tǒng)

大數(shù)據(jù)架構(gòu)與傳統(tǒng)BI相比，在數(shù)據(jù)分析的業(yè)務(wù)上沒有發(fā)生任何變化，僅僅是

為了增加系統(tǒng)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理能力，提升了系統(tǒng)性能。由于

傳統(tǒng)BI業(yè)務(wù)數(shù)據(jù)多為離線批處理，對實時性要求不高。所以傳統(tǒng)大數(shù)據(jù)架構(gòu)

也以批處理為主，不具備實時性，一般采用MapReduce、Spark等技術(shù)進行批

處理。這種架構(gòu)主要應(yīng)用在以B1為主的業(yè)務(wù)需求上，不過僅用于數(shù)據(jù)處理性

能遇到瓶頸問題時的系統(tǒng)改造上。

（2）流式架構(gòu)

隨著大數(shù)據(jù)時代的發(fā)展和傳感器的廣泛應(yīng)用，出現(xiàn)了越來越多的實時處

理數(shù)據(jù)需求，比如實時監(jiān)控預(yù)警，實時路徑規(guī)劃，實時在線報表等。傳統(tǒng)大

數(shù)據(jù)架構(gòu)為批量數(shù)據(jù)處理，無法滿足實時性的需求。這時就需要搭建能夠?qū)?/p>

數(shù)據(jù)進行實時處理，時延小的系統(tǒng)架構(gòu)，這就是流式架構(gòu)。流式架構(gòu)，顧名

思義就是整個架構(gòu)只具備對數(shù)據(jù)的實時流計算功能，而不具備對數(shù)據(jù)的批量

處理功能。在流式架構(gòu)中，數(shù)據(jù)全程以流的形式處理，沒有ETL過程。經(jīng)過

流處理加工后的數(shù)據(jù)，被直接推送顯示出來。流式架構(gòu)僅以窗口的形式進行

存儲，本身不支持歷史數(shù)據(jù)的重演和統(tǒng)計分析，不過我們可以根據(jù)實際需求,

在數(shù)據(jù)直接實時推送顯示出來時，把符合我們預(yù)設(shè)條件的，有價值的數(shù)據(jù)存

入數(shù)據(jù)庫中，以便后續(xù)數(shù)據(jù)分析和應(yīng)用。流式架構(gòu)數(shù)據(jù)處理一般采用的流計

算框架比如SparkStreaming、Storm>Flink等。流式架構(gòu)多用于實時預(yù)警，實

時監(jiān)控等對數(shù)據(jù)處理實時性要求比較高，同時又不需要支持歷史數(shù)據(jù)統(tǒng)計分

析和重演的系統(tǒng)。

(3)Lambda架構(gòu)

Lambda架構(gòu)是現(xiàn)今企業(yè)用的最多的主流大數(shù)據(jù)架構(gòu)。很多企業(yè)大數(shù)據(jù)架

構(gòu)基本都是Lambda架構(gòu)或者其變種。Lambda架構(gòu)主要運用于同時需要實時

流處理和離線批量處理的場景。為了保證數(shù)據(jù)的實時處理和批量處理二者并

存，Lambda架構(gòu)的數(shù)據(jù)通道分為兩條：實時流和離線。實時流依照流式架構(gòu)

處理，進行實時在線流計算，以增量計算為主。而離線則主要為數(shù)據(jù)批量處

理，以全量計算為主保障數(shù)據(jù)一致性。

(4)K叩pa架構(gòu)

Lambda架構(gòu)運用非常廣泛，也能解決大多數(shù)業(yè)務(wù)場景的實時和批量處理

需求。但是Lambda架構(gòu)也有其自身不足。Lambda查詢結(jié)果來自于批處理層

和快速計算層。而批處理層多用MapReduce、Spark等批處理技術(shù)，而快速計

算層多用Flink、SparkStreaming和Storm等流計算技術(shù)。系統(tǒng)開發(fā)時就需要

開發(fā)兩種完全不同的代碼，這非常不方便。因此，在Lambda架構(gòu)的基礎(chǔ)上

又提出了Kappa架構(gòu)。Kappa架構(gòu)的變革就是，在批處理層不再使用批處理

技術(shù)，而也使用快速處理層的流計算技術(shù)。這樣一來，批處理層和快速處理

層都是使用了相同的流處理邏輯，實現(xiàn)框架統(tǒng)一化，從而簡化了系統(tǒng)開發(fā)工

作。

(5)Unifield架構(gòu)

在傳統(tǒng)Lambda架構(gòu)下，理論上快速處理層的輸出結(jié)果與批處理層的輸

出結(jié)果在業(yè)務(wù)意義上是完全相同，如果我們分別用兩張數(shù)據(jù)庫的表來存儲批

處理層和快速處理層的計算結(jié)果，那么這兩張數(shù)據(jù)庫表的表結(jié)構(gòu)應(yīng)該是相同

的。只是數(shù)據(jù)記錄不一樣。但在實際應(yīng)用中我們需要根據(jù)自己的需求對快速

處理層做出改動。Unifield架構(gòu)就是以Lambda架構(gòu)為基礎(chǔ)，對其進行進一步

改造，在快速處理層新增了機器學(xué)習(xí)模型。

5.Hadoop生態(tài)系統(tǒng)組件有哪些，各自的作用是什么？

(1)底層

底層結(jié)構(gòu)包括HDFS,MapReduce和Zookeepero其中，HDFS是Hadoop

分布式文件存儲系統(tǒng)。MapReduce是Hadoop的分布式并行運算框架。

Zookeeper是一種基于HDFS和HBase的開源的分布式協(xié)調(diào)服務(wù)組件，由

Facebook貢獻給Apache基金會。Zookeeper對Hadoop集群提供分布式鎖服

務(wù)，用于解決多個進程同步控制問題，防止“臟數(shù)據(jù)”，保證分布式任務(wù)執(zhí)

行的一致性。

（2）數(shù)據(jù)收集處理轉(zhuǎn)換層

數(shù)據(jù)收集處理轉(zhuǎn)換層結(jié)構(gòu)包括HBaseHive>PigMahoutSqoop和Flume。

HBase（分布式列存數(shù)據(jù)庫）是一個針對結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、

高性能、分布式和面向列的動態(tài)模式數(shù)據(jù)庫。和傳統(tǒng)關(guān)系數(shù)據(jù)庫不同，HBase

采用了BigTable的數(shù)據(jù)模型，即增強的稀疏排序映射表（Key/Vahie）。在

HBase中，數(shù)據(jù)的鍵由行關(guān)犍字、列關(guān)鍵字和時間戳構(gòu)成，HBase提供了對

大規(guī)模數(shù)據(jù)的隨機、實時讀寫訪問，同時，HBase中保存的數(shù)據(jù)可以使用

M叩Reduce來處理。

Hive是一種基于平面文件而構(gòu)建的分布式數(shù)據(jù)倉庫,主要用于數(shù)據(jù)展示,

Hive提供了基于SQL的數(shù)據(jù)庫查詢語言，簡化了MapReduce編程難度。利

用Hive,用戶只需寫SQL語句，而不需要編寫復(fù)雜的MapReduce程序就能

運行MapReduce任務(wù)。

Pig是一種基于大數(shù)據(jù)集的批量數(shù)據(jù)處理平臺，用于提供數(shù)據(jù)流處理的語

言和運行環(huán)境，Pig提供一種專用的語言PigLatin。Pig主要用于數(shù)據(jù)準(zhǔn)備階

段，提供數(shù)據(jù)加載、合并、過濾排序等數(shù)據(jù)操作功能。

Sqoop是一個數(shù)據(jù)接口，主要用來對HDFS和傳統(tǒng)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)

進行數(shù)據(jù)傳輸。在數(shù)據(jù)傳輸過程中，也可以利用Sqoop來做數(shù)據(jù)清洗。

Flume是一種分布式海量日志采集和傳輸?shù)南到y(tǒng)。用于對日志數(shù)據(jù)的收

集和簡單的處理。它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標(biāo)的路徑的過

程抽象為一條數(shù)據(jù)流，在數(shù)據(jù)流中，數(shù)據(jù)源是數(shù)據(jù)發(fā)送方，F(xiàn)lume支持收集

各種不同協(xié)議數(shù)據(jù)源數(shù)據(jù)。收集完數(shù)據(jù)后，F(xiàn)lume數(shù)據(jù)流能夠?qū)θ罩緮?shù)據(jù)進

行簡單處理，例如過濾、格式轉(zhuǎn)換等。隨后，F(xiàn)lume數(shù)據(jù)流能夠?qū)⑻幚砗玫?/p>

數(shù)據(jù)寫往各種數(shù)據(jù)庫。總的來說，F(xiàn)lume是一個可擴展、適合復(fù)雜環(huán)境的海

量日志收集工具。

(3)數(shù)據(jù)挖掘?qū)?/p>

數(shù)據(jù)挖掘?qū)又饕抢脭?shù)據(jù)挖掘組件Mahout執(zhí)行數(shù)據(jù)挖掘任務(wù)。Mahout

是Apache旗下的一個開源算法庫，主要用來做數(shù)據(jù)挖掘和機器學(xué)習(xí)，Mahout

中包含許多已實現(xiàn)的算法，例如分類、回歸、聚類、協(xié)同過濾等。傳統(tǒng)的Mahout

是提供的是Java的API,用戶應(yīng)用會編譯成MapReduce的工作任務(wù)，運行在

MapReduce的框架上，計算效率低?，F(xiàn)在，Spark的出現(xiàn)基本替代了

MapReduce,Mahout也已經(jīng)停止接受新的MapReduce算法了，轉(zhuǎn)向支持Sparko

(4)監(jiān)控和運維層

監(jiān)控和運維層主要是利用監(jiān)控和運維組件對整個集群資源調(diào)度和任務(wù)運

行進行監(jiān)控。在MRvl中一般使用Ambari來對集群進行監(jiān)控。Ambari是一

款Hadoop集群監(jiān)控工具，提供對Hadoop集群進行部署，配置，升級和監(jiān)控

的服務(wù)。

HadoopMRv2版本生態(tài)系統(tǒng)在MRvl的基礎(chǔ)上引入了Yarn框架進行集群

的資源管理調(diào)度。因為MapReduce本質(zhì)上是一個大數(shù)據(jù)批處理平臺。隨著社

會的發(fā)展，批處理框架也越來越多，例如Spark、Flink等。同時，數(shù)據(jù)在線

實時處理需求大幅增加。而MRvl不擅長處理實時數(shù)據(jù)，同時還有一些機器

學(xué)習(xí)類的任務(wù)也不太適合用MRvl執(zhí)行。所以,Strom、Flink和SparkStreaming

等實時計算框架應(yīng)運而生，

6.敘述實時計算和批量計算的定義和區(qū)別。

答：批量計算指大規(guī)模數(shù)據(jù)的離線批量計算，計算數(shù)據(jù)量大，實時性要求不

高，時延一般為小時級。實時計算指數(shù)據(jù)的在線實時計算，數(shù)據(jù)計算量較大,

但是實時要求非常高，時延一般為秒級或毫秒級。

7.畫出Hadoop2.x生態(tài)系統(tǒng)架構(gòu)圖

Ambari

（安裝部B工具）

Oozie

作業(yè)流詡度系統(tǒng)

MapReduceTezSpark

（離我計算）（DAGitO|存計算）

YAERN

（分布式計算概架）

HDFS

（分布式存儲系統(tǒng)）

項目三

l.Hadoop開發(fā)環(huán)境單機、偽分布式、完全分布式的差別是什么？

答：單機模式下Hadoop運行只有一個Java進程，單機模式Hadoop只

能讀取系統(tǒng)目錄下的本地文件。偽分布式配置Hadoop進程運行包含多個

Java進程，節(jié)點既作為NameNode,也作為DataNode,偽分布式配置Hadoop

可以讀取本地文件也可以讀取HDFS文件。完全分布式配置Hadoop進程運

行包含多個Java進程，NameNode和DataNode節(jié)點由不同的機器擔(dān)任，完

全分布式配置Hadoop可以讀取本地文件也可以讀取HDFS文件。

2.Hadoop偽分布式環(huán)境為什么要設(shè)置免密碼登錄？

答：Hadoop集群運行時，NameNode要遠程啟動DataNode守護進程，

NameNode和DataNode之間需要遠程SSH通信。所以我們需要安裝SSH。但

是Hadoop沒有區(qū)分完全分布式和偽分布式，對于偽分布式Hadoop仍然會采

用與集群相同的處理方式，按次序啟動DataNode進程，只不過在偽分布式中

NameNode和DataNode都為localhost,所以對于偽分布式,也必須要安裝SSH。

3.Hadoop偽分布式core-site.xml需要配置哪些屬性，每個屬性的作用是

什么？

答：<configuration>

<name>hadoop.tmp.dir</name>

<value>file:/usnrlocal/hadoop//hadoop-2.7.1/tmp</value>

〈description〉設(shè)置hadoop默認(rèn)配置目錄〈/description〉

</property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

〈description〉設(shè)置hdfs集群訪問路徑〈/description〉

</property>

</configuration>

hadoop.tmp.dir用于設(shè)置hadoop默認(rèn)配置目錄，fs.defaultFS用于設(shè)置hdfs

集群訪問路徑。

4.Hadoop偽分布式hdfs-site.xml需要配置哪些屬性，每個屬性的作用是

什么？

答：<configuration>

<name>dfs.replication</name>

</property>

<value>file:/usr/local/hadoop/hadoop-2.7.1/tmp/dfs/name</value>

</property>

〈property?

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/hadoop-2.7.1/tmp/dfs/data</value>

</property>

</configuration>

dfs.replication用于設(shè)置文件備份副本數(shù)，.dir是保存

Fslmage鏡像的目錄，作用是存放hadoop的名稱節(jié)點namenode里的metadata；

dfs.datanode.data.dir是存放HDFS文件系統(tǒng)數(shù)據(jù)文件的目錄，作用是存放

hadoop的數(shù)據(jù)節(jié)點datanode里的多個數(shù)據(jù)塊。

5.使用HDFS命令進行如下操作：在HDFS上創(chuàng)建一個文件夾test,本地

上傳一個文件到test目錄下，瀏覽該文件的內(nèi)容。

答：可以參考如下格式

hdfsdfs-mkdir/test

hdfsdfs-put./test.txt/test

hdfsdfs-cat/test/test.txt

項目四

1.常用的大數(shù)據(jù)采集工具有哪些？

答：Flume和Kafka,scribe等。

2.數(shù)據(jù)預(yù)處理的作用是什么，有哪幾種數(shù)據(jù)預(yù)處理的方法？

答：從數(shù)據(jù)源采集的原始數(shù)據(jù)一般都是“臟”的，所謂“臟”就是數(shù)據(jù)

不正常，會影響后續(xù)數(shù)據(jù)存儲和處理過程，甚至數(shù)據(jù)分析的準(zhǔn)確性。常見的

“臟”數(shù)據(jù)有數(shù)據(jù)缺失、數(shù)據(jù)值異常、數(shù)據(jù)格式不合要求等，這時候就需要

我們對原始數(shù)據(jù)進行數(shù)據(jù)預(yù)處理操作，保證數(shù)據(jù)采集的數(shù)據(jù)質(zhì)量，以便后續(xù)

步驟的順利進行。

一般數(shù)據(jù)預(yù)處理主要分為以下幾個方面數(shù)據(jù)清洗，數(shù)據(jù)轉(zhuǎn)換，數(shù)據(jù)集成,

數(shù)據(jù)規(guī)約。

3.什么是爬蟲，爬蟲的作用是什么？

答：網(wǎng)絡(luò)爬蟲是一個模擬人類請求網(wǎng)站行為的程序或腳本。網(wǎng)絡(luò)爬蟲可

以自動請求網(wǎng)頁并使用一定的規(guī)則把我們所需要的有價并值的數(shù)據(jù)抓取下

來。

4.網(wǎng)頁的基本結(jié)構(gòu)包含哪些？

答：網(wǎng)頁一般由三部分組成，分別是HTML（超文本標(biāo)記語言）、CSS（層

疊樣式表）和JavaScript（活動腳本語言）。其中，HTML是整個網(wǎng)頁的框

架。整個網(wǎng)頁由一些成對出現(xiàn)的HTML標(biāo)簽組成。一個網(wǎng)頁一般分為有head

和body兩部分，body內(nèi)部可以包含一些HTML標(biāo)簽，HTML標(biāo)簽里填充具體

的網(wǎng)頁內(nèi)容，同時HTML標(biāo)簽可以具有屬性，比如href屬性用于設(shè)置該標(biāo)簽

被點擊時進行超鏈接跳轉(zhuǎn)。CSS主要負(fù)責(zé)定義網(wǎng)頁的外觀樣式，比如長，寬,

顏色等等。

5.爬蟲程序如何進行數(shù)據(jù)爬??？

答：爬蟲爬取網(wǎng)頁數(shù)據(jù)的基本過程類似于我們?yōu)g覽網(wǎng)頁的過程。主要分

為兩個步驟。

（1）Http-Request

在Http-Request階段，爬蟲程序?qū)π枰廊?shù)據(jù)的網(wǎng)頁服務(wù)器發(fā)送Http

請求，并等待網(wǎng)頁服務(wù)器的Http響應(yīng)。

(2)Http-Response

在Http-Response階段，網(wǎng)頁服務(wù)器接收到請求后，驗證請求的合法性，

然后將爬蟲程序請求的網(wǎng)頁數(shù)據(jù)封裝好，發(fā)送Http響應(yīng)。爬蟲程序接收網(wǎng)頁

服務(wù)器響應(yīng)，經(jīng)過程序代碼的解析處理，獲取需要爬取的網(wǎng)頁內(nèi)容。

項目五

1.大數(shù)據(jù)計算框架的類別有哪些？常見的大數(shù)據(jù)計算框架有哪些?

2.畫出HDFS架構(gòu)圖。

DataNodrDataNode各.份

客戶端

3.什么叫NoSQL數(shù)據(jù)庫，NoSQL數(shù)據(jù)庫的作用是什么？

答：非關(guān)系(NoSQL)數(shù)據(jù)庫是一種易擴展、大數(shù)據(jù)量、高性能和靈活

數(shù)據(jù)模型的數(shù)據(jù)庫。NoSQL數(shù)據(jù)庫主要用于存儲非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)

據(jù)。

4.HBase數(shù)據(jù)庫前身是什么？

答:谷歌bigtableo

5.HBase數(shù)據(jù)庫是哪種NoSQL數(shù)據(jù)庫？HBase如何標(biāo)識每條數(shù)據(jù)？

答：HBase是基于Hadoop的面向列的NoSQL數(shù)據(jù)庫。HBase的數(shù)據(jù)存

儲在數(shù)據(jù)單元中，每個數(shù)據(jù)單元通過行鍵、列簇、列限定符和時間戳共同

組成的索引來標(biāo)識的。

6.敘述HBase數(shù)據(jù)庫如何進行數(shù)據(jù)存儲。

答：假設(shè)有一張表，HBase會根據(jù)行鍵的值對該表中的行進行分區(qū)，每個

行區(qū)間構(gòu)成一個分區(qū)(Region),分區(qū)內(nèi)包含了位于這個行區(qū)間內(nèi)的所有

數(shù)據(jù)。默認(rèn)一張表的初始分區(qū)數(shù)為2個，隨著表中數(shù)據(jù)不斷增加，Region

不斷增大，當(dāng)增大到超過閾值的時候，一個Region就會分為兩個Region。

表中的行越來越多，Region就越來越多。這么多Region需要一個“管家”

來管理，這個管家就是RegionServeroRegionServer的管理原則為每個

RegionServer負(fù)責(zé)管理一個或多個Region0不同的Region可以分布在不

同的RegionServer上，但一個Region不會拆分到多個RegionServer上。

Region并不是數(shù)據(jù)存儲的最小單元。Region往下還可以細分，每個Region

又由一個或者多個Store組成，每個Store保存一個列族的數(shù)據(jù)。每個Store

又由一個MemStore和零或多個StoreFile組成，StoreFile以文件格式保

存在HDFS上。

項目六

1.什么是數(shù)據(jù)分析？傳統(tǒng)數(shù)據(jù)分析和大數(shù)據(jù)分析的異同點有哪些？

答：數(shù)據(jù)分析是指用統(tǒng)計分析方法和工具對收集來的數(shù)據(jù)進行分析，從中

提取有用信息，從而形成分析結(jié)論的過程。傳統(tǒng)的數(shù)據(jù)分析大多基于聯(lián)機分

析處理技術(shù)（OLAP）,分析的數(shù)據(jù)是結(jié)構(gòu)化的關(guān)系數(shù)據(jù)，數(shù)據(jù)結(jié)構(gòu)清晰一致，

數(shù)據(jù)量一般不大，利用單一機器即可進行數(shù)據(jù)分析工作，在數(shù)據(jù)分析中會伴

隨著數(shù)據(jù)挖掘以及機器學(xué)習(xí)相關(guān)算法的使用，這些算法大多基于統(tǒng)計學(xué)理論

的抽樣分析

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)技術(shù)導(dǎo)論課后習(xí)題及答案

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)技術(shù)導(dǎo)論課后習(xí)題及答案

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔