




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章大數(shù)據(jù)概述大數(shù)據(jù)技術(shù)基礎(chǔ)(第2版)全套可編輯PPT課件第1章大數(shù)據(jù)概述.pptx第2章大數(shù)據(jù)處理平臺(tái)Hadoop.pptx第3章數(shù)據(jù)采集與預(yù)處理.pptx第4章數(shù)據(jù)存儲(chǔ)與管理.pptx第5章數(shù)據(jù)處理與分析.pptx第6章數(shù)據(jù)可視化.pptx第7章大數(shù)據(jù)思維與安全.pptx第8章城市空氣質(zhì)量大數(shù)據(jù)分析實(shí)戰(zhàn).pptxPREFACE本章導(dǎo)讀人類已進(jìn)入大數(shù)據(jù)時(shí)代,全球數(shù)據(jù)未來數(shù)年將繼續(xù)呈現(xiàn)爆炸式增長(zhǎng)。大數(shù)據(jù)是無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新的處理模式才能產(chǎn)生更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。如果將大數(shù)據(jù)比作一個(gè)產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。01大數(shù)據(jù)的概念和特征02大數(shù)據(jù)的處理流程03大數(shù)據(jù)平臺(tái)架構(gòu)和集群04大數(shù)據(jù)的行業(yè)應(yīng)用CATALOG05大數(shù)據(jù)與其他新興技術(shù)的關(guān)系06實(shí)戰(zhàn)演練——使用PowerBI分析產(chǎn)品銷售情況知識(shí)目標(biāo)04了解大數(shù)據(jù)的典型行業(yè)應(yīng)用,以及大數(shù)據(jù)與其他新興技術(shù)的關(guān)系。03了解大數(shù)據(jù)平臺(tái)架構(gòu)的組成和大數(shù)據(jù)集群。02了解我國(guó)的大數(shù)據(jù)發(fā)展戰(zhàn)略,理解大數(shù)據(jù)的處理流程和關(guān)鍵技術(shù)。01理解大數(shù)據(jù)的概念和主要特征,了解大數(shù)據(jù)的發(fā)展現(xiàn)狀與趨勢(shì)。能夠分析一些典型的大數(shù)據(jù)應(yīng)用場(chǎng)景,簡(jiǎn)單闡釋其背后的原理。能夠初步建立起大數(shù)據(jù)領(lǐng)域的知識(shí)體系,完成一些初級(jí)技術(shù)實(shí)踐。010203能力目標(biāo)能夠結(jié)合實(shí)例說明大數(shù)據(jù)給我們的日常生活所帶來的革命性影響。思政目標(biāo)01.感受我國(guó)在抗擊疫情的嚴(yán)峻斗爭(zhēng)中所表現(xiàn)出的制度優(yōu)勢(shì)、大國(guó)擔(dān)當(dāng),以及大數(shù)據(jù)在疫情監(jiān)測(cè)分析、人員管控、醫(yī)療救治、復(fù)工復(fù)產(chǎn)等方面發(fā)揮的巨大作用,厚植家國(guó)情懷,鑄牢中華民族共同體意識(shí)。02.深刻理解大數(shù)據(jù)作為國(guó)家基礎(chǔ)性戰(zhàn)略資源的重要意義,如推動(dòng)經(jīng)濟(jì)發(fā)展、完善社會(huì)治理、提升政府服務(wù)和監(jiān)管能力等,進(jìn)一步加強(qiáng)對(duì)信息化新階段和數(shù)字經(jīng)濟(jì)的認(rèn)識(shí),不斷提升自身的信息素養(yǎng)。6.讓城市更聰明更智慧4.助力消費(fèi)體驗(yàn)再升級(jí)3.讓新時(shí)代教育更有獲得感7.重塑健康醫(yī)療新生態(tài)1.托舉戰(zhàn)疫大考獲佳績(jī)
作為一種新型生產(chǎn)要素,數(shù)據(jù)正在促進(jìn)我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展中發(fā)揮著越來越重要的作用,構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟(jì),需要把握好作為其重要應(yīng)用場(chǎng)景的大數(shù)據(jù),對(duì)于未來發(fā)展要做到心中有“數(shù)”。2.助推政務(wù)服務(wù)跑出加速度9.助力文娛產(chǎn)業(yè)大發(fā)展8.讓社區(qū)生活更“聰明”5.為更高水平的平安中國(guó)“保駕護(hù)航”興國(guó)利民大數(shù)據(jù)概述01大數(shù)據(jù)的概念和特征1.1大數(shù)據(jù)的概念和特征是用來記錄客觀事物或事件的符號(hào),具體來說,是對(duì)客觀事物或事件的性質(zhì)、狀態(tài)及相互關(guān)系等信息進(jìn)行記錄的物理符號(hào)。(bigdata)也稱海量數(shù)據(jù)或巨量數(shù)據(jù),是指數(shù)據(jù)量大到無法利用傳統(tǒng)數(shù)據(jù)處理技術(shù)在合理的時(shí)間內(nèi)獲取、存儲(chǔ)、管理和分析的數(shù)據(jù)集合?!按髷?shù)據(jù)”一詞除用來描述信息時(shí)代產(chǎn)生的海量數(shù)據(jù)外,也被用來命名與之相關(guān)的技術(shù)、創(chuàng)新與應(yīng)用。數(shù)據(jù)1.1.1什么是大數(shù)據(jù)大數(shù)據(jù)1.1大數(shù)據(jù)的概念和特征作為人類一種新型的、功能強(qiáng)大的好工具,大數(shù)據(jù)使我們能夠迅速地把握事物的整體、相互關(guān)系和發(fā)展趨勢(shì),從而做出更加準(zhǔn)確的預(yù)判、更加科學(xué)的決策、更加精準(zhǔn)的行動(dòng)。1.1.1什么是大數(shù)據(jù)大數(shù)據(jù)的作用1.1大數(shù)據(jù)的概念和特征2004年,全球數(shù)據(jù)總量為30EB,2005年達(dá)到50EB,2015年達(dá)到7900EB。根據(jù)國(guó)際信息技術(shù)咨詢企業(yè)——國(guó)際數(shù)據(jù)公司(IDC)監(jiān)測(cè),全球數(shù)據(jù)量大約每?jī)赡攴环?,預(yù)計(jì)到2030年,全球?qū)碛?500ZB的數(shù)據(jù)。海量的數(shù)據(jù)規(guī)模該特征是指數(shù)據(jù)產(chǎn)生、流轉(zhuǎn)速度快,而且越新的數(shù)據(jù)價(jià)值越大。這就要求對(duì)數(shù)據(jù)的處理速度也要快,以便能夠及時(shí)從數(shù)據(jù)中發(fā)現(xiàn)、提取有價(jià)值的信息??焖俚臄?shù)據(jù)流轉(zhuǎn)1.1.2大數(shù)據(jù)的特征1.1大數(shù)據(jù)的概念和特征該特征是指數(shù)據(jù)的來源及類型多樣。大數(shù)據(jù)的數(shù)據(jù)類型除包括傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)外,還包括大量的非結(jié)構(gòu)化數(shù)據(jù)等。多樣的數(shù)據(jù)類型該特征是指數(shù)據(jù)量大但價(jià)值密度相對(duì)較低,挖掘數(shù)據(jù)中蘊(yùn)藏的價(jià)值猶如沙里淘金。數(shù)據(jù)價(jià)值密度低1.1.2大數(shù)據(jù)的特征010203有數(shù)據(jù)但無法使用可以分析但沒有數(shù)據(jù)有數(shù)據(jù)且可分析1.1大數(shù)據(jù)的概念和特征1.1.3大數(shù)據(jù)的發(fā)展1大數(shù)據(jù)底層技術(shù)逐步成熟近年來,大數(shù)據(jù)底層技術(shù)發(fā)展呈現(xiàn)出逐步成熟的態(tài)勢(shì),除了最基礎(chǔ)的分布式批處理架構(gòu)Hadoop,傳統(tǒng)大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)在擴(kuò)展性方面有了很大突破,在海量數(shù)據(jù)處理領(lǐng)域重新獲得了一席之地。2大數(shù)據(jù)產(chǎn)業(yè)規(guī)模平穩(wěn)增長(zhǎng)權(quán)威機(jī)構(gòu)研究表明,隨著市場(chǎng)整體的日漸成熟和新興技術(shù)的不斷融合發(fā)展,未來大數(shù)據(jù)市場(chǎng)將呈現(xiàn)穩(wěn)步發(fā)展的態(tài)勢(shì),增速維持在14%左右。大數(shù)據(jù)的發(fā)展現(xiàn)狀與趨勢(shì)1.1大數(shù)據(jù)的概念和特征1.1.3大數(shù)據(jù)的發(fā)展3數(shù)據(jù)合規(guī)要求日益嚴(yán)格近些年,各國(guó)在數(shù)據(jù)合規(guī)性方面的重視程度越來越高,但數(shù)據(jù)合規(guī)的進(jìn)程仍任重道遠(yuǎn)。4大數(shù)據(jù)戰(zhàn)略持續(xù)拓展大數(shù)據(jù)幾乎囊括了一個(gè)國(guó)家所有領(lǐng)域內(nèi)的信息,蘊(yùn)含著與一個(gè)民族歷史、現(xiàn)實(shí)和未來發(fā)展相關(guān)聯(lián)的內(nèi)在規(guī)律,其分析和處理能力已經(jīng)成為國(guó)家治理、社會(huì)治理、企業(yè)管理都日益倚重的技術(shù)手段。1.1大數(shù)據(jù)的概念和特征1.1.3大數(shù)據(jù)的發(fā)展大數(shù)據(jù)的發(fā)展現(xiàn)狀與趨勢(shì)“大數(shù)據(jù)”一詞首次寫入政府工作報(bào)告,為中國(guó)大數(shù)據(jù)發(fā)展的政策環(huán)境搭建開始預(yù)熱。20143月國(guó)務(wù)院正式印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》20158月31日“十三五”規(guī)劃綱要的公布標(biāo)志著國(guó)家大數(shù)據(jù)戰(zhàn)略的正式提出,彰顯了中央對(duì)于大數(shù)據(jù)戰(zhàn)略的重視。20163月17日工信部發(fā)布《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020年)》,為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展奠定了重要的基礎(chǔ)。201612月18日1.1大數(shù)據(jù)的概念和特征1.1.3大數(shù)據(jù)的發(fā)展我國(guó)的大數(shù)據(jù)發(fā)展戰(zhàn)略黨的十九大報(bào)告中提出推動(dòng)大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)深度融合,為大數(shù)據(jù)產(chǎn)業(yè)的未來發(fā)展指明了方向。201710月中央政治局就實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略進(jìn)行了集體學(xué)習(xí)。201712月政府工作報(bào)告第六次提到“大數(shù)據(jù)”,并且有多項(xiàng)任務(wù)與大數(shù)據(jù)密切相關(guān)。20193月1.1大數(shù)據(jù)的概念和特征1.1.3大數(shù)據(jù)的發(fā)展我國(guó)的大數(shù)據(jù)發(fā)展戰(zhàn)略02大數(shù)據(jù)的處理流程數(shù)據(jù)采集網(wǎng)絡(luò)上各種來源的數(shù)據(jù),包括社交網(wǎng)絡(luò)數(shù)據(jù)、電子商務(wù)交易數(shù)據(jù)、網(wǎng)上銀行交易數(shù)據(jù)、搜索引擎點(diǎn)擊數(shù)據(jù)、物聯(lián)網(wǎng)傳感器數(shù)據(jù)等,在被采集前都是零散的,沒有任何意義。數(shù)據(jù)采集就是將這些數(shù)據(jù)寫入存儲(chǔ)系統(tǒng)(如數(shù)據(jù)倉(cāng)庫(kù)),整合在一起,以便對(duì)數(shù)據(jù)進(jìn)行綜合分析。采集形式主要有網(wǎng)絡(luò)數(shù)據(jù)采集(如提取網(wǎng)頁(yè)中的圖片、文本等)、系統(tǒng)日志采集(業(yè)務(wù)平臺(tái)每天都會(huì)產(chǎn)生大量的日志數(shù)據(jù))、數(shù)據(jù)庫(kù)數(shù)據(jù)采集(如關(guān)系型數(shù)據(jù)庫(kù)的接入)等,常用的工具有網(wǎng)絡(luò)爬蟲工具、Flume、Kafka、Sqoop等。1.2大數(shù)據(jù)的處理流程1.2.1數(shù)據(jù)采集與預(yù)處理
數(shù)據(jù)預(yù)處理是指將雜亂無章的數(shù)據(jù)轉(zhuǎn)化為相對(duì)單一且便于處理的結(jié)構(gòu),或者去除沒有價(jià)值甚至可能對(duì)分析造成干擾的數(shù)據(jù),從而為后期的數(shù)據(jù)分析奠定基礎(chǔ)。
數(shù)據(jù)預(yù)處理是對(duì)采集到的原始數(shù)據(jù)進(jìn)行清洗、填補(bǔ)、平滑、合并、規(guī)格化,以及檢查一致性等操作的過程,其目的是將數(shù)據(jù)轉(zhuǎn)化為一個(gè)可用的狀態(tài)。1.2大數(shù)據(jù)的處理流程1.2.1數(shù)據(jù)采集與預(yù)處理1.2大數(shù)據(jù)的處理流程數(shù)據(jù)存儲(chǔ)與管理是指用存儲(chǔ)器把采集到的數(shù)據(jù)存儲(chǔ)起來,并建立相應(yīng)的數(shù)據(jù)庫(kù),以便對(duì)數(shù)據(jù)進(jìn)行管理和調(diào)用。主要采用HDFS分布式文件系統(tǒng)、NoSQL數(shù)據(jù)庫(kù)(非關(guān)系型數(shù)據(jù)庫(kù))、數(shù)據(jù)倉(cāng)庫(kù)、云數(shù)據(jù)庫(kù)等來存儲(chǔ)和管理大數(shù)據(jù)。常用的NoSQL數(shù)據(jù)庫(kù)包括HBase、Redis、Cassandra、MongoDB、Neo4j等。1.2.2數(shù)據(jù)儲(chǔ)存與管理SparkStormMapReduce1.2大數(shù)據(jù)的處理流程數(shù)據(jù)處理與分析是指通過各種算法從大量的數(shù)據(jù)中找出潛在的有用信息,并研究數(shù)據(jù)的內(nèi)在規(guī)律和相互間的關(guān)系。數(shù)據(jù)處理與分析大多需要在大數(shù)據(jù)處理平臺(tái)上進(jìn)行,借助分布式并行框架,通過結(jié)合一系列算法完成。常用工具技術(shù)HivePigFlinkImpalaMahout1.2.3數(shù)據(jù)處理與分析數(shù)據(jù)處理與分析1.2大數(shù)據(jù)的處理流程數(shù)據(jù)可視化是指利用可視化手段對(duì)數(shù)據(jù)進(jìn)行分析,并將分析結(jié)果用圖表或文字等形式展現(xiàn)出來,從而使讀者對(duì)數(shù)據(jù)的分布、發(fā)展趨勢(shì)、相關(guān)性和統(tǒng)計(jì)信息等一目了然常用的數(shù)據(jù)可視化工具Tableau、D3.js、GoogleChartAPI、ApacheECharts1.2.4數(shù)據(jù)可視化數(shù)據(jù)可視化1對(duì)各種來源和各種類型的海量數(shù)據(jù)的采集能力提供不同的存儲(chǔ)模型以滿足不同場(chǎng)景和需求的能力靈活的數(shù)據(jù)處理和計(jì)算的能力數(shù)據(jù)分析和挖掘的能力數(shù)據(jù)可視化并能進(jìn)行實(shí)際應(yīng)用的能力1.2大數(shù)據(jù)的處理流程23451.2.4數(shù)據(jù)可視化大數(shù)據(jù)平臺(tái)具備的能力03大數(shù)據(jù)平臺(tái)架構(gòu)和集群1.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)是一系列技術(shù)的總稱,它集合了數(shù)據(jù)采集與傳輸、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理與分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等技術(shù),是一個(gè)龐大而復(fù)雜的技術(shù)體系。1.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群數(shù)據(jù)應(yīng)用層數(shù)據(jù)分析層批處理計(jì)算流計(jì)算離線計(jì)算實(shí)時(shí)計(jì)算數(shù)據(jù)處理層數(shù)據(jù)存儲(chǔ)層數(shù)據(jù)采集層數(shù)據(jù)源層1.3.1大數(shù)據(jù)平臺(tái)架構(gòu)1.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群日常交易數(shù)據(jù)日常交易數(shù)據(jù)主要包括電子商務(wù)數(shù)據(jù)、互聯(lián)網(wǎng)點(diǎn)擊數(shù)據(jù)、信用卡刷卡數(shù)據(jù)、ERP系統(tǒng)數(shù)據(jù)、銷售系統(tǒng)數(shù)據(jù),以及企業(yè)的生產(chǎn)數(shù)據(jù)、庫(kù)存數(shù)據(jù)、訂單數(shù)據(jù)等。0102移動(dòng)通信數(shù)據(jù)隨著移動(dòng)互聯(lián)網(wǎng)和智能手機(jī)等設(shè)備的普及,移動(dòng)通信設(shè)備記錄的數(shù)據(jù)量和數(shù)據(jù)的立體完整度往往優(yōu)于互聯(lián)網(wǎng)公司所掌握的數(shù)據(jù)。03人為生成數(shù)據(jù)單擊此人為生成數(shù)據(jù)大多為非結(jié)構(gòu)化數(shù)據(jù),包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、微博、知乎等社交媒體產(chǎn)生的數(shù)據(jù)流等。處添加文本具體內(nèi)容。1.3.1大數(shù)據(jù)平臺(tái)架構(gòu)數(shù)據(jù)源層1.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群04傳感器數(shù)據(jù)傳感器數(shù)據(jù)包括來自感應(yīng)器、量表和其他設(shè)備的數(shù)據(jù),以及定位系統(tǒng)(GPS)數(shù)據(jù)等,如智能電表、溫度控制器、工廠機(jī)器、聯(lián)網(wǎng)家用電器的數(shù)據(jù)等。05開放共享數(shù)據(jù)開放共享數(shù)據(jù)是指互聯(lián)網(wǎng)上的“公開數(shù)據(jù)”包括政府機(jī)構(gòu)、非營(yíng)利組織和企業(yè)免費(fèi)提供的數(shù)據(jù)等。1.3.1大數(shù)據(jù)平臺(tái)架構(gòu)數(shù)據(jù)源層數(shù)據(jù)采集層利用一系列數(shù)據(jù)采集技術(shù),主要實(shí)現(xiàn)對(duì)數(shù)據(jù)的ETL(抽取、轉(zhuǎn)換和加載)操作。用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到存儲(chǔ)系統(tǒng)(如數(shù)據(jù)倉(cāng)庫(kù))中去,再對(duì)存儲(chǔ)系統(tǒng)中的數(shù)據(jù)進(jìn)行處理與分析。1.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群1.3.1大數(shù)據(jù)平臺(tái)架構(gòu)數(shù)據(jù)采集層2.日志采集系統(tǒng)。企業(yè)的業(yè)務(wù)平臺(tái)每天都會(huì)產(chǎn)生大量的日志數(shù)據(jù),對(duì)這些日志數(shù)據(jù)進(jìn)行采集,然后進(jìn)行數(shù)據(jù)分析,可以挖掘日志數(shù)據(jù)中的潛在價(jià)值,從而為企業(yè)決策和平臺(tái)性能評(píng)估等提供可靠的數(shù)據(jù)保證。1.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群1.3.1大數(shù)據(jù)平臺(tái)架構(gòu)數(shù)據(jù)采集層1.ETL采集方法。這是數(shù)據(jù)采集中較為常用的一種形式,通過ETL工具對(duì)數(shù)據(jù)進(jìn)行采集及預(yù)處理,最終將處理完成的數(shù)據(jù)送往數(shù)據(jù)倉(cāng)庫(kù)或其他數(shù)據(jù)存儲(chǔ)系統(tǒng)。采集方案01021.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群持久化存儲(chǔ)指把數(shù)據(jù)存儲(chǔ)在磁盤中,關(guān)機(jī)或斷電后數(shù)據(jù)不會(huì)丟失。非持久化存儲(chǔ)指把數(shù)據(jù)存儲(chǔ)在內(nèi)存中,讀寫速度快,但是關(guān)機(jī)或斷電后數(shù)據(jù)會(huì)丟失。1.3.1大數(shù)據(jù)平臺(tái)架構(gòu)數(shù)據(jù)存儲(chǔ)層1.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群使用R、Python等進(jìn)行數(shù)據(jù)分析,
也可以使用Mahout、SparkML根據(jù)算法模型、業(yè)務(wù)模型進(jìn)行融合建模,挖掘有價(jià)值的信息,從而更好地為業(yè)務(wù)應(yīng)用提供優(yōu)質(zhì)結(jié)果。1.3.1大數(shù)據(jù)平臺(tái)架構(gòu)數(shù)據(jù)分析層1
以營(yíng)利為目的的商業(yè)大數(shù)據(jù)應(yīng)用
淘寶網(wǎng)、京東、美團(tuán)、攜程等平臺(tái)的大數(shù)據(jù)應(yīng)用,它們以自身?yè)碛械暮A坑脩粜畔ⅰ⑿袨?、位置等?shù)據(jù)為基礎(chǔ),提供個(gè)性化廣告推薦、精準(zhǔn)化營(yíng)銷、經(jīng)營(yíng)分析報(bào)告等。
2不以營(yíng)利為目的
重于為社會(huì)公眾提供服務(wù)的大數(shù)據(jù)應(yīng)用,如搜索引擎公司提供的諸如春運(yùn)客流分析、流感趨勢(shì)預(yù)測(cè)、災(zāi)害天氣預(yù)測(cè)、緊急情況響應(yīng)、城市規(guī)劃、路政建設(shè)等應(yīng)用。1.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群1.3.1大數(shù)據(jù)平臺(tái)架構(gòu)數(shù)據(jù)應(yīng)用層由于數(shù)據(jù)量太大,即使是最好的計(jì)算機(jī)也無法單獨(dú)完成大數(shù)據(jù)的采集與預(yù)處理、存儲(chǔ)與管理、處理與分析等工作,因此需要聚合眾多計(jì)算機(jī)的力量來完成大數(shù)據(jù)的處理。大數(shù)據(jù)集群是由網(wǎng)絡(luò)互相連接的多個(gè)獨(dú)立服務(wù)器的集合。這些服務(wù)器由分布式并行結(jié)構(gòu)組成并一起協(xié)同工作,運(yùn)行共同的應(yīng)用程序,從而實(shí)現(xiàn)高性能的計(jì)算等服務(wù)。1.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群什么是大數(shù)據(jù)集群1.3.2大數(shù)據(jù)集群高可用性高可用性是指防止系統(tǒng)故障或自動(dòng)從故障中恢復(fù)而無須操作人員介入的能力。高可擴(kuò)展性服務(wù)器集群具有高度可擴(kuò)展性。隨著需求和負(fù)載的增長(zhǎng),可以將更多的服務(wù)器添加到集群系統(tǒng)中。高可管理性高度可管理的集群是指系統(tǒng)管理員無須花費(fèi)大量的時(shí)間和人力到現(xiàn)場(chǎng)管理集群,他們只需要便捷地進(jìn)行遠(yuǎn)程管理,這樣的管理就像管理單機(jī)系統(tǒng)一樣。高安全性集群可以定時(shí)定期對(duì)整個(gè)集群系統(tǒng)進(jìn)行備份,以保證數(shù)據(jù)的安全和可追溯性。同時(shí),如果集群崩潰或出現(xiàn)重大故障,可通過容災(zāi)機(jī)制快速恢復(fù)整個(gè)系統(tǒng)。大數(shù)據(jù)集群的優(yōu)點(diǎn)1.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群1.3.2大數(shù)據(jù)集群負(fù)載均衡模式負(fù)載均衡模式是指將集中的訪問請(qǐng)求負(fù)載壓力盡可能平均地分?jǐn)偟郊褐刑幚?,即每個(gè)節(jié)點(diǎn)都可以承擔(dān)一定的訪問請(qǐng)求負(fù)載壓力,并且可以實(shí)現(xiàn)訪問請(qǐng)求在各節(jié)點(diǎn)之間的動(dòng)態(tài)分配,以實(shí)現(xiàn)負(fù)載均衡。冗余模式冗余模式是指當(dāng)集群中的任意一個(gè)節(jié)點(diǎn)失效時(shí),該節(jié)點(diǎn)上的所有任務(wù)會(huì)自動(dòng)轉(zhuǎn)移到其他正常的節(jié)點(diǎn)上,并且此過程不影響整個(gè)集群的運(yùn)行,不影響業(yè)務(wù)的提供。1.3大數(shù)據(jù)平臺(tái)架構(gòu)和集群大數(shù)據(jù)集群的模式121.3.2大數(shù)據(jù)集群04大數(shù)據(jù)的行業(yè)應(yīng)用0102031.4大數(shù)據(jù)的行業(yè)應(yīng)用如何在海量數(shù)據(jù)中找到需要的信息,是搜索引擎的目標(biāo)。通過大數(shù)據(jù)理論和技術(shù),可進(jìn)一步改進(jìn)搜索引擎技術(shù),幫助用戶快速準(zhǔn)確地檢索信息。搜索引擎推薦系統(tǒng)信息過載已成為大數(shù)據(jù)環(huán)境下最嚴(yán)重的問題之一,推薦系統(tǒng)則是緩解該問題的有效方法。廣告系統(tǒng)互聯(lián)網(wǎng)廣告是網(wǎng)絡(luò)營(yíng)銷的主要手段之一,也是典型的大數(shù)據(jù)應(yīng)用?;ヂ?lián)網(wǎng)行業(yè)1.4.1互聯(lián)網(wǎng)與電商行業(yè)01電商企業(yè)收集大量用戶在電商網(wǎng)站或網(wǎng)絡(luò)媒體上的注冊(cè)信息、行為數(shù)據(jù)(用戶在網(wǎng)站和移動(dòng)App中的瀏覽/點(diǎn)擊/發(fā)帖等行為)、交易數(shù)據(jù)、網(wǎng)絡(luò)日志數(shù)據(jù)等。02對(duì)收集的數(shù)據(jù)進(jìn)行分析和挖掘,得出不同用戶的購(gòu)買能力、行為特征、心理特征、興趣愛好、家庭情況、喜歡的社交網(wǎng)絡(luò)等數(shù)據(jù)。03根據(jù)分析結(jié)果做精準(zhǔn)營(yíng)銷、精準(zhǔn)推薦或提高用戶的購(gòu)物體驗(yàn)等。電商行業(yè)1.4大數(shù)據(jù)的行業(yè)應(yīng)用1.4.1互聯(lián)網(wǎng)與電商行業(yè)81.4大數(shù)據(jù)的行業(yè)應(yīng)用電信行業(yè)電信運(yùn)營(yíng)商擁有豐富的數(shù)據(jù)資源。數(shù)據(jù)來源涉及移動(dòng)通話和固定電話、無線上網(wǎng)、有線寬帶接入等所有業(yè)務(wù),也涵蓋線上線下渠道在內(nèi)的渠道經(jīng)營(yíng)相關(guān)信息,所服務(wù)的客戶涉及個(gè)人客戶、家庭客戶和政企客戶。電信行業(yè)在發(fā)展大數(shù)據(jù)上有明顯的優(yōu)勢(shì),主要體現(xiàn)在數(shù)據(jù)規(guī)模大、數(shù)據(jù)應(yīng)用價(jià)值持續(xù)凸顯、數(shù)據(jù)安全性普遍較高。如今,三大運(yùn)營(yíng)商均已完成全集團(tuán)大數(shù)據(jù)平臺(tái)的建設(shè),設(shè)立了專業(yè)的大數(shù)據(jù)運(yùn)營(yíng)部門或公司,開始了數(shù)據(jù)價(jià)值釋放的新舉措,在大數(shù)據(jù)應(yīng)用方面都走向了更加專業(yè)化的階段。1.4.2電信與交通行業(yè)1通過車載終端提供的數(shù)據(jù)使得公司總部能夠有效跟蹤定位車輛位置,進(jìn)而能夠有效實(shí)現(xiàn)對(duì)車輛的監(jiān)督管理和行車線路優(yōu)化,更好地實(shí)現(xiàn)交通安全、暢通等目的。車輛定位
基于實(shí)時(shí)交通報(bào)告可以實(shí)測(cè)和預(yù)測(cè)擁堵。當(dāng)交通管理人員發(fā)現(xiàn)某地即將發(fā)生交通擁堵時(shí),可以及時(shí)調(diào)整信號(hào)燈讓車流以最高效率運(yùn)行。運(yùn)輸公司通過部署一系列的運(yùn)輸大數(shù)據(jù)應(yīng)用,能夠采集到包括油耗、胎壓等在內(nèi)的多種數(shù)據(jù),并通過分析這些數(shù)據(jù)來優(yōu)化車隊(duì)管理、降低能耗,節(jié)省大量的運(yùn)營(yíng)成本。1.4大數(shù)據(jù)的行業(yè)應(yīng)用交通行業(yè)23信息收集交通調(diào)控1.4.2電信與交通行業(yè)1.4大數(shù)據(jù)的行業(yè)應(yīng)用金融機(jī)構(gòu)具有龐大的客戶群體,企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)了覆蓋客戶、賬戶、產(chǎn)品、交易等的大量結(jié)構(gòu)化數(shù)據(jù),以及海量的語音、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)背后都蘊(yùn)藏了諸如客戶偏好、社會(huì)關(guān)系、消費(fèi)習(xí)慣等豐富全面的信息資源,成為金融行業(yè)數(shù)據(jù)應(yīng)用的重要基礎(chǔ)。1.4.3金融與教育行業(yè)金融行業(yè)應(yīng)用范圍金融大數(shù)據(jù)已在交易欺詐識(shí)別、精準(zhǔn)營(yíng)銷、黑產(chǎn)防范、信貸風(fēng)險(xiǎn)評(píng)估、供應(yīng)鏈金融、股市行情預(yù)測(cè)等多領(lǐng)域的具體業(yè)務(wù)中得到廣泛應(yīng)用。國(guó)內(nèi)不少銀行、保險(xiǎn)公司都已建立大數(shù)據(jù)平臺(tái),并通過大數(shù)據(jù)來驅(qū)動(dòng)業(yè)務(wù)運(yùn)營(yíng)。1.4大數(shù)據(jù)的行業(yè)應(yīng)用大數(shù)據(jù)在教育行業(yè)的應(yīng)用包括優(yōu)化教學(xué)管理、學(xué)生管理、教學(xué)內(nèi)容、教學(xué)手段、教學(xué)評(píng)價(jià)等。1.4.3金融與教育行業(yè)教育行業(yè)例如,基于網(wǎng)絡(luò)的學(xué)習(xí)平臺(tái)能記錄學(xué)生的作業(yè)完成情況、課堂言行、師生互動(dòng)等數(shù)據(jù),如果將這些數(shù)據(jù)匯集起來,就可以分析出學(xué)生的學(xué)習(xí)特點(diǎn)和習(xí)慣,從而對(duì)不同學(xué)生的學(xué)習(xí)提出有針對(duì)性的建議。同時(shí),這些數(shù)據(jù)也可促使教師進(jìn)行教學(xué)反思,從而優(yōu)化教學(xué)。1.4大數(shù)據(jù)的行業(yè)應(yīng)用1.4.3金融與教育行業(yè)教育行業(yè)電子科技大學(xué)曾經(jīng)做過一個(gè)課題——尋找校園最孤獨(dú)的人。他們通過校園一卡通的使用情況,從3萬名學(xué)生中采集到了2億多條行為數(shù)據(jù),包括選課、進(jìn)出圖書館、食堂用餐、超市購(gòu)物等數(shù)據(jù)。通過對(duì)校園一卡通“一前一后刷卡”的記錄分析,可以發(fā)現(xiàn)一個(gè)學(xué)生在學(xué)校有多少知心朋友。他們通過此方式找到了800多個(gè)校園中最孤獨(dú)的人,這些人中有17%可能產(chǎn)生心理疾病,需要學(xué)校和家長(zhǎng)予以重點(diǎn)關(guān)愛。隨著醫(yī)療信息化的普及和快速發(fā)展,健康醫(yī)療數(shù)據(jù)已經(jīng)具備大數(shù)據(jù)的基本特征。通過對(duì)健康醫(yī)療數(shù)據(jù)的處理和分析,不僅能夠幫助醫(yī)生進(jìn)行疾病診斷和經(jīng)營(yíng)決策,幫助患者享受更加便利的服務(wù),還能夠預(yù)測(cè)流行疾病的暴發(fā)趨勢(shì)、降低醫(yī)療成本等。1.4大數(shù)據(jù)的行業(yè)應(yīng)用健康醫(yī)療行業(yè)1.4.4健康醫(yī)療行業(yè)1.4大數(shù)據(jù)的行業(yè)應(yīng)用健康醫(yī)療行業(yè)大數(shù)據(jù)在健康醫(yī)療行業(yè)的應(yīng)用,包括疾病預(yù)防、臨床應(yīng)用、遠(yuǎn)程醫(yī)療、醫(yī)學(xué)研究、醫(yī)院管理等。1.4.4健康醫(yī)療行業(yè)應(yīng)用范圍例如,利用大數(shù)據(jù)平臺(tái)收集不同的病例、治療方案和治療效果,建立針對(duì)疾病特點(diǎn)的數(shù)據(jù)庫(kù)。醫(yī)生診斷病人時(shí)可以利用疾病數(shù)據(jù)庫(kù)和相關(guān)工具分析病人的疾病特征、化驗(yàn)報(bào)告和檢測(cè)報(bào)告,從而快速為病人確診,并制定適合病人的治療方案。在我國(guó),政府部門掌握著全社會(huì)最大量、最核心的數(shù)據(jù)。有效地利用這些數(shù)據(jù),可以讓政府治理與決策更加精細(xì)化、科學(xué)化,可以幫助政府將與民眾的溝通建立在科學(xué)的數(shù)據(jù)分析之上,優(yōu)化公共服務(wù)流程,簡(jiǎn)化公共服務(wù)步驟,提升公共服務(wù)質(zhì)量。1.4大數(shù)據(jù)的行業(yè)應(yīng)用1.4.5政務(wù)管理行業(yè)政務(wù)管理行業(yè)1.4大數(shù)據(jù)的行業(yè)應(yīng)用在城市規(guī)劃方面,通過對(duì)城市地理、氣象等自然信息,和經(jīng)濟(jì)、社會(huì)、文化、人口等人文社會(huì)信息的挖掘,可以為城市規(guī)劃提供強(qiáng)大的決策支持,強(qiáng)化城市管理服務(wù)的科學(xué)性和前瞻性。1.4.5政務(wù)管理行業(yè)政務(wù)管理行業(yè)應(yīng)用范圍利用大數(shù)據(jù)技術(shù)可以抓取氣象局、地震局的氣象歷史數(shù)據(jù)、星云圖變化歷史數(shù)據(jù),以及城建局、規(guī)劃局的城市規(guī)劃、房屋結(jié)構(gòu)數(shù)據(jù)等,然后構(gòu)建大氣運(yùn)動(dòng)規(guī)律評(píng)估模型、氣象變化關(guān)聯(lián)性分析模型等,從而精準(zhǔn)地預(yù)測(cè)氣象變化,尋找最佳的救災(zāi)解決方案。05大數(shù)據(jù)與其他新興技術(shù)的關(guān)系
近些年,以大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)和人工智能等技術(shù)為核心的新一代信息技術(shù)高速發(fā)展,在助力解決各行業(yè)現(xiàn)實(shí)需求、培育新業(yè)態(tài)、形成經(jīng)濟(jì)發(fā)展新動(dòng)能方面發(fā)揮了重要作用。大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)和人工智能,代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢(shì),它們彼此滲透、相互融合,既有區(qū)別又有聯(lián)系。1.5大數(shù)據(jù)與其他新興技術(shù)的關(guān)系云計(jì)算實(shí)現(xiàn)了通過網(wǎng)絡(luò)提供可伸縮的、廉價(jià)的分布式計(jì)算能力,用戶只需要在具備網(wǎng)絡(luò)接入條件的地方,就可以隨時(shí)獲得所需的各種IT資源。它代表了以虛擬化技術(shù)為核心、以低成本為目標(biāo)的動(dòng)態(tài)可擴(kuò)展的網(wǎng)絡(luò)應(yīng)用基礎(chǔ)設(shè)施,是如今最有代表性的網(wǎng)絡(luò)計(jì)算技術(shù)與模式。云計(jì)算1.5大數(shù)據(jù)與其他新興技術(shù)的關(guān)系物聯(lián)網(wǎng)物聯(lián)網(wǎng)(IoT)是指通過信息傳感設(shè)備,按照約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)連接起來,進(jìn)行信息交換和通信,以實(shí)現(xiàn)智能化識(shí)別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò)。它是在互聯(lián)網(wǎng)基礎(chǔ)上延伸和擴(kuò)展的網(wǎng)絡(luò),即萬物相連的互聯(lián)網(wǎng)。1.5大數(shù)據(jù)與其他新興技術(shù)的關(guān)系人工智能人工智能(AI)是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門技術(shù)科學(xué)。具體來說,人工智能就是讓機(jī)器像人類一樣具有感知能力、學(xué)習(xí)能力、思考能力、溝通能力、判斷能力等,從而更好地為人類服務(wù)。1.5大數(shù)據(jù)與其他新興技術(shù)的關(guān)系大數(shù)據(jù)和云計(jì)算的關(guān)系1.5大數(shù)據(jù)與其他新興技術(shù)的關(guān)系大數(shù)據(jù)和云計(jì)算的關(guān)系從技術(shù)上來看,就像一枚硬幣的正反面一樣密不可分。由于大數(shù)據(jù)需要使用大量的計(jì)算機(jī)進(jìn)行處理,如果由企業(yè)自己部署這些硬件設(shè)備和軟件,不僅投入成本高、技術(shù)難度大,而且會(huì)造成資源浪費(fèi),因此最好的措施是依托云計(jì)算進(jìn)行處理;反過來,如果沒有大數(shù)據(jù),云計(jì)算的用武之地也會(huì)大大減少。06實(shí)戰(zhàn)演練使用PowerBI分析產(chǎn)品銷售情況1.6實(shí)戰(zhàn)演練——使用PowerBI分析產(chǎn)品銷售情況PowerBI是微軟推出的商業(yè)智能分析工具,它融合了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、數(shù)據(jù)可視化到報(bào)告協(xié)作分享的整個(gè)數(shù)據(jù)處理流程,可以幫助用戶快速上手?jǐn)?shù)據(jù)分析。我們通過將圖書銷售表以餅圖和簇狀柱形圖報(bào)表形式顯示,體驗(yàn)使用PowerBI進(jìn)行大數(shù)據(jù)分析與可視化展現(xiàn)的一般過程。Thanks第2章大數(shù)據(jù)處理平臺(tái)Hadoop大數(shù)據(jù)技術(shù)基礎(chǔ)(第2版)PREFACE本章導(dǎo)讀海量數(shù)據(jù)的存儲(chǔ)、處理和分析是大多數(shù)企業(yè)普遍遇到的問題,Hadoop的出現(xiàn)有效地解決了數(shù)據(jù)存儲(chǔ)規(guī)模大、存儲(chǔ)管理復(fù)雜、數(shù)據(jù)傳輸效率低和計(jì)算速度慢等難題。Hadoop是一個(gè)開源的分布式系統(tǒng)基礎(chǔ)架構(gòu),它可以使用戶在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。01Hadoop及其生態(tài)系統(tǒng)02Hadoop的運(yùn)行模式03安裝部署Hadoop集群04實(shí)戰(zhàn)演練——在Eclipse中搭建Hadoop開發(fā)環(huán)境CATALOG知識(shí)目標(biāo)04熟悉Hadoop的集群環(huán)境準(zhǔn)備工作。03了解Hadoop的三種運(yùn)行模式。02熟悉Hadoop生態(tài)系統(tǒng)。01了解Hadoop的概念、特性和發(fā)展歷程。010203能力目標(biāo)04能夠完成Hadoop的偽分布式安裝。能夠?qū)汗?jié)點(diǎn)進(jìn)行基本環(huán)境配置。能夠在Eclipse中搭建Hadoop開發(fā)環(huán)境。能夠在Eclipse開發(fā)環(huán)境中對(duì)已有Hadoop集群進(jìn)行HDFS文件管理。思政目標(biāo)01.增強(qiáng)憂患意識(shí)、風(fēng)險(xiǎn)意識(shí)和責(zé)任意識(shí),充分認(rèn)識(shí)新形勢(shì)下科技自立自強(qiáng)的;緊迫性、必要性和重要意義,心懷“國(guó)之大者”,爭(zhēng)做“國(guó)之大才”。02.腳踏實(shí)地,勇于創(chuàng)新,與時(shí)俱進(jìn),在實(shí)踐中練就過硬本領(lǐng)、錘煉品德修為,立志為國(guó)家科技自立自強(qiáng)、加快解決“卡脖子”難題等做出貢獻(xiàn)。01Hadoop及其生態(tài)系統(tǒng)2.1Hadoop及其生態(tài)系統(tǒng)Hadoop使用的開發(fā)語言是Java,主要運(yùn)行于Linux平臺(tái)。它是一個(gè)允許使用簡(jiǎn)單編程模型跨計(jì)算機(jī)集群分布式處理大型數(shù)據(jù)集的系統(tǒng),通過它可以方便地管理分布式集群,將海量數(shù)據(jù)分布式地存儲(chǔ)在集群中,并使用分布式并行程序來處理這些數(shù)據(jù)。2.1.1Hadoop簡(jiǎn)介什么是Hadoop2.1Hadoop及其生態(tài)系統(tǒng)Hadoop是對(duì)Google的文件系統(tǒng)GFS(Googlefilesystem)和分布式計(jì)算框架MapReduce等核心技術(shù)的開源實(shí)現(xiàn)。Hadoop架構(gòu)的核心是HDFS(Hadoopdistributedfilesystem)和HadoopMapReduce,它們分別用于支持海量數(shù)據(jù)的存儲(chǔ)和并行計(jì)算。2.1.1Hadoop簡(jiǎn)介什么是HadoopHadoop的特性2.1Hadoop及其生態(tài)系統(tǒng)010203Hadoop采用冗余數(shù)據(jù)存儲(chǔ)方式,當(dāng)其中一個(gè)副本發(fā)生故障時(shí),其他副本也可以保證集群正常對(duì)外提供服務(wù)。高可靠性。Hadoop實(shí)現(xiàn)了線性擴(kuò)展,可以從單個(gè)服務(wù)器擴(kuò)展到數(shù)千臺(tái)計(jì)算機(jī),并且每臺(tái)計(jì)算機(jī)都提供了數(shù)據(jù)存儲(chǔ)和計(jì)算。高擴(kuò)展性。Hadoop具有HDFS、MapReduce和YARN等核心組件,能夠高效地并行處理PB級(jí)數(shù)據(jù)。高效性。2.1.1Hadoop簡(jiǎn)介2.1Hadoop及其生態(tài)系統(tǒng)0506Hadoop的NameNode包括active和standby兩種狀態(tài),通過故障轉(zhuǎn)移機(jī)制(即當(dāng)activeNameNode意外終止時(shí),快速啟用standbyNameNode)可保證HDFS的高可用性。高可用性。Hadoop可以使用廉價(jià)計(jì)算機(jī)搭建集群,從而大大降低了硬件成本,普通用戶也可以使用自己的個(gè)人計(jì)算機(jī)搭建和運(yùn)行Hadoop。低成本。2.1.1Hadoop簡(jiǎn)介04Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。高容錯(cuò)性。Hadoop的特性2.1Hadoop及其生態(tài)系統(tǒng)070809Hadoop能夠較好地運(yùn)行在Linux平臺(tái),也可以在Windows和macOS等平臺(tái)下搭建Hadoop環(huán)境。多平臺(tái)運(yùn)行。Hadoop主要使用Java語言開發(fā),不過,用戶也可以使用其他編程語言(如C++、Python)開發(fā)基于Hadoop的應(yīng)用程序。支持多種編程語言。Hadoop盡可能在計(jì)算節(jié)點(diǎn)上存儲(chǔ)數(shù)據(jù),以實(shí)現(xiàn)數(shù)據(jù)本地化和快速訪問數(shù)據(jù)的目的。數(shù)據(jù)本地化。2.1.1Hadoop簡(jiǎn)介Hadoop的特性2.1Hadoop及其生態(tài)系統(tǒng)Hadoop的發(fā)展歷程STEP01STEP03STEP02STEP042002年DougCutting等人創(chuàng)建了開源網(wǎng)絡(luò)搜索引擎Nutch,該引擎包括了網(wǎng)頁(yè)抓取、索引、查詢等功能。2005年Nutch將所有主要算法移植到了由NDFSMapReduce構(gòu)建的新框架中,在20個(gè)節(jié)點(diǎn)上可以穩(wěn)定運(yùn)行。2004年提出MapReduce模式能夠解決大型分布式并行計(jì)算問題,可用于處理海量網(wǎng)頁(yè)的索引問題。2003年Google搜索引擎網(wǎng)頁(yè)相關(guān)數(shù)據(jù)的存儲(chǔ)架構(gòu),該架構(gòu)可解決Nutch遇到的網(wǎng)頁(yè)抓取和索引過程中產(chǎn)生的超大文件存儲(chǔ)需求的問題。2.1.1Hadoop簡(jiǎn)介2.1Hadoop及其生態(tài)系統(tǒng)Hadoop的發(fā)展歷程STEP05STEP06STEP072006年NDFS和MapReduce被移出Nutch,并成為L(zhǎng)ucene的一個(gè)子項(xiàng)目,命名為Hadoop。2.1.1Hadoop簡(jiǎn)介2007年《紐約時(shí)報(bào)》將存檔的報(bào)紙掃描成4TB的圖片文件,并通過運(yùn)行在亞馬遜EC2云服務(wù)上的Hadoop應(yīng)用程序,將圖片文件轉(zhuǎn)換為用于網(wǎng)上共享的PDF文檔。2008年1月Hadoop成為Apache的頂級(jí)項(xiàng)目,迎來了快速發(fā)展期。2.1Hadoop及其生態(tài)系統(tǒng)STEP08STEP10STEP092009年4月Yahoo!再次對(duì)1TB數(shù)據(jù)進(jìn)行排序,此次耗時(shí)縮短至62s。2008年8月Facebook公司在Hadoop架構(gòu)的基礎(chǔ)上創(chuàng)建了數(shù)據(jù)倉(cāng)庫(kù)工具Hive。2008年6月Facebook、Google和Yahoo!的前工程師JeffHammerbacher、ChristopheBisciglia、AmrAwadallah,以及Oracle前高管MikeOlson共同創(chuàng)建了Hadoop數(shù)據(jù)管理軟件與服務(wù)公司Cloudera。2.1.1Hadoop簡(jiǎn)介Hadoop的發(fā)展歷程2.1Hadoop及其生態(tài)系統(tǒng)STEP12STEP11STEP132018年10月大數(shù)據(jù)領(lǐng)域的兩大巨頭公司Cloudera和Hortonworks宣布平等合并,表示要?jiǎng)?chuàng)建世界領(lǐng)先的數(shù)據(jù)平臺(tái)。2008年-2011年MapReduce、HDFS、Avro、HBase、Hive、Pig、ZooKeeper先后脫離Hadoop,成為Apache的頂級(jí)項(xiàng)目。2011年6月Yahoo!BenchmarkCapital公司聯(lián)合成立了Hortonworks公司。2.1.1Hadoop簡(jiǎn)介Hadoop的發(fā)展歷程2.1Hadoop及其生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)2.1.2Hadoop生態(tài)系統(tǒng)2.1Hadoop及其生態(tài)系統(tǒng)01HDFSHDFS是Hadoop的核心組成框架,在大數(shù)據(jù)開發(fā)中通過分布式計(jì)算對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)和管理。02MapReduceMapReduce是Hadoop的另一個(gè)核心組成框架,它是一種容錯(cuò)的、可靠的、分布式并行計(jì)算模型,用來解決海量數(shù)據(jù)的計(jì)算問題。03YARNYARN是一個(gè)通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。2.1.2Hadoop生態(tài)系統(tǒng)2.1Hadoop及其生態(tài)系統(tǒng)04ZooKeeperZooKeeper是一種適用于大型分布式應(yīng)用的高性能協(xié)調(diào)服務(wù),源自Google的論文“TheChubbylockserviceforloosely-coupleddistributedsystems”,是對(duì)GoogleChubby的開源實(shí)現(xiàn)。05HiveHive最初由Facebook開發(fā),是構(gòu)建在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)工具,它可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表。2.1.2Hadoop生態(tài)系統(tǒng)06HbaseHBase是一個(gè)基于HDFS的面向列的分布式數(shù)據(jù)庫(kù),可以實(shí)現(xiàn)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)集的實(shí)時(shí)隨機(jī)讀寫。2.1Hadoop及其生態(tài)系統(tǒng)07SqoopSqoop(SQL-to-Hadoop)是數(shù)據(jù)ETL(extract-transform-load,抽取、轉(zhuǎn)換和加載)工具。08FlumeFlume由Cloudera公司開發(fā),是Apache軟件基金會(huì)的一個(gè)頂級(jí)項(xiàng)目。09KafkaKafka是一個(gè)高吞吐量的分布式發(fā)布與訂閱消息系統(tǒng),由LinkedIn開源實(shí)現(xiàn),它可以處理消費(fèi)者規(guī)模網(wǎng)站中的所有動(dòng)作數(shù)據(jù),包括網(wǎng)頁(yè)瀏覽、搜索等。10SparkSpark是基于內(nèi)存的分布式計(jì)算框架,最初由加州大學(xué)伯克利分校的AMPLab研發(fā),可用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。2.1.2Hadoop生態(tài)系統(tǒng)02Hadoop的運(yùn)行模式2.2Hadoop的運(yùn)行模式2.2.1單機(jī)模式單機(jī)模式又叫本地模式,即只在一臺(tái)機(jī)器上安裝Hadoop,其屬于默認(rèn)安裝模式,無須進(jìn)行其他配置就可以運(yùn)行Hadoop。該模式主要用于MapReduce應(yīng)用程序的調(diào)試,沒有使用分布式文件系統(tǒng)HDFS,也不會(huì)加載進(jìn)程。2.2Hadoop的運(yùn)行模式2.2.2偽分布式模式偽分布式模式同樣是運(yùn)行在一臺(tái)機(jī)器上,其增加了代碼調(diào)試功能,包括5個(gè)進(jìn)程(NameNode、SecondaryNameNode、DataNode、ResourceManager和NodeManager),即在一臺(tái)機(jī)器上模擬分布式,主要用于測(cè)試,這種模式對(duì)開發(fā)非常有用。2.2Hadoop的運(yùn)行模式2.2.2偽分布式模式
偽分布式模式存儲(chǔ)采用分布式文件系統(tǒng)HDFS,同一節(jié)點(diǎn)既作為元數(shù)據(jù)節(jié)點(diǎn)NameNode,又作為數(shù)據(jù)節(jié)點(diǎn)DataNode。Hadoop啟動(dòng)上述5個(gè)進(jìn)程,這些守護(hù)進(jìn)程全部在同一臺(tái)機(jī)器上運(yùn)行,是相互獨(dú)立的Java進(jìn)程。2.2Hadoop的運(yùn)行模式2.2.3完全分布式模式完全分布式模式又叫集群模式,它由兩臺(tái)及兩臺(tái)以上的機(jī)器組成,是真正的分布式。2.2Hadoop的運(yùn)行模式2.2.3完全分布式模式Hadoop的守護(hù)進(jìn)程運(yùn)行在由多臺(tái)主機(jī)搭建的集群上,是真正的生產(chǎn)環(huán)境。其存儲(chǔ)采用分布式文件系統(tǒng)HDFS。集群中的節(jié)點(diǎn)可以分成兩大類角色:master和slave,由一個(gè)NameNode和若干DataNode組成。其中,NameNode作為主服務(wù)器,管理文件系統(tǒng)的命名空間和客戶端對(duì)文件系統(tǒng)的訪問;集群中的DataNode管理存儲(chǔ)的數(shù)據(jù)。03安裝部署Hadoop集群2.3安裝部署Hadoop集群Hadoop偽分布式安裝是指在一臺(tái)機(jī)器上模擬一個(gè)小的集群,但是集群中只有一個(gè)節(jié)點(diǎn)。它通過多個(gè)線程模擬多臺(tái)真實(shí)機(jī)器,即模擬真實(shí)的分布式環(huán)境。也就是說,Hadoop可以在單節(jié)點(diǎn)上以偽分布的方式運(yùn)行,Hadoop進(jìn)程以分離的Java進(jìn)程來運(yùn)行,節(jié)點(diǎn)既是NameNode又是DataNode,并且讀取的是HDFS中的文件。2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境5配置SSH免密碼登錄本地節(jié)點(diǎn)(hadoop0)。4配置主機(jī)IP映射(修改hosts文件,添加“00hadoop0”。3安裝和配置JDK。2關(guān)閉防火墻和新建安裝目錄。1修改主機(jī)名和設(shè)置固定IP(主機(jī)名:hadoop0;固定IP:00)。在VMwareWorkstation軟件中創(chuàng)建一個(gè)虛擬機(jī)并安裝好CentOS7用root用戶進(jìn)行登錄對(duì)虛擬機(jī)系統(tǒng)進(jìn)行基本環(huán)境配置2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境修改主機(jī)名在CentOS系統(tǒng)下打開命令行終端,執(zhí)行以下命令,查看當(dāng)前的主機(jī)名:#hostname步驟執(zhí)行以下命令,修改hostname文件,將其內(nèi)容改為要使用的主機(jī)名:#vim/etc/hostname步驟執(zhí)行以下命令,修改hostname文件,將其內(nèi)容改為要使用的主機(jī)名:#vim/etc/hostname步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境設(shè)置固定IP打開命令行終端,執(zhí)行以下命令,可以查看本機(jī)的網(wǎng)卡配置與網(wǎng)絡(luò)狀態(tài)等信息:#ifconfig步驟執(zhí)行以下命令,修改網(wǎng)卡配置文件ifcfg-ens33:#vim/etc/sysconfig/network-scripts/ifcfg-ens33步驟修改完成后,需執(zhí)行以下命令重啟網(wǎng)絡(luò)服務(wù),使修改生效:#servicenetworkrestart步驟在命令行終端用ping命令測(cè)試本機(jī)與宿主主機(jī)是否可以連通。注意,要終止ping操作,需要按“Ctrl+C”組合鍵。步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境關(guān)閉防火墻打開命令行終端,執(zhí)行以下命令,查看防火墻當(dāng)前的運(yùn)行狀態(tài)(默認(rèn)為running):#firewall-cmd--state或#systemctlstatusfirewalld.service步驟執(zhí)行以下命令,關(guān)閉防火墻(運(yùn)行狀態(tài)變?yōu)閚otrunning):#systemctlstopfirewalld.service步驟執(zhí)行以下命令,禁止防火墻開機(jī)啟動(dòng):#systemctldisablefirewalld.service步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境安裝和配置JDK通過頁(yè)面https:///java/technologies/javase/javase8u211-later-archive-downloads.html下載JDK安裝包jdk-8u211-linux-x64.tar.gz(下載時(shí)需要登錄Oracle賬戶)步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境安裝和配置JDKCentOS7系統(tǒng)預(yù)裝了OpenJDK(可執(zhí)行“rpm-qa|grepopenjdk”命令,查詢系統(tǒng)已安裝的OpenJDK),如圖所示,但該版本的JDK功能通常有所精簡(jiǎn)。為避免系統(tǒng)默認(rèn)使用OpenJDK,需要先將其卸載,然后再安裝要使用的標(biāo)準(zhǔn)版JDK8u211。步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境安裝和配置JDK將下載得到的JDK安裝包jdk-8u211-linux-x64.tar.gz上傳到虛擬機(jī)的“/opt/packages”目錄下,然后執(zhí)行以下命令進(jìn)入該目錄(此時(shí)可通過“l(fā)s”命令查看安裝包是否存在):#cd/opt/packages步驟步驟執(zhí)行以下命令,將jdk-8u211-linux-x64.tar.gz解壓到目錄“/opt/programs”下:#tar-zxvfjdk-8u211-linux-x64.tar.gz-C/opt/programs步驟執(zhí)行以下命令修改文件“/etc/profile”,配置JDK系統(tǒng)環(huán)境變量:#vim/etc/profile52.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境安裝和配置JDK步驟執(zhí)行以下命令,刷新profile文件,使修改生效:#source/etc/profile6步驟執(zhí)行“java-version”命令,若能輸出以下JDK版本信息,則說明安裝成功:javaversion"1.8.0_211"Java(TM)SERuntimeEnvironment(build1.8.0_211-b12)JavaHotSpot(TM)64-BitServerVM(build25.211-b12,mixedmode)72.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境配置主機(jī)IP映射啟動(dòng)虛擬機(jī)(節(jié)點(diǎn))hadoop0。步驟執(zhí)行以下命令,修改hosts文件:#vim/etc/hosts步驟使用ping命令測(cè)試是否配置成功:#pinghadoop0步驟2.3安裝部署Hadoop集群2.3.1準(zhǔn)備集群環(huán)境配置SSH免密碼登錄本地節(jié)點(diǎn)在節(jié)點(diǎn)hadoop0中執(zhí)行以下命令,生成密鑰文件:#ssh-keygen步驟在節(jié)點(diǎn)hadoop0中執(zhí)行一遍以下命令,將自身的公鑰信息復(fù)制并追加到本節(jié)點(diǎn)的授權(quán)文件authorized_keys中(在命令執(zhí)行過程中需要確認(rèn)連接及輸入用戶密碼):#ssh-copy-idhadoop0步驟在節(jié)點(diǎn)hadoop0中用以下命令測(cè)試SSH免密碼登錄:#sshhadoop0步驟2.3安裝部署Hadoop集群2.3.2安裝Hadoop0201
通過頁(yè)https:///dist/hadoop/core/hadoop-2.7.6/下載Hadoop安裝包hadoop2.7.6.tar.gz。使用WinSCP軟件將下載的Hadoop安裝包hadoop-2.7.6.tar.gz上傳到hadoop0節(jié)點(diǎn)的“/opt/packages”目錄下,然后執(zhí)行以下命令進(jìn)入該目錄:#cd/opt/packages2.3安裝部署Hadoop集群2.3.2安裝Hadoop0403執(zhí)行以下命令,將hadoop-2.7.6.tar.gz解壓到目錄“/opt/programs”下:#tar-zxvfhadoop-2.7.6.tar.gz-C/opt/programs進(jìn)入“/opt/programs/hadoop-2.7.6/etc/hadoop”目錄,依次修改配置文件core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves、hadoop-env.sh。2.3安裝部署Hadoop集群2.3.2安裝Hadoop0605修改文件“/etc/profile”,配置Hadoop環(huán)境變量:#vim/etc/profile
執(zhí)行以下命令,格式化HDFS:#hdfsnamenode-format2.3安裝部署Hadoop集群2.3.2安裝Hadoop0807
依次執(zhí)行以下命令,啟動(dòng)HDFS和YARN:#start-dfs.sh#start-yarn.sh執(zhí)行“jps”命令,查看啟動(dòng)的Hadoop相關(guān)進(jìn)程:#jps9649Jps9042NameNode9139DataNode9605NodeManager9338SecondaryNameNode9503ResourceManager2.3安裝部署Hadoop集群2.3.2安裝Hadoop09在宿主主機(jī)的瀏覽器中訪問“00:50070/”,頁(yè)面會(huì)顯示“'hadoop0:9000'(active)”.04實(shí)戰(zhàn)演練在Eclipse中搭建Hadoop開發(fā)環(huán)境2.4實(shí)戰(zhàn)演練——在Eclipse中搭建Hadoop開發(fā)環(huán)境盡管開發(fā)Hadoop程序可以采用不同的開發(fā)工具和開發(fā)語言,但Eclipse和Java是當(dāng)前的主流。之所以采用Eclipse作為開發(fā)工具,是因?yàn)樗鼘?shí)現(xiàn)了開發(fā)環(huán)境的圖形化,降低了編程難度。Eclipse支持多種平臺(tái),除了Windows平臺(tái)外,用戶也可以選擇在Linux平臺(tái)搭建Eclipse開發(fā)環(huán)境。由于Hadoop開發(fā)是基于Java語言的,因此需要先安裝和配置JDK,然后再在Eclipse開發(fā)工具中配置Hadoop開發(fā)環(huán)境。2.4.1在Windows中安裝和配置JDK2.4實(shí)戰(zhàn)演練——在Eclipse中搭建Hadoop開發(fā)環(huán)境我們先在Windows中下載和啟動(dòng)Eclipse開發(fā)工具,然后為其安裝和配置Maven插件及Hadoop插件,并在Eclipse開發(fā)環(huán)境中新建一個(gè)Hadoop集群連接,最后在搭建好的Hadoop開發(fā)環(huán)境中演示一個(gè)簡(jiǎn)單的單詞統(tǒng)計(jì)程序。2.4.2在Windows中安裝和配置EclipseThanks第3章數(shù)據(jù)采集與預(yù)處理大數(shù)據(jù)技術(shù)基礎(chǔ)(第2版)PREFACE本章導(dǎo)讀大數(shù)據(jù)蘊(yùn)藏著巨大價(jià)值,在海量數(shù)據(jù)面前,采集與預(yù)處理是首先需要做的事情,它直接決定了后續(xù)環(huán)節(jié)分析結(jié)果的質(zhì)量。通過數(shù)據(jù)采集,可以獲取Web數(shù)據(jù)、日志數(shù)據(jù)、業(yè)務(wù)系統(tǒng)數(shù)據(jù)、傳感器數(shù)據(jù)等,這為數(shù)據(jù)的進(jìn)一步處理提供了基礎(chǔ)和前提條件。通常,采集得到的數(shù)據(jù)還需要進(jìn)行預(yù)處理(如數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等),這樣有助于通過后續(xù)分析得出可靠的結(jié)論。01數(shù)據(jù)采集02網(wǎng)絡(luò)爬蟲技術(shù)03數(shù)據(jù)預(yù)處理04實(shí)戰(zhàn)演練——用八爪魚工具采集并預(yù)處理房源數(shù)據(jù)CATALOG知識(shí)目標(biāo)04了解網(wǎng)絡(luò)爬蟲的概念、原理、分類及應(yīng)用。03了解分布式發(fā)布與訂閱消息系統(tǒng)Kafka。02了解常用的日志采集系統(tǒng)和ETL工具。01了解數(shù)據(jù)的主要來源和常用的數(shù)據(jù)采集方法。知識(shí)目標(biāo)08了解數(shù)據(jù)脫敏的概念、原則和方法。07了解數(shù)據(jù)預(yù)處理的概念和基本過程。06理解網(wǎng)絡(luò)爬蟲工具的工作流程。05熟悉國(guó)內(nèi)比較常用的網(wǎng)絡(luò)爬蟲工具。0102能力目標(biāo)能夠根據(jù)實(shí)際情況對(duì)采集到的數(shù)據(jù)進(jìn)行簡(jiǎn)單的預(yù)處理。能夠根據(jù)需要使用網(wǎng)絡(luò)爬蟲工具對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集。思政目標(biāo)感受我國(guó)在運(yùn)用大數(shù)據(jù)保障和改善民生方面的改革創(chuàng)新舉措,如重要產(chǎn)品追溯體系建設(shè)、農(nóng)業(yè)農(nóng)村數(shù)據(jù)采集體系建設(shè)等,不斷拓寬知識(shí)視野,提升專業(yè)能力和社會(huì)責(zé)任感,立志讓大數(shù)據(jù)在強(qiáng)化民生服務(wù)、彌補(bǔ)民生短板上發(fā)揮更大作用。01數(shù)據(jù)采集3.1數(shù)據(jù)采集對(duì)數(shù)據(jù)進(jìn)行采集是大數(shù)據(jù)應(yīng)用生命周期中的第一個(gè)環(huán)節(jié),通常是使用ETL(抽取、轉(zhuǎn)換和加載)工具將分布的、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù)(如傳感器、社交網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)等平臺(tái)上各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的數(shù)據(jù))抽取到臨時(shí)中間層,然后對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中的過程。3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集內(nèi)部數(shù)據(jù)內(nèi)部數(shù)據(jù)來源于企業(yè)(或機(jī)構(gòu))的內(nèi)部,由內(nèi)部運(yùn)作經(jīng)營(yíng)而產(chǎn)生外部數(shù)據(jù)外部數(shù)據(jù)則來源于企業(yè)(或機(jī)構(gòu))的外部,如通過交換、購(gòu)買等方式獲取的數(shù)據(jù)等。數(shù)據(jù)源的分類010203指己方單位自己和消費(fèi)者、用戶、目標(biāo)客戶群交互產(chǎn)生的數(shù)據(jù),具有高質(zhì)量、高價(jià)值等特性,但易局限于既有顧客數(shù)據(jù)。第一方數(shù)據(jù)指取自第一方的數(shù)據(jù),第二方通常與第一方具有合作、聯(lián)盟或契約關(guān)系,因此可共享或采購(gòu)第一方數(shù)據(jù)。第二方數(shù)據(jù)若提供數(shù)據(jù)的來源單位并非產(chǎn)出該數(shù)據(jù)的原始者,該數(shù)據(jù)即第三方數(shù)據(jù)。第三方數(shù)據(jù)3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集大數(shù)據(jù)的主要來源3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集1.Web數(shù)據(jù)Web數(shù)據(jù)的采集通常借助于網(wǎng)絡(luò)爬蟲來完成。網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是一種按照一定規(guī)則自動(dòng)地抓取Web數(shù)據(jù)的程序或腳本。網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)時(shí),首先抓取互聯(lián)網(wǎng)的網(wǎng)頁(yè),然后從抓取的網(wǎng)頁(yè)中解析有用的結(jié)構(gòu)化信息。網(wǎng)絡(luò)爬蟲支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。大數(shù)據(jù)的主要來源3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集2.日志文件企業(yè)的業(yè)務(wù)平臺(tái)每天都會(huì)產(chǎn)生大量的日志文件。日志文件日志文件一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,用于記錄數(shù)據(jù)源執(zhí)行的各種操作活動(dòng),如網(wǎng)絡(luò)監(jiān)控的流量管理、Web服務(wù)器記錄的用戶訪問行為等。大數(shù)據(jù)的主要來源3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集3.數(shù)據(jù)庫(kù)數(shù)據(jù)很多企業(yè)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)如MySQL和Oracle等存儲(chǔ)業(yè)務(wù)系統(tǒng)數(shù)據(jù),此外Redis和MongoDB等NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的存儲(chǔ)。業(yè)務(wù)數(shù)據(jù)企業(yè)每時(shí)每刻產(chǎn)生的業(yè)務(wù)數(shù)據(jù),以數(shù)據(jù)庫(kù)行記錄的形式被直接寫入數(shù)據(jù)庫(kù)。企業(yè)可以借助于ETL工具,把分散在不同位置的業(yè)務(wù)系統(tǒng)數(shù)據(jù)抽取、轉(zhuǎn)換和加載到數(shù)據(jù)倉(cāng)庫(kù),供后續(xù)的商務(wù)智能分析使用。大數(shù)據(jù)的主要來源3.1.1數(shù)據(jù)的主要來源3.1數(shù)據(jù)采集4.傳感器數(shù)據(jù)傳感器是一種檢測(cè)裝置,作為物聯(lián)網(wǎng)等攝取信息的關(guān)鍵器件,它能感受到被測(cè)量的信息,并能將感受到的信息按一定規(guī)律變換成為電信號(hào)或其他所需形式的信息輸出,以滿足信息的傳輸、處理、存儲(chǔ)、顯示、記錄和控制等要求。傳感器傳感器具有較強(qiáng)的環(huán)境適應(yīng)能力,可以在高溫、高濕、水下、密閉等惡劣環(huán)境使用。其類型也有很多,如壓力傳感器、溫度傳感器、流量傳感器、稱重傳感器、速度傳感器、生物傳感器等。平時(shí),我們用手機(jī)拍照、錄制視頻等就屬于傳感器數(shù)據(jù)采集。1.網(wǎng)絡(luò)數(shù)據(jù)采集3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或調(diào)用網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)的過程。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中提取出來,以結(jié)構(gòu)化的方式統(tǒng)一存儲(chǔ)為本地?cái)?shù)據(jù)文件,支持圖片、音頻、視頻等文件的采集,文件與正文可以自動(dòng)關(guān)聯(lián)。3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集網(wǎng)絡(luò)數(shù)據(jù)采集廣泛應(yīng)用于搜索引擎和垂直搜索(即針對(duì)某一特定行業(yè)的搜索)平臺(tái)的搭建與運(yùn)營(yíng),綜合門戶、行業(yè)門戶、地方門戶、專業(yè)門戶網(wǎng)站的數(shù)據(jù)支撐與流量運(yùn)營(yíng),電子政務(wù)與電子商務(wù)平臺(tái)的運(yùn)營(yíng),以及知識(shí)管理與知識(shí)共享等領(lǐng)域。1.網(wǎng)絡(luò)數(shù)據(jù)采集3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集2.系統(tǒng)日志采集開源日志采集系統(tǒng)01FlumeFlume是一種高可用、高可靠、分布式的海量日志采集、聚合和傳輸系統(tǒng),用于將大量日志數(shù)據(jù)從許多不同的源進(jìn)行收集、聚合,最終移動(dòng)到一個(gè)集中的數(shù)據(jù)中心進(jìn)行存儲(chǔ)。03Scribe02ChukwaChukwa是一個(gè)用于監(jiān)控大型分布式系統(tǒng)的開源數(shù)據(jù)收集系統(tǒng)。它構(gòu)建于HDFS和MapReduce框架之上,并繼承了Hadoop的可擴(kuò)展性和可靠性。Scribe是Facebook開源的日志采集系統(tǒng),它能夠從各種日志源上收集日志并存儲(chǔ)到一個(gè)中央存儲(chǔ)系統(tǒng)上,以便于進(jìn)行集中統(tǒng)計(jì)分析處理。3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集3.ETL工具采集ETL(抽取、轉(zhuǎn)換和加載)用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),用戶從數(shù)據(jù)源抽取出需要的數(shù)據(jù),經(jīng)過預(yù)處理,最終按照預(yù)先定義好的數(shù)據(jù)模型將數(shù)據(jù)加載。3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集3.ETL工具采集Sqoop是一種用于在Hadoop和關(guān)系型數(shù)據(jù)庫(kù)(如MySQL、Oracle)之間傳輸數(shù)據(jù)的工具。SqoopKettle是一款開源的ETL工具,使用Java編寫,可以在Windows、Linux、UNIX上運(yùn)行,數(shù)據(jù)抽取高效、穩(wěn)定。Kettle常用的ETL工具3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集4.分布式消息訂閱分發(fā)分布式消息訂閱分發(fā)是一種常見的數(shù)據(jù)采集方式。其中,Kafka就是一種高吞吐量、低延遲的分布式發(fā)布與訂閱消息系統(tǒng),它可以同時(shí)滿足在線實(shí)時(shí)處理和批量離線處理的要求。用戶通過Kafka系統(tǒng)可以發(fā)布大量的消息,同時(shí)也能實(shí)時(shí)訂閱消費(fèi)消息。3.1.2常用的數(shù)據(jù)采集方法3.1數(shù)據(jù)采集4.分布式消息訂閱分發(fā)Kafka組建話題(topic)生產(chǎn)者(producer)服務(wù)代理(broker)消費(fèi)者(consumer)處理流程工作時(shí),生產(chǎn)者將數(shù)據(jù)發(fā)送到服務(wù)代理,服務(wù)代理有多個(gè)話題,消費(fèi)者從服務(wù)代理獲取數(shù)據(jù)。Kafka基于ZooKeeper實(shí)現(xiàn),常與Hadoop、Spark等數(shù)據(jù)處理框架相結(jié)合,是當(dāng)下流行的分布式發(fā)布與訂閱消息系統(tǒng),其應(yīng)用場(chǎng)景有日志收集、用戶活動(dòng)跟蹤、運(yùn)營(yíng)指標(biāo)監(jiān)控、流式處理等。02網(wǎng)絡(luò)爬蟲技術(shù)3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.1什么是網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲(又稱網(wǎng)絡(luò)蜘蛛)是指用來實(shí)現(xiàn)自動(dòng)采集網(wǎng)絡(luò)數(shù)據(jù)的程序。如果將互聯(lián)網(wǎng)比作一張蜘蛛網(wǎng),將互聯(lián)網(wǎng)上的一個(gè)個(gè)網(wǎng)頁(yè)比作蜘蛛網(wǎng)上的一個(gè)個(gè)節(jié)點(diǎn),那么網(wǎng)頁(yè)與網(wǎng)頁(yè)之間的鏈接關(guān)系可以比作節(jié)點(diǎn)間的連線,而網(wǎng)絡(luò)爬蟲就可以比作在網(wǎng)上爬來爬去的蜘蛛。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.1什么是網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲的基本原理3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.1什么是網(wǎng)絡(luò)爬蟲1預(yù)先設(shè)定一個(gè)或若干初始網(wǎng)頁(yè)的URL,將初始URL加入待爬取的URL列表。2從待爬取的URL列表中逐個(gè)讀取URL,并將URL加入已爬取的URL列表中,然后下載網(wǎng)頁(yè)。3解析已下載的網(wǎng)頁(yè),提取所需的數(shù)據(jù)和新的URL,并存儲(chǔ)提取的數(shù)據(jù)。網(wǎng)絡(luò)爬蟲的基本原理3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.1什么是網(wǎng)絡(luò)爬蟲4將新的URL與已提取的URL列表進(jìn)行比對(duì),檢查該網(wǎng)頁(yè)是否已爬取,如果網(wǎng)頁(yè)沒有被爬取,則將新的URL放入待爬取URL列表的末尾,等待讀取。5如此往復(fù),直到待爬取URL列表為空或者滿足設(shè)定的停止條件,最后達(dá)到遍歷網(wǎng)頁(yè)的目的。網(wǎng)絡(luò)爬蟲的基本原理3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.2網(wǎng)絡(luò)爬蟲的分類和應(yīng)用1.
網(wǎng)絡(luò)爬蟲的分類01通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,是根據(jù)網(wǎng)絡(luò)爬蟲的基本原理實(shí)現(xiàn)的,它所爬取的目標(biāo)會(huì)從初始設(shè)定的URL擴(kuò)充到全網(wǎng)。通用網(wǎng)絡(luò)爬蟲主要應(yīng)用于門戶網(wǎng)站、搜索引擎和大型網(wǎng)絡(luò)服務(wù)提供商的數(shù)據(jù)采集。通用網(wǎng)絡(luò)爬蟲02聚焦網(wǎng)絡(luò)爬蟲爬取的目標(biāo)是與預(yù)先定義好的主題相關(guān)的網(wǎng)頁(yè)。與通用網(wǎng)絡(luò)爬蟲相比,聚焦網(wǎng)絡(luò)爬蟲只選擇爬取與主題相關(guān)的網(wǎng)頁(yè),極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,它主要應(yīng)用于對(duì)特定領(lǐng)域信息有需求的場(chǎng)景。聚焦網(wǎng)絡(luò)爬蟲3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.2網(wǎng)絡(luò)爬蟲的分類和應(yīng)用1.
網(wǎng)絡(luò)爬蟲的分類03增量式網(wǎng)絡(luò)爬蟲爬取的目標(biāo)是有更新的已下載網(wǎng)頁(yè)和新產(chǎn)生的網(wǎng)頁(yè)。爬蟲程序監(jiān)測(cè)網(wǎng)站數(shù)據(jù)更新的情況,然后在需要的時(shí)候只爬取發(fā)生更新或新產(chǎn)生的網(wǎng)頁(yè)。增量式網(wǎng)絡(luò)爬蟲04深層網(wǎng)絡(luò)爬蟲爬取的目標(biāo)是不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后的、只有用戶提交一些關(guān)鍵詞才能獲得的網(wǎng)頁(yè),如用戶注冊(cè)后才可顯示內(nèi)容的網(wǎng)頁(yè)等。深層網(wǎng)絡(luò)爬蟲3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.2網(wǎng)絡(luò)爬蟲的分類和應(yīng)用2
網(wǎng)絡(luò)爬蟲的應(yīng)用每個(gè)獨(dú)立的搜索引擎都有自己的爬蟲程序,爬蟲程序每天連續(xù)地爬取相關(guān)網(wǎng)站,提取信息保存到搜索引擎中。例谷歌爬蟲Googlebot百度爬蟲Baiduspider必應(yīng)爬蟲Bingbot3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.2網(wǎng)絡(luò)爬蟲的分類和應(yīng)用2
網(wǎng)絡(luò)爬蟲的應(yīng)用企業(yè)用戶在采集和分析數(shù)據(jù)時(shí)也時(shí)常會(huì)借助網(wǎng)絡(luò)爬蟲。例如,爬取產(chǎn)品的用戶信息進(jìn)行分析,以確定目標(biāo)客戶群體;爬取同類產(chǎn)品的銷售信息進(jìn)行分析,以制定營(yíng)銷策略等。普通用戶也可以根據(jù)自己關(guān)注的主題采集所需要的數(shù)據(jù),把瀏覽網(wǎng)站或App時(shí)所見到的數(shù)據(jù)都通過爬蟲程序保存下來,實(shí)現(xiàn)可見即可得。例如,爬取網(wǎng)站上的圖片、學(xué)術(shù)網(wǎng)站的論文、團(tuán)購(gòu)網(wǎng)站的價(jià)格及點(diǎn)評(píng)、各種電商平臺(tái)的商品信息、招聘網(wǎng)站的招聘信息等數(shù)據(jù)。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具1八爪魚采集器八爪魚采集器主界面八爪魚采集器是由深圳視界信息技術(shù)有限公司自主研發(fā)的一款集網(wǎng)頁(yè)數(shù)據(jù)采集、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)及API服務(wù)(包括數(shù)據(jù)爬蟲、數(shù)據(jù)優(yōu)化、數(shù)據(jù)挖掘、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)備份)等于一體的數(shù)據(jù)服務(wù)平臺(tái),連續(xù)5年蟬聯(lián)互聯(lián)網(wǎng)數(shù)據(jù)采集軟件榜單第一名。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具八爪魚采集器的功能01模板采集02智能采集模板采集功能內(nèi)置上百種主流網(wǎng)站數(shù)據(jù)源,如京東、天貓、大眾點(diǎn)評(píng)等熱門采集網(wǎng)站,只需參照模板簡(jiǎn)單設(shè)置參數(shù),就可以快速獲取網(wǎng)站公開數(shù)據(jù)。八爪魚采集器可根據(jù)不同網(wǎng)站,提供多種網(wǎng)頁(yè)采集策略與配套資源,可自定義配置,組合運(yùn)用,自動(dòng)化處理,以幫助整個(gè)采集過程實(shí)現(xiàn)數(shù)據(jù)的完整性與穩(wěn)定性。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具03云采集04API服務(wù)由5000多臺(tái)云服務(wù)器支撐的云采集,7×24小時(shí)不間斷運(yùn)行,可實(shí)現(xiàn)定時(shí)采集,無須人員值守,靈活契合業(yè)務(wù)場(chǎng)景,幫用戶提升采集效率,保障數(shù)據(jù)時(shí)效性。通過八爪魚API,可以輕松獲取八爪魚任務(wù)信息和采集到的數(shù)據(jù),靈活調(diào)度任務(wù),如遠(yuǎn)程控制任務(wù)啟動(dòng)與停止,高效實(shí)現(xiàn)數(shù)據(jù)采集與歸檔?;趶?qiáng)大的API體系,還可以無縫對(duì)接公司內(nèi)部各類管理平臺(tái),實(shí)現(xiàn)各類業(yè)務(wù)自動(dòng)化。八爪魚采集器的功能3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具05自定義采集06便捷定時(shí)功能針對(duì)不同用戶的采集需求,八爪魚可提供自動(dòng)生成爬蟲的自定義模式,可準(zhǔn)確批量識(shí)別各種網(wǎng)頁(yè)元素,還有翻頁(yè)、下拉、Ajax、頁(yè)面滾動(dòng)、條件判斷等多種功能,支持不同網(wǎng)頁(yè)結(jié)構(gòu)的復(fù)雜網(wǎng)站采集,滿足多種采集應(yīng)用場(chǎng)景。通過幾步簡(jiǎn)單設(shè)置,即可實(shí)現(xiàn)采集任務(wù)的定時(shí)控制,不論是單次采集的定時(shí)設(shè)置,還是預(yù)設(shè)某一天或是每周每月的定時(shí)采集,都可以同時(shí)對(duì)多個(gè)任務(wù)自由進(jìn)行設(shè)置,根據(jù)需要對(duì)選擇時(shí)間進(jìn)行多重組合,靈活調(diào)配自己的采集任務(wù)。八爪魚采集器的功能3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具07全自動(dòng)數(shù)據(jù)格式化08多層級(jí)采集八爪魚內(nèi)置了強(qiáng)大的數(shù)據(jù)格式化引擎,支持字符串替換、正則表達(dá)式替換或匹配、去除空格、添加前綴或后綴、日期時(shí)間格式化、HTML轉(zhuǎn)碼等多項(xiàng)功能,采集過程中全自動(dòng)處理,無須人工干預(yù),即可得到所需格式數(shù)據(jù)。很多主流電商類(或新聞?lì)悾┑木W(wǎng)站,里面包含一級(jí)商品列表頁(yè),也包含二級(jí)商品詳情頁(yè),還有三級(jí)評(píng)論詳情頁(yè)面。不論網(wǎng)站有多少層級(jí),八爪魚都可以不限制層級(jí)地采集數(shù)據(jù),滿足各類業(yè)務(wù)采集需求。八爪魚采集器的功能3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具09支持網(wǎng)站登錄后采集八爪魚內(nèi)置了采集登錄模塊,只需配置目標(biāo)網(wǎng)站的賬號(hào)及密碼,即可用該模塊采集到登錄后的數(shù)據(jù);
同時(shí)八爪魚還具備采集Cookie自定義功能,首次登錄以后,可以自動(dòng)記住Cookie,免去多次輸入密碼的煩瑣,支持更多網(wǎng)站的采集。八爪魚采集器的功能3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具2火車采集器火車采集器主界面火車采集器是一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析與挖掘軟件,可以靈活迅速地抓取網(wǎng)頁(yè)上散亂分布的數(shù)據(jù)信息,并通過一系列的分析處理,準(zhǔn)確挖掘出所需數(shù)據(jù)。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具火車采集器的功能123多線程高速并行采集系統(tǒng)任務(wù)分配至多個(gè)客戶端,同時(shí)運(yùn)行采集,效率倍增。多識(shí)別系統(tǒng)配備正文識(shí)別、中文分詞識(shí)別、任意編碼識(shí)別等多種識(shí)別系統(tǒng),智能識(shí)別操作更輕松。可選驗(yàn)證方式可以選擇是否使用加密狗,隨時(shí)保障數(shù)據(jù)安全。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具火車采集器的功能567替換功能同義詞、近義詞替換,參數(shù)替換,整合偽原創(chuàng)必備技能。任意格式文件下載圖片、壓縮文件、視頻等任意格式的文件都能輕松下載。系統(tǒng)運(yùn)行監(jiān)控監(jiān)控?cái)?shù)據(jù)質(zhì)量,確保數(shù)據(jù)準(zhǔn)確性。全自動(dòng)運(yùn)行無須人工值守操作,任務(wù)完成后自動(dòng)關(guān)機(jī)。43.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具火車采集器的功能8支持多數(shù)據(jù)庫(kù)支持Access、MySQL、SQLServer、SQLite、Oracle多種類型的數(shù)據(jù)庫(kù)保存及發(fā)布。9無限級(jí)多頁(yè)采集支持包含Ajax請(qǐng)求數(shù)據(jù)在內(nèi)的多個(gè)頁(yè)面信息的無限級(jí)采集。10支持?jǐn)U展支持接口和插件擴(kuò)展,滿足各種采集與發(fā)布需求。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具3
后羿采集器后羿采集器主界面后羿采集器是由前谷歌搜索技術(shù)團(tuán)隊(duì)基于人工智能技術(shù)研發(fā)的新一代網(wǎng)頁(yè)采集軟件,該軟件功能強(qiáng)大,操作簡(jiǎn)單,是為廣大無編程基礎(chǔ)的產(chǎn)品、運(yùn)營(yíng)、銷售、金融、新聞、電商和數(shù)據(jù)分析從業(yè)者,以及政府機(jī)關(guān)和學(xué)術(shù)研究等用戶量身打造的一款產(chǎn)品。3.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具
后羿采集器的功能智能識(shí)別數(shù)據(jù)可視化點(diǎn)擊簡(jiǎn)單上手基于人工智能算法,只需輸入網(wǎng)址就能智能識(shí)別列表數(shù)據(jù)、表格數(shù)據(jù)和分頁(yè)按鈕,不需要配置任何采集規(guī)則,一鍵采集。此外,還能自動(dòng)識(shí)別鏈接、圖片、價(jià)格等。只需根據(jù)軟件提示在頁(yè)面中進(jìn)行點(diǎn)擊操作,完全符合人為瀏覽網(wǎng)頁(yè)的思維方式,簡(jiǎn)單幾步即可生成復(fù)雜的采集規(guī)則,結(jié)合智能識(shí)別算法,任何網(wǎng)頁(yè)的數(shù)據(jù)都能輕松采集。1223.2網(wǎng)絡(luò)爬蟲技術(shù)3.2.3常用的網(wǎng)絡(luò)爬蟲工具
后羿采集器的功能功能強(qiáng)大提供企業(yè)級(jí)服務(wù)支持多種數(shù)據(jù)導(dǎo)出方式后羿采集器提供豐富的采集功能,無論是采集穩(wěn)定性或是采集效率,都能夠滿足個(gè)人、團(tuán)隊(duì)和企業(yè)級(jí)采集需求。其功能豐富,涵蓋定時(shí)采集,自動(dòng)導(dǎo)出,文件下載,加速引擎,按組啟動(dòng)和導(dǎo)出,Webhook,RESTfulAPI,智能識(shí)別SKU和大圖等。采集結(jié)果可以導(dǎo)出到本地,支持TXT、Excel、CSV和HTML文件格式,也可以直接發(fā)布到數(shù)據(jù)庫(kù)(如MySQL、MongoDB、SQLServer、PostgreSQL)供用戶使用。433
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年新聞采輯項(xiàng)目發(fā)展計(jì)劃
- 2025年塑料半成品、輔料項(xiàng)目發(fā)展計(jì)劃
- 2025年醫(yī)用空氣壓縮機(jī)(系統(tǒng))項(xiàng)目合作計(jì)劃書
- 2024年有機(jī)磷酸酯類中毒解毒藥項(xiàng)目資金籌措計(jì)劃書代可行性研究報(bào)告
- 生物實(shí)驗(yàn)室超純水系統(tǒng)租賃與設(shè)備維護(hù)保養(yǎng)責(zé)任協(xié)議
- 寵物美容連鎖店加盟商市場(chǎng)拓展與品牌推廣合作協(xié)議
- 房產(chǎn)增值補(bǔ)償與文化旅游融合發(fā)展協(xié)議
- 數(shù)字游戲改編作品分成權(quán)益補(bǔ)充協(xié)議
- 線上直播收益分配補(bǔ)充協(xié)議修訂
- 網(wǎng)絡(luò)零售商利潤(rùn)分配與結(jié)算標(biāo)準(zhǔn)協(xié)議
- 中國(guó)卒中學(xué)會(huì)急性缺血性卒中再灌注治療指南(2024)解讀
- 浙江開放大學(xué)2025年《社會(huì)保障學(xué)》形考任務(wù)2答案
- 【+初中語文++】++第11課《山地回憶》課件++統(tǒng)編版語文七年級(jí)下冊(cè)
- 2025屆東北三省四市教研聯(lián)合體高三下學(xué)期高考模擬考試(一模)英語試題及答案
- 煤炭工業(yè)建筑結(jié)構(gòu)設(shè)計(jì)標(biāo)準(zhǔn)
- 食品科學(xué)與工程實(shí)踐試題集及答案
- 消防設(shè)備維護(hù)質(zhì)量控制及保障措施
- 人教版七年級(jí)下冊(cè)數(shù)學(xué)壓軸題訓(xùn)練(含解析)
- 2025年共青團(tuán)入團(tuán)積極分子考試測(cè)試試卷題庫(kù)及答案
- 注射泵培訓(xùn)課件
- 牙外傷的治療
評(píng)論
0/150
提交評(píng)論