PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 1.1 大數(shù)據(jù)分析概述_第1頁(yè)
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 1.1 大數(shù)據(jù)分析概述_第2頁(yè)
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 1.1 大數(shù)據(jù)分析概述_第3頁(yè)
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 1.1 大數(shù)據(jù)分析概述_第4頁(yè)
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 1.1 大數(shù)據(jù)分析概述_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析概述1大數(shù)據(jù)分析的概念目錄大數(shù)據(jù)的概念2大數(shù)據(jù)分析的流程3大數(shù)據(jù)分析的應(yīng)用場(chǎng)景4大數(shù)據(jù)技術(shù)體系5大數(shù)據(jù)又被稱為海量數(shù)據(jù),目前學(xué)界對(duì)大數(shù)據(jù)的定義尚未統(tǒng)一。國(guó)際期刊Nature和Science對(duì)大數(shù)據(jù)的貢獻(xiàn):首次正式提出“大數(shù)據(jù)”這一專有名詞,首次綜合分析了大數(shù)據(jù)對(duì)人類生活的影響,并詳細(xì)描述了人類面臨的數(shù)據(jù)困境。麥肯錫全球研究院的定義:以數(shù)據(jù)規(guī)模是否能夠被經(jīng)典數(shù)據(jù)庫(kù)及時(shí)處理來定義大數(shù)據(jù),認(rèn)為大數(shù)據(jù)是指數(shù)據(jù)規(guī)模大小超過經(jīng)典數(shù)據(jù)庫(kù)系統(tǒng)收集、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。NIST的定義:具有規(guī)模巨大、種類繁多、增長(zhǎng)速度快和變化頻繁的特征,需要可擴(kuò)展體系結(jié)構(gòu)來有效存儲(chǔ)、處理和分析的廣泛數(shù)據(jù)集。IBM的定義:大數(shù)據(jù)的“4V”特性,即Volume(數(shù)量)、Variety(多樣)、Velocity(速度)和Value(價(jià)值),后來又加入了Veracity(真實(shí)性),形成了大數(shù)據(jù)的“5V”特性。大數(shù)據(jù)的概念大數(shù)據(jù)4V特性Volume(數(shù)量)。當(dāng)前典型計(jì)算機(jī)硬盤容量為TB量級(jí),PB是大數(shù)據(jù)的臨界點(diǎn)。據(jù)IDC預(yù)測(cè),到2025年全球數(shù)據(jù)量將達(dá)到175ZB。Variety(形式)。數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如XML、郵件、博客、圖片、音頻、視頻等。多樣的數(shù)據(jù)類型對(duì)數(shù)據(jù)的整合、存儲(chǔ)、分析和處理提出了更高要求。Velocity(處理速度)?,F(xiàn)代傳感技術(shù)、網(wǎng)絡(luò)技術(shù)和計(jì)算機(jī)技術(shù)的發(fā)展使得數(shù)據(jù)的產(chǎn)生、存儲(chǔ)、分析和處理的速度非???。業(yè)界對(duì)大數(shù)據(jù)的處理能力有“1秒定律”的要求,即從數(shù)據(jù)產(chǎn)生到獲取價(jià)值的時(shí)間應(yīng)盡可能短。Value(價(jià)值)。由于大數(shù)據(jù)的規(guī)模不斷擴(kuò)大,單位數(shù)據(jù)的價(jià)值密度在降低,但整體數(shù)據(jù)的價(jià)值卻在提高。例如,監(jiān)控視頻中可能只有一兩秒的數(shù)據(jù)是有用的。許多學(xué)者和專家將大數(shù)據(jù)比作黃金和石油,表示其蘊(yùn)含的巨大商業(yè)價(jià)值。大數(shù)據(jù)的概念本書定義大數(shù)據(jù)大數(shù)據(jù)以大體量、多樣性、快速產(chǎn)生和處理以及低價(jià)值密度為主要特征。需要新的體系架構(gòu)、技術(shù)、算法和分析方法來處理大數(shù)據(jù)。大數(shù)據(jù)是一個(gè)動(dòng)態(tài)的定義,不同行業(yè)有不同的理解,衡量標(biāo)準(zhǔn)會(huì)隨著技術(shù)的進(jìn)步而改變。大數(shù)據(jù)的概念1大數(shù)據(jù)分析的概念目錄大數(shù)據(jù)的概念2大數(shù)據(jù)分析的流程3大數(shù)據(jù)分析的應(yīng)用場(chǎng)景4大數(shù)據(jù)技術(shù)體系5什么是大數(shù)據(jù)分析?大數(shù)據(jù)分析是指對(duì)規(guī)模巨大、海量的數(shù)據(jù)進(jìn)行分析,挖掘數(shù)據(jù)蘊(yùn)含的價(jià)值和知識(shí)。大數(shù)據(jù)分析與傳統(tǒng)數(shù)據(jù)分析的區(qū)別:傳統(tǒng)的數(shù)據(jù)分析主要基于統(tǒng)計(jì)分析方法,而大數(shù)據(jù)分析則更側(cè)重于預(yù)測(cè)性分析和預(yù)案性分析,處理大規(guī)模、多樣性的復(fù)雜數(shù)據(jù)。數(shù)據(jù)分析的目的:將隱藏在大量數(shù)據(jù)背后的信息集中和提煉出來,總結(jié)出研究對(duì)象的內(nèi)在規(guī)律,幫助管理者進(jìn)行判斷和決策。數(shù)據(jù)分析的四個(gè)層次:描述性分析、診斷性分析、預(yù)測(cè)性分析和預(yù)案性分析。描述性分析描述數(shù)據(jù)特征的各項(xiàng)活動(dòng),包括頻數(shù)分析、集中趨勢(shì)分析、離散程度分析等。診斷性分析用于獲得事件發(fā)生的原因,尋找影響這些事件發(fā)生的因素。預(yù)測(cè)性分析涵蓋各種統(tǒng)計(jì)技術(shù),如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等,用于對(duì)未來將要發(fā)生的事件進(jìn)行預(yù)測(cè)。預(yù)案性分析規(guī)定應(yīng)該采取的行動(dòng),提供可以推理的結(jié)果,可以獲得優(yōu)勢(shì)或降低風(fēng)險(xiǎn)。大數(shù)據(jù)分析的概念大數(shù)據(jù)分析的思維方式轉(zhuǎn)變:

全樣而非抽樣、混雜而非純凈、趨勢(shì)而非精確、相關(guān)而非因果。全樣而非抽樣。對(duì)所有相關(guān)數(shù)據(jù)進(jìn)行分析,不再基于抽樣樣本進(jìn)行隨機(jī)分析。混雜而非純凈。接收混雜的數(shù)據(jù),不必?fù)?dān)心某個(gè)數(shù)據(jù)點(diǎn)會(huì)對(duì)整套分析造成不利影響。趨勢(shì)而非精確??梢院雎晕⒂^層面上的精確度,在宏觀層面上擁有更好的洞察力。相關(guān)而非因果。尋找事物之間的相關(guān)關(guān)系,不探究因果關(guān)系。大數(shù)據(jù)分析的概念1大數(shù)據(jù)分析的概念目錄大數(shù)據(jù)的概念2大數(shù)據(jù)分析的流程3大數(shù)據(jù)分析的應(yīng)用場(chǎng)景4大數(shù)據(jù)技術(shù)體系5大數(shù)據(jù)分析源于業(yè)務(wù)需求,其完整的流程包括明確目的、數(shù)據(jù)采集與存儲(chǔ)、數(shù)據(jù)預(yù)處理、分析與建模、模型評(píng)估以及可視化應(yīng)用。明確目的:每個(gè)大數(shù)據(jù)分析項(xiàng)目都有獨(dú)特的業(yè)務(wù)背景和需要解決的問題。在項(xiàng)目開始之前,應(yīng)考慮數(shù)據(jù)對(duì)象、商業(yè)目的、業(yè)務(wù)需求等問題。只有深入理解業(yè)務(wù)背景,明確數(shù)據(jù)分析目的,并確定分析思路,才能確保數(shù)據(jù)分析過程的有效性。數(shù)據(jù)采集與存儲(chǔ):根據(jù)指標(biāo)的分解結(jié)果,可以確定數(shù)據(jù)選取范圍,并采集目標(biāo)數(shù)據(jù)。采集的數(shù)據(jù)可以來自企業(yè)內(nèi)部數(shù)據(jù)庫(kù)中的歷史數(shù)據(jù)、Excel表格數(shù)據(jù)、文本文件以及實(shí)時(shí)數(shù)據(jù)等。此外,互聯(lián)網(wǎng)和行業(yè)領(lǐng)域相關(guān)數(shù)據(jù)也是重要的數(shù)據(jù)來源。大數(shù)據(jù)分析的流程數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理是大數(shù)據(jù)處理中不可或缺的環(huán)節(jié)。為了獲得可靠的數(shù)據(jù)分析和挖掘結(jié)果,必須利用數(shù)據(jù)預(yù)處理手段來提高大數(shù)據(jù)的質(zhì)量,貫徹高質(zhì)量發(fā)展精神。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)變換等。分析與建模:分析與建模是大數(shù)據(jù)處理的核心環(huán)節(jié),涵蓋了統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和模式識(shí)別等多個(gè)領(lǐng)域的技術(shù)和方法。在分析階段,可以采用對(duì)比分析、分組分析、交叉分析和回歸分析等方法。大數(shù)據(jù)分析的流程模型評(píng)估:評(píng)估是對(duì)模型進(jìn)行全面評(píng)估的過程,包括建模過程評(píng)估和模型結(jié)果評(píng)估。具體來說,建模過程評(píng)估主要關(guān)注模型的精度、準(zhǔn)確性、效率和通用性等方面;而模型結(jié)果評(píng)估則需要考慮是否有遺漏的業(yè)務(wù)問題,以及模型結(jié)果是否解決了業(yè)務(wù)問題??梢暬瘧?yīng)用:將分析結(jié)果以可視化的形式呈現(xiàn)。數(shù)據(jù)可視化的目標(biāo)是以圖形方式清晰、有效地展示信息。通過不同角度的可視化圖形,人們可以更好地解讀數(shù)據(jù)的本質(zhì),更直觀地解釋數(shù)據(jù)之間的特征和屬性情況,并更深入地理解數(shù)據(jù)和數(shù)據(jù)所代表事件之間的關(guān)聯(lián)。最終,將編寫分析報(bào)告,并將分析結(jié)果應(yīng)用于實(shí)際業(yè)務(wù)中,實(shí)現(xiàn)數(shù)據(jù)分析的真正價(jià)值——解決問題、創(chuàng)造商業(yè)價(jià)值并提供決策依據(jù)。大數(shù)據(jù)分析的流程1大數(shù)據(jù)分析的概念目錄大數(shù)據(jù)的概念2大數(shù)據(jù)分析的流程3大數(shù)據(jù)分析的應(yīng)用場(chǎng)景4大數(shù)據(jù)技術(shù)體系5大數(shù)據(jù)無處不在,應(yīng)用于各行各業(yè)。個(gè)性化推薦、預(yù)測(cè)性分析是兩個(gè)典型的應(yīng)用場(chǎng)景。個(gè)性化推薦:大數(shù)據(jù)分析不僅能夠幫助用戶發(fā)現(xiàn)有價(jià)值的信息,還能將信息推薦給可能感興趣的用戶。例如,電子商務(wù)網(wǎng)站、社交網(wǎng)站的音樂、電影和圖書推薦,以及媒體根據(jù)用戶的品位和閱讀習(xí)慣進(jìn)行個(gè)性化推薦。大數(shù)據(jù)分析的應(yīng)用場(chǎng)景預(yù)測(cè)性分析:預(yù)測(cè)性分析是大數(shù)據(jù)分析的核心應(yīng)用之一。它基于大數(shù)據(jù)和預(yù)測(cè)模型預(yù)測(cè)未來某事件發(fā)生的概率。例如:設(shè)備管理領(lǐng)域:通過物聯(lián)網(wǎng)技術(shù)收集和分析設(shè)備上的數(shù)據(jù)流,建立設(shè)備管理模型,預(yù)測(cè)設(shè)備故障,以確保設(shè)備正常作業(yè)。交通物流分析領(lǐng)域:通過業(yè)務(wù)系統(tǒng)和全球定位系統(tǒng)(GPS)獲得數(shù)據(jù),對(duì)客戶使用數(shù)據(jù)構(gòu)建交通狀況預(yù)測(cè)分析模型,有效預(yù)測(cè)實(shí)時(shí)路況、物流狀況、車流量、客流量和貨物吞吐量等,進(jìn)而提前補(bǔ)貨,制定庫(kù)存管理策略。公安機(jī)關(guān)、金融機(jī)構(gòu)、電信部門的應(yīng)用:公安機(jī)關(guān)、各大金融機(jī)構(gòu)、電信部門等可以利用用戶基本信息、用戶交易信息、用戶通話短信信息等數(shù)據(jù),識(shí)別可能發(fā)生的潛在欺詐交易,做到未雨綢繆。大數(shù)據(jù)分析的應(yīng)用場(chǎng)景1大數(shù)據(jù)分析的概念目錄大數(shù)據(jù)的概念2大數(shù)據(jù)分析的流程3大數(shù)據(jù)分析的應(yīng)用場(chǎng)景4大數(shù)據(jù)技術(shù)體系5大數(shù)據(jù)技術(shù)包括大數(shù)據(jù)采集、存儲(chǔ)、資源調(diào)度、計(jì)算、查詢與應(yīng)用分析等,典型的開源框架有:大數(shù)據(jù)采集框架:負(fù)責(zé)從外部數(shù)據(jù)源采集數(shù)據(jù),包括大數(shù)據(jù)收集、交換和消息處理等系統(tǒng)框架。典型框架:Flume:分布式海量日志采集、聚合和傳輸框架Sqoop:數(shù)據(jù)遷移工具框架,用于在關(guān)系數(shù)據(jù)庫(kù)和Hadoop之間交換數(shù)據(jù)Kafka:發(fā)布/訂閱的消息系統(tǒng)框架,用于處理實(shí)時(shí)數(shù)據(jù)大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)存儲(chǔ)框架:

負(fù)責(zé)對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ).典型框架:HDFS:Hadoop的核心子項(xiàng)目,用于處理超大文件的需求,數(shù)據(jù)在相同節(jié)點(diǎn)上以復(fù)制的方式進(jìn)行存儲(chǔ),以實(shí)現(xiàn)將數(shù)據(jù)合并計(jì)算的目的Hbase:是一個(gè)分布式、面向列、高可靠性、高性能的分布式存儲(chǔ)系統(tǒng),適用于存儲(chǔ)結(jié)構(gòu)化和半結(jié)構(gòu)化的稀疏數(shù)據(jù)Cassandra:

一種分布式NoSQL數(shù)據(jù)庫(kù),用于處理大量分布在多個(gè)數(shù)據(jù)中心的服務(wù)器上的數(shù)據(jù)MongoDB:一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫(kù),旨在為WEB應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案等。大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)計(jì)算根據(jù)對(duì)時(shí)間性能要求分為:批處理:對(duì)時(shí)間要求最低,一般要求處理時(shí)間為分鐘到小時(shí)級(jí)別,甚至天級(jí)別,追求的是高吞吐率,即單位時(shí)間內(nèi)處理的數(shù)據(jù)量盡可能大。交互式處理:對(duì)時(shí)間要求比較高,一般要求處理時(shí)間為秒級(jí)別,這類框架需要與使用者進(jìn)行交互,因此會(huì)提供類結(jié)構(gòu)查詢語(yǔ)言以便于用戶使用。實(shí)時(shí)處理:對(duì)時(shí)間要求最高,一般要求處理時(shí)間延遲在秒級(jí)以內(nèi)。大數(shù)據(jù)技術(shù)體系典型計(jì)算框架:MapReduce:一個(gè)分布式的離線計(jì)算框架,用于海量數(shù)據(jù)的并行運(yùn)算Spark:一棧式計(jì)算框架,適用于大規(guī)模數(shù)據(jù)處理,能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的算法中,高效地支持更多計(jì)算模式,包括交互式查詢和流處理等Flink:

一個(gè)開源的、適用于流處理和批處理的分布式數(shù)據(jù)處理框架Storm:一個(gè)開源的分布式實(shí)時(shí)大數(shù)據(jù)處理系統(tǒng)等大數(shù)據(jù)技術(shù)體系資源調(diào)度框架:

提高資源利用率、降低運(yùn)營(yíng)成本。典型框架:YARN:Hadoop的資源管理和作業(yè)調(diào)度系統(tǒng)Mesos:

一個(gè)集群管理器,提供了有效的資源隔離和共享跨分布式應(yīng)用。數(shù)據(jù)查詢與分析框架:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論