版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)分析實例引入:個性化用戶畫像實現(xiàn)精準(zhǔn)營銷大數(shù)據(jù)分析技術(shù)主流的大數(shù)據(jù)分析處理框架實例引入:個性化用戶畫像實現(xiàn)精準(zhǔn)營銷用戶想購買一輛汽車,由于該用戶經(jīng)常通過某個網(wǎng)站瀏覽不同品牌和價格的汽車商品簡介,因此,用戶的瀏覽記錄被存儲在該網(wǎng)站后臺數(shù)據(jù)庫中,包含瀏覽的產(chǎn)品價位、汽車品牌、汽車的功能配置參數(shù)等。汽車銷售的技術(shù)人員也可以獲取用戶的基本信息和消費記錄,通過大數(shù)據(jù)分析算法對該用戶的個人喜好和購買能力進行分析,最終得到用戶可能會購買的汽車品牌信息。汽車銷售的實例中,購車用戶的特征可以通過用戶的歷史瀏覽數(shù)據(jù)進行描繪,形成該用戶的用戶畫像,并依據(jù)特征對該用戶未來的消費趨勢進行預(yù)測,把用戶可能會購買的商品推薦給用戶,實現(xiàn)在大數(shù)據(jù)時代下的精準(zhǔn)營銷策略。大數(shù)據(jù)實現(xiàn)精準(zhǔn)營銷精準(zhǔn)營銷是在精準(zhǔn)定位的基礎(chǔ)上,依據(jù)現(xiàn)代信息技術(shù)特別是近些年發(fā)展快速的大數(shù)據(jù)技術(shù),對企業(yè)的營銷實施可衡量并且回報率高的精準(zhǔn)策略,降低企業(yè)的營銷成本,提升市場競爭力。精準(zhǔn)營銷以用戶為中心,通過現(xiàn)代化技術(shù)手段直接與用戶溝通,使企業(yè)收集大量的用戶數(shù)據(jù),借助大數(shù)據(jù)分析技術(shù),將用戶數(shù)據(jù)加工為有用信息,然后企業(yè)利用加工后的信息,為用戶推薦個性化產(chǎn)品,使用戶享受到專業(yè)的客戶服務(wù)。。精準(zhǔn)營銷的關(guān)鍵在于如何精準(zhǔn)地找到產(chǎn)品的目標(biāo)人群,再讓產(chǎn)品深入用戶心坎里,讓用戶認(rèn)識產(chǎn)品、了解產(chǎn)品、信任產(chǎn)品到最后依賴產(chǎn)品。大數(shù)據(jù)實現(xiàn)精準(zhǔn)營銷以選購汽車為例,為了滿足用戶的需求,汽車企業(yè)應(yīng)從多個角度進行營銷。一方面,將產(chǎn)品做好、做精、做強、生產(chǎn)出更多符合不同用戶要求的產(chǎn)品。另一方面,將汽車產(chǎn)品信息傳達給目標(biāo)用戶,引領(lǐng)用戶的選擇,尋找吻合度高、對受眾影響大的媒體進行宣傳,在訪問量較大的網(wǎng)站上進行汽車廣告推送,增大用戶點擊感興趣的商品的概率。在網(wǎng)站上推送的汽車車型,由訪問該網(wǎng)站的用戶特征決定。通過用戶畫像進行精準(zhǔn)營銷。什么是用戶畫像阿蘭·庫珀(AlanCooper)最早提出了用戶畫像(Persona)的概念,認(rèn)為“用戶畫像是真實用戶的虛擬代表,是建立在一系列真實數(shù)據(jù)之上的目標(biāo)用戶模型”。用戶畫像也稱為用戶的信息標(biāo)簽。用戶畫像的主要用途是幫助商家了解用戶,對用戶了解得越深,刻畫出的畫像就越準(zhǔn)確,用戶畫像被大量地應(yīng)用在精準(zhǔn)營銷和智能推薦領(lǐng)域,是真實世界的用戶在網(wǎng)絡(luò)世界的映射什么是用戶畫像大數(shù)據(jù)時代的用戶畫像和傳統(tǒng)的畫像完全不同,傳統(tǒng)的用戶畫像指的是畫家利用畫筆對用戶的外貌進行描繪,體現(xiàn)出的是用戶的輪廓和形態(tài)。互聯(lián)網(wǎng)時代下的用戶畫像是根據(jù)用戶社會屬性、生活習(xí)慣和消費行為等信息抽象出的一個標(biāo)簽化的用戶模型,即構(gòu)建用戶畫像的核心工作是給用戶貼“標(biāo)簽”,標(biāo)簽是通過對用戶數(shù)據(jù)分析得到的高度精練的特征標(biāo)識?;ヂ?lián)網(wǎng)時代的用戶畫像表現(xiàn)出來的信息更加豐富,信息種類也不局限于視覺特征,凡是能夠?qū)τ脩舻奶卣鬟M行描述的信息,都可以放到用戶畫像里面。大數(shù)據(jù)算法構(gòu)建出來的用戶畫像具有更加豐富的屬性,可以被更多的上層應(yīng)用使用通過對用戶數(shù)據(jù)的分析,可以對用戶進行畫像,給出某個特定用戶的相關(guān)信息,如年齡區(qū)間、從事的職業(yè)、婚姻狀況、家庭成員、消費習(xí)慣、個人愛好、是否從事體育運動、消費習(xí)慣、經(jīng)常購買哪類商品等構(gòu)建個性化用戶畫像用于構(gòu)建用戶畫像的數(shù)據(jù),不僅需要數(shù)量多,而且還要和業(yè)務(wù)場景緊密結(jié)合,在本章介紹的汽車銷售實例中,為了精準(zhǔn)地推送給用戶汽車的廣告,首先要對用戶進行用戶畫像,將用戶的特征描述清楚,然后再根據(jù)畫像的特征進行精準(zhǔn)營銷如果用戶畫像勾勒出來的是一個年齡在20~30歲的年輕人,從事IT行業(yè),平時喜歡選購電子產(chǎn)品,那么可以分析出該年輕人會比較鐘情于經(jīng)濟型轎車如果給出的用戶畫像是一個對美術(shù)比較感興趣的人,熱愛網(wǎng)絡(luò)小說和文學(xué),偏好人文社科書籍,也熱愛音樂和舞蹈,那么可能會對外觀設(shè)計和內(nèi)飾風(fēng)格比較注重,同時也會關(guān)注車輛的舒適性和安全性能,感興趣的可能是運動型多用途汽車的車型獲取信息的便利性增大構(gòu)建個性化用戶畫像用戶畫像的主要步驟可以分為如下3步首先需要明確研究的目標(biāo),即對哪些用戶進行畫像。例如,為了研究電商平臺用戶流失的情況,就要將那些購物體驗較差的用戶設(shè)定為目標(biāo)用戶;如果要研究潛在客戶是否能成為正式客戶,就要將那些目前還未接觸過本產(chǎn)品但采購了同類型其他品牌商品的用戶設(shè)定為目標(biāo)用戶對目標(biāo)用戶的所有的相關(guān)數(shù)據(jù)進行收集,如用戶的性別、職業(yè)、年齡、地域、消費層次等基本信息;也可以是用戶的行為信息,如瀏覽記錄、搜索過的關(guān)鍵詞、發(fā)表過的評論等通過大數(shù)據(jù)分析技術(shù),包括描述性統(tǒng)計分析、數(shù)據(jù)挖掘算法等,為用戶貼上相應(yīng)的標(biāo)簽,標(biāo)示出用戶的興趣、偏好和需求等。通過用戶畫像實現(xiàn)精準(zhǔn)營銷構(gòu)建好用戶畫像后,即可對用戶需求、基本特征、用戶價值進行分析,實現(xiàn)精準(zhǔn)營銷用戶需求分析:了解用戶需要什么,才能精準(zhǔn)地提供需要的服務(wù)和商品。通過大數(shù)據(jù)分析實現(xiàn)對用戶畫像,可以得到準(zhǔn)確的用戶需求。在移動互聯(lián)網(wǎng)時代,用戶的消費數(shù)據(jù)不斷積累,利用用戶消費數(shù)據(jù)可勾畫出用戶可能需要哪類商品,用戶的需求隱含在其瀏覽和選購過程中,是更深層次需求的挖掘,需要對用戶的消費習(xí)慣進行分析。通過用戶畫像實現(xiàn)精準(zhǔn)營銷用戶基本特征分析:用戶畫像是對一個用戶全方位的展示,為了讓用戶的畫像內(nèi)容豐富,標(biāo)簽要盡量多。用戶畫像的目的之一是為企業(yè)找到目標(biāo)用戶,目標(biāo)用戶是可能要購買企業(yè)產(chǎn)品的,并且是有能力購買的。例如,用戶購買產(chǎn)品的類型、采購的頻率、采購商品的價格、用戶所在的區(qū)域等基本屬性信息就非常重要,了解了基本屬性信息,企業(yè)可以和用戶進行溝通,將產(chǎn)品推薦給用戶通過大數(shù)據(jù)分析技術(shù),包括描述性統(tǒng)計分析、數(shù)據(jù)挖掘算法等,為用戶貼上相應(yīng)的標(biāo)簽,標(biāo)示出用戶的興趣、偏好和需求等。用戶價值分析:在對人物畫像時,可以根據(jù)大數(shù)據(jù)分析給出人物的價值特征。用戶價值可以理解為用戶在系統(tǒng)中的商業(yè)變現(xiàn)能力,包括廣告價值、付費價值。實例引入:個性化用戶畫像實現(xiàn)精準(zhǔn)營銷大數(shù)據(jù)分析技術(shù)主流的大數(shù)據(jù)分析處理框架大數(shù)據(jù)分析技術(shù)1.數(shù)據(jù)分析與數(shù)據(jù)挖掘大數(shù)據(jù)時代的戰(zhàn)略意義不僅在于掌握龐大的數(shù)據(jù)信息,還在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系,而大數(shù)據(jù)分析就是大數(shù)據(jù)研究領(lǐng)域的核心內(nèi)容之一。大數(shù)據(jù)分析是決策過程中的決定性因素,也是大數(shù)據(jù)時代發(fā)揮數(shù)據(jù)價值的關(guān)鍵環(huán)節(jié)。大數(shù)據(jù)分析核心即為挖掘。數(shù)據(jù)分析的定義是用適當(dāng)?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,將數(shù)據(jù)加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能、發(fā)揮數(shù)據(jù)的作用數(shù)據(jù)分析是為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程大數(shù)據(jù)分析技術(shù)1.數(shù)據(jù)分析與數(shù)據(jù)挖掘數(shù)據(jù)分析的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立,但直到計算機的出現(xiàn)才使得實際操作成為可能,而隨著計算機的不斷發(fā)展,數(shù)據(jù)分析也得以推廣。數(shù)據(jù)分析是數(shù)學(xué)與計算機科學(xué)相結(jié)合的產(chǎn)物數(shù)據(jù)分析的目的是將隱藏在一大批看來雜亂無章的數(shù)據(jù)中的信息集中和提煉出來,從而找出所研究對象的內(nèi)在規(guī)律大數(shù)據(jù)分析技術(shù)1.數(shù)據(jù)分析與數(shù)據(jù)挖掘數(shù)據(jù)挖掘是指通過人工智能、機器學(xué)習(xí)等方法,從大量的數(shù)據(jù)中挖掘出未知的且有價值的信息和知識的過程數(shù)據(jù)挖掘主要側(cè)重解決4類問題,即分類、聚類、關(guān)聯(lián)和預(yù)測數(shù)據(jù)挖掘的重點在于尋找未知的模式與規(guī)律,尋找那些事先未知的但又非常有價值的信息,主要采用統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)等方法進行挖掘數(shù)據(jù)分析是將數(shù)據(jù)變成信息的方法,數(shù)據(jù)挖掘是將信息變成認(rèn)知的方法,如果想要從數(shù)據(jù)中提取一定的規(guī)律往往,需要數(shù)據(jù)分析和數(shù)據(jù)挖掘結(jié)合使用大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知隨著大數(shù)據(jù)技術(shù)和體系的發(fā)展,越來越多的人使用大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)是以數(shù)據(jù)為核心的,人們對大數(shù)據(jù)的認(rèn)知和傳統(tǒng)數(shù)據(jù)有著很大區(qū)別。數(shù)據(jù)的質(zhì)量也有區(qū)別,數(shù)據(jù)質(zhì)量分析的主要任務(wù)是檢測原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求的數(shù)據(jù)數(shù)據(jù)完整性數(shù)據(jù)準(zhǔn)確性數(shù)據(jù)重復(fù)性數(shù)據(jù)的一致性大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ),對數(shù)據(jù)分析而言,對數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對比分析、統(tǒng)計分析、相關(guān)性分析分布分析分布分析是指根據(jù)數(shù)據(jù)在坐標(biāo)圖里分布的特點來對數(shù)據(jù)進行分析的方法,在生產(chǎn)工作正常的情況下,產(chǎn)品的質(zhì)量不可能完全相同,但也不會相差太大,而是圍繞著一定的平均值,在一定的范圍內(nèi)變動和分布。分布分析是通過對質(zhì)量的變動分布狀態(tài)的分析發(fā)現(xiàn)問題的一種重要方法。大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ),對數(shù)據(jù)分析而言,對數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對比分析、統(tǒng)計分析、相關(guān)性分析對比分析對比分析主要是分析兩個相互聯(lián)系的指標(biāo),從數(shù)量上展示和說明研究對象的各種關(guān)系(規(guī)模的大小、水平的高低、速度的快慢等)是否協(xié)調(diào),分析其中的差異,從而揭示事物代表的發(fā)展變化情況和變化規(guī)律。對比分析分為絕對數(shù)比較和相對數(shù)比較大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ),對數(shù)據(jù)分析而言,對數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對比分析、統(tǒng)計分析、相關(guān)性分析統(tǒng)計分析統(tǒng)計分析是對定量數(shù)據(jù)進行統(tǒng)計描述,常從集中趨勢度量和離中趨勢度量兩個方面分析。集中趨勢度量。集中趨勢度量是指數(shù)據(jù)向某一中心靠攏的傾向,核心是尋找數(shù)據(jù)的代表值或中心值,通過算數(shù)平均數(shù)、中位數(shù)和眾數(shù)來度量。離中趨勢度量是指一組數(shù)據(jù)中各數(shù)據(jù)以不同程度的距離偏離中心的趨勢。衡量離中趨勢的4個度量值分別為極差、分位距、標(biāo)一組準(zhǔn)差和方差,其中分位距最常用的是四分位距。大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ),對數(shù)據(jù)分析而言,對數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對比分析、統(tǒng)計分析、相關(guān)性分析相關(guān)性分析數(shù)據(jù)相關(guān)性是指數(shù)據(jù)之間存在某種關(guān)系,該關(guān)系一般通過相關(guān)系數(shù)來體現(xiàn),而相關(guān)系數(shù)就是用于反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計指標(biāo)。相關(guān)系數(shù)是研究變量之間線性相關(guān)程度的量,是按積差方法計算,以兩個變量與各自平均值的離差為基礎(chǔ),通過兩個離差相乘來反映兩個變量之間的相關(guān)程度。常見的相關(guān)系數(shù)有兩類,分別是皮爾遜積矩相關(guān)系數(shù)(Pearson相關(guān)系數(shù))和斯皮爾曼秩相關(guān)系數(shù)(Spearman等級相關(guān)系數(shù))。大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)處理對海量的數(shù)據(jù)進行處理時,處理的方式包括數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換。數(shù)據(jù)清洗包括4個方面:缺失值分析處理異常值分析處理重復(fù)值分析處理數(shù)據(jù)一致性分析處理大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)處理數(shù)據(jù)規(guī)約技術(shù)能在很大程度上移除數(shù)據(jù)中錯誤的實例或樣本屬性,不但能提升數(shù)據(jù)挖掘的速度,還會提升數(shù)據(jù)挖掘的準(zhǔn)確度。數(shù)據(jù)規(guī)約算法可分為5類:特征選取(FeatureSelection)實例選?。↖nstanceSelection)離散化(Discretization)特征提取(FeatureExtraction)實例生成(InstanceGeneration)大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)處理數(shù)據(jù)規(guī)約算法說明算法說明特征選取用于減少數(shù)據(jù)的維度,從數(shù)據(jù)維度的角度出發(fā),目的在于移除數(shù)據(jù)集合中的不相關(guān)或冗余屬性,最終選出一個能代表或接近原始集合數(shù)據(jù)分布的屬性子集實例選取用于減少數(shù)據(jù)集合中實例樣本數(shù)據(jù)樣本的數(shù)量,目的在于選出能代表集合特征的實例子集,其隨機選取的方式被稱為取樣,常用在大體量數(shù)據(jù)集合中,防止數(shù)據(jù)的過擬合離散化又稱作特征簡化,用于簡化樣本屬性的描述,是將一種定量化的數(shù)據(jù)轉(zhuǎn)換為另一種定量化數(shù)據(jù)的過程,該過程會將數(shù)據(jù)集合中的數(shù)值屬性進行離散化處理,轉(zhuǎn)化為在一定區(qū)間內(nèi)的有限數(shù)值。在后續(xù)的挖掘過程中,可將數(shù)據(jù)屬性當(dāng)成固定區(qū)間內(nèi)的可計算數(shù)值進行處理特征提取用于生成新的屬性或樣本,主要分為線性和非線性提取兩種方式。實例生成算法除了移除數(shù)據(jù)集合中的數(shù)據(jù),在規(guī)約的過程中還會對原始集合中的樣本進行改動,抽取多個樣本特征,生成更能代表數(shù)據(jù)特征的新樣本實例生成大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)變換數(shù)據(jù)變換是將數(shù)據(jù)進行轉(zhuǎn)換或歸并,通過平滑處理、數(shù)據(jù)泛化、規(guī)格化等方法將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式方法方法說明平滑處理幫助去除數(shù)據(jù)中的噪聲合計處理對數(shù)據(jù)進行總結(jié)或合計操作數(shù)據(jù)泛化處理用更抽象的概念取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象規(guī)格化處理將有關(guān)屬性數(shù)據(jù)按比例投射到特定的小范圍之中屬性構(gòu)造根據(jù)已有屬性集構(gòu)造新的屬性,以在數(shù)據(jù)處理過程中起幫助作用大數(shù)據(jù)分析技術(shù)4.分析建模分析建模是挖掘大數(shù)據(jù)價值的關(guān)鍵,在大數(shù)據(jù)分析中,常用的分析模式:聚類分類回歸關(guān)聯(lián)規(guī)則智能推薦時間序列模式識別大數(shù)據(jù)分析技術(shù)5.模型評估模型的可用性,指的是模型不僅要在過去的數(shù)據(jù)集中預(yù)測準(zhǔn)確,還要在未來的數(shù)據(jù)集中也能夠預(yù)測準(zhǔn)確。通過模型評估可以知道模型的效果,預(yù)測結(jié)果的準(zhǔn)確性,有利于對模型進行修正。目前主要的算法有:分類算法回歸算法聚類算法關(guān)聯(lián)規(guī)則智能推薦算法大數(shù)據(jù)分析技術(shù)分類算法評估算法指標(biāo)說明分類算法準(zhǔn)確率準(zhǔn)確率是分類算法中最常用的評估指標(biāo),它表示正確分類的樣本數(shù)占總樣本數(shù)的比例,數(shù)值越高越好精確率精確率反映了在所有被預(yù)測為正類的樣本中,有多少是真正的正類樣本,數(shù)值越高越好召回率召回率反映了所有真正為正類的樣本中,有多少被正確地預(yù)測為正類,數(shù)值越高越好F1值F1值是精確率和召回率的調(diào)和平均值,用于平衡精確率和召回率,數(shù)值越高越好ROC曲線ROC曲線是通過繪制真陽性率(TruePositiveRate,TPR)和假陽性率(FalsePositiveRate,F(xiàn)PR)之間的關(guān)系而得到的曲線,TPR指分類器正確識別正例的能力,F(xiàn)PR指在所有實際為負(fù)例的樣本中,模型錯誤地預(yù)測為正例的樣本比例,TPR越接近1越好,F(xiàn)PR越接近0表示算法性能越好AUCAUC(AreaUndertheCurve)是ROC曲線下的面積,用于衡量分類器性能。AUC值越接近1,表示分類器性能越好大數(shù)據(jù)分析技術(shù)回歸算法評估算法指標(biāo)說明回歸算法平均絕對誤差(MeanAbsoluteError,MAE)對于每個觀測值,計算預(yù)測值與實際觀測值之間的差異的絕對值,對所有差異值進行求和,并除以觀測值的總數(shù),得到MAE,MAE值越小表示模型擬合度越好均方誤差(MeanSquaredError,MSE)對于每個觀測值,計算模型的預(yù)測值與實際觀測值之間的差異,并將其平方計算后求和,再除以觀測值的總數(shù),得到平均差異值。MSE值越小表示模型擬合度越好均方根誤差(RootMeanSquaredError,RMSE)對于每個觀測值,計算模型的預(yù)測值與實際觀測值之間的差異,并將其平方計算后進行求和,并除以觀測值的總數(shù),得到平均差異值后計算其平方根。RMSE值越小表示模型擬合度越好決定系數(shù)(R2)R2反映模型對數(shù)據(jù)的擬合程度,值越接近1表示模型擬合度越好大數(shù)據(jù)分析技術(shù)聚類和關(guān)聯(lián)規(guī)則算法評估算法指標(biāo)說明聚類算法輪廓系數(shù)輪廓系數(shù)是衡量聚類效果的一種指標(biāo),值越接近1表示樣本更適合被聚類到其所在的簇,值越低則表示樣本在不同聚類之間的邊界上關(guān)聯(lián)規(guī)則支持度支持度反映了規(guī)則在所有事務(wù)中應(yīng)用的頻繁程度,數(shù)值越高越好置信度置信度表示規(guī)則的預(yù)測精度,數(shù)值越高越好大數(shù)據(jù)分析技術(shù)智能推薦算法評估算法指標(biāo)說明智能推薦算法準(zhǔn)確率準(zhǔn)確率、召回率和F1值是智能推薦算法中最常用的評估指標(biāo),數(shù)值越高越好召回率F1值平均精確率(AveragePrecision,AP)AP是智能推薦算法中較為常用的一種評估指標(biāo),表示在所有被推薦的項目中,用戶真正感興趣的項目占所有推薦項目的比例,數(shù)值越高越好平均倒數(shù)排名(MeanReciprocalRank,MRR)MRR反映了用戶對推薦結(jié)果的滿意程度,數(shù)值越高越好實例引入:個性化用戶畫像實現(xiàn)精準(zhǔn)營銷大數(shù)據(jù)分析技術(shù)主流的大數(shù)據(jù)分析處理框架主流的大數(shù)據(jù)分析處理框架主流的分析處理框架介紹目前主流的大數(shù)據(jù)分析處理框架有批處理框架、流式處理框架、圖計算處理框架等。運用較多的是批處理和流式處理框架批處理框架:最早出現(xiàn)的大數(shù)據(jù)分析處理方式是批處理,批處理是對數(shù)據(jù)先進行存儲再分析處理,是一種集中式的數(shù)據(jù)分析處理。流式處理框架:隨著數(shù)據(jù)不斷地變化,流式處理框架的使用逐漸成為一種趨勢。流式處理框架將源源不斷的數(shù)據(jù)組成了數(shù)據(jù)流,只要有新數(shù)據(jù)就及時處理,不需要做持久性的操作。圖計算處理框架:隨著圖數(shù)據(jù)的規(guī)模爆炸式增長,處理圖數(shù)據(jù)的圖計算處理框架應(yīng)運而生,圖計算處理框架也被認(rèn)為是新興數(shù)據(jù)驅(qū)動市場的支撐技術(shù)主流的大數(shù)據(jù)分析處理框架HadoopHadoop生態(tài)系統(tǒng)子項目說明Hive一個數(shù)據(jù)倉庫系統(tǒng),提供了類似于SQL的查詢語言HBase一種分布的、可伸縮的列式數(shù)據(jù)存儲庫,支持隨機、實時讀/寫訪問Pig分析大數(shù)據(jù)集的一個平臺Sqoop可高效傳輸批量數(shù)據(jù)的一種工具Flume一種用于高效采集、匯總、移動大量日志數(shù)據(jù)的服務(wù)ZooKeeper一種用于維護配置信息、命名,提供分布式同步等的集中服務(wù)Spark一個開源的數(shù)據(jù)分析集群計算框架Storm一個分布式的、容錯的實時計算系統(tǒng)Avr一個數(shù)據(jù)序列化系統(tǒng)HadoopHadoop的技術(shù)優(yōu)勢高可靠性。HDFS采用了備份恢復(fù)機制,MapReduce中的任務(wù)采用了監(jiān)控機制,Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴??蓴U展性。Hadoop是在可用的計算機集群間分配數(shù)據(jù)并完成計算任務(wù)的,集群可以很方便地擴展到數(shù)以千計的節(jié)點中。高效性。Hadoop可以在節(jié)點之間動態(tài)地移動數(shù)據(jù),在數(shù)據(jù)所在節(jié)點進行并行處理,并保證各個節(jié)點的動態(tài)平衡,因此處理速度非常快。高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。經(jīng)濟性。Hadoop是開源軟件,可以運行在成本較低的計算機之上,它由普通的服務(wù)器構(gòu)建的節(jié)點組成,因此Hadoop的成本比較低。HadoopHadoop的技術(shù)劣勢抽象層次低。實際開發(fā)過程中,許多的業(yè)務(wù)邏輯沒有辦法從高層撰寫相關(guān)的邏輯代碼,需要去底層手動進行編碼。即使是完成一個非常簡單的任務(wù),都需要編寫一個完整的MapReduce代碼,然后編譯打包運行。表達能力有限?,F(xiàn)實中一些實際的問題沒有辦法用MapReduce的映射和歸約環(huán)節(jié)來解決。執(zhí)行迭代操作效率低。對于MapReduce來說,MapReduce本身將整個作業(yè)劃分成多個階段進行,每一個階段完成后將結(jié)果寫入HDFS,供下一個MapReduce作業(yè)階段調(diào)用。高代價的磁盤輸入輸出,造成了執(zhí)行迭代操作效率低。實時性差。MapReduce計算框架是針對批處理設(shè)計的,因此在實時交互查詢應(yīng)用中一般很難實現(xiàn)。主流的大數(shù)據(jù)分析處理框架SparkSpark是一個強大的分布式處理和易于使用的大數(shù)據(jù)框架,可以解決各種復(fù)雜的數(shù)據(jù)問題,有很多商業(yè)機構(gòu)在生產(chǎn)環(huán)境中使用,有些機構(gòu)甚至在幾十萬個節(jié)點集群上運行,操作PB級的數(shù)據(jù)屬性介紹組件SparkSQL、SparkStreaming、SparkMLlib和SparkGraphX等支持語言Java、Scala和Python等功能日志抽取、清洗、轉(zhuǎn)化、加載、SQL查詢、模式識別和機器學(xué)習(xí)等SparkSpark的運行架構(gòu)包含4個部分,分別是任務(wù)控制節(jié)點(DriverProgram)、集群管理器(ClusterManager)、工作節(jié)點(WorkerNode)和執(zhí)行進程(Executor)。就系統(tǒng)結(jié)構(gòu)而言,Spark采用主/從模式,包含一個主服務(wù)器和若干個Worker。當(dāng)Spark需要執(zhí)行一個應(yīng)用程序時,SparkContext(Spark功能的主要入口點)會向集群管理器申請資源,并請求運行執(zhí)行進程,同時向執(zhí)行進程發(fā)送程序代碼,接著在執(zhí)行器上執(zhí)行任務(wù)(Task)。當(dāng)運行完畢后,再將執(zhí)行結(jié)果返回給任務(wù)控制節(jié)點,也可以存儲在HDFS或HBase中。主流的大數(shù)據(jù)分析處理框架Flink任何類型的數(shù)據(jù)都是作為事件流產(chǎn)生的,例如,信用卡交易、傳感器測量、機器日志、網(wǎng)站或移動應(yīng)用程序上的用戶交互所產(chǎn)生的數(shù)據(jù)都以流的形式生成。ApacheFlink正是為處理流數(shù)據(jù)而設(shè)計的。Flink技術(shù)原理。ApacheFlink是一個流式處理框架,其分布式的計算模式使其成為一個可伸縮的開源流式處理平臺,用于無界數(shù)據(jù)集和有界數(shù)據(jù)集的狀態(tài)計算,其核心模塊是一個數(shù)據(jù)流引擎,主要通過Java代碼實現(xiàn)。對時間和狀態(tài)的精確控制,使Flink運行時無界流能運行任何類型的應(yīng)用程序。有界流由專門的固定大小的數(shù)據(jù)集設(shè)計的數(shù)據(jù)結(jié)構(gòu)和算法進行內(nèi)部處理,從而獲得優(yōu)異的性能。Flink功能強大,支持開發(fā)和運行多種不同種類的應(yīng)用程序。Flink的主要特性包括對流式和批處理的支持一體化、精細(xì)的狀態(tài)管理、事件時間支持和對狀態(tài)的唯一一致性保障等FlinkFlink提供3層API,如圖所示,從上至下依次為SQL/TableAPI、DataStreamAPI、ProcessFunction。層級越高,代碼越簡潔;層級越低,表達能力越弱。FlinkFlink生態(tài)系統(tǒng)Flink社區(qū)正在努力支持Catalog、SchemaRegistries以及MetadataStores,包括API和SQL客戶端的支持,并且正在添加數(shù)據(jù)定義語言(DataDefinitionLanguage,DDL)支持,以便添加表和流到Catalog中。在Flink社區(qū)中還有一個巨大的工作是集成Flink與Hive生態(tài)系統(tǒng)。Flink和Hadoop、Spark一樣,是Apache軟件基金會下的頂級項目,F(xiàn)link也有生態(tài)系統(tǒng),F(xiàn)link框架中有部署層、核心層、庫和API。其中,API提供了復(fù)雜事件處理(ComplexEventProcessing,CEP)接口,主要是獲取大量流數(shù)據(jù)中的重要信息。Flink和Spark一樣,提供一個機器學(xué)習(xí)的庫,里面包含許多數(shù)據(jù)挖掘的算法和機器學(xué)習(xí)的算法,如支持向量機、回歸問題、K-Means等一些常用算法FlinkFlink技術(shù)優(yōu)勢Flink以流數(shù)據(jù)處理為核心,考慮到MapReduce計算框架存在的諸多問題,設(shè)計彌補了MapReduce不能分析處理實時計算的局限,因此Flink優(yōu)勢極為明顯。Flink擅長處理無界和有界數(shù)據(jù)集Flink具有低處理延遲Flink旨在以任何規(guī)模運行有狀態(tài)流應(yīng)用程序Flink是一個分布式系統(tǒng),需要計算資源才能執(zhí)行應(yīng)用程序FlinkFlink應(yīng)用場景Flink因其豐富的功能集而成為開發(fā)和運行多種不同類型應(yīng)用程序的絕佳選擇。Flink可以應(yīng)用于事件驅(qū)動型應(yīng)用、數(shù)據(jù)分析、數(shù)據(jù)管道等方向事件驅(qū)動型應(yīng)用是一類具有狀態(tài)的應(yīng)用數(shù)據(jù)分析任務(wù)需要從原始數(shù)據(jù)中提取有價值的信息和指標(biāo),傳統(tǒng)的分析方式通常是利用批查詢,借助一些先進的流處理引擎,實時地進行數(shù)據(jù)分析,而Flink恰好同時支持流式及批量分析應(yīng)用數(shù)據(jù)管道以持續(xù)流模式運行,支持從一個不斷生成數(shù)據(jù)的源頭讀取記錄,并將數(shù)據(jù)以低延遲移動到終點,可以用于轉(zhuǎn)換、豐富數(shù)據(jù)。很多常見的數(shù)據(jù)轉(zhuǎn)換和增強操作可以利用Flink的SQL接口實現(xiàn)。Flink在數(shù)據(jù)管道中典型的應(yīng)用場景有電子商務(wù)中的實時查詢索引構(gòu)建和電子商務(wù)中的持續(xù)ETL等主流的大數(shù)據(jù)分析處理框架StormApacheStorm是一個分布式的流式處理框架,采用的是事件流的形式,多個輸入和處理組件構(gòu)成一個處理網(wǎng)絡(luò),中間的處理結(jié)果都存儲在內(nèi)存中,保證數(shù)據(jù)處理的時效性,有效地滿足實時分析的用戶需求。Storm可以很方便地在一個計算機集群中編寫與擴展復(fù)雜的實時計算,因此用于實時處理。Storm保證每個消息都會得到處理,而且處理速度很快,在一個小集群中,每秒可以處理數(shù)條百萬條消息。StormStorm集群由一個主節(jié)點和多個工作節(jié)點組成,Storm集群架構(gòu)如圖所示。主節(jié)點運行了一個名為“Nimbus”的守護進程,用于分配代碼、布置任務(wù)及檢測故障。每個工作節(jié)點都運行了一個名為“Supervisor”的守護進程,用于監(jiān)聽工作、開始并終止工作進程。Nimbus和Supervisor均具備快速失敗的能力,而且它們是無狀態(tài)的,使得它們在運行中更為健壯,兩者的協(xié)調(diào)工作是由ApacheZooKeeper來完成的。StormStorm擁有編程簡單、容錯性高、可擴展性強、可靠性強、高效等特點。Storm有許多應(yīng)用領(lǐng)域,包括實時分析、在線機器學(xué)習(xí)、信息流處理(可以使用Storm處理新的數(shù)據(jù)和快速更新數(shù)據(jù)庫)、連續(xù)性的計算(例如使用Storm連續(xù)查詢,然后將結(jié)果返回給客戶端,如將微博上的熱門話題轉(zhuǎn)發(fā)給用戶)、分布式RPC(RemoteProcedureCall,遠過程調(diào)用協(xié)議,通過網(wǎng)絡(luò)從遠程計算機程序上請求服務(wù))、ETL等。主流的大數(shù)據(jù)分析處理框架Graph圖(Graph)是用于表示對象之間關(guān)聯(lián)關(guān)系的一種抽象數(shù)據(jù)結(jié)構(gòu),使用頂點(Vertex)和邊(Edge)進行描述,其中,頂點表示對象,邊表示對象之間的關(guān)系。圖計算,便是以圖作為數(shù)據(jù)模型來表達問題并予以解決的過程。以高效解決圖計算問題為目標(biāo)的系統(tǒng)軟件稱為圖計算系統(tǒng)。典型圖計算處理框架包括了Ligra框架、Gemini框架和GraphBIG框架。Ligra框架Gemini框架GraphBIG框架小結(jié)大數(shù)據(jù)分析技術(shù)是大數(shù)據(jù)技術(shù)體系的重點內(nèi)容,通過大數(shù)據(jù)分析可以對用戶進行精準(zhǔn)畫像,進而向用戶推薦適合的產(chǎn)品,目前大多數(shù)的推薦系統(tǒng)都利用了大數(shù)據(jù)分析。本章介紹了大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)分析的主流處理框架,通過大數(shù)據(jù)分析處理框架,用戶可以非常方便地使用經(jīng)典的數(shù)據(jù)分析方法。隨著數(shù)據(jù)量和數(shù)據(jù)類型的增加,大數(shù)據(jù)分析的技術(shù)也會不斷地演進。通過本章的學(xué)習(xí),讀者可以加深對大數(shù)據(jù)分析的認(rèn)識,培養(yǎng)邏輯思維和數(shù)學(xué)能力,并對數(shù)據(jù)分析和利用有更高層次的認(rèn)知大數(shù)據(jù)可視化實例引入:某機場數(shù)據(jù)可視化大屏數(shù)據(jù)可視化圖形設(shè)計指南數(shù)據(jù)可視化主要技術(shù)主流的數(shù)據(jù)可視化工具實例引入:某機場數(shù)據(jù)可視化大屏2020年,民航局發(fā)布了建設(shè)“平安、綠色、智慧、人文”四型機場的行動綱要,其中“智慧機場”是指建設(shè)生產(chǎn)要素全面物聯(lián)、數(shù)據(jù)共享、協(xié)同高效、智能運行的機場。新型基礎(chǔ)設(shè)施建設(shè)(簡稱“新基建”)是提供數(shù)字轉(zhuǎn)型、智能升級、融合創(chuàng)新等服務(wù)的基礎(chǔ)設(shè)施體系,包括信息基礎(chǔ)設(shè)施、融合基礎(chǔ)設(shè)施、創(chuàng)新基礎(chǔ)設(shè)施?;A(chǔ)設(shè)施創(chuàng)新有利于大家用新眼光觀察問題,用新思路分析問題,用新方法解決問題。某機場是一座符合新基建標(biāo)準(zhǔn)的國際機場,其中的數(shù)據(jù)可視化大屏是點睛之筆。該大屏通過大規(guī)模數(shù)據(jù)可視化、時序數(shù)據(jù)可視化技術(shù)實現(xiàn)了交互式數(shù)據(jù)可視化。通過某機場的可視化大屏能夠更好地捕捉機場內(nèi)外的實時信息,真正做到了智慧型機場,充分體現(xiàn)了現(xiàn)代可視化技術(shù)所具有的特點,即智慧性、即時性、交互性。以某機場數(shù)據(jù)可視化大屏作為切入點,能夠更好地了解數(shù)據(jù)可視化的主要技術(shù)、熟悉目前主流的數(shù)據(jù)可視化工具大屏顯示的應(yīng)用領(lǐng)域和行業(yè)數(shù)據(jù)可視化大屏是大數(shù)據(jù)處理和分析的熱門應(yīng)用之一,它可以將大量的數(shù)據(jù)進行可視化展示,使得數(shù)據(jù)在時間和空間上更具有可讀性和可操作性。通過數(shù)據(jù)可視化大屏,可以快速有效地理解數(shù)據(jù)之間的關(guān)系,從而更好地掌握數(shù)據(jù)的內(nèi)在規(guī)律。大屏幕顯示系統(tǒng)是集多種信息接收處理顯示、多類人員操作控制于一體的多媒體互動系統(tǒng),可以將數(shù)據(jù)可視化的結(jié)果以大屏幕的形式展示出來,涉及聲、光、電多方面技術(shù)問題,也會涉及多個部門的管理協(xié)調(diào)問題,還與使用場所結(jié)構(gòu)密不可分。目前大屏幕顯示系統(tǒng)廣泛應(yīng)用到通信、電力、軍事指揮、工業(yè)過程控制等領(lǐng)域大屏幕顯示系統(tǒng)在日常生活中也有廣泛的應(yīng)用,如多媒體課堂教學(xué)、電視節(jié)目播放、視頻監(jiān)控等方面機場數(shù)據(jù)可視化大屏設(shè)計機場數(shù)據(jù)可視化大屏是專門為監(jiān)控中心量身打造的大屏解決方案,該設(shè)計基于機場所在的應(yīng)用場景,增加了一些特色功能機場大屏數(shù)據(jù)可視化適用于對機場內(nèi)部的信息進行精準(zhǔn)監(jiān)控,包括對機場內(nèi)的交通工具開展即時的精準(zhǔn)定位,以及速率信息內(nèi)容的傳回、車輛追蹤、運動軌跡回看、越界警報、限速警報、安全事故剖析等各類信息,從而確保機場場景安全、提高機場貨運量。機場大屏數(shù)據(jù)可視化會實時播報飛機航班運作的實況。機場大屏數(shù)據(jù)可視化系統(tǒng)軟件應(yīng)融合大數(shù)據(jù)技術(shù),對航運本機場的飛機航班、本省甚至全國與本機場關(guān)聯(lián)的飛機航班開展可視化展現(xiàn),確保機場飛機航班安全運作機場數(shù)據(jù)可視化大屏設(shè)計為實現(xiàn)機場運維管理,可視化大屏系統(tǒng)結(jié)合地理信息系統(tǒng),應(yīng)用三維仿真技術(shù),對機場飛行區(qū)、航站區(qū)等關(guān)鍵區(qū)域進行全方位三維實景展現(xiàn)。針對飛行區(qū)站坪進行實時監(jiān)控,動態(tài)展示機場站坪全景,對跑道開閉狀態(tài)、當(dāng)前航班運行狀態(tài)、場內(nèi)車輛運行狀態(tài)、登機橋運行狀態(tài)實現(xiàn)全方位動態(tài)監(jiān)視。實例引入:某機場數(shù)據(jù)可視化大屏數(shù)據(jù)可視化圖形設(shè)計指南數(shù)據(jù)可視化主要技術(shù)主流的數(shù)據(jù)可視化工具數(shù)據(jù)可視化圖形設(shè)計指南人類對事物的認(rèn)知和世界的了解大多基于視覺,合理的利用視覺特征設(shè)計數(shù)據(jù)的可視化界面可以達到事半功倍的效果。數(shù)據(jù)可視化圖形設(shè)計并沒有固定的范式,在不影響傳遞信息的基礎(chǔ)上要積極探索、勇于創(chuàng)新。數(shù)據(jù)可視化是通過視覺語言的方式來將數(shù)據(jù)表達得更為直觀明了,從而讓用戶快速獲取信息??梢暬夹g(shù)可以提高人們直觀上獲取信息的能力。本節(jié)將講解數(shù)據(jù)可視化、數(shù)據(jù)可視化的發(fā)展方向,然后對可視化圖形設(shè)計進行介紹,包括基礎(chǔ)圖表、一般的數(shù)據(jù)可視化圖形設(shè)計流程。了解數(shù)據(jù)可視化一般而言,可視化指將抽象之物形象化。所謂一圖勝千言,研究表明,人每天所接受的信息大部分是通過視覺獲得的,可視化將不可見的事物(如氣流)通過可見的形式表達,從而讓人可以去觀察和理解相應(yīng)事物,獲得更多信息。數(shù)據(jù)可視化分析是利用形象思維將大規(guī)模、高緯度、多種類數(shù)據(jù)映射為高清晰度、多維交互、大屏拼接的視覺符號,幫助人們從中發(fā)現(xiàn)規(guī)律的同時更高效地認(rèn)知數(shù)據(jù),是發(fā)現(xiàn)數(shù)據(jù)所反映的實質(zhì)的科學(xué)技術(shù)分析手段。數(shù)據(jù)可視化主要包括文本可視化、網(wǎng)絡(luò)可視化、時空數(shù)據(jù)可視化和多維數(shù)據(jù)可視化等方面。隨著計算機技術(shù)的發(fā)展,交互式可視化逐漸成為除了上述可視化方向之外的新研究熱點數(shù)據(jù)可視化的發(fā)展方向數(shù)據(jù)可視化是近年來不斷發(fā)展的交叉學(xué)科,是藝術(shù)和科技的融合。技術(shù)與時俱進,把握技術(shù)的發(fā)展方向,需要用發(fā)展的理念推動新的發(fā)展,適應(yīng)新的形勢,推動新的實踐。可視化在學(xué)術(shù)界的優(yōu)秀成果涵蓋城市數(shù)據(jù)可視化、科學(xué)可視化、圖可視化、高維數(shù)據(jù)可視化、人機交互(Human-ComputerInteraction,HCI)、AR/VR、數(shù)據(jù)敘事、可視分析等多個方面??梢暬且粋€高度綜合的交叉型領(lǐng)域,隨著時代與技術(shù)的發(fā)展,可視化的深度和廣度同樣在不斷地擴展?,F(xiàn)在的研究內(nèi)容包括大規(guī)模科學(xué)數(shù)據(jù)可視化、城市數(shù)據(jù)可視化、靈活構(gòu)建可視化、新聞數(shù)據(jù)可視化、生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)可視化分析、文化遺產(chǎn)應(yīng)用數(shù)據(jù)可視化、理解和診斷深度學(xué)習(xí)模型等多種方向。旅游業(yè)的數(shù)據(jù)可視化景區(qū)綜合管理服務(wù)平臺是一個利用數(shù)據(jù)可視化技術(shù)分析旅游大數(shù)據(jù)的具體應(yīng)用,其統(tǒng)計景區(qū)內(nèi)外客流數(shù)據(jù)、實時客流數(shù)據(jù)、客流總數(shù)、區(qū)域客流排名、新老客戶占比、游客停留時長、各時段客流人數(shù)、歷史客流等數(shù)據(jù)??梢允褂寐糜螣狳c可視化界面展示景區(qū)的熱點區(qū)域,游客集中區(qū)域等信息。旅游業(yè)的數(shù)據(jù)可視化可以通過游客畫像可視圖顯示“年度游客對比統(tǒng)計”“游客渠道來源”“消費業(yè)態(tài)占比”“來源城市排行”“游客年齡分布”“實時入園游客數(shù)”幫助行業(yè)內(nèi)商家制定更為科學(xué)合理的旅行方案,做到資源合理整合、提高收益率。旅游業(yè)的數(shù)據(jù)可視化通過景區(qū)管理可視化,結(jié)合實時的游客流量數(shù)據(jù)和“旅游單位數(shù)量與產(chǎn)值分布”等數(shù)據(jù),管理者能夠確定景區(qū)內(nèi)的重點監(jiān)測區(qū)域,排除重點區(qū)域的安全隱患,方便景區(qū)管理,降低管理成本,避免發(fā)生重大安全事故。電商業(yè)的數(shù)據(jù)可視化電商企業(yè)運轉(zhuǎn)過程中會產(chǎn)生大量數(shù)據(jù),從海量數(shù)據(jù)中提取有效信息是電商企業(yè)發(fā)展的需求。而圖形、圖表等展示方式可在幾秒內(nèi)提供有效信息,利用這些數(shù)據(jù),決策者可以通過電子商務(wù)可視化系統(tǒng)來實現(xiàn)實時管理,獲得數(shù)據(jù)驅(qū)動的洞察力,以便做出更好的決定。包括以下主要內(nèi)容:全系統(tǒng)可視全程可視實時可視雙向可視電商業(yè)的數(shù)據(jù)可視化電商銷量數(shù)據(jù)分析可視化大屏,可以呈現(xiàn)了該電商平臺的銷量信息數(shù)據(jù),如“近七日銷量”“資金儲備使用情況”“各季度銷量”等,為電商公司提供更加方便、快捷和更加自動化、智能化的服務(wù)。教育業(yè)的數(shù)據(jù)可視化教育資源可視化,通過結(jié)合“教職工社保情況”“教師人數(shù)”“學(xué)生人數(shù)”“招生數(shù)量”等數(shù)據(jù)項對我國目前的教育資源進行數(shù)據(jù)可視化分析,對比不同地區(qū)的教育資源分配情況,對未來進一步優(yōu)化教育資源配置提供數(shù)據(jù)支持?;A(chǔ)圖表數(shù)據(jù)可視化有很多類型的圖表,如常見的柱狀圖、餅圖、折線圖、散點圖和氣泡圖,還有特殊用途的漏斗圖、甘特圖、核密度圖、箱線圖、熱力圖等,不同類型的圖表在不同的數(shù)據(jù)表示中有各自的優(yōu)勢柱狀圖。柱狀圖可以通過垂直或水平條顯示維度字段的分布。柱狀圖能直觀地表現(xiàn)出各組數(shù)據(jù)的差異性,最適合比較不同類別的數(shù)據(jù)大小,但不太適合數(shù)據(jù)集較大的數(shù)據(jù)。餅圖。餅圖通過比例的形式來顯示局部和整體之間的大體關(guān)系。餅圖的每個部分都標(biāo)有標(biāo)簽,進而可以用于直觀顯示各項占總體的比例,適用于具有整體意義的各項相同數(shù)據(jù)。但是餅圖的缺點也比較明顯,其數(shù)據(jù)分類不夠精細(xì),不適合分類較多的情況。同餅圖一樣,環(huán)形圖也經(jīng)常用做占比分析?;A(chǔ)圖表折線圖。與柱狀圖相比,折線圖不僅可以展示數(shù)量,還可以直觀地反映事物隨時間序列變化的趨勢。散點圖和氣泡圖。散點圖的數(shù)據(jù)通常是點的集合,呈現(xiàn)成對的數(shù)和它們所代表的趨勢或分布關(guān)系。散點圖可以衍生出氣泡圖,通過氣泡的面積大小來呈現(xiàn)x軸、y軸以外的第三維數(shù)據(jù)大小。散點圖適用于二維數(shù)據(jù)集,氣泡圖適用于三維數(shù)據(jù)集。散點圖、氣泡圖的優(yōu)點是能夠直觀反映數(shù)據(jù)的集中情況。一般的數(shù)據(jù)可視化圖形設(shè)計流程圖形設(shè)計的過程中存在諸多矛盾,必須善于從多種矛盾中抓住主要矛盾,提出主要的任務(wù),從而掌握工作的中心環(huán)節(jié)。不同的信息內(nèi)容主題需要不同的藝術(shù)手法來表現(xiàn)設(shè)計效果,以使人們對所傳達的信息產(chǎn)生共鳴。一般的數(shù)據(jù)可視化圖形設(shè)計流程包含如下幾個步驟:根據(jù)業(yè)務(wù)場景抽取關(guān)鍵指標(biāo)確立指標(biāo)分析維度選定可視化圖表類型頁面設(shè)計整體細(xì)節(jié)調(diào)優(yōu)實例引入:某機場數(shù)據(jù)可視化大屏數(shù)據(jù)可視化圖形設(shè)計指南數(shù)據(jù)可視化主要技術(shù)主流的數(shù)據(jù)可視化工具數(shù)據(jù)可視化主要技術(shù)數(shù)據(jù)可視化是一種新穎的數(shù)據(jù)分析技術(shù),同時作為一種表達數(shù)據(jù)的方式,數(shù)據(jù)可視化是對現(xiàn)實世界的抽象表達,借助圖形化手段來直觀地表達數(shù)據(jù)隱含規(guī)律和內(nèi)在知識。根據(jù)目標(biāo)的不同,數(shù)據(jù)可視化技術(shù)可以分為四類,即對比、分布、組成、關(guān)系。數(shù)據(jù)關(guān)系應(yīng)用場景可選類型圖表對比一個維度的數(shù)據(jù)比較、數(shù)據(jù)單純性展示、排序數(shù)據(jù)展示,更加關(guān)注數(shù)據(jù)間的差異柱狀圖、橫向柱狀圖分布一個維度各項指標(biāo)占總體的占比情況,分布情況,重點在于找到數(shù)據(jù)集中的范圍,找出其中的規(guī)律餅圖、環(huán)形圖組成查看數(shù)據(jù)靜態(tài)或動態(tài)組成,組成是數(shù)據(jù)的細(xì)化問題,部分占比關(guān)系展示堆疊圖、堆疊柱狀圖、堆疊面積圖關(guān)系查看數(shù)據(jù)之間的相關(guān)性,常結(jié)合統(tǒng)計學(xué)相關(guān)性分析方法散點圖、氣泡圖數(shù)據(jù)可視化主要技術(shù)可視化技術(shù)之-對比比較不同元素之間或不同時刻之間的值。對于不同元素,可以根據(jù)元素包含的變量數(shù)目分為單元素多變量和單元素單變量。如果是單元素多變量,如企業(yè)自身不同產(chǎn)品銷量對比,那么可以采用多變量柱狀圖。如果是單元素單變量,如多個企業(yè)產(chǎn)值比較,那么可以采用柱狀圖。柱狀圖如下所示。數(shù)據(jù)可視化主要技術(shù)可視化技術(shù)之-分布查看數(shù)據(jù)分布特征,常用于數(shù)據(jù)異常發(fā)現(xiàn)、進行數(shù)值過濾和數(shù)據(jù)基本統(tǒng)計性特征分析。單個變量的分布,根據(jù)數(shù)據(jù)點數(shù)量多少分別采用折線圖和柱狀圖;兩個變量的分布可以采用直方圖、散點圖;多個變量的分布可以采用平行坐標(biāo)法數(shù)據(jù)可視化主要技術(shù)可視化技術(shù)之-組成組成是指查看數(shù)據(jù)靜態(tài)或動態(tài)組成。動態(tài)組成可以根據(jù)數(shù)據(jù)時間特點,分為短期數(shù)據(jù)的動態(tài)組成和長期數(shù)據(jù)的動態(tài)組成。對于靜態(tài)組成,若為簡單的總體組成,可以采用餅圖;若關(guān)注相對整體的增減可以采用瀑布圖;若組成元素包含子元素,可以采用堆疊比例柱狀圖;若關(guān)注組成及其具體數(shù)值,可以采用樹圖。數(shù)據(jù)可視化主要技術(shù)可視化技術(shù)之-關(guān)系查看變量之間的相關(guān)性,常結(jié)合統(tǒng)計學(xué)相關(guān)性分析方法,通過視覺結(jié)合使用者的專業(yè)知識與場景需求判斷多個因素之間的影響關(guān)系。根據(jù)變量的多少進行劃分,若是兩個變量可以采用散點圖;若是3個變量可以采用氣泡圖,用散點半徑表示第3個變量;超過3個變量可以采用平行坐標(biāo)法數(shù)據(jù)可視化主要技術(shù)大數(shù)據(jù)具有5V特點,即Volume、Variety、Value、Velocity、Veracity,與大數(shù)據(jù)基本特點相關(guān)的可視化技術(shù)包括大規(guī)模數(shù)據(jù)可視化、時序數(shù)據(jù)可視化和數(shù)據(jù)可視化生成技術(shù)。大規(guī)模數(shù)據(jù)可視化。大規(guī)模數(shù)據(jù)可視化一般認(rèn)為是處理數(shù)據(jù)規(guī)模達到TB或PB級別的數(shù)據(jù),常用于科學(xué)計算數(shù)據(jù),例如氣象模擬、數(shù)值風(fēng)洞、核模擬、洋流模擬、星系演化模擬等領(lǐng)域時序數(shù)據(jù)可視化。時序數(shù)據(jù)可視化是一種將數(shù)據(jù)點按時間順序展示的技術(shù),旨在揭示數(shù)據(jù)隨時間變化的趨勢、模式和異常。這種可視化方法對于分析歷史數(shù)據(jù)、監(jiān)控實時數(shù)據(jù)流、預(yù)測未來趨勢以及識別數(shù)據(jù)中的周期性變化尤為重要數(shù)據(jù)可視化生成技術(shù)。數(shù)據(jù)可視化形成了從底層編程到上層交互式定制的多層次生成方式。編程式數(shù)據(jù)可視化生成方式通過利用編程語言和庫,將復(fù)雜的數(shù)據(jù)集轉(zhuǎn)換成直觀的圖形表示,為數(shù)據(jù)科學(xué)家和開發(fā)者提供了創(chuàng)建精細(xì)定制化視覺表示的能力實例引入:某機場數(shù)據(jù)可視化大屏數(shù)據(jù)可視化圖形設(shè)計指南數(shù)據(jù)可視化主要技術(shù)主流的數(shù)據(jù)可視化工具主流的數(shù)據(jù)可視化工具在各種數(shù)據(jù)展現(xiàn)方法中,數(shù)據(jù)可視化技術(shù)被認(rèn)為是最容易為人類所接受的表現(xiàn)形式。數(shù)據(jù)可視化技術(shù)的優(yōu)劣將直接影響數(shù)據(jù)的最終應(yīng)用與決策。學(xué)習(xí)使用主流的數(shù)據(jù)可視化工具的過程中,應(yīng)該具備突破陳規(guī)、勇于創(chuàng)新的思想觀念,不斷地在實踐中感受工匠精神,鍛煉精益求精的意志品質(zhì)。如今,數(shù)據(jù)可視化的工具越來越多,主流的可視化工具有基于類庫的可視化工具,如D3和ECharts;也有各種優(yōu)秀的商用BI軟件,如Tableau、FineBI和PowerBI數(shù)據(jù)可視化類庫隨著Ja
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能交通系統(tǒng)代理服務(wù)合同4篇
- 2025年度智能鋁板裝配一體化工程承包合同4篇
- 2025年度智慧城市建設(shè)項目承包經(jīng)營合同范本8篇
- 2025年度水電工程水土保持與生態(tài)修復(fù)承包合同集錦4篇
- 2025年度體育場館設(shè)施升級改造勞務(wù)分包合同3篇
- 2024年精簡版房地產(chǎn)銷售協(xié)議綱要版
- 2025年度特種車輛租賃與維護服務(wù)協(xié)議3篇
- 2025年度文化創(chuàng)意產(chǎn)業(yè)園區(qū)建設(shè)承包借款合同4篇
- 2025年度智能路燈與充電樁一體化安裝服務(wù)合同3篇
- 2024藝人經(jīng)紀(jì)合同糾紛案例
- 刀模檢測、保養(yǎng)記錄
- 小學(xué)五年級脫式計算題300道-五年級上冊脫式計算題及答案
- 鋁礬土進口合同中英文
- 最新臺灣藥事法
- 2022年金礦采選項目可行性研究報告
- 氧氣吸入法操作并發(fā)癥預(yù)防及處理規(guī)范草稿
- 2022版云南財經(jīng)大學(xué)推免管理辦法
- 門診特定病種待遇認(rèn)定申請表
- 混合離子交換器使用說明書正本
- 工傷保險待遇及案例分析PPT課件
- 自控工程識圖
評論
0/150
提交評論