大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總 ( 李俊翰 ) 項目1-7_第1頁
大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總 ( 李俊翰 ) 項目1-7_第2頁
大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總 ( 李俊翰 ) 項目1-7_第3頁
大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總 ( 李俊翰 ) 項目1-7_第4頁
大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總 ( 李俊翰 ) 項目1-7_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)分析技術(shù)習(xí)題答案.大數(shù)據(jù)分析的基礎(chǔ)包含哪五個方面?(1)數(shù)據(jù)挖掘與分析從廣義的角度出發(fā),數(shù)據(jù)挖掘算法是大數(shù)據(jù)分析的重要核心內(nèi)容。只有特定的數(shù)據(jù)挖掘算法 處理不同業(yè)務(wù)場景所產(chǎn)生的數(shù)據(jù)類型和結(jié)構(gòu),才能獲得高質(zhì)量的價值數(shù)據(jù)。同時,隨著數(shù)據(jù) 挖掘算法地不斷優(yōu)化,使其能夠處理更多、更大和更復(fù)雜的數(shù)據(jù)內(nèi)容。(2)數(shù)據(jù)可視化分析大數(shù)據(jù)可視化分析因其直觀,易讀,易理解,不僅被大數(shù)據(jù)分析科學(xué)家使用,也大量地使用 在普通客戶的業(yè)務(wù)需求之中。大數(shù)據(jù)可視化分析能夠非常高效地將晦澀難懂,抽象的數(shù)據(jù), 以清晰、直接的各種圖形和表格非常簡單描述出數(shù)據(jù)背后所蘊含的豐富故事。(3)預(yù)測分析大數(shù)據(jù)預(yù)測分析是大數(shù)據(jù)分析的重要

2、應(yīng)用,通過應(yīng)用數(shù)據(jù)挖掘算法找到特定業(yè)務(wù)領(lǐng)域的大數(shù) 據(jù)特點,并建立符合行業(yè)特征的數(shù)據(jù)模型,實現(xiàn)對未來業(yè)務(wù)數(shù)據(jù)進(jìn)行有效的預(yù)測,幫助優(yōu)化 不同行業(yè)、企業(yè)的經(jīng)營和決策。(4)語義分析大數(shù)據(jù)語義分析用于對網(wǎng)絡(luò)數(shù)據(jù)的分析和挖掘,通過對用戶不同行為產(chǎn)生的不同數(shù)據(jù),例如, 評論關(guān)鍵詞、搜索關(guān)鍵詞、產(chǎn)品關(guān)鍵詞等特定行業(yè)的上下文語義,有針對性地分析和判斷用 戶需求和行為模式,為企業(yè)和用戶提供更好的服務(wù)和體驗。(5)數(shù)據(jù)分析和質(zhì)量管理大數(shù)據(jù)不僅僅只有海量的數(shù)據(jù),更需要其高質(zhì)量的數(shù)據(jù)和數(shù)據(jù)管理作為重要支撐。高質(zhì)量的 數(shù)據(jù)能夠更加精準(zhǔn)地針對特定業(yè)務(wù)數(shù)據(jù)提供更有價值的數(shù)據(jù)分析結(jié)果。.大數(shù)據(jù)分析有什么作用?(1)進(jìn)一步提升

3、工作效率面對需要處理的海量數(shù)據(jù),不僅需要花費大量的人力、物力和財力對其進(jìn)行有效存儲、管理 和維護(hù),還要對其實施有效地分析處理才能發(fā)現(xiàn)變量和常量等數(shù)據(jù)之間隱藏的內(nèi)在關(guān)聯(lián)。因 此,數(shù)據(jù)分析能夠通過正確的呈現(xiàn)方式,將數(shù)據(jù)之間千絲萬縷的關(guān)系和規(guī)律進(jìn)行簡單地描述, 從而提升工作效率。(2)讓業(yè)務(wù)和數(shù)據(jù)變得更加易于理解、可讀傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)往往不能非常直觀地呈現(xiàn)出數(shù)據(jù)整體和局部的狀態(tài)和聯(lián)系。不僅對于 專業(yè)數(shù)據(jù)科學(xué)家,還包括普通用戶,要及時,高效地理解和掌握某個領(lǐng)域或業(yè)務(wù)當(dāng)中海量的 結(jié)構(gòu)化數(shù)據(jù)表,甚至是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),都是十分困難的事情。通過應(yīng)用大數(shù)據(jù) 分析技術(shù)能夠讓復(fù)雜的數(shù)據(jù)變得可讀、可理解

4、,有利于數(shù)據(jù)工作者和客戶能夠?qū)?shù)據(jù)進(jìn)行更 優(yōu)化的歸納和總結(jié),并使得特定的業(yè)務(wù)數(shù)據(jù)變得更加有邏輯,條理更加清晰。(3)業(yè)務(wù)開展更加精準(zhǔn)大數(shù)據(jù)分技術(shù)的目的就是為了在海量數(shù)據(jù)之中發(fā)現(xiàn)知識,用科學(xué)的統(tǒng)計方法幫助人們精準(zhǔn)定 位業(yè)務(wù)過程中可能存在的問題和機會,從而防止了業(yè)務(wù)實施過程中的失誤,使得業(yè)務(wù)實施的 路線和方向更加明確和精準(zhǔn)。.大數(shù)據(jù)分析有哪些技術(shù)?Python.簡述HADOOP框架。Hadoop是主流的大數(shù)據(jù)存儲和分析平臺之一。它是來源于Apache基金會以Java編寫的開 源分布式框架工程。其核心組件是IIDFS、YARN和MapReduce,其它組件為:HBase HIVE Zookeeper

5、 Spark Kafka Flume、Ambari 和 Sqoop 等。這 些組件共同提供了一套完成服務(wù)或更高級的服務(wù)。Hadoop可以將大規(guī)模海量數(shù)據(jù)進(jìn)行分布式并行處理。Hadoop具有高度容許錯性、可擴展性、 司可靠性和穩(wěn)定性。.簡述HADOOP核心組件和工作原理。HADOOP有三個核心組件:HDFS (數(shù)據(jù)存儲)、MapReduce (分布式離線計算)和YARN (資源 調(diào)度)HDFS (Hadoop Distributed File System) Hadoop 分布式文件系統(tǒng)HDFS屬于Hadoop的底層核心組件。它是分布式文件系統(tǒng)的一種,并具備以下特點:海量數(shù)據(jù)和流式數(shù)據(jù)訪問讀寫交

6、互能力高度容錯能力移動計算部署方便MapReduce是建立在HDFS之上的數(shù)據(jù)映射和化簡并行處理技術(shù)。它是一種具有線性特 質(zhì)的,可擴展的編程模型。它對網(wǎng)絡(luò)服務(wù)器日志等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理非常有效。MAP和REDUCE分別代表 兩種函數(shù)。前者主要負(fù)責(zé)將一個任務(wù)進(jìn)行碎片化處理,后者主要負(fù)責(zé)將各種碎片化信息進(jìn)行重組匯總。YARN (Yet Another Resource Negotiator)或第二代 MapReduce由于第一代MapReduce存在一定的局限性,例如Jobtracker既要負(fù)責(zé)資源管理,又要監(jiān)控、 跟蹤、記錄和控制任務(wù),成為整個MapReduce的性能瓶頸。最重要的是,

7、第一代MapReduce在系統(tǒng)的整體資源利用率 方面相對較低。因此,為了優(yōu)化和提升MapReduce的性能和資源利用率,Hadoop引入了 YARN專門用于整合 Hadoop集群資源,并支持其他分布式計算模式。YARN 的組成局部主要由三個組件:ResourceManager NodeManager 和 ApplicationMaster。.簡述HIVE、Spark和HBase的特點。(1)Hive具有如下特點:可擴展性由于Hive是建立在Hadoop之上,因此有與Hadoop集群一樣的擴展性。Hive可以在不用重 新啟動服務(wù)的前提下實現(xiàn)集群規(guī)模的自由擴展??裳诱剐訦ive可以通過編寫更加靈活

8、多樣的HQL語言實現(xiàn)比MapReduce更豐富的函數(shù)。容錯性Hive可以使用Hadoop集群的超強冗余性實現(xiàn)數(shù)據(jù)的容錯性。Hive本身的元數(shù)據(jù)那么存放在 mysql數(shù)據(jù)庫中。Spark具有如下特點:運行速度快Spark使用基于高速緩存的分布式實時計算框架。與MapReduce不斷重復(fù)使用磁盤輸入輸出 保存計算結(jié)果相比,Spark最大優(yōu)勢在于能夠高效地使用高速緩存進(jìn)行迭代重復(fù)計算。只有 在內(nèi)存缺乏的情況,Spark才會使用磁盤輸入和輸出。簡單易用可以通過Java, Scala, Python, R和SQL等不同語言快速去編寫Spark程序,允許開發(fā)人員 使用自己熟悉的語言編寫Spark程序,極大

9、地提升了 Spark的普及范圍。同時,Spark自帶 80多個高級操作符,能夠更容易地創(chuàng)立Spark并行應(yīng)用程序,并能夠與Java, Scala, Python, R 和SQL shell交互。普適通用Spark是一個分布式計算框架,不僅能夠?qū)崿F(xiàn)MapReduce的場景功能,更能在更多業(yè)務(wù)場景 中展露頭角。Spark既有可以實現(xiàn)離線計算的Spark SQL模塊,也有可以實現(xiàn)實時計算的 Spark Streaming模塊以及封裝了常用的機器學(xué)習(xí)庫Mlib和圖計算庫Graphxo 運行方式多樣性Spark有兩種運行方式:StandAlone和YARN。在StandAlone模式下用戶可以在Hado

10、op集 群的一組或全部機器中靜態(tài)分配資源,與Hadoop MR同時運行,用戶可以在HDFS上運行專 屬的Spark任務(wù)。 在YARN模式中,Hadoop用戶可以簡單的把Spark運行在YARN中,像 其他運行在Spark上層的模塊一樣充分利用Spark的強大計算能力。HBase具有如下特點:高可靠性HBase基于Hadoop的HDFS分布式文件架構(gòu),具有極強的可靠性。高性能HBase是面向?qū)崟r查詢的分布式數(shù)據(jù)庫,能夠非常高效地查詢和寫入數(shù)據(jù),實現(xiàn)高并發(fā)和實 時處理數(shù)據(jù)。彈性可擴展HBase建立在Hadoop的HDFS之上,通過線性方式從下到上靈活地增刪節(jié)點來進(jìn)行擴展,并 且被眾多企業(yè)廣泛地使用

11、在緩存服務(wù)器方面。面向列的操作HBase面向列來進(jìn)行存儲和查詢的,包括:行鍵(Row Key) 列族(Column Family)、列 修飾符(Column Qualifier)、數(shù)據(jù)(Value)和時間戳(TimeStamp)和類型(Type),# 4.簡述 Kafka、Flume、Sqoop 和 Zookeeper 的組織架構(gòu)。(1)Kafka生產(chǎn)者Producer:用于向Kafka集群以Topic的方式發(fā)送消息。主題Topic: 一個Topic類似于一個消息流的名字。消費者Consumer:用于不斷地向Kafka集群接收并處理消息流。(2)FlumeSource:數(shù)據(jù)的來源和方式Chan

12、nel:數(shù)據(jù)的緩沖池Sink:定義了數(shù)據(jù)輸出的方式和目的地Flume的關(guān)鍵流程是首先通過source獲取到數(shù)據(jù)源的數(shù)據(jù),然后將數(shù)據(jù)緩存在Channel當(dāng) 中以保證數(shù)據(jù)傳輸過程中不喪失,最后通過Sink將數(shù)據(jù)發(fā)送到指定的位置。(3)SqoopSqoop Server:所有的連接器Connectors都安裝在Sqoop Server上便于統(tǒng)一管理。其中, Connectors負(fù)責(zé)數(shù)據(jù)讀寫,Metadata負(fù)責(zé)管理數(shù)據(jù)庫的元數(shù)據(jù)。Sqoop Client:通過瀏覽器或者CLI實現(xiàn)客戶端的REST API、JAVA APR WEB UI以及CL I 控制臺與Sqoop Server的交互。(4)Zoo

13、keeperLeader:所有Zookeeper服務(wù)器中只有一個Leader被選舉出來,作為整個ZooKeeper集 群的主節(jié)點,其它節(jié)點都是Follower或Observer。Leader是所有應(yīng)用程序事務(wù)請求的最高 協(xié)調(diào)和決定者,統(tǒng)一管理集群事物的執(zhí)行順序,保證整個集群內(nèi)部消息處理的先進(jìn)先出。Observer:主要應(yīng)用于需要處理更多負(fù)載或者跨機房的應(yīng)用場景用于提升系統(tǒng)可擴展性, 提升讀取速度,但Observer不參與選舉投票。Follower:接收Client的請求,返回響應(yīng)給Client,并參與Leader的選舉投票。Client:事務(wù)請求發(fā)送者.請簡要介紹一下機器學(xué)習(xí)的開發(fā)流程。(1)

14、獲取數(shù)據(jù):從指定數(shù)據(jù)源獲取業(yè)務(wù)數(shù)據(jù)(2)數(shù)據(jù)預(yù)處理:對源數(shù)據(jù)進(jìn)行數(shù)據(jù)清理(處理缺失值、重復(fù)值和邏輯錯誤值)、數(shù)據(jù)集 成(處理實體數(shù)據(jù)識別和冗余問題)、數(shù)據(jù)規(guī)約(用較小的數(shù)據(jù)替換較大的源數(shù)據(jù))(3)特征工程:數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已。 其目的是最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。(4)模型訓(xùn)練:通過導(dǎo)入指定的特征數(shù)據(jù),對模型進(jìn)行訓(xùn)練和優(yōu)化。(5)模型評估:使用損失函數(shù)對模型進(jìn)行評估。(6)應(yīng)用預(yù)測:將測試數(shù)據(jù)導(dǎo)入評估后的模型中進(jìn)行檢驗。.請簡要介紹一下機器學(xué)習(xí)的實施步驟。(1)針對具體的業(yè)務(wù)需求,選擇合適的基本模型。模型就是一組用于處理具體業(yè)

15、務(wù)數(shù)據(jù)的 函數(shù)。(2)模型在數(shù)據(jù)的訓(xùn)練下不斷被優(yōu)化,但衡量這組函數(shù)質(zhì)量優(yōu)劣的標(biāo)準(zhǔn)就叫做損失函數(shù)。 損失函數(shù)適用于不同的具體業(yè)務(wù)需求的,回歸問題可以使用平方誤差損失函數(shù)和絕對值誤差 損失函數(shù),分類問題可以使用交叉端損失函數(shù)。(3)在具體業(yè)務(wù)場景中找到一個最合適的模型是機器學(xué)習(xí)的關(guān)鍵,常用的方法有梯度下降 法、最小二乘法實現(xiàn)局部或全局最優(yōu)。(4)將最合適的模型應(yīng)用到該業(yè)務(wù)的最新數(shù)據(jù)當(dāng)中,檢驗其效果。.機器學(xué)習(xí)常用算法分為哪兩大類?機器學(xué)習(xí)算法主要分為兩大類:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)帶有目標(biāo)數(shù)據(jù)(即有 標(biāo)準(zhǔn)答案),無監(jiān)督數(shù)據(jù)不需要目標(biāo)數(shù)據(jù)(無標(biāo)準(zhǔn)答案)。有監(jiān)督學(xué)習(xí)可以再分為回歸和分類,無監(jiān)

16、督學(xué)習(xí)可以再分為降維和聚類。.請介紹一下樸素貝葉斯的基本思想和特點。樸素貝葉斯算法是一個常見的分類算法,比擬適用于垃圾郵件過濾、文本分類或拼寫查錯等 領(lǐng)域。樸素貝葉斯的最大特點就是:特征條件獨立假設(shè)。該假設(shè)獨立看待當(dāng)前每一個條件指標(biāo)與待分類項的概率關(guān)系,并不關(guān)心各個條件指標(biāo)之間有無依賴關(guān)系。例如, 一般情況下,銀行會根據(jù)客戶的月收入、信用卡額度、房車情況等不同方面的特征綜合判斷是否給客戶辦理貸款手續(xù)。因為一般對于月收入較高的客戶來說,信用卡額度 和房車情況都是比擬良好的狀態(tài)。月收入和信用卡額度和房車情況存在很高的相關(guān)性。然而樸素貝葉斯算法會忽略這種特征之間的內(nèi)在關(guān)系,直接認(rèn)為客戶的月收入、房

17、產(chǎn)與信用卡額度之間沒有任何關(guān)系,三者是各自獨立的特征,而只從這三個指標(biāo)各自對是否辦理貸款的影響概率大小去判斷。.請介紹一下K均值聚類算法的基本思想和計算過程。基本思想:在數(shù)據(jù)樣本中首先設(shè)定K個樣本點作為聚類的中心點,然后通過比照每個中心點 與周圍數(shù)據(jù)點距離的大小,決定數(shù)據(jù)點歸屬的類別,把每個數(shù)據(jù)點分配給距離它最近的聚類 中心。根據(jù)這種聚類方式,每次吸納了新的數(shù)據(jù)點后,便重新計算當(dāng)前聚類中心的位置(各 數(shù)據(jù)點到中心點的平均距離),直到滿足指定的聚類終止條件為止。終止條件包括:沒有(或最小數(shù)目)數(shù)據(jù)點被分配給不同的聚類、聚類中心不再發(fā)生變化或到達(dá)誤差平 方和局部最小。計算過程:根據(jù)具體業(yè)務(wù)數(shù)據(jù)選擇

18、K個數(shù)據(jù)點作為聚類中心點。計算所有數(shù)據(jù)點與K個數(shù)據(jù)點的距離。將離聚類中心點最近的數(shù)據(jù)點歸為同一類。重新計算新類中的聚類中心點位置。重復(fù)(2) (3)步驟,直到到達(dá)聚類終止條件。.請介紹一下“啤酒與尿布”故事。在美國沃爾瑪連鎖店超市的真實案例,沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),集中了其各 門店的詳細(xì)原始交易數(shù)據(jù)。通過對消費者購物行為數(shù)據(jù)進(jìn)行分析時發(fā)現(xiàn),男性顧客在購買嬰兒尿片時,會順便購買幾瓶啤酒,于是推出了將啤酒和尿布放在一起的促 銷手段。揭示了一個隱藏在尿布與啤酒背后的美國人的一種行為模式。Python擁有非常成熟的技術(shù)和資源社區(qū),能夠在數(shù)據(jù)分析和處理、人工智能以及數(shù)據(jù)可視 化等方面提供強大

19、的技術(shù)支持。大數(shù)據(jù)業(yè)務(wù)流程的數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)處 理以及數(shù)據(jù)可視化都是應(yīng)用Python及其類庫實現(xiàn)的。Python比擬著名的類庫和工具有: Numpy、 Pandas Matplotlib Scikit-learn 等。NumpyNumpy是Python中的一個矩陣計算包,提供了非常強大的數(shù)組ndarray及其相應(yīng)的處理函 數(shù)ufunc,使其能夠在高效地應(yīng)用內(nèi)存的前提下,非??焖俚貏?chuàng)立N維數(shù)組,并提供矢量化 數(shù)學(xué)運算,實現(xiàn)不編寫特定循環(huán)的情況下對整個數(shù)組進(jìn)行標(biāo)準(zhǔn)運算操作。Numpy的出現(xiàn)不僅 極大地彌補了 Python在操作列表數(shù)據(jù)類型進(jìn)行數(shù)值運算過程中比擬耗費內(nèi)存和CPU計算

20、資 源的問題,而且很好的補充了 Python的array模塊不能支持多維數(shù)組及其運算的缺乏。PandasPandas是建立在Numpy之上的一個Python數(shù)據(jù)分析包,擁有強大的數(shù)據(jù)分析功能,包含 SeriesDataFrame等高級數(shù)據(jù)結(jié)構(gòu)和工具。Pandas納入了大量的庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型, 提供了高效操作大型數(shù)據(jù)集所需要的工具。Pandas提供了大量快速便捷的函數(shù)和方法。其 中,Pandas擁有的坐標(biāo)軸特點能夠支持?jǐn)?shù)據(jù)自動對齊,高效提升不同數(shù)據(jù)源的數(shù)據(jù)探索和 檢索,防止了數(shù)據(jù)處理過程中出現(xiàn)的問題。MatplotlibMatplotlib是基于Numpy的一套Python包,擁有非常豐富

21、的可視化圖形庫和工具,通過強 大的接口能夠?qū)崿F(xiàn)繪制滿足不同數(shù)據(jù)類型和業(yè)務(wù)需求的專業(yè)圖形,并且能支持多種操作系統(tǒng) 的不同GUI后端,輸出的圖形格式可以是PDF, SVG, JPG, PNG, BMP, GIF等。Scikit-learnScikit-learn是一個基于Python語言的機器學(xué)習(xí)開源框架。sklearn中包含了大量的優(yōu)質(zhì) 的數(shù)據(jù)集,在學(xué)習(xí)機器學(xué)習(xí)的過程中,可以通過使用這些數(shù)據(jù)集實現(xiàn)出不同的模型。Hadoop及其主要生態(tài)圈Hadoop是大數(shù)據(jù)技術(shù)重要代表之一。它是來源于Apache基金會以JAVA編寫的開源分布式 框架工程。其核心組件是HDFS、YARN和MapReduce,其它組

22、件為:HBASE、HIVE、ZOOKEEPER 和SQOOP等。這些組件共同提供了一套完整服務(wù)或更高級的服務(wù)。Hadoop可以將大規(guī)模海 量數(shù)據(jù)進(jìn)行分布式并行處理。Hadoop具有高度容錯性、可擴展性、高可靠性和穩(wěn)定性,讓 Hadoop成為最流行的大數(shù)據(jù)分析系統(tǒng)。.大數(shù)據(jù)分析有哪些流程?(1)問題識別在開展大數(shù)據(jù)分析之前,首先應(yīng)該明確具體任務(wù)以及需要解決的問題。只有以解決問題為導(dǎo) 向,才能更加清晰、有效地圍繞問題開展數(shù)據(jù)分析工作。(2)數(shù)據(jù)可行性數(shù)據(jù)可行性是指根據(jù)識別的問題所需要得到的數(shù)據(jù)是否具有較高可靠性和可用性以及數(shù)據(jù)過度擬合問題。數(shù)據(jù)可行性需要把握三個細(xì)節(jié):明確數(shù)據(jù)的體量和專業(yè)領(lǐng)域明確抽

23、象概念和具體指標(biāo)數(shù)據(jù)的映射關(guān)系明確具體業(yè)務(wù)中的代表性數(shù)據(jù)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備需要具體落實每個數(shù)據(jù)的具體作用和所代表的具體內(nèi)涵,可以說大數(shù)據(jù)分析的大部 分時間都是花費對數(shù)據(jù)的準(zhǔn)備過程中。具體分?jǐn)?shù)據(jù)采集和數(shù)據(jù)預(yù)處理。數(shù)據(jù)采集:在這個數(shù)據(jù)爆炸的時代,不管是提供底層基礎(chǔ)架構(gòu)的云計算,還是實現(xiàn)各種 人工智能應(yīng)用,都離不開其核心的源泉:數(shù)據(jù)。由于物聯(lián)網(wǎng)海量的穿戴設(shè)備、網(wǎng)絡(luò)多媒體平 臺以及電子商務(wù)平臺中的數(shù)據(jù)太多、太寬泛,人們需要通過特殊的技術(shù)和方法實現(xiàn)在海量的 數(shù)據(jù)中到真正有價值的數(shù)據(jù),從而為下一步大數(shù)據(jù)分析業(yè)務(wù)提供數(shù)據(jù)支撐。因此,數(shù)據(jù) 采集是直接獲取數(shù)據(jù)的橋頭堡。數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理主要是指在對數(shù)據(jù)開展具

24、體分析和挖掘之前對數(shù)據(jù)進(jìn)行的一些 處理。數(shù)據(jù)預(yù)處理有四個任務(wù),數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。數(shù)據(jù)清洗:根據(jù)具體業(yè)務(wù)規(guī)那么制定針對性的數(shù)據(jù)清洗規(guī)那么,包括檢測和去除數(shù)據(jù)集中的噪聲 數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù),去除空白數(shù)據(jù)域或者是知識背景下的空值。數(shù)據(jù)集成:根據(jù)具體業(yè)務(wù)需要,將不同結(jié)構(gòu)和類型的數(shù)據(jù),例如,不同數(shù)據(jù)庫和不同格式的 普通文件有機地結(jié)合在一起,使之能夠為特定業(yè)務(wù)領(lǐng)域提供高質(zhì)量的數(shù)據(jù)共享服務(wù)。例如, 數(shù)據(jù)倉庫模式就是一種數(shù)據(jù)集成方式。它是面向主題的,集成的,相對穩(wěn)定的數(shù)據(jù)集合。 數(shù)據(jù)變換:根據(jù)具體大數(shù)據(jù)分析框架或技術(shù)的要求,結(jié)合具體業(yè)務(wù)的描述,將數(shù)據(jù)進(jìn)行特定 地轉(zhuǎn)換,使之更符合

25、大數(shù)據(jù)分析框架的特點和業(yè)務(wù)的需求方式。數(shù)據(jù)規(guī)約:根據(jù)業(yè)務(wù)需求對原始數(shù)據(jù)進(jìn)行量身裁剪,實現(xiàn)數(shù)據(jù)既能夠很好地保持?jǐn)?shù)據(jù)的完整 性,又能夠從數(shù)據(jù)維度、數(shù)量和體機方面得到有效地縮減。(4)數(shù)據(jù)模型數(shù)據(jù)模型是用經(jīng)過設(shè)計之后的數(shù)據(jù)對現(xiàn)實世界特征的描述和呈現(xiàn)。數(shù)據(jù)模型能夠很好地將現(xiàn) 實世界中需要處理的問題通過計算機能夠識別的方式進(jìn)行高效地的處理。數(shù)據(jù)模型的建立需 要結(jié)合業(yè)務(wù)模型、數(shù)據(jù)分析模型以及專家的經(jīng)驗判斷。另外,還要考慮當(dāng)前的運算能力是否 滿足數(shù)據(jù)模型的運算需求。(5)分析結(jié)果大數(shù)據(jù)分析的結(jié)果作為重要結(jié)論分為定性和定量的評估結(jié)果,分析結(jié)果必須要能夠嚴(yán)謹(jǐn)可靠 且符合業(yè)務(wù)決策需求。.大數(shù)據(jù)分析有哪些主要模型?

26、(1)比照分析模型在特定業(yè)務(wù)背景知識中將多個數(shù)據(jù)進(jìn)行比擬,從而發(fā)現(xiàn)和揭示事物的變化開展規(guī)律。比照分 析比擬簡單,能夠相對簡單地比擬數(shù)據(jù)之間的聯(lián)系,分析操作步驟較少,能夠非常直觀的呈 現(xiàn)不同數(shù)據(jù)的異同之處,能夠精準(zhǔn)表示數(shù)據(jù)之間度量值的差距。比照標(biāo)準(zhǔn)是比照分析的主要 抓手,將比照對象的指標(biāo)與標(biāo)準(zhǔn)進(jìn)行比照,就能得出有結(jié)果了。目前常用標(biāo)準(zhǔn)是時間標(biāo)準(zhǔn)、 空間標(biāo)準(zhǔn)、特定標(biāo)準(zhǔn)。例如,今年10月的某商品銷售數(shù)量和去年10月的銷售數(shù)量進(jìn)行比照 就是基于時間標(biāo)準(zhǔn)的比照分析;不同城市之間對于共享單車的接受程度就是基于空間標(biāo)準(zhǔn)的 比照分析;應(yīng)用專家經(jīng)驗判斷的數(shù)據(jù)標(biāo)準(zhǔn)與當(dāng)前領(lǐng)域數(shù)據(jù)的比照就是基于特定標(biāo)準(zhǔn)的比照分 析。(

27、2)分類分析模型分類分析通過給與不同類型的數(shù)據(jù)不同的成員資格,從而將數(shù)據(jù)分成不同類別的群體,其目 的是將未知類別的數(shù)據(jù)更好地向某一個類進(jìn)行歸納,并按其接近歸納的程度細(xì)化分類質(zhì)量。 例如,通過分類分析模型區(qū)別垃圾郵件和非垃圾郵件;通過糖尿病患者某些數(shù)據(jù)指標(biāo)(血糖, 血壓,心率等)判斷是否患有糖尿病。(3)關(guān)聯(lián)分析模型通過分析變量之間的關(guān)系發(fā)現(xiàn)數(shù)據(jù)之間隱含的聯(lián)系,包括明確自變量和因變量的因果變化規(guī) 律或者變量之間相關(guān)性、方向性和緊密程度等。作為數(shù)據(jù)挖掘的重要技術(shù),通過分析顧客的 消費數(shù)據(jù),發(fā)現(xiàn)其內(nèi)在偏好規(guī)那么,為商家提供有價值的銷售策略。關(guān)聯(lián)分析的應(yīng)用案例非常 多,例如,比擬著名的啤酒與尿布,人們

28、發(fā)現(xiàn)在超市里面購買尿布的男性顧客也會同時購買 啤酒,因此把啤酒和尿布放在同一個貨架上進(jìn)行銷售。(4)綜合分析模型綜合分析模型是將多個指標(biāo)綜合應(yīng)用在復(fù)雜數(shù)據(jù)環(huán)境中,通過分析研究對象個主要局部及其 特征,并以整合宏觀知識結(jié)構(gòu)和突出局部知識重點的思維方式進(jìn)行定性或定量分析判斷,將 多個指標(biāo)數(shù)據(jù)整合為針對某一個綜合評價的指標(biāo),從而揭示和發(fā)現(xiàn)復(fù)雜業(yè)務(wù)數(shù)據(jù)或現(xiàn)象總體 或一般特征或關(guān)系。例如,分析和評價人民幸福程度、學(xué)生綜合素質(zhì)和某行業(yè)開展前景報告 等。.簡述Python語言與其他數(shù)據(jù)分析工具的比擬(1)與Excel相比,Python通過調(diào)用強大的數(shù)據(jù)分析和處理模塊,實現(xiàn)靈活處理更大數(shù)據(jù) 集的報表數(shù)據(jù),并能

29、夠進(jìn)一步自動地實現(xiàn)數(shù)據(jù)分析和建立更加復(fù)雜的機器學(xué)習(xí)模型。(2)與R語言擁有過于分散和相對雜亂的機器學(xué)習(xí)庫相比,Python有著更為集中和高效的 機器學(xué)習(xí)框架ScikitTearn。這讓Python更容易被理解和掌握。因此,Python的機器學(xué)習(xí) 和數(shù)據(jù)統(tǒng)計分析用戶社區(qū)和群體在近幾年不斷攀升。(3)與SPSS相比,Python能夠處理更為龐大和復(fù)雜的數(shù)據(jù)結(jié)構(gòu),以及適應(yīng)更為復(fù)雜的數(shù) 據(jù)分析業(yè)務(wù)場景。SPSS是一款優(yōu)秀的統(tǒng)計軟件,主要應(yīng)用在科學(xué)實驗方面的數(shù)據(jù)分析場景。Python在數(shù)據(jù)科學(xué)及其一整套技術(shù)框架上面優(yōu)勢十清楚顯,包括數(shù)據(jù)采集、數(shù)據(jù)存儲 和管理、數(shù)據(jù)分析和處理、數(shù)據(jù)可視化、機器學(xué)習(xí)、人工智

30、能、APP開發(fā)和運維等整套解決 方案。.簡述基于Python的數(shù)據(jù)分析第三方庫有哪些,分別有什么作用?基于Python的數(shù)據(jù)分析之所以強大,得益于其背后豐富的第三方庫,開箱即用,方便快捷。 主要包括如下:NumPyNumPy對Python最大的支持在于其很好地彌補了 Python對數(shù)據(jù)組的缺乏。NumPy能夠高效 地創(chuàng)立N維陣列,并能夠通過其豐富的函數(shù)對N維陣列進(jìn)行處理。同時,NumPy中還包括基 本線性代數(shù)函數(shù),傅里葉變換,高級隨機數(shù)功能和集成工具等強大的數(shù)學(xué)科學(xué)計算工具。PandasPandas擁有許多高級的數(shù)據(jù)分析功能,是Python下最強大的數(shù)據(jù)分析和探索工具。Pandas 帶有高級的

31、數(shù)據(jù)結(jié)構(gòu)和精巧的工具,能夠高效快速地處理數(shù)據(jù),Pandas構(gòu)建在NumPy之上, 強化和豐富了 NumPy的使用方式。SciPySciPy依賴于NumPy,其主要作用在于擁有強大的對象和函數(shù)能夠處理數(shù)據(jù)矩陣。SciPy的 高級數(shù)學(xué)計算模塊包括:離散傅立葉變換,線性代數(shù),稀疏矩陣、最優(yōu)化、積分、插值、擬 合、信號處理與圖像處理、常微分求解方程等。另外,SciPy還具有局部圖形功能,能夠向 MATLAB 一樣繪制用于科學(xué)和工程計算的數(shù)據(jù)圖形。MatplotlibMatplotlib用于繪制大量圖形的庫,它可與NumPy一起使用,主要用于繪制二維圖和局部 三維圖像,包括:直方圖、折線圖和散點圖等。M

32、atplotlib是一個綜合庫,用于在Python 中創(chuàng)立靜態(tài),動畫和交互式可視化。Scikit-learnScikit-learn依賴于NumPy SciPy Matplotlib,主要包含用于機器學(xué)習(xí)的庫。 Scikit-learn提供了豐富且完善的一整套機器學(xué)習(xí)流程和工具,包括數(shù)據(jù)預(yù)處理、分類、 回歸、聚類、預(yù)測和模型分析。StatModelsStatModels主要用于數(shù)據(jù)的統(tǒng)計分析和建模,為不同的數(shù)據(jù)類型提供了廣泛統(tǒng)計,統(tǒng)計測 試,繪圖功能和結(jié)果統(tǒng)計的列表。StatModels可以于Pandas交互使用實現(xiàn)數(shù)據(jù)挖掘組合。SeabornSeaborn是構(gòu)建在matplotlib的Pyt

33、hon數(shù)據(jù)可視化庫。通過提供豐富的API實現(xiàn)高級的統(tǒng) 計圖形繪圖功能。Seaborn和Matplotlib相互補充能夠?qū)崿F(xiàn)更多更有特色的圖形。Seaborn 能夠接受基于Numpy與pandas的數(shù)據(jù)結(jié)構(gòu),并于Scipy與Statsmodels等統(tǒng)計模式高度兼 容。.請安裝Anaconda并運行Jupter Notebook之后,創(chuàng)立自己的第一個Python工程文檔。 參見任務(wù)2安裝Python的Anaconda發(fā)行版.請安裝PyCharm,并配置Anaconda中的Python解釋器,創(chuàng)立自己的第一個Python工程 文檔。參見任務(wù)3掌握PyCharm安裝和使用一*一 coding: utf

34、-8 一*一 import numpy as np1.創(chuàng)立一個從016的3*3矩陣Z = np. arange(16). reshape (4,4)print (Z)2.創(chuàng)立一個值從20到69的數(shù)組,步長為2Z = np. arange (20, 69, 2)print (Z)3.生成一個6*6的對角矩陣Z = np. eye (6)print (Z)4.創(chuàng)立一個5*10的隨機值數(shù)組,并找到最大值,最小值,平均值,標(biāo)準(zhǔn)差。Z = np. random, random (5, 10)Zmin, Zmax, Zmean, Zstd = Z. min(), Z. max (), Z. mean ()

35、, Z. std ()print(Zmin, Zmax, Zmean,Zstd)5.創(chuàng)立一個四邊為1,中間為0的二維數(shù)組, Z = np. ones (5, 5)Zl:-1, 1:-1:= 0 print (Z)6.創(chuàng)立一個四邊為0,中間為1的二維數(shù)組, Z 二 np. zeros (5, 5)Zl:-1, 1:-1 = 1 print(Z)7.如何計算(A+B)*(-A/2) ?A 二 np.ones *1B = np. ones (3)*2C = np.ones *3 np. add (A, B, out=B) np. divide (A, 2, out=A) np.negative (A

36、, out=A) np. multiply (A, B, outA)8.創(chuàng)立一個長度為5的數(shù)組,并做排序操作Z 二 np. random, random(5)Z. sort ()print (Z)9,求數(shù)組a的累計和,累計積a 二 np. arange (2, 50, 2)print(np. cumsum(a)print(np. cumprod(a)10.創(chuàng)立隨機數(shù)組,并保存該數(shù)組為numpy二進(jìn)制文件讀取numpy二進(jìn)制文件Z 二 np. random, random(5)np. save ( Z. npy,, Z)c = np. load ( Z. npy)print (c)任務(wù)3實訓(xùn)使用

37、Pandas實現(xiàn)電影某地區(qū)票房數(shù)據(jù)分析。.獲取指定的csv源數(shù)據(jù).獲取計算指定電影簡單愛的上映天數(shù)及日均票房.將結(jié)果保存到movie data.dat文件中。#將Python數(shù)組轉(zhuǎn)換成numpy數(shù)組startTime_ndarray = np. array(startTime_list) endTime_ndarray = np. array(endTime_list) startTime = getDays(startTime_ndarray)endTime = getDays(endTime_ndarray)totalTime=endTime-startTime #計算開始到結(jié)束之間有多少

38、天開始到結(jié)束之間有多少天print (總上映天數(shù):+str (totalTime)for i in pf_list:#累計總票房total_pf += float(i)avg_pf = %. 6f % float (total_pf/totalTime)print (平均每天票房:+avg_pf)將想要的數(shù)值寫入dat文件中movie_data = open ( movie_data. dat, w)movie_data. write ( %d, %. 6f %(totalTime, float (avg_pf)任務(wù)3練習(xí)題.獲取csv源數(shù)據(jù).處理和分析數(shù)據(jù),實現(xiàn)游戲占比餅圖.根據(jù)游每年戲銷售數(shù)據(jù)實現(xiàn)散點圖,折線圖和柱狀圖一*一 coding: utf-8 一*一1.游戲銷售數(shù)據(jù)可視化分析import pandas as pdimport numpy as np import matplotlib.pyplot as pit1980-2020data = pd. read_csv(,. /vgsales. csv9) print (data, info ()刪除任意有空值的行,然后重置索引,再將年份這一列轉(zhuǎn)成整型 data, dropna(how=,any, inplace=True)data. reset_index(drop=True, inplac

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論