大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總（李俊翰）項目1-7

上傳人：實*** IP屬地：四川上傳時間：2022-09-24 格式：DOCX 頁數(shù)：9 大小：33.21KB 積分：15 舉報 版權(quán)申訴

大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總（李俊翰）項目1-7_第2頁

大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總（李俊翰）項目1-7_第3頁

大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總（李俊翰）項目1-7_第4頁

大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總（李俊翰）項目1-7_第5頁

已閱讀5頁，還剩4頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)分析技術(shù)習(xí)題答案.大數(shù)據(jù)分析的基礎(chǔ)包含哪五個方面？(1)數(shù)據(jù)挖掘與分析從廣義的角度出發(fā)，數(shù)據(jù)挖掘算法是大數(shù)據(jù)分析的重要核心內(nèi)容。只有特定的數(shù)據(jù)挖掘算法處理不同業(yè)務(wù)場景所產(chǎn)生的數(shù)據(jù)類型和結(jié)構(gòu)，才能獲得高質(zhì)量的價值數(shù)據(jù)。同時，隨著數(shù)據(jù) 挖掘算法地不斷優(yōu)化，使其能夠處理更多、更大和更復(fù)雜的數(shù)據(jù)內(nèi)容。(2)數(shù)據(jù)可視化分析大數(shù)據(jù)可視化分析因其直觀，易讀，易理解，不僅被大數(shù)據(jù)分析科學(xué)家使用，也大量地使用在普通客戶的業(yè)務(wù)需求之中。大數(shù)據(jù)可視化分析能夠非常高效地將晦澀難懂，抽象的數(shù)據(jù), 以清晰、直接的各種圖形和表格非常簡單描述出數(shù)據(jù)背后所蘊含的豐富故事。(3)預(yù)測分析大數(shù)據(jù)預(yù)測分析是大數(shù)據(jù)分析的重要

2、應(yīng)用，通過應(yīng)用數(shù)據(jù)挖掘算法找到特定業(yè)務(wù)領(lǐng)域的大數(shù) 據(jù)特點，并建立符合行業(yè)特征的數(shù)據(jù)模型，實現(xiàn)對未來業(yè)務(wù)數(shù)據(jù)進(jìn)行有效的預(yù)測，幫助優(yōu)化不同行業(yè)、企業(yè)的經(jīng)營和決策。(4)語義分析大數(shù)據(jù)語義分析用于對網(wǎng)絡(luò)數(shù)據(jù)的分析和挖掘，通過對用戶不同行為產(chǎn)生的不同數(shù)據(jù),例如, 評論關(guān)鍵詞、搜索關(guān)鍵詞、產(chǎn)品關(guān)鍵詞等特定行業(yè)的上下文語義，有針對性地分析和判斷用戶需求和行為模式，為企業(yè)和用戶提供更好的服務(wù)和體驗。(5)數(shù)據(jù)分析和質(zhì)量管理大數(shù)據(jù)不僅僅只有海量的數(shù)據(jù)，更需要其高質(zhì)量的數(shù)據(jù)和數(shù)據(jù)管理作為重要支撐。高質(zhì)量的數(shù)據(jù)能夠更加精準(zhǔn)地針對特定業(yè)務(wù)數(shù)據(jù)提供更有價值的數(shù)據(jù)分析結(jié)果。.大數(shù)據(jù)分析有什么作用？(1)進(jìn)一步提升

3、工作效率面對需要處理的海量數(shù)據(jù)，不僅需要花費大量的人力、物力和財力對其進(jìn)行有效存儲、管理和維護(hù)，還要對其實施有效地分析處理才能發(fā)現(xiàn)變量和常量等數(shù)據(jù)之間隱藏的內(nèi)在關(guān)聯(lián)。因此,數(shù)據(jù)分析能夠通過正確的呈現(xiàn)方式，將數(shù)據(jù)之間千絲萬縷的關(guān)系和規(guī)律進(jìn)行簡單地描述, 從而提升工作效率。(2)讓業(yè)務(wù)和數(shù)據(jù)變得更加易于理解、可讀傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)往往不能非常直觀地呈現(xiàn)出數(shù)據(jù)整體和局部的狀態(tài)和聯(lián)系。不僅對于專業(yè)數(shù)據(jù)科學(xué)家，還包括普通用戶，要及時，高效地理解和掌握某個領(lǐng)域或業(yè)務(wù)當(dāng)中海量的結(jié)構(gòu)化數(shù)據(jù)表，甚至是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)，都是十分困難的事情。通過應(yīng)用大數(shù)據(jù) 分析技術(shù)能夠讓復(fù)雜的數(shù)據(jù)變得可讀、可理解

4、，有利于數(shù)據(jù)工作者和客戶能夠?qū)?shù)據(jù)進(jìn)行更優(yōu)化的歸納和總結(jié)，并使得特定的業(yè)務(wù)數(shù)據(jù)變得更加有邏輯，條理更加清晰。(3)業(yè)務(wù)開展更加精準(zhǔn)大數(shù)據(jù)分技術(shù)的目的就是為了在海量數(shù)據(jù)之中發(fā)現(xiàn)知識，用科學(xué)的統(tǒng)計方法幫助人們精準(zhǔn)定位業(yè)務(wù)過程中可能存在的問題和機會，從而防止了業(yè)務(wù)實施過程中的失誤，使得業(yè)務(wù)實施的路線和方向更加明確和精準(zhǔn)。.大數(shù)據(jù)分析有哪些技術(shù)?Python.簡述HADOOP框架。Hadoop是主流的大數(shù)據(jù)存儲和分析平臺之一。它是來源于Apache基金會以Java編寫的開源分布式框架工程。其核心組件是IIDFS、YARN和MapReduce,其它組件為：HBase HIVE Zookeeper

5、 Spark Kafka Flume、Ambari 和 Sqoop 等。這些組件共同提供了一套完成服務(wù)或更高級的服務(wù)。Hadoop可以將大規(guī)模海量數(shù)據(jù)進(jìn)行分布式并行處理。Hadoop具有高度容許錯性、可擴展性、司可靠性和穩(wěn)定性。.簡述HADOOP核心組件和工作原理。HADOOP有三個核心組件：HDFS (數(shù)據(jù)存儲)、MapReduce (分布式離線計算)和YARN (資源調(diào)度)HDFS (Hadoop Distributed File System) Hadoop 分布式文件系統(tǒng)HDFS屬于Hadoop的底層核心組件。它是分布式文件系統(tǒng)的一種，并具備以下特點：海量數(shù)據(jù)和流式數(shù)據(jù)訪問讀寫交

6、互能力高度容錯能力移動計算部署方便MapReduce是建立在HDFS之上的數(shù)據(jù)映射和化簡并行處理技術(shù)。它是一種具有線性特質(zhì)的，可擴展的編程模型。它對網(wǎng)絡(luò)服務(wù)器日志等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理非常有效。MAP和REDUCE分別代表兩種函數(shù)。前者主要負(fù)責(zé)將一個任務(wù)進(jìn)行碎片化處理，后者主要負(fù)責(zé)將各種碎片化信息進(jìn)行重組匯總。YARN (Yet Another Resource Negotiator)或第二代 MapReduce由于第一代MapReduce存在一定的局限性，例如Jobtracker既要負(fù)責(zé)資源管理，又要監(jiān)控、跟蹤、記錄和控制任務(wù)，成為整個MapReduce的性能瓶頸。最重要的是，

7、第一代MapReduce在系統(tǒng)的整體資源利用率方面相對較低。因此，為了優(yōu)化和提升MapReduce的性能和資源利用率，Hadoop引入了 YARN專門用于整合 Hadoop集群資源，并支持其他分布式計算模式。YARN 的組成局部主要由三個組件：ResourceManager NodeManager 和 ApplicationMaster。.簡述HIVE、Spark和HBase的特點。(1)Hive具有如下特點：可擴展性由于Hive是建立在Hadoop之上，因此有與Hadoop集群一樣的擴展性。Hive可以在不用重新啟動服務(wù)的前提下實現(xiàn)集群規(guī)模的自由擴展?？裳诱剐訦ive可以通過編寫更加靈活

8、多樣的HQL語言實現(xiàn)比MapReduce更豐富的函數(shù)。容錯性Hive可以使用Hadoop集群的超強冗余性實現(xiàn)數(shù)據(jù)的容錯性。Hive本身的元數(shù)據(jù)那么存放在 mysql數(shù)據(jù)庫中。Spark具有如下特點:運行速度快Spark使用基于高速緩存的分布式實時計算框架。與MapReduce不斷重復(fù)使用磁盤輸入輸出保存計算結(jié)果相比，Spark最大優(yōu)勢在于能夠高效地使用高速緩存進(jìn)行迭代重復(fù)計算。只有在內(nèi)存缺乏的情況，Spark才會使用磁盤輸入和輸出。簡單易用可以通過Java, Scala, Python, R和SQL等不同語言快速去編寫Spark程序，允許開發(fā)人員使用自己熟悉的語言編寫Spark程序，極大

9、地提升了 Spark的普及范圍。同時，Spark自帶 80多個高級操作符，能夠更容易地創(chuàng)立Spark并行應(yīng)用程序，并能夠與Java, Scala, Python, R 和SQL shell交互。普適通用Spark是一個分布式計算框架，不僅能夠?qū)崿F(xiàn)MapReduce的場景功能，更能在更多業(yè)務(wù)場景中展露頭角。Spark既有可以實現(xiàn)離線計算的Spark SQL模塊，也有可以實現(xiàn)實時計算的 Spark Streaming模塊以及封裝了常用的機器學(xué)習(xí)庫Mlib和圖計算庫Graphxo 運行方式多樣性Spark有兩種運行方式：StandAlone和YARN。在StandAlone模式下用戶可以在Hado

10、op集群的一組或全部機器中靜態(tài)分配資源，與Hadoop MR同時運行，用戶可以在HDFS上運行專屬的Spark任務(wù)。在YARN模式中，Hadoop用戶可以簡單的把Spark運行在YARN中，像其他運行在Spark上層的模塊一樣充分利用Spark的強大計算能力。HBase具有如下特點：高可靠性HBase基于Hadoop的HDFS分布式文件架構(gòu)，具有極強的可靠性。高性能HBase是面向?qū)崟r查詢的分布式數(shù)據(jù)庫，能夠非常高效地查詢和寫入數(shù)據(jù)，實現(xiàn)高并發(fā)和實時處理數(shù)據(jù)。彈性可擴展HBase建立在Hadoop的HDFS之上，通過線性方式從下到上靈活地增刪節(jié)點來進(jìn)行擴展，并且被眾多企業(yè)廣泛地使用

11、在緩存服務(wù)器方面。面向列的操作HBase面向列來進(jìn)行存儲和查詢的，包括：行鍵(Row Key) 列族(Column Family)、列修飾符(Column Qualifier)、數(shù)據(jù)(Value)和時間戳(TimeStamp)和類型(Type),# 4.簡述 Kafka、Flume、Sqoop 和 Zookeeper 的組織架構(gòu)。(1)Kafka生產(chǎn)者Producer：用于向Kafka集群以Topic的方式發(fā)送消息。主題Topic：一個Topic類似于一個消息流的名字。消費者Consumer：用于不斷地向Kafka集群接收并處理消息流。(2)FlumeSource：數(shù)據(jù)的來源和方式Chan

12、nel：數(shù)據(jù)的緩沖池Sink：定義了數(shù)據(jù)輸出的方式和目的地Flume的關(guān)鍵流程是首先通過source獲取到數(shù)據(jù)源的數(shù)據(jù)，然后將數(shù)據(jù)緩存在Channel當(dāng) 中以保證數(shù)據(jù)傳輸過程中不喪失，最后通過Sink將數(shù)據(jù)發(fā)送到指定的位置。（3）SqoopSqoop Server：所有的連接器Connectors都安裝在Sqoop Server上便于統(tǒng)一管理。其中， Connectors負(fù)責(zé)數(shù)據(jù)讀寫，Metadata負(fù)責(zé)管理數(shù)據(jù)庫的元數(shù)據(jù)。Sqoop Client：通過瀏覽器或者CLI實現(xiàn)客戶端的REST API、JAVA APR WEB UI以及CL I 控制臺與Sqoop Server的交互。（4）Zoo

13、keeperLeader：所有Zookeeper服務(wù)器中只有一個Leader被選舉出來，作為整個ZooKeeper集群的主節(jié)點，其它節(jié)點都是Follower或Observer。Leader是所有應(yīng)用程序事務(wù)請求的最高協(xié)調(diào)和決定者，統(tǒng)一管理集群事物的執(zhí)行順序，保證整個集群內(nèi)部消息處理的先進(jìn)先出。Observer：主要應(yīng)用于需要處理更多負(fù)載或者跨機房的應(yīng)用場景用于提升系統(tǒng)可擴展性, 提升讀取速度，但Observer不參與選舉投票。Follower：接收Client的請求，返回響應(yīng)給Client,并參與Leader的選舉投票。Client:事務(wù)請求發(fā)送者.請簡要介紹一下機器學(xué)習(xí)的開發(fā)流程。（1）

14、獲取數(shù)據(jù)：從指定數(shù)據(jù)源獲取業(yè)務(wù)數(shù)據(jù)（2）數(shù)據(jù)預(yù)處理：對源數(shù)據(jù)進(jìn)行數(shù)據(jù)清理（處理缺失值、重復(fù)值和邏輯錯誤值）、數(shù)據(jù)集成（處理實體數(shù)據(jù)識別和冗余問題）、數(shù)據(jù)規(guī)約（用較小的數(shù)據(jù)替換較大的源數(shù)據(jù)）（3）特征工程：數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限，而模型和算法只是逼近這個上限而已。其目的是最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。（4）模型訓(xùn)練：通過導(dǎo)入指定的特征數(shù)據(jù)，對模型進(jìn)行訓(xùn)練和優(yōu)化。（5）模型評估：使用損失函數(shù)對模型進(jìn)行評估。（6）應(yīng)用預(yù)測：將測試數(shù)據(jù)導(dǎo)入評估后的模型中進(jìn)行檢驗。.請簡要介紹一下機器學(xué)習(xí)的實施步驟。（1）針對具體的業(yè)務(wù)需求，選擇合適的基本模型。模型就是一組用于處理具體業(yè)

15、務(wù)數(shù)據(jù)的函數(shù)。（2）模型在數(shù)據(jù)的訓(xùn)練下不斷被優(yōu)化，但衡量這組函數(shù)質(zhì)量優(yōu)劣的標(biāo)準(zhǔn)就叫做損失函數(shù)。損失函數(shù)適用于不同的具體業(yè)務(wù)需求的，回歸問題可以使用平方誤差損失函數(shù)和絕對值誤差損失函數(shù)，分類問題可以使用交叉端損失函數(shù)。（3）在具體業(yè)務(wù)場景中找到一個最合適的模型是機器學(xué)習(xí)的關(guān)鍵，常用的方法有梯度下降法、最小二乘法實現(xiàn)局部或全局最優(yōu)。（4）將最合適的模型應(yīng)用到該業(yè)務(wù)的最新數(shù)據(jù)當(dāng)中，檢驗其效果。.機器學(xué)習(xí)常用算法分為哪兩大類？機器學(xué)習(xí)算法主要分為兩大類：有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)帶有目標(biāo)數(shù)據(jù)（即有標(biāo)準(zhǔn)答案），無監(jiān)督數(shù)據(jù)不需要目標(biāo)數(shù)據(jù)（無標(biāo)準(zhǔn)答案）。有監(jiān)督學(xué)習(xí)可以再分為回歸和分類，無監(jiān)

16、督學(xué)習(xí)可以再分為降維和聚類。.請介紹一下樸素貝葉斯的基本思想和特點。樸素貝葉斯算法是一個常見的分類算法，比擬適用于垃圾郵件過濾、文本分類或拼寫查錯等領(lǐng)域。樸素貝葉斯的最大特點就是：特征條件獨立假設(shè)。該假設(shè)獨立看待當(dāng)前每一個條件指標(biāo)與待分類項的概率關(guān)系，并不關(guān)心各個條件指標(biāo)之間有無依賴關(guān)系。例如, 一般情況下，銀行會根據(jù)客戶的月收入、信用卡額度、房車情況等不同方面的特征綜合判斷是否給客戶辦理貸款手續(xù)。因為一般對于月收入較高的客戶來說，信用卡額度和房車情況都是比擬良好的狀態(tài)。月收入和信用卡額度和房車情況存在很高的相關(guān)性。然而樸素貝葉斯算法會忽略這種特征之間的內(nèi)在關(guān)系，直接認(rèn)為客戶的月收入、房

17、產(chǎn)與信用卡額度之間沒有任何關(guān)系，三者是各自獨立的特征，而只從這三個指標(biāo)各自對是否辦理貸款的影響概率大小去判斷。.請介紹一下K均值聚類算法的基本思想和計算過程。基本思想：在數(shù)據(jù)樣本中首先設(shè)定K個樣本點作為聚類的中心點，然后通過比照每個中心點與周圍數(shù)據(jù)點距離的大小，決定數(shù)據(jù)點歸屬的類別，把每個數(shù)據(jù)點分配給距離它最近的聚類中心。根據(jù)這種聚類方式，每次吸納了新的數(shù)據(jù)點后，便重新計算當(dāng)前聚類中心的位置（各數(shù)據(jù)點到中心點的平均距離），直到滿足指定的聚類終止條件為止。終止條件包括：沒有（或最小數(shù)目）數(shù)據(jù)點被分配給不同的聚類、聚類中心不再發(fā)生變化或到達(dá)誤差平方和局部最小。計算過程：根據(jù)具體業(yè)務(wù)數(shù)據(jù)選擇

18、K個數(shù)據(jù)點作為聚類中心點。計算所有數(shù)據(jù)點與K個數(shù)據(jù)點的距離。將離聚類中心點最近的數(shù)據(jù)點歸為同一類。重新計算新類中的聚類中心點位置。重復(fù)（2）（3）步驟，直到到達(dá)聚類終止條件。.請介紹一下“啤酒與尿布”故事。在美國沃爾瑪連鎖店超市的真實案例，沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng)，集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。通過對消費者購物行為數(shù)據(jù)進(jìn)行分析時發(fā)現(xiàn)，男性顧客在購買嬰兒尿片時，會順便購買幾瓶啤酒，于是推出了將啤酒和尿布放在一起的促銷手段。揭示了一個隱藏在尿布與啤酒背后的美國人的一種行為模式。Python擁有非常成熟的技術(shù)和資源社區(qū)，能夠在數(shù)據(jù)分析和處理、人工智能以及數(shù)據(jù)可視化等方面提供強大

19、的技術(shù)支持。大數(shù)據(jù)業(yè)務(wù)流程的數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)處理以及數(shù)據(jù)可視化都是應(yīng)用Python及其類庫實現(xiàn)的。Python比擬著名的類庫和工具有： Numpy、 Pandas Matplotlib Scikit-learn 等。NumpyNumpy是Python中的一個矩陣計算包，提供了非常強大的數(shù)組ndarray及其相應(yīng)的處理函數(shù)ufunc,使其能夠在高效地應(yīng)用內(nèi)存的前提下，非?？焖俚貏?chuàng)立N維數(shù)組，并提供矢量化數(shù)學(xué)運算，實現(xiàn)不編寫特定循環(huán)的情況下對整個數(shù)組進(jìn)行標(biāo)準(zhǔn)運算操作。Numpy的出現(xiàn)不僅極大地彌補了 Python在操作列表數(shù)據(jù)類型進(jìn)行數(shù)值運算過程中比擬耗費內(nèi)存和CPU計算

20、資源的問題，而且很好的補充了 Python的array模塊不能支持多維數(shù)組及其運算的缺乏。PandasPandas是建立在Numpy之上的一個Python數(shù)據(jù)分析包，擁有強大的數(shù)據(jù)分析功能，包含 SeriesDataFrame等高級數(shù)據(jù)結(jié)構(gòu)和工具。Pandas納入了大量的庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型，提供了高效操作大型數(shù)據(jù)集所需要的工具。Pandas提供了大量快速便捷的函數(shù)和方法。其中，Pandas擁有的坐標(biāo)軸特點能夠支持?jǐn)?shù)據(jù)自動對齊，高效提升不同數(shù)據(jù)源的數(shù)據(jù)探索和檢索，防止了數(shù)據(jù)處理過程中出現(xiàn)的問題。MatplotlibMatplotlib是基于Numpy的一套Python包，擁有非常豐富

21、的可視化圖形庫和工具，通過強大的接口能夠?qū)崿F(xiàn)繪制滿足不同數(shù)據(jù)類型和業(yè)務(wù)需求的專業(yè)圖形，并且能支持多種操作系統(tǒng) 的不同GUI后端，輸出的圖形格式可以是PDF, SVG, JPG, PNG, BMP, GIF等。Scikit-learnScikit-learn是一個基于Python語言的機器學(xué)習(xí)開源框架。sklearn中包含了大量的優(yōu)質(zhì) 的數(shù)據(jù)集，在學(xué)習(xí)機器學(xué)習(xí)的過程中，可以通過使用這些數(shù)據(jù)集實現(xiàn)出不同的模型。Hadoop及其主要生態(tài)圈Hadoop是大數(shù)據(jù)技術(shù)重要代表之一。它是來源于Apache基金會以JAVA編寫的開源分布式框架工程。其核心組件是HDFS、YARN和MapReduce,其它組

22、件為：HBASE、HIVE、ZOOKEEPER 和SQOOP等。這些組件共同提供了一套完整服務(wù)或更高級的服務(wù)。Hadoop可以將大規(guī)模海量數(shù)據(jù)進(jìn)行分布式并行處理。Hadoop具有高度容錯性、可擴展性、高可靠性和穩(wěn)定性，讓 Hadoop成為最流行的大數(shù)據(jù)分析系統(tǒng)。.大數(shù)據(jù)分析有哪些流程？(1)問題識別在開展大數(shù)據(jù)分析之前，首先應(yīng)該明確具體任務(wù)以及需要解決的問題。只有以解決問題為導(dǎo) 向，才能更加清晰、有效地圍繞問題開展數(shù)據(jù)分析工作。(2)數(shù)據(jù)可行性數(shù)據(jù)可行性是指根據(jù)識別的問題所需要得到的數(shù)據(jù)是否具有較高可靠性和可用性以及數(shù)據(jù)過度擬合問題。數(shù)據(jù)可行性需要把握三個細(xì)節(jié)：明確數(shù)據(jù)的體量和專業(yè)領(lǐng)域明確抽

23、象概念和具體指標(biāo)數(shù)據(jù)的映射關(guān)系明確具體業(yè)務(wù)中的代表性數(shù)據(jù)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備需要具體落實每個數(shù)據(jù)的具體作用和所代表的具體內(nèi)涵，可以說大數(shù)據(jù)分析的大部分時間都是花費對數(shù)據(jù)的準(zhǔn)備過程中。具體分?jǐn)?shù)據(jù)采集和數(shù)據(jù)預(yù)處理。數(shù)據(jù)采集:在這個數(shù)據(jù)爆炸的時代，不管是提供底層基礎(chǔ)架構(gòu)的云計算，還是實現(xiàn)各種人工智能應(yīng)用，都離不開其核心的源泉：數(shù)據(jù)。由于物聯(lián)網(wǎng)海量的穿戴設(shè)備、網(wǎng)絡(luò)多媒體平臺以及電子商務(wù)平臺中的數(shù)據(jù)太多、太寬泛，人們需要通過特殊的技術(shù)和方法實現(xiàn)在海量的數(shù)據(jù)中到真正有價值的數(shù)據(jù)，從而為下一步大數(shù)據(jù)分析業(yè)務(wù)提供數(shù)據(jù)支撐。因此，數(shù)據(jù) 采集是直接獲取數(shù)據(jù)的橋頭堡。數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理主要是指在對數(shù)據(jù)開展具

24、體分析和挖掘之前對數(shù)據(jù)進(jìn)行的一些處理。數(shù)據(jù)預(yù)處理有四個任務(wù)，數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。數(shù)據(jù)清洗：根據(jù)具體業(yè)務(wù)規(guī)那么制定針對性的數(shù)據(jù)清洗規(guī)那么，包括檢測和去除數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù)，處理遺漏數(shù)據(jù)，去除空白數(shù)據(jù)域或者是知識背景下的空值。數(shù)據(jù)集成：根據(jù)具體業(yè)務(wù)需要，將不同結(jié)構(gòu)和類型的數(shù)據(jù)，例如，不同數(shù)據(jù)庫和不同格式的普通文件有機地結(jié)合在一起，使之能夠為特定業(yè)務(wù)領(lǐng)域提供高質(zhì)量的數(shù)據(jù)共享服務(wù)。例如, 數(shù)據(jù)倉庫模式就是一種數(shù)據(jù)集成方式。它是面向主題的，集成的，相對穩(wěn)定的數(shù)據(jù)集合。數(shù)據(jù)變換：根據(jù)具體大數(shù)據(jù)分析框架或技術(shù)的要求，結(jié)合具體業(yè)務(wù)的描述，將數(shù)據(jù)進(jìn)行特定地轉(zhuǎn)換，使之更符合

25、大數(shù)據(jù)分析框架的特點和業(yè)務(wù)的需求方式。數(shù)據(jù)規(guī)約：根據(jù)業(yè)務(wù)需求對原始數(shù)據(jù)進(jìn)行量身裁剪，實現(xiàn)數(shù)據(jù)既能夠很好地保持?jǐn)?shù)據(jù)的完整性，又能夠從數(shù)據(jù)維度、數(shù)量和體機方面得到有效地縮減。（4）數(shù)據(jù)模型數(shù)據(jù)模型是用經(jīng)過設(shè)計之后的數(shù)據(jù)對現(xiàn)實世界特征的描述和呈現(xiàn)。數(shù)據(jù)模型能夠很好地將現(xiàn) 實世界中需要處理的問題通過計算機能夠識別的方式進(jìn)行高效地的處理。數(shù)據(jù)模型的建立需要結(jié)合業(yè)務(wù)模型、數(shù)據(jù)分析模型以及專家的經(jīng)驗判斷。另外，還要考慮當(dāng)前的運算能力是否滿足數(shù)據(jù)模型的運算需求。（5）分析結(jié)果大數(shù)據(jù)分析的結(jié)果作為重要結(jié)論分為定性和定量的評估結(jié)果，分析結(jié)果必須要能夠嚴(yán)謹(jǐn)可靠且符合業(yè)務(wù)決策需求。.大數(shù)據(jù)分析有哪些主要模型？

26、（1）比照分析模型在特定業(yè)務(wù)背景知識中將多個數(shù)據(jù)進(jìn)行比擬，從而發(fā)現(xiàn)和揭示事物的變化開展規(guī)律。比照分析比擬簡單，能夠相對簡單地比擬數(shù)據(jù)之間的聯(lián)系，分析操作步驟較少，能夠非常直觀的呈現(xiàn)不同數(shù)據(jù)的異同之處，能夠精準(zhǔn)表示數(shù)據(jù)之間度量值的差距。比照標(biāo)準(zhǔn)是比照分析的主要抓手，將比照對象的指標(biāo)與標(biāo)準(zhǔn)進(jìn)行比照，就能得出有結(jié)果了。目前常用標(biāo)準(zhǔn)是時間標(biāo)準(zhǔn)、空間標(biāo)準(zhǔn)、特定標(biāo)準(zhǔn)。例如，今年10月的某商品銷售數(shù)量和去年10月的銷售數(shù)量進(jìn)行比照就是基于時間標(biāo)準(zhǔn)的比照分析；不同城市之間對于共享單車的接受程度就是基于空間標(biāo)準(zhǔn)的比照分析;應(yīng)用專家經(jīng)驗判斷的數(shù)據(jù)標(biāo)準(zhǔn)與當(dāng)前領(lǐng)域數(shù)據(jù)的比照就是基于特定標(biāo)準(zhǔn)的比照分析。（

27、2）分類分析模型分類分析通過給與不同類型的數(shù)據(jù)不同的成員資格，從而將數(shù)據(jù)分成不同類別的群體，其目的是將未知類別的數(shù)據(jù)更好地向某一個類進(jìn)行歸納，并按其接近歸納的程度細(xì)化分類質(zhì)量。例如，通過分類分析模型區(qū)別垃圾郵件和非垃圾郵件；通過糖尿病患者某些數(shù)據(jù)指標(biāo)（血糖, 血壓，心率等）判斷是否患有糖尿病。（3）關(guān)聯(lián)分析模型通過分析變量之間的關(guān)系發(fā)現(xiàn)數(shù)據(jù)之間隱含的聯(lián)系，包括明確自變量和因變量的因果變化規(guī) 律或者變量之間相關(guān)性、方向性和緊密程度等。作為數(shù)據(jù)挖掘的重要技術(shù)，通過分析顧客的消費數(shù)據(jù)，發(fā)現(xiàn)其內(nèi)在偏好規(guī)那么，為商家提供有價值的銷售策略。關(guān)聯(lián)分析的應(yīng)用案例非常多，例如，比擬著名的啤酒與尿布，人們

28、發(fā)現(xiàn)在超市里面購買尿布的男性顧客也會同時購買啤酒，因此把啤酒和尿布放在同一個貨架上進(jìn)行銷售。(4)綜合分析模型綜合分析模型是將多個指標(biāo)綜合應(yīng)用在復(fù)雜數(shù)據(jù)環(huán)境中，通過分析研究對象個主要局部及其特征，并以整合宏觀知識結(jié)構(gòu)和突出局部知識重點的思維方式進(jìn)行定性或定量分析判斷，將多個指標(biāo)數(shù)據(jù)整合為針對某一個綜合評價的指標(biāo)，從而揭示和發(fā)現(xiàn)復(fù)雜業(yè)務(wù)數(shù)據(jù)或現(xiàn)象總體或一般特征或關(guān)系。例如，分析和評價人民幸福程度、學(xué)生綜合素質(zhì)和某行業(yè)開展前景報告等。.簡述Python語言與其他數(shù)據(jù)分析工具的比擬(1)與Excel相比，Python通過調(diào)用強大的數(shù)據(jù)分析和處理模塊，實現(xiàn)靈活處理更大數(shù)據(jù) 集的報表數(shù)據(jù)，并能

29、夠進(jìn)一步自動地實現(xiàn)數(shù)據(jù)分析和建立更加復(fù)雜的機器學(xué)習(xí)模型。(2)與R語言擁有過于分散和相對雜亂的機器學(xué)習(xí)庫相比，Python有著更為集中和高效的機器學(xué)習(xí)框架ScikitTearn。這讓Python更容易被理解和掌握。因此，Python的機器學(xué)習(xí) 和數(shù)據(jù)統(tǒng)計分析用戶社區(qū)和群體在近幾年不斷攀升。(3)與SPSS相比，Python能夠處理更為龐大和復(fù)雜的數(shù)據(jù)結(jié)構(gòu)，以及適應(yīng)更為復(fù)雜的數(shù) 據(jù)分析業(yè)務(wù)場景。SPSS是一款優(yōu)秀的統(tǒng)計軟件，主要應(yīng)用在科學(xué)實驗方面的數(shù)據(jù)分析場景。Python在數(shù)據(jù)科學(xué)及其一整套技術(shù)框架上面優(yōu)勢十清楚顯，包括數(shù)據(jù)采集、數(shù)據(jù)存儲和管理、數(shù)據(jù)分析和處理、數(shù)據(jù)可視化、機器學(xué)習(xí)、人工智

30、能、APP開發(fā)和運維等整套解決方案。.簡述基于Python的數(shù)據(jù)分析第三方庫有哪些，分別有什么作用？基于Python的數(shù)據(jù)分析之所以強大，得益于其背后豐富的第三方庫，開箱即用，方便快捷。主要包括如下：NumPyNumPy對Python最大的支持在于其很好地彌補了 Python對數(shù)據(jù)組的缺乏。NumPy能夠高效地創(chuàng)立N維陣列，并能夠通過其豐富的函數(shù)對N維陣列進(jìn)行處理。同時，NumPy中還包括基本線性代數(shù)函數(shù)，傅里葉變換，高級隨機數(shù)功能和集成工具等強大的數(shù)學(xué)科學(xué)計算工具。PandasPandas擁有許多高級的數(shù)據(jù)分析功能，是Python下最強大的數(shù)據(jù)分析和探索工具。Pandas 帶有高級的

31、數(shù)據(jù)結(jié)構(gòu)和精巧的工具，能夠高效快速地處理數(shù)據(jù)，Pandas構(gòu)建在NumPy之上, 強化和豐富了 NumPy的使用方式。SciPySciPy依賴于NumPy,其主要作用在于擁有強大的對象和函數(shù)能夠處理數(shù)據(jù)矩陣。SciPy的高級數(shù)學(xué)計算模塊包括：離散傅立葉變換，線性代數(shù)，稀疏矩陣、最優(yōu)化、積分、插值、擬合、信號處理與圖像處理、常微分求解方程等。另外，SciPy還具有局部圖形功能，能夠向 MATLAB 一樣繪制用于科學(xué)和工程計算的數(shù)據(jù)圖形。MatplotlibMatplotlib用于繪制大量圖形的庫，它可與NumPy一起使用，主要用于繪制二維圖和局部三維圖像，包括：直方圖、折線圖和散點圖等。M

32、atplotlib是一個綜合庫，用于在Python 中創(chuàng)立靜態(tài)，動畫和交互式可視化。Scikit-learnScikit-learn依賴于NumPy SciPy Matplotlib,主要包含用于機器學(xué)習(xí)的庫。 Scikit-learn提供了豐富且完善的一整套機器學(xué)習(xí)流程和工具，包括數(shù)據(jù)預(yù)處理、分類、回歸、聚類、預(yù)測和模型分析。StatModelsStatModels主要用于數(shù)據(jù)的統(tǒng)計分析和建模，為不同的數(shù)據(jù)類型提供了廣泛統(tǒng)計，統(tǒng)計測試，繪圖功能和結(jié)果統(tǒng)計的列表。StatModels可以于Pandas交互使用實現(xiàn)數(shù)據(jù)挖掘組合。SeabornSeaborn是構(gòu)建在matplotlib的Pyt

33、hon數(shù)據(jù)可視化庫。通過提供豐富的API實現(xiàn)高級的統(tǒng) 計圖形繪圖功能。Seaborn和Matplotlib相互補充能夠?qū)崿F(xiàn)更多更有特色的圖形。Seaborn 能夠接受基于Numpy與pandas的數(shù)據(jù)結(jié)構(gòu)，并于Scipy與Statsmodels等統(tǒng)計模式高度兼容。.請安裝Anaconda并運行Jupter Notebook之后，創(chuàng)立自己的第一個Python工程文檔。參見任務(wù)2安裝Python的Anaconda發(fā)行版.請安裝PyCharm,并配置Anaconda中的Python解釋器，創(chuàng)立自己的第一個Python工程文檔。參見任務(wù)3掌握PyCharm安裝和使用一*一 coding: utf

34、-8 一*一 import numpy as np1.創(chuàng)立一個從016的3*3矩陣Z = np. arange(16). reshape (4,4)print (Z)2.創(chuàng)立一個值從20到69的數(shù)組，步長為2Z = np. arange (20, 69, 2)print (Z)3.生成一個6*6的對角矩陣Z = np. eye (6)print (Z)4.創(chuàng)立一個5*10的隨機值數(shù)組，并找到最大值，最小值，平均值，標(biāo)準(zhǔn)差。Z = np. random, random (5, 10)Zmin, Zmax, Zmean, Zstd = Z. min(), Z. max (), Z. mean ()

35、, Z. std ()print(Zmin, Zmax, Zmean,Zstd)5.創(chuàng)立一個四邊為1,中間為0的二維數(shù)組, Z = np. ones (5, 5)Zl：-1, 1：-1:= 0 print (Z)6.創(chuàng)立一個四邊為0,中間為1的二維數(shù)組, Z 二 np. zeros (5, 5)Zl：-1, 1：-1 = 1 print(Z)7.如何計算(A+B)*(-A/2) ?A 二 np.ones *1B = np. ones (3)*2C = np.ones *3 np. add (A, B, out=B) np. divide (A, 2, out=A) np.negative (A

36、, out=A) np. multiply (A, B, outA)8.創(chuàng)立一個長度為5的數(shù)組，并做排序操作Z 二 np. random, random(5)Z. sort ()print (Z)9,求數(shù)組a的累計和，累計積a 二 np. arange (2, 50, 2)print(np. cumsum(a)print(np. cumprod(a)10.創(chuàng)立隨機數(shù)組，并保存該數(shù)組為numpy二進(jìn)制文件讀取numpy二進(jìn)制文件Z 二 np. random, random(5)np. save ( Z. npy，, Z)c = np. load ( Z. npy)print (c)任務(wù)3實訓(xùn)使用

37、Pandas實現(xiàn)電影某地區(qū)票房數(shù)據(jù)分析。.獲取指定的csv源數(shù)據(jù).獲取計算指定電影簡單愛的上映天數(shù)及日均票房.將結(jié)果保存到movie data.dat文件中。#將Python數(shù)組轉(zhuǎn)換成numpy數(shù)組startTime_ndarray = np. array(startTime_list) endTime_ndarray = np. array(endTime_list) startTime = getDays(startTime_ndarray)endTime = getDays(endTime_ndarray)totalTime=endTime-startTime #計算開始到結(jié)束之間有多少

38、天開始到結(jié)束之間有多少天print (總上映天數(shù)：+str (totalTime)for i in pf_list:#累計總票房total_pf += float(i)avg_pf = %. 6f % float (total_pf/totalTime)print (平均每天票房：+avg_pf)將想要的數(shù)值寫入dat文件中movie_data = open ( movie_data. dat, w)movie_data. write ( %d, %. 6f %(totalTime, float (avg_pf)任務(wù)3練習(xí)題.獲取csv源數(shù)據(jù).處理和分析數(shù)據(jù)，實現(xiàn)游戲占比餅圖.根據(jù)游每年戲銷售數(shù)據(jù)實現(xiàn)散點圖，折線圖和柱狀圖一*一 coding: utf-8 一*一1.游戲銷售數(shù)據(jù)可視化分析import pandas as pdimport numpy as np import matplotlib.pyplot as pit1980-2020data = pd. read_csv(,. /vgsales. csv9) print (data, info ()刪除任意有空值的行，然后重置索引，再將年份這一列轉(zhuǎn)成整型 data, dropna(how=，any, inplace=True)data. reset_index(drop=True, inplac

人人文庫> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總 （ 李俊翰 ） 項目1-7

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

大數(shù)據(jù)分析技術(shù) 習(xí)題答案匯總（李俊翰）項目1-7