大數(shù)據(jù)時代培訓課件_第1頁
大數(shù)據(jù)時代培訓課件_第2頁
大數(shù)據(jù)時代培訓課件_第3頁
大數(shù)據(jù)時代培訓課件_第4頁
大數(shù)據(jù)時代培訓課件_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)時代

班級:電信111大數(shù)據(jù)時代班級:電信111大數(shù)據(jù)簡介數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然很多企業(yè)可能并沒有意識到數(shù)據(jù)爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數(shù)據(jù)對企業(yè)的重要性。哈佛大學社會學教授加里·金說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程?!贝髷?shù)據(jù)簡介數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖大數(shù)據(jù)簡介隨著云時代的來臨,大數(shù)據(jù)(Bigdata)也吸引了越來越多的關注。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce(分布式計算)一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部內容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質信件數(shù)量);發(fā)出的社區(qū)帖子達200萬個(相當于《時代》雜志770年的文字量);賣出的手機為37.8萬臺……這樣的趨勢會持續(xù)下去。我們現(xiàn)在還處于所謂“物聯(lián)網(wǎng)”的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發(fā)展的“可穿戴”科技將能互相連接與溝通??萍嫉倪M步已經(jīng)使創(chuàng)造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬件、軟件、人才及服務之上的商業(yè)投資也增長了整整50%,達到了4000億美元。大數(shù)據(jù)簡介隨著云時代的來臨,大數(shù)據(jù)(Bigdata)也吸引四個特征數(shù)據(jù)量大(Volume)第一個特征是數(shù)據(jù)量大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。類型繁多(Variety)第二個特征是數(shù)據(jù)類型繁多。包括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。價值密度低(Value)第三個特征是數(shù)據(jù)價值密度相對較低。如隨著物聯(lián)網(wǎng)的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。速度快時效高(Velocity)第四個特征是處理速度快,時效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。四個特征數(shù)據(jù)量大(Volume)大數(shù)據(jù)分析與處理方法介紹眾所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,而最重要的現(xiàn)實是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那么越來越多的應用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。大數(shù)據(jù)分析與處理方法介紹眾所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大數(shù)據(jù)分析的五個基本方面1.AnalyticVisualizations(可視化分析)不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結果。2.DataMiningAlgorithms(數(shù)據(jù)挖掘算法)可視化是給人看的,數(shù)據(jù)挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。3.PredictiveAnalyticCapabilities(預測性分析能力)數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結果做出一些預測性的判斷。大數(shù)據(jù)分析的五個基本方面1.AnalyticVisual大數(shù)據(jù)分析的五個基本方面4.SemanticEngines(語義引擎)我們知道由于非結構化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設計成能夠從“文檔”中智能提取信息。5.DataQualityandMasterDataManagement(數(shù)據(jù)質量和數(shù)據(jù)管理)數(shù)據(jù)質量和數(shù)據(jù)管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數(shù)據(jù)進行處理,可以保證一個預先定義好的高質量的分析結果。大數(shù)據(jù)分析的五個基本方面4.SemanticEngine大數(shù)據(jù)處理周濤博士說:大數(shù)據(jù)處理數(shù)據(jù)時代理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。具體的大數(shù)據(jù)處理方法其實有很多,但是根據(jù)長時間的實踐,此處總結了一個基本的大數(shù)據(jù)處理流程。整個處理流程可以概括為四步,分別是采集、導入和預處理、統(tǒng)計和分析,以及挖掘。采集:大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設計。大數(shù)據(jù)處理周濤博士說:大數(shù)據(jù)處理數(shù)據(jù)時代理念的三大轉變:要全大數(shù)據(jù)處理導入/預處理:雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。導入與預處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大,每秒鐘的導入量經(jīng)常會達到百兆,甚至千兆級別。統(tǒng)計/分析:統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。大數(shù)據(jù)處理導入/預處理:大數(shù)據(jù)處理挖掘:與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預先設定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的K-Means、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,還有,常用數(shù)據(jù)挖掘算法都以單線程為主。大數(shù)據(jù)處理挖掘:處理和分析工具用于分析大數(shù)據(jù)的工具主要有開源與商用兩個生態(tài)圈。開源大數(shù)據(jù)生態(tài)圈:1、HadoopHDFS、HadoopMapReduce,HBase、Hive漸次誕生,早期Hadoop生態(tài)圈逐步形成。2、.Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。3、NoSQL,membase、MongoDB商用大數(shù)據(jù)生態(tài)圈:1、一體機數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBMPureData(Netezza),OracleExadata,SAPHana等等。2、數(shù)據(jù)倉庫:TeradataAsterData,EMCGreenPlum,HPVertica等等。3、數(shù)據(jù)集市:QlikView、Tableau、以及國內的YonghongDataMart。處理和分析工具用于分析大數(shù)據(jù)的工具主要有開源與商用兩個生態(tài)圈處理和分析工具Hadoop 據(jù)IDC的預測,全球大數(shù)據(jù)市場2015年將達170億美元規(guī)模,市場發(fā)展前景很大。而Hadoop作為新一代的架構和技術,因為有利于并行分布處理“大數(shù)據(jù)”而備受重視。ApacheHadoop是一個用java語言實現(xiàn)的軟件框架,在由大量計算機組成的集群中運行海量數(shù)據(jù)的分布式計算,它可以讓應用程序支持上千個節(jié)點和PB級別的數(shù)據(jù)。Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)等組成。優(yōu)點:可擴展:不論是存儲的可擴展還是計算的可擴展都是Hadoop的設計根本。經(jīng)濟:框架可以運行在任何普通的PC上??煽浚悍植际轿募到y(tǒng)的備份恢復機制以及MapReduce的任務監(jiān)控保證了分布式處理的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結合LocalData處理的模式,為高效處理海量的信息作了基礎準備。處理和分析工具Hadoop 據(jù)IDC的預測,全球大數(shù)據(jù)市場2處理和分析工具Hadoop Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個應用程序分解為許多并行計算指令,跨大量的計算節(jié)點運行非常巨大的數(shù)據(jù)集。使用該框架的一個典型例子就是在網(wǎng)絡數(shù)據(jù)上運行的搜索算法。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streamingaccess)文件系統(tǒng)中的數(shù)據(jù)。Hadoop的框架最核心的設計就是:HDFS和MapReduce.HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。處理和分析工具Hadoop Hadoop原本來自于谷歌一款名MapReduceHDFSHBasePigChuKwaHiveZooKeeperHadoop體系架構Pig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,Pig為復雜的海量數(shù)據(jù)并行計算提供了一個簡易的操作和編程接口Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo貢獻hive是基于Hadoop的一個工具,提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行ZooKeeper:高效的,可擴展的協(xié)調系統(tǒng),存儲和協(xié)調關鍵共享狀態(tài)HBase是一個開源的,基于列存儲模型的分布式數(shù)據(jù)庫HDFS是一個分布式文件系統(tǒng)。有著高容錯性的特點,并且設計用來部署在低廉的硬件上,適合那些有著超大數(shù)據(jù)集的應用程序MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算MapReduceHDFSHBasePigChuKwaHivHDFS——分布式文件系統(tǒng)NameNode

可以看作是分布式文件系統(tǒng)中的管理者,存儲文件系統(tǒng)的meta-data,主要負責管理文件系統(tǒng)的命名空間,集群配置信息,存儲塊的復制。DataNode

是文件存儲的基本單元。它存儲文件塊在本地文件系統(tǒng)中,保存了文件塊的meta-data,同時周期性的發(fā)送所有存在的文件塊的報告給NameNode。Client

就是需要獲取分布式文件系統(tǒng)文件的應用程序。

HDFS是一個高度容錯性的分布式文件系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應用。HDFS——分布式文件系統(tǒng)NameNodeHDFS是一個高度MapReduceMap:任務的分解Reduce:結果的匯總兩大核心設計HDFSNameNode:文件管理DataNode:文件存儲Client:文件獲取Hadoop核心設計MapReduce兩大核心設計HDFSHadoop核心設計HDFS具體操作文件寫入:1.Client向NameNode發(fā)起文件寫入的請求2.NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。3.Client將文件劃分為多個文件塊,根據(jù)DataNode的地址信息,按順序寫入到每一個DataNode塊中。文件讀?。?.

Client向NameNode發(fā)起文件讀取的請求2.

NameNode返回文件存儲的DataNode的信息。3.Client讀取文件信息。HDFS具體操作文件寫入:MapReduce——映射、化簡編程模型1.根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設置把數(shù)據(jù)分成splits,每個split對于一個map線程。2.Split中的數(shù)據(jù)作為Map的輸入,Map的輸出一定在Map端。3.Map的輸出到Reduce的輸入的過程(shuffle過程): 第一階段:在map端完成內存->排序->寫入磁盤->復制第二階段:在reduce端完成映射到reduce端分區(qū)->合并->排序4.Reduce的輸入到Reduce的輸出最后排好序的key/value作為Reduce的輸入,輸出不一定是在reduce端。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算。Map(映射)和Reduce(化簡),采用分而治之思想,先把任務分發(fā)到集群多個節(jié)點上,并行計算,然后再把計算結果合并,從而得到最終計算結果。多節(jié)點計算,所涉及的任務調度、負載均衡、容錯處理等,都由MapReduce框架完成,不需要編程人員關心這些內容。MapReduce——映射、化簡編程模型1.根據(jù)輸入數(shù)據(jù)的HBASE——分布式數(shù)據(jù)存儲HBase–HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng);HBase位于結構化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持,MapReduce為HBase提供了高性能的計算能力,Zookeeper為HBase提供了穩(wěn)定服務和failover機制;Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進行數(shù)據(jù)統(tǒng)計處理變的簡單。HBASE——分布式數(shù)據(jù)存儲HBase–HadoopD大數(shù)據(jù)行業(yè)應用金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應用金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)

隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展,運營商的網(wǎng)絡將會更加繁忙,用于監(jiān)測網(wǎng)絡狀態(tài)的信令數(shù)據(jù)也會快速增長。通過大數(shù)據(jù)的海量分布式存儲技術,可以更好地滿足存儲需求;通過智能分析技術,能夠提高網(wǎng)絡維護的實時性,預測網(wǎng)絡流量峰值,預警異常流量,有效防止網(wǎng)絡堵塞和宕機,為網(wǎng)絡改造、優(yōu)化提供參考,從而提高網(wǎng)絡服務質量,提升用戶體驗。提升網(wǎng)絡服務質量,增強管道智能化客戶洞察是指在企業(yè)或部門層面對客戶數(shù)據(jù)的全面掌握并在市場營銷、客戶聯(lián)系等環(huán)節(jié)的有效應用。通過使用大數(shù)據(jù)分析、數(shù)據(jù)挖掘等工具和方法,電信運營商能夠整合來自市場部門、銷售部門、服務部門的數(shù)據(jù),從各種不同的角度全面了解自己的客戶,對客戶形象進行精準刻畫,以尋找目標客戶,制定有針對性的營銷計劃、產(chǎn)品組合或商業(yè)決策,提升客戶價值。判斷客戶對企業(yè)產(chǎn)品、服務的感知,有針對性地進行改進和完善。通過情感分析、語義分析等技術,可以針對客戶的喜好、情緒,進行個性化的業(yè)務推薦更加精準地洞察客戶需求,增強市場競爭力智慧城市的發(fā)展以及教育、醫(yī)療、交通、環(huán)境保護等關系到國計民生的行業(yè),都具有極大的信息化需求。目前,電信運營商針對智慧城市及行業(yè)信息化服務雖然能夠提供一攬子解決方案,但主要還是提供終端和通信管道,行業(yè)應用軟件和系統(tǒng)集成尚需要整合外部的應用軟件提供商,對于客戶的價值主要體現(xiàn)在網(wǎng)絡化、自動化等較低水平。而隨著社會、經(jīng)濟的發(fā)展,客戶及客戶的客戶對于智能化的要求將逐步強烈,因此運營商如能把大數(shù)據(jù)技術整合到行業(yè)信息化方案中,幫助客戶通過數(shù)據(jù)采集、存儲和分析更好地進行決策,將能極大提升信息化服務的價值升級行業(yè)信息化解決方案,提升客戶價值大數(shù)據(jù)也有大風險,其中之一就是客戶隱私泄露及數(shù)據(jù)安全風險。由于大量的數(shù)據(jù)產(chǎn)生、存儲和分析,數(shù)據(jù)保密和隱私問題將在未來幾年內成為一個更大的問題,企業(yè)必須提供數(shù)據(jù)安全服務,在大數(shù)據(jù)市場建立差異化競爭優(yōu)勢電信行業(yè)大數(shù)據(jù)需求分析

隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展,運營商的網(wǎng)絡將會更加繁

謝謝!謝謝!踏實,奮斗,堅持,專業(yè),努力成就未來。11月-2211月-22Sunday,November6,2022弄虛作假要不得,踏實肯干第一名。00:29:1100:29:1100:2911/6/202212:29:11AM安全象只弓,不拉它就松,要想保安全,常把弓弦繃。11月-2200:29:1100:29Nov-2206-Nov-22重于泰山,輕于鴻毛。00:29:1100:29:1100:29Sunday,November6,2022不可麻痹大意,要防微杜漸。11月-2211月-2200:29:1100:29:11November6,2022加強自身建設,增強個人的休養(yǎng)。2022年11月6日12:29上午11月-2211月-22追求卓越,讓自己更好,向上而生。06十一月202212:29:11上午00:29:1111月-22嚴格把控質量關,讓生產(chǎn)更加有保障。十一月2212:29上午11月-2200:29November6,2022重規(guī)矩,嚴要求,少危險。2022/11/60:29:1100:29:1106November2022好的事情馬上就會到來,一切都是最好的安排。12:29:11上午12:29上午00:29:1111月-22每天都是美好的一天,新的一天開啟。11月-2211月-2200:2900:29:1100:29:11Nov-22務實,奮斗,成就,成功。2022/11/60:29:11Sunday,November6,2022抓住每一次機會不能輕易流失,這樣我們才能真正強大。11月-222022/11/60:29:1111月-22謝謝大家!踏實,奮斗,堅持,專業(yè),努力成就未來。11月-2211月-2大數(shù)據(jù)時代

班級:電信111大數(shù)據(jù)時代班級:電信111大數(shù)據(jù)簡介數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然很多企業(yè)可能并沒有意識到數(shù)據(jù)爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數(shù)據(jù)對企業(yè)的重要性。哈佛大學社會學教授加里·金說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程?!贝髷?shù)據(jù)簡介數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖大數(shù)據(jù)簡介隨著云時代的來臨,大數(shù)據(jù)(Bigdata)也吸引了越來越多的關注。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce(分布式計算)一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部內容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質信件數(shù)量);發(fā)出的社區(qū)帖子達200萬個(相當于《時代》雜志770年的文字量);賣出的手機為37.8萬臺……這樣的趨勢會持續(xù)下去。我們現(xiàn)在還處于所謂“物聯(lián)網(wǎng)”的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發(fā)展的“可穿戴”科技將能互相連接與溝通??萍嫉倪M步已經(jīng)使創(chuàng)造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬件、軟件、人才及服務之上的商業(yè)投資也增長了整整50%,達到了4000億美元。大數(shù)據(jù)簡介隨著云時代的來臨,大數(shù)據(jù)(Bigdata)也吸引四個特征數(shù)據(jù)量大(Volume)第一個特征是數(shù)據(jù)量大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。類型繁多(Variety)第二個特征是數(shù)據(jù)類型繁多。包括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。價值密度低(Value)第三個特征是數(shù)據(jù)價值密度相對較低。如隨著物聯(lián)網(wǎng)的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。速度快時效高(Velocity)第四個特征是處理速度快,時效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。四個特征數(shù)據(jù)量大(Volume)大數(shù)據(jù)分析與處理方法介紹眾所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,而最重要的現(xiàn)實是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那么越來越多的應用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。大數(shù)據(jù)分析與處理方法介紹眾所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大數(shù)據(jù)分析的五個基本方面1.AnalyticVisualizations(可視化分析)不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結果。2.DataMiningAlgorithms(數(shù)據(jù)挖掘算法)可視化是給人看的,數(shù)據(jù)挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。3.PredictiveAnalyticCapabilities(預測性分析能力)數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結果做出一些預測性的判斷。大數(shù)據(jù)分析的五個基本方面1.AnalyticVisual大數(shù)據(jù)分析的五個基本方面4.SemanticEngines(語義引擎)我們知道由于非結構化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設計成能夠從“文檔”中智能提取信息。5.DataQualityandMasterDataManagement(數(shù)據(jù)質量和數(shù)據(jù)管理)數(shù)據(jù)質量和數(shù)據(jù)管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數(shù)據(jù)進行處理,可以保證一個預先定義好的高質量的分析結果。大數(shù)據(jù)分析的五個基本方面4.SemanticEngine大數(shù)據(jù)處理周濤博士說:大數(shù)據(jù)處理數(shù)據(jù)時代理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。具體的大數(shù)據(jù)處理方法其實有很多,但是根據(jù)長時間的實踐,此處總結了一個基本的大數(shù)據(jù)處理流程。整個處理流程可以概括為四步,分別是采集、導入和預處理、統(tǒng)計和分析,以及挖掘。采集:大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設計。大數(shù)據(jù)處理周濤博士說:大數(shù)據(jù)處理數(shù)據(jù)時代理念的三大轉變:要全大數(shù)據(jù)處理導入/預處理:雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。導入與預處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大,每秒鐘的導入量經(jīng)常會達到百兆,甚至千兆級別。統(tǒng)計/分析:統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。大數(shù)據(jù)處理導入/預處理:大數(shù)據(jù)處理挖掘:與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預先設定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的K-Means、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,還有,常用數(shù)據(jù)挖掘算法都以單線程為主。大數(shù)據(jù)處理挖掘:處理和分析工具用于分析大數(shù)據(jù)的工具主要有開源與商用兩個生態(tài)圈。開源大數(shù)據(jù)生態(tài)圈:1、HadoopHDFS、HadoopMapReduce,HBase、Hive漸次誕生,早期Hadoop生態(tài)圈逐步形成。2、.Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。3、NoSQL,membase、MongoDB商用大數(shù)據(jù)生態(tài)圈:1、一體機數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBMPureData(Netezza),OracleExadata,SAPHana等等。2、數(shù)據(jù)倉庫:TeradataAsterData,EMCGreenPlum,HPVertica等等。3、數(shù)據(jù)集市:QlikView、Tableau、以及國內的YonghongDataMart。處理和分析工具用于分析大數(shù)據(jù)的工具主要有開源與商用兩個生態(tài)圈處理和分析工具Hadoop 據(jù)IDC的預測,全球大數(shù)據(jù)市場2015年將達170億美元規(guī)模,市場發(fā)展前景很大。而Hadoop作為新一代的架構和技術,因為有利于并行分布處理“大數(shù)據(jù)”而備受重視。ApacheHadoop是一個用java語言實現(xiàn)的軟件框架,在由大量計算機組成的集群中運行海量數(shù)據(jù)的分布式計算,它可以讓應用程序支持上千個節(jié)點和PB級別的數(shù)據(jù)。Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)等組成。優(yōu)點:可擴展:不論是存儲的可擴展還是計算的可擴展都是Hadoop的設計根本。經(jīng)濟:框架可以運行在任何普通的PC上??煽浚悍植际轿募到y(tǒng)的備份恢復機制以及MapReduce的任務監(jiān)控保證了分布式處理的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結合LocalData處理的模式,為高效處理海量的信息作了基礎準備。處理和分析工具Hadoop 據(jù)IDC的預測,全球大數(shù)據(jù)市場2處理和分析工具Hadoop Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個應用程序分解為許多并行計算指令,跨大量的計算節(jié)點運行非常巨大的數(shù)據(jù)集。使用該框架的一個典型例子就是在網(wǎng)絡數(shù)據(jù)上運行的搜索算法。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streamingaccess)文件系統(tǒng)中的數(shù)據(jù)。Hadoop的框架最核心的設計就是:HDFS和MapReduce.HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。處理和分析工具Hadoop Hadoop原本來自于谷歌一款名MapReduceHDFSHBasePigChuKwaHiveZooKeeperHadoop體系架構Pig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,Pig為復雜的海量數(shù)據(jù)并行計算提供了一個簡易的操作和編程接口Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo貢獻hive是基于Hadoop的一個工具,提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行ZooKeeper:高效的,可擴展的協(xié)調系統(tǒng),存儲和協(xié)調關鍵共享狀態(tài)HBase是一個開源的,基于列存儲模型的分布式數(shù)據(jù)庫HDFS是一個分布式文件系統(tǒng)。有著高容錯性的特點,并且設計用來部署在低廉的硬件上,適合那些有著超大數(shù)據(jù)集的應用程序MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算MapReduceHDFSHBasePigChuKwaHivHDFS——分布式文件系統(tǒng)NameNode

可以看作是分布式文件系統(tǒng)中的管理者,存儲文件系統(tǒng)的meta-data,主要負責管理文件系統(tǒng)的命名空間,集群配置信息,存儲塊的復制。DataNode

是文件存儲的基本單元。它存儲文件塊在本地文件系統(tǒng)中,保存了文件塊的meta-data,同時周期性的發(fā)送所有存在的文件塊的報告給NameNode。Client

就是需要獲取分布式文件系統(tǒng)文件的應用程序。

HDFS是一個高度容錯性的分布式文件系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應用。HDFS——分布式文件系統(tǒng)NameNodeHDFS是一個高度MapReduceMap:任務的分解Reduce:結果的匯總兩大核心設計HDFSNameNode:文件管理DataNode:文件存儲Client:文件獲取Hadoop核心設計MapReduce兩大核心設計HDFSHadoop核心設計HDFS具體操作文件寫入:1.Client向NameNode發(fā)起文件寫入的請求2.NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。3.Client將文件劃分為多個文件塊,根據(jù)DataNode的地址信息,按順序寫入到每一個DataNode塊中。文件讀?。?.

Client向NameNode發(fā)起文件讀取的請求2.

NameNode返回文件存儲的DataNode的信息。3.Client讀取文件信息。HDFS具體操作文件寫入:MapReduce——映射、化簡編程模型1.根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設置把數(shù)據(jù)分成splits,每個split對于一個map線程。2.Split中的數(shù)據(jù)作為Map的輸入,Map的輸出一定在Map端。3.Map的輸出到Reduce的輸入的過程(shuffle過程): 第一階段:在map端完成內存->排序->寫入磁盤->復制第二階段:在reduce端完成映射到reduce端分區(qū)->合并->排序4.Reduce的輸入到Reduce的輸出最后排好序的key/value作為Reduce的輸入,輸出不一定是在reduce端。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算。Map(映射)和Reduce(化簡),采用分而治之思想,先把任務分發(fā)到集群多個節(jié)點上,并行計算,然后再把計算結果合并,從而得到最終計算結果。多節(jié)點計算,所涉及的任務調度、負載均衡、容錯處理等,都由MapReduce框架完成,不需要編程人員關心這些內容。MapReduce——映射、化簡編程模型1.根據(jù)輸入數(shù)據(jù)的HBASE——分布式數(shù)據(jù)存儲HBase–HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng);HBase位于結構化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持,MapReduce為HBase提供了高性能的計算能力,Zookeeper為HBase提供了穩(wěn)定服務和failover機制;Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進行數(shù)據(jù)統(tǒng)計處理變的簡單。HBASE——分布式數(shù)據(jù)存儲HBase–HadoopD大數(shù)據(jù)行業(yè)應用金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應用金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)

隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展,運營商的網(wǎng)絡將會更加繁忙,用于監(jiān)測網(wǎng)絡狀態(tài)的信令數(shù)據(jù)也會快速增長。通過大數(shù)據(jù)的海量分布式存儲技術,可以更好地滿足存儲需求;通過智能分析技術,能夠提高網(wǎng)絡維護的實時性,預測網(wǎng)絡

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論