大數(shù)據(jù)時代的數(shù)據(jù)分析_第1頁
大數(shù)據(jù)時代的數(shù)據(jù)分析_第2頁
大數(shù)據(jù)時代的數(shù)據(jù)分析_第3頁
大數(shù)據(jù)時代的數(shù)據(jù)分析_第4頁
大數(shù)據(jù)時代的數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)時代的數(shù)據(jù)分析【摘要】近年來互聯(lián)網(wǎng)的高速發(fā)展引領(lǐng)人類進入了一種信息量爆炸性增長的時代。每個人的生活中都充斥了構(gòu)造化和非構(gòu)造化的數(shù)據(jù)。伴隨人類生活全面向互聯(lián)網(wǎng)轉(zhuǎn)移,大數(shù)據(jù)時代將會不可防止的到來!作為全球互聯(lián)網(wǎng)的前沿概念,大數(shù)據(jù)重要包括兩方面特性:首先整個社會的信息量急劇增長,另首先個人可獲取的信息也呈指數(shù)增長。從科技發(fā)展的角度來看,“大數(shù)據(jù)”是“數(shù)據(jù)化”趨勢下的必然產(chǎn)物!并且伴隨這一趨勢的不停深入,在不遠(yuǎn)的未來我們將身處在一種“一切都被記錄,一切都被數(shù)字化”的時代。在這種背景下,對大數(shù)據(jù)的有效存儲以及良好地分析運用變的越來越緊迫。而數(shù)據(jù)分析能力的高下決定了大數(shù)據(jù)中價值發(fā)現(xiàn)過程的好壞與成敗。本文以大數(shù)據(jù)時代的數(shù)據(jù)分析為主題,簡要的論述了國內(nèi)大數(shù)據(jù)分析的發(fā)展現(xiàn)實狀況、大數(shù)據(jù)的分析模式以及重要的分析技術(shù)、大數(shù)據(jù)時代數(shù)據(jù)分析的幾種關(guān)鍵概念等有關(guān)問題。【關(guān)鍵詞】大數(shù)據(jù);分析模式;數(shù)據(jù)分析ABSTRACT:Inrecentyears,Internethadleadhumanityintoanerawhichtheamountofinformationaregrowingexplosively.Everyone’slifeisfullofstructuredandunstructureddata.WewillinevitablyenteringtheeraofbigdatawithhumanlifefullytransferringtotheInternet.Asacutting-edgeconceptofInternet,bigdataconsistsmainlyoftwocharacteristics:Theamountofinformationinoursocietyandpeoplecanobtainedaregrowingrapidly.Fromtheperspectiveofsciencedevelopment,theeraofbigdataisaninevitableproductofthedigitaltrend!Asthistrendmovingdeeply,wewillliveinaworldwhereeverythingwouldbedigitalandrecorded.Inthiscontext,effectivelystoring、analyzingandusingofthosedatabecomemoreandmoreurgentforsociety.Dataanalysisdefinitelydeterminesthevalueandthequalityofdataminingprocess.Dataanalyzingisthecorecontentinthispaper.Conciselyelaboratingthecurrentdevelopmentofdataanalyzing、analyzingmodelandthemainanalyticaltechniques,severalcoreconceptsofbigdataanalysisandotherrelatedissues.Keywords:Bigdata;Analyticalmodel;Dataanalysis1.國內(nèi)大數(shù)據(jù)分析的發(fā)展現(xiàn)實狀況數(shù)據(jù)分析是數(shù)據(jù)處理流程的關(guān)鍵,由于數(shù)據(jù)中所蘊藏的價值就產(chǎn)生于分析的過程。所謂“大數(shù)據(jù)分析”,其和以往數(shù)據(jù)分析的最重要的差異在于數(shù)據(jù)量急劇增長。由于數(shù)據(jù)量的增長,使得對于數(shù)據(jù)的存儲、查詢以及分析的規(guī)定迅速提高。從實際操作的角度看,“大數(shù)據(jù)分析”需要通過對原始數(shù)據(jù)進行分析來探究一種模式,尋找導(dǎo)致現(xiàn)實狀況的本源原因,通過建立模型與預(yù)測來進行優(yōu)化,以實現(xiàn)社會運行中各個領(lǐng)域的持續(xù)改善與創(chuàng)新。雖然近兩年來“大數(shù)據(jù)”的概念越來越多的被媒體以及行業(yè)提及,但“大數(shù)據(jù)分析”在國內(nèi)的發(fā)展卻仍處在初期階段。從行業(yè)實踐的角度看,只有少數(shù)幾種行業(yè)的部分企業(yè),可以對大數(shù)據(jù)進行基本分析和運用,并在業(yè)務(wù)決策中以數(shù)據(jù)分析成果為根據(jù)。這些行業(yè)重要集中在銀行與保險,電信與電商等領(lǐng)域。以銀行業(yè)為例,目前大型國有銀行在其主營業(yè)務(wù)中均引入了數(shù)據(jù)分析,但深度尚可,廣度不夠,尚未擴充到運行管理的所有領(lǐng)域;而中小銀行在數(shù)據(jù)分析方面的人員與能力建設(shè)尚處在起步階段。對于支撐起我國龐大國民生產(chǎn)總值的建筑業(yè)、制造業(yè)以及貿(mào)易行業(yè),其數(shù)據(jù)分析應(yīng)用遠(yuǎn)遠(yuǎn)沒有進入規(guī)?;l(fā)展階段,這些行業(yè)在IT方向的開支重要集中在企業(yè)平常的流程化管理領(lǐng)域。從技術(shù)發(fā)展的角度看,某些已經(jīng)較為成熟的數(shù)據(jù)分析處理技術(shù),例如商業(yè)智能技術(shù)和數(shù)據(jù)挖掘技術(shù),已經(jīng)在多種行業(yè)領(lǐng)域里得到廣泛和深入的應(yīng)用。最經(jīng)典的就是電商行業(yè),運用這些技術(shù)對行業(yè)數(shù)據(jù)進行分析,對提高行業(yè)的整體運行效率以及增長行業(yè)利潤都起到了極大的推進作用。但對于像Hadoop、非構(gòu)造化數(shù)據(jù)庫、數(shù)據(jù)可視化工具以及個性化推薦引擎這樣的新技術(shù),其較高的技術(shù)門檻和高昂的運行維護成本使得國內(nèi)只有少數(shù)企業(yè)可以將其運用到深入分析行業(yè)數(shù)據(jù)中。從數(shù)據(jù)來源的角度看,在可以實現(xiàn)數(shù)據(jù)化運行的企業(yè)中,絕大多數(shù)僅僅完畢了依托企業(yè)自身所產(chǎn)生的數(shù)據(jù)處理自身所面臨的問題,并且是根據(jù)問題來搜集所需要的數(shù)據(jù)。而僅有很少數(shù)互聯(lián)網(wǎng)企業(yè)可以發(fā)揮出大數(shù)據(jù)分析的真正價值:同步運用企業(yè)外部和內(nèi)部的數(shù)據(jù)來處理企業(yè)自身的問題,通過數(shù)據(jù)分析預(yù)測也許出現(xiàn)的問題,并根據(jù)數(shù)據(jù)分析的成果進行商業(yè)決策。在一定程度上實現(xiàn)了由數(shù)據(jù)化運行向運行數(shù)據(jù)的轉(zhuǎn)變。2.大數(shù)據(jù)的重要分析模式與技術(shù)2.1大數(shù)據(jù)的重要分析模式大數(shù)據(jù)時代所分析的數(shù)據(jù)的最重要特性是“多源異構(gòu)”,其分析過程是逐層抽象、降維、概括和解讀的過程。從數(shù)據(jù)采集的源頭進行劃分,可將大數(shù)據(jù)時代分析處理的數(shù)據(jù)對象劃分為如下幾種類別:(1)各網(wǎng)頁中顧客的瀏覽次數(shù)、點擊率,多種社交網(wǎng)站、動態(tài)網(wǎng)站網(wǎng)頁內(nèi)容信息的變化,搜索引擎中關(guān)鍵詞的搜索量、網(wǎng)絡(luò)實時監(jiān)控數(shù)據(jù)等互聯(lián)網(wǎng)數(shù)據(jù)。(2)可以用于分析顧客行為、對系統(tǒng)的操作、以及系統(tǒng)運行狀態(tài)的日志數(shù)據(jù)。(3)在通信領(lǐng)域中的多種信號、信令數(shù)據(jù),顧客的個人信息以及通話位置、時長等數(shù)據(jù)。(4)國民經(jīng)濟中各領(lǐng)域、各行業(yè)的記錄分析數(shù)據(jù)。對于這些數(shù)量龐大的,來自不一樣源頭的非構(gòu)造化數(shù)據(jù)。其分析模式的特點如下:對于互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù),其最重要的應(yīng)用是建立搜索引擎,通過搜索引擎進行數(shù)據(jù)檢索、處理。伴隨技術(shù)的不停發(fā)展,個性化推薦引擎以及大數(shù)據(jù)分析引擎的問世可以愈加高效的在海量數(shù)據(jù)中分析得出更有價值的信息;對于日志數(shù)據(jù),可對顧客點擊瀏覽的行為日志和系統(tǒng)運行行為日志進行分析。使得系統(tǒng)可以根據(jù)實際狀況產(chǎn)生出愈加智能的成果。日志數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的分析處理模式較為類似,都是通過細(xì)致分析從而探尋出數(shù)據(jù)中蘊藏的價值。這種數(shù)據(jù)分析處理模式稱為“離線批處理模式”;對于通信領(lǐng)域的數(shù)據(jù)分析,分析決策人員會對通過細(xì)致分析的數(shù)據(jù)進行記錄歸納和查詢,并且在最短的時間內(nèi)獲得最有價值的信息。以此來保證系統(tǒng)的交互性并最大程度地提高顧客體驗。這種數(shù)據(jù)分析處理模式稱為“查詢式分析”模式;對于互聯(lián)網(wǎng)以及國民經(jīng)濟中重要行業(yè)的數(shù)據(jù)進行實時監(jiān)控,這種模式稱為“實時數(shù)據(jù)分析處理“模式。以上為根據(jù)時間特性劃分的數(shù)據(jù)分析模式。而實現(xiàn)這些分析模式的重要措施有:分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、WEB數(shù)據(jù)挖掘等。2.2大數(shù)據(jù)的重要分析技術(shù)要想從急劇增長的數(shù)據(jù)資源中挖掘分析出有價值的信息,需要先進的分析技術(shù)作支撐。從宏觀上看,大數(shù)據(jù)分析技術(shù)發(fā)展所面臨的問題均包括三個重要特性:(1)數(shù)據(jù)量龐大并以驚人的速度增長;(2)數(shù)據(jù)種類與構(gòu)造多樣化,并以半構(gòu)造化和非構(gòu)造化的數(shù)據(jù)為主;(3)需要具有及時迅速的分析速度,即實時分析。這些特性使得老式的數(shù)據(jù)分析技術(shù)無法滿足規(guī)定,愈加先進的數(shù)據(jù)分析平臺才是大數(shù)據(jù)時代更好的選擇。為了有效應(yīng)對大數(shù)據(jù)時代數(shù)據(jù)分析問題的三個重要特性以及滿足大數(shù)據(jù)分析的基本需求,目前以及未來一段時期內(nèi)將重要通過度布式數(shù)據(jù)庫或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行由淺入深的分析和分類匯總。例如,為滿足實時分析的需求一般會采用Qracle的Exadata和EMC的GreenPlum。而目前分析處理大數(shù)據(jù)的應(yīng)用最廣泛的關(guān)鍵技術(shù)為Hadoop。Hadoop是由Apache基金會所開發(fā)的一種基于Java的分布式數(shù)據(jù)處理和分析的軟件基礎(chǔ)架構(gòu)。在這種架構(gòu)下,顧客可以在不理解分布式底層細(xì)節(jié)的狀況下,開發(fā)分布式程序。Hadoop可以將數(shù)量龐大的數(shù)據(jù)分解成規(guī)模較小、易訪問的數(shù)據(jù)集并發(fā)送到多臺服務(wù)器上進行分析,以此獲得高效的分析速率。該架構(gòu)重要由文獻系統(tǒng)以及數(shù)據(jù)處理兩部分功能模塊構(gòu)成。3.大數(shù)據(jù)分析的幾種關(guān)鍵概念3.1K—平均算法K—平均算法是一種得到廣泛應(yīng)用的基于劃分的聚類算法。其把M個對象分為N個簇,使得每個簇內(nèi)具有較高的相似度。在應(yīng)用該算法進行數(shù)據(jù)分析時,首先應(yīng)輸入包括M個對象的數(shù)據(jù)集A以及簇的數(shù)目N。從A中任意選擇N個對象作為初始簇中心并且不停反復(fù),隨即計算出簇中對象的均值,將每個對象分派到最相似的簇并且不停更新簇均值,最終計算準(zhǔn)則函數(shù)直到其不再發(fā)生變化為止。由于該算法的復(fù)雜度大概是0(nkt),因此該算法在處理大數(shù)據(jù)集時是相對可伸縮的和高效率的。3.2奇異值分解假設(shè)A是一種m×n階矩陣,其中的元素所有屬于實數(shù)域或復(fù)數(shù)域。如此則存在一種分解使得A=U∑V*。其中U是m×m階酉矩陣,Σ是半正定m×n階對角矩陣,而V*是n×n階酉矩陣的共軛轉(zhuǎn)置矩陣。這樣的分解就稱為A的奇異值分解。在MATLAB仿真軟件中計算奇異值分解的函數(shù)式為:[b.c.d]=svd(x)3.3主成分分析(PCA算法)從宏觀上來說,主成分分析是指在研究一項變量較多的課題時,將這些變量通過線性變換而簡化為幾種重要變量的一種多元記錄分析措施。而在數(shù)據(jù)分析領(lǐng)域,主成分分析的重要作用是對大規(guī)模的數(shù)據(jù)集進行分析與簡化。其重要體目前減少數(shù)據(jù)集的維數(shù),同步盡量保持?jǐn)?shù)據(jù)集中的對所研究的問題最有價值的特性。簡而言之,就是保留低階主成分,忽視高階主成分。其詳細(xì)措施是通過對協(xié)方差矩陣進行特性分解,從而得出數(shù)據(jù)的特性向量與特性值。主成分分析在數(shù)學(xué)上可以理解為一種正交化的線性變換,把數(shù)據(jù)整體變換到一種新的坐標(biāo)系中,使得這一數(shù)據(jù)的任何投影的第一大方差在第一主成分上,第二大方差在第二主成分上,依次類推。3.4決策樹學(xué)習(xí)從廣義上講,決策樹是一種運用圖解法的概率分析,即在已知多種事件發(fā)生概率的基礎(chǔ)上,通過構(gòu)建決策樹來探究期望值不小于等于零的概率,同步判斷可行性的決策分析措施。決策樹學(xué)習(xí)是數(shù)據(jù)分析領(lǐng)域常用的措施,其目的是構(gòu)建一種模型來

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論