大數(shù)據(jù)分析與處理方法解讀_第1頁
大數(shù)據(jù)分析與處理方法解讀_第2頁
大數(shù)據(jù)分析與處理方法解讀_第3頁
大數(shù)據(jù)分析與處理方法解讀_第4頁
大數(shù)據(jù)分析與處理方法解讀_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析與處理方法解讀【文章摘要】要知道,大數(shù)據(jù)已不再是數(shù)據(jù)大,最重要的現(xiàn)實就是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。越來越多的應(yīng)用涉及到大數(shù)據(jù),這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素?;诖耍髷?shù)據(jù)分析的方法理論有哪些呢?大數(shù)據(jù)分析的五個基本方面PredictiveAnalyticCapabilities(預(yù)測性分析能力)數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實踐。通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。AnalyticVisualizations(可視化分析)不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。可視化可以直觀的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。SemanticEngines(語義弓|擎)我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計成能夠從“文檔”中智能提取信息。DataMiningAlgorithms(數(shù)據(jù)挖掘算法)可視化是給人看的,數(shù)據(jù)挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。假如大數(shù)據(jù)真的是下一個重要的技術(shù)革新的話,我們最好把精力關(guān)注在大數(shù)據(jù)能給我們帶來的好處,而不僅僅是挑戰(zhàn)。大數(shù)據(jù)處理大數(shù)據(jù)處理數(shù)據(jù)時代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果。具體的大數(shù)據(jù)處理方法其實有很多,但是根據(jù)長時間的實踐,筆者總結(jié)了一個基本的大數(shù)據(jù)處理流程,并且這個流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計和分析,以及挖掘。采集大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB八樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設(shè)計。統(tǒng)計/分析統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMQ的GreenPlum、Oracle的Exadata,以及基于MySQL勺列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。導(dǎo)入/預(yù)處理雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿足部分業(yè)務(wù)的實時計算需求。導(dǎo)入與預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達到百兆,甚至千兆級別。挖掘與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預(yù)測的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的K-Means、用于統(tǒng)計學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,還有,常用數(shù)據(jù)挖掘算法都以單線程為主大數(shù)據(jù)及其智能處理技術(shù)的分析論文發(fā)表(點擊進入)匡|圉論及檢測摘要:隨著社會的進步,科學(xué)技術(shù)的不斷發(fā)展,信息技術(shù)成了目前最受關(guān)注,也是發(fā)展最快的科學(xué)技術(shù)。世界各國都在致力于信息化,而各國對于信息化的巨大需求又反過來不斷促進信息技術(shù)的革新,可以說,我們已經(jīng)進入了信息時代。數(shù)據(jù)的密集爆發(fā)是信息時代的重要特征之一,更令人驚訝的是,這種數(shù)據(jù)的變化并不是一個循序漸進的過程,而是一個跨越式的過程。我們的社會已經(jīng)被各種各樣的龐雜的數(shù)據(jù)圍繞了,可以看出,大數(shù)據(jù)時代已經(jīng)來臨了。本文將對大數(shù)據(jù)及其智能處理技術(shù)作簡要的分析。大數(shù)據(jù)處理技術(shù)的發(fā)展研究作者:張慧琴來源:月壇統(tǒng)計分會發(fā)布日期:2013-07-0315:08:00一、大數(shù)據(jù)的涵義與起源大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)的4V特點:Volume、Velocity,Variety,Veracity。大數(shù)據(jù)”作為時下最火熱的IT行業(yè)的詞匯,隨之?dāng)?shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)量的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點。早在1980年,著名未來學(xué)家阿爾及托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為第三次浪潮的華彩樂章”不過,大約從2009年開始,大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時測量和傳遞著有關(guān)位置、運動、震動、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的加工能力”通過加工”實現(xiàn)數(shù)據(jù)的增值”且中國物聯(lián)網(wǎng)校企聯(lián)盟認(rèn)為,物聯(lián)網(wǎng)的發(fā)展離不開大數(shù)據(jù),依靠大數(shù)據(jù)提供足夠有利的資源。隨著云時代的來臨,大數(shù)據(jù)(Bigdata)也吸引了越來越多的關(guān)注?!吨婆_》的分析師團隊認(rèn)為,大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點。《計算機學(xué)報》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺需要具備的幾個重要特性,對當(dāng)前的主流實現(xiàn)平臺一并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)進行了分析歸納,指出了各自的優(yōu)勢及不足,同時也對各個方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進行了介紹,對未來研究做了展望。對于大數(shù)據(jù)”研究機構(gòu)Gartner給出了這樣的定義。大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)”這個術(shù)語最早期的引用可追溯到apacheorg的開源項目Nutch。當(dāng)時,大數(shù)據(jù)用來描述為更新網(wǎng)絡(luò)搜索索引需要同時進行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce和GoogleFileSystem(GFS)的發(fā)布,大數(shù)據(jù)不再僅用來描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度。從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點至關(guān)重要,也正是這一點促使該技術(shù)具備走向眾多企業(yè)的潛力。大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運營管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。大數(shù)據(jù)的4個“V,或者說特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業(yè)價值高。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個“V”Volume,Variety,Value,Velocity。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。最早提出“大數(shù)據(jù)”時代已經(jīng)到來的機構(gòu)是全球知名咨詢公司麥肯錫。麥肯錫在研究報告中指出,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運用將預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來?!胞溈襄a的報告發(fā)布后,大數(shù)據(jù)迅速成為了計算機行業(yè)爭相傳誦的熱門概念,也引起了金融界的高度關(guān)注。”隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身是資產(chǎn),這一點在業(yè)界已經(jīng)形成共識?!叭绻f云計算為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場所和渠道,那么如何盤活數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個人生活服務(wù),則是大數(shù)據(jù)的核心議題,也是云計算內(nèi)在的靈魂和必然的升級方向。”事實上,全球互聯(lián)網(wǎng)巨頭都已意識到了大數(shù)據(jù)”時代,數(shù)據(jù)的重要意義。包括EMC、惠普(微博卜舊M、微軟(微博)在內(nèi)的全球IT巨頭紛紛通過收購“大數(shù)據(jù)”相關(guān)廠商來實現(xiàn)技術(shù)整合,亦可見其對“大數(shù)據(jù)”的重視?!按髷?shù)據(jù)”作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在12月8日工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上,把信息處理技術(shù)作為4項關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。而另外3項關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都與“大數(shù)據(jù)”密切相關(guān)。二、大數(shù)據(jù)技術(shù)大數(shù)據(jù)時代的超大數(shù)據(jù)體量和占相當(dāng)比例的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存在,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)庫的管理能力,大數(shù)據(jù)技術(shù)將是IT領(lǐng)域新一代的技術(shù)與架構(gòu),它將幫助人們存儲管理好大數(shù)據(jù)并從大體量、高復(fù)雜的數(shù)據(jù)中提取價值,相關(guān)的技術(shù)、產(chǎn)品將不斷涌現(xiàn),將有可能給IT行業(yè)開拓一個新的黃金時代。大數(shù)據(jù)本質(zhì)也是數(shù)據(jù),其關(guān)鍵的技術(shù)依然逃不脫:1)大數(shù)據(jù)存儲和管理;2)大數(shù)據(jù)檢索使用(包括數(shù)據(jù)挖掘和智能分析)。圍繞大數(shù)據(jù),一批新興的數(shù)據(jù)挖掘、數(shù)據(jù)存儲、數(shù)據(jù)處理與分析技術(shù)將不斷涌現(xiàn),讓我們處理海量數(shù)據(jù)更加容易、更加便宜和迅速,成為企業(yè)業(yè)務(wù)經(jīng)營的好助手,甚至可以改變許多行業(yè)的經(jīng)營方式。(一)大數(shù)據(jù)的商業(yè)模式與架構(gòu)云計算及其分布式結(jié)構(gòu)是重要途徑大數(shù)據(jù)處理技術(shù)正在改變目前計算機的運行模式,正在改變著這個世界:它能處理幾乎各種類型的海量數(shù)據(jù),無論是微博、文章、電子郵件、文檔、音頻、視頻,還是其它形態(tài)的數(shù)據(jù);它工作的速度非常快速:實際上幾乎實時;它具有普及,性:因為它所用的都是最普通低成本的硬件,而云計算它將計算任務(wù)分布在大量計算機構(gòu)成的資源池上,使用戶能夠按需獲取計算力、存儲空間和信息服務(wù)。云計算及其技術(shù)給了人們廉價獲取巨量計算和存儲的能力,云計算分布式架構(gòu)能夠很好地支持大數(shù)據(jù)存儲和處理需求。這樣的低成本硬件+低成本軟件+低成本運維,更加經(jīng)濟和實用,使得大數(shù)據(jù)處理和利用成為可能。(二)大數(shù)據(jù)的存儲和管理云數(shù)據(jù)庫的必然:很多人把NoSQL叫做云數(shù)據(jù)庫,因為其處理數(shù)據(jù)的模式完全是分布于各種低成本服務(wù)器和存儲磁盤,因此它可以幫助網(wǎng)頁和各種交互性應(yīng)用快速處理過程中的海量數(shù)據(jù)。它采用分布式技術(shù)結(jié)合了一系列技術(shù),可以對海量數(shù)據(jù)進行實時分析,滿足了大數(shù)據(jù)環(huán)境下一部分業(yè)務(wù)需求。但我說這是錯誤的,至少是片面的,是無法徹底解決大數(shù)據(jù)存儲管理需求的。云計算對關(guān)系型數(shù)據(jù)庫的發(fā)展將產(chǎn)生巨大的影響,而絕大多數(shù)大型業(yè)務(wù)系統(tǒng)(如銀行、證券交易等)、電子商務(wù)系統(tǒng)所使用的數(shù)據(jù)庫還是基于關(guān)系型的數(shù)據(jù)庫,隨著云計算的大量應(yīng)用,勢必對這些系統(tǒng)的構(gòu)建產(chǎn)生影響,進而影響整個業(yè)務(wù)系統(tǒng)及電子商務(wù)技術(shù)的發(fā)展和系統(tǒng)的運行模式?;陉P(guān)系型數(shù)據(jù)庫服務(wù)的云數(shù)據(jù)庫產(chǎn)品將是云數(shù)據(jù)庫的主要發(fā)展方向,云數(shù)據(jù)庫(CloudDB),提供了海量數(shù)據(jù)的并行處理能力和良好的可伸縮性等特性,提供同時支持在在線分析處理(OLAP)和在線事務(wù)處理(OLTP)能力,提供了超強性能的數(shù)據(jù)庫云服務(wù),并成為集群環(huán)境和云計算環(huán)境的理想平臺。它是一個高度可擴展、安全和可容錯的軟件,客戶能通過整合降低IT成本,管理位于多個數(shù)據(jù),提高所有應(yīng)用程序的性能和實時性做出更好的業(yè)務(wù)決策服務(wù)。這樣的云數(shù)據(jù)庫要能夠滿足:A.海量數(shù)據(jù)處理:對類似搜索引擎和電信運營商級的經(jīng)營分析系統(tǒng)這樣大型的應(yīng)用而言,需要能夠處理PB級的數(shù)據(jù),同時應(yīng)對百萬級的流量。B.大規(guī)模集群管理:分布式應(yīng)用可以更加簡單地部署、應(yīng)用和管理。C.低延遲讀寫速度:快速的響應(yīng)速度能夠極大地提高用戶的滿意度。D建設(shè)及運營成本:云計算應(yīng)用的基本要求是希望在硬件成本、軟件成本以及人力成本方面都有大幅度的降低。所以云數(shù)據(jù)庫必須采用一些支撐云環(huán)境的相關(guān)技術(shù),比如數(shù)據(jù)節(jié)點動態(tài)伸縮與熱插拔、對所有數(shù)據(jù)提供多個副本的故障檢測與轉(zhuǎn)移機制和容錯機制、SN(ShareNothing)體系結(jié)構(gòu)、中心管理、節(jié)點對等處理實現(xiàn)連通任一工作節(jié)點就是連入了整個云系統(tǒng)、與任務(wù)追蹤、數(shù)據(jù)壓縮技術(shù)以節(jié)省磁盤空間同時減少磁盤IO時間等。云數(shù)據(jù)庫路線是基于傳統(tǒng)數(shù)據(jù)庫不斷升級并向云數(shù)據(jù)庫應(yīng)用靠攏,更好的適應(yīng)云計算模式,如自動化資源配置管理、虛擬化支持以及高可擴展性等,才能在未來將會發(fā)揮不可估量的作用。(三)大數(shù)據(jù)的處理和使用新型商業(yè)智能的產(chǎn)生傳統(tǒng)針對海量數(shù)據(jù)的存儲處理,通過建立數(shù)據(jù)中心,建設(shè)包括大型數(shù)據(jù)倉庫及其支撐運行的軟硬件系統(tǒng),設(shè)備(包括服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備等)越來越高檔、數(shù)據(jù)倉庫、OLAP及ETL、BI等平臺越來越龐大,但這些需要的投資越來越大,而面對數(shù)據(jù)的增長速度,越來越力不從心,所以基于傳統(tǒng)技術(shù)的數(shù)據(jù)中心建設(shè)、運營和推廣難度越來越大。另外一般能夠使用傳統(tǒng)的數(shù)據(jù)庫、數(shù)據(jù)倉庫和BI工具能夠完成的處理和分析挖掘的數(shù)據(jù),還不能稱為大數(shù)據(jù),這些技術(shù)也不能叫大數(shù)據(jù)處理技術(shù)。面對大數(shù)據(jù)環(huán)境,包括數(shù)據(jù)挖掘在內(nèi)的商業(yè)智能技術(shù)正在發(fā)生巨大的變化。傳統(tǒng)的傳統(tǒng)商業(yè)智能技術(shù),包括數(shù)據(jù)挖掘,主要任務(wù)舒建立比較復(fù)雜的數(shù)據(jù)倉庫模型、數(shù)據(jù)挖掘模型,來進行分析和處理不太多的數(shù)據(jù)。也許由于云計算模式、分布式技術(shù)和云數(shù)據(jù)庫技術(shù)的應(yīng)用,我們不需要這么復(fù)雜的模型,不用考慮復(fù)雜的計算算法,就能夠處理大數(shù)據(jù),對于不斷增長的業(yè)務(wù)數(shù)據(jù),用戶也可以通過添加低成本服務(wù)器甚至是PC機也可以,來處理海量數(shù)據(jù)記錄的掃描、統(tǒng)計、分析、預(yù)測。如果商業(yè)模式變化了,需要一分為二,那么新商業(yè)智能系統(tǒng)也可以很快地、相應(yīng)地一分為二,繼續(xù)強力支撐商業(yè)智能的需求。所以實際是對傳統(tǒng)商業(yè)智能的發(fā)展和促進,商業(yè)智能將出現(xiàn)新的發(fā)展機遇,面對風(fēng)云變幻的市場環(huán)境,快速建模,快速部署是新商業(yè)智能平臺的強力支撐。而不像過去那樣艱難前行,難以承受商業(yè)運作的變化。三、未來大數(shù)據(jù)的處理和發(fā)展的五個趨勢(一)數(shù)據(jù)科學(xué)越來越大眾化隨著像Coursera、Udacity和Edx等這些和數(shù)據(jù)分析相關(guān)的網(wǎng)絡(luò)教育平臺的流行,越來越多的人不用花一分錢便可以學(xué)到所有的知識,從基礎(chǔ)的統(tǒng)計學(xué)知識到自然語言處理和機器學(xué)習(xí)。除了這個,Oxdata化簡和集成了R語言后推出的分析產(chǎn)品,Quid正在做的具有機器學(xué)習(xí)和人工智能概念的工具也設(shè)計了傻瓜式的使用界面和形象具體的用戶展示方法。更有像Kaggle這樣的公司推出了關(guān)于預(yù)測模型的眾包平臺。所以大數(shù)據(jù)的處理的趨勢之一便是像Datahero,Infogram和Statwing他們一樣,把數(shù)據(jù)分析變得易用,大眾。二)Hadoop對MapReduce的依賴越來越小Hadoop平臺只為MapReduce服務(wù)的時代從Hadoop的2.0版本開始正式結(jié)束了。新版本支持的產(chǎn)品和服務(wù)將會和Cloudera的Impala一樣用一個SQL查詢引擎,或者其他的方法來替代MapReduce。HBaseNoSQL數(shù)據(jù)庫就是Hadoop離開MapReduce約束后的一個很好的例子。大型的網(wǎng)絡(luò)公司,像Facebook、eBay等都已經(jīng)用HBase去處理事務(wù)型的應(yīng)用了。(三)大數(shù)據(jù)越來越多的被用到了我們身邊的應(yīng)用中首先是大數(shù)據(jù)應(yīng)用對我們的開發(fā)者的要求變低了,有時候開發(fā)大數(shù)據(jù)應(yīng)用就像在你的應(yīng)用的代碼中加入幾行,或者像是寫一段兒腳本一樣。其次,大數(shù)據(jù)的應(yīng)用范圍也得到了拓展,用戶習(xí)慣分析,網(wǎng)絡(luò)安全,人工智能,售后服務(wù)等等都可以通過將大數(shù)據(jù)處理做成產(chǎn)品或者應(yīng)用而實現(xiàn)?,F(xiàn)在的大數(shù)據(jù)技術(shù)已經(jīng)被帶入了許多網(wǎng)絡(luò)和手機的應(yīng)用中,從購物推薦到找到和自己有關(guān)聯(lián)的人等等。(四)機器學(xué)習(xí)無處不在很容易就可以看到機器學(xué)習(xí)越來越流行,從我們身邊的小應(yīng)用Prismatic、Summly、Trifacta、CloudFlare、Twitter、Google、Facebook、Bidgely、Healthrageous、Predilytics、BloomReach、DataPop、Gravity…如今很難想象一個沒有機器學(xué)習(xí)技術(shù)的科技公司可以生存。Heck,甚至是微軟都在機器學(xué)習(xí)上下了很大賭注它將成為一個重要的收入來源。(五)手機將成為人工智能的數(shù)據(jù)來源我們的手機和手機中的應(yīng)用目前可能是最大的私人信息來源。通過機器學(xué)習(xí),語音識別和其他一些技術(shù),這些應(yīng)用可以知道我們?nèi)ツ膬?,我們的朋友都是誰,我們的日歷上都有哪些提醒,我們上網(wǎng)都瀏覽什么。通過新一代的私人助理應(yīng)用(Siri,Saga和GoogleNow等)我們的手機更能夠理解我們的言論,知道我們經(jīng)常出入的地方,我們平時吃什么,我們在家、工作和郊游的時間等等。大數(shù)據(jù)”的本質(zhì)實際上是數(shù)據(jù)生產(chǎn)的社會化,其對統(tǒng)計尤其是政府統(tǒng)計的沖擊是重大的,不僅涉及到整個統(tǒng)計流程,更加對當(dāng)前的政府統(tǒng)計管理體制、機構(gòu)設(shè)置、數(shù)據(jù)價值等方面形成了挑戰(zhàn)??梢源竽戭A(yù)測,未來政府統(tǒng)計的政府角色會被統(tǒng)計專業(yè)性取代,經(jīng)濟分析的職能會被更為專業(yè)的經(jīng)濟分析部門取代,宏觀數(shù)據(jù)的重要性會讓位于更有信息價值的微觀數(shù)據(jù)。統(tǒng)計部門需要正視這種變革,順應(yīng)這種潮流,并借助于大數(shù)據(jù)”的變革的有利形勢,加快提高統(tǒng)計能力,使得統(tǒng)計在大變革中處于優(yōu)勢地位。參考文獻1林蔭,盧瑩,王洪元,數(shù)據(jù)庫技術(shù)實驗教學(xué)的探索與實踐,《時代教育(教育教學(xué)版)》2008年05期2.初文科,《數(shù)據(jù)處理技術(shù)發(fā)展的研究〉〉

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論