大數(shù)據(jù)時(shí)代下的智能數(shù)據(jù)分析技術(shù)_第1頁(yè)
大數(shù)據(jù)時(shí)代下的智能數(shù)據(jù)分析技術(shù)_第2頁(yè)
大數(shù)據(jù)時(shí)代下的智能數(shù)據(jù)分析技術(shù)_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)時(shí)代下的智能數(shù)據(jù)分析技術(shù)摘要:由于多媒體等多種技術(shù)的發(fā)展與應(yīng)用,各領(lǐng)域都發(fā)生了很大的變化,每天不僅產(chǎn)生大量的數(shù)據(jù),而且數(shù)據(jù)更新?lián)Q代的速度極快。人們?cè)谔幚硪约胺治鰯?shù) 據(jù)的過(guò)程中,繼續(xù)使用傳統(tǒng)的智能數(shù)據(jù)分析技術(shù)已經(jīng)難以實(shí)現(xiàn)理想的效果,專家 開(kāi)始意識(shí)到必須盡快開(kāi)發(fā)新的技術(shù)。這就需要了解典型理論和技術(shù),掌握不同種 方法的特點(diǎn),這樣才能有效的避免各自的劣勢(shì),充分發(fā)揮優(yōu)勢(shì)達(dá)到互補(bǔ)的作用。 本文在分析不同種傳統(tǒng)數(shù)據(jù)智能分析方法的基礎(chǔ)上,分析了結(jié)合新平臺(tái)開(kāi)發(fā)的新 型分析方法。關(guān)鍵詞:大數(shù)據(jù);智能數(shù)據(jù);技術(shù)分析引言 當(dāng)前世界依然迎來(lái)了大數(shù)據(jù)時(shí)代,隨著多媒體等多種技術(shù)的應(yīng)用,社會(huì)中的 相關(guān)領(lǐng)域時(shí)刻都涌現(xiàn)大量

2、的數(shù)據(jù),增加了技術(shù)處理以及分析的難度。通常情況下 大數(shù)據(jù)具有復(fù)雜性,而且還具有數(shù)量大、分布式的特點(diǎn),這樣就必須要采取新的 技術(shù)方法對(duì)數(shù)據(jù)進(jìn)行處理,因此智能分析技術(shù)在數(shù)據(jù)的處理中具有非常重要的意 義。一、大數(shù)據(jù)概述1.1 大數(shù)據(jù) 大數(shù)據(jù)就是通過(guò)統(tǒng)計(jì)分析計(jì)算機(jī)收集的數(shù)據(jù),在人們可能不知道“為什么”的 前提下,了解到事物的狀態(tài)、趨勢(shì)、結(jié)果等“是什么”。對(duì)于大數(shù)據(jù),一直來(lái)說(shuō),數(shù)據(jù)規(guī)模導(dǎo)致的存儲(chǔ)、運(yùn)算等技術(shù)問(wèn)題從來(lái)不是最 重要的瓶頸。瓶頸只在于前端數(shù)據(jù)的收集途徑,以及后端商業(yè)思想引領(lǐng)的模型和 算法問(wèn)題。早期的各類OLAP工具已經(jīng)足夠了,后來(lái)類似海杜普這樣的研究則徹 底降低了分布式數(shù)據(jù)的架構(gòu)成本和門檻,就

3、徹底將大數(shù)據(jù)帶入了一個(gè)普及的領(lǐng)域。從技術(shù)層面說(shuō),大數(shù)據(jù)和以前的數(shù)據(jù)時(shí)代的最大差異在于,以前是數(shù)據(jù)找應(yīng) 用/算法的過(guò)程(例如各大銀行的大集中項(xiàng)目,以及數(shù)據(jù)建倉(cāng)),而大數(shù)據(jù)時(shí)代的 重要技術(shù)特征之一,是應(yīng)用/算法去找數(shù)據(jù)的過(guò)程,因?yàn)閿?shù)據(jù)規(guī)模變成了技術(shù)上最 大的挑戰(zhàn)。大數(shù)據(jù)的特點(diǎn):(1)大數(shù)據(jù)不等同于數(shù)據(jù)大,我們處理問(wèn)題是根據(jù)這個(gè)問(wèn)題的所有數(shù)據(jù)而非 樣本數(shù)據(jù),即樣本就是總體;不是精確性而是混雜性;不是因果關(guān)系而是相關(guān)關(guān) 系。(2)大數(shù)據(jù)應(yīng)用的幾個(gè)可能:當(dāng)文字變成數(shù)據(jù),此時(shí)人可以用之閱讀,機(jī)器 可以用之分析;當(dāng)方位變成數(shù)據(jù),商業(yè)廣告,疫情傳染監(jiān)控,雅安地震時(shí)的谷歌 尋人;當(dāng)溝通變成數(shù)據(jù),就成了社交圖譜。

4、一切都可以量化,將世界看作可以理 解的數(shù)據(jù)的海洋,為我們提供了一個(gè)從來(lái)未有過(guò)的審視現(xiàn)實(shí)的視角。(3)數(shù)據(jù)創(chuàng)新的價(jià)值:數(shù)據(jù)的再利用。例如重組數(shù)據(jù):隨著大數(shù)據(jù)出現(xiàn),數(shù) 據(jù)的總和比部分更有價(jià)值,重組總和和本身價(jià)值也比單個(gè)總和更大;可擴(kuò)展數(shù)據(jù): 在設(shè)計(jì)數(shù)據(jù)收集時(shí)就設(shè)計(jì)好了它的可擴(kuò)展性,可以增加數(shù)據(jù)的潛在價(jià)值;數(shù)據(jù)的 折舊值:數(shù)據(jù)會(huì)無(wú)用,需淘汰更新;數(shù)據(jù)廢氣:比如語(yǔ)音識(shí)別,當(dāng)用戶指出語(yǔ)音 識(shí)別程序誤解了他的意思,實(shí)際上就有效的訓(xùn)練了這個(gè)系統(tǒng)。總之,大數(shù)據(jù)是因?yàn)閷?duì)它的分析使用,才產(chǎn)生和體現(xiàn)它的價(jià)值,而不是因?yàn)?其用到了突出的技術(shù)和算法才體現(xiàn)了它的價(jià)值。1.2 數(shù)據(jù)分析數(shù)據(jù)分析的過(guò)程其實(shí)簡(jiǎn)單的說(shuō)就是做報(bào)告,

5、做什么樣的報(bào)告反映什么樣的指 標(biāo)。最開(kāi)始的時(shí)候基本上是data process in g。例如零售行業(yè)來(lái)說(shuō),最主要的指標(biāo) 就是庫(kù)存、銷售同比增長(zhǎng)情況、利潤(rùn)同比增長(zhǎng)情況、促銷率等等。對(duì)于不同的行 業(yè)會(huì)有不同的相關(guān)的 KPI 需要跟蹤,所以報(bào)告的內(nèi)容也會(huì)有所側(cè)重,但是只要你 一個(gè)行業(yè)做久了,熟悉了套路之后,基本上就是以同樣的方法開(kāi)展。對(duì)于數(shù)據(jù)分析,如果公司部門分的比較細(xì)的(例如可能有建模組),那么做 數(shù)據(jù)分析可能永遠(yuǎn)都是做 data processing 了。對(duì)于模型的分析,需要你對(duì)業(yè)務(wù)有 了深入的了解就可以建立一些模型出來(lái)(例如推薦模型)等等。數(shù)據(jù)分析主要涉及的技能:(1)數(shù)據(jù)庫(kù)的能力。越全面越

6、好,如果不是理工科的,最起碼要會(huì)select那 些簡(jiǎn)單的查詢語(yǔ)句。(2)EXCEL、PPT的能力。報(bào)告的呈現(xiàn)一般都是Excel+PPT的形式,最好VBA, 這樣就可以將很多人工的工作轉(zhuǎn)化為自動(dòng)化的能力,提高工作效率,領(lǐng)導(dǎo)也對(duì)你 刮目相看,自己也有更多空余的時(shí)間準(zhǔn)備其他方面的知識(shí)。(3)市場(chǎng)分析能力。學(xué)會(huì)觀察市場(chǎng)的走向和關(guān)注的內(nèi)容,例如零售行業(yè),現(xiàn) 在大家都對(duì)CRM很熱衷,那相關(guān)的分析方法和方式是怎么樣的,你要自己去了 解。從來(lái)不會(huì)有人手把手的將所有東西都告訴你,你必須自己學(xué)會(huì)去增長(zhǎng)知識(shí)。(4)一些會(huì)計(jì)的知識(shí)。因?yàn)橥ㄟ^(guò)以上分析,就是會(huì)計(jì)管理的一部分內(nèi)容,最 后還是公司盈利問(wèn)題。有興趣的也可以去看

7、看戰(zhàn)略管理方面的,對(duì)于做數(shù)據(jù)分析 也很有好處的說(shuō)。綜合來(lái)看,可以說(shuō)數(shù)據(jù)分析=技術(shù)+市場(chǎng)+戰(zhàn)略。二、幾種常見(jiàn)的智能數(shù)據(jù)分析法雖然在大數(shù)據(jù)時(shí)代傳統(tǒng)的智能數(shù)據(jù)分析法已經(jīng)不能適應(yīng)當(dāng)前的需求,但是依 然有一定的相似性,相關(guān)理論和技術(shù)依然可以沿用,幾種常見(jiàn)數(shù)據(jù)分析法:第一 種方法是決策樹(shù)。這種數(shù)據(jù)分析方法需要基于信息論基礎(chǔ)上,這種方法實(shí)現(xiàn)的輸 出結(jié)果容易理解,精確度較高,效率也較快,但是它不能用來(lái)對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行 處理與分析。第二種方法是關(guān)聯(lián)規(guī)則。這種方法主要是用于事物數(shù)據(jù)庫(kù)中,通常 帶有大量的數(shù)據(jù),當(dāng)今使用這種方法來(lái)削減搜索空間。第三種方法是粗糙集。這 種數(shù)據(jù)分析方法能夠?qū)?shù)據(jù)進(jìn)行主觀評(píng)價(jià),只要通過(guò)觀測(cè)

8、數(shù)據(jù),就可以清除冗余 的信息。第四種方法是模糊數(shù)學(xué)分析。這種數(shù)據(jù)分析方法能夠?qū)?shí)際問(wèn)題進(jìn)行模 糊的分析,與其他的分析方法相比,能夠取得更為客觀的效果。第五種方法是人 工神經(jīng)網(wǎng)絡(luò)。這種數(shù)據(jù)分析方法具有自學(xué)習(xí)功能,在此基礎(chǔ)上還具有聯(lián)想存儲(chǔ)的 功能。第六種方法是混沌和分形理論。這兩種理論主要是用來(lái)對(duì)自然社會(huì)中存在 的現(xiàn)象進(jìn)行解釋,一般用來(lái)進(jìn)行智能認(rèn)知研究,還能應(yīng)用于自動(dòng)控制等眾多領(lǐng)域 中。第七種方法是自然計(jì)算分析方法。這種數(shù)據(jù)分析方法根據(jù)不同生物層面的模 擬與仿真,通常可以分為以下三種不同類型的分析方法:一是群體智能算法,二 是免疫算法,三是DNA算法。群體智能主要是對(duì)集體行為進(jìn)行研究,免疫算法具

9、有多樣性,經(jīng)典的主要有反向、克隆選擇等,而DNA算法主要使屬于隨機(jī)化搜索 方法,它可以進(jìn)行全局尋優(yōu),在實(shí)際的運(yùn)用中一般都能獲取優(yōu)化的搜索空間,在 此基礎(chǔ)上還能自動(dòng)調(diào)整搜索方向,在整個(gè)過(guò)程中都不需要確定的規(guī)則。當(dāng)前 DNA 算法普遍應(yīng)用于多種行業(yè)中,并取得了不錯(cuò)的成效。三、大數(shù)據(jù)背景下的智能數(shù)據(jù)分析技術(shù) 大數(shù)據(jù)具有一定的復(fù)雜性,只有通過(guò)使用新的智能分析技術(shù)才能對(duì)數(shù)據(jù)進(jìn)行有效處理。目前已經(jīng)有專家針對(duì)大數(shù)據(jù)提出了新的智能分析技術(shù)方案,例如HAVEn、Teradata Aster 分析平臺(tái),經(jīng)過(guò)研究發(fā)現(xiàn)推出的一系列分析方案,基本上 離不開(kāi)Hadoop分析平臺(tái)。Hadoop主要分為以下兩大部分,其中一個(gè)

10、部分是分布 文件系統(tǒng),專家稱之為HDFS,另一部分是分布計(jì)算系統(tǒng),專家稱之為 MapReduce。一般來(lái)說(shuō)HDFS主要是表現(xiàn)為主/從結(jié)構(gòu),其中主結(jié)構(gòu)稱為名字節(jié)點(diǎn), 主要功能是管理元數(shù)據(jù),從結(jié)構(gòu)通常稱為數(shù)據(jù)節(jié)點(diǎn)。主要功能是用來(lái)存放,或者 管理相關(guān)的應(yīng)用數(shù)據(jù)。一個(gè)HDFS系統(tǒng)能夠支持的數(shù)據(jù)非常龐大,一般能夠達(dá)到 10PB數(shù)量級(jí),因此HDFS系統(tǒng)能夠應(yīng)用于大數(shù)據(jù)處理分析中。同時(shí)為了能夠更好 的支持大數(shù)據(jù),在HDFS系統(tǒng)的基礎(chǔ)上,還繼續(xù)構(gòu)建Hbase系統(tǒng),該系統(tǒng)的接口 語(yǔ)言色設(shè)為Pig。并且還構(gòu)建了 Hivi系統(tǒng),該系統(tǒng)主要是屬于數(shù)據(jù)倉(cāng)庫(kù)。此外還 構(gòu)建了機(jī)器學(xué)習(xí)軟件包,稱為Mahout,這樣就可以對(duì)大數(shù)據(jù)進(jìn)行有效管理以及 分析。這些新的智能數(shù)據(jù)分析融合了多種傳統(tǒng)的技術(shù),能夠?qū)Υ髷?shù)據(jù)進(jìn)行更為全 面、高效的分析。結(jié)束語(yǔ) 傳統(tǒng)中可應(yīng)用的數(shù)據(jù)智能分析技術(shù)多種多樣,常用的主要有七種方法,每一 種方法都有自身的優(yōu)勢(shì)以及局限性,如果在大數(shù)據(jù)中單一使用一種方法,根本就 不能達(dá)到理想的效果。但是憑借當(dāng)前的技術(shù)水平還不能找到通用的智能分析技術(shù) 方法,這就需要將傳統(tǒng)的多種方法結(jié)合起來(lái),這樣就可以彌補(bǔ)各自的缺陷,而且 還能充分發(fā)揮優(yōu)勢(shì),這是當(dāng)前大數(shù)據(jù)智能分析技術(shù)的重要研究方向。沿著這個(gè)方 向,目前已經(jīng)開(kāi)發(fā)了 hadoop,這個(gè)系統(tǒng)不僅集合了傳統(tǒng)的方法,而且還結(jié)合了新 型平臺(tái),是一種全新的技術(shù),未來(lái)需要專

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論