版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載1.1.概述大數(shù)據(jù),IT行業(yè)的又一次技術(shù)變革,大數(shù)據(jù)的浪潮洶涌而至,對(duì)國家治理、企業(yè)決策和個(gè)人生活都在產(chǎn)生深遠(yuǎn)的影響,并將成為云計(jì)算、物聯(lián)網(wǎng)之后信息技術(shù)產(chǎn)業(yè)領(lǐng)域又一重大創(chuàng)新變革。未來的十年將是一個(gè)“大數(shù)據(jù)”引領(lǐng)的智慧科技的時(shí)代、隨著社交網(wǎng)絡(luò)的逐漸成熟,移動(dòng)帶寬迅速提升、云計(jì)算、物聯(lián)網(wǎng)應(yīng)用更加豐富、更多的傳感設(shè)備、移動(dòng)終端接入到網(wǎng)絡(luò),由此而產(chǎn)生的數(shù)據(jù)及增長速度將比歷史上的任何時(shí)期都要多、都要快?;ヂ?lián)網(wǎng)科技發(fā)展蓬勃興起,人工智能時(shí)代來臨,抓住下一個(gè)風(fēng)口。為幫助那些往想互聯(lián)網(wǎng)方向轉(zhuǎn)行想學(xué)習(xí),卻因?yàn)闀r(shí)間不夠,資源不足而放棄的人。歡迎加入北大青鳥佳音校區(qū)。1.2.大數(shù)據(jù)定義“大數(shù)據(jù)”是一個(gè)涵蓋多種技術(shù)的概念,簡單地說,是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。IBM將“大數(shù)據(jù)”理念定義為4個(gè)V,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)及由此產(chǎn)生的價(jià)值(Value)。要理解大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個(gè)V來總結(jié)(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價(jià)值密度低、速度快。?數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別。?數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。?價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。?處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。目前所說的"大數(shù)據(jù)"不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過解決巨量數(shù)據(jù)處理問題促進(jìn)其突破性發(fā)展。因此,大數(shù)據(jù)時(shí)代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價(jià)值的信息,也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā),搶占時(shí)代發(fā)展的前沿。可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載1.3.大數(shù)據(jù)技術(shù)發(fā)展大數(shù)據(jù)技術(shù)描述了一種新一代技術(shù)和構(gòu)架,用于以很經(jīng)濟(jì)的方式、以高速的捕獲、發(fā)現(xiàn)和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值,而且未來急劇增長的數(shù)據(jù)迫切需要尋求新的處理技術(shù)手段。可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載在“大數(shù)據(jù)”(Bigdata)時(shí)代,通過互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng),人們能夠及時(shí)全面地獲得大信息。同時(shí),信息自身存在形式的變化與演進(jìn),也使得作為信息載體的數(shù)據(jù)以遠(yuǎn)超人們想象的速度迅速膨脹。云時(shí)代的到來使得數(shù)據(jù)創(chuàng)造的主體由企業(yè)逐漸轉(zhuǎn)向個(gè)體,而個(gè)體所產(chǎn)生的絕大部分?jǐn)?shù)據(jù)為圖片、文檔、視頻等非結(jié)構(gòu)化數(shù)據(jù)。信息化技術(shù)的普及使得企業(yè)更多的辦公流程通過網(wǎng)絡(luò)得以實(shí)現(xiàn),由此產(chǎn)生的數(shù)據(jù)也以非結(jié)構(gòu)化數(shù)據(jù)為主。預(yù)計(jì)到2012年,非結(jié)構(gòu)化數(shù)據(jù)將達(dá)到互聯(lián)網(wǎng)整個(gè)數(shù)據(jù)量的75%以上。用于提取智慧的“大數(shù)據(jù)”,往往是這些非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)、BI、鏈路挖掘等應(yīng)用對(duì)數(shù)據(jù)處理的時(shí)間要求往往以小時(shí)或天為單位。但“大數(shù)據(jù)”應(yīng)用突出強(qiáng)調(diào)數(shù)據(jù)處理的實(shí)時(shí)性。在線個(gè)性化推薦、股票交易處理、實(shí)時(shí)路況信息等數(shù)據(jù)處理時(shí)間要求在分鐘甚至秒級(jí)。全球技術(shù)研究和咨詢公司Gartner將“大數(shù)據(jù)”技術(shù)列入2012年對(duì)眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢(shì)之一,而其他領(lǐng)域的研究,如云計(jì)算、下一代分析、內(nèi)存計(jì)算等也都與“大數(shù)據(jù)”的研究相輔相成。Gartner在其新興技術(shù)成熟度曲線中將“大數(shù)據(jù)”技術(shù)視為轉(zhuǎn)型技術(shù),這意味著“大數(shù)據(jù)”技術(shù)將在未來3—5年內(nèi)進(jìn)入主流。而“大數(shù)據(jù)”的多樣性決定了數(shù)據(jù)采集來源的復(fù)雜性,從智能傳感器到社交網(wǎng)絡(luò)數(shù)據(jù),從聲音圖片到在線交易數(shù)據(jù),可能性是無窮無盡的。選擇正確的數(shù)據(jù)來源并進(jìn)行交叉分析可以為企業(yè)創(chuàng)造最顯著的利益。隨著數(shù)據(jù)源的爆發(fā)式增長,數(shù)據(jù)的多樣性成為“大數(shù)據(jù)”應(yīng)用亟待解決的問題。例如如何實(shí)時(shí)地及通過各種數(shù)據(jù)庫管理系統(tǒng)來安全地訪問數(shù)據(jù),如何通過優(yōu)化存儲(chǔ)策略,評(píng)估當(dāng)前的數(shù)據(jù)存儲(chǔ)技術(shù)并改進(jìn)、加強(qiáng)數(shù)據(jù)存儲(chǔ)能力,最大限度地利用現(xiàn)有的存儲(chǔ)投資。從某種意義上說,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)?!按髷?shù)據(jù)”不僅是一場(chǎng)技術(shù)變革,更是一場(chǎng)商業(yè)模式變革。在“大數(shù)據(jù)”概念提出之前,盡管互聯(lián)網(wǎng)為傳統(tǒng)企業(yè)提供了一個(gè)新的銷售渠道,但總體來看,二者平行發(fā)展,鮮有交集。我們可以看到,無論是Google通過分析用戶個(gè)人信息,根據(jù)用戶偏好提供精準(zhǔn)廣告,還是Facebook將用戶的線下社會(huì)關(guān)系遷移在線上,構(gòu)造一個(gè)半真實(shí)的實(shí)名帝國,但這些商業(yè)和消費(fèi)模式仍不能脫離互聯(lián)網(wǎng),傳統(tǒng)企業(yè)仍無法嫁接到互聯(lián)網(wǎng)中。同時(shí),傳統(tǒng)企業(yè)通過傳統(tǒng)的用戶分析工具卻很難獲得大范圍用戶的真實(shí)需求。企業(yè)從大規(guī)模制造過渡到大規(guī)模定制,必須掌握用戶的需求特點(diǎn)。在互聯(lián)網(wǎng)時(shí)代,這些需求特征往往是在用戶不經(jīng)意的行為中透露出來的。通過對(duì)信息進(jìn)行關(guān)聯(lián)、參照、聚類、分類等方法分析,才能得到答案?!按髷?shù)據(jù)”在互聯(lián)網(wǎng)與傳統(tǒng)企業(yè)間建立一個(gè)交集。它推動(dòng)互聯(lián)網(wǎng)企業(yè)融合進(jìn)傳統(tǒng)企業(yè)的供應(yīng)鏈,并在傳統(tǒng)企業(yè)種下互聯(lián)網(wǎng)基因。傳統(tǒng)企業(yè)與互聯(lián)網(wǎng)企業(yè)的結(jié)合,網(wǎng)民和消費(fèi)者的融合,必將引發(fā)消費(fèi)模式、制造模式、管理模式的巨大變革。大數(shù)據(jù)正成為IT行業(yè)全新的制高點(diǎn),各企業(yè)和組織紛紛助推大數(shù)據(jù)的發(fā)展,相關(guān)技術(shù)呈現(xiàn)百花齊放局面,并在互聯(lián)網(wǎng)應(yīng)用領(lǐng)域嶄露頭角大數(shù)據(jù)將帶來巨大的技術(shù)和商業(yè)機(jī)遇,大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來巨大的商業(yè)價(jià)值,而隨著應(yīng)用數(shù)據(jù)規(guī)模急劇增加,傳統(tǒng)計(jì)算面臨嚴(yán)重挑戰(zhàn),大規(guī)模數(shù)據(jù)處理和行業(yè)應(yīng)用需求日益增加和迫切出現(xiàn)越來越多的大規(guī)模數(shù)據(jù)處理應(yīng)用需求,傳統(tǒng)系統(tǒng)難以提供足夠的存儲(chǔ)和計(jì)算資源進(jìn)行處理,云計(jì)算技術(shù)是最理想的解決方案。調(diào)查顯示:目前,IT專業(yè)人員對(duì)云計(jì)算中諸多關(guān)鍵技術(shù)最為關(guān)心的是大規(guī)模數(shù)據(jù)并行處理技術(shù)大數(shù)據(jù)并行處理沒有通用和現(xiàn)成的解決方案對(duì)于應(yīng)用行業(yè)來說,云計(jì)算平臺(tái)軟件、虛擬化軟件都不需要自己開發(fā),但行業(yè)的大規(guī)模數(shù)據(jù)處理應(yīng)用沒有現(xiàn)成和通用的軟件,需要針對(duì)特定的應(yīng)用需求專門開發(fā),涉及到諸多并行化算法、索引查詢優(yōu)化技術(shù)研究、以及系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn),這些都為大數(shù)據(jù)處理技術(shù)的發(fā)展提供了巨大的驅(qū)動(dòng)力。可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載2大數(shù)據(jù)應(yīng)用2.1.大數(shù)據(jù)應(yīng)用闡述大數(shù)據(jù)能做什么?我們那么多地方探討大數(shù)據(jù),無非總結(jié)下來就做三件事:第一,對(duì)信息的理解。你發(fā)的每一張圖片、每一個(gè)新聞、每一個(gè)廣告,這些都是信息,你對(duì)這個(gè)信息的理解是大數(shù)據(jù)重要的領(lǐng)域。第二,用戶的理解,每個(gè)人的基本特征,你的潛在的特征,每個(gè)用戶上網(wǎng)的習(xí)慣等等,這些都是對(duì)用戶的理解。第三,關(guān)系。關(guān)系才是我們的核心,信息與信息之間的關(guān)系,一條微博和另外一條微博之間的關(guān)系,一個(gè)廣告和另外一個(gè)廣告的關(guān)系。一條微博和一個(gè)視頻之間的關(guān)系,這些在我們?nèi)庋廴タ吹臅r(shí)候是相對(duì)簡單的。比如有條微博說這兩天朝鮮綁架我們船的事,那條微博也大概是談這件事的。人眼一眼就能看出來。但是用機(jī)器怎么能看出來這是一件事,以及他們之間的因果關(guān)系,這是很有難度的。然后就是用戶與用戶之間的關(guān)系。哪些人你愿意收聽,是你的朋友,哪些是你感興趣的領(lǐng)域,你是一個(gè)音樂達(dá)人,你是一個(gè)吃貨,那個(gè)用戶也是一個(gè)吃貨,你愿意收聽他。這就是用戶與用戶之間的關(guān)系理解。還有用戶與信息之間的理解,就是你對(duì)哪一類型的微博感興趣,你對(duì)哪一類型的信息感興趣,如果牽扯到商業(yè)化,你對(duì)哪一類的廣告或者商品感興趣。其實(shí)就是用戶與信息之間的關(guān)系,他無非是做這件事??删庉嬁删庉嬀肺臋n,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載大數(shù)據(jù)說的那么懸,其實(shí)主要是做三件事:對(duì)用戶的理解、對(duì)信息的理解、對(duì)關(guān)系的理解。如果我們?cè)谶@三件事之間還要提一件事的話,一個(gè)叫趨勢(shì)。他也是關(guān)系的一種變種,只是關(guān)系稍微遠(yuǎn)一點(diǎn),情感之間的分析,還有我們政府部門做的輿情監(jiān)控。他可以監(jiān)控大規(guī)模的數(shù)據(jù),可以分析出人的動(dòng)向。在美國的好萊塢,這兩年也是基于FACEBOOK和TIWTTER的數(shù)據(jù)來預(yù)測(cè)即將上映的電影的票房。他也是一個(gè)趨勢(shì)的分析,只是我們把這個(gè)趨勢(shì)提前來。核心就是這三件事。2.2.大數(shù)據(jù)應(yīng)用架構(gòu)2.3.大數(shù)據(jù)行業(yè)應(yīng)用可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載2.3.1.醫(yī)療行業(yè)1.SetonHealthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測(cè)的首個(gè)客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過大數(shù)據(jù)處理,更好地分析病人的信息。2.在加拿大多倫多的一家醫(yī)院,針對(duì)早產(chǎn)嬰兒,每秒鐘有超過3000次的數(shù)據(jù)讀取。通過這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對(duì)性地采取措施,避免早產(chǎn)嬰兒夭折。3.它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品,比如通過社交網(wǎng)絡(luò)來收集數(shù)據(jù)的健康類App。也許未來數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測(cè)到你的血液中藥劑已經(jīng)代謝完成會(huì)自動(dòng)提醒你再次服藥。2.3.2.能源行業(yè)1.智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國,為了鼓勵(lì)利用太陽能,會(huì)在家庭安裝太陽能,除了賣電給你,當(dāng)你的太陽能有多余電的時(shí)候還可以買回來。通過電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來的這些數(shù)據(jù)可以用來預(yù)測(cè)客戶的用電習(xí)慣等,從而推斷出在未來2~3個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預(yù)測(cè)后,就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因?yàn)殡娪悬c(diǎn)像期貨一樣,如果提前買就會(huì)比較便宜,買現(xiàn)貨就比較貴。通過這個(gè)預(yù)測(cè)后,可以降低采購成本。2.維斯塔斯風(fēng)力系統(tǒng),依靠的是BigInsights軟件和IBM超級(jí)計(jì)算機(jī),然后對(duì)氣象數(shù)據(jù)進(jìn)行分析,找出安裝風(fēng)力渦輪機(jī)和整個(gè)風(fēng)電場(chǎng)最佳的地點(diǎn)。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時(shí)便可完成。2.3.3.通信行業(yè)1.XOCommunications通過使用IBMSPSS預(yù)測(cè)分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測(cè)客戶的行為,發(fā)現(xiàn)行為趨勢(shì),并找出存在缺陷的環(huán)節(jié),從而幫助公司及時(shí)采取措施,保留客戶。此外,IBM新的Netezza網(wǎng)絡(luò)分析加速器,將通過提供單個(gè)端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴(kuò)展平臺(tái),幫助通信企業(yè)制定更科學(xué)、合理決策。2.電信業(yè)者透過數(shù)以千萬計(jì)的客戶資料,能分析出多種使用者行為和趨勢(shì),賣給需要的企業(yè),這是全新的資料經(jīng)濟(jì)。3.中國移動(dòng)通過大數(shù)據(jù)分析,對(duì)企業(yè)運(yùn)營的全業(yè)務(wù)進(jìn)行針對(duì)性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時(shí)間自動(dòng)捕捉市場(chǎng)變化,再以最快捷的方式推送給指定負(fù)責(zé)人,使他在最短時(shí)間內(nèi)獲知市場(chǎng)行情。4.NTTdocomo把手機(jī)位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來,為顧客提供附近的餐飲店信息,接近末班車時(shí)間時(shí),提供末班車信息服務(wù)。2.3.4.零售業(yè)1."我們的某個(gè)客戶,是一家領(lǐng)先的專業(yè)時(shí)裝零售商,通過當(dāng)?shù)氐陌儇浬痰?、網(wǎng)絡(luò)及其郵購目錄業(yè)務(wù)為客戶提供服務(wù)。公司希望向客戶提供差異化服務(wù),如何定位公司的差異化,他們通過從Twitter和Facebook上收集社交信息,更深入的理解化妝品的營銷模式,隨后他們認(rèn)識(shí)到必須保留兩類有價(jià)值的客戶:高消費(fèi)者和高影響者。希望通過接受免費(fèi)化妝服務(wù),讓用戶進(jìn)行口碑宣傳,這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合,為業(yè)務(wù)挑戰(zhàn)提供了解決方案。"Informatica的技術(shù)幫助這家零售商用社交平臺(tái)上的數(shù)據(jù)充實(shí)了客戶主數(shù)據(jù),使他的業(yè)務(wù)服務(wù)更具有目標(biāo)性。2.零售企業(yè)也監(jiān)控客戶的店內(nèi)走動(dòng)情況以及與商品的互動(dòng)。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時(shí)調(diào)整售價(jià)上給出意見,此類方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨,同時(shí)在保持市場(chǎng)份額的前提下,增加了高利潤率自有品牌商品的比例。3大數(shù)據(jù)解決方案3.1.大數(shù)據(jù)技術(shù)組成可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載大數(shù)據(jù)技術(shù)由四種技術(shù)構(gòu)成,它們包括:3.1.1.分析技術(shù)分析技術(shù)意味著對(duì)海量數(shù)據(jù)進(jìn)行分析以實(shí)時(shí)得出答案,由于大數(shù)據(jù)的特殊性,大數(shù)據(jù)分析技術(shù)還處于發(fā)展階段,老技術(shù)會(huì)日趨完善,新技術(shù)會(huì)更多出現(xiàn)。大數(shù)據(jù)分析技術(shù)涵蓋了以下的的五個(gè)方面.可視化分析數(shù)據(jù)可視化無論對(duì)于普通用戶或是數(shù)據(jù)分析專家,都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說話,讓用戶直觀的感受到結(jié)果。.數(shù)據(jù)挖掘算法圖像化是將機(jī)器語言翻譯給人看,而數(shù)據(jù)挖掘就是機(jī)器的母語。分割、集群、孤立點(diǎn)分析還有各種各樣五花八門的算法讓我們精煉數(shù)據(jù),挖掘價(jià)值。這些算法一定要能夠應(yīng)付大數(shù)據(jù)的量,同時(shí)還具有很高的處理速度。.預(yù)測(cè)分析能力數(shù)據(jù)挖掘可以讓分析師對(duì)數(shù)據(jù)承載信息更快更好地消化理解,進(jìn)而提升判斷的準(zhǔn)確性,而預(yù)測(cè)性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。.語義引擎非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析,提煉數(shù)據(jù)。語義引擎需要設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中主動(dòng)地提取信息。.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理數(shù)據(jù)質(zhì)量與管理是管理的最佳實(shí)踐,透過標(biāo)準(zhǔn)化流程和機(jī)器對(duì)數(shù)據(jù)進(jìn)行處理可以確保獲得一個(gè)預(yù)設(shè)質(zhì)量的分析結(jié)果。我們知道大數(shù)據(jù)分析技術(shù)最初起源于互聯(lián)網(wǎng)行業(yè)。網(wǎng)頁存檔、用戶點(diǎn)擊、商品信息、用戶關(guān)系等數(shù)據(jù)形成了持續(xù)增長的海量數(shù)據(jù)集。這些大數(shù)據(jù)中蘊(yùn)藏著大量可以用于增強(qiáng)用戶體驗(yàn)、提高服務(wù)質(zhì)量和開發(fā)新型應(yīng)用的知識(shí),而如何高效和準(zhǔn)確的發(fā)現(xiàn)這些知識(shí)就基本決定了各大互聯(lián)網(wǎng)公司在激烈競(jìng)爭(zhēng)環(huán)境中的位置。首先,以Google為首的技術(shù)型互聯(lián)網(wǎng)公司提出了MapReduce的技術(shù)框架,利用廉價(jià)的PC服務(wù)器集群,大規(guī)模并發(fā)處理批量事務(wù)。利用文件系統(tǒng)存放非結(jié)構(gòu)化數(shù)據(jù),加上完善的備份和容災(zāi)策略,這套經(jīng)濟(jì)實(shí)惠的大數(shù)據(jù)解決方案與之前昂貴的企業(yè)小型機(jī)集群+商業(yè)數(shù)據(jù)庫方案相比,不僅沒有丟失性能,而且還贏在了可擴(kuò)展性上。之前,我們?cè)谠O(shè)計(jì)一個(gè)數(shù)據(jù)中心解決方案的前期,就要考慮到方案實(shí)施后的可擴(kuò)展性。通常的方法是預(yù)估今后一段時(shí)期內(nèi)的業(yè)務(wù)量和數(shù)據(jù)量,加入多余的計(jì)算單元(CPU)和存儲(chǔ),以備不時(shí)只需。這樣的方式直接導(dǎo)致了前期一次性投資的巨大,并且即使這樣也依然無法保證計(jì)算需求和存儲(chǔ)超出設(shè)計(jì)量時(shí)的系統(tǒng)性能。而一旦需要擴(kuò)容,問題就會(huì)接踵而來。首先是商業(yè)并行數(shù)據(jù)庫通常需要各節(jié)點(diǎn)物理同構(gòu),也就是具有近似的計(jì)算和存儲(chǔ)能力。而隨著硬件的更新,我們通常加入的新硬件都會(huì)強(qiáng)于已有的硬件。這樣,舊硬件就成為了系統(tǒng)的瓶頸。為了保證系統(tǒng)性能,我們不得不把舊硬件逐步替換掉,經(jīng)濟(jì)成本損失巨大。其次,即使是當(dāng)前最強(qiáng)的商業(yè)并行數(shù)據(jù)庫,其所能管理的數(shù)據(jù)節(jié)點(diǎn)也只是在幾十或上百這個(gè)數(shù)量級(jí),這主要是由于架構(gòu)上的設(shè)計(jì)問題,所以其可擴(kuò)展性必然有限。而MapReduce+GFS框架,不受上述問題的困擾。需要擴(kuò)容了,只需增加個(gè)機(jī)柜,加入適當(dāng)?shù)挠?jì)算單元和存儲(chǔ),集群系統(tǒng)會(huì)自動(dòng)分配和調(diào)度這些資源,絲毫不影響現(xiàn)有系統(tǒng)的運(yùn)行3.1.2.存儲(chǔ)數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)庫(In-MemoryDatabases)讓信息快速流通,大數(shù)據(jù)分析經(jīng)常會(huì)用到存儲(chǔ)數(shù)據(jù)庫來快速處理大量記錄的數(shù)據(jù)流通。比方說,它可以對(duì)某個(gè)全國性的連鎖店某天的銷售記錄進(jìn)行分析,得出某些特征進(jìn)而根據(jù)某種規(guī)則及時(shí)為消費(fèi)者提供獎(jiǎng)勵(lì)回饋。但傳統(tǒng)的關(guān)系型數(shù)據(jù)庫嚴(yán)格的設(shè)計(jì)定式、為保證強(qiáng)一致性而放棄性能、可擴(kuò)展性差等問題在大數(shù)據(jù)分析中被逐漸暴露。隨之而來,NoSQL數(shù)據(jù)存儲(chǔ)模型開始風(fēng)行。NoSQL,也有人理解為NotOnlySQL,并不是一種特定的數(shù)據(jù)存儲(chǔ)模型,它是一類非關(guān)系型數(shù)據(jù)庫的統(tǒng)稱。其特點(diǎn)是:沒有固定的數(shù)據(jù)表模式、可以分布式和水平擴(kuò)展。NoSQL并不是單純的反對(duì)關(guān)系型數(shù)據(jù)庫,而是針對(duì)其缺點(diǎn)的一種補(bǔ)充和擴(kuò)展。典型的NoSQL數(shù)據(jù)存儲(chǔ)模型有文檔存儲(chǔ)、鍵-值存儲(chǔ)、圖存儲(chǔ)、對(duì)象數(shù)據(jù)庫、列存儲(chǔ)等NoSQL數(shù)據(jù)庫是一種建立在云平臺(tái)的新型數(shù)據(jù)處理模式,NoSQL在很多情況下又叫做云數(shù)據(jù)庫。由于其處理數(shù)據(jù)的模式完全是分布于各種低成本服務(wù)器和存儲(chǔ)磁盤,因此它可以幫助網(wǎng)頁和各種交互性應(yīng)用快速處理過程中的海量數(shù)據(jù)。它為Zynga、AOL、Cisco以及其它一些企業(yè)提供網(wǎng)頁應(yīng)用支持。正常的數(shù)據(jù)庫需要將數(shù)據(jù)進(jìn)行歸類組織,類似于姓名和帳號(hào)這些數(shù)據(jù)需要進(jìn)行結(jié)構(gòu)化和標(biāo)簽化。但是NoSQL數(shù)據(jù)庫則完全不關(guān)心這些,它能處理各種類型的文檔。在處理海量數(shù)據(jù)同時(shí)請(qǐng)求時(shí),它也不會(huì)有任何問題。比方說,如果有1000萬人同時(shí)登錄某個(gè)Zynga游戲,它會(huì)將這些數(shù)據(jù)分布于全世界的服務(wù)器并通過它們來進(jìn)行數(shù)據(jù)處理,結(jié)果與1萬人同時(shí)在線沒什么兩樣?,F(xiàn)今有多種不同類型的NoSQL模式。商業(yè)化的模式如Couchbase、10gen的mongoDB以及Oracle的NoSQL;開源免費(fèi)的模式如CouchDB和Cassandra;還有亞馬遜最新推出的NoSQL云服務(wù)。3.1.3.分布式計(jì)算技術(shù)分布式計(jì)算結(jié)合了NoSQL與實(shí)時(shí)分析技術(shù),如果想要同時(shí)處理實(shí)時(shí)分析與NoSQL數(shù)據(jù)功能,那么你就需要分布式計(jì)算技術(shù)。分布式技術(shù)結(jié)合了一系列技術(shù),可以對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。更重要的是,它所使用的硬件非常便宜,因而讓這種技術(shù)的普及變成可能。SGI的SunnySundstrom解釋說,通過對(duì)那些看起來沒什么關(guān)聯(lián)和組織的數(shù)據(jù)進(jìn)行分析,我們可以獲得很多有價(jià)值的結(jié)果。比如說可以分發(fā)現(xiàn)一些新的模式或者新的行為。運(yùn)用分布式計(jì)算技術(shù),銀行可以從消費(fèi)者的一些消費(fèi)行為和模式中識(shí)別網(wǎng)上交易的欺詐行為。分布式計(jì)算技術(shù)讓不可能變成可能,分布式計(jì)算技術(shù)正引領(lǐng)著將不可能變?yōu)榭赡?。SkyboxImaging就是一個(gè)很好的例子。這家公司通過對(duì)衛(wèi)星圖片的分析得出一些實(shí)時(shí)結(jié)果,比如說某個(gè)城市有多少可用停車空間,或者某個(gè)港口目前有多少船只。它們將這些實(shí)時(shí)結(jié)果賣給需要的客戶。沒有這個(gè)技術(shù),要想快速便宜的分析這么大量衛(wèi)星圖片數(shù)據(jù)將是不可能的。分布式計(jì)算技術(shù)是Google的核心,也是Yahoo的基礎(chǔ),目前分布式計(jì)算技術(shù)是基于Google創(chuàng)建的技術(shù),但是卻最新由Yahoo所建立。Google總共發(fā)表了兩篇論文,2004年發(fā)表的叫做MapReduce的論文介紹了如何在多計(jì)算機(jī)之間進(jìn)行數(shù)據(jù)處理;另一篇于2003年發(fā)表,主要是關(guān)于如何在多服務(wù)器上存儲(chǔ)數(shù)據(jù)。來自于Yahoo的工程師DougCutting在讀了這兩篇論文后建立了分布式計(jì)算平臺(tái),以他兒子的玩具大象命名??删庉嬁删庉嬀肺臋n,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載而Hadoop作為一個(gè)重量級(jí)的分布式處理開源框架已經(jīng)在大數(shù)據(jù)處理領(lǐng)域有所作為3.2.大數(shù)據(jù)處理過程3.2.1.采集大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬的用戶來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時(shí)達(dá)到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。3.2.2.導(dǎo)入/預(yù)處理雖然采集端本身會(huì)有很多數(shù)據(jù)庫,但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫,或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用來自Twitter的Storm來對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。3.2.3.統(tǒng)計(jì)/分析統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫,或者分布式計(jì)算集群來對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。3.2.4.挖掘與前面統(tǒng)計(jì)和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。整個(gè)大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個(gè)方面的步驟,才能算得上是一個(gè)比較完整的大數(shù)據(jù)處理可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載3.3.大數(shù)據(jù)處理的核心技術(shù)-Hadoop可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載大數(shù)據(jù)技術(shù)涵蓋了硬軟件多個(gè)方面的技術(shù),目前各種技術(shù)基本都獨(dú)立存在于存儲(chǔ)、開發(fā)、平臺(tái)架構(gòu)、數(shù)據(jù)分析挖掘的各個(gè)相對(duì)獨(dú)立的領(lǐng)域。這一部分主要介紹和分析大數(shù)據(jù)處理的核心技術(shù)——Hadoop。3.3.1.Hadoop的組成大數(shù)據(jù)不同于傳統(tǒng)類型的數(shù)據(jù),它可能由TB甚至PB級(jí)信息組成,既包括結(jié)構(gòu)化數(shù)據(jù),也包括文本、多媒體等非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)類型缺乏一致性,使得標(biāo)準(zhǔn)存儲(chǔ)技術(shù)無法對(duì)大數(shù)據(jù)進(jìn)行有效存儲(chǔ),而且我們也難以使用傳統(tǒng)的服務(wù)器和SAN方法來有效地存儲(chǔ)和處理龐大的數(shù)據(jù)量。這些都決定了“大數(shù)據(jù)”需要不同的處理方法,而Hadoop目前正是廣泛應(yīng)用的大數(shù)據(jù)處理技術(shù)。Hadoop是一個(gè)基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。該框架在很大程度上受Google在2004年白皮書中闡述的MapReduce的技術(shù)啟發(fā)。HadoopCommon:通用模塊,?支持其他Hadoop模塊?HadoopDistributedFileSystem(HDFS):分布式文件系統(tǒng),用以提供高流量的應(yīng)用數(shù)據(jù)訪問?HadoopYARN:支持工作調(diào)度和集群資源管理的框架?HadoopMapReduce:針對(duì)大數(shù)據(jù)的、靈活的并行數(shù)據(jù)處理框架其他相關(guān)的模塊還有:?ZooKeeper:高可靠性分布式協(xié)調(diào)系統(tǒng)?Oozie:負(fù)責(zé)MapReduce作業(yè)調(diào)度?HBase:可擴(kuò)展的分布式數(shù)據(jù)庫,可以將結(jié)構(gòu)性數(shù)據(jù)存儲(chǔ)為大表?Hive:構(gòu)建在MapRudece之上的數(shù)據(jù)倉庫軟件包?Pig:架構(gòu)在Hadoop之上的高級(jí)數(shù)據(jù)處理層在Hadoop框架中,最底層的HDFS存儲(chǔ)Hadoop集群中所有存儲(chǔ)節(jié)點(diǎn)上的文件??删庉嬁删庉嬀肺臋n,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載這些節(jié)點(diǎn)包括一個(gè)NameNode和大量的DataNode。存儲(chǔ)在HDFS中的文件被分成塊,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大小(通常為64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議。NameNode在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù),負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。它決定是否將文件映射到DataNode上的復(fù)制塊上。DataNode通常以機(jī)架的形式組織,機(jī)架通過一個(gè)交換機(jī)將所有系統(tǒng)連接起來。HadoopMapReduce是GoogleMapReduce的開源實(shí)現(xiàn)。MapReduce技術(shù)是一種簡潔的并行計(jì)算模型,它在系統(tǒng)層面解決了擴(kuò)展性、容錯(cuò)性等問題,通過接受用戶編寫的Map函數(shù)和Reduce函數(shù),自動(dòng)地在可伸縮的大規(guī)模集群上并行執(zhí)行,從而可以處理和分析大規(guī)模的數(shù)據(jù)[6]。Hadoop提供了大量的接口和抽象類,從而為Hadoop應(yīng)用程序開發(fā)人員提供許多工具,可用于調(diào)試和性能度量等。在Hadoop應(yīng)用實(shí)例中,一個(gè)代表客戶機(jī)在單個(gè)主系統(tǒng)上啟動(dòng)MapReduce的應(yīng)用程序稱為JobTracker。類似于NameNode,它是Hadoop集群中唯一負(fù)責(zé)控制MapReduce應(yīng)用程序的系統(tǒng)。在應(yīng)用程序提交之后,將提供包含在HDFS中的輸入和輸出目錄。JobTracker使用文件塊信息(物理量和位置)確定如何創(chuàng)建其他TaskTracker從屬任務(wù)。MapReduce應(yīng)用程序被復(fù)制到每個(gè)出現(xiàn)輸入文件塊的節(jié)點(diǎn),將為特定節(jié)點(diǎn)上的每個(gè)文件塊創(chuàng)建一個(gè)唯一的從屬任務(wù)。每個(gè)TaskTracker將狀態(tài)和完成信息報(bào)告給JobTracker。可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載3.3.2.Hadoop的優(yōu)點(diǎn):Hadoop能夠使用戶輕松開發(fā)和運(yùn)行處理大數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn):.高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。.高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。.高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。.高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。Hadoop帶有用Java語言編寫的框架,因此運(yùn)行在Linux生產(chǎn)平臺(tái)上是非常理想的。Hadoop上的應(yīng)用程序也可以使用其他語言編寫,比如C++。3.3.3.Hadoop的不足Hadoop作為一個(gè)處理大數(shù)據(jù)的軟件框架,雖然受到眾多商業(yè)公司的青睞,但是其自身的技術(shù)特點(diǎn)也決定了它不能完全解決大數(shù)據(jù)問題。在當(dāng)前Hadoop的設(shè)計(jì)中,所有的metadata操作都要通過集中式的NameNode來進(jìn)行,NameNode有可能是性能的瓶頸。當(dāng)前Hadoop單一NameNode、單一Jobtracker的設(shè)計(jì)嚴(yán)重制約了整個(gè)Hadoop可擴(kuò)展性和可靠性。首先,NameNode和JobTracker是整個(gè)系統(tǒng)中明顯的單點(diǎn)故障源。再次,單一NameNode的內(nèi)存容量有限,使得Hadoop集群的節(jié)點(diǎn)數(shù)量被限制到2000個(gè)左右,能支持的文件系統(tǒng)大小被限制在10-50PB,最多能支持的文件數(shù)量大約為1.5億左右。實(shí)際上,有用戶抱怨其集群的NameNode重啟需要數(shù)小時(shí),這大大降低了系統(tǒng)的可用性。隨著Hadoop被廣泛使用,面對(duì)各式各樣的需求,人們期望Hadoop能提供更多特性,比如完全可讀寫的文件系統(tǒng)、Snapshot、Mirror等等。這些都是當(dāng)前版本的Hadoop不支持,但是用戶又有強(qiáng)烈需求的。3.3.4.主要商業(yè)性“大數(shù)據(jù)”處理方案“大數(shù)據(jù)”被科技企業(yè)看作是云計(jì)算之后的另一個(gè)巨大商機(jī),包括IBM、谷歌、亞馬遜和微軟在內(nèi)的一大批知名企業(yè)紛紛掘金這一市場(chǎng)。此外,很多初創(chuàng)企業(yè)也開始加入到大數(shù)據(jù)的淘金隊(duì)伍中。Hadoop是非結(jié)構(gòu)數(shù)據(jù)庫的代表,低成本、高擴(kuò)展性和靈活性等優(yōu)勢(shì)使其成為各種面向大數(shù)據(jù)處理分析的商業(yè)服務(wù)方案的首選。Oracle、IBM、Microsoft三大商業(yè)數(shù)據(jù)提供商是Hadoop的主要支持者。很多知名企業(yè)都以Hadoop技術(shù)為基礎(chǔ)提供自己的商業(yè)性大數(shù)據(jù)解決方案。這一部分主要介紹以Hadoop為基礎(chǔ)的典型商業(yè)性大數(shù)據(jù)解決方案。.IBMInfoSphere大數(shù)據(jù)分析平臺(tái)IBM于2011年5月推出的InfoSphere大數(shù)據(jù)分析平臺(tái)是一款定位為企業(yè)級(jí)的大數(shù)據(jù)分析產(chǎn)品。該產(chǎn)品包括BigInsights和Streams,二者互補(bǔ),Biglnsights基于Hadoop,對(duì)大規(guī)模的靜態(tài)數(shù)據(jù)進(jìn)行分析,它提供多節(jié)點(diǎn)的分布式計(jì)算,可以隨時(shí)增加節(jié)點(diǎn),提升數(shù)據(jù)處理能力。Streams采用內(nèi)存計(jì)算方式分析實(shí)時(shí)數(shù)據(jù)。它們將包括HadoopMapReduce在內(nèi)的開源技術(shù)緊密地與IBM系統(tǒng)集成起來。研究Hadoop這樣開源技術(shù)的人很多,但是IBM這次是真正將其變成了企業(yè)級(jí)的應(yīng)用,針對(duì)不同的人員增加不同的價(jià)值。InfoSphereBigInsights1.3的存儲(chǔ)和運(yùn)算框架采用了開源的HadoopMapReduce,同時(shí)針對(duì)Hadoop框架進(jìn)行了改造,采用了IBM特有的通用并行文件系統(tǒng)——GPFS。利用GPFS的目的是為了避免單點(diǎn)故障,保證可用性。BigInsights中還有兩個(gè)分析產(chǎn)品——Cognos和SPSS,這兩個(gè)分析產(chǎn)品在傳統(tǒng)功能上加強(qiáng)了文本分析的功能,提供了一系列文本分析工具,并使用高級(jí)語言進(jìn)行自定義規(guī)則,如文本格式轉(zhuǎn)換等。目前BigInsights提供兩種版本,一種是企業(yè)版(EnterpriseEdition),用于企業(yè)級(jí)的大數(shù)據(jù)分析解決方案。另一種是基礎(chǔ)版(BasicEdition),去掉了企業(yè)版中的大部分功能,用戶可以免費(fèi)下載,主要提供給開發(fā)人員和合作伙伴試用。Streams最大的特點(diǎn)就是內(nèi)存分析,利用多節(jié)點(diǎn)PC服務(wù)器的內(nèi)存來處理大批量的數(shù)據(jù)分析請(qǐng)求。Streams的特點(diǎn)就是“小快靈”,數(shù)據(jù)是實(shí)時(shí)流動(dòng)的,其分析反應(yīng)速度可以控制在毫秒級(jí)別,而BigInsights的分析是批處理,反應(yīng)速度無法同Streams相比??傮w來說,二者的設(shè)計(jì)架構(gòu)不同,也用于處理不同的大數(shù)據(jù)分析需求,并可以形成良好的互補(bǔ)。InfoSphere平臺(tái)僅僅是IBM大數(shù)據(jù)解決方案中的一部分。IBM大數(shù)據(jù)平臺(tái)包括4大部分:信息整合與治理組件、基于開源ApacheHadoop的框架而實(shí)現(xiàn)的BigInsights平臺(tái)、加速器,以及包含可視化與發(fā)現(xiàn)、應(yīng)用程序開發(fā)、系統(tǒng)管理的上層應(yīng)用。通過IBM的解決方案可以看出,解決大數(shù)據(jù)問題不能僅僅依靠Hadoop。.OracleBigDataAppliancOracleBigDataAppliance準(zhǔn)確地說是一款硬件產(chǎn)品,添加了Hadoop裝載器、應(yīng)用適配器以及Oracle新的NoSQL數(shù)據(jù)庫,主要目的是為了將非結(jié)構(gòu)化數(shù)據(jù)加載到關(guān)系型數(shù)據(jù)庫中去,并對(duì)軟硬件的集成做了一些優(yōu)化。OracleBigData機(jī)包括開源ApacheHadoop、OracleNoSQL數(shù)據(jù)庫、Oracle數(shù)據(jù)集成Hadoop應(yīng)用適配器、OracleHadoop裝載器、OpenSourceDistributionofR、OracleLinux和OracleJavaHotSpot虛擬機(jī)。它能夠快速、便捷地與Oracle數(shù)據(jù)庫11g、OracleExadata數(shù)據(jù)庫云服務(wù)器和OracleExalytics商務(wù)智能云服務(wù)器集成。分析師和統(tǒng)計(jì)人員可以運(yùn)行現(xiàn)有的R應(yīng)用,并利用R客戶端直接處理存儲(chǔ)在Oracle數(shù)據(jù)庫11g中的數(shù)據(jù),從而極大地提高可擴(kuò)展性、性能和安全性。.MicrosoftSQLServer微軟已經(jīng)發(fā)布HadoopConnectorforSQLServerParallelDataWarehouse和HadoopConnectorforSQLServer社區(qū)技術(shù)預(yù)覽版本的連接器。該連接器是雙向的,用戶可以在Hadoop和微軟數(shù)據(jù)庫服務(wù)器之間向前或者向后遷移數(shù)據(jù)。微軟的SQLServer2012將并入Hadoop分布式計(jì)算平臺(tái),微軟還將把Hadoop引入WindowsServer和Azure(微軟的云服務(wù))。.SybaseIQSybaseIQ是Sybase公司推出的特別為數(shù)據(jù)倉庫設(shè)計(jì)的關(guān)系型數(shù)據(jù)庫,添加了Hadoop的集成,并提供了MapReduce的API。相比于傳統(tǒng)的“行式存儲(chǔ)”的關(guān)系型數(shù)據(jù)庫,SybaseIQ使用了獨(dú)特的列式存儲(chǔ)方式,在進(jìn)行分析查詢時(shí),僅需讀取查詢所需的列,其垂直分區(qū)策略不僅能夠支持大量的用戶、大規(guī)模數(shù)據(jù),還可以提交對(duì)商業(yè)信息的高速訪問,其速度可達(dá)到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的百倍甚至千倍。3.3.5.其他“大數(shù)據(jù)”解決方案“大數(shù)據(jù)”解決方案并非只有Hadoop一種,許多知名企業(yè)還提供了其他的解決方案。.EMCEMC提供了兩種大數(shù)據(jù)存儲(chǔ)方案,即Isilon和Atmos。Isilon能夠提供無限的橫向擴(kuò)展能力,Atmos是一款云存儲(chǔ)基礎(chǔ)架構(gòu),在內(nèi)容服務(wù)方面,Atmos是很好的解決方案。在數(shù)據(jù)分析方面,EMC提供的解決方案、提供的產(chǎn)品是Greenplum,Greenplum有兩個(gè)產(chǎn)品,第一是GreenplumDatabase,GreenplumDatabase是大規(guī)模的并行成立的數(shù)據(jù)庫,它可以管理、存儲(chǔ)、分析PB量級(jí)的一些結(jié)構(gòu)性數(shù)據(jù),它下載的速度非常高,最高可以達(dá)到每小時(shí)10TB,速度非常驚人。這是EMC可以提供給企業(yè)、政府,用來分析海量的數(shù)據(jù)。但是GreenplumDatabase面對(duì)的是結(jié)構(gòu)化數(shù)據(jù)。很多數(shù)據(jù)超過90%是非結(jié)構(gòu)化數(shù)據(jù),EMC有另外一個(gè)產(chǎn)品是GreenplumHD,GreenplumHD可以把非結(jié)構(gòu)化的數(shù)據(jù)或者是半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),然后讓GreenplumDatabase去處理。0.BigQueryBigQuery是Google推出的一項(xiàng)Web服務(wù),用來在云端處理大數(shù)據(jù)。該服務(wù)讓開發(fā)者可以使用Google的架構(gòu)來運(yùn)行SQL語句對(duì)超級(jí)大的數(shù)據(jù)庫進(jìn)行操作。BigQuery允許用戶上傳他們的超大量數(shù)據(jù)并通過其直接進(jìn)行交互式分析,從而不必投資建立自己的數(shù)據(jù)中心。Google曾表示BigQuery引擎可以快速掃描高達(dá)70TB未經(jīng)壓縮處理的數(shù)據(jù),并且可馬上得到分析結(jié)果。大數(shù)據(jù)在云端模型具備很多優(yōu)勢(shì),BigQuery服務(wù)無需組織提供或建立數(shù)據(jù)倉庫。而BigQuery在安全性和數(shù)據(jù)備份服務(wù)方面也相當(dāng)完善。免費(fèi)帳號(hào)可以讓用戶每月訪問高達(dá)100GB的數(shù)據(jù),用戶也可以付費(fèi)使用額外查詢和存儲(chǔ)空間。3.3.6.大數(shù)據(jù)”與科技文獻(xiàn)信息處理“大數(shù)據(jù)”目前主要指醫(yī)學(xué)、天文、地理、Web日志、多媒體信息等數(shù)據(jù),鮮有提及文獻(xiàn)信息。事實(shí)上,現(xiàn)在的科技文獻(xiàn)信息日益凸顯出“大數(shù)據(jù)”的特征,主要表現(xiàn)在以下幾個(gè)方面:更新周期縮短;數(shù)量龐大;文獻(xiàn)的類型多樣;文獻(xiàn)載體數(shù)字化;文獻(xiàn)語種多樣化;文獻(xiàn)內(nèi)容交叉;文獻(xiàn)信息密度大??萍嘉墨I(xiàn)中所含的信息類型多樣,既有結(jié)構(gòu)性數(shù)據(jù),也有非結(jié)構(gòu)性文本和公式,如何利用“大可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載數(shù)據(jù)”技術(shù)對(duì)文獻(xiàn)內(nèi)容進(jìn)行分析,挖掘用戶訪問日志、評(píng)價(jià)反饋等數(shù)據(jù)的價(jià)值,為用戶提供服務(wù)成為科技信息服務(wù)業(yè)急需思考和解決的問題。在科技文獻(xiàn)信息處理中,文本分析技術(shù)、語義計(jì)算技術(shù)、數(shù)據(jù)安全需要與“大數(shù)據(jù)”解決方案結(jié)合起來考慮實(shí)施,這樣才能更有效地提供知識(shí)服務(wù)。3.4.大數(shù)據(jù)處理技術(shù)發(fā)展前景可編輯可編輯精品文檔,歡迎下載精品文檔,歡迎下載可編輯精品文檔,歡迎下載隨著大數(shù)據(jù)時(shí)代的來臨,應(yīng)用越來越廣,其發(fā)展前景是很光明的。3.4.1.大數(shù)據(jù)復(fù)雜度降低大數(shù)據(jù)技術(shù)的落地將會(huì)有兩個(gè)特點(diǎn):一個(gè)是對(duì)MapReduce依賴越來越少,另外一個(gè)是會(huì)把Hadoop技術(shù)深入的應(yīng)用到企業(yè)的軟件架構(gòu)中。對(duì)于第一個(gè)特點(diǎn),像Cloudera的Impala和微軟的PolyBase這樣的軟件會(huì)得到充分發(fā)展,他們繞開了MapReduce,直接對(duì)存在HDFS中的數(shù)據(jù)進(jìn)行處理。對(duì)于第二個(gè)特點(diǎn),大規(guī)模的使用Hadoop是個(gè)必然趨勢(shì),漸漸的就會(huì)形成行業(yè)的標(biāo)準(zhǔn),進(jìn)而成為更有價(jià)值的軟件基礎(chǔ),而不僅是自己內(nèi)部使用。3.4.2.大數(shù)據(jù)細(xì)分市場(chǎng)大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展,將會(huì)創(chuàng)造出一些新的細(xì)分市場(chǎng)。例如,以數(shù)據(jù)分析和處理為主的高級(jí)數(shù)據(jù)服務(wù),將出現(xiàn)以數(shù)據(jù)分析作為服務(wù)產(chǎn)品提交的分析即服務(wù)(AnalyzeasaService)業(yè)務(wù);將多種信息整合管理,創(chuàng)造對(duì)大數(shù)據(jù)統(tǒng)一的訪問和分析的組件產(chǎn)品;基于社交網(wǎng)絡(luò)的社交大數(shù)據(jù)分析;甚至?xí)霈F(xiàn)大數(shù)據(jù)技能的培訓(xùn)市場(chǎng),教授數(shù)據(jù)分析課程等。3.4.3.大數(shù)據(jù)開源開源軟件為大數(shù)據(jù)市場(chǎng)帶來更多機(jī)會(huì)。與人們的傳統(tǒng)理解不同,大數(shù)據(jù)市場(chǎng)開源軟件的盛行不會(huì)抑制市場(chǎng)的商業(yè)機(jī)會(huì),相反開源軟件將會(huì)給基礎(chǔ)架構(gòu)硬件、應(yīng)用程序開發(fā)工具、應(yīng)用、服務(wù)等各個(gè)方面的相關(guān)領(lǐng)域帶來更多的機(jī)會(huì)。3.4.4.Hadoop將加速發(fā)展做為大數(shù)據(jù)領(lǐng)域的代表技術(shù),許多企業(yè)都把明年的計(jì)劃聚焦在Hadoop之上。據(jù)預(yù)測(cè),用戶對(duì)Hadoop的優(yōu)化將更注重硬件,同時(shí),對(duì)企業(yè)友好的Hadoop技術(shù)市場(chǎng)將達(dá)到前所未有的高峰。從整體上說,不僅是Hadoop本身本會(huì)得到迅猛的發(fā)展,同時(shí)Hadoop在多個(gè)數(shù)據(jù)中心中的配置和無縫集成技術(shù)也將成為熱門。Hadoop的專業(yè)知識(shí)正在飛速增長,但是這方面優(yōu)秀的人才仍然很缺乏?;赟QL的Hadoop工具將會(huì)得到持續(xù)發(fā)展”。3.4.5.打包的大數(shù)據(jù)行業(yè)分析應(yīng)用隨著大數(shù)據(jù)逐漸走向各個(gè)行業(yè),基于行業(yè)的大數(shù)據(jù)分析應(yīng)用需求也日益增長。未來幾年中針對(duì)特定行業(yè)和業(yè)務(wù)流程的分析應(yīng)用將會(huì)以預(yù)打包的形式出現(xiàn),這將為大數(shù)據(jù)技術(shù)供應(yīng)商打開新的市場(chǎng)。這些分析應(yīng)用內(nèi)容還會(huì)覆蓋很多行業(yè)的專業(yè)知識(shí),也會(huì)吸引大量行業(yè)軟件開發(fā)公司的投入。3.4.6.大數(shù)據(jù)分析的革命性方法出現(xiàn)在大數(shù)據(jù)分析上,將出現(xiàn)革命性的新方法。就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)可能是新一波技術(shù)革命。從前的很多算法和基礎(chǔ)理論可能會(huì)產(chǎn)生理論級(jí)別的突破。3.4.7.大數(shù)據(jù)與云計(jì)算:深度融合大數(shù)據(jù)處理離不開云計(jì)算技術(shù),云計(jì)算為大數(shù)據(jù)提供彈性可擴(kuò)展的基礎(chǔ)設(shè)施支撐環(huán)境以及數(shù)據(jù)服務(wù)的高效模式,大數(shù)據(jù)則為云計(jì)算提供了新的商業(yè)價(jià)值,大數(shù)據(jù)技術(shù)與云計(jì)算技術(shù)必有更完美的結(jié)合。同樣的,云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新興計(jì)算形態(tài),既是產(chǎn)生大數(shù)據(jù)的地方,也是需要大數(shù)據(jù)分析方法的領(lǐng)域。3.4.8.大數(shù)據(jù)一體機(jī)陸續(xù)發(fā)布自云計(jì)算和大數(shù)據(jù)概念被提出后,針對(duì)該市場(chǎng)推出的軟硬件一體化設(shè)備就層出不窮。在未來幾年里,數(shù)據(jù)倉庫一體機(jī)、NoSQL一體機(jī)以及其它一些將多種技術(shù)結(jié)合的一體化設(shè)備將進(jìn)一步快速發(fā)展。[page]4基于基站大數(shù)據(jù)應(yīng)用及案例4.1.氣象災(zāi)害應(yīng)急短信發(fā)布平臺(tái)4.1.1.概述.項(xiàng)目背景為有效預(yù)防、及時(shí)響應(yīng)和處置氣象災(zāi)害,保證氣象災(zāi)害應(yīng)急工作高效、有序進(jìn)行,最大限度地減輕或者避免氣象災(zāi)害造成的人員傷亡、財(cái)產(chǎn)損失以及對(duì)經(jīng)濟(jì)社會(huì)發(fā)展和生態(tài)環(huán)境保護(hù)產(chǎn)生的不利影響,將災(zāi)害信息及時(shí)通知相關(guān)人員,建設(shè)氣象災(zāi)害應(yīng)急短信發(fā)布平臺(tái)。.平臺(tái)概述本平臺(tái)是利用手機(jī)進(jìn)出特定小區(qū)需與交換機(jī)交換位置信息的特性,結(jié)合目前移動(dòng)通信網(wǎng)絡(luò)及短消息發(fā)布平臺(tái),實(shí)現(xiàn)在特定區(qū)域、特定時(shí)間對(duì)特定客戶群,發(fā)送特定服務(wù)短信的個(gè)性化信息服務(wù)。4.1.2.平臺(tái)建設(shè)特點(diǎn)與原則.建設(shè)特點(diǎn)平臺(tái)具有以下特點(diǎn):?針對(duì)性強(qiáng):特定區(qū)域、特定時(shí)間、特定客群、特定服務(wù)短信,投放準(zhǔn)確,不會(huì)影響特定區(qū)域外的用戶;?收看率高:手機(jī)自動(dòng)接收,收看率高,見效快,比傳統(tǒng)媒體信息更深入用戶;?發(fā)布便捷:客戶通過網(wǎng)絡(luò)可以直接申請(qǐng)發(fā)布信息,從申請(qǐng)到發(fā)布僅需幾小時(shí),可以及時(shí)修改;?成本低廉:定向發(fā)送有的放矢,平均成本更低廉。.建設(shè)原則?標(biāo)準(zhǔn)化:具有互操作性,可用性,可靠性,可擴(kuò)充性,可管理性,建立一個(gè)開放式,遵循國際標(biāo)準(zhǔn)的網(wǎng)絡(luò)系統(tǒng)。?先進(jìn)性:既要保證網(wǎng)絡(luò)的先進(jìn)性,同時(shí)也要兼顧技術(shù)的成熟性。?安全性:對(duì)于安全性我們將通過對(duì)用戶的區(qū)域劃分,建議選用專用防火墻實(shí)現(xiàn)對(duì)本地資源的安全保護(hù)。?擴(kuò)展性:網(wǎng)絡(luò)設(shè)計(jì)必須為今后的擴(kuò)充留有足夠的余地,以保護(hù)用戶的投資,保證今后的網(wǎng)絡(luò)擴(kuò)充升級(jí)能力。l保護(hù)投資:每個(gè)設(shè)備都進(jìn)行嚴(yán)格的選型,在滿足設(shè)計(jì)原則的功能前提下,提供最經(jīng)濟(jì)的設(shè)備配置方案。?可管理:先進(jìn)的網(wǎng)絡(luò)管理可為多業(yè)務(wù)網(wǎng)絡(luò)提供安全運(yùn)行的基礎(chǔ)。.大數(shù)據(jù)管理平臺(tái)特點(diǎn)?獨(dú)特的云任務(wù)管理技術(shù)——使系統(tǒng)的并行效率提升顯著、硬件資源被充分用于大數(shù)據(jù)處理,縮短處理時(shí)間、節(jié)約硬件成本。?獨(dú)特的多層分布式緩存技術(shù)——使系統(tǒng)的吞吐量更大,運(yùn)算性能更高,數(shù)據(jù)更加安全可靠。?雙引擎技術(shù)——云計(jì)算引擎與傳統(tǒng)計(jì)算引擎協(xié)同工作,使得業(yè)務(wù)支持類型更豐富、三方對(duì)接更方便、并實(shí)現(xiàn)了應(yīng)用前端到后端的大數(shù)據(jù)處理以及秒級(jí)的響應(yīng)速度。?獨(dú)特的云目錄管理技術(shù)——使得數(shù)據(jù)存儲(chǔ)更完整,數(shù)據(jù)回收更靈活更即時(shí),數(shù)據(jù)的近線存儲(chǔ)更方便。?實(shí)用的監(jiān)控體系——全面監(jiān)控所有云節(jié)點(diǎn)、圖形化的指標(biāo)監(jiān)控、完備的存活與性能告警、對(duì)于分析集群工作狀態(tài)、性能瓶頸識(shí)別、故障分析提供實(shí)際數(shù)據(jù)支持。?方便快捷的安裝——提供圖形與命令行2種安裝模式,適合本地與遠(yuǎn)程部署。部署操作基本自動(dòng)化,適合于大規(guī)模集群的快速部署安裝。4.1.3.平臺(tái)整體架構(gòu).建設(shè)原理本平臺(tái)是通過分析移動(dòng)通訊過程中的各種信令過程,獲得用戶當(dāng)前的位置信息。當(dāng)用戶的位置信息與業(yè)務(wù)選擇發(fā)送的特定區(qū)域一致時(shí),為用戶發(fā)布業(yè)務(wù)定制的短信。為獲得準(zhǔn)確、全面的用戶信息(當(dāng)前位置信息和用戶手機(jī)號(hào)),需要監(jiān)控業(yè)務(wù)特定區(qū)域所屬的MSC/VLR到周邊的所有信令鏈路(即下面的拓?fù)鋱D中雙向箭頭所對(duì)應(yīng)的物理鏈路)。本項(xiàng)目使用的信令數(shù)據(jù)由信令監(jiān)測(cè)系統(tǒng)定時(shí)提供。移動(dòng)通信網(wǎng)絡(luò)部分拓?fù)鋱D如下所示:.平臺(tái)總體設(shè)計(jì)1.平臺(tái)總體結(jié)構(gòu)總體架構(gòu)圖系統(tǒng)主要由信令處理子系統(tǒng)、短信發(fā)送子系統(tǒng)、管理子系統(tǒng)、大數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度餐飲業(yè)農(nóng)民工勞動(dòng)保障合同模板(全新)9篇
- 2025年度終止合伙合同:清潔能源項(xiàng)目終止合伙協(xié)議
- 醫(yī)療器械安全性能檢測(cè)與評(píng)估考核試卷
- 器件制造工藝的仿真與優(yōu)化考核試卷
- 衛(wèi)生潔具行業(yè)可持續(xù)發(fā)展與零售商社會(huì)責(zé)任考核試卷
- 光學(xué)玻璃的環(huán)保型清洗技術(shù)考核試卷
- 化妝品電商渠道運(yùn)營策略考核試卷
- 2025年全球及中國自動(dòng)行李寄存系統(tǒng)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國高壓食品加工(HPP)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 車務(wù)段課程設(shè)計(jì)案例
- 寒潮雨雪應(yīng)急預(yù)案范文(2篇)
- DB33T 2570-2023 營商環(huán)境無感監(jiān)測(cè)規(guī)范 指標(biāo)體系
- 上海市2024年中考英語試題及答案
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標(biāo)準(zhǔn)(2024版)宣傳海報(bào)
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標(biāo)準(zhǔn)(2024版)宣傳畫冊(cè)
- 垃圾車駕駛員聘用合同
- 2025年道路運(yùn)輸企業(yè)客運(yùn)駕駛員安全教育培訓(xùn)計(jì)劃
- 南京工業(yè)大學(xué)浦江學(xué)院《線性代數(shù)(理工)》2022-2023學(xué)年第一學(xué)期期末試卷
- 2024版機(jī)床維護(hù)保養(yǎng)服務(wù)合同3篇
- 《論拒不執(zhí)行判決、裁定罪“執(zhí)行能力”之認(rèn)定》
- 工程融資分紅合同范例
評(píng)論
0/150
提交評(píng)論