![PB級大數(shù)據(jù)存儲技術與分析技術解析_第1頁](http://file4.renrendoc.com/view/05005408f414b11cbc913764dcf3d960/05005408f414b11cbc913764dcf3d9601.gif)
![PB級大數(shù)據(jù)存儲技術與分析技術解析_第2頁](http://file4.renrendoc.com/view/05005408f414b11cbc913764dcf3d960/05005408f414b11cbc913764dcf3d9602.gif)
![PB級大數(shù)據(jù)存儲技術與分析技術解析_第3頁](http://file4.renrendoc.com/view/05005408f414b11cbc913764dcf3d960/05005408f414b11cbc913764dcf3d9603.gif)
![PB級大數(shù)據(jù)存儲技術與分析技術解析_第4頁](http://file4.renrendoc.com/view/05005408f414b11cbc913764dcf3d960/05005408f414b11cbc913764dcf3d9604.gif)
![PB級大數(shù)據(jù)存儲技術與分析技術解析_第5頁](http://file4.renrendoc.com/view/05005408f414b11cbc913764dcf3d960/05005408f414b11cbc913764dcf3d9605.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、PB級大數(shù)據(jù)存儲技術與分析技術解析2013年122月2日目錄TOC o 1-3 h z u HYPERLINK l _Toc 一、PB級大數(shù)數(shù)據(jù)存儲技術術解析 PAGEREF _Toc h 2 HYPERLINK l _Toc 二、大數(shù)據(jù)分析析系統(tǒng)應規(guī)避避的問題 PAGEREF _Toc h 5 HYPERLINK l _Toc 三、剖析Haddoop和大大數(shù)據(jù)的七誤誤解 PAGEREF _Toc h 8 HYPERLINK l _Toc 四、6個優(yōu)秀的的開源文件系系統(tǒng)助力大數(shù)數(shù)據(jù)分析 PAGEREF _Toc h 133 HYPERLINK l _Toc 五、大數(shù)據(jù)與關關系型數(shù)據(jù)庫庫是否水火
2、不不容?NO PAGEREF _Toc h 17 HYPERLINK l _Toc 六、大數(shù)據(jù)探討討:如何整理理1700億條條Twittter發(fā)布信信息? PAGEREF _Toc h 21 HYPERLINK l _Toc 七、暢談阿里巴巴巴的大數(shù)據(jù)據(jù)夢 PAGEREF _Toc h 26 HYPERLINK l _Toc 八、Twittter利用Storrm系統(tǒng)處理理實時大數(shù)據(jù)據(jù) PAGEREF _Toc h 35PB級大數(shù)據(jù)存存儲技術解析析對于存儲管理人人員來說,大大數(shù)據(jù)應該分分為大數(shù)據(jù)存存儲和大數(shù)據(jù)據(jù)分析,這兩兩者的關系是是大數(shù)據(jù)存存儲是用于大大數(shù)據(jù)分析的的。然而,到到目前為止這這是兩
3、種截然然不同的計算算機技術領域域。本文就重重點解析一下下PB級大數(shù)數(shù)據(jù)存儲技術術,希望對您您有所幫助。越來越多的存儲儲產(chǎn)品都在融融入大數(shù)據(jù)的的概念和功能能,并使之成成為產(chǎn)品的一一大賣點。但但對于從事存存儲管理的專專業(yè)人員來說說,對“大數(shù)據(jù)”在具體應用用場景中的特特點和區(qū)別有有所了解。大數(shù)據(jù)存儲致力力于研發(fā)可以以擴展至PBB甚至EB級級別的數(shù)據(jù)存存儲平臺;大數(shù)據(jù)分析析關注在最短短時間內(nèi)處理理大量不同類類型的數(shù)據(jù)集集。在快速變化的技技術趨勢中有有兩個特點需需要存儲管理理人員重視起起來。第一,大數(shù)據(jù)分分析流程和傳傳統(tǒng)的數(shù)據(jù)倉倉庫的方式完完全不同,其其已經(jīng)變成了了業(yè)務部門級級別和數(shù)據(jù)中中心級別的關關鍵
4、應用。這這也是存儲管管理員的切入入點。隨著基基礎平臺(分分布式計算或或其它架構)變得業(yè)務關關鍵化,用戶戶群較以往更更加地依賴這這一平臺,這這也使得其成成為企業(yè)安全全性、數(shù)據(jù)保保護和數(shù)據(jù)管管理策略的關關鍵課題。第二,通常用于于數(shù)據(jù)分析平平臺的分布式式計算平臺內(nèi)內(nèi)的存儲不是是你以往面對對的網(wǎng)絡附加加存儲(NAAS)和存儲儲區(qū)域網(wǎng)絡(SAN)其通常是是內(nèi)置的直連連存儲(NAAS)以及組組成集群的分分布式計算節(jié)節(jié)點。這使得得管理大數(shù)據(jù)據(jù)變得更為復復雜,因為你你無法像以前前那樣對這些些數(shù)據(jù)部署安安全、保護和和保存流程。然而,執(zhí)行行這些流程策策略的必要性性被集成在管管理分布式計計算集群之中中,并且改變變了
5、計算和存存儲層交互的的方式。大數(shù)據(jù)分析和傳傳統(tǒng)的數(shù)據(jù)倉倉庫的不同大數(shù)據(jù)分析中包包含了各種快快速成長中的的技術。因此此,簡單用某某一種技術嘗嘗試對其定義義,比如分布布式計算,會會比較困難。不過,這些些定義大數(shù)據(jù)據(jù)分析的通用用性技術可以以用如下特征征闡述:對于傳統(tǒng)數(shù)據(jù)倉倉庫處理流程程效率和擴展展性方面限制制的感知。將將數(shù)據(jù),不論論是結構化還還是非結構化化數(shù)據(jù)從多個個數(shù)據(jù)源匯聚聚的能力。以以及認識到數(shù)數(shù)據(jù)的及時性性是擴展非結結構化數(shù)據(jù)源源的關鍵,其其中包括移動動設備,RFFID,網(wǎng)絡絡和不斷增長長的自動化感感知技術。傳統(tǒng)的數(shù)據(jù)倉庫庫系統(tǒng)通常從從現(xiàn)有的關系系型數(shù)據(jù)庫中中抓取數(shù)據(jù)。然而,據(jù)估估計超過80
6、0%的企業(yè)數(shù)數(shù)據(jù)是非結構構化的,即無無法關系型數(shù)數(shù)據(jù)庫管理系系統(tǒng)(RDBBMS),比比如DB2和和Oraclle完成的數(shù)數(shù)據(jù)。一般而而言,處于此此次討論的目目的,非結構構化數(shù)據(jù)可以以看成所有無無法簡單轉化化到結構化關關系型數(shù)據(jù)庫庫中的所有數(shù)數(shù)據(jù)。而企業(yè)業(yè)現(xiàn)在希望從從這些非結構構化數(shù)據(jù)類型型中抽取有價價值的信息,包包括:郵件和其它形式式的電子通訊訊記錄網(wǎng)站上的資料,包包括點擊量和和社交媒體相相關的內(nèi)容數(shù)字視頻和音頻頻設備產(chǎn)生的數(shù)據(jù)據(jù)(RFIDD,GPS,傳傳感器產(chǎn)生的的數(shù)據(jù),日志志文件等)以以及物聯(lián)網(wǎng)在大數(shù)據(jù)分析的的情況下,查查看遠多于RRDBMS的的數(shù)據(jù)類型十十分必要這代表了各各種重要的新新信
7、息源。并并且隨著每年年非結構化數(shù)數(shù)據(jù)存儲總量量較結構化數(shù)數(shù)據(jù)增長率高高出10到550倍,從業(yè)業(yè)務角度看這這些數(shù)據(jù)也變變得更為重要要。更重要的數(shù)據(jù)需需要更專業(yè)的的人員進行分分析。但傳統(tǒng)統(tǒng)的數(shù)據(jù)倉庫庫技術對海量量非結構化數(shù)數(shù)據(jù)的處理根根本無法滿足足大數(shù)據(jù)的需需求。所以,存存儲管理人員員也應該更快快的跟隨技術術潮流,更新新自己的技術術和知識結構構,提高自己己對大數(shù)據(jù)的的管理和分析析能力。大數(shù)據(jù)分析系統(tǒng)統(tǒng)應規(guī)避的問問題隨著互聯(lián)網(wǎng)技術術的不斷發(fā)展展,數(shù)據(jù)本身身是資產(chǎn),這這一點在業(yè)界界已經(jīng)形成共共識。越來越越多的企業(yè)涉涉足到大數(shù)據(jù)據(jù),但是大數(shù)數(shù)據(jù)沒有想象象中的那么簡簡單,所有大大數(shù)據(jù)的屬性性,包括數(shù)量量,
8、速度,多多樣性等反映映了數(shù)據(jù)庫不不斷增長的復復雜性。本文文從安裝、搭搭建等方面展展示了大數(shù)據(jù)據(jù)分析系統(tǒng)的的應該規(guī)避的的系列問題。大數(shù)據(jù)分析前期期要做的事其實,每一個數(shù)數(shù)據(jù)都有一個個ETL,就就是抽取、轉轉化,然后去去加載,包括括做數(shù)據(jù)的清清洗。如果數(shù)數(shù)據(jù)大批量進進來的話,有有些數(shù)據(jù)可能能是有問題的的,馬先生舉舉了個例子:比如說,好好多地址會寫寫得比較模糊糊,如果要搜搜索北京這個個詞的時候,數(shù)數(shù)據(jù)倉庫里可可能只有一個個京字,這些些都要統(tǒng)一整整理成一個,比比如說北京,這這樣后面分析析就會簡單,比比如山東,有有人會輸入“魯”字來進行搜搜索,而不是是山東,這就就需要在大數(shù)數(shù)據(jù)分析前期期做好數(shù)據(jù)清清理工
9、作,做做規(guī)范化,這這樣后面的 HYPERLINK t _blank 數(shù)數(shù)據(jù)分析起來來就方便很多多。搭建大數(shù)據(jù)分析析系統(tǒng)的注意意事項在搭建大數(shù)據(jù)分分析系統(tǒng)時,有有哪些需要注注意的事項?馬老師提到到:首先要弄弄明白你所在在企業(yè)需要什什么樣的數(shù)據(jù)據(jù),或者你想想得到什么價價值,想明白白了再去做。因為做數(shù)據(jù)據(jù)不像做別的的東西,一定定明確知道要要知道你要干干什么,不然然這個系統(tǒng)搭搭的時候會有有很多困難,不不知道該怎么么搭,不知道道用什么技術術,也不知道道數(shù)據(jù)進去是是否在浪費。而目前的情情況是:很多多企業(yè)可能會會先把架構搭搭出來,實際際上這數(shù)據(jù)每每天在算,但但是不知道這這數(shù)據(jù)帶來什什么價值,所所以更多是一一
10、個業(yè)務驅動動的。再舉個個例子:比如如說中國移動動就想挖一挖挖,到底是哪哪一個用戶老老欠費,哪一一個用戶用得得多,用的多多的就給他優(yōu)優(yōu)惠多一點如果他有有這個需求,你你再把這個需需求下轉給下下面的人,按按照這個需求求去開發(fā);其次,需要選擇擇適當?shù)募夹g術。比如說你你一臺機器夠夠用的,不要要用兩臺機器器,能夠進來來報表就不要要用交互報表表,因為那個個都是有技術術成本的,并并且上線的速速度會慢很多多。所以建議議任何一個企企業(yè)在搭建數(shù)數(shù)據(jù)分析以前前,要特別清清晰地知道其其搭建的需求求和目的,選選擇什么方案案,搭它來解解決什么問題題,針對需求求你去做一個個數(shù)據(jù)分析;再次,在沒有時時時性要求時時,你不要自自作
11、主張,向向老大提這個個。因為大公公司的批量已已經(jīng)做得非常常完美了,可可能批量已經(jīng)經(jīng)帶來35%的收入增加加了,他要再再做時時,再再增加5%,而而你現(xiàn)在什么么都沒有。如如果說先要做做時時,或者者先要全部搞搞出來的話,可可能要先一步步一部把355%做好,把把那個批量先先做出來,然然后再做時時時,這樣效果果會更好。不要濫搭大數(shù)據(jù)據(jù)分析系統(tǒng)技術這個東西都都是相通的,沒沒有一項改進進都是說完全全是重新造出出來的,都是是在改的,但但是它帶來的的價值不一樣樣,它帶來的的人的思考,就就跟人從零售售店買東西和和網(wǎng)商這種不不一樣,但是是技術,零售售店也會用一一些數(shù)據(jù)庫,網(wǎng)網(wǎng)上也可能用用,要在這個個上面做一些些轉變。
12、馬老老師談到,好好多國企(這這里就不點名名),就是為為了上項目去去上項目,稱稱自己有 HYPERLINK t _blank 海量量數(shù)據(jù)。當問問他需要搭建建的大數(shù)據(jù)系系統(tǒng)是用來干干什么,他們們的答案很出出乎意料:先先給搭起來,先先存起來,需需要的時候再再用,就這種種思想。其實實這個是沒有有必要的??偨Y雖然大數(shù)據(jù)現(xiàn)在在炙手可熱,大大數(shù)據(jù)分析越越來越火爆,很很多企業(yè)都在在試圖擁抱大大數(shù)據(jù)技術。但還是應該該具體問題具具體分析,因因為大數(shù)據(jù)分分析系統(tǒng)并非非適合所有的的企業(yè),一些些小型規(guī)模的的企業(yè)在舊系系統(tǒng)能滿足需需求的時候,就就不要盲目地地去追隨潮流流,舍棄舊的的系統(tǒng)重新搭搭建,也可能能解決了這個個小缺
13、口,但但是可能會滋滋生其它更大大的問題,這這就得不償失失了。剖析Hadooop和大數(shù)據(jù)據(jù)的七誤解如今,Hadooop成為解解決大數(shù)據(jù)需需求的主要投投資領域之一一,而類似FFaceboook等互聯(lián)聯(lián)網(wǎng)巨頭在都都公開的吹捧捧Hadooop上取得的的成功,同樣樣初入大數(shù)據(jù)據(jù)領域的公司司也必先著眼眼于Hadooop。但對對于Hadooop技術而而言,是一個個多維的解決決方案,可以以通過不同的的方式進行部部署和使用。下面就了解解一些關于HHadoopp和大數(shù)據(jù)的的七大錯誤理理念。對于Hadooop技術而言言,可以說是是開源領域的的傳奇,然而而如今業(yè)界還還伴隨著一些些流言,這些些流言可能會會導致IT高高管
14、們帶著“有色”的觀點去制制定策略。如今,數(shù)據(jù)量在在以驚人的速速度增長,從從IDC分析析師報告中22013年數(shù)數(shù)據(jù)存儲上的的增長速度將將達到53.4%,ATT&T更是聲聲稱無線數(shù)據(jù)據(jù)的流量在過過去的5年內(nèi)內(nèi)增長2000倍,從互聯(lián)聯(lián)網(wǎng)內(nèi)容、電電子郵件、應應用通知、社社交消息以及及每天接收的的消息都在顯顯著的增長,這這也是眾多大大企業(yè)都聚焦焦大數(shù)據(jù)的原原因所在。毫無疑問,Haadoop成成為解決大數(shù)數(shù)據(jù)需求的主主要投資領域域之一,而類類似Faceebook等等互聯(lián)網(wǎng)巨頭頭在都公開的的吹捧Haddoop上取取得的成功,同同樣初入大數(shù)數(shù)據(jù)領域的公公司也必先著著眼于Haddoop。但但對于Haddoop技
15、術術而言,是一一個多維的解解決方案,可可以通過不同同的方式進行行部署和使用用。下面就了了解一些關于于Hadooop和大數(shù)據(jù)據(jù)的七大錯誤誤理念:大數(shù)據(jù)僅僅是容容量對大數(shù)據(jù)來說,除除了指體積之之外,還經(jīng)常常提到Varriety(多多樣)、Vaariabiility(可可變)、Veelocitty(速度)和和Valuee(價值)。關鍵點在于于大數(shù)據(jù)并不不是體積上的的增長,更多多是未來的實實時分析、結結構化和非結結構化數(shù)據(jù)的的發(fā)展,并被被企業(yè)CIOO用于更好的的決策。綜上所述,并不不是只有分析析大數(shù)據(jù)才會會獲得價值。舉個例子,存存儲和分析11PB的超時時限數(shù)據(jù)的價價值可能比不不上實時分析析1GB的數(shù)數(shù)
16、據(jù),而從“新鮮”的數(shù)據(jù)上獲獲得價值比解解剖過時的數(shù)數(shù)據(jù)更具價值值。傳統(tǒng)SQL不能能在Hadooop上使用用眾多廠商在Haadoop上上投入精力,布布局市場戰(zhàn)略略時,十分清清楚HDFSS和MapRReducee受限于處理理類似SQLL語言的能力力,這也是HHive、PPig和Sqqoop最終終得以推廣的的原因。更多多企業(yè)通過HHadoopp和SQL兼兼容來管理大大量的數(shù)據(jù),PPivotaal HD是是結合SQLL并行處理資資料庫與Haadoop 2.0,針針對企業(yè)資料料分析需求而而優(yōu)化的Haadoop強強化版本。Hadoop是是唯一的新IIT數(shù)據(jù)平臺臺談到數(shù)據(jù)平臺,大大型機在ITT投資組合里里有
17、是一個長長期投資,與與ERP、CCRM和SCCM這些系統(tǒng)統(tǒng)一樣演變至至今。而面對對大數(shù)據(jù)時代代,大型機不不想被架構遺遺棄,必須展展示在現(xiàn)有IIT投資環(huán)境境中的價值,而而許多客戶遇遇到速度、規(guī)規(guī)模和成本的的問題,通過過vFabrric SQQLFiree這樣的內(nèi)存存大數(shù)據(jù)網(wǎng)絡絡去解決高速速數(shù)據(jù)存取,促促進大型機批批處理或實時時分析報告這這些問題。虛擬化會導致性性能下降Hadoop最最初的設計只只是運行實體體服務器上,然然而隨著云計計算發(fā)展,許許多企業(yè)都希希望能作為云云數(shù)據(jù)中心提提供服務。之之所以虛擬化化Hadooop,企業(yè)首首先要考慮管管理基礎設施施的擴展性,認認識到擴展計計算資源,比比如虛擬H
18、aadoop節(jié)節(jié)點在數(shù)據(jù)和和計算分開時時會對性能有有所幫助,否否則如果你關關閉某個Haadoop節(jié)節(jié)點將丟失上上面的所有數(shù)數(shù)據(jù)或者添加加一個沒有數(shù)數(shù)據(jù)的空節(jié)點點。Hadoop只只可以在數(shù)據(jù)據(jù)中心運行對于在SaaSS云服務解決決方案,許多多云服務允許許云端運行HHadoopp、SQL,這這無疑可以幫幫助企業(yè)省下下數(shù)據(jù)中心建建造投資的時時間和金錢。特別是對于于公有云情況況下,Javva開發(fā)者可可以從Sprring DData ffor Haadoop以以及一些其它它的GitHHub用例中中獲益。大數(shù)據(jù)復雜性Hadoop對對虛擬化無經(jīng)經(jīng)濟價值Hadoop被被很多人認為為,盡管在商商用服務器上上運行,
19、添加加一個虛擬層層在帶來額外外支出的同時時并不會有額額外的價值收收益,但其實實這個說法并并沒有考慮到到數(shù)據(jù)和數(shù)據(jù)據(jù)分析事實上上都是動態(tài)的的。虛擬化基基礎設施同樣樣可以減少物物理硬件數(shù)量量,讓CAPPEX(資本本支出)直接接等于商用硬硬件成本,而而通過自動以以及高效利用用共享基礎設設施同樣可以以減少OPEEX(運營成成本)。Hadoop不不能運行在SSAN或NAAS上盡管Hadooop在本地磁磁盤上運行,對對于中小型集集群一樣可以以在一個共享享的SAN環(huán)環(huán)境下體現(xiàn)良良好的性能表表現(xiàn),而高帶帶寬比如100GB以太網(wǎng)網(wǎng)、PoE以以及iSCSSI對性能同同樣有很好的的支持。由此,大數(shù)據(jù)成成為行業(yè)追逐逐
20、的熱點,以以上七大有關關大數(shù)據(jù)“誤解”問題的客觀觀看待。如同同不同項目需需求不同,HHadoopp是一個工具具來幫助企業(yè)業(yè)更好的應對對大數(shù)據(jù)問題題。無論是面面對數(shù)據(jù)網(wǎng)格格的GemFFire或SQLFFire,還還是面向消息息的RabbbitMQ中中間件,一個個完整的SaaaS解決方方案如今比在在Hadooop環(huán)境更容容易實現(xiàn)。6個優(yōu)秀的開源源文件系統(tǒng)助助力大數(shù)據(jù)分分析“大數(shù)據(jù)”作為為時下最火熱熱的IT行業(yè)業(yè)的詞匯,個個人、企業(yè)和和政府機構之之間的互動創(chuàng)創(chuàng)造了數(shù)據(jù)的的海洋,我們們51CTOO傳媒在4月月26日-227日也將舉舉行20133大數(shù)據(jù)全球球技術峰會,分分享大數(shù)據(jù)技技術趨勢和最最佳實踐,
21、是是一場重新認認識數(shù)據(jù)價值值的技術盛宴宴。大數(shù)據(jù)需需要大量的儲儲存空間,本本文分享了66個優(yōu)秀的開開源文件系統(tǒng)統(tǒng),助力大數(shù)數(shù)據(jù)深入分析析。大數(shù)據(jù)在今天吸吸引了大量關關注,個人、企業(yè)和政府府機構之間的的互動創(chuàng)造了了數(shù)據(jù)的海洋洋,通過有效效識別、訪問問、篩選和分分析其中部分分數(shù)據(jù)能帶來來新的見解和和益處。大數(shù)數(shù)據(jù)需要大量量的儲存空間間,先進的存存儲基礎設施施必不可少,需需要能在多臺臺服務器上伸伸縮自如的存存儲解決方案案。有許多優(yōu)優(yōu)秀的開源文文件系統(tǒng)能用用于深入分析析大數(shù)據(jù),其其中包括:QFSQuantcaast (QFS) 是一個高性性能、容錯、 HYPERLINK t _blank 分布式的文文
22、件系統(tǒng),其其開發(fā)是用于于支持 MaapReduuce 處理理或者需要順順序讀寫大文文件的應用。HDFSHadoop Distrributeed ,簡稱稱 HYPERLINK t _blank HDFS,是是一個 HYPERLINK t _blank 分布式式文件系統(tǒng)。HDFS有有著高容錯性性(faullt-tollerentt)的特點,并并且設計用來來部署在低廉廉的(loww- cosst)硬件上上。而且它提提供高吞吐量量(highh throoughpuut)來訪問問應用程序的的數(shù)據(jù),適合合那些有著超超大數(shù)據(jù)集(llarge data set)的的應用程序。HDFS放放寬了(reelax)P
23、POSIX的的要求(reequireementss)這樣可以以實現(xiàn)流的形形式訪問(sstreamming aaccesss)文件系統(tǒng)統(tǒng)中的數(shù)據(jù)。HDFS開開始是為開源源的apacche項目nnutch的的基礎結構而而創(chuàng)建,HDDFS是 HYPERLINK t _blank haadoop項項目的一部分分,而 haadoop又又是luceene的一部部分。CephCeph是加州州大學Sannta Crruz分校的的Sage Weil(DDreamHHost的聯(lián)聯(lián)合創(chuàng)始人)專專為博士論文文設計的新一一代自由軟件件分布式文件件系統(tǒng)。自22007年畢畢業(yè)之后,SSage開始始全職投入到到Ceph開開
24、發(fā)之中,使使其能適用于于生產(chǎn)環(huán)境。Ceph的的主要目標是是設計成基于于POSIXX的沒有單點點故障的分布布式文件系統(tǒng)統(tǒng),使數(shù)據(jù)能能容錯和無縫縫的復制。22010年33 月,Liinus TTorvallds將Ceeph cllient合合并到內(nèi) 核核2.6.334中。IBBM開發(fā)者園園地的一篇文文章探討了CCeph的架架構,它的容容錯實現(xiàn)和簡簡化海量數(shù)據(jù)據(jù)管理的功能能。Lustre HYPERLINK t _blank Lustre是是一個大規(guī)模模的、安全可可靠的,具備備高可用性的的集群文件系系統(tǒng),它是由由SUN公司司開發(fā)和維護護的。該項目主要的目目的就是開發(fā)發(fā)下一代的集集群文件系統(tǒng)統(tǒng),可以支
25、持持超過100000個節(jié)點點,數(shù)以PBB的數(shù)據(jù)量存存儲系統(tǒng)。GlusterrFSGlusterrFS 是一一個集群的文文件系統(tǒng),支支持 HYPERLINK t _blank PB 級的數(shù)據(jù)量量。GlussterFSS 通過 RRDMA 和和 TCP/IP 方式式將分布到不不同服務器上上的存儲空間間匯集成一個個大的網(wǎng)絡并并行文件系統(tǒng)統(tǒng)。PVFSPVFS 是一一個高性能、開源的并行行文件系統(tǒng),主主要用于并行行計算環(huán)境中中的應用。特特別為超大數(shù)數(shù)量的客戶端端和服務器端端設計。模塊塊化結構設計計,可輕松的的添加新的硬硬件和算法支支持。PVFS 側重重高性能訪問問大數(shù)據(jù)集,包包含一個服務務器進程和客客戶
26、端開發(fā)庫庫,完全基于于用戶級代碼碼編寫。特征:基于對象的設計計思路 Optimizzed foor reggular stridded acccess 獨立數(shù)據(jù)和元數(shù)數(shù)據(jù)的存儲 優(yōu)化的 MPII-IO 支支持 多種網(wǎng)絡支持 無狀態(tài)的服務器器 用戶級的實現(xiàn)方方案 系統(tǒng)級接口 可在很多 Liinux 版版本上構建 支持多數(shù)平臺,包包括 IA332, IAA64, OOpteroon, PoowerPCC, Alppha, aand MIIPS 大數(shù)據(jù)與關系型型數(shù)據(jù)庫是否否水火不容?NO在大多數(shù)IT觀觀察家的眼里里,大數(shù)據(jù)通通常是指那些些規(guī)模大到難難以用傳統(tǒng)關關系型數(shù)據(jù)庫庫處理的數(shù)據(jù)據(jù)集。但隨著著大
27、數(shù)據(jù)時代代的到來,越越來越多的數(shù)數(shù)據(jù)庫并非建建筑在“關系”之上,且具具有更高的可可擴展性。那那么,大數(shù)據(jù)據(jù)與關系型數(shù)數(shù)據(jù)庫是否水水火不容?MMariaDDB的創(chuàng)始人人之一Monnty Wiideniuus駁斥了這這個觀點。一直以來,人們們都認為 HYPERLINK t _blank 大數(shù)數(shù)據(jù)和NoSSQL數(shù)據(jù)庫庫是天作之合合,而 HYPERLINK t _blank 關系型型數(shù)據(jù)庫則被被打上OUTT的標簽,但但有一位數(shù)據(jù)據(jù)庫老兵并不不這么認為。在大多數(shù)IT觀觀察家的眼里里,大數(shù)據(jù)通通常是指那些些規(guī)模大到難難以用傳統(tǒng)關關系型數(shù)據(jù)庫庫處理的數(shù)據(jù)據(jù)集。雖然今今天關系模型型和SQL依依然是數(shù)據(jù)庫庫世界
28、的統(tǒng)治治者,但隨著著大數(shù)據(jù)時代代的到來,越越來越多的數(shù)數(shù)據(jù)庫并非建建筑在“關系”之上,且具具有更高的可可擴展性。那么,大數(shù)據(jù)時時代關系型數(shù)數(shù)據(jù)庫何去何何從?最近MMySQL HYPERLINK t _blank 開開源數(shù)據(jù)庫最最初版本的開開發(fā)者,以及及MySQLL社區(qū)開發(fā)分分支版本MariaaDB的創(chuàng)始始人之一Moonty WWideniius接受RReadWrrite的采采訪,他駁斥斥了大數(shù)據(jù)與與SQL數(shù)據(jù)據(jù)庫水火不容容的常見觀點點。以下是對對Widennius的采采訪實錄,摘摘錄如下:問:您能NoSSQL和大數(shù)數(shù)據(jù)的歷史嗎嗎?為什么它它們會成為人人們熱議的話話題?答:所謂的“新新NoSQL
29、L運動”的起源來自自三年前Twwitterr一位員工的的博客,此人人在博客中稱稱MySQLL不夠好,他他們需要更好好的數(shù)據(jù)庫技技術,例如CCassanndra。其實Twittter當時在在MySQLL上遇到麻煩煩是因為他們們沒有正確使使用。奇怪的的是, HYPERLINK t _blank Twiitter給給出的問題解解決方法在CCassanndra和MMySQL里里都能輕松實實現(xiàn)。這篇文章的原文文已經(jīng)找不到到了,但可以以參考這篇隨隨后的文章“MySQLL將被Casssandrra替代”。目前的情況是這這樣:三年過去了,TTwitteer還在用MMySQL存存儲它最寶貴貴的資產(chǎn)推文。Caas
30、sanddra最終也也沒能取代了了MySQLL。NoSQL流行行的原因是,與與SQL相比比,NoSQQL非常容易易上手,你不不需要任何設設計就能開始始使用它。但但這也是有代代價的,很快快你就會發(fā)現(xiàn)現(xiàn)對數(shù)據(jù)失去去了控制(如如果你不是足足夠小心的話話)。所以,大多數(shù)NNoSQL解解決方案的優(yōu)優(yōu)點(在MaariaDBB出現(xiàn)之前)是是: 快速訪問數(shù)數(shù)據(jù)(只要你你舍得把文件件都丟進內(nèi)存存) 快速復制/多個節(jié)點的的數(shù)據(jù)擴展 彈性架構(可可以快速增加加新的列)問:大數(shù)據(jù)(技技術)能幫人人們解決什么么問題?更高性能和更靈靈活的架構是是推動NoSSQL發(fā)展的的兩大動力。問:你個人怎么么看待大數(shù)據(jù)據(jù),有什么預預測
31、嗎?我覺得大多數(shù)看看好NoSQQL的用戶都都是跟風者。大多數(shù)公司司根本沒有像像Facebbook和GGooglee那么大規(guī)模模的數(shù)據(jù),而而且他們其實實也根本就支支付不起優(yōu)化化和持續(xù)開發(fā)發(fā)數(shù)據(jù)庫所需需的專家人力力成本。SQL不會消亡亡。NoSQQL無法取代代它。因為幾幾乎所有人都都需要關系型型數(shù)據(jù)庫來管管理數(shù)據(jù)。眼下NoSQLL也有其用武武之地。我認認為未來將更更多的是SQQL和NoSSQL的混合合應用。問:為什么人們們還在使用NNoSQL?主要有哪些些原因?因為NoSQLL上手很容易易。你甚至不不需要學習SSQL,使用用前也不需要要定義數(shù)據(jù)庫庫架構。當然然也有一些人人使用NoSSQL是因為為比
32、SQL的的擴展性更好好。問:SQL在性性能上能超過過NoSQLL嗎?SQLL哪些方面由由于NoSQQL?只要數(shù)據(jù)不能載載入內(nèi)存,SSQL通常性性能都超過NNoSQL。同樣的,NoSSQL相比SSQL還存在在很多不足之之處,例如大大多數(shù)NoSSQL方案都都是為單一鍵鍵值訪問(ssinglee key accesss)優(yōu)化的的。對于更復復雜的事情來來說,你必須須編寫專門的的程序,而且且性能與SQQL無法相比比,尤其是那那些需要自動動響應用戶請請求的服務(大大多數(shù)網(wǎng)站提提供的服務)在單機上的性能能表現(xiàn),NooSQL通常常都不是SQQL的對手。在集群環(huán)境境中,當所有有數(shù)據(jù)都載入入內(nèi)存,NooSQL在鍵
33、鍵值查找的速速度上通常會會比SQL快快。大數(shù)據(jù)探討:如如何整理17700億條TTwitteer發(fā)布信息息?截至目前,美國國國會圖書館館所保存的TTwitteer信息數(shù)量量已達到17700億條、存儲文件體體積更到達1133TB由于每一一條信息都已已經(jīng)在這套社社交網(wǎng)絡中分分享及轉載,這這么龐大的數(shù)數(shù)據(jù)改如何整整理?隨著社交網(wǎng)絡蒸蒸蒸日上,美美國國會圖書書館不得不面面對達到1333TB之巨巨的 HYPERLINK t _blank Twittter發(fā)布布信息文件;好在經(jīng)過實實踐,他們已已經(jīng)找到了管管理此類數(shù)據(jù)據(jù)的辦法。截至目前,美國國國會圖書館館所保存的TTwitteer信息數(shù)量量已達到17700億
34、條、存儲文件體體積更到達1133TB由于每一一條信息都已已經(jīng)在這套社社交網(wǎng)絡中分分享及轉載,圖圖書館的技術術團隊需要想想辦法為用戶戶拿出切實可可行的檢索方方案。在現(xiàn)階段的項目目報告中,圖圖書館管理人人員指出目前前市場上提供供的此類 HYPERLINK t _blank 大數(shù)數(shù)據(jù)管理工具具無法解決他他們的實際困困難。很顯顯然,現(xiàn)有技技術還只能滿滿足獎學金信信息等規(guī)?;瘮?shù)據(jù)集的訪訪問需求,而而在創(chuàng)建及發(fā)發(fā)布此類數(shù)據(jù)據(jù)方面則表現(xiàn)現(xiàn)乏力,館館方表示。由于此類任任務的復雜性性及對資源的的極高要求,私私營部門尚無無法拿出具備備合理性價比比的商業(yè)方案案。如果私營企業(yè)都都難以搞定大大數(shù)據(jù)管理工工作,那么預預
35、算拮據(jù)、全全靠政府資金金支持的非營營利性機構包括全球球最大的圖書書館在內(nèi)又該如何解解決這一難題題?要拿出一一套實用、經(jīng)經(jīng)濟、便捷且且有能力處理理1700億億條Twittter信息息的索引系統(tǒng)統(tǒng)無異于癡人人說夢。Twitterr曾簽署一份份協(xié)議,允許許美國國會圖圖書館訪問該該社交媒體網(wǎng)網(wǎng)站中所發(fā)布布的全部更新新信息。館方方官員坦言,他他們必須建立立一套幫助研研究人員訪問問社交平臺數(shù)數(shù)據(jù)的系統(tǒng),因因為隨著網(wǎng)絡絡化交流趨勢勢的不斷普及及,以期刊及及出版物為代代表的傳統(tǒng)溝溝通方式已經(jīng)經(jīng)被逐漸取代代。國會圖書館杰弗弗遜大廈在Twitteer剛剛誕生生的20066年到20110年間,首首批數(shù)據(jù)轉儲儲文件為
36、200TB,其中中囊括了2110億條Twwitterr信息(包括括用戶當前位位置及消息描描述等元數(shù)據(jù)據(jù))。最近,館館方剛剛迎來來第二批轉儲儲數(shù)據(jù)-總總體而言,這這部分副本壓壓縮文件總體體積為1333.2TB。在此之后,圖圖書館將與GGnip公司司展開合作,以以小時為單位位收集全部TTwitteer發(fā)布信息息。20111年2月公布布的統(tǒng)計數(shù)字字顯示,當時時每天經(jīng)由TTwitteer發(fā)布的信信息約為1.4億條;而而到去年100月,這一數(shù)數(shù)字已經(jīng)增長長到約5億條條。研究人員強烈要要求國會圖書書館盡快開放放數(shù)據(jù)訪問功功能-館方方稱已經(jīng)接到到超過四百次次此類請求。該項目由圖圖書館與Twwitterr雙方
37、并行實實施,將為用用戶提供Twwitterr使用的歷史史記錄,能夠夠逐項列出他他們通過賬戶戶發(fā)布過的每每條信息。美國國會圖書館館在大數(shù)據(jù)管管理方面算得得上經(jīng)驗豐富富:根據(jù)工作作人員的說法法,館方自22000年開開始就一直在在為政府網(wǎng)站站進行數(shù)據(jù)歸歸檔整理工作作,數(shù)據(jù)總量量超過3000TB。然而而Twittter的出現(xiàn)現(xiàn)令歸檔工作作陷入僵局,因因為館方實在在找不到合適適的辦法保證證信息易于搜搜索。如果繼繼續(xù)使用館方方長期以來一一直所倚仗的的磁帶存儲方方案,那么僅僅查詢一條22006到22010之間間的Twittter信息息就需要耗費費最多24個個小時-而而這批轉儲數(shù)數(shù)據(jù)還僅占數(shù)數(shù)據(jù)總量的八八分之
38、一。Twittter信息之之所以難于整整理,一方面面是由于數(shù)據(jù)據(jù)量過于龐大大,另一方面面則是因為每每天都會有新新數(shù)據(jù)不斷加加入進來,而而這種增長速速度仍在不斷斷提升,官官方指出。此外,Twwitterr信息的種類類也越來越多多樣。普通TTwiiteer信息、利利用軟件客戶戶端發(fā)出的自自動回復信息息、手動回復復信息、包含含鏈接或者圖圖片的信息等等等,這一切切讓我們無從從下手。尋找解決方案的的道路是曲折折的。國會圖圖書館已經(jīng)開開始考慮分布布式及并行計計算方案,但但這兩類系統(tǒng)統(tǒng)實在太過昂昂貴。要想想真正實現(xiàn)搜搜索時間的顯顯著降低,我我們需要構建建起由數(shù)百乃乃至數(shù)千臺服服務器組成的的龐大基礎設設施。這
39、對于于我們這種毫毫無商業(yè)收益益的機構來說說成本過高、根本不切實實際。那么館方到底該該如何應對?大數(shù)據(jù)專家家們給出了一一系列參考方方案。就國會會圖書館的情情況而言,技技術團隊也許許最好進行分分類處理的方方式,即利用用一款工具處處理 HYPERLINK t _blank 數(shù)據(jù)存儲儲、一款工具具負責檢索工工作、另一款款則用于回應應查詢請求,MMark PPhilliips指出。他既在Baasho擔任任社區(qū)及開發(fā)發(fā)推廣主管,同同時也是開源源數(shù)據(jù)庫工具具Raik的的創(chuàng)始人(該該工具在鍵-值存儲方面面便利而極具具可擴展性)。大數(shù)據(jù)管理工具具已經(jīng)構建起起欣欣向榮的的新興行業(yè),用用戶可以根據(jù)據(jù)不同的使用用需求
40、與預期期成本選擇專專有軟件或者者開源方案。國會圖書館館的技術人員員所面臨的最最大問題在于于,他們該如如何開始整套套系統(tǒng)的創(chuàng)建建和管理工作作。如果館方方希望走開源源的道路,那那么可選的數(shù)數(shù)據(jù)庫創(chuàng)建及及管理工具可可謂百花齊放放-從Haadoop集集群到專門針針對高輸入/輸出讀寫操操作的Greeenpluum數(shù)據(jù)庫可可謂應有盡有有。二者還能能夠與Apaache SSolar一款開源源搜索工具加以整合合。 HYPERLINK t _blank 開源為開發(fā)者者們指明了一一條免費獲取取源代碼的光光明道路,能能夠在商業(yè)硬硬件上構建起起理想中的系系統(tǒng)成品,然然而采用開源源也意味著我我們需要在后后端開發(fā)工作作中
41、投入大量量人力物力。當然,國會會圖書館也完完全可以走更更昂貴但更省省心的專有軟軟件道路,從從甲骨文或者者SAP這些些業(yè)界巨頭那那里直接采購購數(shù)據(jù)庫產(chǎn)品品。不過無論采取哪哪種方式,TTwitteer項目中那那碩大無朋的的數(shù)據(jù)總量仍仍然難以攻克克。不過Phhillipps的態(tài)度給給了我們一定定信心。他指指出,雖然TTwitteer目前的數(shù)數(shù)據(jù)量已經(jīng)達達到133TTB且仍處于于快速增長之之中,但Baasho公司司已經(jīng)接觸過過數(shù)據(jù)量達到到PB級別的的客戶,并且且在自己的平平臺上順利完完成了任務。只要國會圖圖書館能夠追追蹤并總結出出數(shù)據(jù)庫容量量每個月或每每個季度的增增長幅度,并并根據(jù)結果為為數(shù)據(jù)存儲配配
42、備充足的硬硬件資源,那那么Bashho的數(shù)據(jù)庫庫軟件將有能能力解決館方方的難題。那么使用云方案案可不可行呢呢?從理論上上講,國會圖圖書館可以采采用以Amaazon WWeb Seervicees為代表的的公共云資源源保存這些數(shù)數(shù)據(jù),而且隨隨著Twittter信息息總量的不斷斷增長,AWWS會自動處處理必要的硬硬件擴容工作作。然而在BBasho公公司工程師SSeth TThomass看來,這種種方案的長期期性價比值得得商榷。由于于館方顯然打打算永久保存存這些數(shù)據(jù),所所以混合式架架構可能更具具經(jīng)濟效益。也許更好的的辦法是將數(shù)數(shù)據(jù)保存在本本地,然后利利用云服務實實現(xiàn)分析功能能。如此一來來,館方只需需
43、根據(jù)搜索量量為響應請求求所投入的動動態(tài)資源支付付費用即可,而而終端系統(tǒng)也也只需處理與與請求量相對對應的工作負負載。無論如何,國會會圖書館已經(jīng)經(jīng)下決心將這這些Twittter信息息納入檢索體體系。而身為為普通用戶,我我們要注意的的則是-只只要更新Twwitterr,信息就會會被記錄下來來。暢談阿里巴巴的的大數(shù)據(jù)夢2012年111月11日,各各大電商風云云大戰(zhàn),淘寶寶雙十一總交交易金額1991億,訂單單1億零5880萬筆??煽梢钥吹?,從從數(shù)據(jù)中掘金金,已經(jīng)成為為各大互聯(lián)網(wǎng)網(wǎng)公司的共識識。但在這個個即將到來的的大數(shù)據(jù)時代代,這些公司司具體將如何何推進呢?本本文帶你一起起暢談阿里巴巴巴的大數(shù)據(jù)據(jù)夢。“
44、為了迎接即將將到來的大數(shù)數(shù)據(jù)時代,各各大互聯(lián)網(wǎng)公公司都在爭分分奪秒。阿里里巴巴在公布布大數(shù)據(jù)分享享平臺之后的的半年中,也也全面啟動了了攻勢。但即即使是這個行行業(yè)的先行者者,離大數(shù)據(jù)據(jù)時代也還有有不小的距離離。”剛剛過去的20012年,秦秦予有個很大大的遺憾,就就是沒能招聘聘到自己想要要的數(shù)據(jù)科學學家,浪費了了公司給的招招人名額。他他是支付寶用用戶價值創(chuàng)新新中心的負責責人。這個中中心是支付寶寶大數(shù)據(jù)業(yè)務務的核心部門門。阿里巴巴20112年的進人人指標只有2200個,具具體到支付寶寶公司,基本本是只出不進進,只有秦予予所在的部門門得到了難得得的兩個進人人名額。但她她只招到了一一個合適的。事實上,各
45、大互互聯(lián)網(wǎng)公司都都在尋找這樣樣的人。騰訊訊網(wǎng)絡媒體事事業(yè)群總裁劉劉勝義20112年年中就就公開表示:隨著用戶各各類數(shù)據(jù)的累累積,大數(shù)據(jù)據(jù)時代已經(jīng)來來臨。騰訊各各大產(chǎn)品線中中都擁有自己己的數(shù)據(jù)挖掘掘團隊。而騰騰訊最新財報報顯示,QQQ用戶數(shù)接近近8億人,活活躍用戶數(shù)近近2億人。阿里集團20112年7月110日就已宣宣布,設立首首席數(shù)據(jù)官崗崗位(CDOO),負責推推進“數(shù)據(jù)分享平平臺”戰(zhàn)略。同日日,阿里發(fā)布布“聚石塔”平臺,為天天貓、淘寶平平臺上的電商商及電商服務務商等提供數(shù)數(shù)據(jù)云服務。阿里巴巴集團表表示,如何挖挖掘、分析和和運用這些數(shù)數(shù)據(jù),并和全全社會分享,是是這個戰(zhàn)略的的核心所在。阿里巴巴是是
46、年交易額過過萬億元的中中國最大的電電子商務平臺臺,目前有兩兩萬人左右,其其中近千人從從事數(shù)據(jù)業(yè)務務工作??梢钥吹剑瑥臄?shù)數(shù)據(jù)中掘金,已已經(jīng)成為各大大互聯(lián)網(wǎng)公司司的共識。但但在這個即將將到來的大數(shù)數(shù)據(jù)時代,這這些公司具體體將如何推進進呢?“離大數(shù)據(jù)時代代還有不小距距離”秦予要找的并不不是一般的數(shù)數(shù)據(jù)分析師。“國內(nèi)不缺數(shù)據(jù)據(jù)挖掘人才,但但很難找到數(shù)數(shù)據(jù)科學家?!鼻赜鑼δ戏椒街苣┯浾哒f說,秦予的團團隊有7個人人,他們在支支付寶內(nèi)部被被稱為“數(shù)據(jù)科學家家”。一般的數(shù)據(jù)分析析師是根據(jù)支支付寶的各種種數(shù)據(jù)進行分分析,給公司司決策層和各各個業(yè)務部門門提供咨詢支支持。這也是是目前很多公公司都設有的的商業(yè)智能部部
47、的主要職能能。但數(shù)據(jù)科科學家們做的的事情是開發(fā)發(fā)出具體可以以銷售的商用用化的大數(shù)據(jù)據(jù)產(chǎn)品。所謂大數(shù)據(jù),一一般是10000T以上的的數(shù)據(jù),如果果按照一般機機器配置,相相當于4000臺到5000臺電腦。對對這些數(shù)據(jù)信信息的商業(yè)化化開發(fā)就是大大數(shù)據(jù)產(chǎn)業(yè)鏈鏈。大數(shù)據(jù)時代一書中提到到,未來,數(shù)數(shù)據(jù)將會像土土地、石油和和資本一樣,成成為經(jīng)濟運行行中的根本性性資源。數(shù)據(jù)據(jù)科學家被認認為是下一個個十年最熱門門的職業(yè)。而大數(shù)據(jù)跟個人人最為密切的的關系是對隱隱私的可能侵侵入。比如,亞亞馬遜監(jiān)視著著我們的購物物習慣,谷歌歌監(jiān)視著我們們的網(wǎng)頁瀏覽覽習慣,微博博似乎對我們們和我們朋友友的關系無所所不知,QQQ圈子能給你
48、你推薦你不愿愿意再見面的的某個女生的的照片和動態(tài)態(tài)信息。秦予是從美國歸歸國的計算機機模擬博士后后,在摩根大大通和匯豐銀銀行工作過多多年,20110年加入支支付寶公司,負負責支付寶和和淘寶集市的的大數(shù)據(jù)業(yè)務務。支付寶公公司擁有中國國僅次于銀行行業(yè)的個人數(shù)數(shù)據(jù)信息?!鞍⒗锇桶陀泻:A康臄?shù)據(jù),對對于做大數(shù)據(jù)據(jù)的人來說,阿阿里巴巴是中中國最好的平平臺,很吸引引人。因為我我的金融背景景所以選擇支支付寶?!鼻赜鑼δ戏椒街苣┯浾哒f說?;貒M入大數(shù)據(jù)據(jù)行業(yè)之后,秦秦予參加了很很多大數(shù)據(jù)的的論壇和研討討會,她最大大的體會是,看看到的新東西西很少?!皠e說大數(shù)據(jù),連連小數(shù)據(jù)都很很少。現(xiàn)在很很多公司說的的大數(shù)據(jù),大大
49、都是數(shù)據(jù)的的搜集和整理理。這是底層層的工作?!鼻赜枵f,“中國離大數(shù)數(shù)據(jù)時代還有有不小距離。”即使是作為國內(nèi)內(nèi)大數(shù)據(jù)業(yè)務務的先行者阿阿里巴巴,其其大數(shù)據(jù)業(yè)務務發(fā)展也依然然是分散在各各個子公司,并并在20122年下半年才才開始推出少少量的商用產(chǎn)產(chǎn)品。 “從人出發(fā),先先去找人”支付寶曾經(jīng)在八八年前公司成成立第二天就就建立了數(shù)據(jù)據(jù)部門,但真真正有大數(shù)據(jù)據(jù)業(yè)務,是在在2010年年的事情。正正是那時候,支支付寶從招商商銀行信用卡卡中心招來一一批專業(yè)的金金融人才。秦秦予也是那時時候加入支付付寶的。“金融行業(yè)的大大數(shù)據(jù)業(yè)務已已經(jīng)很成熟了了。”秦予說。支付寶的數(shù)據(jù)科科學家每天做做的工作就是是,把客戶分分成50個
50、族族群進行研究究。比如,細細分出都市輕輕熟男群體,這這個群體的特特征是每次買買的不貴,均均價七八十元元,收入中等等,但很喜歡歡在網(wǎng)上買東東西。還有一個族群被被稱作“千金美少女女”,其特征是是收入并不高高,但家里有有錢,買得多多,買得貴。按照分群研究的的思路,秦予予的團隊把淘淘寶、天貓、支付寶和聚聚劃算的用戶戶做系統(tǒng)研究究,通過觀察察他們喜歡看看什么媒體,上上什么網(wǎng),來來“生動地”知道用戶是是個怎樣的人人,進而推薦薦商品供用戶戶購買。能識別用戶之后后,在寫商品品推薦文字的的時候,不再再是過去那樣樣千篇一律地地使用“親”作為開頭?!敖裉旌芏嗑W(wǎng)站站犯的錯誤就就是,根據(jù)個個人購買記錄錄,推薦一個個類似
51、的產(chǎn)品品。其實用戶戶很可能買過過了。用戶要要的是你給他他推薦一個跟跟他相似的人人買的東西。”秦予對南方方周末記者說說,以前的數(shù)數(shù)據(jù)研究思路路是從產(chǎn)品出出發(fā),大數(shù)據(jù)據(jù)時代是從人人出發(fā),先去去找人。支付寶發(fā)展大數(shù)數(shù)據(jù)業(yè)務,目目前主要是為為內(nèi)部服務。比如,過去去支付寶很重重視新客戶的的獲取,但后后來發(fā)現(xiàn)開賬賬戶的人多,關關賬戶的人也也不少,通過過數(shù)據(jù)分析,支支付寶建立了了一個流失預預警模型,預預測每一個人人未來三個月月是否會離開開支付寶,并并對潛在的流流失用戶做一一些喚醒?!爸Ц秾毷菧式鸾鹑谛袠I(yè),數(shù)數(shù)據(jù)比較敏感感,涉及用戶戶隱私,還沒沒有到開放的的階段。”秦予對南方方周末記者說說,支付寶非非常忌諱提
52、供供商用化產(chǎn)品品給商戶,很很多合作方惦惦記著的是支支付寶的數(shù)據(jù)據(jù),但這是支支付寶的高壓壓線。“支付寶發(fā)展大大數(shù)據(jù)的目的的,跟淘寶和和天貓有點偏偏差。我們更更多地是為內(nèi)內(nèi)部服務,淘淘寶和天貓更更多地強調(diào)商商業(yè)化。”秦予對南方方周末記者說說,阿里巴巴巴集團的大數(shù)數(shù)據(jù)業(yè)務商用用主要是淘寶寶平臺的幾個個公司在推進進。 “數(shù)據(jù)分享平臺臺”戰(zhàn)略淘寶平臺的數(shù)據(jù)據(jù)大概可以分分成三塊,一一是離線的數(shù)數(shù)據(jù),比如什什么地方的人人最愛吃大閘閘蟹。另外一一些在線數(shù)據(jù)據(jù),主要是圖圖片,淘寶一一些大的賣家家都把圖片存存在淘寶里面面。還有一些些信息是用戶戶的淘寶收藏藏夾。2010年3月月,淘寶宣布布將面向全球球首度開放數(shù)數(shù)據(jù)
53、,并制定定了兩條大原原則:數(shù)據(jù)分分層次開放;涉及消費者者個人或者企企業(yè)隱私的數(shù)數(shù)據(jù)絕對保護護。淘寶的數(shù)據(jù)開放放一是對公眾眾的免費信息息,比如推出出類似于宏觀觀經(jīng)濟數(shù)據(jù)的的“淘寶指數(shù)”。商家可以以根據(jù)以往的的銷售信息和和“淘寶指數(shù)”進行生產(chǎn)、庫存決策。對于大眾來來說,淘寶的的數(shù)據(jù)發(fā)布就就像是統(tǒng)計局局和價格監(jiān)測測機構的功能能,淘寶指數(shù)數(shù)相當于行業(yè)業(yè)和宏觀經(jīng)濟濟的各項指標標。作為針對企業(yè)的的數(shù)據(jù)開放的的商用產(chǎn)品,淘淘寶推出了數(shù)數(shù)據(jù)魔方產(chǎn)品品,通過淘寶寶數(shù)據(jù)魔方平平臺,商家可可以直接通過過數(shù)據(jù)魔方產(chǎn)產(chǎn)品獲取行業(yè)業(yè)宏觀情況、自己品牌的的市場狀況、消費者行為為情況等,但但是不能獲得得競爭對手的的數(shù)據(jù)。20
54、11年4月月,數(shù)據(jù)魔方方正式上線。在“店小二”的推廣下,林林氏木業(yè)成為為第一批使用用者。林氏木木業(yè)是一家完完全依靠互聯(lián)聯(lián)網(wǎng)平臺銷售售家具的電商商公司。該公司一位市場場推廣人員對對南方周末記記者介紹了數(shù)數(shù)據(jù)魔方的具具體運用過程程:依據(jù)數(shù)據(jù)據(jù)魔方關于熱熱詞的各項數(shù)數(shù)據(jù)變化,及及時調(diào)整優(yōu)化化商品標題,提提高寶貝排名名,進而獲取取更多流量,提提高銷量。以銷售面膜為主主的素野天貓貓旗艦店的運運營經(jīng)理陳林林告訴南方周周末記者,素素野選擇數(shù)據(jù)據(jù)魔方專業(yè)版版本,支付33600元/年的費用,除除魔方外,還還可以使用量量子恒道(淘淘寶官方推出出的一款免費費數(shù)據(jù)分析工工具)?!皵?shù)據(jù)魔方帶來來的更多是虛虛的概念,對對
55、流量、銷售售額這種具體體指標意義不不大?!标惲终f。2011年6月月,淘寶一分分為三,變成成天貓、淘寶寶集市和一淘淘網(wǎng)。這之后后,淘寶系的的 HYPERLINK t _blank 大數(shù)據(jù)發(fā)展的的主要任務放放到了商家已已經(jīng)形成了付付費習慣的天天貓平臺。目目前天貓的主主打大數(shù)據(jù)商商用產(chǎn)品是聚聚石塔。2012年7月月,阿里巴巴巴集團的“聚石塔”正式發(fā)布,“數(shù)據(jù)分享平平臺”戰(zhàn)略全面展展開。聚石塔塔是阿里巴巴巴首次聯(lián)合全全集團大數(shù)據(jù)據(jù)力量打造的的一款大數(shù)據(jù)據(jù)商用產(chǎn)品。其中,天貓貓及淘寶網(wǎng)主主要負責尋找找合作伙伴,發(fā)發(fā)展商家,阿阿里云負責提提供云主機,萬萬網(wǎng)負責客戶戶服務。同時,阿里巴巴巴B2B公司司CEO
56、陸兆兆禧出任集團團首席數(shù)據(jù)官官崗位,向CCEO馬云直直接匯報。馬馬云在聚石塔塔發(fā)布的時候候宣布了阿里里集團未來新新戰(zhàn)略:平臺臺、金融、數(shù)數(shù)據(jù)。聚石塔提供數(shù)據(jù)據(jù)存儲、數(shù)據(jù)據(jù)計算兩類服服務。根據(jù)官官網(wǎng)上的指導導價格,若需需要內(nèi)存為11200M、50G容量量的數(shù)據(jù)存儲儲服務,優(yōu)惠惠價為60990元/年;如果購買英英特爾雙核處處理器、內(nèi)存存4G、硬盤盤500G、帶寬5M的的彈性托管服服務,價格約約在77000元/年。廣州衣酷服飾有有限公司的運運營總監(jiān)敬小小虎對南方周周末記者表示示,他們公司司是20122年9月開始始使用聚石塔塔服務的,正正好趕上 HYPERLINK t _blank “雙十一”大促銷,
57、兩天天之內(nèi)發(fā)完了了所有的貨,總總共3萬多票票。他負責該該公司在天貓貓上的店鋪皓皓盾天貓旗艦艦店的運營。“沒有這個軟件件,半個月都都發(fā)不完這些些貨。”敬小虎對南南方周末記者者說,如果按按照20111年沒有加入入聚石塔時候候的“ HYPERLINK 雙十一 雙十一”銷售情況,光光把訂單人工工下載下來就就花費了三五五天時間。而而且還出現(xiàn)過過很多漏單和和重復下載問問題。不過,敬小虎表表示,如果店店鋪一天的銷銷量能做到5500票以上上,購買聚石石塔服務比較較劃算,否則則軟件買下來來除了應對“雙十一”這樣的大促促銷,基本就就閑置著。 平臺后的產(chǎn)業(yè)鏈鏈阿里巴巴公布的的信息顯示,自自2012年年7月10日日聚
58、石塔發(fā)布布以來,已有有十多萬的商商家入駐。聚聚石塔的訂單單覆蓋率,110月中旬的的數(shù)字是200%。2012年“雙雙十一”購物狂歡節(jié)節(jié),是對天貓貓大數(shù)據(jù)發(fā)展展的一次檢驗驗。據(jù)天貓官官方數(shù)據(jù)顯示示,狂歡節(jié)大大促當天,聚聚石塔內(nèi)系統(tǒng)統(tǒng)處理的訂單單超過天貓總總量的20%,比平時增增長20倍。又一城公司是首首批進入聚石石塔服務器項項目的軟件IIT企業(yè)。又又一城公司的的銷售人員賴賴活龍對南方方周末記者表表示,有 HYPERLINK 系統(tǒng) ERRP系統(tǒng)的商商家可以直接接找天貓,沒沒有ERP系系統(tǒng)的商家,只只能找像又一一城這樣跟天天貓有合作的的軟件商,讓讓軟件商幫忙忙接入聚石塔塔服務。又一城和阿里巴巴巴的合作
59、模模式是,又一一城基于聚石石塔開發(fā)的軟軟件,對接淘淘寶和天貓等等阿里系公司司的后臺系統(tǒng)統(tǒng),包括訂單單信息、商品品信息、會員員信息、財務務信息、物流流信息和庫存存信息。賴活龍對南方周周末記者透露露,最近半年年,他的重點點一直是推銷銷聚石塔產(chǎn)品品,一開始很很多商家聽到到是推銷軟件件產(chǎn)品的電話話就會按掉電電話,現(xiàn)在的的情況好多了了,不少商家家主動打電話話來了解情況況。“這跟天貓的宣宣傳很有關系系,另外就是是雙十一檢驗驗了產(chǎn)品的價價值?!辟嚮铨堈f。賴活龍也承認,商商家加入聚石石塔之后,最最直觀的改變變是訂單處理理的效率提高高了,以前從從淘寶平臺下下載訂單,一一分鐘能下載載200單,現(xiàn)現(xiàn)在至少20000
60、單。但但銷售額并沒沒有太大改變變。越來越多的商家家被迫參與到到大數(shù)據(jù)產(chǎn)品品的購買中來來。因為促銷活動越越來越多,參參加的話,IIT系統(tǒng)往往往跟不上,造造成錯單配送送等問題,中中差評接踵而而至,動態(tài)評評分直線下降降,銷量跟著著下降,所以以只能是購買買聚石塔服務務。不參加的的話,沒有流流量,沒有銷銷售額。“如果商家不跟跟著淘寶走,就就會受到冷落落,你進來了了,碰到雙十十一這樣的活活動,天貓會會看你是否加加入了聚石塔塔,如果沒有有加入,你報報名的資質(zhì)能能否通過是個個大問題?!辟嚮铨堈f。Twitterr利用Stoorm系統(tǒng)處處理實時大數(shù)數(shù)據(jù)Storm 是是一個開源的的、大數(shù)據(jù)處處理系統(tǒng),與與其他系統(tǒng)不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年前列腺射頻治療儀系統(tǒng)行業(yè)深度研究分析報告
- 2025年船用裝飾材料項目投資可行性研究分析報告-20241226-205913
- 以租代買房合同范本
- 個人銷售欠款合同范本
- 關于公司承包合同范本
- 2025年度道路劃線施工與交通信號優(yōu)化合同范本
- 一汽解放車銷售合同范本
- 代理電商合同范本
- 代建房合同范本
- 新目標(goforit)版初中英語九年級(全一冊)全冊教案-unit
- 《如何做一名好教師》課件
- 2016-2023年婁底職業(yè)技術學院高職單招(英語/數(shù)學/語文)筆試歷年參考題庫含答案解析
- 貴陽市2024年高三年級適應性考試(一)一模英語試卷(含答案)
- 地理標志專題通用課件
- 魚類和淡水生態(tài)系統(tǒng)
- 全國大學高考百科匯編之《哈爾濱工業(yè)大學》簡介
- 學校安全教育教你如何遠離危險
- 【人教版】九年級化學上冊全冊單元測試卷【1-7單元合集】
- 中國傳統(tǒng)文化課件6八卦五行
- 《胃癌課件:病理和分子機制解析》
評論
0/150
提交評論