




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、PB級大數(shù)據(jù)存儲技術(shù)與分析技術(shù)解析2013年12月2日目錄 TOC o 1-3 h z u HYPERLINK l _Toc373767696 一、PB級大數(shù)據(jù)存儲技術(shù)解析 PAGEREF _Toc373767696 h 2 HYPERLINK l _Toc373767697 二、大數(shù)據(jù)分析系統(tǒng)應(yīng)規(guī)避的問題 PAGEREF _Toc373767697 h 5 HYPERLINK l _Toc373767698 三、剖析Hadoop和大數(shù)據(jù)的七誤解 PAGEREF _Toc373767698 h 8 HYPERLINK l _Toc373767699 四、6個優(yōu)秀的開源文件系統(tǒng)助力大數(shù)據(jù)分析 P
2、AGEREF _Toc373767699 h 13 HYPERLINK l _Toc373767700 五、大數(shù)據(jù)與關(guān)系型數(shù)據(jù)庫是否水火不容?NO PAGEREF _Toc373767700 h 17 HYPERLINK l _Toc373767701 六、大數(shù)據(jù)探討:如何整理1700億條Twitter發(fā)布信息? PAGEREF _Toc373767701 h 21 HYPERLINK l _Toc373767702 七、暢談阿里巴巴的大數(shù)據(jù)夢 PAGEREF _Toc373767702 h 26 HYPERLINK l _Toc373767703 八、Twitter利用Storm系統(tǒng)處理實時
3、大數(shù)據(jù) PAGEREF _Toc373767703 h 35PB級大數(shù)據(jù)存儲技術(shù)解析對于存儲管理人員來說,大數(shù)據(jù)應(yīng)該分為大數(shù)據(jù)存儲和大數(shù)據(jù)分析,這兩者的關(guān)系是大數(shù)據(jù)存儲是用于大數(shù)據(jù)分析的。然而,到目前為止這是兩種截然不同的計算機技術(shù)領(lǐng)域。本文就重點解析一下PB級大數(shù)據(jù)存儲技術(shù),希望對您有所幫助。越來越多的存儲產(chǎn)品都在融入大數(shù)據(jù)的概念和功能,并使之成為產(chǎn)品的一大賣點。但對于從事存儲管理的專業(yè)人員來說,對“大數(shù)據(jù)”在具體應(yīng)用場景中的特點和區(qū)別有所了解。大數(shù)據(jù)存儲致力于研發(fā)可以擴展至PB甚至EB級別的數(shù)據(jù)存儲平臺;大數(shù)據(jù)分析關(guān)注在最短時間內(nèi)處理大量不同類型的數(shù)據(jù)集。在快速變化的技術(shù)趨勢中有兩個特點需
4、要存儲管理人員重視起來。第一,大數(shù)據(jù)分析流程和傳統(tǒng)的數(shù)據(jù)倉庫的方式完全不同,其已經(jīng)變成了業(yè)務(wù)部門級別和數(shù)據(jù)中心級別的關(guān)鍵應(yīng)用。這也是存儲管理員的切入點。隨著基礎(chǔ)平臺(分布式計算或其它架構(gòu))變得業(yè)務(wù)關(guān)鍵化,用戶群較以往更加地依賴這一平臺,這也使得其成為企業(yè)安全性、數(shù)據(jù)保護和數(shù)據(jù)管理策略的關(guān)鍵課題。第二,通常用于數(shù)據(jù)分析平臺的分布式計算平臺內(nèi)的存儲不是你以往面對的網(wǎng)絡(luò)附加存儲(NAS)和存儲區(qū)域網(wǎng)絡(luò)(SAN)其通常是內(nèi)置的直連存儲(NAS)以及組成集群的分布式計算節(jié)點。這使得管理大數(shù)據(jù)變得更為復雜,因為你無法像以前那樣對這些數(shù)據(jù)部署安全、保護和保存流程。然而,執(zhí)行這些流程策略的必要性被集成在管理分
5、布式計算集群之中,并且改變了計算和存儲層交互的方式。大數(shù)據(jù)分析和傳統(tǒng)的數(shù)據(jù)倉庫的不同大數(shù)據(jù)分析中包含了各種快速成長中的技術(shù)。因此,簡單用某一種技術(shù)嘗試對其定義,比如分布式計算,會比較困難。不過,這些定義大數(shù)據(jù)分析的通用性技術(shù)可以用如下特征闡述:對于傳統(tǒng)數(shù)據(jù)倉庫處理流程效率和擴展性方面限制的感知。將數(shù)據(jù),不論是結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù)從多個數(shù)據(jù)源匯聚的能力。以及認識到數(shù)據(jù)的及時性是擴展非結(jié)構(gòu)化數(shù)據(jù)源的關(guān)鍵,其中包括移動設(shè)備,RFID,網(wǎng)絡(luò)和不斷增長的自動化感知技術(shù)。傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)通常從現(xiàn)有的關(guān)系型數(shù)據(jù)庫中抓取數(shù)據(jù)。然而,據(jù)估計超過80%的企業(yè)數(shù)據(jù)是非結(jié)構(gòu)化的,即無法關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDB
6、MS),比如DB2和Oracle完成的數(shù)據(jù)。一般而言,處于此次討論的目的,非結(jié)構(gòu)化數(shù)據(jù)可以看成所有無法簡單轉(zhuǎn)化到結(jié)構(gòu)化關(guān)系型數(shù)據(jù)庫中的所有數(shù)據(jù)。而企業(yè)現(xiàn)在希望從這些非結(jié)構(gòu)化數(shù)據(jù)類型中抽取有價值的信息,包括:郵件和其它形式的電子通訊記錄網(wǎng)站上的資料,包括點擊量和社交媒體相關(guān)的內(nèi)容數(shù)字視頻和音頻設(shè)備產(chǎn)生的數(shù)據(jù)(RFID,GPS,傳感器產(chǎn)生的數(shù)據(jù),日志文件等)以及物聯(lián)網(wǎng)在大數(shù)據(jù)分析的情況下,查看遠多于RDBMS的數(shù)據(jù)類型十分必要這代表了各種重要的新信息源。并且隨著每年非結(jié)構(gòu)化數(shù)據(jù)存儲總量較結(jié)構(gòu)化數(shù)據(jù)增長率高出10到50倍,從業(yè)務(wù)角度看這些數(shù)據(jù)也變得更為重要。更重要的數(shù)據(jù)需要更專業(yè)的人員進行分析。但傳
7、統(tǒng)的數(shù)據(jù)倉庫技術(shù)對海量非結(jié)構(gòu)化數(shù)據(jù)的處理根本無法滿足大數(shù)據(jù)的需求。所以,存儲管理人員也應(yīng)該更快的跟隨技術(shù)潮流,更新自己的技術(shù)和知識結(jié)構(gòu),提高自己對大數(shù)據(jù)的管理和分析能力。大數(shù)據(jù)分析系統(tǒng)應(yīng)規(guī)避的問題隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身是資產(chǎn),這一點在業(yè)界已經(jīng)形成共識。越來越多的企業(yè)涉足到大數(shù)據(jù),但是大數(shù)據(jù)沒有想象中的那么簡單,所有大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等反映了數(shù)據(jù)庫不斷增長的復雜性。本文從安裝、搭建等方面展示了大數(shù)據(jù)分析系統(tǒng)的應(yīng)該規(guī)避的系列問題。大數(shù)據(jù)分析前期要做的事其實,每一個數(shù)據(jù)都有一個ETL,就是抽取、轉(zhuǎn)化,然后去加載,包括做數(shù)據(jù)的清洗。如果數(shù)據(jù)大批量進來的話,有些數(shù)據(jù)可能是有
8、問題的,馬先生舉了個例子:比如說,好多地址會寫得比較模糊,如果要搜索北京這個詞的時候,數(shù)據(jù)倉庫里可能只有一個京字,這些都要統(tǒng)一整理成一個,比如說北京,這樣后面分析就會簡單,比如山東,有人會輸入“魯”字來進行搜索,而不是山東,這就需要在大數(shù)據(jù)分析前期做好數(shù)據(jù)清理工作,做規(guī)范化,這樣后面的數(shù)據(jù)分析起來就方便很多。搭建大數(shù)據(jù)分析系統(tǒng)的注意事項在搭建大數(shù)據(jù)分析系統(tǒng)時,有哪些需要注意的事項?馬老師提到:首先要弄明白你所在企業(yè)需要什么樣的數(shù)據(jù),或者你想得到什么價值,想明白了再去做。因為做數(shù)據(jù)不像做別的東西,一定明確知道要知道你要干什么,不然這個系統(tǒng)搭的時候會有很多困難,不知道該怎么搭,不知道用什么技術(shù),也
9、不知道數(shù)據(jù)進去是否在浪費。而目前的情況是:很多企業(yè)可能會先把架構(gòu)搭出來,實際上這數(shù)據(jù)每天在算,但是不知道這數(shù)據(jù)帶來什么價值,所以更多是一個業(yè)務(wù)驅(qū)動的。再舉個例子:比如說中國移動就想挖一挖,到底是哪一個用戶老欠費,哪一個用戶用得多,用的多的就給他優(yōu)惠多一點如果他有這個需求,你再把這個需求下轉(zhuǎn)給下面的人,按照這個需求去開發(fā);其次,需要選擇適當?shù)募夹g(shù)。比如說你一臺機器夠用的,不要用兩臺機器,能夠進來報表就不要用交互報表,因為那個都是有技術(shù)成本的,并且上線的速度會慢很多。所以建議任何一個企業(yè)在搭建數(shù)據(jù)分析以前,要特別清晰地知道其搭建的需求和目的,選擇什么方案,搭它來解決什么問題,針對需求你去做一個數(shù)據(jù)
10、分析;再次,在沒有時時性要求時,你不要自作主張,向老大提這個。因為大公司的批量已經(jīng)做得非常完美了,可能批量已經(jīng)帶來35%的收入增加了,他要再做時時,再增加5%,而你現(xiàn)在什么都沒有。如果說先要做時時,或者先要全部搞出來的話,可能要先一步一部把35%做好,把那個批量先做出來,然后再做時時,這樣效果會更好。不要濫搭大數(shù)據(jù)分析系統(tǒng)技術(shù)這個東西都是相通的,沒有一項改進都是說完全是重新造出來的,都是在改的,但是它帶來的價值不一樣,它帶來的人的思考,就跟人從零售店買東西和網(wǎng)商這種不一樣,但是技術(shù),零售店也會用一些數(shù)據(jù)庫,網(wǎng)上也可能用,要在這個上面做一些轉(zhuǎn)變。馬老師談到,好多國企(這里就不點名),就是為了上項
11、目去上項目,稱自己有海量數(shù)據(jù)。當問他需要搭建的大數(shù)據(jù)系統(tǒng)是用來干什么,他們的答案很出乎意料:先給搭起來,先存起來,需要的時候再用,就這種思想。其實這個是沒有必要的??偨Y(jié)雖然大數(shù)據(jù)現(xiàn)在炙手可熱,大數(shù)據(jù)分析越來越火爆,很多企業(yè)都在試圖擁抱大數(shù)據(jù)技術(shù)。但還是應(yīng)該具體問題具體分析,因為大數(shù)據(jù)分析系統(tǒng)并非適合所有的企業(yè),一些小型規(guī)模的企業(yè)在舊系統(tǒng)能滿足需求的時候,就不要盲目地去追隨潮流,舍棄舊的系統(tǒng)重新搭建,也可能解決了這個小缺口,但是可能會滋生其它更大的問題,這就得不償失了。剖析Hadoop和大數(shù)據(jù)的七誤解如今,Hadoop成為解決大數(shù)據(jù)需求的主要投資領(lǐng)域之一,而類似Facebook等互聯(lián)網(wǎng)巨頭在都公
12、開的吹捧Hadoop上取得的成功,同樣初入大數(shù)據(jù)領(lǐng)域的公司也必先著眼于Hadoop。但對于Hadoop技術(shù)而言,是一個多維的解決方案,可以通過不同的方式進行部署和使用。下面就了解一些關(guān)于Hadoop和大數(shù)據(jù)的七大錯誤理念。對于Hadoop技術(shù)而言,可以說是開源領(lǐng)域的傳奇,然而如今業(yè)界還伴隨著一些流言,這些流言可能會導致IT高管們帶著“有色”的觀點去制定策略。如今,數(shù)據(jù)量在以驚人的速度增長,從IDC分析師報告中2013年數(shù)據(jù)存儲上的增長速度將達到53.4%,AT&T更是聲稱無線數(shù)據(jù)的流量在過去的5年內(nèi)增長200倍,從互聯(lián)網(wǎng)內(nèi)容、電子郵件、應(yīng)用通知、社交消息以及每天接收的消息都在顯著的增長,這也是
13、眾多大企業(yè)都聚焦大數(shù)據(jù)的原因所在。毫無疑問,Hadoop成為解決大數(shù)據(jù)需求的主要投資領(lǐng)域之一,而類似Facebook等互聯(lián)網(wǎng)巨頭在都公開的吹捧Hadoop上取得的成功,同樣初入大數(shù)據(jù)領(lǐng)域的公司也必先著眼于Hadoop。但對于Hadoop技術(shù)而言,是一個多維的解決方案,可以通過不同的方式進行部署和使用。下面就了解一些關(guān)于Hadoop和大數(shù)據(jù)的七大錯誤理念:大數(shù)據(jù)僅僅是容量對大數(shù)據(jù)來說,除了指體積之外,還經(jīng)常提到Variety(多樣)、Variability(可變)、Velocity(速度)和Value(價值)。關(guān)鍵點在于大數(shù)據(jù)并不是體積上的增長,更多是未來的實時分析、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的發(fā)展,
14、并被企業(yè)CIO用于更好的決策。綜上所述,并不是只有分析大數(shù)據(jù)才會獲得價值。舉個例子,存儲和分析1PB的超時限數(shù)據(jù)的價值可能比不上實時分析1GB的數(shù)據(jù),而從“新鮮”的數(shù)據(jù)上獲得價值比解剖過時的數(shù)據(jù)更具價值。傳統(tǒng)SQL不能在Hadoop上使用眾多廠商在Hadoop上投入精力,布局市場戰(zhàn)略時,十分清楚HDFS和MapReduce受限于處理類似SQL語言的能力,這也是Hive、Pig和Sqoop最終得以推廣的原因。更多企業(yè)通過Hadoop和SQL兼容來管理大量的數(shù)據(jù),Pivotal HD是結(jié)合SQL并行處理資料庫與Hadoop 2.0,針對企業(yè)資料分析需求而優(yōu)化的Hadoop強化版本。Hadoop是唯
15、一的新IT數(shù)據(jù)平臺談到數(shù)據(jù)平臺,大型機在IT投資組合里有是一個長期投資,與ERP、CRM和SCM這些系統(tǒng)一樣演變至今。而面對大數(shù)據(jù)時代,大型機不想被架構(gòu)遺棄,必須展示在現(xiàn)有IT投資環(huán)境中的價值,而許多客戶遇到速度、規(guī)模和成本的問題,通過vFabric SQLFire這樣的內(nèi)存大數(shù)據(jù)網(wǎng)絡(luò)去解決高速數(shù)據(jù)存取,促進大型機批處理或?qū)崟r分析報告這些問題。虛擬化會導致性能下降Hadoop最初的設(shè)計只是運行實體服務(wù)器上,然而隨著云計算發(fā)展,許多企業(yè)都希望能作為云數(shù)據(jù)中心提供服務(wù)。之所以虛擬化Hadoop,企業(yè)首先要考慮管理基礎(chǔ)設(shè)施的擴展性,認識到擴展計算資源,比如虛擬Hadoop節(jié)點在數(shù)據(jù)和計算分開時會對性
16、能有所幫助,否則如果你關(guān)閉某個Hadoop節(jié)點將丟失上面的所有數(shù)據(jù)或者添加一個沒有數(shù)據(jù)的空節(jié)點。Hadoop只可以在數(shù)據(jù)中心運行對于在SaaS云服務(wù)解決方案,許多云服務(wù)允許云端運行Hadoop、SQL,這無疑可以幫助企業(yè)省下數(shù)據(jù)中心建造投資的時間和金錢。特別是對于公有云情況下,Java開發(fā)者可以從Spring Data for Hadoop以及一些其它的GitHub用例中獲益。大數(shù)據(jù)復雜性Hadoop對虛擬化無經(jīng)濟價值Hadoop被很多人認為,盡管在商用服務(wù)器上運行,添加一個虛擬層在帶來額外支出的同時并不會有額外的價值收益,但其實這個說法并沒有考慮到數(shù)據(jù)和數(shù)據(jù)分析事實上都是動態(tài)的。虛擬化基礎(chǔ)設(shè)
17、施同樣可以減少物理硬件數(shù)量,讓CAPEX(資本支出)直接等于商用硬件成本,而通過自動以及高效利用共享基礎(chǔ)設(shè)施同樣可以減少OPEX(運營成本)。Hadoop不能運行在SAN或NAS上盡管Hadoop在本地磁盤上運行,對于中小型集群一樣可以在一個共享的SAN環(huán)境下體現(xiàn)良好的性能表現(xiàn),而高帶寬比如10GB以太網(wǎng)、PoE以及iSCSI對性能同樣有很好的支持。由此,大數(shù)據(jù)成為行業(yè)追逐的熱點,以上七大有關(guān)大數(shù)據(jù)“誤解”問題的客觀看待。如同不同項目需求不同,Hadoop是一個工具來幫助企業(yè)更好的應(yīng)對大數(shù)據(jù)問題。無論是面對數(shù)據(jù)網(wǎng)格的GemFire或SQLFire,還是面向消息的RabbitMQ中間件,一個完整
18、的SaaS解決方案如今比在Hadoop環(huán)境更容易實現(xiàn)。6個優(yōu)秀的開源文件系統(tǒng)助力大數(shù)據(jù)分析“大數(shù)據(jù)”作為時下最火熱的IT行業(yè)的詞匯,個人、企業(yè)和政府機構(gòu)之間的互動創(chuàng)造了數(shù)據(jù)的海洋,我們51CTO傳媒在4月26日-27日也將舉行2013大數(shù)據(jù)全球技術(shù)峰會,分享大數(shù)據(jù)技術(shù)趨勢和最佳實踐,是一場重新認識數(shù)據(jù)價值的技術(shù)盛宴。大數(shù)據(jù)需要大量的儲存空間,本文分享了6個優(yōu)秀的開源文件系統(tǒng),助力大數(shù)據(jù)深入分析。大數(shù)據(jù)在今天吸引了大量關(guān)注,個人、企業(yè)和政府機構(gòu)之間的互動創(chuàng)造了數(shù)據(jù)的海洋,通過有效識別、訪問、篩選和分析其中部分數(shù)據(jù)能帶來新的見解和益處。大數(shù)據(jù)需要大量的儲存空間,先進的存儲基礎(chǔ)設(shè)施必不可少,需要能在
19、多臺服務(wù)器上伸縮自如的存儲解決方案。有許多優(yōu)秀的開源文件系統(tǒng)能用于深入分析大數(shù)據(jù),其中包括:QFSQuantcast File System (QFS) 是一個高性能、容錯、分布式的文件系統(tǒng),其開發(fā)是用于支持 MapReduce 處理或者需要順序讀寫大文件的應(yīng)用。HDFSHadoop Distributed File System,簡稱HDFS,是一個分布式文件系統(tǒng)。HDFS有著高容錯性(fault-tolerent)的特點,并且設(shè)計用來部署在低廉的(low- cost)硬件上。而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large dat
20、a set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以實現(xiàn)流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。HDFS開始是為開源的apache項目nutch的基礎(chǔ)結(jié)構(gòu)而創(chuàng)建,HDFS是hadoop項目的一部分,而 hadoop又是lucene的一部分。CephCeph是加州大學Santa Cruz分校的Sage Weil(DreamHost的聯(lián)合創(chuàng)始人)專為博士論文設(shè)計的新一代自由軟件分布式文件系統(tǒng)。自2007年畢業(yè)之后,Sage開始全職投入到Ceph開 發(fā)之中,使其能適用于生產(chǎn)環(huán)境。Ceph的主要目標是設(shè)計成基于POSIX的沒
21、有單點故障的分布式文件系統(tǒng),使數(shù)據(jù)能容錯和無縫的復制。2010年3 月,Linus Torvalds將Ceph client合并到內(nèi) 核2.6.34中。IBM開發(fā)者園地的一篇文章探討了Ceph的架構(gòu),它的容錯實現(xiàn)和簡化海量數(shù)據(jù)管理的功能。LustreLustre是一個大規(guī)模的、安全可靠的,具備高可用性的集群文件系統(tǒng),它是由SUN公司開發(fā)和維護的。該項目主要的目的就是開發(fā)下一代的集群文件系統(tǒng),可以支持超過10000個節(jié)點,數(shù)以PB的數(shù)據(jù)量存儲系統(tǒng)。GlusterFSGlusterFS 是一個集群的文件系統(tǒng),支持 PB 級的數(shù)據(jù)量。GlusterFS 通過 RDMA 和 TCP/IP 方式將分布到
22、不同服務(wù)器上的存儲空間匯集成一個大的網(wǎng)絡(luò)并行文件系統(tǒng)。PVFSPVFS 是一個高性能、開源的并行文件系統(tǒng),主要用于并行計算環(huán)境中的應(yīng)用。特別為超大數(shù)量的客戶端和服務(wù)器端設(shè)計。模塊化結(jié)構(gòu)設(shè)計,可輕松的添加新的硬件和算法支持。PVFS 側(cè)重高性能訪問大數(shù)據(jù)集,包含一個服務(wù)器進程和客戶端開發(fā)庫,完全基于用戶級代碼編寫。特征:基于對象的設(shè)計思路 Optimized for regular strided access 獨立數(shù)據(jù)和元數(shù)據(jù)的存儲 優(yōu)化的 MPI-IO 支持 多種網(wǎng)絡(luò)支持 無狀態(tài)的服務(wù)器 用戶級的實現(xiàn)方案 系統(tǒng)級接口 可在很多 Linux 版本上構(gòu)建 支持多數(shù)平臺,包括 IA32, IA64
23、, Opteron, PowerPC, Alpha, and MIPS 大數(shù)據(jù)與關(guān)系型數(shù)據(jù)庫是否水火不容?NO在大多數(shù)IT觀察家的眼里,大數(shù)據(jù)通常是指那些規(guī)模大到難以用傳統(tǒng)關(guān)系型數(shù)據(jù)庫處理的數(shù)據(jù)集。但隨著大數(shù)據(jù)時代的到來,越來越多的數(shù)據(jù)庫并非建筑在“關(guān)系”之上,且具有更高的可擴展性。那么,大數(shù)據(jù)與關(guān)系型數(shù)據(jù)庫是否水火不容?MariaDB的創(chuàng)始人之一Monty Widenius駁斥了這個觀點。一直以來,人們都認為大數(shù)據(jù)和NoSQL數(shù)據(jù)庫是天作之合,而關(guān)系型數(shù)據(jù)庫則被打上OUT的標簽,但有一位數(shù)據(jù)庫老兵并不這么認為。在大多數(shù)IT觀察家的眼里,大數(shù)據(jù)通常是指那些規(guī)模大到難以用傳統(tǒng)關(guān)系型數(shù)據(jù)庫處理的數(shù)
24、據(jù)集。雖然今天關(guān)系模型和SQL依然是數(shù)據(jù)庫世界的統(tǒng)治者,但隨著大數(shù)據(jù)時代的到來,越來越多的數(shù)據(jù)庫并非建筑在“關(guān)系”之上,且具有更高的可擴展性。那么,大數(shù)據(jù)時代關(guān)系型數(shù)據(jù)庫何去何從?最近MySQL開源數(shù)據(jù)庫最初版本的開發(fā)者,以及MySQL社區(qū)開發(fā)分支版本MariaDB的創(chuàng)始人之一Monty Widenius接受ReadWrite的采訪,他駁斥了大數(shù)據(jù)與SQL數(shù)據(jù)庫水火不容的常見觀點。以下是對Widenius的采訪實錄,摘錄如下:問:您能NoSQL和大數(shù)據(jù)的歷史嗎?為什么它們會成為人們熱議的話題?答:所謂的“新NoSQL運動”的起源來自三年前Twitter一位員工的博客,此人在博客中稱MySQL不
25、夠好,他們需要更好的數(shù)據(jù)庫技術(shù),例如Cassandra。其實Twitter當時在MySQL上遇到麻煩是因為他們沒有正確使用。奇怪的是,Twitter給出的問題解決方法在Cassandra和MySQL里都能輕松實現(xiàn)。這篇文章的原文已經(jīng)找不到了,但可以參考這篇隨后的文章“MySQL將被Cassandra替代”。目前的情況是這樣:三年過去了,Twitter還在用MySQL存儲它最寶貴的資產(chǎn)推文。Cassandra最終也沒能取代了MySQL。NoSQL流行的原因是,與SQL相比,NoSQL非常容易上手,你不需要任何設(shè)計就能開始使用它。但這也是有代價的,很快你就會發(fā)現(xiàn)對數(shù)據(jù)失去了控制(如果你不是足夠小心
26、的話)。所以,大多數(shù)NoSQL解決方案的優(yōu)點(在MariaDB出現(xiàn)之前)是: 快速訪問數(shù)據(jù)(只要你舍得把文件都丟進內(nèi)存) 快速復制/多個節(jié)點的數(shù)據(jù)擴展 彈性架構(gòu)(可以快速增加新的列)問:大數(shù)據(jù)(技術(shù))能幫人們解決什么問題?更高性能和更靈活的架構(gòu)是推動NoSQL發(fā)展的兩大動力。問:你個人怎么看待大數(shù)據(jù),有什么預測嗎?我覺得大多數(shù)看好NoSQL的用戶都是跟風者。大多數(shù)公司根本沒有像Facebook和Google那么大規(guī)模的數(shù)據(jù),而且他們其實也根本就支付不起優(yōu)化和持續(xù)開發(fā)數(shù)據(jù)庫所需的專家人力成本。SQL不會消亡。NoSQL無法取代它。因為幾乎所有人都需要關(guān)系型數(shù)據(jù)庫來管理數(shù)據(jù)。眼下NoSQL也有其用
27、武之地。我認為未來將更多的是SQL和NoSQL的混合應(yīng)用。問:為什么人們還在使用NoSQL?主要有哪些原因?因為NoSQL上手很容易。你甚至不需要學習SQL,使用前也不需要定義數(shù)據(jù)庫架構(gòu)。當然也有一些人使用NoSQL是因為比SQL的擴展性更好。問:SQL在性能上能超過NoSQL嗎?SQL哪些方面由于NoSQL?只要數(shù)據(jù)不能載入內(nèi)存,SQL通常性能都超過NoSQL。同樣的,NoSQL相比SQL還存在很多不足之處,例如大多數(shù)NoSQL方案都是為單一鍵值訪問(single key access)優(yōu)化的。對于更復雜的事情來說,你必須編寫專門的程序,而且性能與SQL無法相比,尤其是那些需要自動響應(yīng)用戶請
28、求的服務(wù)(大多數(shù)網(wǎng)站提供的服務(wù))在單機上的性能表現(xiàn),NoSQL通常都不是SQL的對手。在集群環(huán)境中,當所有數(shù)據(jù)都載入內(nèi)存,NoSQL在鍵值查找的速度上通常會比SQL快。大數(shù)據(jù)探討:如何整理1700億條Twitter發(fā)布信息?截至目前,美國國會圖書館所保存的Twitter信息數(shù)量已達到1700億條、存儲文件體積更到達133TB-由于每一條信息都已經(jīng)在這套社交網(wǎng)絡(luò)中分享及轉(zhuǎn)載,這么龐大的數(shù)據(jù)改如何整理?隨著社交網(wǎng)絡(luò)蒸蒸日上,美國國會圖書館不得不面對達到133TB之巨的Twitter發(fā)布信息文件;好在經(jīng)過實踐,他們已經(jīng)找到了管理此類數(shù)據(jù)的辦法。截至目前,美國國會圖書館所保存的Twitter信息數(shù)量已
29、達到1700億條、存儲文件體積更到達133TB-由于每一條信息都已經(jīng)在這套社交網(wǎng)絡(luò)中分享及轉(zhuǎn)載,圖書館的技術(shù)團隊需要想辦法為用戶拿出切實可行的檢索方案。在現(xiàn)階段的項目報告中,圖書館管理人員指出目前市場上提供的此類大數(shù)據(jù)管理工具無法解決他們的實際困難。很顯然,現(xiàn)有技術(shù)還只能滿足獎學金信息等規(guī)模化數(shù)據(jù)集的訪問需求,而在創(chuàng)建及發(fā)布此類數(shù)據(jù)方面則表現(xiàn)乏力,館方表示。由于此類任務(wù)的復雜性及對資源的極高要求,私營部門尚無法拿出具備合理性價比的商業(yè)方案。如果私營企業(yè)都難以搞定大數(shù)據(jù)管理工作,那么預算拮據(jù)、全靠政府資金支持的非營利性機構(gòu)-包括全球最大的圖書館在內(nèi)-又該如何解決這一難題?要拿出一套實用、經(jīng)濟、便
30、捷且有能力處理1700億條Twitter信息的索引系統(tǒng)無異于癡人說夢。Twitter曾簽署一份協(xié)議,允許美國國會圖書館訪問該社交媒體網(wǎng)站中所發(fā)布的全部更新信息。館方官員坦言,他們必須建立一套幫助研究人員訪問社交平臺數(shù)據(jù)的系統(tǒng),因為隨著網(wǎng)絡(luò)化交流趨勢的不斷普及,以期刊及出版物為代表的傳統(tǒng)溝通方式已經(jīng)被逐漸取代。國會圖書館杰弗遜大廈在Twitter剛剛誕生的2006年到2010年間,首批數(shù)據(jù)轉(zhuǎn)儲文件為20TB,其中囊括了210億條Twitter信息(包括用戶當前位置及消息描述等元數(shù)據(jù))。最近,館方剛剛迎來第二批轉(zhuǎn)儲數(shù)據(jù)-總體而言,這部分副本壓縮文件總體積為133.2TB。在此之后,圖書館將與Gni
31、p公司展開合作,以小時為單位收集全部Twitter發(fā)布信息。2011年2月公布的統(tǒng)計數(shù)字顯示,當時每天經(jīng)由Twitter發(fā)布的信息約為1.4億條;而到去年10月,這一數(shù)字已經(jīng)增長到約5億條。研究人員強烈要求國會圖書館盡快開放數(shù)據(jù)訪問功能-館方稱已經(jīng)接到超過四百次此類請求。該項目由圖書館與Twitter雙方并行實施,將為用戶提供Twitter使用的歷史記錄,能夠逐項列出他們通過賬戶發(fā)布過的每條信息。美國國會圖書館在大數(shù)據(jù)管理方面算得上經(jīng)驗豐富:根據(jù)工作人員的說法,館方自2000年開始就一直在為政府網(wǎng)站進行數(shù)據(jù)歸檔整理工作,數(shù)據(jù)總量超過300TB。然而Twitter的出現(xiàn)令歸檔工作陷入僵局,因為館
32、方實在找不到合適的辦法保證信息易于搜索。如果繼續(xù)使用館方長期以來一直所倚仗的磁帶存儲方案,那么僅查詢一條2006到2010之間的Twitter信息就需要耗費最多24個小時-而這批轉(zhuǎn)儲數(shù)據(jù)還僅占數(shù)據(jù)總量的八分之一。Twitter信息之所以難于整理,一方面是由于數(shù)據(jù)量過于龐大,另一方面則是因為每天都會有新數(shù)據(jù)不斷加入進來,而這種增長速度仍在不斷提升,官方指出。此外,Twitter信息的種類也越來越多樣。普通Twiiter信息、利用軟件客戶端發(fā)出的自動回復信息、手動回復信息、包含鏈接或者圖片的信息等等,這一切讓我們無從下手。尋找解決方案的道路是曲折的。國會圖書館已經(jīng)開始考慮分布式及并行計算方案,但這
33、兩類系統(tǒng)實在太過昂貴。要想真正實現(xiàn)搜索時間的顯著降低,我們需要構(gòu)建起由數(shù)百乃至數(shù)千臺服務(wù)器組成的龐大基礎(chǔ)設(shè)施。這對于我們這種毫無商業(yè)收益的機構(gòu)來說成本過高、根本不切實際。那么館方到底該如何應(yīng)對?大數(shù)據(jù)專家們給出了一系列參考方案。就國會圖書館的情況而言,技術(shù)團隊也許最好進行分類處理的方式,即利用一款工具處理數(shù)據(jù)存儲、一款工具負責檢索工作、另一款則用于回應(yīng)查詢請求,Mark Phillips指出。他既在Basho擔任社區(qū)及開發(fā)推廣主管,同時也是開源數(shù)據(jù)庫工具Raik的創(chuàng)始人(該工具在鍵-值存儲方面便利而極具可擴展性)。大數(shù)據(jù)管理工具已經(jīng)構(gòu)建起欣欣向榮的新興行業(yè),用戶可以根據(jù)不同的使用需求與預期成本
34、選擇專有軟件或者開源方案。國會圖書館的技術(shù)人員所面臨的最大問題在于,他們該如何開始整套系統(tǒng)的創(chuàng)建和管理工作。如果館方希望走開源的道路,那么可選的數(shù)據(jù)庫創(chuàng)建及管理工具可謂百花齊放-從Hadoop集群到專門針對高輸入/輸出讀寫操作的Greenplum數(shù)據(jù)庫可謂應(yīng)有盡有。二者還能夠與Apache Solar-一款開源搜索工具-加以整合。開源為開發(fā)者們指明了一條免費獲取源代碼的光明道路,能夠在商業(yè)硬件上構(gòu)建起理想中的系統(tǒng)成品,然而采用開源也意味著我們需要在后端開發(fā)工作中投入大量人力物力。當然,國會圖書館也完全可以走更昂貴但更省心的專有軟件道路,從甲骨文或者SAP這些業(yè)界巨頭那里直接采購數(shù)據(jù)庫產(chǎn)品。不過
35、無論采取哪種方式,Twitter項目中那碩大無朋的數(shù)據(jù)總量仍然難以攻克。不過Phillips的態(tài)度給了我們一定信心。他指出,雖然Twitter目前的數(shù)據(jù)量已經(jīng)達到133TB且仍處于快速增長之中,但Basho公司已經(jīng)接觸過數(shù)據(jù)量達到PB級別的客戶,并且在自己的平臺上順利完成了任務(wù)。只要國會圖書館能夠追蹤并總結(jié)出數(shù)據(jù)庫容量每個月或每個季度的增長幅度,并根據(jù)結(jié)果為數(shù)據(jù)存儲配備充足的硬件資源,那么Basho的數(shù)據(jù)庫軟件將有能力解決館方的難題。那么使用云方案可不可行呢?從理論上講,國會圖書館可以采用以Amazon Web Services為代表的公共云資源保存這些數(shù)據(jù),而且隨著Twitter信息總量的不
36、斷增長,AWS會自動處理必要的硬件擴容工作。然而在Basho公司工程師Seth Thomas看來,這種方案的長期性價比值得商榷。由于館方顯然打算永久保存這些數(shù)據(jù),所以混合式架構(gòu)可能更具經(jīng)濟效益。也許更好的辦法是將數(shù)據(jù)保存在本地,然后利用云服務(wù)實現(xiàn)分析功能。如此一來,館方只需根據(jù)搜索量為響應(yīng)請求所投入的動態(tài)資源支付費用即可,而終端系統(tǒng)也只需處理與請求量相對應(yīng)的工作負載。無論如何,國會圖書館已經(jīng)下決心將這些Twitter信息納入檢索體系。而身為普通用戶,我們要注意的則是-只要更新Twitter,信息就會被記錄下來。暢談阿里巴巴的大數(shù)據(jù)夢2012年11月11日,各大電商風云大戰(zhàn),淘寶雙十一總交易金額
37、191億,訂單1億零580萬筆??梢钥吹剑瑥臄?shù)據(jù)中掘金,已經(jīng)成為各大互聯(lián)網(wǎng)公司的共識。但在這個即將到來的大數(shù)據(jù)時代,這些公司具體將如何推進呢?本文帶你一起暢談阿里巴巴的大數(shù)據(jù)夢?!盀榱擞蛹磳⒌絹淼拇髷?shù)據(jù)時代,各大互聯(lián)網(wǎng)公司都在爭分奪秒。阿里巴巴在公布大數(shù)據(jù)分享平臺之后的半年中,也全面啟動了攻勢。但即使是這個行業(yè)的先行者,離大數(shù)據(jù)時代也還有不小的距離?!眲倓傔^去的2012年,秦予有個很大的遺憾,就是沒能招聘到自己想要的數(shù)據(jù)科學家,浪費了公司給的招人名額。他是支付寶用戶價值創(chuàng)新中心的負責人。這個中心是支付寶大數(shù)據(jù)業(yè)務(wù)的核心部門。阿里巴巴2012年的進人指標只有200個,具體到支付寶公司,基本是只
38、出不進,只有秦予所在的部門得到了難得的兩個進人名額。但她只招到了一個合適的。事實上,各大互聯(lián)網(wǎng)公司都在尋找這樣的人。騰訊網(wǎng)絡(luò)媒體事業(yè)群總裁劉勝義2012年年中就公開表示:隨著用戶各類數(shù)據(jù)的累積,大數(shù)據(jù)時代已經(jīng)來臨。騰訊各大產(chǎn)品線中都擁有自己的數(shù)據(jù)挖掘團隊。而騰訊最新財報顯示,QQ用戶數(shù)接近8億人,活躍用戶數(shù)近2億人。阿里集團2012年7月10日就已宣布,設(shè)立首席數(shù)據(jù)官崗位(CDO),負責推進“數(shù)據(jù)分享平臺”戰(zhàn)略。同日,阿里發(fā)布“聚石塔”平臺,為天貓、淘寶平臺上的電商及電商服務(wù)商等提供數(shù)據(jù)云服務(wù)。阿里巴巴集團表示,如何挖掘、分析和運用這些數(shù)據(jù),并和全社會分享,是這個戰(zhàn)略的核心所在。阿里巴巴是年交
39、易額過萬億元的中國最大的電子商務(wù)平臺,目前有兩萬人左右,其中近千人從事數(shù)據(jù)業(yè)務(wù)工作。可以看到,從數(shù)據(jù)中掘金,已經(jīng)成為各大互聯(lián)網(wǎng)公司的共識。但在這個即將到來的大數(shù)據(jù)時代,這些公司具體將如何推進呢?“離大數(shù)據(jù)時代還有不小距離”秦予要找的并不是一般的數(shù)據(jù)分析師?!皣鴥?nèi)不缺數(shù)據(jù)挖掘人才,但很難找到數(shù)據(jù)科學家?!鼻赜鑼δ戏街苣┯浾哒f,秦予的團隊有7個人,他們在支付寶內(nèi)部被稱為“數(shù)據(jù)科學家”。一般的數(shù)據(jù)分析師是根據(jù)支付寶的各種數(shù)據(jù)進行分析,給公司決策層和各個業(yè)務(wù)部門提供咨詢支持。這也是目前很多公司都設(shè)有的商業(yè)智能部的主要職能。但數(shù)據(jù)科學家們做的事情是開發(fā)出具體可以銷售的商用化的大數(shù)據(jù)產(chǎn)品。所謂大數(shù)據(jù),一般
40、是1000T以上的數(shù)據(jù),如果按照一般機器配置,相當于400臺到500臺電腦。對這些數(shù)據(jù)信息的商業(yè)化開發(fā)就是大數(shù)據(jù)產(chǎn)業(yè)鏈。大數(shù)據(jù)時代一書中提到,未來,數(shù)據(jù)將會像土地、石油和資本一樣,成為經(jīng)濟運行中的根本性資源。數(shù)據(jù)科學家被認為是下一個十年最熱門的職業(yè)。而大數(shù)據(jù)跟個人最為密切的關(guān)系是對隱私的可能侵入。比如,亞馬遜監(jiān)視著我們的購物習慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習慣,微博似乎對我們和我們朋友的關(guān)系無所不知,QQ圈子能給你推薦你不愿意再見面的某個女生的照片和動態(tài)信息。秦予是從美國歸國的計算機模擬博士后,在摩根大通和匯豐銀行工作過多年,2010年加入支付寶公司,負責支付寶和淘寶集市的大數(shù)據(jù)業(yè)務(wù)。支付寶公司
41、擁有中國僅次于銀行業(yè)的個人數(shù)據(jù)信息。“阿里巴巴有海量的數(shù)據(jù),對于做大數(shù)據(jù)的人來說,阿里巴巴是中國最好的平臺,很吸引人。因為我的金融背景所以選擇支付寶。”秦予對南方周末記者說。回國進入大數(shù)據(jù)行業(yè)之后,秦予參加了很多大數(shù)據(jù)的論壇和研討會,她最大的體會是,看到的新東西很少?!皠e說大數(shù)據(jù),連小數(shù)據(jù)都很少?,F(xiàn)在很多公司說的大數(shù)據(jù),大都是數(shù)據(jù)的搜集和整理。這是底層的工作?!鼻赜枵f,“中國離大數(shù)據(jù)時代還有不小距離?!奔词故亲鳛閲鴥?nèi)大數(shù)據(jù)業(yè)務(wù)的先行者阿里巴巴,其大數(shù)據(jù)業(yè)務(wù)發(fā)展也依然是分散在各個子公司,并在2012年下半年才開始推出少量的商用產(chǎn)品。 “從人出發(fā),先去找人”支付寶曾經(jīng)在八年前公司成立第二天就建立了
42、數(shù)據(jù)部門,但真正有大數(shù)據(jù)業(yè)務(wù),是在2010年的事情。正是那時候,支付寶從招商銀行信用卡中心招來一批專業(yè)的金融人才。秦予也是那時候加入支付寶的?!敖鹑谛袠I(yè)的大數(shù)據(jù)業(yè)務(wù)已經(jīng)很成熟了。”秦予說。支付寶的數(shù)據(jù)科學家每天做的工作就是,把客戶分成50個族群進行研究。比如,細分出都市輕熟男群體,這個群體的特征是每次買的不貴,均價七八十元,收入中等,但很喜歡在網(wǎng)上買東西。還有一個族群被稱作“千金美少女”,其特征是收入并不高,但家里有錢,買得多,買得貴。按照分群研究的思路,秦予的團隊把淘寶、天貓、支付寶和聚劃算的用戶做系統(tǒng)研究,通過觀察他們喜歡看什么媒體,上什么網(wǎng),來“生動地”知道用戶是個怎樣的人,進而推薦商品
43、供用戶購買。能識別用戶之后,在寫商品推薦文字的時候,不再是過去那樣千篇一律地使用“親”作為開頭?!敖裉旌芏嗑W(wǎng)站犯的錯誤就是,根據(jù)個人購買記錄,推薦一個類似的產(chǎn)品。其實用戶很可能買過了。用戶要的是你給他推薦一個跟他相似的人買的東西?!鼻赜鑼δ戏街苣┯浾哒f,以前的數(shù)據(jù)研究思路是從產(chǎn)品出發(fā),大數(shù)據(jù)時代是從人出發(fā),先去找人。支付寶發(fā)展大數(shù)據(jù)業(yè)務(wù),目前主要是為內(nèi)部服務(wù)。比如,過去支付寶很重視新客戶的獲取,但后來發(fā)現(xiàn)開賬戶的人多,關(guān)賬戶的人也不少,通過數(shù)據(jù)分析,支付寶建立了一個流失預警模型,預測每一個人未來三個月是否會離開支付寶,并對潛在的流失用戶做一些喚醒?!爸Ц秾毷菧式鹑谛袠I(yè),數(shù)據(jù)比較敏感,涉及用戶隱
44、私,還沒有到開放的階段?!鼻赜鑼δ戏街苣┯浾哒f,支付寶非常忌諱提供商用化產(chǎn)品給商戶,很多合作方惦記著的是支付寶的數(shù)據(jù),但這是支付寶的高壓線?!爸Ц秾毎l(fā)展大數(shù)據(jù)的目的,跟淘寶和天貓有點偏差。我們更多地是為內(nèi)部服務(wù),淘寶和天貓更多地強調(diào)商業(yè)化?!鼻赜鑼δ戏街苣┯浾哒f,阿里巴巴集團的大數(shù)據(jù)業(yè)務(wù)商用主要是淘寶平臺的幾個公司在推進。 “數(shù)據(jù)分享平臺”戰(zhàn)略淘寶平臺的數(shù)據(jù)大概可以分成三塊,一是離線的數(shù)據(jù),比如什么地方的人最愛吃大閘蟹。另外一些在線數(shù)據(jù),主要是圖片,淘寶一些大的賣家都把圖片存在淘寶里面。還有一些信息是用戶的淘寶收藏夾。2010年3月,淘寶宣布將面向全球首度開放數(shù)據(jù),并制定了兩條大原則:數(shù)據(jù)分層
45、次開放;涉及消費者個人或者企業(yè)隱私的數(shù)據(jù)絕對保護。淘寶的數(shù)據(jù)開放一是對公眾的免費信息,比如推出類似于宏觀經(jīng)濟數(shù)據(jù)的“淘寶指數(shù)”。商家可以根據(jù)以往的銷售信息和“淘寶指數(shù)”進行生產(chǎn)、庫存決策。對于大眾來說,淘寶的數(shù)據(jù)發(fā)布就像是統(tǒng)計局和價格監(jiān)測機構(gòu)的功能,淘寶指數(shù)相當于行業(yè)和宏觀經(jīng)濟的各項指標。作為針對企業(yè)的數(shù)據(jù)開放的商用產(chǎn)品,淘寶推出了數(shù)據(jù)魔方產(chǎn)品,通過淘寶數(shù)據(jù)魔方平臺,商家可以直接通過數(shù)據(jù)魔方產(chǎn)品獲取行業(yè)宏觀情況、自己品牌的市場狀況、消費者行為情況等,但是不能獲得競爭對手的數(shù)據(jù)。2011年4月,數(shù)據(jù)魔方正式上線。在“店小二”的推廣下,林氏木業(yè)成為第一批使用者。林氏木業(yè)是一家完全依靠互聯(lián)網(wǎng)平臺銷售
46、家具的電商公司。該公司一位市場推廣人員對南方周末記者介紹了數(shù)據(jù)魔方的具體運用過程:依據(jù)數(shù)據(jù)魔方關(guān)于熱詞的各項數(shù)據(jù)變化,及時調(diào)整優(yōu)化商品標題,提高寶貝排名,進而獲取更多流量,提高銷量。以銷售面膜為主的素野天貓旗艦店的運營經(jīng)理陳林告訴南方周末記者,素野選擇數(shù)據(jù)魔方專業(yè)版本,支付3600元/年的費用,除魔方外,還可以使用量子恒道(淘寶官方推出的一款免費數(shù)據(jù)分析工具)?!皵?shù)據(jù)魔方帶來的更多是虛的概念,對流量、銷售額這種具體指標意義不大?!标惲终f。2011年6月,淘寶一分為三,變成天貓、淘寶集市和一淘網(wǎng)。這之后,淘寶系的大數(shù)據(jù)發(fā)展的主要任務(wù)放到了商家已經(jīng)形成了付費習慣的天貓平臺。目前天貓的主打大數(shù)據(jù)商用
47、產(chǎn)品是聚石塔。2012年7月,阿里巴巴集團的“聚石塔”正式發(fā)布,“數(shù)據(jù)分享平臺”戰(zhàn)略全面展開。聚石塔是阿里巴巴首次聯(lián)合全集團大數(shù)據(jù)力量打造的一款大數(shù)據(jù)商用產(chǎn)品。其中,天貓及淘寶網(wǎng)主要負責尋找合作伙伴,發(fā)展商家,阿里云負責提供云主機,萬網(wǎng)負責客戶服務(wù)。同時,阿里巴巴B2B公司CEO陸兆禧出任集團首席數(shù)據(jù)官崗位,向CEO馬云直接匯報。馬云在聚石塔發(fā)布的時候宣布了阿里集團未來新戰(zhàn)略:平臺、金融、數(shù)據(jù)。聚石塔提供數(shù)據(jù)存儲、數(shù)據(jù)計算兩類服務(wù)。根據(jù)官網(wǎng)上的指導價格,若需要內(nèi)存為1200M、50G容量的數(shù)據(jù)存儲服務(wù),優(yōu)惠價為6090元/年;如果購買英特爾雙核處理器、內(nèi)存4G、硬盤500G、帶寬5M的彈性托管
48、服務(wù),價格約在7700元/年。廣州衣酷服飾有限公司的運營總監(jiān)敬小虎對南方周末記者表示,他們公司是2012年9月開始使用聚石塔服務(wù)的,正好趕上“雙十一”大促銷,兩天之內(nèi)發(fā)完了所有的貨,總共3萬多票。他負責該公司在天貓上的店鋪皓盾天貓旗艦店的運營?!皼]有這個軟件,半個月都發(fā)不完這些貨。”敬小虎對南方周末記者說,如果按照2011年沒有加入聚石塔時候的“雙十一”銷售情況,光把訂單人工下載下來就花費了三五天時間。而且還出現(xiàn)過很多漏單和重復下載問題。不過,敬小虎表示,如果店鋪一天的銷量能做到500票以上,購買聚石塔服務(wù)比較劃算,否則軟件買下來除了應(yīng)對“雙十一”這樣的大促銷,基本就閑置著。 平臺后的產(chǎn)業(yè)鏈阿
49、里巴巴公布的信息顯示,自2012年7月10日聚石塔發(fā)布以來,已有十多萬的商家入駐。聚石塔的訂單覆蓋率,10月中旬的數(shù)字是20%。2012年“雙十一”購物狂歡節(jié),是對天貓大數(shù)據(jù)發(fā)展的一次檢驗。據(jù)天貓官方數(shù)據(jù)顯示,狂歡節(jié)大促當天,聚石塔內(nèi)系統(tǒng)處理的訂單超過天貓總量的20%,比平時增長20倍。又一城公司是首批進入聚石塔服務(wù)器項目的軟件IT企業(yè)。又一城公司的銷售人員賴活龍對南方周末記者表示,有ERP系統(tǒng)的商家可以直接找天貓,沒有ERP系統(tǒng)的商家,只能找像又一城這樣跟天貓有合作的軟件商,讓軟件商幫忙接入聚石塔服務(wù)。又一城和阿里巴巴的合作模式是,又一城基于聚石塔開發(fā)的軟件,對接淘寶和天貓等阿里系公司的后臺
50、系統(tǒng),包括訂單信息、商品信息、會員信息、財務(wù)信息、物流信息和庫存信息。賴活龍對南方周末記者透露,最近半年,他的重點一直是推銷聚石塔產(chǎn)品,一開始很多商家聽到是推銷軟件產(chǎn)品的電話就會按掉電話,現(xiàn)在的情況好多了,不少商家主動打電話來了解情況。“這跟天貓的宣傳很有關(guān)系,另外就是雙十一檢驗了產(chǎn)品的價值。”賴活龍說。賴活龍也承認,商家加入聚石塔之后,最直觀的改變是訂單處理的效率提高了,以前從淘寶平臺下載訂單,一分鐘能下載200單,現(xiàn)在至少2000單。但銷售額并沒有太大改變。越來越多的商家被迫參與到大數(shù)據(jù)產(chǎn)品的購買中來。因為促銷活動越來越多,參加的話,IT系統(tǒng)往往跟不上,造成錯單配送等問題,中差評接踵而至,
51、動態(tài)評分直線下降,銷量跟著下降,所以只能是購買聚石塔服務(wù)。不參加的話,沒有流量,沒有銷售額。“如果商家不跟著淘寶走,就會受到冷落,你進來了,碰到雙十一這樣的活動,天貓會看你是否加入了聚石塔,如果沒有加入,你報名的資質(zhì)能否通過是個大問題。”賴活龍說。Twitter利用Storm系統(tǒng)處理實時大數(shù)據(jù)Storm 是一個開源的、大數(shù)據(jù)處理系統(tǒng),與其他系統(tǒng)不同,它旨在用于分布式實時處理且與語言無關(guān)。了解 Twitter Storm、它的架構(gòu),以及批處理和流式處理解決方案的發(fā)展形勢。Hadoop(大數(shù)據(jù)分析領(lǐng)域無可爭辯的王者)專注于批處理。這種模型對許多情形(比如為網(wǎng)頁建立索引)已經(jīng)足夠,但還存在其他一些使
52、用模型,它們需要來自高度動態(tài)的來源的實時信息。為了解決這個問題,就得借助 Nathan Marz 推出的 Storm(現(xiàn)在在 Twitter 中稱為 BackType)。Storm 不處理靜態(tài)數(shù)據(jù),但它處理預計會連續(xù)的流數(shù)據(jù)??紤]到 Twitter 用戶每天生成 1.4 億條推文 (tweet),那么就很容易看到此技術(shù)的巨大用途。但 Storm 不只是一個傳統(tǒng)的大數(shù)據(jù)分析系統(tǒng):它是復雜事件處理 (CEP) 系統(tǒng)的一個示例。CEP 系統(tǒng)通常分類為計算和面向檢測,其中每個系統(tǒng)都可通過用戶定義的算法在 Storm 中實現(xiàn)。舉例而言,CEP 可用于識別事件洪流中有意義的事件,然后實時地處理這些事件。N
53、athan Marz 提供了在 Twitter 中使用 Storm 的大量示例。一個最有趣的示例是生成趨勢信息。Twitter 從海量的推文中提取所浮現(xiàn)的趨勢,并在本地和國家級別維護它們。這意味著當一個案例開始浮現(xiàn)時,Twitter 的趨勢主題算法就會實時識別該主題。這種實時算法在 Storm 中實現(xiàn)為 Twitter 數(shù)據(jù)的一種連續(xù)分析。Storm 與傳統(tǒng)的大數(shù)據(jù)Storm 與其他大數(shù)據(jù)解決方案的不同之處在于它的處理方式。Hadoop 在本質(zhì)上是一個批處理系統(tǒng)。數(shù)據(jù)被引入 Hadoop 文件系統(tǒng) (HDFS) 并分發(fā)到各個節(jié)點進行處理。當處理完成時,結(jié)果數(shù)據(jù)返回到 HDFS 供始發(fā)者使用。S
54、torm 支持創(chuàng)建拓撲結(jié)構(gòu)來轉(zhuǎn)換沒有終點的數(shù)據(jù)流。不同于 Hadoop 作業(yè),這些轉(zhuǎn)換從不停止,它們會持續(xù)處理到達的數(shù)據(jù)。大數(shù)據(jù)實現(xiàn)Hadoop 的核心是使用 Java? 語言編寫的,但支持使用各種語言編寫的數(shù)據(jù)分析應(yīng)用程序。最新的應(yīng)用程序的實現(xiàn)采用了更加深奧的路線,以充分利用現(xiàn)代語言和它們的特性。例如,位于伯克利的加利福尼亞大學 (UC) 的 Spark 是使用 Scala 語言實現(xiàn)的,而 Twitter Storm 是使用 Clojure(發(fā)音同 closure)語言實現(xiàn)的。Clojure 是 Lisp 語言的一種現(xiàn)代方言。類似于 Lisp,Clojure 支持一種功能性編程風格,但 Cl
55、ojure 還引入了一些特性來簡化多線程編程(一種對創(chuàng)建 Storm 很有用的特性)。Clojure 是一種基于虛擬機 (VM) 的語言,在 Java 虛擬機上運行。但是,盡管 Storm 是使用 Clojure 語言開發(fā)的,您仍然可以在 Storm 中使用幾乎任何語言編寫應(yīng)用程序。所需的只是一個連接到 Storm 的架構(gòu)的適配器。已存在針對 Scala、JRuby、Perl 和 PHP 的適配器,但是還有支持流式傳輸?shù)?Storm 拓撲結(jié)構(gòu)中的結(jié)構(gòu)化查詢語言適配器。Storm 的關(guān)鍵屬性Storm 實現(xiàn)的一些特征決定了它的性能和可靠性的。Storm 使用 ZeroMQ 傳送消息,這就消除了中
56、間的排隊過程,使得消息能夠直接在任務(wù)自身之間流動。在消息的背后,是一種用于序列化和反序列化 Storm 的原語類型的自動化且高效的機制。Storm 的一個最有趣的地方是它注重容錯和管理。Storm 實現(xiàn)了有保障的消息處理,所以每個元組都會通過該拓撲結(jié)構(gòu)進行全面處理;如果發(fā)現(xiàn)一個元組還未處理,它會自動從噴嘴處重放。Storm 還實現(xiàn)了任務(wù)級的故障檢測,在一個任務(wù)發(fā)生故障時,消息會自動重新分配以快速重新開始處理。Storm 包含比 Hadoop 更智能的處理管理,流程會由監(jiān)管員來進行管理,以確保資源得到充分使用。Storm 模型Storm 實現(xiàn)了一種數(shù)據(jù)流模型,其中數(shù)據(jù)持續(xù)地流經(jīng)一個轉(zhuǎn)換實體網(wǎng)絡(luò)(
57、參見 圖 1)。一個數(shù)據(jù)流的抽象稱為一個流,這是一個無限的元組序列。元組就像一種使用一些附加的序列化代碼來表示標準數(shù)據(jù)類型(比如整數(shù)、浮點和字節(jié)數(shù)組)或用戶定義類型的結(jié)構(gòu)。每個流由一個惟一 ID 定義,這個 ID 可用于構(gòu)建數(shù)據(jù)源和接收器 (sink) 的拓撲結(jié)構(gòu)。流起源于噴嘴,噴嘴將數(shù)據(jù)從外部來源流入 Storm 拓撲結(jié)構(gòu)中。圖 1. 一個普通的 Storm 拓撲結(jié)構(gòu)的概念性架構(gòu)接收器(或提供轉(zhuǎn)換的實體)稱為螺栓。螺栓實現(xiàn)了一個流上的單一轉(zhuǎn)換和一個 Storm 拓撲結(jié)構(gòu)中的所有處理。螺栓既可實現(xiàn) MapReduce 之類的傳統(tǒng)功能,也可實現(xiàn)更復雜的操作(單步功能),比如過濾、聚合或與數(shù)據(jù)庫等
58、外部實體通信。典型的 Storm 拓撲結(jié)構(gòu)會實現(xiàn)多個轉(zhuǎn)換,因此需要多個具有獨立元組流的螺栓。噴嘴和螺栓都實現(xiàn)為 Linux? 系統(tǒng)中的一個或多個任務(wù)。可使用 Storm 為詞頻輕松地實現(xiàn) MapReduce 功能。如 圖 2 中所示,噴嘴生成文本數(shù)據(jù)流,螺栓實現(xiàn) Map 功能(令牌化一個流的各個單詞)。來自 “map” 螺栓的流然后流入一個實現(xiàn) Reduce 功能的螺栓中(以將單詞聚合到總數(shù)中)。圖 2. MapReduce 功能的簡單 Storm 拓撲結(jié)構(gòu)請注意,螺栓可將數(shù)據(jù)傳輸?shù)蕉鄠€螺栓,也可接受來自多個來源的數(shù)據(jù)。Storm 擁有流分組 的概念,流分組實現(xiàn)了混排 (shuffling)(
59、隨機但均等地將元組分發(fā)到螺栓)或字段分組(根據(jù)流的字段進行流分區(qū))。還存在其他流分組,包括生成者使用自己的內(nèi)部邏輯路由元組的能力。但是,Storm 架構(gòu)中一個最有趣的特性是有保障的消息處理。Storm 可保證一個噴嘴發(fā)射出的每個元組都會處理;如果它在超時時間內(nèi)沒有處理,Storm 會從該噴嘴重放該元組。此功能需要一些聰明的技巧來在拓撲結(jié)構(gòu)中跟蹤元素,也是 Storm 的重要的附加價值之一。除了支持可靠的消息傳送外,Storm 還使用 ZeroMQ 最大化消息傳送性能(刪除中間排隊,實現(xiàn)消息在任務(wù)間的直接傳送)。ZeroMQ 合并了擁塞檢測并調(diào)整了它的通信,以優(yōu)化可用的帶寬。Storm 示例演示
60、現(xiàn)在讓我們通過實現(xiàn)一個簡單的 MapReduce 拓撲結(jié)構(gòu)的代碼(參見 清單 1),看一下 Storm 示例。這個示例使用了來自 Nathan 的 Storm 入門工具包(可從 GitHub 獲?。▍⒁?參考資料 獲取鏈接)的巧妙設(shè)計的字數(shù)示例。此示例演示了 圖 2 中所示的拓撲結(jié)構(gòu),它實現(xiàn)了一個包含一個螺栓的 map 轉(zhuǎn)換和包含一個螺栓的 reduce 轉(zhuǎn)換。清單 1. 為圖 2 中的 Storm 構(gòu)建一個拓撲結(jié)構(gòu)TopologyBuilderbuilder=newTopologyBuilder(); builder.setSpout(spout,newRandomSentenceSpou
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電子商務(wù)時尚買手小組合作協(xié)議
- 農(nóng)業(yè)資源利用優(yōu)化與生態(tài)補償責任書
- 農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)應(yīng)用與服務(wù)合同
- 鄉(xiāng)村農(nóng)業(yè)種植技術(shù)研究協(xié)議
- 農(nóng)業(yè)航空作業(yè)裝置相關(guān)行業(yè)投資規(guī)劃報告范本
- 2022年5月計算機技術(shù)與軟件《中級軟件設(shè)計師(下午卷)》試題真題及答案
- 電影院合作合同常用
- 口服降糖藥課件
- 工程公司整體業(yè)務(wù)流程(完整版)
- 鋼結(jié)構(gòu)工程施工擔保合同
- 降低用藥錯誤發(fā)生率
- 起重機維護保養(yǎng)記錄表
- 《攝影構(gòu)圖》課件
- 醫(yī)藥河南省城市醫(yī)師衛(wèi)生支農(nóng)工作鑒定表
- 自然辯證法智慧樹知到期末考試答案章節(jié)答案2024年浙江大學
- 《我愛上班》朗誦稿
- 大唐杯5G大賽考試題庫原題真題版(含答案)
- 2024屆高考英語復習語法填空課件
- 第14課當代中國的外交課件-高中歷史選擇性必修一
- 設(shè)計服務(wù)項目應(yīng)急預案
- 質(zhì)量管理體系的文件與記錄控制
評論
0/150
提交評論