版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1Hadoop在淘寶的應(yīng)用淘寶搜索中心恨少2目錄Hadoop介紹Hadoop在淘寶中的應(yīng)用一個(gè)實(shí)際的應(yīng)用案例淘寶網(wǎng)搜索整體架構(gòu)Hadoop介紹 Hadoop是Apache組織的一個(gè)開(kāi)源的分布式計(jì)算框架,框架中最核心的設(shè)計(jì)是HDFS和Map-Reduce?;诙逪adoop有一系列子項(xiàng)目,它們廣泛用于海量數(shù)據(jù)處理,非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)等領(lǐng)域。主要子項(xiàng)目HadoopCommon:ThecommonutilitiesthatsupporttheotherHadoopsubprojects.Chukwa:Adatacollectionsystemformanaginglargedistributedsystems.HBase:Ascalable,distributeddatabasethatsupportsstructureddatastorageforlargetables.HDFS:Adistributedfilesystemthatprovideshighthroughputaccesstoapplicationdata.Hive:Adatawarehouseinfrastructurethatprovidesdatasummarizationandadhocquerying.MapReduce:Asoftwareframeworkfordistributedprocessingoflargedatasetsoncomputeclusters.Pig:Ahigh-leveldata-flowlanguageandexecutionframeworkforparallelcomputation.ZooKeeper:Ahigh-performancecoordinationservicefordistributedapplications.誰(shuí)在使用HadoopAlibabaAmazonAdobeBaiduFacebookHuluMicrosoftYahoo!WhyHadoop?可擴(kuò)展:不論是存儲(chǔ)的可擴(kuò)展還是計(jì)算的可擴(kuò)展都是Hadoop的設(shè)計(jì)根本。經(jīng)濟(jì):框架可以運(yùn)行在任何普通的PC上??煽浚悍植际轿募到y(tǒng)的備份恢復(fù)機(jī)制以及Map-Reduce的任務(wù)監(jiān)控保證了分布式處理的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實(shí)現(xiàn)以及Map-Reduce結(jié)合LocalData處理的模式,為高效處理海量的信息作了基礎(chǔ)準(zhǔn)備。HDFS簡(jiǎn)介
HDFS(HadoopDistributedFileSystem)是Hadoop提供的基礎(chǔ)設(shè)施,Hadoop其它子項(xiàng)目均依賴于HDFS。 作為一個(gè)分布式文件系統(tǒng),HDFS用于部署在低成本的硬件之上(使用普通PC的硬盤),因此其具有很高的容錯(cuò)性。HDFS示意圖HDFSShell HDFS除了提供API之外,還提供了一個(gè)HDFSShell供用戶訪問(wèn)文件系統(tǒng)。Shell提供了ls、cat、cp、touch、mkdir、rmr、tail、chmod、chown等接口。Map-Reduce介紹 Map-Reduce是一個(gè)分布式的計(jì)算框架,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。Map-Reduce大大降低了分布式計(jì)算的難度。 一個(gè)Map/Reduce作業(yè)的輸入和輸出類型如下所示:
(input)<k1,v1>->map-><k2,v2>->combine-><k2,v2>->reduce-><k3,v3>(output)Map-Reduce示意圖一個(gè)簡(jiǎn)單的例子
WordCount是一個(gè)簡(jiǎn)單的應(yīng)用,它可以計(jì)算出指定數(shù)據(jù)集中每一個(gè)單詞出現(xiàn)的次數(shù)。 比如文件中包含如下內(nèi)容。數(shù)據(jù)量可以非常大,它們保存在大量的文件中(HDFS上)。 HelloWorldByeWorld HelloHadoopGoodbyeHadoop 輸出結(jié)果如下: Bye1
Goodbye1
Hadoop2
Hello2
World2
map函數(shù) publicvoidmap(LongWritablekey,Textvalue,OutputCollector<Text,IntWritable>output,Reporterreporter)throwsIOException{ Stringline=value.toString(); StringTokenizertokenizer=newStringTokenizer(line); while(tokenizer.hasMoreTokens()){ word.set(tokenizer.nextToken()); output.collect(word,one); } }reduce函數(shù) publicvoidreduce(Textkey,Iterator<IntWritable>values,OutputCollector<Text,IntWritable>output,Reporterreporter) throwsIOException{ intsum=0; while(values.hasNext()){ sum+=values.next().get(); } output.collect(key,newIntWritable(sum)); }Hive簡(jiǎn)介
Hive是一個(gè)基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)分析框架,由Facebook貢獻(xiàn)給了開(kāi)源社區(qū)。Hive定義了一種類似于SQL的語(yǔ)言-HQL,使用HQL可以方便使用SQL類似的語(yǔ)句分析數(shù)據(jù),大大降低了數(shù)據(jù)分析的難度。
Hive支持Map-Reduce。Hive支持UDAF(UserDefinedAggregateFunction,用戶自定義的聚合函數(shù))。HadoopJobWebUIDougCutting介紹 DouglasReedCutting是開(kāi)源搜索技術(shù)的先驅(qū)。他先后在Excite,AppleInc.andXeroxPARC等公司工作過(guò)。他發(fā)起的開(kāi)源項(xiàng)目有Lucene、Hadoop和Nutch。
DouglasReedCutting目前在Cloudera公司工作。該公司致力于開(kāi)源云計(jì)算(Hadoop)的商業(yè)應(yīng)用。之前DouglasReedCutting在Yahoo!工作。Hadoop在淘寶的應(yīng)用
淘寶網(wǎng)目前有會(huì)員近2億,日均UV高達(dá)4000萬(wàn),日交易量高達(dá)數(shù)億元。作為目前亞洲最大的B2C/C2C網(wǎng)站,淘寶每天會(huì)產(chǎn)生大量的數(shù)據(jù)。如何利用這些數(shù)據(jù)為用戶提供更好的服務(wù)以及發(fā)掘數(shù)據(jù)的價(jià)值是個(gè)難題。 目前阿里集團(tuán)部署了一個(gè)大規(guī)模的Hadoop集群,擁有PCServer近千臺(tái),服務(wù)器均配置16核心CPU和24GB內(nèi)存,存儲(chǔ)總量達(dá)PB級(jí)別。 集團(tuán)內(nèi)部各子公司包括B2B和淘寶一起分享該集群。
目前Hadoop主要應(yīng)用于以下幾個(gè)方面: 1、為搜索引擎提供數(shù)據(jù)建索引。
dump中心每天凌晨從數(shù)據(jù)庫(kù)將表拉到HDFS上,各系統(tǒng)使用各自的Map-Reduce算法生成需要的doc文檔。 2、用戶商務(wù)智能分析,比如使用協(xié)同過(guò)濾算法為用戶推薦商品。淘寶搜索引擎建索引流程
數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)HDFS,運(yùn)行Map-ReduceJob生成需要的doc文件以建索引引擎服務(wù)器引擎服務(wù)器引擎服務(wù)器build服務(wù)器build服務(wù)器build服務(wù)器dump一個(gè)實(shí)際的應(yīng)用案例 定制化搜索項(xiàng)目,在用戶收藏或者購(gòu)買的店鋪內(nèi)搜索寶貝。項(xiàng)目實(shí)施過(guò)程中,使用Hive替代了自己編寫HadoopMap-ReduceJob的方案。
需要處理的數(shù)據(jù)
1、用戶的收藏信息。包括兩個(gè)文件,一個(gè)是用戶的收藏條目(collect_item);另一個(gè)是收藏條目的詳細(xì)信息(collect_info)。收藏信息只有全量數(shù)據(jù)。collect_item和collect_info均有數(shù)百GB。 2、用戶的購(gòu)買信息(pay)。購(gòu)買信息以增量的方式每天產(chǎn)生一個(gè)文件。由于數(shù)據(jù)量比較大,目前只使用三個(gè)月的數(shù)據(jù)。 3、因?yàn)榍岸酥荒苁褂觅u家的數(shù)字id去搜索寶貝,而collect_item沒(méi)有賣家的數(shù)字id,因此必須連接用戶數(shù)據(jù)文件。用戶數(shù)據(jù)文件有數(shù)百GB。第一種方案 項(xiàng)目實(shí)施首先選擇的方案是自己編寫Map-ReduceJob來(lái)生成相關(guān)的文檔數(shù)據(jù)。使用Hadoop二次排序的方式連接各文件。 主要優(yōu)點(diǎn): 1、過(guò)程完全可控,依賴少。
2、效率較高。 主要缺點(diǎn):
1、需要分別針對(duì)收藏?cái)?shù)據(jù)和交易數(shù)據(jù)寫兩個(gè)HadoopJob。 2、代碼量比較多,可維護(hù)性較差。新方案-使用Hive 由于數(shù)據(jù)量比較大,有些記錄格式有錯(cuò),使得自己編寫的Map-ReduceJob生成的數(shù)據(jù)總是少了一些。鑒于Hive諸多優(yōu)點(diǎn),所以項(xiàng)目中途改用Hive重寫。 主要優(yōu)點(diǎn):
1、使用HQL,站在更高的邏輯層次上,代碼量少,可維護(hù)性非常好。
2、只需編寫一個(gè)UDAF便可聚合同一買家對(duì)應(yīng)的收藏和交易買家列表。 主要缺點(diǎn):
1、運(yùn)行速度略慢。
2、依賴Hive,需要在生產(chǎn)環(huán)境部署Hive。處理過(guò)程
1、連接collect_item和用戶表,生成新表t1。 2、連接t1和collect_info,生成新表t2。
3、將交易表做去重處理,生成新表t3。
4、對(duì)t2和t3分別使用UDAF處理,生成如下結(jié)構(gòu)(大概數(shù)千萬(wàn)條)。 <doc> type=0 #type為0表示收藏記錄,type為1表示購(gòu)買記錄 cid=99999643 #用戶的數(shù)字id nick=ltvlyc #用戶的昵稱 sid=34755926345891714593849912999374770211586320857231804838 #關(guān)聯(lián)的賣家數(shù)字id列表 </doc>建Hive表 $HIVE"CREATEEXTERNALTABLEcustomed_search_collect_item_$day ( collect_item_idstring, titlestring, t3string, seller_id_strstring, seller_nickstring, t6string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'$itemPath';";編寫UDAF 使用Java編寫UDAF以聚合同一key的數(shù)據(jù),即和同一個(gè)買家相關(guān)的賣家。 $HIVE"addjar$WORKDIR/UDAF_2.0.jar; createtemporaryfunctioncustomed_search_joinas'taobao.GenerateXML'; setmapred.reduce.tasks=300; setpress.output=false; INSERTOVERWRITETABLEcustomed_search_pay_XML_$day selectcustomed_search_join(1,winner_id_dig,winner_nick,seller_id_dig) fromcustomed_search_pay_temp_$daygroupbywinner_id_dig;"; 淘寶目前使用阿里集團(tuán)內(nèi)部的iSearch(眾多工具組成的工具集)建索引和提供搜索服務(wù)。iSearch支持多層架構(gòu),以組成大的搜索集群。將索引數(shù)據(jù)切分后推送到搜索服務(wù)器
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025個(gè)人住房按揭貸款合同范本
- 2025貨品售賣合同協(xié)議
- 2025年度新能源實(shí)驗(yàn)室氫能技術(shù)研究與應(yīng)用合同3篇
- 2025年度水泥行業(yè)節(jié)能減排合作協(xié)議3篇
- 2025年度數(shù)據(jù)中心基礎(chǔ)設(shè)施安裝合同安裝協(xié)議3篇
- 2025年度養(yǎng)生館特色療法加盟合同協(xié)議書3篇
- 二零二五年度農(nóng)村房屋拆除安全協(xié)議及歷史建筑保護(hù)責(zé)任書
- 二零二五年度生態(tài)農(nóng)業(yè)配套農(nóng)村房屋買賣合作框架協(xié)議3篇
- 2025年度環(huán)保建筑材料合作成立公司合同3篇
- 2025年度建筑材料供貨與古建筑修復(fù)合同3篇
- 西安交通大學(xué)《計(jì)算物理與程序設(shè)計(jì)》2022-2023學(xué)年第一學(xué)期期末試卷
- 《寒假安全教育》課件
- 民營(yíng)企業(yè)融資問(wèn)題及其對(duì)策分析-以美的集團(tuán)為例【數(shù)據(jù)論文】11000字
- DB32T 3390-2018 一體化智能泵站應(yīng)用技術(shù)規(guī)范
- 中醫(yī)特色治療進(jìn)修匯報(bào)
- 2023-2024學(xué)年廣東省廣州市白云區(qū)九年級(jí)(上)期末語(yǔ)文試卷
- 肛腸科一病一品匯報(bào)
- 第9課 作息有規(guī)律(說(shuō)課稿)-2024-2025學(xué)年一年級(jí)上冊(cè)道德與法治(統(tǒng)編版)
- 2024年國(guó)家公務(wù)員考試《申論》真題(地市級(jí))及答案解析
- 【初中生物】嘗試對(duì)生物進(jìn)行分類-2024-2025學(xué)年七年級(jí)生物上冊(cè)同步教學(xué)課件(人教版2024)
- 機(jī)械年終考核述職報(bào)告
評(píng)論
0/150
提交評(píng)論