![九年爽11互聯(lián)網(wǎng)技術(shù)超級(jí)工程_第1頁(yè)](http://file4.renrendoc.com/view/398101cd2b4f341d69431d235e7844fe/398101cd2b4f341d69431d235e7844fe1.gif)
![九年爽11互聯(lián)網(wǎng)技術(shù)超級(jí)工程_第2頁(yè)](http://file4.renrendoc.com/view/398101cd2b4f341d69431d235e7844fe/398101cd2b4f341d69431d235e7844fe2.gif)
![九年爽11互聯(lián)網(wǎng)技術(shù)超級(jí)工程_第3頁(yè)](http://file4.renrendoc.com/view/398101cd2b4f341d69431d235e7844fe/398101cd2b4f341d69431d235e7844fe3.gif)
![九年爽11互聯(lián)網(wǎng)技術(shù)超級(jí)工程_第4頁(yè)](http://file4.renrendoc.com/view/398101cd2b4f341d69431d235e7844fe/398101cd2b4f341d69431d235e7844fe4.gif)
![九年爽11互聯(lián)網(wǎng)技術(shù)超級(jí)工程_第5頁(yè)](http://file4.renrendoc.com/view/398101cd2b4f341d69431d235e7844fe/398101cd2b4f341d69431d235e7844fe5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
序<阿里巴巴CTO&雙11技術(shù)指揮官行易創(chuàng)建峰值和每秒25.6萬(wàn)筆的支付成功峰值。在我們采用了非常多樣的今年的雙11,我們不僅是做了一次系統(tǒng)保障,也是技術(shù)全面雙11。而且通過(guò)這個(gè)技術(shù),也給我們的合作伙伴,包括參與雙11的金融、商品推薦、整個(gè)鏈路、包括整個(gè)決策都是用機(jī)器智能來(lái)做的:魯班智能設(shè)計(jì)系統(tǒng)雙11期間產(chǎn)生超過(guò)4億的海報(bào);智能系統(tǒng)承擔(dān)了95%的貓精靈在11間銷售100臺(tái),更是讓阿里巴巴的機(jī)器智能以消費(fèi)積累下來(lái)的技術(shù),讓他們能夠利用最好的技術(shù)更好地服務(wù)自己的消費(fèi)感謝“阿里巴巴技術(shù)大學(xué)”平臺(tái)對(duì)本書的大力支持?!鞍⒗锇桶图夹g(shù)大學(xué)”是阿里巴巴面向全體技術(shù)人的學(xué)習(xí)搖籃,秉承著“”“突破”“開(kāi)拓”的辦學(xué)理念,融匯阿里技術(shù)文化與技術(shù)實(shí)踐,促動(dòng)技術(shù)人才感謝無(wú)私的阿里技術(shù)人,是才有這本極具價(jià)值的書。此書囊括詳實(shí)的雙11技術(shù)沉淀、業(yè)界前沿的技術(shù)突破。在此謹(jǐn)向作者的薪火相阿里巴巴技術(shù)大學(xué)現(xiàn)場(chǎng)新智 菜鳥倉(cāng)配自動(dòng)化UCS 62 2017雙11:開(kāi)啟智能全鏈路壓測(cè) 78 淺談分布式系統(tǒng)Pangu2.0:它讓雙11運(yùn)維變得智能起 新基 雙11穩(wěn)定性叔同講述:九年雙11的云化架構(gòu)演進(jìn)和升 從10%到40%:阿里巴巴混部技術(shù)詳 經(jīng)歷400多天打磨,HSF的架構(gòu)和性能有哪些新突破 直擊阿里容器技術(shù) 2017雙11系統(tǒng)TMF2.0技術(shù),實(shí)現(xiàn)全鏈路管 vi>911新體 持續(xù)迭代下的雙11供應(yīng)鏈體系架構(gòu)及功能解 七層流量提供安全防護(hù)新方 直擊Weex在優(yōu)酷雙11貓晚的應(yīng) 如何把“送”到你家?雙 新智阿里搜索技術(shù),在AI走了多遠(yuǎn)阿里妹導(dǎo)讀:以深度學(xué)習(xí)為代表的人工智能在圖像、語(yǔ)音和NLP領(lǐng)域帶來(lái)了突破性的進(jìn)展,在信息檢索和個(gè)性化領(lǐng)域近幾年也有不少公開(kāi)文獻(xiàn),比如ide&deep,征組合的能力,deepCF用深度學(xué)習(xí)實(shí)現(xiàn)協(xié)同過(guò)濾,rnnmender采用行為序深度學(xué)搜索的應(yīng)用概括起來(lái)包括4個(gè)方面件,目前我們的離線深度學(xué)習(xí)框架、深度學(xué)習(xí)框架和預(yù)測(cè)框架統(tǒng)一到tf,并實(shí)現(xiàn)了日志處理,特征抽取,模型訓(xùn)練和服務(wù)部署端到端的流程,極大提升了算其次是搜索應(yīng)用:包括智能交互,語(yǔ)義搜索,智能匹配和智能決策四個(gè)技術(shù)方最后是排序平臺(tái)化:實(shí)現(xiàn)了PC商品搜索、無(wú)線商品搜索、內(nèi)搜索搜索和搜索系統(tǒng)和算法簡(jiǎn)離線數(shù)據(jù)平ODPS,jin、特征抽取和離線模型預(yù)估產(chǎn)出排序特征,時(shí)效性不強(qiáng)的特征都是通過(guò)離線數(shù)據(jù)平臺(tái)產(chǎn)出的,比如用戶標(biāo)簽,商品關(guān)鍵字等;離線機(jī)器學(xué)臺(tái)PAI,底層是主流的parameterserver和TF深度學(xué)習(xí)框流式計(jì)算和學(xué)臺(tái)Porsche,流式計(jì)算是基于blik負(fù)責(zé)實(shí)時(shí)日志解析和特征join生成實(shí)時(shí)排序特征,學(xué)習(xí)和離線學(xué)習(xí)底層框架可以相同,差流式計(jì)算和學(xué)搜索應(yīng)用非常廣泛,并積累了不少學(xué)習(xí)和強(qiáng)化學(xué),括擎、序務(wù)搜索臺(tái)成責(zé)的務(wù)分、模型要過(guò)預(yù)服務(wù)效經(jīng)多年展們具備非完善品搜索排序算法體系,包括知識(shí)圖譜、分詞、taging、類目預(yù)測(cè)、意圖預(yù)測(cè)、拼寫糾錯(cuò)、queryuery語(yǔ)寫相、商品店戶prfil、用戶偏、用戶感、略個(gè)性化模、樣并平臺(tái)化的方式相關(guān)業(yè)務(wù)團(tuán)隊(duì)。機(jī)器學(xué)臺(tái)。搜索訓(xùn)練樣本主要來(lái)自用戶行為,由于用戶行為是流式數(shù)據(jù),適預(yù)訓(xùn)練后只需要對(duì)接近輸出層的網(wǎng)絡(luò)做fin-tnin。搜索在實(shí)際應(yīng)用的有離線機(jī)器學(xué)臺(tái)PAI和機(jī)器學(xué)臺(tái)Porsche,兩個(gè)平臺(tái)深度學(xué)習(xí)框架目前都統(tǒng)一到了tf-aitfpai對(duì)原生tf做了一些優(yōu)化,比如底層通訊,稀疏參數(shù)、優(yōu)化方法、GPU顯存優(yōu)化等,比原生tf訓(xùn)練深度有較大的提升,訓(xùn)練上千億樣本和上百對(duì)較低,GPU的稠密矩陣計(jì)算能力得不到充分發(fā)揮,同時(shí)離混布后流量低谷期間騰出了大量的服務(wù)閑置CPU,把臨時(shí)閑置的CPU利用起來(lái)做深度學(xué)習(xí)訓(xùn)練RTP,搜索排序算分服務(wù)。由于每次搜索請(qǐng)求有上千個(gè)商品需要計(jì)算RTPRTP計(jì)算算子化和模型分片等方式解決了深度模型infrece計(jì)算和問(wèn)題,深度模型用GPU,淺層模型用CPU,今年11期間搜RTP服務(wù)用到了550GPU卡。續(xù)行為中是否有商品點(diǎn)擊、加購(gòu)和或跳轉(zhuǎn)到另外一個(gè)關(guān)鍵字的后繼行為,這是一個(gè)典型的強(qiáng)化學(xué)習(xí)問(wèn)題,是推薦的關(guān)鍵字候選集合,狀態(tài)是用戶當(dāng)前搜索關(guān)鍵搜索意圖,如果用戶輸入“3個(gè)月”后,會(huì)相應(yīng)段位的奶粉,并在后續(xù)的搜索中會(huì)記住狀態(tài)“3個(gè)月”寶寶和提示用戶“以下是適合3個(gè)月寶知識(shí)導(dǎo)購(gòu),包含提高售前知識(shí)問(wèn)答或知識(shí)提示,比如“3個(gè)月寶寶吃什么奶粉”回答“1段”。目前技術(shù)正在提高中,尤其是在多輪狀態(tài)、知識(shí)問(wèn)spcifc的技術(shù)未來(lái)幾年應(yīng)該會(huì)突飛猛進(jìn)。智能內(nèi)容生成,包括生 表達(dá)更加個(gè)性化和多元化querytagging和改寫,比如新品,,尺碼,名,屬性,類目等搜索queryquryqryqery,通常做法是先用不同改寫策略生成改寫候選uerytopktr序找出合適的改寫集合,模型設(shè)計(jì)和訓(xùn)練相對(duì)簡(jiǎn)單,比較難的是如何構(gòu)建高banditquery等給商品打或擴(kuò)充商品索引內(nèi)容,比如用imagei技術(shù)生成DSSM模型技術(shù)query我們沒(méi)有采樣效率很低的隨機(jī)負(fù)采樣,而是基于知識(shí)圖譜,通過(guò)生成字面從上面可以看到qurytaggng、query相似度、語(yǔ)義匹配和語(yǔ)義相關(guān)性是多個(gè)回和相關(guān)性提供統(tǒng)一的商品表征學(xué)習(xí)框架,重點(diǎn)包括商品標(biāo)題,屬性,詳情query表征學(xué)習(xí)框架,為query類目預(yù)測(cè),query改寫,query推薦等提供統(tǒng)一的表征學(xué)習(xí)框架,重點(diǎn)通過(guò)queryquery征性,提升用戶體驗(yàn)外,也可以一定程度上遏制淘寶商品標(biāo)題堆砌熱門ibran(),搜索或推薦中個(gè)性化的重點(diǎn)是用戶的理解與表達(dá),基于淘寶的用戶靜態(tài)特征和用戶行為動(dòng)態(tài)特征,我們基于mlt-serg、attngM的相關(guān)技術(shù),從海量用戶行為日志中直接學(xué)習(xí)用戶的通用表達(dá),該學(xué)習(xí)方法“總為識(shí)別、偏好預(yù)估、個(gè)性化、個(gè)性化排序等任務(wù),在搜索、推薦和10B多模學(xué)習(xí),淘寶商品有文本、圖像、、id、品牌、類目、及統(tǒng)計(jì)征,這些特征彼此有一定程度的冗余和互補(bǔ),我們利用多模學(xué)習(xí)通過(guò)多模聯(lián)合學(xué)習(xí)方法把度特征融合在一起形成統(tǒng)一的商品標(biāo)準(zhǔn),并多模聯(lián)合學(xué)習(xí)selfattntin實(shí)現(xiàn)特征維度在不同場(chǎng)景下的差異,比如女裝下特征比較重要,3Cdeepfm,相wide&deepdeepfm深度排序模型,由于行為類型和商品重要性差異,每個(gè)樣本學(xué)習(xí)權(quán)重不opy度lr。全局排序,trlr搜索結(jié)果同質(zhì)化,影響總頁(yè)效率,全局排序通過(guò)已知排序結(jié)果做為上下文預(yù)測(cè)下一個(gè)位置的商品點(diǎn)擊概率,有效提升了總頁(yè)排序效率?;夯芰Ω鼜?qiáng),對(duì)語(yǔ)義搜索和提高個(gè)性化匹配深度是非常有價(jià)值的。以上實(shí)現(xiàn)了搜索從、排序特征、排序模型、個(gè)性化和重排的深度學(xué)習(xí)升級(jí),在雙11無(wú)線商品搜索中帶來(lái)超過(guò)10%(AB-Test)的搜索指標(biāo)提升。搜索中個(gè)性化產(chǎn)品都是最大化,導(dǎo)致的問(wèn)題是搜索結(jié)果趨同,浪費(fèi),今環(huán)境感知、場(chǎng)景通信、單獨(dú)決策和聯(lián)合學(xué)習(xí),實(shí)現(xiàn)聯(lián)合化,而不是此消彼長(zhǎng),性能優(yōu)化。在深度學(xué)習(xí)剛起步的時(shí)候,我們深度模型inerece性能會(huì)是通過(guò)以上技術(shù),今年雙11間在手淘默認(rèn)搜索、內(nèi)搜索、搜索等均前面介紹的DUPN是一個(gè)非常不錯(cuò)的用戶表征學(xué)習(xí)模型,但基于query的i只適合搜索,同時(shí)缺少基于日志來(lái)源的ttetin,難以推廣到其他業(yè)務(wù),在思考做一個(gè)能夠適合多個(gè)業(yè)務(wù)場(chǎng)景的用戶表征模型,非搜索業(yè)務(wù)做些簡(jiǎn)單finenngK行為序列假設(shè)太簡(jiǎn)單,我們?cè)谒伎寄軌蜃鰈ife-olai的模型,能夠從用戶進(jìn)入搜索到離開(kāi)搜索鏈路中的整體優(yōu)化,比如搜索前的query(底紋),搜索中的商品和內(nèi)容排序,搜索后的query推薦(錦囊)等場(chǎng)景;搜索除了外,還需要承擔(dān)賣家多樣性,流量公平性,流量商業(yè)化等居多平臺(tái)里數(shù)據(jù)庫(kù)技術(shù)歷程,連續(xù)六年作為數(shù)據(jù)庫(kù)總參與雙11備戰(zhàn)工作。今天,阿里數(shù)據(jù)庫(kù)技術(shù)團(tuán)隊(duì)張大家都知道,數(shù)據(jù)庫(kù)實(shí)現(xiàn)彈性能力是比較的,一方面是因?yàn)閿?shù)據(jù)庫(kù)對(duì)性能要經(jīng)過(guò)幾年的探索,這些難點(diǎn)都已得到解決。第一,數(shù)據(jù)庫(kù)使用了高性能使用云的資源還不夠,為了實(shí)現(xiàn)更加極致的彈性能力,我們通過(guò)離混部技混部技術(shù),有兩大基礎(chǔ)條件:第一是容器化,通過(guò)容器實(shí)現(xiàn)了計(jì)算節(jié)點(diǎn)的資源和這幾年技術(shù)的發(fā)展讓計(jì)算分離成為可能,比如:25G高速網(wǎng)絡(luò)、RDMA技術(shù),研分布式系統(tǒng)-,數(shù)據(jù)庫(kù)計(jì)算節(jié)點(diǎn)則部署在阿里自研容器(Pouch)中,通過(guò)25G網(wǎng)絡(luò)與節(jié)點(diǎn)連接。為了實(shí)現(xiàn)數(shù)據(jù)庫(kù)和計(jì)算分離,我們?cè)诜植际?上做了非常多的優(yōu)響應(yīng)延時(shí):?jiǎn)温纷x寫響應(yīng)延時(shí)0.4ms,RDMA網(wǎng)絡(luò)響應(yīng)延時(shí)小于QoS流控:根據(jù)前臺(tái)業(yè)務(wù)負(fù)載情況控制IO流量,保證寫入性能的網(wǎng)絡(luò)傳輸量,以此來(lái)降低網(wǎng)絡(luò)延遲對(duì)于數(shù)據(jù)庫(kù)性能的影響。第一是redolgsync優(yōu)化,將數(shù)據(jù)庫(kù)吞吐提升了100%。第二是由于支持原子寫功能,所以我們關(guān)閉了數(shù)據(jù)庫(kù)的DoubleWriteBuffer,高壓力下數(shù)據(jù)庫(kù)吞吐提升20%,網(wǎng)絡(luò)帶寬節(jié)省了容器化和計(jì)算分離,使得數(shù)據(jù)庫(kù)無(wú)狀態(tài)化,具備調(diào)度能力。在雙11,IOE,研發(fā)出阿MySQLAliSQL和分布式中間件TDDL。2016年,我們開(kāi)始研發(fā)阿里新一代數(shù)據(jù)庫(kù)技術(shù),我們把它命名為X-DB,X代表追求極限性能,無(wú)限可能的含義。X-DB架構(gòu)X-DB架構(gòu)如圖,引入Paxos分布式一致性協(xié)議解決問(wèn)題;可異地部署,雖然X-DB技術(shù)之一:高性能Paxos基礎(chǔ)庫(kù)X-Paxos是實(shí)現(xiàn)三節(jié)點(diǎn)能力的核心,可實(shí)現(xiàn)跨AZ、Region59率。-BBachig&Pipelining。X-DB事交,保證日志在數(shù)據(jù)庫(kù)節(jié)點(diǎn)的多數(shù)派收到并提交,這是保證數(shù)據(jù)強(qiáng)一致基礎(chǔ),由于事務(wù)在提交時(shí)必須需要跨網(wǎng)絡(luò),這一定會(huì)導(dǎo)致延時(shí)增加,要保證高延時(shí)下的吞吐是非常的。Batching&PipeliningX-DB技術(shù)之三:異步化提交,數(shù)據(jù)庫(kù)線程池在提交時(shí)會(huì)等待,為了最大作。通過(guò)這些技術(shù)保證X-DB在三節(jié)點(diǎn)模式下的高吞吐量。X-DBMySQLGroupReplication對(duì)比我們與Oracle的GroupReplication作對(duì)比。在三節(jié)點(diǎn)同IDC部署模式下,sysbench標(biāo)準(zhǔn)化測(cè)試。Insert場(chǎng)景,我們可以做到MySQL的2.4倍,響能優(yōu)勢(shì)特別明顯,是MySQLGR(0.85)的5.94響應(yīng)延時(shí)X-DB(58ms)是MySQLGR(150ms)的38%。同城跨AZ部署替代傳統(tǒng)主備模式,我們把原來(lái)主備模式變成三節(jié)點(diǎn),解決跨AZ數(shù)據(jù)質(zhì)量問(wèn)題和高可用問(wèn)題??鏏Z數(shù)據(jù)強(qiáng)一致,單AZ不可用數(shù)據(jù)零丟失、單AZ不可用秒級(jí)切換、切換自封閉,無(wú)第組件。相對(duì)主備模式零成本增加。Reion部署,用更底層的數(shù)據(jù)庫(kù)技術(shù)解決異地多活問(wèn)題,三地六副本(主備切換策略靈活Region,也可定制跨Region11X-KV在雙11中的應(yīng)改進(jìn),支持?jǐn)?shù)據(jù)類型,支持非唯一索引、組合索引multiget功能,還支持OnlineSchemachange。最大變化是通過(guò)TDDLSQL轉(zhuǎn)換。對(duì)于業(yè)務(wù)方,SQL,應(yīng)用可以透明遷移,使用成本大幅降低。獨(dú)立的連接池:SQLKV相互獨(dú)立;變更時(shí),兩套連接池保持協(xié)同一結(jié)果集自動(dòng)類型轉(zhuǎn)換:字符串自動(dòng)轉(zhuǎn)換為MySQL類型。隨著雙11量增長(zhǎng),近兩年買家?guī)旌唾u家?guī)斓耐窖訒r(shí)一直比較大,導(dǎo)致商戶不處理雙11訂單;且賣家?guī)煊写罅繌?fù)雜的查詢,性能差。我們?cè)?jīng)通二級(jí)散列功能,徹底解決了數(shù)據(jù)同步的性能瓶頸,而且ESDB還可以提供復(fù)雜的查詢整個(gè)鏈路經(jīng)歷三AgentMySQLAgentdatahub分布式NoSQL;Agent引擎HiTSDB是阿里自研的時(shí)序型數(shù)據(jù)庫(kù),非常適合海量的類數(shù)據(jù)。通過(guò)實(shí)時(shí)計(jì)算引擎將秒級(jí)性能數(shù)據(jù)、全量SQL運(yùn)行狀況進(jìn)行預(yù)先處理后,在HiTSDB中。通過(guò)第三代架構(gòu),實(shí)現(xiàn)了雙11不降低的秒級(jí)能力,這對(duì)我們了解系統(tǒng)CloudDBA在雙11中的應(yīng)阿里擁有業(yè)界最富有經(jīng)驗(yàn)的DBA,海量的性能診斷數(shù)據(jù)。我們的目標(biāo)是把阿里DBA的經(jīng)驗(yàn)、大數(shù)據(jù)和機(jī)器智能技術(shù)結(jié)合起來(lái),目標(biāo)是三年后不再需要DBA做數(shù)據(jù)CloudDBA在今年雙11也做了一些探索,通過(guò)對(duì)全量SQL以及數(shù)據(jù)的分析,我們實(shí)現(xiàn)了SQL動(dòng)優(yōu)化(慢SQL優(yōu)、空間優(yōu)化(無(wú)用表無(wú)用索引分析、訪問(wèn)模型優(yōu)化(SQL和KV)和空間增長(zhǎng)預(yù)測(cè)等功能。展望明年的雙11,我總結(jié)了三個(gè)Higher意味著更高的峰值,背后其實(shí)是更低成本的追求,用極致的彈性能力e 之前在臉書任職,ApacheFlinkcommitter。實(shí)時(shí)計(jì)算in1999個(gè)領(lǐng)域衍生出眾多產(chǎn)品,例如依托于淘寶、天貓為主的平臺(tái)、阿里平臺(tái)、螞蟻金服支付寶、阿里云、大文娛等。今天的阿里它已經(jīng)不僅僅是一個(gè)平臺(tái),而是一個(gè)龐大的應(yīng)用生態(tài)。阿里巴巴目前是全球最大的平臺(tái),2065500有5的1/3,每天有大量的數(shù)據(jù)。目前,阿里巴巴的數(shù)據(jù)量級(jí)已經(jīng)達(dá)到EB級(jí)別,每天的增長(zhǎng)量達(dá)到PB級(jí)別,實(shí)時(shí)計(jì)算日常峰值處理的數(shù)據(jù)量可達(dá)1每秒,今年11是達(dá)到了驚人11每年雙11阿里都會(huì)聚合有價(jià)值的數(shù)據(jù)展現(xiàn)給,GMV大屏是其中之一。整從DataBase寫入一條數(shù)據(jù)開(kāi)始,到數(shù)據(jù)實(shí)HBase,最后展現(xiàn)在大屏之需要實(shí)現(xiàn)Exactly-Once這個(gè)應(yīng)用場(chǎng)景的SLA非常高,要求秒級(jí)延遲和數(shù)據(jù)的精確性,但它的計(jì)算并機(jī)器學(xué)般有兩個(gè)重要的組件:和Moe。傳統(tǒng)的機(jī)器學(xué)習(xí)使用批計(jì)算對(duì)eaure和Moel的訓(xùn)練,這樣更新頻率太低,無(wú)法適應(yīng)數(shù)據(jù)在不斷變化的應(yīng)用的需求。例如在雙11時(shí),商品的價(jià)格、活動(dòng)的規(guī)則與平時(shí)完全不同,依實(shí)時(shí)機(jī)器學(xué)臺(tái)主要包括兩個(gè)部分:實(shí)時(shí)Feature計(jì)算和實(shí)時(shí)Model計(jì)算。這后的Metrics是海量的,實(shí)時(shí)計(jì)算的State將是異常巨大的機(jī)器學(xué)習(xí)計(jì)算復(fù)雜,會(huì)耗用大量的CPU計(jì)算資IO實(shí)時(shí)A/B用戶Query也有可能是基于實(shí)時(shí)數(shù)據(jù)的不斷變化的,典型的例A/BTesting。算法工程師在調(diào)優(yōu)Mdel時(shí)會(huì)測(cè)試并對(duì)比多種Mdel不同的Model有不同的計(jì)算模式和方法,產(chǎn)生不同的計(jì)算結(jié)果。因此,往往會(huì)有不同的Qury訂閱實(shí)時(shí)數(shù)據(jù),產(chǎn)生結(jié)果后根據(jù)用戶回饋迭代Mdel,最終得到最優(yōu)模型。A/BTesting的在于算法工程師往往需要計(jì)算很多etrcs。如果所有Metrcs都通過(guò)實(shí)時(shí)計(jì)算進(jìn)師感的Metrics進(jìn)行聚合,收集起來(lái)并發(fā)送Druid引擎。這樣,算法工程師析,從而找到最有的算法Model。Flink的選定及阿里 Flink很好地引入和設(shè)計(jì)了State,State復(fù)雜的邏輯計(jì)算如joinFlink引入了Chandy-Lamport算法,在此算法的支撐下可以完美實(shí)現(xiàn)等里開(kāi)辟了名為Blink的項(xiàng)目。 Blink主要包括、調(diào)度和計(jì)算,不同公司在使用Flink時(shí),、調(diào)度以及底層優(yōu)化等方面會(huì)有諸多不同,阿里巴巴的blink內(nèi)部也對(duì)Runtme了諸多個(gè)性化的優(yōu)化,這一層不好ApacheFlink區(qū)統(tǒng)一,我BlinkRntie。FlinkFlinkSQLBlinkSQL,沒(méi)有特別大的區(qū)別。BlinkRuntime優(yōu)JobMaster管理所有JobJobMaster法承接的Job,產(chǎn)生了瓶頸。因此,我們重構(gòu)了架構(gòu),使每一個(gè)Job擁有自己的Master。早期的Flink中TaskManager管理很多Task,某一個(gè)Task的問(wèn)題有可能導(dǎo)致整個(gè)TaskManagercrash,進(jìn)而影響其他Job。我們改變了設(shè)計(jì),使得每一個(gè)Job都擁有自己的TaskManager,實(shí)現(xiàn)了Job的。引入ResourceManager。ResourceManager可以和JobMaster通訊,我們不僅將這些優(yōu)化應(yīng)用在YarnCluster上,還應(yīng)用到Mesos和Stand-alone有了這些工作,F(xiàn)link就可以應(yīng)用到大規(guī)模的集群部署中,支撐成千上萬(wàn)的jobIncremental實(shí)時(shí)計(jì)算需要不停的在hckpoit的時(shí)候來(lái)保留計(jì)算狀態(tài)。早期的Fink的checpoit的設(shè)計(jì)存在缺陷,在每個(gè)hecpoit發(fā)生的時(shí)候,它會(huì)所有舊的狀態(tài)數(shù)據(jù),和新的數(shù)據(jù)合并后按照全量的方式寫入磁盤Stte的不斷增大,在每和隔,failover時(shí)候回退的計(jì)算就越大,造成的數(shù)據(jù)延遲也就越嚴(yán)重。為了減少checkpoint間隔,我們提出了IncrementalCheckpoint的設(shè)計(jì)。概括的說(shuō)就是在ceckoint的時(shí)候只增量的state變化的數(shù)據(jù)。由于歷史上每個(gè)heckpint的數(shù)據(jù)都已經(jīng)保存,后面的chckpont只需要將不同的數(shù)據(jù)放入,這樣每次chckpint需要更新的數(shù)據(jù)量就非常小chckpont可以在若干秒到結(jié)果返回之后才能開(kāi)始下一個(gè)數(shù)據(jù)請(qǐng)求,這種做法造成了CPU資源的浪費(fèi),因?yàn)橛寐薀o(wú)法提高到極致,也就大大影響了單位CPU下的計(jì)算吞吐。為此提升計(jì)算吞吐,我們?cè)O(shè)計(jì)了Async-IO的數(shù)據(jù)框架,它允許異步地多線程地?cái)?shù)據(jù)。每次數(shù)buffer暫時(shí)保存先到的數(shù)據(jù),等前部數(shù)據(jù)全部到達(dá)后再批量地發(fā)送。在使用了Async-IObuffer以提升幾十倍甚至幾百倍,值得一提的是,以上所述Blinkuntme化已經(jīng)全部貢ApacheFlinkFlinkSQL功能阿里貢獻(xiàn)了ApacheFlinkSQL80%的研發(fā)目前,ApacheFlinkSQL80%的功能是阿里巴巴實(shí)時(shí)計(jì)算團(tuán)隊(duì)貢獻(xiàn)的,包括兩百個(gè)提交和近十萬(wàn)行代碼。使用FlinkSQL的原因是因?yàn)槲覀儼l(fā)現(xiàn)了底層API給用戶的遷移、上線帶來(lái)的極大不便。那么,我們又為什么選擇SQL?主要原因如下:SQL是十分通用的描述性語(yǔ)言,SQL適合用來(lái)讓用戶十分方便的描述Job的SQL擁有比較好的優(yōu)化框架,使得用戶只需要專注于業(yè)務(wù)邏輯得設(shè)計(jì)而不用計(jì)算機(jī)編程基礎(chǔ),從產(chǎn)品設(shè)計(jì)到產(chǎn)品開(kāi)發(fā)各種人員都可以快速掌握SQL的使SQL的API十分穩(wěn)定,在做機(jī)構(gòu)升級(jí),甚至更換計(jì)算引擎時(shí)都不用修改用戶的Job而繼續(xù)使用。有些應(yīng)用場(chǎng)景需要流式更新,批式驗(yàn)證。使用SQL可以要想設(shè)計(jì)和批處理統(tǒng)一的流計(jì)算SQL,就要了解流處理和批處理的區(qū)別。兩者的區(qū)別在于流處理的數(shù)據(jù)是無(wú)窮的而批處理的數(shù)據(jù)是有限的。這個(gè)本質(zhì)區(qū)別又能流處理會(huì)不斷產(chǎn)生結(jié)果而不會(huì)結(jié)束,批處理往往只返回一個(gè)最終結(jié)果并且結(jié)束。比方說(shuō),如果要統(tǒng)計(jì)雙11的金,用處計(jì)算要雙11天的所有結(jié)束后,再開(kāi)始計(jì)算所有買家花費(fèi)的總金額并得到一個(gè)最終數(shù)值。流理需追實(shí)時(shí)金,實(shí)的算新結(jié)。流計(jì)算需要做checkpointfailover的時(shí)候能夠快速續(xù)跑。而批計(jì)算由于它的輸入數(shù)據(jù)往往是被持久化過(guò)的,因此往往不需要保留狀態(tài)。RetractioQuerySQL的不同。我們認(rèn)為這些區(qū)別只是一個(gè)job的屬性不同。為了描述流計(jì)算所特有的QueryConfiguration,它主要包括兩個(gè)部分:Latency定義了從數(shù)據(jù)產(chǎn)生到展現(xiàn)的延遲,如雙11大屏是秒級(jí)別。用戶根據(jù)自己的需要配置不同SLA,SQL系統(tǒng)會(huì)根據(jù)SLA做最好的優(yōu)化,使得State流計(jì)算是永不停止的,但是流數(shù)據(jù)中的Stte往往不需要保留很久,保留過(guò)我們通QueryConfiurtion描述了流和批所不同的一些屬性。接下來(lái)我們需要繼續(xù)考慮如何設(shè)計(jì)流式的SQL?動(dòng)態(tài)表(Dynamic-眾所SQL中并沒(méi)有表,這就使得設(shè)計(jì)流如圖,左邊是輸入流,我們?yōu)槊恳粭l數(shù)據(jù)產(chǎn)生Dynamic-Table,再將Table的變化用l送出去。這樣兩次變化后,輸入流和輸出流中的數(shù)據(jù)始終保持一致,這就證明了引入Dynamic-Table并沒(méi)有丟失語(yǔ)義和數(shù)據(jù)。有了動(dòng)態(tài)表的概念,我們就可以應(yīng)用傳統(tǒng)SQL作用于流上。值得一提的是,Dynamc-Tble是虛擬的存在著,它并不需要實(shí)際的來(lái)落地。我們?cè)賮?lái)看一個(gè)例如圖,當(dāng)有輸入流的時(shí)候我們進(jìn)行連續(xù)查詢。tram理解為一個(gè)Dy-namic-Table,動(dòng)態(tài)查詢是基于Dynamic-Table產(chǎn)生一個(gè)新的Dynamic-Table,如果需要新產(chǎn)Dynmi-Table還可以繼續(xù)產(chǎn)生流。這里,因?yàn)榧尤肓诉B續(xù)查詢的SQL查詢的能力。StreamSQL是沒(méi)必要存在通過(guò)上面的討論,我們發(fā)現(xiàn)有了Dynamic-Table之后我們不需要再創(chuàng)造任何新的流式SQL的語(yǔ)義。因此我們得出這樣的結(jié)論:流式SQL是沒(méi)必要存在的。ANSISQL完全可以描述StreamSQL的語(yǔ)義,保持ANSISQL的標(biāo)準(zhǔn)語(yǔ)義是我們構(gòu)建FlinkSQL個(gè)基本原則。FlinkSQL功能簡(jiǎn)基于上面的理論基礎(chǔ),我們繼而實(shí)現(xiàn)了流計(jì)算所需要的若干NSISQL功能,包括:DML、DDL、UDF/UDTF/UDAFJoin、Retraction)、Window聚例如InnerJoin的實(shí)現(xiàn)原理如下:數(shù)據(jù)會(huì)從輸入的兩邊任意一條流而來(lái),一邊數(shù)據(jù)先來(lái)會(huì)被存在State中并按照J(rèn)oiningkey查詢另外一邊的e,如果存在就會(huì)兩個(gè)state,一邊的數(shù)據(jù)到達(dá)后存下來(lái)等待另外一邊數(shù)據(jù),全部到達(dá)后innerjoin產(chǎn)生結(jié)果。除了兩條流的join之外,我們還引入了流和外部表的n。我們的機(jī)器學(xué)習(xí)平臺(tái)會(huì)把大量的數(shù)據(jù)在HBase中,查詢HBase中的數(shù)據(jù)的操作實(shí)際上是在連Lookup法,是完全按照SQL-2011的標(biāo)準(zhǔn)實(shí)現(xiàn)的。同樣的查詢?cè)谂?jì)算上也適用。的,計(jì)只有oWorldark每13出現(xiàn)頻率為其他次數(shù)的完全沒(méi)有,因此結(jié)果表只有一行“3加一個(gè)o為o的出現(xiàn)頻率變?yōu)?次,我們?cè)谠~頻的結(jié)果表中插入“2——”這么一行新的數(shù)據(jù)。顯然,出現(xiàn)兩次的單詞是一個(gè),那么“2”這個(gè)123這種問(wèn)題的本質(zhì)原因是因?yàn)榱饔?jì)算輸出的結(jié)果是對(duì)計(jì)算的一個(gè)提前觀測(cè),隨著數(shù)據(jù)的不斷更新,計(jì)算結(jié)果必然會(huì)發(fā)生改變,這就要求我們對(duì)之前發(fā)生的結(jié)果做撤回retacioo的頻率從12的時(shí)候,我們不僅需要在結(jié)果表中插入“2——1”這么一值得一提的是什么時(shí)候需要撤回,什么時(shí)候不需要,完全由SQL的QueryOptimizer來(lái)判斷,這個(gè)用戶是完全不需要感知的,用戶只需要通過(guò)SQL描述他的優(yōu)化框架決定而非用戶。這一點(diǎn),大大體現(xiàn)了使用SQL,并利用SQL中所擁有的天Window聚SessionWindow。Window的聚合事實(shí)上是按照用戶給定的Window的邊界做一batch處理。除了添加新的功能,我們還做了大量的查詢優(yōu)化。例如micro-n。如果沒(méi)有cbacig,處理每一條數(shù)據(jù)就會(huì)伴隨著幾次IO讀寫。有了micro-batching可以IO理來(lái)處理上千條數(shù)據(jù)。除此之外,我們還做了filter/join/aggregatepushdownTopN化,下面再舉例解釋TopN的有式是當(dāng)沒(méi)一條數(shù)據(jù)來(lái)的時(shí)候,對(duì)保存的所有city進(jìn)行排序,再截取前三個(gè)y。這種設(shè)計(jì)每條數(shù)據(jù)跟新都會(huì)重新排列所有ity,勢(shì)必會(huì)造成大量計(jì)算資源我們的QueryOptimizer會(huì)自動(dòng)識(shí)別到查詢語(yǔ)句,對(duì)這種計(jì)算做優(yōu)化,真正執(zhí)行過(guò)程中只需要不停的更新排面前三的city就可以了,這樣大大優(yōu)化了計(jì)算基于流計(jì)算SQL之上我們開(kāi)發(fā)了兩個(gè)計(jì)算平臺(tái)一個(gè)是阿里云流計(jì)算平臺(tái)( u,該平臺(tái)允許用戶編寫L,并在臺(tái)部試dbug。調(diào)試正確后,用戶可以通過(guò)這個(gè)平臺(tái)直接將作業(yè)發(fā)布在阿里云集群上部署,部署完成后后檢測(cè)運(yùn)維上線的。因此這個(gè)平臺(tái)整合了所有實(shí)時(shí)計(jì)算的需求,集開(kāi)、Deug、線部署、運(yùn)于一體,加速了用戶開(kāi)和上線效率。值得一提的是,2017雙11算Jb年9放給外企,讓們夠使到里巴實(shí)計(jì)的。為了方便算法同學(xué)開(kāi)發(fā)機(jī)器學(xué)習(xí)任務(wù),我們基于FlinkSQL以及Hbase,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)面向算法人員、支持可視化自助開(kāi)發(fā)運(yùn)維的機(jī)器學(xué)臺(tái)——Porsche。如上圖所示,用戶在Porsche平臺(tái)的,通過(guò)可視化的方式將組件拖入畫布中,配置好組件屬性,定義好完整的計(jì)算DAG。這個(gè)DAG會(huì)被翻譯成SQL,最終提交給Blink執(zhí)行。另外,值得一提的是,Porsche支持w,今年雙11也是大放異彩,本平臺(tái)免去了算法同學(xué)學(xué)習(xí)使用SQL的成雙11ResourceManagementStorageBlinkRuntimeFlinkSQL,用戶通過(guò)pute和Porsche平臺(tái)提交Job,現(xiàn)在已經(jīng)在阿里內(nèi)部支持了數(shù)百FlinkSQLJob。上述就是阿里巴巴實(shí)時(shí)計(jì)算的現(xiàn)狀。在實(shí)時(shí)計(jì)算的助力下,雙11拿到1682億的輝煌戰(zhàn)果,實(shí)時(shí)計(jì)算的貢獻(xiàn)主要體合統(tǒng)計(jì)操作全部是是由Blink計(jì)算帶來(lái)的GMV的增總之,實(shí)時(shí)計(jì)算不僅滿足了阿里巴巴內(nèi)部多種多樣的需求,還提升了GMV。我們希望通過(guò)阿里云平臺(tái)把Blink實(shí)時(shí)計(jì)算能力輸出給阿里之外的所有企業(yè),讓他們能從中獲益。以上就是本次的。隨著人工智能在全球領(lǐng)域的持續(xù)高漲,chatbot人機(jī)交互作為其中一個(gè)分支在智能助理、智能服務(wù)、IOT等領(lǐng)域進(jìn)了白熱化競(jìng)爭(zhēng)態(tài)勢(shì),從全球大公司到紛紛一方面在ToC端面向各個(gè)領(lǐng)域的競(jìng)爭(zhēng)更加激烈(例如:在IOT領(lǐng)域的智能音箱)、垂直領(lǐng)域場(chǎng)景更加細(xì)分與豐富。另外一方面由ToC市場(chǎng)的競(jìng)爭(zhēng)開(kāi)始轉(zhuǎn)向ToB市場(chǎng)的競(jìng)爭(zhēng),、、、Amazon、、網(wǎng)易以及眾多startups紛紛在ToB領(lǐng)域通過(guò)、PaaS或者SaaS能力開(kāi)始布局,并且基本圍繞著IM生態(tài)體系的綁定輸出。例如:在Messager平臺(tái)上 微軟的AISolution、 的AISDK與Api.ai、網(wǎng)易七魚等等ToC,持續(xù)在智的混合模式上逐步升級(jí),并且把傳統(tǒng)的服務(wù)往更在ToB端,阿里從淘寶到阿里行業(yè)生態(tài)、二環(huán)商家生態(tài),以及三環(huán)企業(yè)面對(duì)阿里行業(yè)生態(tài)圈:通過(guò)平臺(tái)化能力阿里生態(tài)超過(guò)30個(gè)BU,包含面對(duì)商家生態(tài)圈:與千牛平臺(tái)團(tuán)隊(duì)協(xié)同,基于IM消息體系,構(gòu)建店體系,提供給商家全自動(dòng)+半自動(dòng)人工輔助智能能力面對(duì)企業(yè)生態(tài)圈:依托于釘釘企業(yè)溝通生態(tài)圈的IM息體系以及阿里云上的在過(guò)去的2017年阿里從阿里行業(yè),逐步商家和企業(yè);從中國(guó)開(kāi)始世界,覆蓋英語(yǔ)、葡語(yǔ)、西班牙、語(yǔ)、泰語(yǔ),AE及Lazada海外業(yè)務(wù);從PC、無(wú)線了PC、無(wú)線和,在多端進(jìn)行;阿里全面從智能人機(jī)交在過(guò)去的2017年阿里全年服務(wù)3.4億名淘寶消費(fèi)者,其中雙11當(dāng)天待人904,智能服務(wù)占比達(dá)95%,智能服務(wù)在過(guò)去的2017年商家的店開(kāi)啟商家數(shù)達(dá)到30w,其中雙11當(dāng)器人量超過(guò)1億在過(guò)去的2017釘釘端企業(yè)數(shù)超過(guò)1萬(wàn)家;2017年10月云棲大會(huì)正式開(kāi)放云,截止到目前Lazada東南亞服務(wù)業(yè)務(wù),并逐步在多個(gè)行業(yè)領(lǐng)域架構(gòu)體系端:圍繞著SaaSPaaS體系,逐步將前端和后端體系進(jìn)行模塊化的是WebApp。雖然WebApp功能上略NativeApp,但在快速響應(yīng)業(yè)務(wù)需求和快速接入其他APP兩方面相對(duì)ative優(yōu)勢(shì)明顯。在經(jīng)過(guò)3個(gè)大版本的不斷升級(jí)與改造后,形成了按照模塊劃分7前端架構(gòu)體系,如下圖:行業(yè)定制層:不業(yè)接入阿里平臺(tái),在既定的開(kāi)放規(guī)范下對(duì)UI、業(yè)務(wù)、context類似koa.js/express.js的設(shè)計(jì),將view/util/request/pipeline/channel等模塊掛載到tis對(duì)象上,消息組件、業(yè)務(wù)模塊等都執(zhí)行在his這個(gè)context中。我們可以輕松對(duì)tis進(jìn)行擴(kuò)展,以滿足不同業(yè)務(wù)對(duì)于平之為”“,雖然目前的只有機(jī)器人和人工,我們?cè)诩軜?gòu)上支持個(gè)可換些組件在不同的中都可以復(fù)用,阿里平臺(tái)90%的功能擴(kuò)展都可以通View:具有典WebIMInput、output、addPlugin客戶端定制層:適配不業(yè)業(yè)務(wù)在不同的APP端的定制持以PaaS和SaaS輸出模塊化整個(gè)管理和流程模塊化,構(gòu)建算法和業(yè)務(wù)模塊可插拔的并行架體在算法體系持續(xù)按照面向不同的場(chǎng)景優(yōu)化和升級(jí)整個(gè)算法體系模型,在2017年阿里平臺(tái)的算法體系同樣也按照領(lǐng)域化和平臺(tái)化體系持續(xù)升級(jí)發(fā)展,整個(gè)人機(jī)交TaskBot:面向多領(lǐng)域技術(shù)完成任務(wù)型構(gòu)建與問(wèn)ChatBotRecBot過(guò)MachineReading的方法來(lái)完成問(wèn)答DeepQA隨著里平不的擴(kuò),僅要在向C務(wù)咨詢問(wèn),而也要在領(lǐng)和承起,而些域中在注數(shù)(liEpress)?;诖耍业腁能發(fā)重的作。最的想是將一環(huán)學(xué)到知用來(lái)助新DSSAdvQA,TLunsupervised,supervised。[2]supervied技術(shù),同時(shí)結(jié)合深度神經(jīng)網(wǎng)絡(luò)DN。在這個(gè)設(shè)定下主要有兩種框架,一個(gè)是Fully-shared(FS),另外一個(gè)是Specific-shared(SS),框架圖如下:這里兩個(gè)的問(wèn)題針對(duì)短語(yǔ)表達(dá),我們通過(guò)品類管理和屬性管理了一個(gè)意圖堆,從而較好的解采用了基于知識(shí)圖譜的識(shí)別方案和基于語(yǔ)義索引及dssm判:基于語(yǔ)義索引及dssm案知識(shí)圖譜的識(shí)別方案的優(yōu)勢(shì)是在于準(zhǔn)確率高,但是不能覆蓋所有case。因此,我們提出了一種基于語(yǔ)義索引和dssm結(jié)合的商品識(shí)別方案兜底?;赿ssmdssm是微軟一種用于query和doc匹配的有監(jiān)督的深度語(yǔ)義匹配網(wǎng)絡(luò),能夠較好的解決詞匯鴻溝的問(wèn)題,捕捉句子的內(nèi)在語(yǔ)義。本文以dssm型的acc在測(cè)試集上有92%負(fù)樣本則是通過(guò)利用query和點(diǎn)擊的類目作為,檢索出來(lái)一些相下來(lái)。強(qiáng)化學(xué)習(xí)是agent從環(huán)境到行為的映射學(xué)習(xí),目標(biāo)是信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,由環(huán)境提供強(qiáng)化信號(hào)評(píng)價(jià)產(chǎn)生動(dòng)作的好壞。g通過(guò)不斷的探索外部的model環(huán)境交互的展示:深度強(qiáng)化學(xué)習(xí)是結(jié)合了深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí),主要利用深度學(xué)習(xí)強(qiáng)大的非線性agentstate和stateDLenvmoeatonstate=(intent1,query1,price1,is_click,query_item_sim,…,pwer,user_inter,age)其中intent1表明的是用戶當(dāng)前的意圖,query1表示的用戶的原始queryprice1表示當(dāng)前展現(xiàn)給用戶的商品的均價(jià),s_clck表示本輪交互是否發(fā)生點(diǎn)擊,query_item_sim表示query和item的相似度。power表示是用戶的力,user_inter表示用戶的,age表示用戶的。reward的設(shè)計(jì)包括下面3個(gè)方面::設(shè)置成[1+math.log(price+1.0)A3C種方案在阿里平臺(tái)中還存在一種需要?jiǎng)討B(tài)獲取系統(tǒng)數(shù)據(jù)并且整個(gè)流程相對(duì)較為個(gè)性化的場(chǎng)景,這種場(chǎng)景的體系數(shù)據(jù)偏少甚至沒(méi)有并且需要跟對(duì)應(yīng)的ERP等系統(tǒng)打通,因此我們就構(gòu)建以一套BtFrmewrk系統(tǒng),來(lái)滿足對(duì)應(yīng)企業(yè)的運(yùn)營(yíng)或者開(kāi)發(fā)同學(xué)完整個(gè)BFW1.0體系盡管如此,整個(gè)BFW1.0面向復(fù)雜業(yè)務(wù)以及面向開(kāi)發(fā)者的靈活度不足,因此2018年,BFW1.0按照chatflow的體系思路進(jìn)行升級(jí)成為BFW2.0進(jìn)性,對(duì)準(zhǔn)確率要求相對(duì)較低。面向open的聊器人目前無(wú)論在學(xué)術(shù)界一種是學(xué)術(shù)界非?;餌eepLearning成模型方式,通過(guò)Encoder-De-coder模型通過(guò)LSTM的方式進(jìn)行SequencetoSequence生成,如下圖:RetrievalModel 候選集數(shù)據(jù),然后通過(guò)Seq2SeqModel對(duì)候選集進(jìn)行erank,重排序后超過(guò)制定的閾值就進(jìn)行輸出,不到閾值就通過(guò)Seq2SeqModel進(jìn)行答案生成,整體流程在阿里平臺(tái)的業(yè)務(wù)體系中,存在大量知識(shí)數(shù)據(jù)是無(wú)法通過(guò)先驗(yàn)知識(shí)結(jié)構(gòu)化或者結(jié)構(gòu)化效率極低的場(chǎng)景,例如淘寶雙十一大促的活動(dòng)、稅務(wù)法律等等。因此我們通過(guò)機(jī)器閱讀理解的運(yùn)用,可以減少人工知識(shí)點(diǎn)拆解工作,讓機(jī)器直接對(duì)規(guī)則進(jìn)行閱讀,為用戶提供規(guī)則解讀服務(wù),是最自然的交互方式。因此在2017。機(jī)器閱讀理解技術(shù)機(jī)器閱讀理解模型已經(jīng)在學(xué)術(shù)界取得了相當(dāng)大的突破,但由中,存相當(dāng)?shù)?。從上面的例子可以看到,業(yè)務(wù)場(chǎng)景中的活動(dòng)規(guī)則、文檔具有一定的獨(dú)特章普遍比較長(zhǎng),答案也較長(zhǎng),往往跨多個(gè)句子。這與一些公開(kāi)模型所閱讀的wiki目前的機(jī)器閱讀模型是領(lǐng)域相關(guān)的,這使得領(lǐng)域的快速拓展成為一大,阿的過(guò)程中,共有4個(gè)模塊參與處理:文章片段定位模塊針對(duì)用戶問(wèn)題,候選的文檔段落集合供機(jī)器閱讀產(chǎn)生答「天貓?jiān)煳锕?jié)」有關(guān)的文檔段落。定位的方式可以通過(guò)文本分類、文本檢索或者問(wèn)題模板來(lái)完成,文本分類需要提前標(biāo)注數(shù)據(jù)訓(xùn)練模型目前我們的流程中主要以監(jiān)督文檢索者工的題板定為。DNN服務(wù)模塊部署了本文前半部分描述的深度機(jī)器閱讀理解模型,在接受第2步處理好的<question,doc>向量后,計(jì)算輸出文章中的詞語(yǔ)或者句子作為答就在最近我們機(jī)SQuADo,ExactMatch指標(biāo)首交互式智能的也逐漸成為了新的領(lǐng)域,在未來(lái)需要基于場(chǎng)景數(shù)據(jù)的基礎(chǔ)在未來(lái)阿里平臺(tái)會(huì)持續(xù)在平臺(tái)化和垂直領(lǐng)域方向持續(xù)深入下去,圍繞著行業(yè)、商家、企業(yè)以及整個(gè)chatbot生態(tài)構(gòu)建智能服務(wù)的阿里智能服務(wù)平臺(tái)。Feng-LinLi,Qiu,HaiqingChen,XiongweiWang,XingGao,JunHuang,JuweiRen,ZhongzhouZhao,WeipengZhao,LeiWang,GuweiJin,WeiChAlMAsss:AnInligentAssforCeatnanInnovatvmerceExperience.CIKM2017:2495-2498JianfeiYu,Qiu,JingJiang,ShuangyongSong,JunHuang,WeiChuandHaiqingheetal.MdeRelationshipsforTransferLearningonRetrieval-basedQuestionAnsweringSystemsinmerce[C]//WSDM2018.YinW,SchützeH,XiangB,etal.N:Attention-BasedConvolutionalNeuralNetworkforModelingSentencePairs[J].ComputerScience,2015.HuB,LuZ,LHetal.Convoonaneuranetworkarchitecturesformatchingnaturallanguagesentences[J].2015,3:2042-2050.PangL,LanY,GuoJ,etal.TextMatchingasImageRecognition[J].SukhbaatarSSzlamA,WestonJ,etal.End-To-EndMemoryNetworks[J].ComputerScience,2015.WuY,WuW,XingC,etal.SequentialMatchingNetwork:ANewArchitectureforMulti-turnResponseSelectioninRetrieval-BasedChatbots[C]//MeetingoftheAssociationforComputationalLinguistics.2017:496-505.HuangPS,HeX,GaoJ,etal.Learningdeepstructuredsemanticmodelsforwebsearchusingclickthroughdata[C]//ACMInternationalConferenceonConferenceonInformation&KnowledgeManagement.ACM,2013:2333-2338.gfLiu,XipengQiu,andXuanHuang2017.AraMulti-taskLearningforTextClassification.InACL.菜鳥倉(cāng)配自動(dòng)化UCS菜鳥正在持續(xù)增長(zhǎng),17年雙十一菜鳥配送物流訂單已經(jīng)到達(dá)8.12億,相信10億UCSUnifiedControlSystem稱,UCS立的初衷是用一套控制系統(tǒng)實(shí)現(xiàn)對(duì)菜鳥下的所有自動(dòng)化設(shè)備進(jìn)行調(diào)度控制,讓菜鳥上游的業(yè)務(wù)系統(tǒng)掉底層所有設(shè)備的差異,統(tǒng)一走UCS倉(cāng)、分撥中心自動(dòng)化設(shè)備的調(diào)度控制。二、UCS在菜鳥倉(cāng)配體系下的位置UCS在整個(gè)菜鳥倉(cāng)配體系下,是一個(gè)集中的生產(chǎn)線控制系統(tǒng),它處于業(yè)務(wù)系統(tǒng)與自動(dòng)化生產(chǎn)線之間,對(duì)業(yè)務(wù)系統(tǒng)自動(dòng)化任務(wù)接口,對(duì)下菜鳥智慧倉(cāng)WCS即WarehouseControlSystem,它是一個(gè)純倉(cāng)庫(kù)設(shè)備的控制系統(tǒng),一般來(lái)講一個(gè)WCSWCSWCS一般來(lái)講WMSWCSUCS是一個(gè)自動(dòng)化設(shè)備生產(chǎn)線控制系統(tǒng),UCS的目標(biāo)是控制所有菜鳥倉(cāng)儲(chǔ)UCSWCS,它不是為某一條生產(chǎn)線定制的,它對(duì)下控制菜鳥所有智慧倉(cāng)的自動(dòng)化設(shè)備,對(duì)上層業(yè)務(wù)提供一套統(tǒng)一的API。用于各個(gè)業(yè)務(wù)對(duì)自動(dòng)化生產(chǎn)線下任務(wù),從而驅(qū)動(dòng)倉(cāng)內(nèi)的自動(dòng)化生產(chǎn)線執(zhí)行生產(chǎn)任務(wù),進(jìn)而因?yàn)閁CS,上游的業(yè)務(wù)系統(tǒng),不再需要關(guān)心具體自動(dòng)化WCS,UCS,即可完成自動(dòng)化業(yè)務(wù)的接入。UCSWCS,UCS不可取UCS解決菜鳥倉(cāng)配下各種自動(dòng)化生產(chǎn)線的集成接入,目前接入U(xiǎn)CS的生產(chǎn)線有:貨到人AGV,分揀機(jī),立庫(kù)(AS/RS),機(jī)械臂等。對(duì)業(yè) 下游各種異構(gòu)廠商生產(chǎn)線,統(tǒng)一對(duì)上游業(yè)務(wù)的接口。比如立有新松、昆船、中鼎、等。分揀機(jī)有:德馬泰克、范德蘭德、德瑪、解決自動(dòng)化生產(chǎn)線快速能力,比如一條自動(dòng)化生產(chǎn)線,需要快速的解決路由的控制指令通道的高可用,快速的送達(dá),確保在弱網(wǎng)的情況下,指解決復(fù)雜生產(chǎn)線硬件設(shè)備強(qiáng)調(diào)度協(xié)作的問(wèn)題,比如立庫(kù),出入庫(kù)可能都涉及到輸送線、堆垛機(jī)、RGV這些設(shè)備之間需要協(xié)作配合才能完成一個(gè)托盤出入庫(kù)。解決高速有序安全的生產(chǎn)作業(yè)問(wèn)題,比如分揀業(yè)務(wù),1小時(shí)要分揀2W單,解決自動(dòng)化場(chǎng)景下的業(yè)務(wù),做到優(yōu)于業(yè)務(wù)提前發(fā)現(xiàn)問(wèn)題,定位問(wèn)題的能UCSUCS通對(duì)UCSUCS控制臺(tái)提供自動(dòng)化任務(wù)信息、數(shù)據(jù)信息、調(diào)度信息等數(shù)據(jù)支撐,用于對(duì)某些調(diào)度類的自動(dòng)化任務(wù)做調(diào)度路徑規(guī)劃,然后按調(diào)度的路徑來(lái)順序執(zhí)行,每一段調(diào)度路徑可以映射成一個(gè)ISAISA指令經(jīng)過(guò)UCS調(diào)度類的自動(dòng)化任務(wù),控制系統(tǒng)可能會(huì)將受理的自動(dòng)化任務(wù),通過(guò)云倉(cāng)通道下發(fā)到倉(cāng)內(nèi),再由本地控制系統(tǒng)來(lái)執(zhí)行任務(wù)。通過(guò)標(biāo)準(zhǔn)控制,CCS知道什么樣的會(huì)觸發(fā)什么樣子的行為,比如一個(gè)立庫(kù)托盤掃碼的,對(duì)CCS來(lái)說(shuō)就是嘗試執(zhí)行入庫(kù)邏輯。以立庫(kù)上架為例,托盤從上架口進(jìn)去,先會(huì)經(jīng)過(guò)輸送線輸送,輸送到堆垛機(jī)碼頭后,堆垛機(jī)移動(dòng)到堆垛機(jī)碼頭來(lái)取貨,取完貨堆垛機(jī)要執(zhí)行送貨的指令,從而完成整個(gè)上架過(guò)程,這個(gè)過(guò)程本身就是一個(gè)調(diào)度,什么時(shí)候通知輸送線移動(dòng),什么時(shí)候通知堆垛機(jī)來(lái)取貨,以及什么時(shí)候堆垛機(jī)執(zhí)行送貨,整個(gè)過(guò)程是連貫的,需要調(diào)度系統(tǒng)來(lái)指揮每個(gè)步驟什么時(shí)候來(lái)執(zhí)行。它是一個(gè)指令中心,掌控所有生產(chǎn)線的A,下發(fā)ISA。SAUCS標(biāo)準(zhǔn)控制指令,結(jié)合生產(chǎn)線,CCS知道每一次LCS上來(lái)的,應(yīng)該會(huì)觸發(fā)什么樣ISACCS的將ISALCS。本地控制系統(tǒng)職責(zé)與自動(dòng)化設(shè)備建立連接通訊,通過(guò)給設(shè)備發(fā)送指令的方S行作業(yè)。待自動(dòng)化生產(chǎn)線執(zhí)行完后,驅(qū)動(dòng)再將設(shè)備報(bào)上來(lái)的統(tǒng)一成標(biāo)準(zhǔn)LCS具備倉(cāng)內(nèi)執(zhí)行日志,以及通信日志的查詢接口,用于直接在云端拉取UCS控制,對(duì)自動(dòng)作業(yè)行有的,可以于業(yè)前發(fā)現(xiàn)題,并速通知指導(dǎo)現(xiàn)場(chǎng)如何解決問(wèn)題,避免生產(chǎn)線卡住,可以人在千里之外,運(yùn)籌UCS承擔(dān)著菜鳥自動(dòng)化控制鏈比較的一個(gè)環(huán)節(jié)。我們?cè)谶^(guò)去一年的時(shí)間倉(cāng)等著我們?nèi)ブ温涞亍?017的自動(dòng)化元年,若干個(gè)菜鳥自動(dòng)化場(chǎng)景完成了從0到1的過(guò)程,隨著阿里未來(lái)5年1000億的投資注入菜鳥,18年菜鳥自動(dòng)化將迎來(lái)爆發(fā)式的增長(zhǎng),有的自動(dòng)化項(xiàng)目等著去支撐,復(fù)雜的自動(dòng)化場(chǎng)景等著去落地。我們需要的有志之士和我們一塊去完善我們的架構(gòu),去支撐菜鳥的自動(dòng)化快速發(fā)展,去迎接有意思的架構(gòu),準(zhǔn)備好了么?加入我們吧。1111種樣的戶益,如物貼、包券品券等。于平臺(tái)來(lái)說(shuō),采用最優(yōu)化的策略這些不同類型的用戶權(quán)益,可以有效的平衡消費(fèi)商家平這的益:費(fèi)可用更的買到儀商品商多了一種利方式消者因?qū)嵁a(chǎn)了的而提商的銷額;體GMV。雙11購(gòu)物津貼是2017年大促重量級(jí)的,是天貓雙11全球購(gòu)物可以起到促進(jìn)、提高客單價(jià)的作用。火炬紅包希望通過(guò)簡(jiǎn)單的紅包獲取方式、爆發(fā)式的紅包、式的紅包統(tǒng)一,形成全民可玩的話題爆點(diǎn),提升雙11活動(dòng) 不同類型的權(quán)益和有著不同的目的,形成了不同 策略,對(duì)節(jié)奏、金額的控制有多種因素需要考慮。我們以購(gòu)物津貼和紅包的為例,列舉了 雙11根據(jù)消費(fèi)者雙11的記錄,產(chǎn)出一個(gè)可以根據(jù)消費(fèi)者近期行為數(shù)據(jù)預(yù)測(cè)201711消費(fèi)金額的模型。消費(fèi)者的特征主要分為行為特征和屬性特征,其消費(fèi)金額預(yù)估中比較的兩個(gè)模型是消費(fèi)金額回歸模型和高額人群分類模型,用購(gòu)物津貼的消費(fèi)者占比提升51%,使用購(gòu)物津貼的GMV比提72%。消費(fèi)者敏感度模度。選用XGBoost模型,使用了如下的用戶特征:上A/B測(cè),體額件照權(quán)感度進(jìn)行個(gè)性化,對(duì)于特定人群,紅包人均使用率提升了17.%,人均消費(fèi)金額提升6.4%。消費(fèi)者力模用戶活動(dòng)互動(dòng)關(guān)系化,提升火炬紅包的。7輸除了規(guī)基礎(chǔ)征,采用艾浩忘曲模擬費(fèi)對(duì)類90&7306090將艾賓浩斯遺忘曲線理論應(yīng)用到消費(fèi)者類目中,消費(fèi)者對(duì)類目感會(huì)通過(guò)平臺(tái)上的一系列行為來(lái)體現(xiàn),如點(diǎn)擊類目下的商品、收藏/類目下的商品等。將離線數(shù)據(jù)按天統(tǒng)計(jì)。偏好prefer隨時(shí)間t的衰減趨勢(shì)如下圖指數(shù)模型所示,即:對(duì)用戶在不同時(shí)間窗口中的行為,統(tǒng)計(jì)行為頻次。不為類型設(shè)定不同權(quán)重,而響衰。如,共有n間tX、2…Xt天內(nèi)點(diǎn)擊數(shù)、30天內(nèi)點(diǎn)擊數(shù),pc3天內(nèi)點(diǎn)7天內(nèi)點(diǎn)擊數(shù)等),具體如下:未來(lái)權(quán)益的應(yīng)該會(huì)更加智能化,可以根據(jù)不同的目的,結(jié)合商家、品當(dāng)?shù)姆绞浇o消費(fèi)者,同時(shí)也要考慮權(quán)益組合的復(fù)雜,降低消費(fèi)者認(rèn)知、使用2017雙11:開(kāi)啟智能全鏈路壓測(cè)1智能壓測(cè)概述全鏈路壓測(cè)模型是全鏈路業(yè)務(wù)的抽象集合,直接模擬大促峰值模型,驅(qū)動(dòng)整體壓測(cè)。圖2所示。算整體壓測(cè)指標(biāo)和各子模塊壓測(cè)業(yè)務(wù)指標(biāo)(拆單比、主訂單、子訂單、購(gòu)物車:立模型構(gòu)建:模型構(gòu)建,根據(jù)模型參數(shù),自動(dòng)構(gòu)建壓測(cè)模型,生成壓測(cè)流智能壓測(cè)模型支撐大促效果:產(chǎn)出的全鏈路壓測(cè)模型準(zhǔn)確率達(dá)到90%作作異合行方測(cè)壓2智能模型過(guò)智能施壓,今年的施壓量級(jí)達(dá)到1600萬(wàn)/s,預(yù)案執(zhí)行準(zhǔn)確率100%,預(yù)熱充分,場(chǎng)景之間限流閾 壓測(cè)資源自動(dòng)分智 ,細(xì)粒3自動(dòng)化施壓流程間緩存被擊穿,直接打到DB端產(chǎn)生雪崩效應(yīng),導(dǎo)致系統(tǒng)波動(dòng)。以往都是各個(gè)業(yè)務(wù)系統(tǒng)自行預(yù)熱,中間可能會(huì)存在疏漏和預(yù)熱不完善,今年推出智能預(yù)熱系統(tǒng),可覆蓋應(yīng)用及應(yīng)用間關(guān)聯(lián)的預(yù)熱景,一鍵實(shí)現(xiàn)全鏈路系統(tǒng)通過(guò)智能預(yù)熱系統(tǒng),已實(shí)現(xiàn)億級(jí)別數(shù)據(jù)的緩存預(yù)熱、應(yīng)用預(yù)熱和DB預(yù)熱,確保0預(yù)DB4預(yù)熱系統(tǒng)結(jié)構(gòu)是mck到其自身系統(tǒng)的請(qǐng)求,同時(shí)使用的數(shù)據(jù)也比較單一,這中間會(huì)出現(xiàn)很多業(yè)務(wù)點(diǎn)覆蓋不到,5將業(yè)務(wù)應(yīng)用瓶頸發(fā)現(xiàn)并消滅在平時(shí),下圖6展示了常態(tài)化智能壓測(cè)流程。6常態(tài)化智能壓測(cè)流程相同的配置)中進(jìn)行,對(duì)線上流量無(wú)任何影響,操作時(shí)可一鍵將目標(biāo)應(yīng)用集群按比智能施壓:按照壓測(cè)模型和策略和圖3中的施壓流程自動(dòng)施壓。性能基線&智能報(bào)告:在達(dá)到目標(biāo)量級(jí)后,各系統(tǒng)性能指標(biāo)和容量數(shù)據(jù),沉淀性能基線,和以往基線進(jìn)行對(duì)比,快速發(fā)現(xiàn)問(wèn)題,并通過(guò)業(yè)務(wù)埋點(diǎn)定位問(wèn)題可在今年智能壓測(cè)實(shí)施下,模型準(zhǔn)確率達(dá)到93%整體效率較去年提升2今年雙11峰值(32.5萬(wàn)筆,25.6萬(wàn)筆支付)如絲般順滑。今年是智能壓測(cè)實(shí)施第一年,后面智能壓測(cè)還會(huì)繼續(xù)創(chuàng)新和使用智能化方智能寫手:智能文本生成在2017雙11的應(yīng)用內(nèi)容化已經(jīng)成為淘寶近幾年發(fā)展的重點(diǎn),我們可以在淘寶APP(以下簡(jiǎn)稱手為主體的富文本內(nèi)容,“必買”中的,即圍繞一個(gè)來(lái)組織文本和商品的富的角度去描述商品、定義商品,豐富了手淘的產(chǎn)品形式,提供給了用戶有價(jià)值在剛過(guò)去的2017年雙十一中,智能寫手主要做了兩件事情,一是支持了大規(guī)模多的會(huì)場(chǎng)(參見(jiàn)圖1-圖4),會(huì)場(chǎng)一般由三部分構(gòu)成,分別是會(huì)場(chǎng)名稱、利 受限于數(shù)量和人力成本,一個(gè)商品或者會(huì)場(chǎng)的利益點(diǎn)一般不會(huì)超過(guò)三個(gè),大case用戶對(duì)一個(gè)商品不同的賣點(diǎn)或者說(shuō)不同的文案表述的關(guān)注度是不同的,例如有人關(guān)注性價(jià)比,有人關(guān)注品質(zhì)等等,人工編輯的較少的利益點(diǎn)文案沒(méi)辦法頁(yè)會(huì)場(chǎng)、雙十一主會(huì)場(chǎng)行業(yè)會(huì)場(chǎng)、雙十一主會(huì)場(chǎng)會(huì)場(chǎng)等多個(gè)場(chǎng)景上線了智能利益點(diǎn)。幾個(gè)場(chǎng)景樣式詳見(jiàn)以下,其中用紅色虛線框起來(lái)的使用了(圖1手淘首頁(yè) (圖2手淘主會(huì)場(chǎng)-行業(yè)會(huì)場(chǎng)(圖3手淘主會(huì)場(chǎng)-會(huì)場(chǎng) (圖4貓客首頁(yè)在手淘中,圖文型是一種重要的品組織形式,可理解為有的商品合富文本內(nèi)容,主要由人工編輯而成,生產(chǎn)費(fèi)時(shí)費(fèi)力,尤其在大促期間,要短時(shí)間內(nèi)生產(chǎn)大量的更是一個(gè)很大的。這次雙十一,智能寫手也參與到這個(gè)工作中,結(jié)合在文本內(nèi)容生成上的沉淀,生產(chǎn)了少量單品盤點(diǎn)類型的,具體樣式如下: (智能 (智能并根據(jù)挖掘出來(lái)的用戶偏好,從商品賣點(diǎn)集合中圈定用戶最感、最可能點(diǎn)擊的賣有行為過(guò)的,于是我們構(gòu)建了用戶偏好的排序模型對(duì)進(jìn)行優(yōu)選。商品的賣點(diǎn)挖掘:賣點(diǎn)挖掘的依賴一些基礎(chǔ)的數(shù)據(jù),包括商品的庫(kù)、airNN用戶對(duì)一個(gè)商品的賣點(diǎn)的點(diǎn)擊概率,然后,根據(jù)不同的場(chǎng)景要求選擇合適的PairXNN概在商品賣點(diǎn)的點(diǎn)擊率預(yù)估問(wèn)題中,我們把用戶偏好和商品賣點(diǎn)都用文本的方式進(jìn)行了表示,因此我們選擇baseAliakseiSeveryn[1工作,他們的工作主要解決短文本pair的排序問(wèn)題。在經(jīng)過(guò)不斷迭代實(shí)驗(yàn)優(yōu)化后,我們最終形成了我們的PairXNN網(wǎng)絡(luò)結(jié)構(gòu),如下圖所示:AdditionalFeatures:引入人工定義的額外的特征,輔助模型效果。例如用戶偏好的特征、賣點(diǎn)的統(tǒng)計(jì)類特征、用戶偏好和賣點(diǎn)的overlap特征等。整個(gè)PairXNN模型的訓(xùn)練和預(yù)測(cè)是基于我們內(nèi)部自研的XTensorflow平在對(duì)用戶側(cè)的偏好做語(yǔ)義抽取的時(shí)候,考慮到用戶偏好的特殊性,它結(jié)構(gòu),包括全連接DNN[1]CNN、GatedN[3]、self-attention[2]和tailoredattention。其中,GatedCNN是對(duì)傳統(tǒng)的CNN結(jié)構(gòu)做了優(yōu)化,加入了gate機(jī)制,可以慮到對(duì)于用戶的偏好序列,需要更關(guān)注全局的語(yǔ)義相關(guān)性。tailredatenion則是我們?yōu)榱藘?yōu)化性能,簡(jiǎn)化語(yǔ)義表示網(wǎng)絡(luò)所新結(jié)構(gòu),因?yàn)橹悄芾纥c(diǎn)的場(chǎng)景都是重要場(chǎng)景,流量很大,對(duì)性能要求比較高。最終經(jīng)過(guò)雙十一期間的線上分桶測(cè)試,GatedCNN在網(wǎng)絡(luò)性能和效果上綜合最優(yōu),于是雙十一全量上線的模型中采用GatedCNN的語(yǔ)義表示網(wǎng)絡(luò)結(jié)構(gòu)。除了上述對(duì)于useritem側(cè)信息的映射和抽取,為了計(jì)算用戶和利益點(diǎn)的相關(guān)性,對(duì)用戶偏好標(biāo)簽embedding層輸出和商品賣點(diǎn)embedding層輸出的cosinesimilarity算假定用戶側(cè)所有詞的embeding矩陣為Umd,商品側(cè)詞的embedding矩陣為Tnd,那么兩側(cè)詞之間一一對(duì)應(yīng)的余弦相似度(embedding已歸一化)為:我們還在這個(gè)基礎(chǔ)上做了globalpooling,分別為maxpooling/minpooling/averagepooling,得3數(shù)值。將上式得到的相似度打平后,與pooling的結(jié)果concat成一維向量共同輸入至下一層。對(duì)用戶偏好的語(yǔ)義表示和商品賣點(diǎn)的語(yǔ)義表示計(jì)算bilinearsimilarity。定義一個(gè)矩陣M去連接用戶側(cè)向量u,商品側(cè)向量t,如下:由于此時(shí)M是可訓(xùn)練的,這樣就可以更好的將user和t側(cè)的空間靠近,線上實(shí)驗(yàn)結(jié)果表明,兩個(gè)層次的相似度疊加使用的ctr要優(yōu)于單獨(dú)使用這可由外(營(yíng)輸,可以于們發(fā)所淀選品。確定了之后,我們根據(jù)這個(gè)從精品庫(kù)中選取和相關(guān)性高6-10個(gè)商品。商品推薦理由生成。為每個(gè)的商品生成一段40-80個(gè)字的推薦理由DeepGeneration圖文生成的個(gè)模,品薦理的成題生,們把們歸NL薦由問(wèn),入商信而標(biāo)輸?shù)钠返腅node-DeodrtetonbasedSeq2Seq5-6]的basemodel,最終形成了我們的DepGenerationNetwork。coverageattention在推薦理由生成中經(jīng)常會(huì)出現(xiàn)多個(gè)內(nèi)容重復(fù)描述同一個(gè)輸入信息的情況,或者是對(duì)于輸入信息在推薦理由中沒(méi)有涉及。這個(gè)問(wèn)題類似于機(jī)器翻譯問(wèn)題中“過(guò)譯”和“漏譯”的問(wèn)題。在傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯方法中,有coerageset的概念,去記錄sorcecoveragemodelattentionmodelaijattentiontiidecoderstate,hjencoder的其中j是Fertility念,可以理解成一個(gè)source一般會(huì)被映射成多少個(gè)詞context在推薦理由的輸出當(dāng)中,模型的主體是基于RNN的seq2seq架構(gòu),那一部分是encoder那么對(duì)于不同的輸出,2部分的影響應(yīng)該是不同的,比如說(shuō),當(dāng)前一個(gè)輸入詞是虛詞時(shí),主要的信息應(yīng)該由encoder影響,但是如果前一個(gè)詞和當(dāng)前詞明顯有相關(guān)性時(shí),當(dāng)前詞的主要應(yīng)該由前一個(gè)詞影響。所以,我們考慮加入conextgae,對(duì)這sisource信embedding后的輸出ti1是前一步decodingstate,yi1是前一步的輸出詞。Weyi1Uti1decodeCsisource,zi來(lái)決定下一個(gè)輸出和那一部分關(guān)系比較大Beam驗(yàn)中也嘗試了beamsearch。beamsearchpredict的時(shí)候使用,舉個(gè)例子,search在實(shí)踐過(guò)程中很有用,它提供了一種很好的對(duì)生成序列進(jìn)行干預(yù)的基礎(chǔ),一方面你beamsearch選集的選擇以及最終序列的選擇做定制化的處理,比如并沒(méi)有真正的序列關(guān)系,反而更需要一個(gè)類似特征抽取的部分,從而能根據(jù)進(jìn)行標(biāo)題的生成。而CNN在句子分類已經(jīng)有不錯(cuò)的應(yīng)用[7]了,于是我們?cè)跇?biāo)題生成問(wèn)題中,采用了CNN作為Encoder,實(shí)驗(yàn)結(jié)果也表明CNN比LSTM在標(biāo)題Reinment訓(xùn)練和預(yù)測(cè)的環(huán)境是不同的,訓(xùn)練在decoder我們的評(píng)價(jià)目標(biāo)是BLEU[11]值,這是整個(gè)句子生成之后和樣本之間的對(duì)比,而我們?cè)谟?xùn)練的時(shí)候是對(duì)于每一個(gè)位置predictlabelloss,那么造成了評(píng)價(jià)和訓(xùn)練目標(biāo)的差別,并且BLEU是一個(gè)整體目標(biāo),相當(dāng)于是個(gè)延遲的個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題,首先我們定義這個(gè)問(wèn)題的3個(gè)要素:action:每一個(gè)timestepdecode化學(xué)習(xí),當(dāng)收斂較好了,再?gòu)牡箶?shù)第二個(gè)位置開(kāi)始加入。Loss定義如下:算法,是gredient的方式,并且文本的action空間非常大,所以比距離,選擇距離最近的作為action。最終,除了第一個(gè)iee還保留著期望的輸入,其余都將是強(qiáng)化學(xué)習(xí)的效果評(píng)估?,F(xiàn)在采用BLEU、覆蓋率、準(zhǔn)確率、人工評(píng)測(cè)結(jié)合的方法來(lái)評(píng)估效果,但BLEUbadcase機(jī)器生成方面目前還有描述的準(zhǔn)確度、多樣性問(wèn)題需要解決,另外考慮到很多缺少足夠樣本的業(yè)務(wù)也有生成的需求,模型是否能具備遷移能力也是一個(gè)阿里巴巴推薦算法團(tuán)隊(duì)目前主要負(fù)責(zé)阿里平臺(tái)(包括淘寶、天貓、Lazada商品及feeds流推薦,其中用戶導(dǎo)購(gòu)場(chǎng)景個(gè)性化,首頁(yè)首圖個(gè)性化、猜你喜SeverynA,MschA.Learningtorankshorttextpairswithcovoluonadeepneuralnetworks[C]//Proceedingsofthe38thInternationalACMSIGIRConferenceonResearchandDevelopmentiInformationRetrieval.ACM,2015:373-382.AshishVaswanNoamShazeer,NikiParmaJakobUszoetLlionJones,AidanNGomez,LukaszKaiser,andIlliaPolosukhin.Attentionisallyouneed.arXivpreprintuiYN,FanA,AuM,etal.Languagemodnwithgatedconvluonalnetworks[J].arXivpreprintarXiv:1612.08083,2016.LuoW,LiY,UrtasunR,etal.Understandingtheeffectivereceptivefieldindeepconvolutionalneuralnetworks[C]//AdvancesinNeuralInformationProcessingSystems.2016:4898-NeuralMachineTranslationbyJointlyLearningtoAlignandRushAM,ChopraS,WestonJ.Aneuralattentionmodelfor ivesentencesummarization[J].arXivpreprintarXiv:1509.00685,2015.KimY.Convolutionalneuralnetworksforsentenceclassification[J].arXivpreprintarXiv:1408.5882,2014.TuZ,LuZ,LiuY,etal.Modelingcoverageforneuralmachinetranslation[J].arXivpreprintarXiv:1601.04811,2016.TuZ,LiuYLuZ,etal.Contextgatesforneuralmachntranslation[J].arXivpreprintarXiv:1608.06043,2016.SequenceLevelTrainingwithRecurrentNeuralNetworks,ICLRKishorePapineni,SalimRoukos,ToddWard,andWei-JingZhu.Bleu:Amethodforautomaticevaluationofmachinetranslation.淺談分布式系統(tǒng)Pangu2.0:它讓雙11運(yùn)維變得智能起來(lái)阿里云資深技術(shù)專家,2012年加入飛天Pangu團(tuán)隊(duì)主攻分布式方向,推動(dòng)了Pangu2.0在雙11期間的全面落既然把雙11為一Pangu統(tǒng)的戰(zhàn)役,那么勝利的目標(biāo)就是在業(yè)務(wù)支持方向達(dá)到最佳,事實(shí)上,Pangu2.0在雙11持主要由四個(gè)部分構(gòu)成:DB從DB吧當(dāng)壓I/Ocy00I/O沒(méi)有超出客戶們的預(yù)期,人員對(duì)著平穩(wěn)的波動(dòng)表也抓不到什么特殊的數(shù)USUPS我們可以在PG-BS圖上看到全天的UPS情況和時(shí)延情況。上圖為將全部動(dòng),全天讀寫表現(xiàn)出極為平穩(wěn)的態(tài)勢(shì),僅僅到雙十一當(dāng)夜二時(shí)左右因?yàn)镮/OSIZE的接下來(lái)談?wù)勚虚g件。起初因?yàn)榧贺?fù)載偏高,無(wú)論是水位還是UPS水位都時(shí)延的檢測(cè)結(jié)果同樣遠(yuǎn)小于預(yù)測(cè),的抖動(dòng)幅度只有用戶預(yù)期的八分之一,曲Pangu2.0誕生的原因,歷史沿革以及相對(duì)Panu1.0是PanuMater,下轄三臺(tái)機(jī)器負(fù)責(zé)解決原數(shù)據(jù),命名空間及體數(shù)的置策等題下面部是的 節(jié),它功是一個(gè)極為經(jīng)典的架構(gòu),與業(yè)界的很多系統(tǒng)都很類似,例如的GFS,Hadoop的HDFS等等。他們的宏觀架構(gòu)都相差不多,具備著成應(yīng)用環(huán)境,完善推出Pangu2.0的原可以這一個(gè)子方便明—設(shè)過(guò)去,飛需在空飛行小時(shí),為12術(shù)的進(jìn),款超速機(jī)在小就直接達(dá)那個(gè)旅就成了小,三分之的關(guān)時(shí)就得冗起。比分式:開(kāi)的候,為件的瓶頸軟響應(yīng)間長(zhǎng)短不突的 ,隨件的升這一重件也從十億級(jí)躍升到了千億級(jí),單純垂直方向的aup的架構(gòu)已經(jīng)難以滿足用戶數(shù)據(jù)的需要,我們的開(kāi)始需要一個(gè)能夠水平擴(kuò)展,不斷滿足千億乃至更高級(jí)別需求,能夠?qū)崿F(xiàn)Scale-out模式的架構(gòu)。作為通用的平臺(tái),Pangu系統(tǒng)一直在力求對(duì)的業(yè)務(wù)進(jìn)行支持。完成多業(yè)P每次發(fā)布一個(gè)新版本都必須對(duì)每種不同業(yè)務(wù)需求進(jìn)行綜合考量,不僅時(shí)間上還有一點(diǎn),隨著近年來(lái)專有云,混合云的快速發(fā)展,對(duì)系立輸出,輕量化輸出的需求也越來(lái)越強(qiáng)烈,ang1.0的輸出不夠輕量級(jí),敏捷性也略顯不足,這Pangu2.0的總體業(yè)Denter網(wǎng)絡(luò),其上則是Pangu的系統(tǒng),里面包括節(jié)點(diǎn),分布式系統(tǒng),系統(tǒng)內(nèi)部的上層輻射出支持的多個(gè)業(yè)務(wù)方向,例如Bock以及HDFS,整個(gè)系統(tǒng)的最上層則是目前主要的業(yè)務(wù)形式,包括服務(wù)、數(shù)據(jù)庫(kù)服Pagu2.0uCor,即層,上層綠色部分則對(duì)應(yīng)于各項(xiàng)業(yè)務(wù)的適配。PanuCore底端一單機(jī)擎,的于左硬差保證上業(yè)務(wù)供一種研式ache了1.0解決訴求做到用戶滿系統(tǒng)的訴求無(wú)外乎幾點(diǎn),重中之重的穩(wěn)定性、性能盡可能高、成本盡可能低,運(yùn)維難度同樣越低越好。在接下來(lái)的文段中,針對(duì)這些用戶永恒的Pang2.0第一是進(jìn)行端到端的數(shù)據(jù)校驗(yàn),消除靜默錯(cuò)誤。每次數(shù)據(jù)寫入都要通過(guò)一個(gè)CRC來(lái)進(jìn)行保證,不管硬盤,內(nèi)存還是CPU網(wǎng)絡(luò)出現(xiàn)錯(cuò)誤,用戶在數(shù)據(jù)的時(shí)第二是快速副本補(bǔ)齊。在某些緊急情況下,我們需要進(jìn)行對(duì)于三副本的數(shù)據(jù)復(fù)制,換機(jī)障者掉的現(xiàn)屬于一疇一過(guò)非精細(xì)且備嚴(yán)格的先區(qū)分發(fā)硬件障必先高先例三個(gè)本余一。chnk過(guò)中存精流控能反權(quán)衡量使保證同時(shí)端戶的I/O宕前文中,我們講了用于維持穩(wěn)定性的一些大體技術(shù),而面對(duì)系統(tǒng)抗壓能力的測(cè)試我也同會(huì)用非嚴(yán)的。圖可到,均臺(tái)機(jī)都每秒個(gè)PS于css臺(tái)bm的failoverilover,上面的UPS除了進(jìn)程,rack掉電的模擬往往會(huì)顯得更加的,每個(gè)版本發(fā)布前我們都要進(jìn)行rack電的模擬:直接關(guān)掉涵蓋48機(jī)器的rack群,并測(cè)試其恢復(fù)的過(guò)程,實(shí)際結(jié)果表明,掉電的機(jī)器能安全的將負(fù)載轉(zhuǎn)移到其它機(jī)器上,待掉電的rack還有另外有趣的一點(diǎn),這比較像一道概率題:通常情況下,在一個(gè)集群的規(guī)模內(nèi),非常小的時(shí)間窗口內(nèi)(例如一臺(tái)機(jī)器重啟的時(shí)間內(nèi))兩臺(tái)機(jī)falover的概率應(yīng)該是可以略計(jì)的但著樣的量加,概期積就必然生,很短的時(shí)間窗口內(nèi)兩臺(tái)機(jī)器同時(shí)failover的糟糕境也會(huì)時(shí)出現(xiàn)。如果個(gè)客同時(shí)入A、、C這3但A和B了faiove,只下C成I/OHANG據(jù) 將C據(jù) 到,形成至少兩份數(shù)據(jù)以確保其安全,但是在的幾秒鐘的時(shí)間內(nèi),這一I/OHANG無(wú)法解除,可能會(huì)嚴(yán)重的影響用戶業(yè)務(wù)。這一問(wèn)題在Png2.0中得到了妥善的解決:我們直接假定doublefail常在,默認(rèn)BlockSeverA、B、C行寫入,如果我們道在工領(lǐng),發(fā)生常無(wú)免的會(huì)有出認(rèn)樣u0版se和a把組。接下來(lái)將問(wèn)題細(xì)化到具體單個(gè)節(jié)點(diǎn)的filover。我們此前的調(diào)度是全局調(diào)度,它存在一定的缺陷:如果一臺(tái)機(jī)器出現(xiàn)宕機(jī),那么這臺(tái)機(jī)器上承載的I/O流都會(huì)受到影響,甚至?xí)谇闆r影響所有的用戶。而如今,我們進(jìn)行了一個(gè)分組關(guān)用配置等信息的跨度都很發(fā)散,造成了的:任何一個(gè)變化的影響都很難百分此外,改進(jìn)穩(wěn)定性的還有不少,比如,我們會(huì)組織兩個(gè)工程師團(tuán)隊(duì)形成攻falover何時(shí)候收到告警,團(tuán)隊(duì)都要在十分鐘內(nèi)響應(yīng)。且一周收到的告警數(shù)不得超出10先看一組客戶對(duì)于Pangu2.0能的反饋DB:XDB+Pangu2.0取得了超Aurora4倍以上的TPS。后續(xù)會(huì)和中間件:鏡像加速項(xiàng)目每次鏡像push、pll間501秒內(nèi),分析型數(shù)據(jù)庫(kù):pangu2.0非??孔V,相比同規(guī)格的物理盤,為分析型數(shù)據(jù)庫(kù)帶來(lái)至少10%的性能提升,后面分析型數(shù)據(jù)庫(kù)的會(huì)全部遷移到pangu2.0上。ECS云盤產(chǎn)品:性能大幅AWS的C5!領(lǐng)域提前實(shí)現(xiàn)對(duì)下面是對(duì).AWSC5實(shí)際性能的表格對(duì)比,可以很直觀的看出,無(wú)論是單路讀時(shí)延、單路寫時(shí)延;還是單路讀9時(shí)延、單路寫99.9%時(shí)延,藍(lán)色Pangu2.0明顯AWSC5,極限吞吐量更是了一個(gè)數(shù)量級(jí)。首先,Pangu2.0擁有自己的單機(jī)引擎BypassOSkernel,它是一個(gè)基于SPDK態(tài)文件系統(tǒng),區(qū)別于使VFS、BlockLayerdrivers進(jìn)行傳遞的傳統(tǒng)文件系統(tǒng),BypassOSkernel直接將文件返NVME盤,使Polling方式進(jìn)行來(lái)降低延遲,Data+meta直接一次落盤,整個(gè)過(guò)程中無(wú)需進(jìn)行任何拷貝。網(wǎng)絡(luò)上,Pangu2.0TCP,而是利用RMDA網(wǎng)絡(luò)掉內(nèi)核,省略系統(tǒng)調(diào)用的過(guò)程。同樣使用Polling方式進(jìn)行,全過(guò)程零拷貝。另外一件很有趣的事情就是程模型上的優(yōu)化,客戶端和服務(wù)端進(jìn)行一些配合,客戶端的由指定線程處理,形成plete的線程模型,從I/O我們還真正實(shí)現(xiàn)了I/OPS與云盤空間的解耦,現(xiàn)有的云盤最大OPS值為20000,此前,如果用戶需要使用2萬(wàn)/PS,則至少需要600GB空間才能實(shí)現(xiàn)。Pangu2.0底實(shí)現(xiàn)I/OPS空間的解耦,只128GB可實(shí)現(xiàn)超百I/OPS,I/OPS需求大,空間需求小的用戶尤為適用,避免了維度浪費(fèi)。只要愿意,多大的盤都能得到的I/OPS。ReadCS1后,如果短時(shí)間內(nèi)沒(méi)有返回值,那么會(huì)在極短的時(shí)間內(nèi)直接載入CS2,CS2無(wú)返回值則繼續(xù)讀CS3,只要有一個(gè)請(qǐng)求得到回復(fù),我們就認(rèn)為是響應(yīng)成功的,2-3、、C入A和Brange述份些據(jù)計(jì)的C這一以讓用戶掉這個(gè)問(wèn)題,但如果情況再進(jìn)一步,有兩個(gè)節(jié)點(diǎn)都變成熱點(diǎn),數(shù)據(jù)這一切換過(guò)程只需要一個(gè)RPC的時(shí)間,可以做到用戶基本無(wú)感知,如果問(wèn)題出現(xiàn)在實(shí)際上,在很度中,基于云的Pangu2.0已經(jīng)對(duì)物理盤實(shí)現(xiàn)了,例如除了出色的穩(wěn)定和優(yōu)秀的性能之外,更低的成本也是Pnu2.的一大特色,全面支持EC,從而能夠把經(jīng)典的8+31.375n的軟硬件工作也一直在同步進(jìn)行,我們與AIS合作,共同研發(fā)了USSOS–UserSpaceStorageOperatingSystem,并實(shí)現(xiàn)了很多之前所期待實(shí)現(xiàn)對(duì)新硬件的快速適配,任何硬件只要在USSOS層進(jìn)行適配就能直接應(yīng)提升I/OI/O極致性高度的可運(yùn)維性也是Panu2.0不得不提的一個(gè)點(diǎn),并在相當(dāng)多的方面能夠所有節(jié)點(diǎn)故障自愈,無(wú)需人工干預(yù)提前檢測(cè),自行報(bào)修,自動(dòng)下線和復(fù)制技術(shù)維修后自動(dòng)重新上線管控故障自動(dòng)遷移替換運(yùn)維高度自動(dòng)化,ECS文章的尾聲,就讓我們?cè)俅蝸?lái)回顧一下Pngu2.0在阿里云內(nèi)部所有支持的業(yè)務(wù),串聯(lián)在一起,我們完全可以這樣進(jìn)行描述——名為Pag2.0分布式系統(tǒng),切切新基雙11穩(wěn)定性叔同講述:11以指數(shù)級(jí)形式上升。雙11峰值的本質(zhì)是用有限的成本最大化提升用戶體驗(yàn)和集群吞吐能力,用合理的代價(jià)解決峰值。面對(duì)增長(zhǎng)如何發(fā)揮規(guī)模效應(yīng),持續(xù)降低單筆成今天,我們邀請(qǐng)了阿里巴巴資深技術(shù)專家叔同,九年雙11的云化架構(gòu)演進(jìn)叔同(丁宇),阿里巴巴資深技術(shù)專家,8次參與雙11,阿里高可用架構(gòu)、雙11穩(wěn)定性,阿里容器、調(diào)度、集群管理、運(yùn)維技術(shù)。叔同:大家好,我是叔同,很高興與大家阿里雙11的技術(shù)發(fā)展。今天我們先來(lái)關(guān)注一個(gè)問(wèn)題:雙11推動(dòng)了阿里技術(shù)的進(jìn)步,它有哪些?定性問(wèn)題得到了很好的解決。系統(tǒng)架911后演進(jìn),
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 下設(shè)子公司合同范本
- 2025-2030年中國(guó)無(wú)功功率表項(xiàng)目投資可行性研究分析報(bào)告
- 出售大型廢船合同范例
- 2025年度建筑工地鋼筋智能化倉(cāng)儲(chǔ)與物流配送合同
- 伴聚合作合同范本
- 公交輪胎采購(gòu)合同范例
- 停產(chǎn)勞動(dòng)合同范本
- 人工草坪合同范本
- 2025年印刷裝飾紙項(xiàng)目可行性研究報(bào)告
- 供應(yīng)商技術(shù)合同范本
- 春季安全教育培訓(xùn)課件
- 《大學(xué)英語(yǔ)1》期末考試試卷及答案(專科)
- 《石油鉆井基本知識(shí)》課件
- 2024新滬教版英語(yǔ)(五四學(xué)制)七年級(jí)上單詞默寫單
- 電力兩票培訓(xùn)
- TCCEAS001-2022建設(shè)項(xiàng)目工程總承包計(jì)價(jià)規(guī)范
- 2024.8.1十七個(gè)崗位安全操作規(guī)程手冊(cè)(值得借鑒)
- 小王子-英文原版
- 二次供水衛(wèi)生管理制度及辦法(4篇)
- 電影《白日夢(mèng)想家》課件
- 婦產(chǎn)科產(chǎn)后虛脫患者的應(yīng)急預(yù)案及程序
評(píng)論
0/150
提交評(píng)論