版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用本身是一種很復(fù)雜的業(yè)務(wù)形態(tài),有很多問題需要研究,為此專門成立了SEM這個(gè)學(xué)科。對(duì)很多歧義:比如搜“蘋果”,可能是指水果,也可能是手機(jī);還有一個(gè)典型case,mac,實(shí)際問題:比如剛才提到的廣告召回、點(diǎn)擊率預(yù)估、相關(guān)性、badcase過濾、排序機(jī)制以不知道大家看沒看過一部美劇,廣告狂人,講的是20世紀(jì)60年代美國廣告行業(yè)的發(fā)展過優(yōu)選怎么做?假設(shè)當(dāng)前有很多創(chuàng)意,最終選哪種樣式的創(chuàng)意?這個(gè)任務(wù)跟創(chuàng)意匹配不太一行,其實(shí)很多年前就有類似的事情,例如MSRA做了一個(gè)對(duì)聯(lián)生成系統(tǒng),你出上聯(lián)我出下行了之后,就會(huì)有很多種方式來做這件事情:典型的比如GAN,這也是前幾年剛出現(xiàn)的;還有一些基于seq2seq的翻譯模型;CVAE也是生成式模式的一種變種。這幾種方法的目個(gè)基于CVAE的升級(jí)版框架,可用于關(guān)鍵詞拓展,大概可分為左半部分和右半部分:左邊可以看作傳統(tǒng)seq2seq的一種改進(jìn),一個(gè)編碼器加注意力機(jī)制加持的decoder;右邊這塊個(gè)系統(tǒng)里的一些模塊就是做這個(gè)事情,比如DomainClassifiier就是表達(dá)這個(gè)訴求的一個(gè)RewardEstimator來做這個(gè)工作,來評(píng)價(jià)生成結(jié)果的離散程度,生成結(jié)果的集中度越低,WWW2019比傳統(tǒng)的seq2seq效果要更好一些。創(chuàng)意挖掘是指如何從海量信息中挑出有價(jià)值的東西,這里選一個(gè)場景來介紹,“esonsion相當(dāng)于有了一個(gè)源源不斷的素材庫。那如何做這個(gè)工作,把這個(gè)eson切分開,怎么判些都需要做一個(gè)切分,也就是eson切分,來評(píng)價(jià)前后兩次輸入是否關(guān)聯(lián)。傳統(tǒng)的方法會(huì)基于一些特征構(gòu)建模型來進(jìn)行分類,我們提出了一種基于LTM和tenon機(jī)制的eson切分方式,會(huì)考慮這個(gè)用戶的連續(xù)輸入,用LTM網(wǎng)絡(luò)生成一個(gè)編碼,再利用tenin做隱向量的權(quán)重分派,對(duì)應(yīng)最終的一個(gè)bl,就是說這兩個(gè)輸入是不是一回事要不要做區(qū)分,模型訓(xùn)練完之后就可以幫我們來做esn切分的工作。當(dāng)時(shí)取的效果還8年的IGIRser,大家如果感興趣可以去看一下。雖然只是用來做用戶行為分析,但有了高質(zhì)量的TF-IDF、BM25庫可以得到每個(gè)分詞片段的權(quán)重,來了兩個(gè)query之后,可以對(duì)兩者做一個(gè)匹配,如果匹然后就是意圖匹配,基于用戶行為數(shù)據(jù),比如每天的檢索總共好幾億次或者上10億次,每query,如果點(diǎn)擊的網(wǎng)頁列表非常相似,querySVD++來挖掘這種關(guān)聯(lián)關(guān)系,這是身是一個(gè)QPS非常高,計(jì)算復(fù)雜度非常高的場景,可能會(huì)需要有一些比較簡單的方法來做不了,或者解決的不夠好。具體到這里面涉及到的幾個(gè)技術(shù),seq2seq及神經(jīng)機(jī)器翻譯,達(dá)網(wǎng)絡(luò),而后進(jìn)行query的描述,或者其他內(nèi)容的描述,然后進(jìn)行一個(gè)匹配計(jì)算。這是我們16年發(fā)表的一篇論文,提出了一種不需要分詞的問答系統(tǒng)匹配算法。早些時(shí)候,做中文文本相似性計(jì)算,或者檢索相關(guān)的任務(wù),都需要先做一個(gè)分詞,需要先將query切分成若干term片段,然后再對(duì)term進(jìn)行后續(xù)操作。這樣會(huì)有一些問題,比如典型的word2vec算法,對(duì)于中文語料庫來講,分完詞之后,term粒度至少在百萬量級(jí)才夠用,termID50100個(gè)G這么大,內(nèi)存開銷會(huì)比較大,那么有沒有好一些的辦法?其實(shí)這個(gè)思想已經(jīng)大規(guī)模的端到端,特別簡單粗暴。具體到這個(gè)任務(wù),中文也好英文也好,直接把query輸入進(jìn)去,20001150算時(shí),可以結(jié)合字符的權(quán)重來做query的編碼,進(jìn)行后續(xù)的任務(wù),這樣內(nèi)存消耗就可以降流程得到簡化,故障就會(huì)減少,這是它的一個(gè)意義所在。這個(gè)成果當(dāng)時(shí)發(fā)表在CIKM上,%。同時(shí)有很多種樣式,我們的產(chǎn)品會(huì)做很多的設(shè)計(jì),每個(gè)樣式有不同的特點(diǎn),比如說QS這個(gè)規(guī)模,每次一個(gè)quy過來,可能會(huì)召回上百條廣告,每天就有百億以上的計(jì)算,所務(wù)稍微復(fù)雜一點(diǎn),一條標(biāo)注就需要兩毛錢甚至一塊錢,還是很貴的。比如100萬條樣本,后,即使有些噪音,但規(guī)模大也能緩解這些問題。在文本相關(guān)性算法中有個(gè)DSSM模型,應(yīng)用非常廣泛,也有很多改進(jìn),利用query和title之間的偏序關(guān)系進(jìn)行訓(xùn)練,模型設(shè)計(jì)并解決疑難雜癥。如果發(fā)現(xiàn)模型訓(xùn)練之后效果很不好,特別在一些典型case上效果不好,那也都了解,我們首先要有data,一般來自于查詢?nèi)罩竞忘c(diǎn)擊日志;然后構(gòu)建一些特征,可搜狗搜索廣告經(jīng)過了很長時(shí)間的演化,最早的點(diǎn)擊率預(yù)估模型,主要基于liblinear,大概08LRFTRL、FMLR現(xiàn)在為止,LR還是非常有效的,因?yàn)樗浅:唵危褪且粋€(gè)線性模型,原理和公式,一般索,就有了非線性模型,包括GBDT、DNN以及一些級(jí)聯(lián)融合模型,LR+GBDT或LR+DNNWide&DeepNFM我介紹的是搜狗線上的一個(gè)模塊,如何把這個(gè)想法在線上實(shí)現(xiàn)。這里的關(guān)鍵點(diǎn)是ModelFeaturePPTLRDNNSession也就是樣本,經(jīng)過FeatureMaker也就是特征抽取,會(huì)形成兩類,一類是one-hot這種離LRTrainLRModel,LRModel放到里邊,包括ctr的特征和模型中間結(jié)果,經(jīng)過DNNTrain得到DNNModel,部署到這時(shí)候就有兩個(gè)模型,DNN和LR。在線上我們的工作也類似,前端收到流量進(jìn)行召回,QS,也就是排序ServerOneCase,也就是一個(gè)樣本,然后會(huì)得到離散特征,并進(jìn)入特征池,可以做一個(gè)查表,通過CTRTable得到COEC特征,就會(huì)得到DNNModelFeatureLRCTR接下來講wide&deep模型,剛才講的LR+DNN模型應(yīng)該是16年左右推到線上,wide&deep是17年,也就是去年的工作。這個(gè)模型是16年谷歌應(yīng)用商店推出來的,用MxnetTensorflow,我MxNet16DNN會(huì)有大量特征來表述查詢?cè)~和廣告keyword,以及一些交叉特征和匹配特征。如果特征規(guī)模非常大,同時(shí)樣本量也非常大,一天可能有數(shù)億樣本,一般用60天或90天的數(shù)據(jù),而且每天都要更新,就會(huì)涉及到訓(xùn)練效率的問題。6年解決大規(guī)模樣本訓(xùn)練時(shí),也想過TnsrlwTnsrlwNetTnsrlw其實(shí)是沒有更多了解的,比如日志打印,調(diào)試時(shí)想往里面加代碼,Tnsrlw用起來不gogeNet就會(huì)好6LR+NNGUWd&eep7年的時(shí)候TnsrlwNet。TensorFlow看Wide&Deep模型的效果,因?yàn)橛虚_源實(shí)現(xiàn)直接調(diào)庫就能做這個(gè)事情。TensorFlow上的小樣本實(shí)驗(yàn)表明,相比LR+DNN融合模型,wide&deep在AUC上是漲的,做這個(gè)事MxNet的,是稠密的,MxNet是基于這種情況來設(shè)計(jì)的,而搜索廣告有很多文本類特征都是離散的,量非常大又很稀疏,所以需要把MxNetSparseTensor,這是第一步的工作,不做這個(gè)后面是沒法繼續(xù)的;第二是需要深度定制Embedding層,原來的DNNEmbeddingword2vecCOEC這種特征直接放進(jìn)去,就沒Embedding這層,但Wide&Deep卻會(huì)牽扯到MxNet的Embedding層效率是不是夠的問題,需要對(duì)它進(jìn)行定制來提高訓(xùn)練速度;第三,原本parameterserverCPUCPUGPU好的網(wǎng)絡(luò)設(shè)備,就是IB卡,速度能達(dá)到56Gb每秒,這是官方標(biāo)稱的,我也測過,能達(dá)到類似的水平,比萬兆網(wǎng)卡還要快5倍左右。網(wǎng)絡(luò)規(guī)模上去之后,參數(shù)量非常大,訓(xùn)練過程IBipembedding512G30Hadoop間的情況下,能夠在5到8個(gè)小時(shí)內(nèi)訓(xùn)練一個(gè)模型,推到線上供我們使用,上線之后效果AUCAUC會(huì)有些經(jīng)驗(yàn)說法,比如AUC只要提升三個(gè)千分點(diǎn)以上,那么上線一定是有效果的,但前提能最后發(fā)現(xiàn)效果不行,原來跟老板說上線漲5%,結(jié)果上線之后持平或者下跌,這時(shí)我該怎bug,這是第一點(diǎn);第二點(diǎn)就是SurvivalBias的問題,這個(gè)問題比較典型,還拿搜索廣告舉一下種情況的理論分析比較常見,但實(shí)際上來說,還是需要先確認(rèn)有沒有bug,這個(gè)是最重要然后是模型這塊我們目前的現(xiàn)狀和計(jì)劃。我們已經(jīng)實(shí)現(xiàn)了Wide&De
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年設(shè)備租賃合同范本專業(yè)3篇
- 2025版智慧城市公共服務(wù)平臺(tái)合作協(xié)議3篇
- 二零二五年度工業(yè)轉(zhuǎn)型升級(jí)項(xiàng)目招投標(biāo)合同管理及產(chǎn)業(yè)政策問答3篇
- 2024年石油化工產(chǎn)品進(jìn)口與分銷合同
- 2025年度新材料研發(fā)營業(yè)執(zhí)照租賃及市場推廣合作合同3篇
- 2025版煤炭行業(yè)綠色開采與環(huán)保技術(shù)研發(fā)合同2篇
- 二零二五年度區(qū)塊鏈安全技術(shù)研究與應(yīng)用合同2篇
- 2024智能家居產(chǎn)品研發(fā)合同技術(shù)創(chuàng)新
- 二零二五年度大數(shù)據(jù)中心建設(shè)項(xiàng)目融資合同2篇
- HBDSCZ2025年度供應(yīng)鏈管理合作協(xié)議2篇
- 小學(xué)學(xué)校發(fā)展三年規(guī)劃:傾力打造紅色品牌 努力構(gòu)建和諧學(xué)校
- 2024年全國網(wǎng)絡(luò)安全職工職業(yè)技能競賽備賽試題庫(含答案)
- 2020年會(huì)計(jì)繼續(xù)教育完整考試題庫1000題(答案)
- 2024年紙張銷售合同
- 手動(dòng)及手持電動(dòng)工具培訓(xùn)考核試卷
- 2024年湖北省公務(wù)員錄用考試《行測》真題及答案解析
- 自然辯證法習(xí)題及答案
- 特色農(nóng)產(chǎn)品超市方案
- 2024國有企業(yè)與民營企業(yè)之間的混合所有制改革合同
- 物流倉庫安全生產(chǎn)
- 2024年醫(yī)院食堂餐飲獨(dú)家承包協(xié)議
評(píng)論
0/150
提交評(píng)論