2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用

上傳人：1*** IP屬地：山東上傳時(shí)間：2024-09-30 格式：DOCX 頁數(shù)：20 大?。?.35MB 積分：7.2 舉報(bào) 版權(quán)申訴

2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用_第2頁

2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用_第3頁

2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用_第4頁

2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用_第5頁

已閱讀5頁，還剩15頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用本身是一種很復(fù)雜的業(yè)務(wù)形態(tài)，有很多問題需要研究，為此專門成立了SEM這個(gè)學(xué)科。對(duì)很多歧義：比如搜“蘋果”，可能是指水果，也可能是手機(jī)；還有一個(gè)典型case，mac，實(shí)際問題：比如剛才提到的廣告召回、點(diǎn)擊率預(yù)估、相關(guān)性、badcase過濾、排序機(jī)制以不知道大家看沒看過一部美劇，廣告狂人，講的是20世紀(jì)60年代美國廣告行業(yè)的發(fā)展過優(yōu)選怎么做？假設(shè)當(dāng)前有很多創(chuàng)意，最終選哪種樣式的創(chuàng)意？這個(gè)任務(wù)跟創(chuàng)意匹配不太一行，其實(shí)很多年前就有類似的事情，例如MSRA做了一個(gè)對(duì)聯(lián)生成系統(tǒng)，你出上聯(lián)我出下行了之后，就會(huì)有很多種方式來做這件事情：典型的比如GAN，這也是前幾年剛出現(xiàn)的；還有一些基于seq2seq的翻譯模型；CVAE也是生成式模式的一種變種。這幾種方法的目個(gè)基于CVAE的升級(jí)版框架，可用于關(guān)鍵詞拓展，大概可分為左半部分和右半部分：左邊可以看作傳統(tǒng)seq2seq的一種改進(jìn)，一個(gè)編碼器加注意力機(jī)制加持的decoder；右邊這塊個(gè)系統(tǒng)里的一些模塊就是做這個(gè)事情，比如DomainClassifiier就是表達(dá)這個(gè)訴求的一個(gè)RewardEstimator來做這個(gè)工作，來評(píng)價(jià)生成結(jié)果的離散程度，生成結(jié)果的集中度越低，WWW2019比傳統(tǒng)的seq2seq效果要更好一些。創(chuàng)意挖掘是指如何從海量信息中挑出有價(jià)值的東西，這里選一個(gè)場景來介紹，“esonsion相當(dāng)于有了一個(gè)源源不斷的素材庫。那如何做這個(gè)工作，把這個(gè)eson切分開，怎么判些都需要做一個(gè)切分，也就是eson切分，來評(píng)價(jià)前后兩次輸入是否關(guān)聯(lián)。傳統(tǒng)的方法會(huì)基于一些特征構(gòu)建模型來進(jìn)行分類，我們提出了一種基于LTM和tenon機(jī)制的eson切分方式，會(huì)考慮這個(gè)用戶的連續(xù)輸入，用LTM網(wǎng)絡(luò)生成一個(gè)編碼，再利用tenin做隱向量的權(quán)重分派，對(duì)應(yīng)最終的一個(gè)bl，就是說這兩個(gè)輸入是不是一回事要不要做區(qū)分，模型訓(xùn)練完之后就可以幫我們來做esn切分的工作。當(dāng)時(shí)取的效果還8年的IGIRser，大家如果感興趣可以去看一下。雖然只是用來做用戶行為分析，但有了高質(zhì)量的TF-IDF、BM25庫可以得到每個(gè)分詞片段的權(quán)重，來了兩個(gè)query之后，可以對(duì)兩者做一個(gè)匹配，如果匹然后就是意圖匹配，基于用戶行為數(shù)據(jù)，比如每天的檢索總共好幾億次或者上10億次，每query，如果點(diǎn)擊的網(wǎng)頁列表非常相似，querySVD++來挖掘這種關(guān)聯(lián)關(guān)系，這是身是一個(gè)QPS非常高，計(jì)算復(fù)雜度非常高的場景，可能會(huì)需要有一些比較簡單的方法來做不了，或者解決的不夠好。具體到這里面涉及到的幾個(gè)技術(shù)，seq2seq及神經(jīng)機(jī)器翻譯，達(dá)網(wǎng)絡(luò)，而后進(jìn)行query的描述，或者其他內(nèi)容的描述，然后進(jìn)行一個(gè)匹配計(jì)算。這是我們16年發(fā)表的一篇論文，提出了一種不需要分詞的問答系統(tǒng)匹配算法。早些時(shí)候，做中文文本相似性計(jì)算，或者檢索相關(guān)的任務(wù)，都需要先做一個(gè)分詞，需要先將query切分成若干term片段，然后再對(duì)term進(jìn)行后續(xù)操作。這樣會(huì)有一些問題，比如典型的word2vec算法，對(duì)于中文語料庫來講，分完詞之后，term粒度至少在百萬量級(jí)才夠用，termID50100個(gè)G這么大，內(nèi)存開銷會(huì)比較大，那么有沒有好一些的辦法？其實(shí)這個(gè)思想已經(jīng)大規(guī)模的端到端，特別簡單粗暴。具體到這個(gè)任務(wù)，中文也好英文也好，直接把query輸入進(jìn)去，20001150算時(shí)，可以結(jié)合字符的權(quán)重來做query的編碼，進(jìn)行后續(xù)的任務(wù)，這樣內(nèi)存消耗就可以降流程得到簡化，故障就會(huì)減少，這是它的一個(gè)意義所在。這個(gè)成果當(dāng)時(shí)發(fā)表在CIKM上，%。同時(shí)有很多種樣式，我們的產(chǎn)品會(huì)做很多的設(shè)計(jì)，每個(gè)樣式有不同的特點(diǎn)，比如說QS這個(gè)規(guī)模，每次一個(gè)quy過來，可能會(huì)召回上百條廣告，每天就有百億以上的計(jì)算，所務(wù)稍微復(fù)雜一點(diǎn)，一條標(biāo)注就需要兩毛錢甚至一塊錢，還是很貴的。比如100萬條樣本，后，即使有些噪音，但規(guī)模大也能緩解這些問題。在文本相關(guān)性算法中有個(gè)DSSM模型，應(yīng)用非常廣泛，也有很多改進(jìn)，利用query和title之間的偏序關(guān)系進(jìn)行訓(xùn)練，模型設(shè)計(jì)并解決疑難雜癥。如果發(fā)現(xiàn)模型訓(xùn)練之后效果很不好，特別在一些典型case上效果不好，那也都了解，我們首先要有data，一般來自于查詢?nèi)罩竞忘c(diǎn)擊日志；然后構(gòu)建一些特征，可搜狗搜索廣告經(jīng)過了很長時(shí)間的演化，最早的點(diǎn)擊率預(yù)估模型，主要基于liblinear，大概08LRFTRL、FMLR現(xiàn)在為止，LR還是非常有效的，因?yàn)樗浅：唵危褪且粋€(gè)線性模型，原理和公式，一般索，就有了非線性模型，包括GBDT、DNN以及一些級(jí)聯(lián)融合模型，LR+GBDT或LR+DNNWide&DeepNFM我介紹的是搜狗線上的一個(gè)模塊，如何把這個(gè)想法在線上實(shí)現(xiàn)。這里的關(guān)鍵點(diǎn)是ModelFeaturePPTLRDNNSession也就是樣本，經(jīng)過FeatureMaker也就是特征抽取，會(huì)形成兩類，一類是one-hot這種離LRTrainLRModel，LRModel放到里邊，包括ctr的特征和模型中間結(jié)果，經(jīng)過DNNTrain得到DNNModel，部署到這時(shí)候就有兩個(gè)模型，DNN和LR。在線上我們的工作也類似，前端收到流量進(jìn)行召回，QS，也就是排序ServerOneCase，也就是一個(gè)樣本，然后會(huì)得到離散特征，并進(jìn)入特征池，可以做一個(gè)查表，通過CTRTable得到COEC特征，就會(huì)得到DNNModelFeatureLRCTR接下來講wide&deep模型，剛才講的LR+DNN模型應(yīng)該是16年左右推到線上，wide&deep是17年，也就是去年的工作。這個(gè)模型是16年谷歌應(yīng)用商店推出來的，用MxnetTensorflow，我MxNet16DNN會(huì)有大量特征來表述查詢?cè)~和廣告keyword，以及一些交叉特征和匹配特征。如果特征規(guī)模非常大，同時(shí)樣本量也非常大，一天可能有數(shù)億樣本，一般用60天或90天的數(shù)據(jù)，而且每天都要更新，就會(huì)涉及到訓(xùn)練效率的問題。6年解決大規(guī)模樣本訓(xùn)練時(shí)，也想過TnsrlwTnsrlwNetTnsrlw其實(shí)是沒有更多了解的，比如日志打印，調(diào)試時(shí)想往里面加代碼，Tnsrlw用起來不gogeNet就會(huì)好6LR+NNGUWd&eep7年的時(shí)候TnsrlwNet。TensorFlow看Wide&Deep模型的效果，因?yàn)橛虚_源實(shí)現(xiàn)直接調(diào)庫就能做這個(gè)事情。TensorFlow上的小樣本實(shí)驗(yàn)表明，相比LR+DNN融合模型，wide&deep在AUC上是漲的，做這個(gè)事MxNet的，是稠密的，MxNet是基于這種情況來設(shè)計(jì)的，而搜索廣告有很多文本類特征都是離散的，量非常大又很稀疏，所以需要把MxNetSparseTensor，這是第一步的工作，不做這個(gè)后面是沒法繼續(xù)的；第二是需要深度定制Embedding層，原來的DNNEmbeddingword2vecCOEC這種特征直接放進(jìn)去，就沒Embedding這層，但Wide&Deep卻會(huì)牽扯到MxNet的Embedding層效率是不是夠的問題，需要對(duì)它進(jìn)行定制來提高訓(xùn)練速度；第三，原本parameterserverCPUCPUGPU好的網(wǎng)絡(luò)設(shè)備，就是IB卡，速度能達(dá)到56Gb每秒，這是官方標(biāo)稱的，我也測過，能達(dá)到類似的水平，比萬兆網(wǎng)卡還要快5倍左右。網(wǎng)絡(luò)規(guī)模上去之后，參數(shù)量非常大，訓(xùn)練過程IBipembedding512G30Hadoop間的情況下，能夠在5到8個(gè)小時(shí)內(nèi)訓(xùn)練一個(gè)模型，推到線上供我們使用，上線之后效果AUCAUC會(huì)有些經(jīng)驗(yàn)說法，比如AUC只要提升三個(gè)千分點(diǎn)以上，那么上線一定是有效果的，但前提能最后發(fā)現(xiàn)效果不行，原來跟老板說上線漲5%，結(jié)果上線之后持平或者下跌，這時(shí)我該怎bug，這是第一點(diǎn)；第二點(diǎn)就是SurvivalBias的問題，這個(gè)問題比較典型，還拿搜索廣告舉一下種情況的理論分析比較常見，但實(shí)際上來說，還是需要先確認(rèn)有沒有bug，這個(gè)是最重要然后是模型這塊我們目前的現(xiàn)狀和計(jì)劃。我們已經(jīng)實(shí)現(xiàn)了Wide&De

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > IT計(jì)算機(jī)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用

文檔簡介

溫馨提示

最新文檔

評(píng)論

2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔