專24-5-DTCC2016演講-葉祺-基于大數(shù)據(jù)的查詢意圖識別及應(yīng)用_第1頁
專24-5-DTCC2016演講-葉祺-基于大數(shù)據(jù)的查詢意圖識別及應(yīng)用_第2頁
專24-5-DTCC2016演講-葉祺-基于大數(shù)據(jù)的查詢意圖識別及應(yīng)用_第3頁
專24-5-DTCC2016演講-葉祺-基于大數(shù)據(jù)的查詢意圖識別及應(yīng)用_第4頁
專24-5-DTCC2016演講-葉祺-基于大數(shù)據(jù)的查詢意圖識別及應(yīng)用_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

北京搜狗科技發(fā)展有限公司基于大數(shù)據(jù)的查詢意圖識別其應(yīng)用x動機與目標(biāo)x現(xiàn)有方法x框架與方法x效果與應(yīng)用x動機與目標(biāo)x現(xiàn)有方法x框架與方法x效果與應(yīng)用x搜索廣告的現(xiàn)狀+當(dāng)前的搜索廣告中,搜索引擎主要基于關(guān)鍵字匹x問題+查詢短、特征稀疏、歧義強+字面匹配缺乏意圖相關(guān)特征+廣告缺乏相關(guān)性+傷害用戶體驗、造成客戶無效消耗動機與目標(biāo)x目標(biāo)+挖掘海量細粒度查詢意圖+建立查詢與意圖間映射關(guān)系+處理高頻與長尾查詢+高精確性與較高覆蓋率x動機與目標(biāo)x現(xiàn)有方法x框架與方法x效果與應(yīng)用現(xiàn)有方法xGoogle的GoogleRephil系統(tǒng)+Google廣告相關(guān)性的頭號秘密武器+對詞或短語片段聚類發(fā)現(xiàn)概念+百萬量級的概念+基于Bayesian網(wǎng)絡(luò)的推斷方法+細節(jié)不公開現(xiàn)有方法x識別意圖的3類方法+短文本聚類+TopicModeling+查詢分類x特點+可發(fā)現(xiàn)細粒度意圖、難覆蓋長尾查詢+不同數(shù)據(jù)集Topic難對應(yīng),短文本分析精確不足+一般含幾十到上千個類,粒度較粗x動機與目標(biāo)x現(xiàn)有方法x框架與方法x效果與應(yīng)用法x細粒度意圖識別方法法x星辰系統(tǒng)整體框架x構(gòu)建Query同點擊網(wǎng)絡(luò)+基本假設(shè):點擊相同網(wǎng)頁的查詢意圖相似x對網(wǎng)絡(luò)進行社團劃分+查詢間的意圖會有細微差別、誤點情況+聚類算法要具有一定抗噪性+圖挖掘中的社團發(fā)現(xiàn)算法社團發(fā)現(xiàn)算法x社團的定義x傳統(tǒng)方法+定義了一個質(zhì)量函數(shù)MM.GirvanandM.E.J.Newman,PNAS99,7821(2002).MEJ.NewmanandM.Girvan,Phys.Rev.E69,026113(2004).MMO算法xMMO算法xMMO算法的優(yōu)點+易于實現(xiàn)+時間復(fù)雜度近似線性,空間復(fù)雜度為線性。+推廣到Hadoop并行環(huán)境中的運行+避免生成極大的社團x數(shù)據(jù)集+2年的匿名點擊日志x具體步驟+抽取query-URL的關(guān)系(1300萬查詢,1650萬URL)+如果兩個query間有一個同點擊,則在兩個query間+得到查詢同點擊網(wǎng)絡(luò)(1300萬查詢節(jié)點,8億條邊)概念質(zhì)量優(yōu)化x聚類存在的問題+過大的不純類+太多的細粒度聚類x聚類質(zhì)量評估+聚類純度+聚類間的相關(guān)性…………——StackingLearningLL(z) z1,y1,z2,y2…(zm,ym)z?1 Lz?1 L1(x)z?2 L2(x)LLT(x) x1,y1,x2,y2…(xm,ym)yy=1+e山0+山1+?+山mxm Co-clickSim LDA擴展 TFIDF相似性<<q1,a1>,m1 Co-SessionSim 網(wǎng)頁搜索擴展 查詢意圖推斷x問題定義+將query的意圖識別變?yōu)橐粋€大規(guī)模多分類問題x關(guān)鍵步驟+候選分類概念+拒絕分類結(jié)果x候選概念的發(fā)現(xiàn)查詢意圖推斷x拒絕項Query性:+概念側(cè)相關(guān)性:x動機與目標(biāo)x現(xiàn)有方法x框架與方法xx效果與應(yīng)用x對比方法:+查詢擴展+w2v+字面匹配+LDAx概念分布x概念舉例x星辰系統(tǒng)的精確性與覆蓋率+統(tǒng)計查詢次數(shù)x覆蓋率61.3%查詢意圖追蹤查詢意圖追蹤DEMODEMODEMOx廣告召回應(yīng)用+訓(xùn)練針對概念的商業(yè)性分類器+判斷每個概念是否適合召回廣告+線下計算每個概念和關(guān)鍵詞的相關(guān)性+線下選擇每個概念適合召回的關(guān)鍵詞鏈+線上判斷query所屬概念,根據(jù)概念召回應(yīng)用x廣告質(zhì)量保證+線下確定概念是否適合展示廣告+線下確定概念不適合展示的關(guān)鍵詞+線下確定概念不適合展示的廣告類別+黑名單過濾x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論