機器學習講義推薦系統(tǒng)排序篇_第1頁
機器學習講義推薦系統(tǒng)排序篇_第2頁
機器學習講義推薦系統(tǒng)排序篇_第3頁
機器學習講義推薦系統(tǒng)排序篇_第4頁
機器學習講義推薦系統(tǒng)排序篇_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、法律聲明本課件包括:演示文稿,示例,代碼,題庫,視頻和聲音等,小象學院擁有完全知識產(chǎn)權的權利;只限于善意學習者在本課程使用,不得在課程范圍外向任何第三方散播。任何其他人或機構不得盜版、復制、仿造其中的創(chuàng)意,我們將保留一切通過法律手段追究違反者的權利。課程詳情請咨詢微信公眾號:小象新浪微博:ChinaHadoop排序介紹課程回顧為什么要排序排序指標排序的流程排序介紹作業(yè)計算MAP計算nDCG排序介紹排序流程數(shù)據(jù)預處理特征抽取模型訓練后處理模型訓練Point WisePair Wise主要是將排序問題轉化為機器學習中常規(guī)的分類或回歸問題。預測單個item點擊率、轉化率或相關度item1 是否應該排

2、在item2前面轉換成二分類問題模型訓練Point Wise 建模轉換成二分類問題:預測點擊率、轉化率xf(x)0,1損失函數(shù)LogLoss-ylog(f(x)-(1-y)log(1-f(x)模型訓練Point Wise 建模多標簽怎么辦轉換成多分類問題?轉換成帶權重的二分類問題轉換成回歸問題模型訓練Point Wise 建模帶權重的二分類問題label越大權重越大正樣本帶權重,負樣本不帶損失函數(shù)LogLoss-ylog(f(x)-(1-y)log(f(x)weight模型訓練例如:特征標簽權重損失x101-log(1-f(x1)x211-log(f(x2)x3510-log(f(x3)10

3、x401-log(1-f(x1)模型訓練Point Wise 建模多標簽問題:回歸正樣本是大于0數(shù),具體值根據(jù)需要調整損失函數(shù):負樣本為0rmse模型訓練特征標簽目標值損失x100|f(x1)-0|2x211|f(x2)-1|2x3520|f(x3-20)|2x400|f(x4)-0|2例如模型訓練Pair Wise方法(x1, x2)f(x1,x2)0,1損失函數(shù):LogLoss-log(f(x1,x2)性質:f(x1,x2)+f(x2,x1)=1模型訓練Pair Wise方法Pair生成轉化大于點擊點擊大于不點擊轉化大于不點擊模型訓練例子特征標簽x10 x25x31x40pair損失(x2

4、, x1)-log(f(x2,x1)(x2,x3)-log(f(x2,x2)(x2.x4)-log(f(x2,x4)(x3,x1)-log(f(x3,x1)(x4,x1)-flog(f(x4,x1)模型訓練總結:排序可以轉化成這三種情況帶權重二分類問題回歸問題Pair排序預測xf(x)0,1x,f(x)(x1,x2)f(x1,x2)0,1f是什么?模型訓練假設空間中:x,g(x)二分類:回歸:Pair排序:f(x)=(g(x)f(x)=g(x)f(x1,x2)=(g(x1)-g(x2)模型訓練g可以是任意的函數(shù)一次函數(shù):線性模型二次函數(shù):因子模型復雜函數(shù):神經(jīng)網(wǎng)絡、樹模型模型訓練g可以是任意的

5、函數(shù)一次函數(shù):線性模型二次函數(shù):因子模型復雜函數(shù):神經(jīng)網(wǎng)絡、樹模型模型訓練因子模型矩陣分解:g(x)=u * iu和i都是向量模型訓練因子模型:矩陣分解:u10.1,0.5,0.3u20.5,0.3.0.1i10.3,0.7,0,7i20.3,0.4,-.5x=(u1,i1) g(x)=0.1*0.3 + 0.5*0.7+0.3*0.7x=(u2,i1) g(x)=0.5*0.3 + 0.4*0.7+0.2*0.7模型訓練因子模型:特征矩陣分解X=r,a,b部分參數(shù)帶有因子項模型訓練例子x=r,a,br是 4維向量,a是2維向量,b是3維向量因子數(shù)為3b是(4+2+3)維向量p是2*3 矩陣q

6、是3*3矩陣模型訓練b:122320103p:q:123213025413213x(1,0,1,0),(0,1),(1,1,0) y=3+0+1+(2,1,3)*(4,3,8)=39 模型訓練b:p:q:123213025413213x(1,1,0,0),(1,1),(1,0,1) y=?122320103模型訓練因子模型Facorization Machine模型訓練0.10.210.30.401v:x1,0,1,0,0,0,1 y=0.5+2.1+v1*v3+v1*v7+v3*v7 =0.5+2.1+0.61+2.01+1.06 =6.28例子x:維度為7w0:0.5w1因子為3個0.10

7、20.30.70.50.10.50.30.50.10.20.20.90.40.210.80.11.51模型訓練0.10.210.30.401v:x1,0,1,0,0,1,0 y=?例子x:維度為7w0:0.5w1因子為3個0.1020.30.70.50.10.50.30.50.10.20.20.90.40.210.80.11.51模型訓練算法優(yōu)化:減少乘法個數(shù)模型訓練算法優(yōu)化(x1*v1)*(v2*x2)+(x1*v1)*(x3*v3)+(x2*v2)*(x3*v3)=(x1*v1+x2*v2+x3*v3)2-(x1*v1)2-(x2*v2)2-(x3*v3)2/2假設長為3 v1,v2,v3

8、的平方每次計算完保存模型訓練算法優(yōu)化向量平方保存v:0.1024.010.30.70.50.830.10.50.30.350.50.10.20.30.20.90.41.010.210.81.680.11.513.260.10.210.30.401w1w0:0.5x1,0,1,0,0,1,0 y=?模型訓練因子模型Field-Aware FM模型訓練因子模型Field-Aware FMx=0,1,1,0,1,1=(0,1),(0,1),(1,1)例子:x分為三組因子矩陣也分為三組組內不做內積組間內積用不同的矩陣模型訓練x=0,1,1,0,1,1=(0,1),(0,1),(1,1)v1v311 0

9、21021v2v331 1021 20v1v3v2v1v223 121302y=(x1*v1,2)*(x2*v2,1)+ (x1*v1,3)*(x3*v3,1)+ (x2*v2,3)*(x3*v3,2) =(0,2)*(1,0)+ (2,0)*(3,5)+ (2,1)*(1,5)模型訓練x=0,1,1,0,1,1=(1,0),(1,0),(1,1)v1v311 021021v2v331 1021 20v1v3v2v1v223 121302y=?模型訓練其他模型樹模型隨機森林GBDTLambdaRank大作業(yè)內容:利用數(shù)據(jù)對酒店進行排序測試集沒有:position,click_pool,gros

10、s_booking_usd,booking_book評價指標:NDCG交易:點擊:展示:大作業(yè)數(shù)據(jù)類型描述Srch_idInteger搜索idDate_timeDate搜索時間Site_idInteger , Expedia.co.uk, Expedia.co.jpVisitor_location_country_idInteger用戶所在國家Vistor_hist_starratingFloat用戶訂酒店的平均星級visitor_hist_adr_usdFloat用戶訂酒店的平均花費prop_country_idInteger酒店所在國家數(shù)據(jù)類型描述prop_idInteger酒店IDpro

11、p_starratingInteger酒店星級prop_review_scoreFloat酒店平均評分prop_brand_boolInteger是否為連鎖酒店prop_location_score1FloatA score outlining the desirability of a hotels locationprop_location_score2Float A score outlining the desirability of a hotels locationprop_log_historical_priceFloatThe logarithm of the mean pri

12、ce of the hotel over the last trading period.大作業(yè)z大作業(yè)大作業(yè)數(shù)據(jù)類型描述positionInteger排名price_usdFloat價格promotion_flagInteger是否促銷gross_booking_usdFloat預訂費用srch_destination_idInteger目的地idsrch_length_of_stayInteger住宿天數(shù)srch_booking_windowInteger預訂提前的天數(shù)srch_adults_countInteger成人人數(shù)srch_children_countInteger兒童人數(shù)srch_room_countInteger房間的個數(shù)srch_saturday_night_boolInteger是否包含周末 srch_query_affinity_scoreFloat酒店被點概率的log值大作業(yè)orig_destination_di

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論