2024大規(guī)模機(jī)器學(xué)習(xí)與 AutoML 技術(shù)

上傳人：1*** IP屬地：山西上傳時(shí)間：2024-09-30 格式：DOCX 頁數(shù)：13 大小：1.72MB 積分：7.2 舉報(bào) 版權(quán)申訴

2024大規(guī)模機(jī)器學(xué)習(xí)與 AutoML 技術(shù)_第2頁

2024大規(guī)模機(jī)器學(xué)習(xí)與 AutoML 技術(shù)_第3頁

2024大規(guī)模機(jī)器學(xué)習(xí)與 AutoML 技術(shù)_第4頁

2024大規(guī)模機(jī)器學(xué)習(xí)與 AutoML 技術(shù)_第5頁

已閱讀5頁，還剩8頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大規(guī)模機(jī)器學(xué)習(xí)與AutoML技術(shù)Prob(click=yes|ad,我們可以通過4個(gè)過程描述：（1）特征生成，首先需要記錄影響廣告的每個(gè)因素，把廣告是將前面兩個(gè)過程中函數(shù)關(guān)系學(xué)習(xí)出來，即AI建模，通常從歷史數(shù)據(jù)學(xué)習(xí)模型參數(shù)，挖掘如下圖所示，在大量訓(xùn)練數(shù)據(jù)展現(xiàn)日志信息中，“檢索集合”表示用戶query的結(jié)果，其0表示未點(diǎn)擊的廣告，1表示點(diǎn)擊的廣告。經(jīng)過模型訓(xùn)練擬合數(shù)據(jù)，得到預(yù)估模型以“鮮花”搜索為例，進(jìn)一步說明。當(dāng)用戶搜索“鮮花”時(shí)，根據(jù)用戶cookie或歷史搜索100001000用戶、100廣告，采用ID進(jìn)行標(biāo)號(hào)，查詢(q)：1、2、…、10000，用戶(u)：1、2、…、進(jìn)行交叉組合，如下圖所示，q*u查詢和用戶特征組合10000×1000。對(duì)特征進(jìn)行降維。如下圖所示多種降維方法，第一種是離散到離散：Hashing2，第sigmoidxf(x)指一個(gè)場景里面如何把向量映射到實(shí)數(shù)R，通常根據(jù)f(x)形式分為淺層和深層網(wǎng)絡(luò)，在做廣告預(yù)估的時(shí)候，可以模型訓(xùn)練，我們把整個(gè)假設(shè)做好以后，接下來就是訓(xùn)練模型。模型訓(xùn)練數(shù)據(jù)如(x1,y1),…,(xn,yn)，其中x為特征向量，y{-1,+1},-1為未檢點(diǎn)，+1為檢點(diǎn)。廣告場景為千求解如下優(yōu)化問題，最終求解w。告場景中特征維度上億，運(yùn)算量特別大，所以較多地使用1st階梯度近似Hessian矩陣，典型的算法是LBFGS算法，用好多個(gè)1階梯度逼近。其他的方法如每次只使用單維特征梯在實(shí)際場景中，除了算法設(shè)計(jì)外，還有分布式計(jì)算框架設(shè)計(jì)，設(shè)計(jì)思路是模型很大時(shí)，需&uiasUFS、PFSAFS家，為了降低門檻，采用AutoML建模(第四代)，如下圖所示。都可能影響模型效果，整個(gè)建模過程就是這些環(huán)節(jié)反復(fù)調(diào)整，直到得到模型。AutoML借AutoMLAutoMLICML、ECMLPKDD、NIPSLearningworkshopAutoML20175AutoML算法。如下圖所示，AutoML問題定義，通俗地來說，假設(shè)有這么一個(gè)過程：我看參數(shù)效果好壞。我們希望整個(gè)過程能夠自動(dòng)化，這就是AutoML。從下圖的簡化目標(biāo)函AutoML技術(shù)挑戰(zhàn)包括超參結(jié)構(gòu)復(fù)雜、目標(biāo)函數(shù)不可導(dǎo)、評(píng)估代價(jià)巨大。AutoML過程中器學(xué)習(xí)中如果可導(dǎo)，采用簡單的隨機(jī)梯度下降方法就能解決；AutoMLAIAI，每一是基于搜索的方法，二是利用AI訓(xùn)練AI方法。搜索算法。下圖分別說明，針對(duì)二維變量(9個(gè)參數(shù)，2個(gè)維度)可以采用格搜索方法，AB下圖所示，三種顏色代表三種算法，1—5以后根據(jù)學(xué)習(xí)曲線，可能還不能區(qū)分，但迭代到3次時(shí)會(huì)出現(xiàn)差異，繼續(xù)觀察算法1和算與效果的模型，基于模型，平衡Exploitationvsexploration選擇下一步試探的點(diǎn)，在選定參數(shù)下訓(xùn)練模型，迭代1-3直到滿意的點(diǎn)選出。2^2^10次模型來尋找最優(yōu)解，需要很長的時(shí)間才能找到最優(yōu)解。那么應(yīng)該如違約

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > IT計(jì)算機(jī)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024大規(guī)模機(jī)器學(xué)習(xí)與 AutoML 技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

2024大規(guī)模機(jī)器學(xué)習(xí)與 AutoML 技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔