丨ai模型的構(gòu)建過(guò)程是怎樣下_第1頁(yè)
丨ai模型的構(gòu)建過(guò)程是怎樣下_第2頁(yè)
丨ai模型的構(gòu)建過(guò)程是怎樣下_第3頁(yè)
丨ai模型的構(gòu)建過(guò)程是怎樣下_第4頁(yè)
丨ai模型的構(gòu)建過(guò)程是怎樣下_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

這里,先給你講一個(gè)概念,它叫做決策邊界,你可以把它簡(jiǎn)單理解為我們每天生活當(dāng)中的各種決策。比如,當(dāng)Mate降價(jià)到5000元的時(shí)候我就打算,那這種情況下我的決策邊界就是5000元,因?yàn)榇笥?000元的時(shí)候我不會(huì),只有小于5000元時(shí)我會(huì)選擇。那放到預(yù)測(cè)用戶流失這個(gè)案例中,我們模型訓(xùn)練的目標(biāo)就是,在已知的用戶中用分類算法找到一個(gè)決策邊界,然后再用決策邊界把未知新用戶快速劃分成流失用戶或者是非流失用戶。不同算法的決策邊界也不一樣,比如線性回歸和邏輯回歸這樣的線性算法,它們的決策邊界也是線性的,長(zhǎng)得像線條或者平面,而對(duì)于決策樹(shù)和隨機(jī)森林這樣的非線性算法,它們的決策邊界也是非線性是一條曲線。因此,決策邊界是判斷一個(gè)算法是線性還是非線性最重要的標(biāo)準(zhǔn)。上圖就是三種算法的決策邊界。決策邊界的形式無(wú)非就是直線和曲線兩種,并且這些曲線的復(fù)雜度(曲線的平滑程度)和算法訓(xùn)練出來(lái)的模型能力關(guān)。一般來(lái)說(shuō)決策邊界曲線越陡峭,模型在訓(xùn)練集上的準(zhǔn)確率越高,但陡峭的決策邊界可能會(huì)讓模型對(duì)未知數(shù)據(jù)的預(yù)測(cè)結(jié)果不穩(wěn)定。對(duì)于模型訓(xùn)練來(lái)說(shuō),這個(gè)風(fēng)險(xiǎn)和收益的平衡點(diǎn),就是擬合能力與泛化能力的平衡點(diǎn)。擬合能力代表模型在已知數(shù)據(jù)上表現(xiàn)得好壞,泛化能力代表模型在未知數(shù)據(jù)上表現(xiàn)得好壞。它們之間的平衡點(diǎn),就是我們通過(guò)不斷地訓(xùn)練和驗(yàn)證找到的模型參數(shù)的最優(yōu)解,因此,這個(gè)最優(yōu)解繪制出來(lái)的決策邊界就具有最好的擬合和泛化能力。這是模型訓(xùn)練中“最優(yōu)”的意思,也是模型訓(xùn)練的目標(biāo),要記住。具體到我們這個(gè)流失用戶預(yù)測(cè)的例子上,模型訓(xùn)練的目的就是找到一個(gè)平衡點(diǎn),讓模型繪制出的決策邊界,能夠最大地區(qū)分流失用戶和非流失用戶,也就是預(yù)測(cè)流失用戶的準(zhǔn)確率最高,并且還兼顧了模型的穩(wěn)定性。一般情況下,算法工程師會(huì)通過(guò)交叉驗(yàn)證(CrossValidation)的方式,找到模型參數(shù)的最如果算法工程師想讓擬合能力足夠好,就需要構(gòu)建一個(gè)復(fù)雜的模型對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,可越復(fù)雜的模型就會(huì)越依賴訓(xùn)練集的信息,就很可能讓模型在訓(xùn)練集上的效果足夠好,在測(cè)試集上表現(xiàn)比較差,產(chǎn)生過(guò)擬合的情況,最終導(dǎo)致模型泛化能力差。這個(gè)時(shí)候,如果算法工程師想要提高模型的泛化能力,就要降低模型復(fù)雜度,減少對(duì)現(xiàn)有樣本的依賴,但如果過(guò)分地減少對(duì)訓(xùn)練樣本的依賴,最終也可能導(dǎo)致模型出現(xiàn)欠擬合的情況?!?,它的評(píng)估方式可以分為兩大類:分類模型評(píng)估和回歸模型評(píng)估。分類模型解決的是將一個(gè)人或者物體進(jìn)行分類,例如在風(fēng)控場(chǎng)景下,區(qū)分用戶是不是“好人”,或者在圖像識(shí)別場(chǎng)景下,識(shí)別某張是不是包含人臉。對(duì)于分類模型的性能評(píng)估,我們會(huì)用到包括率、F1、KS、AUC這些評(píng)估指標(biāo)。而回歸模型解決的是預(yù)測(cè)連續(xù)值的問(wèn)題,如預(yù)測(cè)或者的價(jià)格,所以我們會(huì)用到方差和MSE這些指標(biāo)對(duì)回歸模型對(duì)于產(chǎn)品經(jīng)理來(lái)說(shuō),我們除了要知道可以對(duì)模型性能進(jìn)行評(píng)估的指標(biāo)都有什么,還要知道這些指標(biāo)值到底在什么范圍是合理的。雖然,不同業(yè)務(wù)的合理值范圍不一樣,我們要根據(jù)自己的業(yè)務(wù)場(chǎng)景來(lái)確定指標(biāo)預(yù)期,但我們至少要知道什么情況是不合理的。比如說(shuō),如果算法同學(xué)跟我說(shuō),AUC是0.5,都不想就知道,這個(gè)模型可能上不了線了,因?yàn)锳UC=0.5說(shuō)明這個(gè)模型預(yù)測(cè)的結(jié)果沒(méi)有分辨能力,準(zhǔn)確率太差,這和瞎猜得到其次是模型的穩(wěn)定性,你可以簡(jiǎn)單理解為模型性能(也就是模型的效果)可以持續(xù)多久。我們可以使用PSI指標(biāo)來(lái)判斷模型的穩(wěn)定性,如果一個(gè)模型的PSI>0.2,那它的穩(wěn)定性就太差了,這就說(shuō)明算法同學(xué)的工作交付不達(dá)標(biāo)。塊的時(shí)間來(lái)和你詳細(xì)講一講,模型評(píng)估的指標(biāo)都有什么,以及它們的計(jì)算邏輯、合理前面我們講的4個(gè)環(huán)節(jié)都是針對(duì)一個(gè)模型來(lái)說(shuō)的,但在實(shí)際工作中,為了解決很多具體的細(xì)節(jié)問(wèn)題,算法工程師經(jīng)常需要構(gòu)建多個(gè)模型才獲得最佳效果。這個(gè)時(shí)候,就要涉及多個(gè)模型集成的問(wèn)題了。那模型集成或者說(shuō)集成學(xué)習(xí)究竟是怎么一回事兒呢?聽(tīng)我慢慢給你講。我們先來(lái)看一個(gè)生活中的例子,如果你打算買一輛車,你會(huì)直接找一家4S店,然后讓汽車銷售員推銷一下,就直接決定了嗎?大概率不會(huì),你會(huì)先去各頭部汽車咨詢看看其他車主的評(píng)價(jià),或者咨詢一下同事或朋友的意見(jiàn),甚至?xí)约赫硪欢哑嚫骶S度的專業(yè)對(duì)比資料,再經(jīng)過(guò)幾次討價(jià)還價(jià),才會(huì)最終做出的決定。模型融合就是采用的這個(gè)思路,同時(shí)訓(xùn)練多個(gè)模型,再通過(guò)模型集成的方式把這些模型合并在一起,從而提升模型的準(zhǔn)確率。簡(jiǎn)單來(lái)說(shuō),就是用多個(gè)模型的組合來(lái)改善整體的表現(xiàn)。融合最簡(jiǎn)單,就是把票數(shù)最多的模型預(yù)測(cè)的類別作為結(jié)果。另外,還有Blending和Stacking,以及Bagging和Boosting這些比較復(fù)雜的模型融合方法。除了要注意模型融合的方法,我們還要注意算法模型的選擇,不業(yè)選擇的算法模型一定不一樣。比如,互聯(lián)網(wǎng)數(shù)據(jù)和銀行金融機(jī)構(gòu)數(shù)據(jù)就不一樣,因?yàn)殂y行數(shù)據(jù)大部分都是強(qiáng)相關(guān)性的金融性數(shù)據(jù),所以它可能會(huì)考慮機(jī)器學(xué)習(xí)算法,而互聯(lián)網(wǎng)的數(shù)據(jù)特征基本都是稀疏,會(huì)較多考慮深度學(xué)習(xí)算法。并且,由于不業(yè)對(duì)于算法模型的風(fēng)險(xiǎn)狀況也有不同的考慮,所以對(duì)模型的選擇也會(huì)有不同的限制標(biāo)準(zhǔn),比如銀行、金融行業(yè)會(huì)模型的特征和解釋性,因此,會(huì)選擇可解釋除此之外,我們還要考慮算法模型選擇的成本。比如說(shuō),產(chǎn)品經(jīng)理可能認(rèn)為通過(guò)但是在實(shí)際中,算法工程師常常會(huì)為了提成模型AUC的一個(gè)點(diǎn),讓特征的規(guī)模增大很多,一個(gè)模型訓(xùn)練完成并通過(guò)評(píng)估后,算法工程師就要考慮怎么把它部署到線上,并應(yīng)用到業(yè)務(wù)場(chǎng)景中。雖然模型部署不屬于模型構(gòu)建中的環(huán)節(jié),但它卻是AI產(chǎn)品上線中必不可少的一環(huán),所以我也要在這里和你講一下。一般情況下,因?yàn)樗惴▓F(tuán)隊(duì)和工程團(tuán)隊(duì)是分開(kāi)的兩個(gè)組織架構(gòu),所以算法模型基本也是部署成獨(dú)立的服務(wù),然后一個(gè)HTTPAPI給工程團(tuán)隊(duì)進(jìn)行調(diào)用,這樣可以解耦相互之間的工作依賴,簡(jiǎn)單的機(jī)器學(xué)習(xí)模型一般通過(guò)Flask來(lái)實(shí)現(xiàn)模型的部署,深度學(xué)習(xí)模型一般會(huì)選TensorFlowering來(lái)實(shí)現(xiàn)模型部署。但是,具體的交互方式也還要看模型應(yīng)用的業(yè)務(wù)場(chǎng)景,比如業(yè)務(wù)需求就是要對(duì)UGC內(nèi)容進(jìn)行分類,如果業(yè)務(wù)場(chǎng)景是要實(shí)時(shí)預(yù)測(cè)用戶UGC的類別,那我們的分類模型就需要部署成在線的Web服務(wù)并提供實(shí)時(shí)響應(yīng)的API接口;如果我們只是需要對(duì)一批已有的UGC數(shù)據(jù)進(jìn)行分類,然后使用分類后的結(jié)果,那我們的模型通過(guò)離線任務(wù)的方式運(yùn)行,每日定時(shí)處理增量的UGC數(shù)據(jù)就可以了。通過(guò)第6和第7特征工程是所有環(huán)節(jié)中最乏味和耗時(shí)的。因?yàn)?,?shí)際生產(chǎn)中的數(shù)據(jù)會(huì)存在各種各樣的問(wèn)題,如數(shù)據(jù)缺失、異常、分布不均、量綱不統(tǒng)一等等,這些問(wèn)題都需要在特征工程中解決的。但是這種耗時(shí)絕對(duì)值得,一個(gè)好的特征工程直接影響算法模型最終的效果。模型訓(xùn)練就是一個(gè)通過(guò)不斷訓(xùn)練數(shù)據(jù),驗(yàn)證效果和調(diào)優(yōu)參數(shù)的一個(gè)過(guò)程,而模型驗(yàn)證和它是一個(gè)不斷循環(huán)迭代的過(guò)程,目標(biāo)都是尋找模型泛化能力和模型效果的平衡點(diǎn)。所以模型訓(xùn)練我們要和模型驗(yàn)證一塊來(lái)看。更具體點(diǎn),在我們的例子中,模型訓(xùn)練的目標(biāo)就是為了預(yù)測(cè)用戶是否為流失用戶,模型訓(xùn)練就是在已知用戶數(shù)據(jù)中通過(guò)算法找到一個(gè)決策邊界,然后在這條決策邊界上,模型的擬合和泛化能力都能達(dá)到最好,也就是說(shuō),在訓(xùn)練集和測(cè)試集上對(duì)流失用戶預(yù)測(cè)準(zhǔn)確率都很高。模型融合環(huán)節(jié)主要是通過(guò)多個(gè)模型的組合來(lái)改善整體的表現(xiàn)。模型融合有許多方法,簡(jiǎn)單的有平均和投票法,復(fù)雜的有Baging和Bosig。作為產(chǎn)品經(jīng)理,我們要知道,模型融合雖然可以提升模型的準(zhǔn)確率,但也需要均衡開(kāi)發(fā)成本來(lái)綜合考慮。最后,我還想給你一個(gè)小建議,如果你是偏基礎(chǔ)層或者技術(shù)層的產(chǎn)品經(jīng)理,需要對(duì)模型構(gòu)建的過(guò)程了解得更加清楚,你可以在一些開(kāi)放的機(jī)器學(xué)臺(tái)(比如阿里的機(jī)器學(xué)臺(tái)PAI)上,嘗試

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論