策略產(chǎn)品經(jīng)理必讀系列-第一講機(jī)器學(xué)習(xí)_第1頁
策略產(chǎn)品經(jīng)理必讀系列-第一講機(jī)器學(xué)習(xí)_第2頁
策略產(chǎn)品經(jīng)理必讀系列-第一講機(jī)器學(xué)習(xí)_第3頁
策略產(chǎn)品經(jīng)理必讀系列-第一講機(jī)器學(xué)習(xí)_第4頁
策略產(chǎn)品經(jīng)理必讀系列-第一講機(jī)器學(xué)習(xí)_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、策略產(chǎn)品經(jīng)理必讀系列第一講機(jī)器學(xué)習(xí)一、 什么是Machine Learning機(jī)器學(xué)習(xí),簡單來說就是從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,然后將規(guī)律應(yīng)用到未來中。國內(nèi)大家一致推薦的,南京大學(xué)周志華教授的機(jī)器學(xué)習(xí)教材西瓜書里面如此介紹機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是機(jī)器從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,來提升系統(tǒng)的某個(gè)性能度量。機(jī)器學(xué)習(xí),是一個(gè)非常寬泛的概念,它是一門學(xué)科。你可以理解為和數(shù)學(xué)、物理一樣的學(xué)科。簡單點(diǎn)講:大家從小到大都學(xué)習(xí)過數(shù)學(xué),刷過大量的題庫。老師和我們強(qiáng)調(diào)什么?要學(xué)會(huì)去總結(jié),從之前做過的題目中,總結(jié)經(jīng)驗(yàn)和方法。總結(jié)的經(jīng)驗(yàn)和方法,可以理解為就是機(jī)器學(xué)習(xí)產(chǎn)出的模型,然后我們?cè)僮鰯?shù)學(xué)題利用之前總結(jié)的經(jīng)驗(yàn)和方法就可以考更高的

2、分。有些人總結(jié)完可以考很高的分,說明他總結(jié)的經(jīng)驗(yàn)和方法是對(duì)的,他產(chǎn)出的的模型是一個(gè)好模型。復(fù)雜點(diǎn)講:比如說金融領(lǐng)域,利用機(jī)器學(xué)習(xí)來構(gòu)建一個(gè)反欺詐模型。銀行做金融貸款業(yè)務(wù)時(shí),很多客戶是欺詐客戶,專門來騙取貸款的。根據(jù)歷史上還款的好客戶和首次即逾期的欺詐客戶的數(shù)據(jù),去找出“好客戶”的特征和“欺詐客戶”的特征,然后利用機(jī)器學(xué)習(xí)構(gòu)建一個(gè)模型來區(qū)分出客戶的欺詐度。模型的好壞決定了識(shí)別客戶欺詐的能力。學(xué)術(shù)界:上圖是周志華教授的西瓜書里面對(duì)于機(jī)器學(xué)習(xí)的解釋,機(jī)器學(xué)習(xí)是研究“學(xué)習(xí)算法”的學(xué)問。工業(yè)界:但實(shí)際上到了工業(yè)界,很多時(shí)候問題并不是如何研究“學(xué)習(xí)算法”,而變成如何應(yīng)用了,算法很多時(shí)候都是現(xiàn)成的,關(guān)于這個(gè)

3、問題的算法人們?cè)缪芯客噶?。但就和物理一樣,牛頓一二三定理加上各種公式都給你了,你還是不會(huì)解題。一個(gè)是理論物理和一個(gè)是應(yīng)用物理。當(dāng)你有了學(xué)習(xí)算法,你在工業(yè)界實(shí)際應(yīng)用的時(shí)候,你還得做特征工程,做訓(xùn)練和評(píng)估等等。最后才能產(chǎn)生一個(gè)效果不錯(cuò)的模型。而在工業(yè)界很多應(yīng)用機(jī)器學(xué)習(xí)的場景下,實(shí)際上后者的重要性大于前者(此部分后面會(huì)專門介紹)??偨Y(jié)來說:機(jī)器學(xué)習(xí),是一門研究如何讓計(jì)算機(jī)從歷史數(shù)據(jù)中去更好地學(xué)習(xí),從而產(chǎn)生一個(gè)優(yōu)秀模型可以提升系統(tǒng)某項(xiàng)性能的學(xué)科。但實(shí)際應(yīng)用遠(yuǎn)遠(yuǎn)不是研究算法這么簡單。1.1 機(jī)器學(xué)習(xí)名稱的由來專門提一下機(jī)器學(xué)習(xí)為什么叫機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)這些年在國內(nèi)很火,其實(shí)機(jī)器學(xué)習(xí)在國際上研究很久了,1

4、952年一位IBM的工程師Arthur Samuel研發(fā)了一個(gè)西洋跳棋程序,然后一些知名的棋手都輸給了這個(gè)程序,有點(diǎn)像上個(gè)世紀(jì)50年代的阿法狗。后來1956年,這位工程師受邀,在達(dá)沃斯會(huì)議上介紹自己的這項(xiàng)研究,第一次提出了“Machine Learning”這個(gè)詞匯, Arthur Samuel也因?yàn)楸环Q為“機(jī)器學(xué)習(xí)之父”,他將“Machine Learning”定義為“不需要確定性編程就可以賦予機(jī)器某項(xiàng)技能的研究領(lǐng)域“,讓機(jī)器像人一樣學(xué)習(xí)起來。1.2 機(jī)器學(xué)習(xí)與AI、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的關(guān)系這是硅谷的一位工程師的調(diào)侃:AI和機(jī)器學(xué)習(xí)的區(qū)別。AI基本上都是PPT,而機(jī)器學(xué)習(xí)是真材實(shí)料用Pyth

5、on寫出來的。這雖然是調(diào)侃,但卻是當(dāng)前人工智能發(fā)展的現(xiàn)狀。所有人都在吹噓AI,自己的AI多么牛逼,但都是僅限于PPT層面,等到落地的時(shí)候就沒有那么神話了,很多時(shí)候都是打著AI的噱頭。用上圖清晰地給大家介紹彼此之間的關(guān)系:人工智能包含機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)又包含強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)等。目前人類所研究的AI還是弱人工智能,電影里面看到的那種機(jī)器完全和人類一樣去思考、行動(dòng)的智能還遠(yuǎn)遠(yuǎn)達(dá)不到。然后強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)都是機(jī)器學(xué)習(xí)里面的兩個(gè)子技術(shù),兩個(gè)不同研究領(lǐng)域??梢酝ㄋ椎乩斫鉃槲锢韺W(xué)里面的力學(xué)和電學(xué)。那物理學(xué)除了電和力,還有光學(xué)、磁場等等。所以機(jī)器學(xué)習(xí)技術(shù)中還有很大一部分是“高維特征大數(shù)據(jù)建模”。其實(shí)現(xiàn)在我

6、們?cè)诠I(yè)界專門提“機(jī)器學(xué)習(xí)”技術(shù),更多地指的是我所列出來的第三部分“高維特征大數(shù)據(jù)建模”。前兩者我們不會(huì)說機(jī)器學(xué)習(xí)技術(shù),而是直接說強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)。1.3 機(jī)器學(xué)習(xí)構(gòu)建模型泛化的步驟下面主要講述高維特征大數(shù)據(jù)建模的一些泛化步驟。以下是正常一位數(shù)據(jù)科學(xué)家進(jìn)行建模的步驟:步驟一定義問題:首先客戶的問題是什么?客戶想利用機(jī)器學(xué)習(xí)構(gòu)建模型來滿足什么需求?比如在金融反欺詐領(lǐng)域,銀行的需求就是能不能構(gòu)建一個(gè)模型,來區(qū)分出欺詐客戶和正常客戶。有了這個(gè)模型,就可以盡可能地降低銀行的信貸逾期風(fēng)險(xiǎn)。再比如在零售領(lǐng)域,電商APP的需求是在推薦欄目為用戶主動(dòng)推薦一些商品,提高用戶對(duì)于該頁面商品的點(diǎn)擊率、加購率以及下

7、單率。定義問題決定了兩件事情,第一件事情是決定了數(shù)據(jù)科學(xué)家要用什么算法來構(gòu)建模型;反欺詐場景下基本用的都是GBDT算法,而推薦場景下基本用的都是協(xié)同過濾算法。這些算法本身都已經(jīng)很成熟了,在這些場景下也得到了大量的應(yīng)用和驗(yàn)證。這就和物理中力學(xué)場景下離不開牛頓三大定律一樣,定律本身已經(jīng)成熟了,就看你怎么用。很多時(shí)候人們吐槽數(shù)據(jù)科學(xué)家是調(diào)包俠就是因?yàn)檫@些算法是有現(xiàn)成的包的,科學(xué)家們只需要在程序里面調(diào)用一下就行了,當(dāng)然實(shí)際工作要比這復(fù)雜的多。第二件事情是決定了數(shù)據(jù)科學(xué)家如何來評(píng)估模型的好壞。模型沒有對(duì)錯(cuò)之分,只存在效果的好壞之分。那在反欺詐場景下,哪個(gè)模型能夠?qū)⒄?蛻艉推墼p客戶分類的最準(zhǔn)確,哪個(gè)模型

8、的效果就好。而在推薦場景下,那么就是同時(shí)對(duì)模型進(jìn)行一段時(shí)間的觀察,哪個(gè)模型為用戶推薦的商品,用戶的點(diǎn)擊率下單率更高,哪個(gè)模型的效果更好。步驟二收集數(shù)據(jù):定義完問題后,我們需要收集數(shù)據(jù),數(shù)據(jù)質(zhì)量的好壞,對(duì)模型效果的影響非常大。根據(jù)場景下,我們需要使用的數(shù)據(jù)不一樣。比如反欺詐場景下,我們需要使用到用戶的基本信息、歷史還款信息等,這里面包含正常用戶和欺詐用戶的,二者的信息都需要。正常情況下,用戶的數(shù)據(jù)都會(huì)分布在數(shù)據(jù)庫不同的表里面,為了建模的方便,通常我們都是合并成一張大寬表。數(shù)據(jù)清洗:很多時(shí)候歷史數(shù)據(jù)比較亂,有很多臟數(shù)據(jù),比如說某條記錄是測試人員當(dāng)時(shí)測試時(shí)候的數(shù)據(jù),并不是真實(shí)數(shù)據(jù),那這種數(shù)據(jù)我們就要

9、剔除掉。還有就是數(shù)據(jù)缺失,很可能某些記錄的某些字段內(nèi)容缺失,這時(shí)候就需要看能不能補(bǔ)充。還有很多時(shí)候數(shù)據(jù)字段意義不統(tǒng)一,比如說在某個(gè)時(shí)間點(diǎn)前,數(shù)據(jù)庫里面性別是男女,而這個(gè)時(shí)間點(diǎn)后性別變成了AB,A代表男,B代表女,這時(shí)需要把字段意義統(tǒng)一。數(shù)據(jù)清洗很多時(shí)候占據(jù)著數(shù)據(jù)科學(xué)家們大量時(shí)間。數(shù)據(jù)標(biāo)注:清洗完數(shù)據(jù)后,有的時(shí)候我們甚至還需要進(jìn)行數(shù)據(jù)標(biāo)注。比如在反欺詐場景下,大寬表里面一條客戶的記錄,到底是正常用戶還是欺詐用戶,有的時(shí)候數(shù)據(jù)庫里面沒有對(duì)這些數(shù)據(jù)進(jìn)行分類,我們還需要人工地去判斷這條記錄應(yīng)該屬于哪個(gè)label的客戶。數(shù)據(jù)抽樣:數(shù)據(jù)抽樣一般是因?yàn)闅v史數(shù)據(jù)太多了,而且有的歷史數(shù)據(jù)太久遠(yuǎn)不具有參考意義。所

10、以我們一般都是選擇近期的用戶數(shù)據(jù)。如果數(shù)據(jù)還是太多,導(dǎo)致訓(xùn)練時(shí)間太長,我們就會(huì)采用隨機(jī)抽樣的方法,再從近期的用戶數(shù)據(jù)中,隨機(jī)抽取XX%的數(shù)據(jù)出來。數(shù)據(jù)切分:就是將我們抽樣出來的數(shù)據(jù)分為訓(xùn)練集和測試集,我們?cè)谟?xùn)練集上進(jìn)行訓(xùn)練,測試集上面測試我們模型的效果。必須要區(qū)分開訓(xùn)練集和測試集,不可能一個(gè)數(shù)據(jù)集既作為訓(xùn)練集又作為測試集。就相當(dāng)于,你準(zhǔn)備考試的模擬試卷你拿來練習(xí),結(jié)果考試的試卷就是模擬試卷,那沒辦法反映出你真實(shí)的水平。一般我們訓(xùn)練和測試集的比例是9:1。但實(shí)際工作中這個(gè)比例也不是固定的。數(shù)據(jù)穿越:數(shù)據(jù)穿越是科學(xué)家建模在挑選數(shù)據(jù)的過程中常見的一個(gè)問題。比如說現(xiàn)在這個(gè)時(shí)間點(diǎn)2020.2.23日我們

11、需要構(gòu)建一個(gè)反欺詐模型,來判斷2019.2.1日開始的用戶是正常用戶還是欺詐用戶。那么我們只能使用2019.2.1日之前的歷史用戶數(shù)據(jù)來進(jìn)行訓(xùn)練,而不能使用截止到2020.2.23日的用戶數(shù)據(jù),因?yàn)榇藭r(shí)此刻我們已經(jīng)知道了絕大部分2019.2.1日的用戶是正常用戶還是欺詐用戶,用截止到此時(shí)此刻的數(shù)據(jù)來訓(xùn)練模型就相當(dāng)于作弊,訓(xùn)練出來的模型效果很好也不具備參考價(jià)值。很多情況下數(shù)據(jù)科學(xué)家還會(huì)遇到一個(gè)問題就是沒有歷史數(shù)據(jù)。是的,這種情況也經(jīng)常有。沒有積累歷史數(shù)據(jù),或者歷史數(shù)據(jù)太少幾乎等于沒有,那么怎么辦?這個(gè)時(shí)候就直接照搬同樣場景下另外一個(gè)項(xiàng)目的模型直接用,這種我們叫做“冷啟動(dòng)”。因?yàn)橄嗤瑘鼍跋?,模型?/p>

12、同小異,可以直接先用著歷史其他項(xiàng)目的模型。然后再積累一段時(shí)間的數(shù)據(jù)后,再根據(jù)該場景下的積累的歷史數(shù)據(jù)對(duì)模型進(jìn)行調(diào)優(yōu)。步驟三特征工程:特征工程是工業(yè)界建模中最最最重要的一個(gè)模塊。模型效果的好壞,一部分是由數(shù)據(jù)質(zhì)量決定的,另一部分是由特征工程決定的。什么是特征工程?我們?nèi)绾卧u(píng)估一個(gè)用戶是否是欺詐用戶還是正常用戶,那么我們就需要找到這二者在哪些特征上表現(xiàn)存在明顯差異,通過這些特征來進(jìn)行區(qū)分。尋找特征來有效的區(qū)分不同label的樣本,這個(gè)就是特征工程。反欺詐場景下,用戶的歷史還款行為就是一個(gè)有效的特征來判斷該用戶是否是欺詐用戶。如果用戶歷史經(jīng)常逾期,那么用戶欺詐的可能性就大,用戶歷史都正常還款,欺詐的

13、可能性就低。除了該特征,用戶所在的地域、年齡、是否已婚、經(jīng)濟(jì)情況、受教育成都、職業(yè)等等都是有效特征。數(shù)據(jù)科學(xué)家們?cè)诮V卸紩?huì)加入這些特征。很多時(shí)候數(shù)據(jù)科學(xué)家還要去請(qǐng)教業(yè)務(wù)專家,和業(yè)務(wù)專家調(diào)研他們?cè)谧鰧?shí)際業(yè)務(wù)中,發(fā)現(xiàn)不同label的用戶在哪些特征上表現(xiàn)差異化比較明顯。業(yè)務(wù)專家懂業(yè)務(wù),有很多經(jīng)驗(yàn)規(guī)則是數(shù)據(jù)上面看不出來的,就需要業(yè)務(wù)專家的輸入。業(yè)務(wù)專家的輸入,可以讓科學(xué)家們鎖定到一些有效的特征上,而舍棄一些無效的特征,對(duì)建模過程起到一定的指導(dǎo)作用,提高了效率。同時(shí)數(shù)據(jù)科學(xué)家們還會(huì)構(gòu)建一些組合特征,將很多特征組合在一起構(gòu)成一個(gè)新的特征。一方面是因?yàn)闅v史數(shù)據(jù)特征本身可能不多,另一方面是單獨(dú)某兩個(gè)特征判斷

14、不了什么但當(dāng)結(jié)合在一起成為一個(gè)新的特征時(shí)有時(shí)卻可以反映出一些有價(jià)值的信息。所以為了構(gòu)建一個(gè)高維特征的模型,實(shí)際建模中科學(xué)家們會(huì)將很多特征組合在一起構(gòu)造一些原本歷史數(shù)據(jù)中沒有的特征。就像我們只通過兩三個(gè)特征去評(píng)估一個(gè)人好壞,是很難評(píng)估的,容易片面。當(dāng)我們通過成百上千個(gè)特征去評(píng)估時(shí)就比較客觀。特征工程很多時(shí)候科學(xué)家們會(huì)做很多組不同的特征工程,因?yàn)橛袝r(shí)候科學(xué)家們也無法判斷哪一組更好,就多幾種可能性,放到模型訓(xùn)練中去訓(xùn)練。步驟四模型訓(xùn)練:構(gòu)建完特征工程后,科學(xué)家們開始要生成初版的模型,模型的表現(xiàn)形式是一個(gè)函數(shù)。假設(shè)在反欺詐場景下,函數(shù)為z=ax+by+c這么一個(gè)函數(shù),x和y是特征,a、b、c就是參數(shù),

15、z是結(jié)果。當(dāng)z大于0時(shí),用戶為正常用戶,z小于等于0時(shí),用戶為欺詐用戶。(為了方便大家理解,這邊舉了一個(gè)比較簡單的函數(shù)。實(shí)際反欺詐場景下,我們使用的是邏輯回歸函數(shù))那么模型訓(xùn)練什么?模型訓(xùn)練就是訓(xùn)練參數(shù)。最開始的時(shí)候我們會(huì)對(duì)a、b、c設(shè)置一個(gè)初始值,假設(shè)都設(shè)置為1。接下來我們就需要通過步驟二里面的訓(xùn)練數(shù)據(jù)來訓(xùn)練模型,不停地調(diào)整我們的參數(shù)。訓(xùn)練的過程可以理解為就是不停地嘗試各種參數(shù)組合,使得每條用戶記錄評(píng)估出來的z的值和用戶真實(shí)z的值接近。當(dāng)然嘗試是有技巧性的嘗試,而不是窮舉,模型訓(xùn)練的方式有梯度下降法等等,在此不詳細(xì)敘述。實(shí)際工作中每一次模型訓(xùn)練的時(shí)間,短的以天為單位,長的甚至可能以周為單位。

16、對(duì)的不夸張,正常情況下每一次模型訓(xùn)練的時(shí)間都要很長,計(jì)算機(jī)要不停地高速運(yùn)轉(zhuǎn)去計(jì)算。實(shí)際模型訓(xùn)練當(dāng)中經(jīng)常出現(xiàn)的一個(gè)問題叫做過擬合Overfitted。就是為了在訓(xùn)練集上面達(dá)到一個(gè)好的效果,而構(gòu)造出來像上圖這樣的模型。該模型在訓(xùn)練集上面會(huì)有不錯(cuò)的效果,但是在測試集上大概率會(huì)效果不佳,比較好的模型表現(xiàn)是上圖的Good Fit。所以實(shí)際訓(xùn)練中我們不能過于地考慮訓(xùn)練集中的某些特征和某些樣本。不然模型的泛化能力會(huì)比較差,測試集上效果不佳。模型訓(xùn)練很多情況下,數(shù)據(jù)科學(xué)家們都會(huì)訓(xùn)練好幾版模型出來,這幾版模型在訓(xùn)練集上表現(xiàn)差異不大,但特征工程等不一樣,最后統(tǒng)一拿到測試集上進(jìn)行評(píng)估。步驟五模型評(píng)估:步驟四訓(xùn)練出來

17、的模型,我們?nèi)绾蝸碓u(píng)估模型效果的好壞?就需要在測試集上面進(jìn)行驗(yàn)證了。分類模型評(píng)估最經(jīng)常使用的兩個(gè)指標(biāo)就是查全率Precision Rate和召回率Recall Rate。假設(shè)現(xiàn)在測試集有100個(gè)用戶,90個(gè)為正常用戶,10個(gè)為欺詐用戶。我們的目的是為了把測試集里面的欺詐用戶全部找出來,下圖為預(yù)測結(jié)果:我們可以發(fā)現(xiàn),一共10個(gè)欺詐用戶,模型挑出來了8個(gè)欺詐用戶,查全率Recall Rate=8/10=80%,模型把80%的欺詐用戶都找出來了。但是模型將10個(gè)用戶誤判成了欺詐用戶,查準(zhǔn)率Precision Rate=8/18。我們?cè)谠u(píng)估模型效果好壞的時(shí)候會(huì)綜合考慮Recall Rate和Precision Rate一起評(píng)估。不同模型評(píng)估的指標(biāo)完全不一樣,剛剛列舉的模型評(píng)估指標(biāo)只是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論