大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型

上傳人：張*** IP屬地：貴州上傳時間：2022-09-26 格式：DOCX 頁數(shù)：22 大小：125.68KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩17頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型（下）數(shù)據(jù)分析微信公眾號datadw關(guān)注你想了解的，分享你需要的。接著上篇大數(shù)據(jù)據(jù)挖掘技術(shù)之之DM經(jīng)典模模型（上）文文章，接下來來我們將探討討樸素貝葉斯斯模型、線性性回歸、多元元回歸、邏輯輯回歸分析等等模型。4、樸素貝葉斯斯模型表查詢模型簡單單有效，但是是存在一個問問題。隨著輸輸入數(shù)量的額額增加，每個個單元格中訓(xùn)訓(xùn)練樣本的數(shù)數(shù)量會迅速減減少。如果維維度為2，且且每一維有110個不同的的變量，那么么就需要1000個單元格格，而當(dāng)有33個維度時，就就需要10000個單元格格，4個維度度就是100000.這樣樣成指數(shù)級的的增長，哪怕怕的傳統(tǒng)數(shù)據(jù)據(jù)挖掘中都會會遇到明顯瓶瓶頸

2、。當(dāng)試圖預(yù)測某一一個概率值時時，樸素貝葉葉斯模型就提提供這一辦法法。基本思想想：每個輸入入變量本身就就包含一些預(yù)預(yù)測需要的信信息。比如目目標變量是取取消業(yè)務(wù)的概概率，解釋變變量是市場、獲獲取渠道、初初始信用評分分、利率計劃劃、電話號碼碼類型、手機機號以及客戶戶年齡。這些些變量都具有有預(yù)測能力。根根據(jù)取消率的的顯著差異性性，可將每個個變量劃分在在不同的范圍圍中。簡單理解：條件件概率是指給給定B的條件件下A的概率率以及給定AA的條件下BB的概率。解釋：給定B的的條件下A發(fā)發(fā)生的概率，等等于給定A的的條件下B發(fā)發(fā)生的概率乘乘以A和B發(fā)發(fā)生的概率的的比例。如果A代表停止止續(xù)簽，B代代表使用黑莓莓手機，

3、然后后給定使用黑黑莓手機的條條件下停止續(xù)續(xù)簽的概率，就就是給定停止止續(xù)簽的條件件下使用黑莓莓手機的概率率乘以總體停停止續(xù)簽的概概率與總體使使用黑莓手機機的概率之比比。4.1、概率、幾幾率和釋然概率：0到11之間的一個個數(shù)字，表示示一個特定結(jié)結(jié)果發(fā)生的可可能性。一種種估計結(jié)果概概率的方法是是計算樣本數(shù)數(shù)據(jù)中出現(xiàn)結(jié)結(jié)果次數(shù)的百百分比。幾率：某一特特定結(jié)果發(fā)生生于不發(fā)生的的概率比。如如果一個事件件發(fā)生的概率率是0.2，那那么不發(fā)生的的概率是0.8。那么其其發(fā)生的幾率率就是1/44。幾率的取取值是0到無無窮。似然：兩個相相關(guān)的條件概概率比。即給給定B發(fā)生的的情況下，某某一特定結(jié)果果A發(fā)生的概概率和給定

4、BB不發(fā)生的情情況下A發(fā)生生的概率之比比。4.2、樸素貝貝葉斯計算對任意數(shù)量屬性性中的每一個個屬性，樸素素貝葉斯公式式都將目標事事件的幾率與與該事件的似似然聯(lián)系起來來?；氐交谟跔I銷市場、渠渠道獲取、最最初信用評分分、費率計算算、電話號碼碼類型、手機機型號以及客客戶年齡來預(yù)預(yù)測客戶流失失的例子。例例如上面談到到的黑莓手機機續(xù)簽的案例例，我們關(guān)注注的是。1、停停止續(xù)簽的總總體幾率。22、黑莓手機機用戶停止的的似然。3、在在整個州市場場停止續(xù)簽的的似然。之所以定義為“樸素”，是基于所所有似然相乘乘都基于輸入入變量相互獨獨立的假設(shè)。在在這個案例中中，假設(shè)的是是使用黑莓手手機的似然與與市場獨立（并并且

5、存在于該該州的似然與與手機類型獨獨立）。而在在實際中，這這種真正相互互獨立的情況況很少見。樸素貝葉斯模型型最吸引人的的點：對于待待評分的觀測測，如果缺失失某些輸入值值，可以簡單單地將缺失的的似然從模型型中去掉。意意味著，包含含那些并不是是對所有有用用都可用的輸輸入（用戶年年齡），但如如果知道這些些變量，它們們就有用。給給定不同輸入入的概率，且且這些輸入與與停止續(xù)簽相相關(guān)，樸素貝貝葉斯公式就就可以計算停停止續(xù)簽的幾幾率，而公司司對這種停止止續(xù)簽的用戶戶更感興趣。4.3、樸素與與表查詢模型型的比較對于概率型目標標來說，樸素素貝葉斯模型型和表查詢模模型密切相關(guān)關(guān)。兩者之間間的主要區(qū)別別就在于如何何使

6、用維度。在在表查詢模型型中，使用所所有維度依次次定義單元格格，然后計算算每一個單元元格的目標概概率。因此，表表查詢模型可可以獲取變量量之間的相互互作用。在樸樸素中，需要要為每一個維維度單獨計算算似然，之后后組合這些似似然，從而計計算出目標概概率。似然的的組合有一個個假設(shè)：各維維度關(guān)于目標標彼此獨立。表表查詢沒有說說明這樣一類類屬性的組合合關(guān)系，即由由于在訓(xùn)練數(shù)數(shù)據(jù)中出現(xiàn)的的頻率很低，導(dǎo)導(dǎo)致這些概率率很低的屬性性就不會出現(xiàn)現(xiàn)。在樸素模型中可可以預(yù)測任何何從未出現(xiàn)過過的組合，但但要這樣做，就就必須假設(shè)這這些輸入所造造成的影響彼彼此獨立。表表查詢模型沒沒有這樣的假假設(shè)，所以當(dāng)當(dāng)數(shù)據(jù)多到可可以支持一個

7、個可信的估計計模型時，表表查詢模型也也許會做的更更好。5、線性回歸回歸模型也是一一種預(yù)測建模模技術(shù)。在EExcel中中就可以使用用線性回歸?；鼗貧w模型也很很復(fù)雜，這里里談到最佳擬合合曲線。輸入入變量和目標標變量必須都都是數(shù)值變量量，回歸方程程描述了兩者者之間的一種種算術(shù)關(guān)系?！白罴训摹标P(guān)系是指最大限度地減少了從數(shù)據(jù)點到擬合曲線的垂直距離的平方和。5.1最佳擬合合曲線如下圖，顯示了了一個知名博博主發(fā)表的一一篇文章日瀏瀏覽率隨著時時間和被關(guān)注注度之間的關(guān)關(guān)系。圖中使使用描點的符符號是空心圓圓，它有助于于清楚的顯示示各點之間的的聚集情況。例例如，在較短短時間內(nèi)用戶戶的關(guān)注度分分布非常密集集。當(dāng)使用不

8、不同的顏色比比較不同的客客戶組時，這這種散點圖尤尤其有用。隨著時間的增加加，博客的日日訪問量會越越來越低，最最后維持到一一個水平。畫畫出來的曲線線更像是一個個雙曲線。根根據(jù)X軸，時時間的遞增。YY軸，日訪問問量的增加。我我們可以模擬擬出這個博主主的訪問量隨隨時間變化的的曲線。如果果在保證博客客質(zhì)量的同時時，我們就可可以預(yù)測博主主的一篇博客客的訪問量大大致在什么范范圍?？赡苓@這里有很多的的誤差或不精精確的地方。但但是通過擬合合曲線，我們們更能從直觀觀上看到，曲曲線的走勢。如如果曲線更精精確的化，我我們甚至可以以模擬出曲線線的函數(shù)表達達式。如果用作數(shù)據(jù)點點的標記并沒沒有完全擬合合，散點圖可可以傳遞

9、出更更多的信息。最最佳擬合曲線線的性質(zhì)：在在所有可能的的曲線中，最最佳擬合曲線線指的是從觀觀察點到曲線線垂直距離的的平方最下的的那條曲線，散散點圖顯示了了每個點到曲曲線之間的距距離。最佳擬合曲線的的定義就是最最小二乘法的的定義。歐式式距離公式對對該值進行了了開方，在沒沒有計算機的的年代，計算算歐式距離非非常困難。當(dāng)當(dāng)時，高斯提提出這一觀點點，就是利用用計算平方和和，代替計算算距離之和。這這樣做的目的的，就使最佳佳擬合曲線系系數(shù)很容易計計算。這里談到的是線線性回歸，其其實回歸模型型是一個直線線方程，這里里只是來描述述一個擬合曲曲線，其實算算不上一個回回歸曲線。在在現(xiàn)實之中，更更多線性回歸歸的模型

10、很少少見，更多的的是曲線擬合合。5.2擬合的優(yōu)優(yōu)點對于一個給定的的數(shù)據(jù)集，總總是可以找到到一條最佳的的擬合曲線。但但是，存在很很多條曲線，哪哪條才是最佳佳的。這里引引入“殘差”，就是度量量預(yù)測值與實實際值之差。還還有一個標準準方法，成為為，用來衡量量描述曲線對對觀測數(shù)據(jù)的的擬合程度。（1）殘差如圖，身高與體體重模型的殘殘差。一個無偏模型在在丟失高值點點方面應(yīng)與丟丟失低值點類類似。在殘差差圖中，最重重要的一點就就是，這些值值是位于擬合合曲線之上的的可能性與之之下的可能性性是否一樣。從從圖中我們也也可以看到在在曲線上與在在曲線下的樣樣本點是不一一樣的。一個良好的模型型所產(chǎn)生的估估計值應(yīng)該接接近真實

11、值，所所以殘差應(yīng)該該集中于曲線線軸附近。如如圖中也是可可以看到拋離離曲線的一些些孤立點。這這些點出現(xiàn)的的原因，可能能是由于一些些人為記錄的的原因造成的的。在統(tǒng)計學(xué)中，殘殘差在回歸方方程中要考慮慮誤差項。最最佳擬合曲線線的方程是：Y=aX+b但該曲線，不是是完整的模型型。統(tǒng)計人員員會將模型方方程表示為：代表誤差項項，因為X并并不能完美的的展示Y。誤誤差項表示模模型無法解釋釋的Y的部分分。Y=aX +bb+（2）R(R這這里代表是RR的平方)對于最佳擬合曲曲線，R的取取值始終在001之間。當(dāng)當(dāng)該值接近11時，說明該該曲線在捕獲獲輸入和目標標之間的關(guān)系系方面表現(xiàn)很很好。若接近近于0，則說說明最佳擬合

12、合曲線的表現(xiàn)現(xiàn)很差。在001的范圍圍內(nèi)，值越大大表明兩者之之間存在很強強的關(guān)系，越越下其關(guān)系越越下。相比于隨機猜測測的平均值，模模型的估計值值有多好。定定義簡單，但但計算起來復(fù)復(fù)雜。R要比比較最佳擬合合曲線與y平平均值的水平平線。1減去去兩個誤差的的比值可以計計算出R。分分子式最佳擬擬合曲線殘差差的平方和。分分母是水平線線的殘差平方方和。R度量量了最佳擬合合曲線優(yōu)于均均值作為估計計的程度。R度量了數(shù)據(jù)的的穩(wěn)定性。同同一數(shù)據(jù)集中中不同的樣本本是否會生成成相似的模型型。當(dāng)R值較較低時，不同同的樣本可能能會表現(xiàn)出非非常不同的行行為?；蛘?，在在此基礎(chǔ)上，再再加入少量觀觀察值可能會會極大地改變變模型的系

13、數(shù)數(shù)。當(dāng)R值較較高時，再加加入少量觀察察值就不會有有上述的改變變。5.3全局效應(yīng)應(yīng)回歸方程能發(fā)現(xiàn)現(xiàn)數(shù)據(jù)中的全全局模式。即即，方程系數(shù)數(shù)應(yīng)該對范圍圍內(nèi)的所有輸輸入變量都起起作用。這表表明回歸模型型善于捕獲那那些總是正確確的模式，不不是產(chǎn)于處理理局部模式。例如，考慮不同同年齡的汽車車保險購買人人的風(fēng)險。年年輕司機的風(fēng)風(fēng)險較高。隨隨著駕駛?cè)藛T員經(jīng)驗的不斷斷增加，風(fēng)險險會逐步降低低。而對年齡齡很大的駕駛駛者，風(fēng)險又又會增加。因因為年齡很難難作為回歸方方程的輸入。因因為沒有全局局模式，對于于不同的年齡齡組，年齡的的影響變化又又會不同。在很多程度上，這這個需要根據(jù)據(jù)建模人員的的熟悉程度，可可以使用那些些在

14、不同取值值范圍的變量量作為輸入?yún)?shù)。但是，回回歸方程本身身不會發(fā)現(xiàn)局局部模式。6、多元回歸引入線性回歸的的那個例子使使用了單一的的輸入持續(xù)期來解釋日日訪問量隨時時間的變化。當(dāng)當(dāng)一個回歸模模型有多個輸輸入時，就稱稱其為多元回回歸。6.1、等式線性回歸模型的的一般形式（沒沒有誤差項）是是：Y=a+a1x1+a2x2+a3x3+.+annxn。這個個方程通過添添加更多變量量，并為每個個變量選定系系數(shù)，對最佳佳曲線方程進進行了擴展。盡管通過引入更更多維度，可可以將線性回回歸的幾何解解釋擴展到多多元回歸曲線變?yōu)槠狡矫嬖僮兊匠矫??？紤]慮到每個字變變量對因變量量估計值的貢貢獻會更容易易些，即可以以由系

15、數(shù)決定定自變量貢獻獻的大小和方方向。6.2、目標變變量的范圍一個回歸方程可可以產(chǎn)生任何何值。如果對對X沒有限制制，那么Y也也是沒有限制制的。對 YY=aX+bb 就可以說說明這一點，該該方程是一條條簡單的直線線，取值隨之之X的取值而而邊變化，從從負無窮到正正無窮。但實實際情況非如如此。許多目目標變量的范范圍并不是無無窮的，甚至至不是連續(xù)的的。對于這些些情況，統(tǒng)計計學(xué)家引入了了一個鏈接函函數(shù)將回歸方方程產(chǎn)生的YY值映射到目目標變量的一一個適合的范范圍。當(dāng)目標標遵循某一已已知的分布時時，就可以選選擇一個鏈接接函數(shù)，它產(chǎn)產(chǎn)生的值與目目標的平均值值相同，同時時也會產(chǎn)生一一個類似的分分布。即使不不知道確

16、切的的分布，也可可以引入鏈接接函數(shù)將估計計映射到目標標的一個適當(dāng)當(dāng)?shù)姆秶?。后面我們會介紹紹邏輯回歸分分析，那里使使用一個鏈接接函數(shù)將線性性回歸的無窮窮范圍映射到到01的區(qū)區(qū)間，該區(qū)間間等價于概率率估計。6.3、使用多多元回歸的其其他注意事項項回歸模型中有多多個輸入變量量時，會產(chǎn)生生一些在單一一輸入中不存存在的問題。理想情況下，所所有輸入之間間應(yīng)該線性無無關(guān)。被模型顯示地包包含的輸入之之間可能存在在相互。添加一個新輸入入將會改變所所有原輸入的的系值取值。（1）線性無關(guān)關(guān)與樸素貝葉斯類類似，多元模模型的輸入之之間應(yīng)該線性性無關(guān)。這一一位置改變其其中一個輸入入值應(yīng)該對其其他輸入值沒沒有影響。實實際情

17、況很難難實現(xiàn)真正獨獨立性。一般般情況，注意意不要包含彼彼此密切相關(guān)關(guān)的自變量就就可以。如果果包含這些變變量，往往會會導(dǎo)致模型的的一個輸入變變量有較大的的正系數(shù)而另另一個輸入變變量有較大的的負系數(shù)。兩兩個變量本質(zhì)質(zhì)上相互抵消消，因此這兩兩個系數(shù)的取取值并不會對對任何變量有有真正意義上上的影響。（2）交互即使兩個變量是是完全獨立的的，它們對目目標的影響也也可能是相關(guān)關(guān)的。一個冰冰淇淋的吸引引力可能依賴賴于價格和天天氣尤其是某某天的炎熱程程度。這些變變量可以認為為是獨立的（當(dāng)當(dāng)然，冰淇淋淋的價格并不不取決于溫度度，溫度可能能會影響冰淇淇淋的價格，但但是這里假設(shè)設(shè)不會）。盡盡管這些變量量相互獨立，價價

18、格對目標的的影響扔可能能受溫度的影影響。當(dāng)天氣氣炎熱的時候候，人民不是是在意冰淇淋淋的價額都會會購買。當(dāng)天天氣寒冷的時時候，只有真真正物美價廉廉才可能會吸吸引人民購買買。類似的，價格的的變化對住戶戶率的影響可可能會隨著距距離市中心的的遠近不同而而不同。這就就是交互的例例子。當(dāng)認為交互很重重要時，一般般情況下，可可以通過添加加新變量引入入這些交互，而而這些新變量量是標準化交交互中涉及變變量值的產(chǎn)物物。（3）添加變量量可以改變模模型中的原有有變量的取值值一種很自然的模模型開發(fā)方法法從一個僅有有一個輸入的的簡單模型開開始，然后通通過增加變量量逐步提高其其復(fù)雜性。如如果所有輸入入變量都是完完全獨立的，

19、那那么添加或刪刪除其中一個個變量不會更更改模型中的的其他變量的的系數(shù)。但是是輸入變量幾幾乎不可能完完全獨立，所所有包含另一一個變量會改改變系數(shù)的大大小，甚至可可能改變模型型中其他原有有變量系數(shù)的的正負值。6.4、多元回回歸的變量選選擇多元回歸模型在在有大量輸入入時，它的表表現(xiàn)并不理想想。選擇正確確的輸入變量量對任何建模模而言都是最最重要的部分分。這里談到到“領(lǐng)域知識”，就是首先先要考慮的是是對該問題所所知道的一些些先驗知識以以及以往人民民解決此類問問題的額方法法。有的時候候領(lǐng)域知識對對一時模型的的預(yù)測可以提提供一個很好好的指標指向向。當(dāng)使用領(lǐng)域知識識和常識創(chuàng)建建了一張候選選變量列表后后，用于創(chuàng)

20、建建回歸模型的的軟件通常可可以幫助使用用者選擇出模模型所需的最最好變量。使使用的方法：（1）前向選擇擇前向現(xiàn)在開始使使用一組輸入入變量，其中中一些變量或或全部變量都都可以出現(xiàn)在在最終模型里里。第一步是是為每一個輸輸入變量創(chuàng)建建一個單獨的的回歸模型；如果有n個個輸入變量，那那么第一步會會考慮具有一一個輸入變量量的n個不同同的回歸模型型。選擇測試試得分最高的的模型所對應(yīng)應(yīng)的變量作為為前向選擇模模型中的第一一個變量。選擇最佳模型的的一種方法是是選擇R值最最低的模型。另另一種方法是是使用統(tǒng)計檢檢驗中F-檢檢驗的方法。最最好的模型是是在驗證集上上的誤差最小小的模型。這這看上去更像像是數(shù)據(jù)挖掘掘，因為它使

21、使用了驗證集集，并沒有對對輸入或目標標值做出任何何假設(shè)。選定了第一個變變量后，這以以過程會在此此重復(fù)進行。第第二次通過將將每個剩余變變量與第一步步已選定的變變量組合以創(chuàng)創(chuàng)建包含有兩兩個輸入變量量的n-1個個回歸模型。這這些模型中最最好的模型將將會是下一次次迭代的基礎(chǔ)礎(chǔ)，下次迭代代會測試帶有有三個變量的的多元回歸模模型。持續(xù)這這一過程直到到滿足某些停停止條件為止止。終止條件件可以是到達達最大的選擇擇變量個數(shù)，或或者繼續(xù)增加加變量不能在在繼續(xù)提高模模型的某個閾閾值。（2）逐步選擇擇逐步選擇與前向向選擇非常類類似，只有一一點不同。在在每個步驟中中除了增加一一個變量外，還還可以刪除一一個變量，較較早進

22、入模型型的一個變量量可能由于后后續(xù)變量的聯(lián)聯(lián)合作用而不不再是有效變變量。（3）后向消去去后向消去選擇變變量的方法首首先使用所有有的n個輸入入變量創(chuàng)建了了一個多元回回歸模型。使使用統(tǒng)計檢驗驗，消去較糟糟糕的變量，然然后重置該模模型。持續(xù)該該過程直到滿滿足某些停止止條件，比如如到達理想變變量的最小數(shù)數(shù)目。7、邏輯回歸分分析線性回歸模型有有一種特殊的的形式。該形形式對任意數(shù)數(shù)量的輸入變變量都可用，但但當(dāng)只有一個個輸入變量時時，效果最明明顯?；貧w公公式是一條直直線方程。直直線的一個屬屬性是它可以以向兩端無限限延伸。除與與X軸平行的的直線外，回回歸模型沒有有最大值和最最小值。這些些屬性使得線線性回歸模型

23、型適用于估計計那些取值范范圍可能很廣廣的連續(xù)變量量。相同的屬性使得得線性回歸模模型適用于建建模無界的、連連續(xù)的目標，而而不適于建模模二元結(jié)果，比比如是否或好好壞。因為二二元問題是極極其常見的，這這就邏輯回歸歸分析模型。7.1建模二元元輸出建模二元輸出似似乎不像是一一個評估任務(wù)務(wù)。有兩個類類別的，任務(wù)務(wù)是將每條記記錄分配到其其中的一個類類。這就是一一個分類任務(wù)務(wù)。然而，該該任務(wù)可以重重述為“某個記錄屬屬于其中一個個類的概率是是多少？”，因為概率率是數(shù)字，這這個問題就轉(zhuǎn)轉(zhuǎn)化為一項評評估任務(wù)。（1）使用線性性回歸評估概概率在談到基于客戶戶的持續(xù)期估估計訂閱在報報紙上的支付付額度模型上上。呼叫中心心通

24、過與用戶戶取得聯(lián)系，其其中一些客戶戶同意簽訂訂訂閱協(xié)議。簽簽訂合約不久久后他們便開開始接收報紙紙，隨后他們們要支付一筆筆賬單。一些些新用戶不會會抽時間來支支付這第一張張訂單，從而而消減了報紙紙的收入。一一段時間后，沒沒有支付訂單單的客戶被停停止收到報紙紙，其中一些些支付賬單的的新客戶并有有可能在很長長時間后成為為良好的客戶戶。不過在前前面幾個星期期，客戶不愿愿意付款的可可能性非常大大。目標值為0可以以表示為從未未付款的客戶戶，為1的表表示付過款的的客戶，所有有這里會存在在一條最佳擬擬合曲線。但但不能保證這這是一個好的的模型。因為為在超過一定定天后，這一一概率軌跡值值大于1，而而且這一估計計值會

25、隨著持持續(xù)期的增加加而無限的增增加。這就是是直線的性質(zhì)質(zhì)：顯然存在在弊端，沒有有最大值或最最小值。（2）將回歸直直線彎成曲線線顯然，直線不是是一個估計概概率的合適形形狀。邏輯回回歸分析通過過將回歸直線線彎成一個更更合適的形狀狀來解決這一一問題。我們們要獲得一個個取值范圍在在01之間間的函數(shù)。這這就是邏輯函函數(shù)。7.2、邏輯函函數(shù)樸素貝葉斯模型型是乘以一串串似然來估計計幾率，然后后將其轉(zhuǎn)換成成概率。把線線性回歸轉(zhuǎn)換換成邏輯回歸歸也使用了這這類技巧。第一步：通過PP與1-P之之間將概率PP轉(zhuǎn)換為幾率率。幾率和概概率表示同一一件事情。不不同點在于，概概率取值范圍圍01，幾幾率是0到正正無窮。在去去幾

26、率的對數(shù)數(shù)值以生成一一個從負無窮窮到正無窮的的函數(shù)。從這一點來看，概概率被轉(zhuǎn)換為為一個從負無無窮到正無窮窮的連續(xù)函數(shù)數(shù)這正式線線性回歸的優(yōu)優(yōu)勢。把幾率率的對數(shù)值作作為目標變量量而建立回歸歸方程。盡管邏輯回歸看看起來比直線線更“彎曲”，但它只能能發(fā)現(xiàn)全局模模式，而不是是局部模式。局局部模式的獲獲取需要顯示示的體現(xiàn)在變變量確定其影影響。為線性性回歸找出最最佳擬合曲線線所使用的普普通最小二乘乘法并不適用用與邏輯回歸歸分析，它使使用最大似然然的方法，通通過最大似然然法擬合模型型。最大似然法擬合合模型擬合任何類型的的參數(shù)模型對對意味著要使使用數(shù)據(jù)來找找出最佳參數(shù)數(shù)，利用這些些最佳參數(shù)計計算的預(yù)測值值與實際值盡盡可能相符。這這與模型評分分的情況恰恰恰相反。在評評分過程中，給給定一組參數(shù)數(shù)值模型，模模型為某些輸輸入產(chǎn)生最佳佳的估計值。給定一個待定的的參數(shù)值和一一組觀察值，這這一函數(shù)返回回該參數(shù)值正正確的概率。雖雖然一般不存存在這樣的函函數(shù)，但在給給定參數(shù)的情情況下，訓(xùn)練練集中出現(xiàn)目目標值的概率率和參數(shù)的似似然之間存在在一個有用的的關(guān)系成正比。似似然是不確定定性相關(guān)的一一種度量，這這與概率是一一種絕對度量量的情況不同同，但使用似似然相比較與與候選參數(shù)優(yōu)優(yōu)勢已經(jīng)明顯顯。似然函

人人文庫> 全部分類> 行業(yè)資料 > 商業(yè)貿(mào)易

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔