《數(shù)據(jù)挖掘與機器學習》 課件4.3 評估與優(yōu)化電商平臺用戶購買預測_第1頁
《數(shù)據(jù)挖掘與機器學習》 課件4.3 評估與優(yōu)化電商平臺用戶購買預測_第2頁
《數(shù)據(jù)挖掘與機器學習》 課件4.3 評估與優(yōu)化電商平臺用戶購買預測_第3頁
《數(shù)據(jù)挖掘與機器學習》 課件4.3 評估與優(yōu)化電商平臺用戶購買預測_第4頁
《數(shù)據(jù)挖掘與機器學習》 課件4.3 評估與優(yōu)化電商平臺用戶購買預測_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

評估與優(yōu)化電商平臺運輸行為預測電商平臺用戶購買預測——邏輯回歸任務描述電商平臺運輸預測模型已經(jīng)建立,通過各種指標(例如準確率、召回率、精確率等)來評價模型的性能,并找出模型存在的不足之處。在了解模型不足的地方之后,可以采用類不平衡問題處理等方法改進模型,以優(yōu)化模型,提高模型預測效果,貫徹高質量發(fā)展精神。不斷地優(yōu)化模型,使其在預測電商客戶運輸行為方面的準確率和效果不斷提高。任務要求使用sklearn.metrics模塊對邏輯回歸模型進行評價。使用imblearn庫解決類不平衡問題?;煜仃嚒蚀_率與召回率ROC曲線樣本平衡混淆矩陣(ConfusionMatrix)是模式識別領域中一種常用的表達形式,描繪樣本數(shù)據(jù)的真實屬性與識別結果類型之間的關系,是評價分類器性能的一種常用方法,并且可以將分類問題的結果進行可視化。以一個二分類任務為例,可將樣本根據(jù)真實類別與預測的分類結果的組合劃分為真正例(TruePositive,TP)、假正例(FalsePositive,F(xiàn)P)、真反例(TrueNegative,TN)和假反例(FalseNegative,F(xiàn)N)共4種情形,并對應其樣本數(shù),則有總樣本數(shù)=TP+FP+FN+TN?;煜仃嚪诸惤Y束后的混淆矩陣如表所示?;煜仃囌鎸嵔Y果預測結果正類反類正類TPFN反類FPTNTP:正確地將正樣本預測為正樣本的分類數(shù)FN:錯誤地將正樣本預測為負樣本的分類數(shù)FP:錯誤地將負樣本預測為正樣本的分類數(shù)TN:正確地將負樣本預測為負樣本的分類數(shù)準確率(Accuracy)是指分類器正確分類的樣本數(shù)與總樣本數(shù)之比,它可以展示分類器的整體分類效果。準確率定義如式所示。

準確率取值范圍為[0,1],取值越高表示分類模型效果越好,完美分類的準確率為1,完全隨機猜測的準確率為分類的類別數(shù)的倒數(shù)。準確率召回率(Recall),是指分類器正確分類的正樣本數(shù)與實際正樣本數(shù)之比,它可以展示分類器對于正樣本的分類效果,用于評估模型對正類的識別能力。計算公式如公式所示。召回率的取值范圍為[0,1],取值越大表示模型在預測正樣本方面的能力越強,即能夠更準確地將正樣本識別出來。當召回率為1時,表示模型能夠將所有正樣本都識別出來,沒有遺漏,這是理想的情況。召回率classification_report是一個用于生成分類報告的類,用于評估分類模型的性能。它計算并打印出準確率、召回率、F1-score和support等指標。分類報告ROC曲線接收者操作特征曲線(ReceiverOperatingCharacteristiccurve,ROC曲線)是一種非常有效的模型評價方法,可為選定臨界值給出定量提示。正確地將正例預測為正例的比率為縱坐標錯誤地將負例預測為正例的比率為橫坐標該曲線下的面積(AUC)為0.93,而面積的大小與每種方法的優(yōu)劣密切相關,可反映分類器正確分類的統(tǒng)計概率,因此,其值越接近1說明該算法效果越好。在Python中,使用sklearn.metrics模塊中的roc_curve類中的roc_curve函數(shù)可以計算ROC曲線,其基本使用格式如下。ROC曲線fpr,tpr,thresholds=roc_curve(y_true,y_score,pos_label=None,sample_weight=None,drop_intermediate=True)ROC曲線roc_curve函數(shù)常用參數(shù)及其說明如下。參數(shù)名稱說明y_true接收數(shù)組。表示樣本真實的標簽,必須為0或1。無默認值y_score接收數(shù)組。表示分類器預測的樣本得分,可以是概率值、決策函數(shù)的值等。無默認值pos_label接收int或str。表示正類的標簽。默認為Nonesample_weight接收數(shù)組。表示樣本的權重,可以用于不平衡樣本的處理。默認為Nonedrop_intermediate接收bool。表示是否刪除不必要的閾值點,如果為True,則只返回fpr和tpr值中有效的部分。默認為True對邏輯回歸模型進行評價對考生錄取預測模型進行評價主要通過以下4個步驟實現(xiàn)。計算考生錄取情況預測模型的混淆矩陣計算考生錄取情況預測模型的準確率與召回率計算考生錄取情況預測模型的分類報告繪制考生錄取情況預測模型的ROC曲線在現(xiàn)實分類模型中,常存在類別不平衡問題,即指在數(shù)據(jù)集中,不同類別的樣本數(shù)量差別很大,其中一個類別的樣本數(shù)量遠遠少于另一個類別的樣本數(shù)量。這種情況在機器學習任務中很常見,如欺詐檢測、罕見病預測等。如果不處理類別不平衡問題,那么訓練得到的模型可能會偏向于樣本數(shù)量多的類別,對樣本數(shù)量少的類別預測效果較差。樣本平衡什么是類別不平衡?解決類別不平衡問題的方法有欠采樣、過采樣等。欠采樣是一種處理類不平衡問題的方法,它通過減少多數(shù)類樣本的數(shù)量來達到平衡樣本分布的目的。欠采樣的主要思想是從多數(shù)類中隨機選擇一部分樣本作為訓練集,使得多數(shù)類樣本數(shù)量和少數(shù)類樣本數(shù)量相近。在Python中,可以使用imblearn庫中under_sampling模塊的RandomUnderSampler類實現(xiàn)欠采樣。樣本平衡如何解決類別不平衡問題?SMOTE(SyntheticMinorityOver-samplingTechnique)是一種常見的過采樣方法,它通過生成新的合成樣本來增加少數(shù)類別的樣本數(shù)量,從而平衡數(shù)據(jù)集中各個類別的樣本數(shù)量。它主要是通過生成一些與小類樣本相似的樣本來達到平衡數(shù)據(jù)的目的。該算法不是簡單復地制小類樣本,而是增加新的并不存在的樣本,因此在一定程度上可以避免過擬合的問題。樣本平衡SMOTE過采樣SMOTE算法的實現(xiàn)過程如下

樣本平衡對于少數(shù)類樣本中的每一個樣本,計算其與所有少數(shù)類樣本的歐氏距離。選取距離該樣本最近的k個少數(shù)類樣本,對其進行隨機采樣。對于每個選中的少數(shù)類樣本,按照公式生成一個新的合成樣本。新樣本=原樣本+隨機因子(選中樣本-原樣本)其中,選中樣本為為樣本空間中隨機選擇的一個樣本,隨機因子為[0,1]之間的隨機數(shù)。在Python中,可以使用imblearn庫中over_sampling模塊的SMOTE類實現(xiàn)過采樣,其基本使用格式如下。樣本平衡SMOTE=SMOTE(sampling_strategy='auto',k_neighbors=5,random_state=42)樣本平衡SMOTE類常用參數(shù)及其說明如下。參數(shù)名稱說明sampling_strategy接收str或float。表示用于設置合成樣本的數(shù)量,默認為autok_neighbors接收int。表示用于設置用于合成樣本的k個最近鄰居的數(shù)量,默認為5random_state接收int。表示用于設置隨機數(shù)生成器的種子,默認為42信用評分模型是銀行和其他金融機構用于評估申請貸款的個人或企業(yè)信用風險的工具。這個模型可以通過對借款人的個人信息、財務狀況、借貸歷史等多個因素進行評估,生成一個數(shù)值評分來表示該借款人的信用水平。下表是部分借款人的個人信息及財務狀況記錄。樣本平衡編號年齡/歲性別工作住房情況儲蓄賬戶等級支票賬戶等級貸款金額/元貸款期限/月信用評分等級067男2有房無少116906好122女2有房少中等5951048壞249男1有房少無2096012好345男2無房少少7882042好453男2無房少少4870024壞535男1無房無無9055036好在信用評分模型中,通常會出現(xiàn)類別不平衡的問題,即其中一種類別的樣本數(shù)量遠遠大于另一種類別。例如,在銀行信用評分模型中,大部分的客戶可能會被認定為“好客戶”,只有極少數(shù)客戶會被認定為“壞客戶”。這種類別不平衡問題可能會導致模型的精度和召回率存在偏差,因為模型傾向于預測數(shù)量較大的類別。樣本平衡樣本平衡對考生錄取情況數(shù)據(jù)進行過采樣處理主要通過以下4個步驟實現(xiàn)。利用LogisticRegression類建立信用評分模型并對其結果進行評價使用SMOTE類過采樣法對訓練集進行處理利用LogisticRegression類訓練邏輯回歸模型在測試集上進行預測并評估模型性能評估電商平臺運輸行為預測利用樣本平衡進行模型優(yōu)化過采樣后的模型效果評估電商平臺運輸行為預測在機器學習中,通常需要評估訓練出來的模型的性能,以便對其進行改進或選擇最佳模型。而準確率、召回率、ROC曲線是邏輯回歸模型中用于評估分類模型性能的常見指標。評估電商平臺運輸行為預測使用roc_curve類計算ROC曲線相關系數(shù),并使用plot函數(shù)繪制出ROC曲線。使用sklearn.metrics模塊的accuracy_score類計算模型的準確率。使用sklearn.metrics模塊的recall_score類計算模型的召回率。使用sklearn.metrics模塊的recall_score類計算模型的召回率。評估電商平臺運輸行為主要分為以下4個步驟。利用樣本平衡進行模型優(yōu)化在實際應用中,電商平臺更希望提高對“未按時到達”的預測率,以便能及時采取應對措施,提高物流服務。因此,為提高模型對負類樣本的預測率,使用過采樣法,提高負類樣本的個數(shù)。使用imblearn庫中的SMOTE類對電子商務運輸數(shù)據(jù)進行過采樣處理。使用sklearn庫中的LogisticRegression類建立過采樣后的邏輯回歸模型。過采樣后的模型效果使用roc_

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論