《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件 項目九 電信運營商用戶分析_第1頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件 項目九 電信運營商用戶分析_第2頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件 項目九 電信運營商用戶分析_第3頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件 項目九 電信運營商用戶分析_第4頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件 項目九 電信運營商用戶分析_第5頁
已閱讀5頁,還剩69頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

處理電信運營商用戶信息數(shù)據(jù)電信運營商用戶分析任務(wù)描述電信運營中電信企業(yè)需要考慮如何最大程度地控制客戶流失、挽留現(xiàn)存在網(wǎng)用戶并且吸取新客戶增加盈利等。對于電信企業(yè)而言,分析和預(yù)測運營商流失用戶數(shù)據(jù)是一項非常重要的工作,以便于建立健全網(wǎng)絡(luò)綜合治理體系,推動形成良好網(wǎng)絡(luò)生態(tài)。分析與預(yù)測流失用戶數(shù)據(jù)處理電信運營商用戶信息數(shù)據(jù)需要先對數(shù)據(jù)進行初步處理,從而優(yōu)化數(shù)據(jù)質(zhì)量、提高數(shù)據(jù)處理效率、確保數(shù)據(jù)一致性和完整性,為數(shù)據(jù)分析和決策提供可靠的支持。本任務(wù)先后將數(shù)據(jù)去重與降維、處理缺失值與異常值和合并數(shù)據(jù),處理電信運營商的用戶信息數(shù)據(jù)集,將初始電信運營商用戶數(shù)據(jù)進行優(yōu)化和簡化,提高數(shù)據(jù)的質(zhì)量,著力推進高質(zhì)量發(fā)展。任務(wù)要求使用pandas庫對數(shù)據(jù)進行去重。使用pandas庫進行數(shù)據(jù)降維。使用pandas庫和NumPy庫進行數(shù)據(jù)合并。使用pandas庫處理缺失值和異常值。隨著中國電信運營業(yè)務(wù)的快速發(fā)展,市場競爭也愈演愈烈。如何最大程度地挽留在網(wǎng)用戶、吸取新客戶,是電信企業(yè)最關(guān)注的問題之一。競爭對手的促銷、公司資費軟著陸措施的出臺和政策法規(guī)的不斷變化,影響了客戶消費心理和消費行為,導(dǎo)致客戶的流失特征不斷變化。對于電信運營商而言,流失會給電信企業(yè)帶來市場占有率下降、營銷成本增加、利潤下降等一系列問題。在發(fā)展用戶每月增加的同時,如何挽留和爭取更多的用戶,是一項非常重要的工作。相關(guān)知識隨著大數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展和應(yīng)用,本著守正創(chuàng)新的精神,移動運營商希望能借助數(shù)據(jù)挖掘技術(shù)識別哪些用戶可能流失,什么時候會發(fā)生流失。而通過建立流失預(yù)測模型,分析用戶的歷史數(shù)據(jù)和當前數(shù)據(jù),提取輔助決策的關(guān)鍵性數(shù)據(jù),并從中發(fā)現(xiàn)隱藏關(guān)系和模式,進而預(yù)測未來可能發(fā)生的行為,就可以幫助移動運營商實現(xiàn)這些要求。相關(guān)知識數(shù)據(jù)去重與降維合并數(shù)據(jù)處理缺失值與異常值數(shù)據(jù)去重與降維查看電信運營商用戶信息數(shù)據(jù)使用pandas庫中read_csv函數(shù)讀取電信運營商用戶信息數(shù)據(jù)。使用drop_duplicates()方法刪除重復(fù)數(shù)據(jù)。數(shù)據(jù)降維,使用del刪除手機品牌、手機型號和操作系統(tǒng)描述3個特征數(shù)據(jù)去重與降維的步驟如下。電信運營商用戶數(shù)據(jù)包含了運營商用戶的基礎(chǔ)信息和使用行為信息,數(shù)據(jù)的特征說明,如下表所示。特征名稱特征說明特征名稱特征說明月份月份國內(nèi)漫游通話次數(shù)國內(nèi)漫游通話次數(shù)/次用戶ID用戶ID短信發(fā)送數(shù)短信發(fā)送數(shù)/條在網(wǎng)時長在網(wǎng)時長上網(wǎng)流量上網(wǎng)流量/MB是否合約有效用戶是否合約有效用戶本地非漫游上網(wǎng)流量本地非漫游上網(wǎng)流量/MB合約計劃到期時間合約計劃到期時間國內(nèi)漫游上網(wǎng)流量國內(nèi)漫游上網(wǎng)流量/MB信用等級信用等級有通話天數(shù)有通話天數(shù)VIP等級VIP等級有主叫天數(shù)有主叫天數(shù)查看電信運營商用戶信息數(shù)據(jù)查看電信運營商用戶信息數(shù)據(jù)特征名稱特征說明特征名稱特征說明本月費用本月費用/元有被叫天數(shù)有被叫天數(shù)通話時長通話時長/秒語音呼叫圈語音呼叫圈本地通話時長本地通話時長/秒主叫呼叫圈主叫呼叫圈國內(nèi)長途通話時長國內(nèi)長途通話時長/秒被叫呼叫圈被叫呼叫圈國內(nèi)漫游通話時長國內(nèi)漫游通話時長/秒性別性別通話次數(shù)通話次數(shù)/次年齡年齡非漫游通話次數(shù)非漫游通話次數(shù)/次手機品牌名稱手機品牌名稱本地通話次數(shù)本地通話次數(shù)/次手機型號名稱手機型號名稱特征名稱特征說明特征名稱特征說明國內(nèi)長途通話次數(shù)國內(nèi)長途通話次數(shù)/次操作系統(tǒng)描述操作系統(tǒng)描述終端硬件類型終端硬件類型(0=無法區(qū)分,4=4g、3=3g、2=2g)用戶在3月是否流失標記用戶在3月是否流失標記(1=是,0=否),1月和2月值為空查看電信運營商用戶信息數(shù)據(jù)基于保護用戶的網(wǎng)絡(luò)信息安全的目的,本任務(wù)使用的數(shù)據(jù)已進行脫敏處理,加強個人信息保護。為了篩選出影響用戶流失的信息屬性,需要對建模用戶數(shù)據(jù)集進行預(yù)處理和降維。合并數(shù)據(jù)在原始的建模數(shù)據(jù)中,每個用戶有三行的數(shù)據(jù),對應(yīng)著同一個ID三個月的信息。用戶ID在網(wǎng)時長是否合約有效用戶合約計劃到期時間…U3114031824149372231201603…U3114031824149372241201603…U3114031824149372250…月種數(shù)據(jù)格式不便于進行建模和分析。因此,本任務(wù)對數(shù)據(jù)進行提取和整合,將每個用戶信息處理為一行數(shù)據(jù)。移動用戶基本信息由于同一個用戶的基本信息在三個月內(nèi)是相同的。因此,用戶ID、性別、年齡以及終端硬件類型只取1月的數(shù)據(jù)。201602U3114031824149372139…3201603U3114031824149372139…3月份用戶ID性別年齡…終端硬件類型201601U3114031824149372139…3在網(wǎng)時長由于每個月的在網(wǎng)時長等于上個月的在網(wǎng)時長加一(為零的除外),故第三個月的在網(wǎng)時長的數(shù)據(jù)就包含了這三個月在網(wǎng)時長的全部信息。因此,每個ID只提取第三個月的數(shù)據(jù),按用戶ID和在網(wǎng)時長分組后取在網(wǎng)時長的最后一行。月份用戶ID在網(wǎng)時長是否合約有效用戶201601U3114031824149372231201602U3114031824149372241201603U3114031824149372250是否合約有效將這三個月的合約有效的情況規(guī)整為一個數(shù)據(jù),處理方法為:當三個月不全為1時,用第三個月的值減去前兩個的均值;當三個月的值都是為1時,取值為1.5。這樣操作之后,所有取值情況為-1、-0.5、0、0.5、1、1.5,如下表所示。-1前兩個月合約有效,第三個月合約無效-0.5前兩個月其中一個月合約有效,另一個月和第三個月合約無效。0三個月均合約無效0.5前兩個月其中一個月合約無效,另一個月和第三個月合約有效1前兩個月合約無效,第三個月合約有效1.5三個月均合約有效數(shù)值含義合約計劃到期時間取第三個月的數(shù)據(jù)作為合約計劃到期時長,將空值賦值為-1,不是空值的到期時間以201603為基準0,每增加一個月,數(shù)據(jù)為1,以此類推。月份用戶ID合約計劃到期時間201601U3114031824148707201602U3114031824148707201603U3114031824148707201601U3114031824149251201605201602U3114031824149251201605201603U3114031824149251201605賦值為-1賦值為2信用等級月份用戶ID信用等級本月費用…201601U31140318241493726577.2…201602U31140318241493726583…201603U31140318241493726576.4…按用戶信用等級分組后取3個月的平均值。VIP等級如果同一個ID值,三個月的VIP等級數(shù)值相等,則取第三個月的數(shù)值。三個月的VIP等級數(shù)值都不相等,則第三個月的數(shù)據(jù)減去前兩個月的均值

VIP等級的空值賦值為0。月份用戶ID…201601U311403182414870799201602U311403182414870799201603U311403182414870799201601U31150616332226384201602U31150616332226384201603U311506163322263899取第三個月的數(shù)值9999-(4+4)/2=95本月費用月份用戶ID信用等級本月費用…201601U31140318241493726577.2…201602U31140318241493726583…201603U31140318241493726576.4…按本月費用分組后取三個月費用的平均值。平均每次通話時長將各種通話時長除以通話次數(shù),得到各類的平均通話時長。使用mean()方法計算通話時間、本地通話時間、長途通話時間、漫游通話時間的均值。使用fillna()方法進行均值填充空值。使用rename()方法重新命名新得出的變量,得到平均通話時長、平均本地通話時間、平均長途通話時長、平均國內(nèi)漫游通話時間,將原有的8個特征減少到4個新特征。其余特征月份用戶ID信用等級本月費用…201601U31140318241493726577.2…201602U31140318241493726583…201603U31140318241493726576.4…對于其余的特征,同一個ID下,使用mean()方法取三個月的平均值。處理缺失值與異常值在合并后的數(shù)據(jù)集中查找缺失值,并對存在缺失的數(shù)據(jù)按照一定的規(guī)則賦值。使用isnull()方法和sum()方法對新數(shù)據(jù)集進行缺失值查找。使用fillna()方法對缺失的數(shù)據(jù)進行填充,性別缺失的用眾數(shù)填充,年齡缺失的賦值為0。對缺失值處理后的數(shù)據(jù)集進行異常值的查找,查找出在網(wǎng)時長小于0的數(shù)據(jù),費用大超出3σ部分的數(shù)據(jù)。構(gòu)建電信運營商用戶分群模型電信運營商用戶分析任務(wù)描述電信通信服務(wù)的總方針是迅速、準確、安全、方便。在電信通信服務(wù)的總方針的指引下,通過客戶基本信息,將用戶分類,對每類用戶進行個性化服務(wù),最大程度地控制客戶流失。本任務(wù)的操作將在保護用戶信息安全的前提下進行。大數(shù)據(jù)時代,需要堅持網(wǎng)絡(luò)安全為人民、網(wǎng)絡(luò)安全靠人民,樹立正確的網(wǎng)絡(luò)安全觀,提高自身網(wǎng)絡(luò)安全意識和防護技能。本任務(wù)通過對客戶性別、年齡、在網(wǎng)時長等信息進行簡單的畫圖來觀察客戶基本信息與用戶在3月是否流失的關(guān)系,進行K-Means聚類分析,建立用戶分群模型。任務(wù)要求使用pandas庫分析用戶基本信息。使用sklearn庫進行聚類分析。使用Matplotlib庫實現(xiàn)結(jié)果的可視化。用戶分群是依據(jù)用戶的屬性特征和行為特征、交易信息將用戶群體進行分類,對其進行觀察和分析的方式。從技術(shù)視角,用戶分群的方式主要有兩種:基于規(guī)則的分群方法(Rule-basedSegmentation)和基于算法的分群方法(ML-basedSegmentation)。基于規(guī)則的分群方法:主要適用于業(yè)務(wù)規(guī)則確定,分群采用的用戶特征維度單一的場景?;谒惴ǖ姆秩悍椒ǎ褐饕糜谟脩籼卣骶S度高,人工無法設(shè)定合理分群規(guī)則的場景。相關(guān)知識聚類分析(ClusterAnalysis)和RFM模型(Recency,Frequency,Monetary)是常用的用戶分群方法。聚類分析常見的數(shù)據(jù)挖掘手段,其主要假設(shè)是數(shù)據(jù)間存在相似性。而相似性是有價值的,因此可以被用于探索數(shù)據(jù)中的特性以產(chǎn)生價值。RFM模型又稱用戶價值模型,是網(wǎng)點衡量當前用戶價值和用戶潛在價值的重要工具。相關(guān)知識用戶分群把具備某種相同特性的用戶歸結(jié)在一起,再按照特定的條件選出目標用戶,進行洞察分析查看用戶特征。對客戶性別、年齡、在網(wǎng)時長等信息進行可視化處理,觀察并分析客戶基本信息與用戶流失的關(guān)系,使企業(yè)由粗放式管理轉(zhuǎn)向精細化運營。面對不同人群差異化的特征和需求,降本增效,激發(fā)更加明顯的競爭優(yōu)勢。為進一步提升企業(yè)能力,企業(yè)應(yīng)堅持發(fā)揚斗爭精神,依靠頑強斗爭打開事業(yè)發(fā)展新天地。相關(guān)知識分析用戶基本信息構(gòu)建K-Means模型分析用戶基本信息對客戶性別、年齡、在網(wǎng)時長等信息進行可視化處理,觀察并分析客戶基本信息與用戶流失的關(guān)系。1性別分析2年齡分析5用戶是否有效分析4合約計劃到期時間分析6信用等級分析3在網(wǎng)時長分析為了直觀地觀察客戶性別與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進行性別分析。首先導(dǎo)入相關(guān)庫及數(shù)據(jù),構(gòu)建性別比率函數(shù)分別計算流失用戶和非流失用戶中的性別比率,使用pie函數(shù)繪制性別比率餅圖。性別分析為了直觀地觀察客戶年齡與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進行性別分析。使用plot函數(shù)繪制在流失用戶和非流失用戶中客戶年齡的分析散點圖。年齡分析為了直觀地觀察客戶在網(wǎng)時長與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進行在網(wǎng)時長分析。使用plot函數(shù)繪制在流失用戶和非流失用戶中的客戶在網(wǎng)時長分析折線圖。在網(wǎng)時長(月)分析為了直觀地觀察客戶合約計劃到期時間與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進行計劃到期時間分析。使用bar函數(shù)繪制在流失用戶和非流失用戶中的客戶計劃到期時間頻數(shù)直方圖。合約計劃到期時間分析為了直觀地觀察客戶是否有效與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進行用戶是否有效分析。使用bar函數(shù)繪制在流失用戶和非流失用戶中的客戶是否有效直方圖。用戶是否有效分析為了探究無效用戶在流失與非流失用戶群體中的占比情況。使用sum()方法計算是否有效用戶的頻數(shù),并使用bar函數(shù)繪制繪制直方圖。用戶是否有效分析為了直觀地觀察客戶信用等級與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進行信用等級分析。使用bar函數(shù)繪制在流失用戶和非流失用戶中的客戶信用等級直方圖。信用等級分析構(gòu)建電信運營商用戶分群模型電信運營商用戶分析任務(wù)描述電信通信服務(wù)的總方針是迅速、準確、安全、方便。在電信通信服務(wù)的總方針的指引下,通過客戶基本信息,將用戶分類,對每類用戶進行個性化服務(wù),最大程度地控制客戶流失。本任務(wù)的操作將在保護用戶信息安全的前提下進行。大數(shù)據(jù)時代,需要堅持網(wǎng)絡(luò)安全為人民、網(wǎng)絡(luò)安全靠人民,樹立正確的網(wǎng)絡(luò)安全觀,提高自身網(wǎng)絡(luò)安全意識和防護技能。本任務(wù)通過對客戶性別、年齡、在網(wǎng)時長等信息進行簡單的畫圖來觀察客戶基本信息與用戶在3月是否流失的關(guān)系,進行K-Means聚類分析,建立用戶分群模型。任務(wù)要求使用pandas庫分析用戶基本信息。使用sklearn庫進行聚類分析。使用Matplotlib庫實現(xiàn)結(jié)果的可視化。分析用戶基本信息構(gòu)建K-Means模型構(gòu)建K-Means模型構(gòu)建K-Means模型主要分為以下6個步驟。1選擇聚類優(yōu)度(計算MIC和BT)2繪制MIC曲線和BT曲線5聚類用戶類別命名4繪制密度函數(shù)圖6用戶類別占比分析3構(gòu)建模型聚類分析常見的數(shù)據(jù)挖掘手段,其主要假設(shè)是數(shù)據(jù)間存在相似性。而相似性是有價值的,因此可以被用于探索數(shù)據(jù)中的特性以產(chǎn)生價值。使用import和from導(dǎo)入KMeans、seaborn等開發(fā)類庫。聚類前準備,使用linalg.norm函數(shù)計算二范數(shù),使用for循環(huán)計算MIC和BT。MIC值是模型信息準則,通過最小化MIC值來估計聚類數(shù)量和分區(qū),BT值是特征的體現(xiàn)程度,BT值越大代表該聚類結(jié)果更能體現(xiàn)分區(qū)特征。選擇聚類優(yōu)度為了更直觀地看到聚類后的特征體現(xiàn)程度,使用plot函數(shù)繪制MIC曲線和BT曲線,將數(shù)據(jù)可視化。繪制MIC曲線和BT曲線選擇聚類數(shù)目為5之后,使用KMeans進行聚類。構(gòu)建模型建立聚類模型后,使用sns庫中kdeplot函數(shù)繪制密度函數(shù)圖。繪制密度函數(shù)圖繪制密度函數(shù)圖建立聚類模型后,使用seaborn庫中kdeplot函數(shù)繪制密度函數(shù)圖。根據(jù)實際情況與數(shù)據(jù)特征劃分五類用戶的命名。聚類用戶類別命名輸出類型類別1類別2類別3類別4類別5命名中高費用中低費用高費用低費用一般費用注意:不同的運行環(huán)境得到的聚類結(jié)果會存在一定的差異,五類用戶的命名情況需要根據(jù)密度函數(shù)圖的結(jié)果進行同步調(diào)整。更改用戶類別名稱后,繪制不同類別的用戶流失比例的餅圖。用戶類別占比分析構(gòu)建電信運營商用戶流失預(yù)測模型電信運營商用戶分析任務(wù)描述電信企業(yè)為了最大程度地控制客戶流失、挽留現(xiàn)存在網(wǎng)用戶,分析不同群體用戶的使用規(guī)律,識別各群體客戶流失的重要特征。為了系統(tǒng)地描述電信運營商用戶流失的規(guī)律,引入數(shù)學(xué)模型對電信運營商用戶數(shù)據(jù)進行分析。運營商要實現(xiàn)控制客戶流失、挽留現(xiàn)存在網(wǎng)用戶,必須深入貫徹以人民為中心的發(fā)展思想。本任務(wù)的具體目標是基于電信運營商用戶分群模型建立邏輯回歸模型、決策樹模型和樸素貝葉斯模型,選取最優(yōu)的用戶流失模型。任務(wù)要求分析不同群體用戶的使用規(guī)律,識別各群體客戶流失的重要特征。建立不同群體用戶流失模型,建立邏輯回歸模型、決策樹模型和樸素貝葉斯模型,判斷模型建立的效果。選取最優(yōu)的用戶流失模型。相關(guān)知識所有與消費者掛鉤行業(yè)都會關(guān)注客戶流失。由于發(fā)展一個新客戶是需要一定成本的,如果客戶流失,不僅浪費了拉新成本,還需要花費更多的用戶召回成本。因此,基于電信行業(yè)在競爭日益激烈的情況,如何挽留更多用戶成為一項關(guān)鍵業(yè)務(wù)指標。為了更好運營用戶,這就要求要了解流失用戶的特征,分析流失原因,預(yù)測用戶流失,確定挽留目標用戶并制定有效方案,提升企業(yè)核心競爭力。特征值提取構(gòu)建電信商用戶流失預(yù)測模型特征值提取基于樹的特征選擇導(dǎo)入開發(fā)庫特征變量選取特征抽取是數(shù)據(jù)挖掘任務(wù)最為重要的一個環(huán)節(jié),一般而言,它對最終結(jié)果的影響要高過數(shù)據(jù)挖掘算法本身。只有先把現(xiàn)實用特征表示出來,才能借助數(shù)據(jù)挖掘的力量找到問題的答案。特征選擇的另一個優(yōu)點在于:降低真實世界的復(fù)雜度,模型比現(xiàn)實更容易操縱。特征選擇能夠降低復(fù)雜度、降低噪音和增加模型可讀性?;跇涞奶卣鬟x擇單個特征和某一類別之間相關(guān)性的計算方法有很多,比較有效的有卡方檢驗(chi2)以及互信息和信息熵,本文選擇基于信息熵的方法來選取特征變量。信息熵是在決策樹中廣泛使用的一個變量,用以獲取最優(yōu)劃分的節(jié)點?;跇涞念A(yù)測模型能夠用來計算特征的重要程度,能用來去除不相關(guān)的特征。因此選擇基于樹的特征選擇(Tree-basedfeatureselection)來獲取特征變量。基于樹的特征選擇使用from和import導(dǎo)入sklearn.ensemble中的ExtraTreesClassifier類與sklearn.feature_selection中的SelectFromModel類。導(dǎo)入開發(fā)庫用于從模型中選擇重要的特征用于構(gòu)建極端隨機樹分類器由基于樹的特征選擇,使用sklearn庫導(dǎo)入信息熵的樹及特征值篩選模塊,使用for循環(huán)獲取前10個重要程度的特征變量,結(jié)果如下。特征變量選擇低費用'年齡','在網(wǎng)時長','本地通話次數(shù)','國內(nèi)長途通話次數(shù)','國內(nèi)漫游通話次數(shù)','上網(wǎng)流量','有通話天數(shù)','有主叫天數(shù)','有被叫天數(shù)','主叫呼叫圈'中低費用'年齡','在網(wǎng)時長','本月費用','本地通話次數(shù)','國內(nèi)長途通話次數(shù)','國內(nèi)漫游通話次數(shù)','有通話天數(shù)','有主叫天數(shù)','有被叫天數(shù)','主叫呼叫圈'一般費用'年齡','在網(wǎng)時長','本地通話次數(shù)','國內(nèi)長途通話次數(shù)','國內(nèi)漫游通話次數(shù)','短信發(fā)送數(shù)','上網(wǎng)流量','有通話天數(shù)','有主叫天數(shù)','有被叫天數(shù)'中高費用'年齡','在網(wǎng)時長','本地通話次數(shù)','國內(nèi)長途通話次數(shù)','國內(nèi)漫游通話次數(shù)','短信發(fā)送數(shù)','有通話天數(shù)','有主叫天數(shù)','有被叫天數(shù)','主叫呼叫圈'高費用'年齡','在網(wǎng)時長','平均本地通話時長','本地通話次數(shù)','國內(nèi)長途通話次數(shù)','國內(nèi)漫游通話次數(shù)','國內(nèi)漫游上網(wǎng)流量','有通話天數(shù)','有主叫天數(shù)','有被叫天數(shù)'類型選取的變量構(gòu)建電信商用戶流失預(yù)測模型自定義模型構(gòu)建函數(shù)構(gòu)建邏輯回歸模型構(gòu)建決策樹模型構(gòu)建樸素貝葉斯模型選擇最優(yōu)模型由于不同的模型構(gòu)建過程類似,為了避免代碼贅余,因此自定義一個evaluate_model函數(shù)用于模型的構(gòu)建與檢測。evaluate_model函數(shù)操作的流程如下。自定義模型構(gòu)建函數(shù)基于特征變量的篩選結(jié)果,循環(huán)獲取不同用戶類型的重點特征提取特征和目標變量數(shù)據(jù)對數(shù)據(jù)進行欠采樣處理自定義模型構(gòu)建函數(shù)劃分特征和目標變量,并劃分訓(xùn)練集和測試集對數(shù)據(jù)進行標準化處理構(gòu)建相關(guān)的模型,并對模型進行評估由于不同的模型構(gòu)建過程類似,為了避免代碼贅余,因此自定義一個evaluate_model函數(shù)用于模型的構(gòu)建與檢測。evaluate_model函數(shù)操作的流程如下。邏輯回歸也被稱為廣義線性回歸模型,它與線性回歸模型的形式基本上相同,最大的區(qū)別就在于它們的因變量不同,如果是連續(xù)的,就是多重線性回歸;如果是二項分布,就是Logistic回歸。導(dǎo)入構(gòu)建邏輯回歸模型需要的一些開發(fā)庫。調(diào)用構(gòu)建的evaluate_model函數(shù),即可構(gòu)建邏輯回歸模型,并計算模型的準確率、召回率、AUC值。構(gòu)建邏輯回歸模型決策樹是一種樹狀結(jié)構(gòu),它的每一個葉節(jié)點對應(yīng)著一個分類,非葉節(jié)點對應(yīng)著在某個屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分成若干個子集。對于非純的葉節(jié)點,多數(shù)類的標號給出到達這個節(jié)點的樣本所屬的類。導(dǎo)入構(gòu)建決策樹模型需要的一些開發(fā)庫。調(diào)用構(gòu)建的evaluat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論