大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目8:人力資源數(shù)據(jù)挖掘_第1頁(yè)
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目8:人力資源數(shù)據(jù)挖掘_第2頁(yè)
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目8:人力資源數(shù)據(jù)挖掘_第3頁(yè)
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目8:人力資源數(shù)據(jù)挖掘_第4頁(yè)
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目8:人力資源數(shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)訓(xùn)8人力資源數(shù)據(jù)挖掘項(xiàng)目背景實(shí)訓(xùn)目標(biāo)實(shí)訓(xùn)任務(wù)技術(shù)準(zhǔn)備實(shí)訓(xùn)步驟分析報(bào)告目錄項(xiàng)目背景在前面的章節(jié)中我們已經(jīng)對(duì)本章節(jié)的數(shù)據(jù)進(jìn)行了介紹和預(yù)處理以及數(shù)據(jù)可視化分析,本章節(jié)主要使用機(jī)器學(xué)習(xí)的相關(guān)知識(shí)分析各個(gè)因素之間的關(guān)系以及導(dǎo)致員工離職的主要原因有哪些,針對(duì)離職原因和公司的發(fā)展情況做出更好的調(diào)整。實(shí)訓(xùn)目標(biāo)掌握數(shù)據(jù)挖掘相關(guān)概述;掌握數(shù)據(jù)挖掘相關(guān)Scikit-learn工具包的安裝和使用;掌握數(shù)據(jù)挖掘中的決策樹(shù)方法理論基礎(chǔ);掌握數(shù)據(jù)挖掘中算法的準(zhǔn)確性判斷;掌握數(shù)據(jù)挖掘項(xiàng)目流程;掌握數(shù)據(jù)挖掘中的相關(guān)性分析使用和分析;掌握數(shù)據(jù)挖掘中的決策樹(shù)方法使用和分析;掌握決策樹(shù)方法的分析和拓展應(yīng)用。實(shí)訓(xùn)任務(wù)(1)數(shù)據(jù)挖掘的概念理解和認(rèn)識(shí);(2)決策樹(shù)方法理論基礎(chǔ);(3)數(shù)據(jù)挖掘中sklearn包的簡(jiǎn)單使用;(4)決策樹(shù)算法的應(yīng)用和準(zhǔn)確性判斷;(5)決策樹(shù)方法分析應(yīng)用和拓展。技術(shù)準(zhǔn)備數(shù)據(jù)挖掘概述;Scikit-learn簡(jiǎn)介;決策樹(shù)方法理論基礎(chǔ);算法的準(zhǔn)確性判斷;項(xiàng)目流程(Crisp-DM框架)。技術(shù)準(zhǔn)備什么是數(shù)據(jù)挖掘?(從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。)數(shù)據(jù)挖掘能做什么?(挖掘信息)怎么做?技術(shù)準(zhǔn)備Scikit-learn工具包直接pip安裝:pipinstallsklearn(anaconda中已集成)從sklean中導(dǎo)入包fromsklearnimport…API文檔(參考):/stable/modules/classes.htmlScikit-learn工具包MachineLearninginPython開(kāi)源機(jī)器學(xué)習(xí)庫(kù):/stable/index.html涵蓋分類(lèi)、回歸、聚類(lèi)、降維、模型選擇、數(shù)據(jù)預(yù)處理六大模塊Scikit-learn工具包Scikit-learn工具包Scikit-learn工具包劃分?jǐn)?shù)據(jù)集調(diào)用sklearn包中的train_test_split()函數(shù)實(shí)現(xiàn)訓(xùn)練集和測(cè)試集的劃分。實(shí)例:train_X,test_X,train_Y,test_Y=train_test_split(train_data,train_target,test_size,random_state,stratify=y_train)train_test_split()函數(shù)

參數(shù)說(shuō)明如下:train_data:被劃分的樣本特征集,比如X;train_target:被劃分的樣本標(biāo)簽,比如Y。Scikit-learn工具包test_size:取值范圍為0-1,表示樣本比例;如果是整數(shù)即樣本的數(shù)量。random_state:是隨機(jī)數(shù)的種子,默認(rèn)為None①若為None時(shí),每次生成的數(shù)據(jù)都是隨機(jī),可能不一樣②若為整數(shù)時(shí),每次生成的數(shù)據(jù)都相同stratify:可以為類(lèi)似數(shù)組或None①若為None時(shí),劃分出來(lái)的測(cè)試集或訓(xùn)練集中,其類(lèi)標(biāo)簽的比例也是隨機(jī)②若不為None時(shí),劃分出來(lái)的測(cè)試集或訓(xùn)練集中,其類(lèi)標(biāo)簽的比例同輸入的數(shù)組中類(lèi)標(biāo)簽的比例相同,可以用于處理不均衡的數(shù)據(jù)集決策樹(shù)算法簡(jiǎn)介介紹:ID3算法是一個(gè)眾所周之的決策樹(shù)算法,該算法是澳大利亞悉尼大學(xué)的RossQuinlan于1986年提出,也是國(guó)際上最早、最有影響力的決策樹(shù)算法,其他的許多算法如C4.5、CART算法等都是在ID3算法基礎(chǔ)上的改進(jìn)。決策樹(shù)算法ID3(J.RossQuinlan-1975)核心:信息熵

(信息增益算法)C4.5—ID3的改進(jìn)核心:信息增益比CART(Breiman-1984)核心:基尼指數(shù)經(jīng)典決策樹(shù)算法第一部分ID3(J.RossQuinlan-1975)核心:信息熵

(信息增益算法)實(shí)例

實(shí)例目的是通過(guò)天氣、溫度、濕度、風(fēng)力四個(gè)因素來(lái)決定是否去打球,利用ID3算法判斷這四個(gè)因素的重要性,構(gòu)建出決策樹(shù)模型,從而判斷能夠去打球。實(shí)驗(yàn)數(shù)據(jù)集如表1所示。實(shí)例數(shù)據(jù)集表1實(shí)例數(shù)據(jù)集

Number天氣溫度濕度風(fēng)力Play1晴朗高高弱No2晴朗高高強(qiáng)No3多云高高弱Yes4雨天適中高弱Yes5雨天冷正常弱Yes6雨天冷正常強(qiáng)No7多云冷正常強(qiáng)Yes8晴朗適中高弱No9晴朗冷正常弱Yes10雨天適中正常弱Yes11晴朗適中正常強(qiáng)Yes12多云適中高強(qiáng)Yes13多云高正常弱Yes14雨天適中高強(qiáng)NoID3算法在ID3算法中,決策節(jié)點(diǎn)屬性的選擇運(yùn)用了信息論中的熵概念作為啟發(fā)式函數(shù)。在這種屬性選擇方法中,選擇具有最大信息增益(informationgain)的屬性作為當(dāng)前劃分節(jié)點(diǎn)。通過(guò)這種方式選擇的節(jié)點(diǎn)屬性可以保證決策樹(shù)具有最小的分枝數(shù)量,使得到的決策樹(shù)冗余最小。ID3算法----熵

熵和概率圖

ID3算法----條件熵條件熵H(Y|X)表示在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性即隨機(jī)變量X給定的條件下隨機(jī)變量Y的條件熵。ID3算法----信息增益特征A對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益gain(D,A),定義為集合D的經(jīng)驗(yàn)熵H(D)與特征A給定條件下D的經(jīng)驗(yàn)條件熵H(D|A)之差。信息增益的算法步驟

實(shí)例

假如你是一個(gè)網(wǎng)球愛(ài)好者,天氣狀況(天氣、溫度、濕度、風(fēng)力)是你決定是否去打球的重要因素,利用ID3算法構(gòu)筑決策樹(shù)。實(shí)驗(yàn)數(shù)據(jù)集如表1所示。實(shí)例數(shù)據(jù)集表1實(shí)例數(shù)據(jù)集

Number天氣溫度濕度風(fēng)力Play1晴朗高高弱No2晴朗高高強(qiáng)No3多云高高弱Yes4雨天適中高弱Yes5雨天冷正常弱Yes6雨天冷正常強(qiáng)No7多云冷正常強(qiáng)Yes8晴朗適中高弱No9晴朗冷正常弱Yes10雨天適中正常弱Yes11晴朗適中正常強(qiáng)Yes12多云適中高強(qiáng)Yes13多云高正常弱Yes14雨天適中高強(qiáng)No實(shí)例以往部分打球數(shù)據(jù)庫(kù)類(lèi)標(biāo)記的訓(xùn)練元組統(tǒng)計(jì)如表2所示。表2以往部分打球數(shù)據(jù)庫(kù)類(lèi)標(biāo)記的訓(xùn)練元組統(tǒng)計(jì)

天氣溫度濕度風(fēng)力打球晴朗多云雨天高溫溫和涼爽高正常弱強(qiáng)是(9)2432436663否(5)3022211223實(shí)例

實(shí)例

表2以往部分打球數(shù)據(jù)庫(kù)類(lèi)標(biāo)記的訓(xùn)練元組統(tǒng)計(jì)

天氣溫度濕度風(fēng)力打球晴朗多云雨天高溫溫和涼爽高正常弱強(qiáng)是(9)2432436663否(5)3022211223條件熵:

實(shí)例根據(jù)公式計(jì)算按照天氣屬性劃分的信息增益是:Gain(天氣)=info(D)-info天氣(D)=0.940-0.694

=0.246類(lèi)似地,可以計(jì)算Gain(溫度)=0.029Gain(濕度)=0.151Gain(風(fēng)力)=0.048實(shí)例由于天氣在屬性中具有最高信息增益,它被選作測(cè)試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),用天氣標(biāo)記,并根據(jù)每個(gè)屬性值,引出一個(gè)分支。注意,落在分區(qū)天氣="多云”的樣本都屬于同一類(lèi),根據(jù)算法,要在該分支的端點(diǎn)創(chuàng)建一個(gè)樹(shù)葉,并用“是”標(biāo)記。同理,在“晴朗”和“雨天”這兩個(gè)分支上,分別對(duì)“溫度”、“濕度”、“風(fēng)力”屬性計(jì)算其信息增益,分別選取一下個(gè)測(cè)試屬性。實(shí)例數(shù)據(jù)集依算法全部計(jì)算后返回的最終決策樹(shù)如圖所示。訓(xùn)練決策樹(shù)的過(guò)程就是構(gòu)建決策樹(shù)的過(guò)程。經(jīng)典決策樹(shù)算法第二部分C4.5—ID3的改進(jìn)核心:信息增益比C4.5算法簡(jiǎn)介C4.5算法是ID3算法的一種延伸和優(yōu)化。C4.5算法對(duì)ID3算法做了幾點(diǎn)改進(jìn):??通過(guò)信息增益率選擇分裂屬性,克服了ID3算法中通過(guò)信息增益傾向于選擇擁有多個(gè)屬性值的屬性作為分裂屬性的不足;能夠處理離散型和連續(xù)型的屬性類(lèi)型,即將連續(xù)型的屬性進(jìn)行離散化處理;構(gòu)造決策樹(shù)之后進(jìn)行剪枝操作;能夠處理具有缺失屬性值的訓(xùn)練數(shù)據(jù)。信息增益比的使用原因信息增益值的大小是相對(duì)于訓(xùn)練數(shù)據(jù)集而言的,即訓(xùn)練數(shù)據(jù)集的經(jīng)驗(yàn)熵越大的時(shí)候,信息增益值會(huì)偏大,使用信息增益比即可解決此問(wèn)題。使用信息增益比即可解決此問(wèn)題。信息增益比計(jì)算信息增益比:特征A對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益比gr(D,A)定義為其信息增益g(D,A)與訓(xùn)練數(shù)據(jù)集D的經(jīng)驗(yàn)熵H(D)之比:

經(jīng)典決策樹(shù)算法第三部分CART(Breiman-1984)核心:基尼指數(shù)剪枝剪枝一般分兩種方法:先剪枝后剪枝決策樹(shù)的基本模型步驟1、導(dǎo)入決策樹(shù)模型fromsklearn.treeimportDecisionTreeClassifier2、利用模型構(gòu)建決策樹(shù)clf=DecisionTreeClassifier(criterion='gini',splitter='best',max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max_leaf_nodes=None,min_impurity_decrease=0.0,min_impurity_split=None,class_weight=None,presort=False)決策樹(shù)的基本模型步驟DecisionTreeClassifier類(lèi)常用的參數(shù)及其說(shuō)明如下表所示。參數(shù)名稱(chēng)說(shuō)明criterion接收str。表示節(jié)點(diǎn)(特征)選擇的準(zhǔn)則,使用信息增益“entropy”的是C4.5算法;使用基尼系數(shù)“gini”的CART算法。默認(rèn)為“gini”splitter接收str,可選參數(shù)為“best”或“random”。表示特征劃分點(diǎn)選擇標(biāo)準(zhǔn),“best”在特征的所有劃分點(diǎn)中找出最優(yōu)的劃分點(diǎn);“random”在隨機(jī)的部分劃分點(diǎn)中找出局部最優(yōu)劃分點(diǎn)。默認(rèn)為“best”max_depth接收int。表示決策樹(shù)的最大深度。默認(rèn)為Nonemin_samples_split接收int或float。表示子數(shù)據(jù)集再切分需要的最小樣本量。默認(rèn)為2min_samples_leaf接收int或float。表示葉節(jié)點(diǎn)所需的最小樣本數(shù),若低于設(shè)定值,則該葉節(jié)點(diǎn)和其兄弟節(jié)點(diǎn)都會(huì)被剪枝。默認(rèn)為1min_weight_fraction_leaf接收int、float、str或None。表示在葉節(jié)點(diǎn)處的所有輸入樣本權(quán)重總和的最小加權(quán)分?jǐn)?shù)。默認(rèn)為None決策樹(shù)的基本模型步驟DecisionTreeClassifier類(lèi)常用的參數(shù)及其說(shuō)明如下表所示。參數(shù)名稱(chēng)說(shuō)明max_features接收f(shuō)loat。表示特征切分時(shí)考慮的最大特征數(shù)量,默認(rèn)是對(duì)所有特征進(jìn)行切分。傳入int類(lèi)型的值,表示具體的特征個(gè)數(shù);浮點(diǎn)數(shù)表示特征個(gè)數(shù)的百分比;sqrt表示總特征數(shù)的平方根;log2表示總特征數(shù)求log2后的個(gè)數(shù)的特征。默認(rèn)為Nonerandom_state接收int、RandomState實(shí)例或None。表示隨機(jī)種子的數(shù)量,若設(shè)置了隨機(jī)種子,則最后的準(zhǔn)確率都是一樣的;若接收int,則指定隨機(jī)數(shù)生成器的種子;若接收RandomState,則指定隨機(jī)數(shù)生成器;若為None,則指定使用默認(rèn)的隨機(jī)數(shù)生成器。默認(rèn)為Nonemax_leaf_nodes接收int或None。表示最大葉節(jié)點(diǎn)數(shù)。默認(rèn)為None,即無(wú)限制決策樹(shù)的基本模型步驟DecisionTreeClassifier類(lèi)常用的參數(shù)及其說(shuō)明如下表所示。參數(shù)名稱(chēng)說(shuō)明min_impurity_decrease接收f(shuō)loat。表示切分點(diǎn)不純度最小減少的程度,若某節(jié)點(diǎn)的不純度減少小于或等于這個(gè)值,則切分點(diǎn)就會(huì)被移除。默認(rèn)為0.0min_impurity_split接收f(shuō)loat。表示切分點(diǎn)最小不純度,它用來(lái)限制數(shù)據(jù)集的繼續(xù)切分(決策樹(shù)的生成)。若某個(gè)節(jié)點(diǎn)的不純度(分類(lèi)錯(cuò)誤率)小于這個(gè)閾值,則該點(diǎn)的數(shù)據(jù)將不再進(jìn)行切分。無(wú)默認(rèn),但該參數(shù)將被移除,可使用min_impurity_decrease參數(shù)代替class_weight接收dict、dict列表、balanced或None。表示分類(lèi)模型中各種類(lèi)別的權(quán)重,在出現(xiàn)樣本不平衡時(shí),可以考慮調(diào)整class_weight系數(shù)去調(diào)整,防止算法對(duì)訓(xùn)練樣本多的類(lèi)別偏倚。默認(rèn)為Nonepresort接收bool。表示是否提前對(duì)特征進(jìn)行排序。默認(rèn)為False決策樹(shù)的基本模型步驟3、調(diào)用模型對(duì)象中的fit()方法,對(duì)數(shù)據(jù)進(jìn)行擬合訓(xùn)練model=model.fit(X_train,y_train)model4、調(diào)用模型中的score()方法,考察訓(xùn)練效果,訓(xùn)練集上的準(zhǔn)確率判斷rv=model.score(X_train,y_train)rv=model.score(X_test,y_test)決策樹(shù)的基本模型步驟5、調(diào)用模型中的predict()方法,對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),獲得預(yù)測(cè)結(jié)果。y_train_pred=model.predict(X_train)y_test_pred=model.predict(X_test)判斷模型準(zhǔn)確的的機(jī)器學(xué)習(xí)相關(guān)包:#導(dǎo)入相關(guān)的數(shù)據(jù)包fromsklearn.metricsimportconfusion_matrixfromsklearn.metricsimportaccuracy_score,precision_score,recall_score混合矩陣混淆矩陣算法的準(zhǔn)確性判斷機(jī)器學(xué)習(xí)中,對(duì)于二分類(lèi)問(wèn)題常用的評(píng)價(jià)指標(biāo)有正確率、錯(cuò)誤率、精確率、召回率、F1度量、預(yù)測(cè)概率和ROC曲線(xiàn)等。下面我們以二分類(lèi)(0,1)問(wèn)題為例,觀察值來(lái)自不同的兩個(gè)類(lèi)別(positive、negative),下面以正類(lèi)和負(fù)類(lèi)為例。對(duì)于二分類(lèi)問(wèn)題,存在以下四種情形:TP:實(shí)際樣本為正例,預(yù)測(cè)結(jié)果為正例,將正類(lèi)預(yù)測(cè)為正類(lèi)數(shù);FN:實(shí)際樣本為正例,預(yù)測(cè)結(jié)果為負(fù)例,將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù);FP:實(shí)際樣本為負(fù)例,預(yù)測(cè)結(jié)果為正例,將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)數(shù);TN:實(shí)際樣本為負(fù)例,預(yù)測(cè)結(jié)果為負(fù)例,將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù);算法的準(zhǔn)確性判斷正確率和錯(cuò)誤率正確率(accuracy)和錯(cuò)誤率(error)是分類(lèi)任務(wù)中最常用的兩種性能度量,正確率是指分類(lèi)正確的樣本占總樣本的比例,錯(cuò)誤率是指分類(lèi)錯(cuò)誤的樣本占總樣本的比例。Accuracy:

正確率(準(zhǔn)確率)

所有樣本中,預(yù)測(cè)正確的概率Accuracy=(TP+TN)/(P+N)Error:錯(cuò)誤率

所有樣本中,預(yù)測(cè)錯(cuò)誤的概率Error=(FP+FN)/(P+N)算法的準(zhǔn)確性判斷精確率、召回率Precision:精確率

精準(zhǔn)率是否誤報(bào),在預(yù)測(cè)為真的樣例中,實(shí)際為真的概率:Precision=TP/(TP+FP)Recall:召回率檢測(cè)是否漏報(bào),在實(shí)際為真的樣例中,預(yù)測(cè)為真的概率:Recall=TP/(TP+FN)算法的準(zhǔn)確性判斷F1度量針對(duì)不同情況下精確率和召回率的重要性不同,使用F1度量將精確率和召回率度量綜合起來(lái)(F1度量是精確率和召回率的調(diào)和均值):F1=(2*Precision*Recall)/(Precision+Recall)決策樹(shù)的基本模型步驟6、調(diào)用模型中的predict_proba()方法,對(duì)測(cè)試樣本的概率進(jìn)行預(yù)測(cè),獲得預(yù)測(cè)結(jié)果的概率。y_pred_proba=model.predict_proba(X_test)SHAP介紹SHAP(SHapleyAdditiveexPlanation)是Python開(kāi)發(fā)的一個(gè)"模型解釋"包,可以解釋任何機(jī)器學(xué)習(xí)模型的輸出。(查看特征的重要性)通過(guò)pipinstallshap即可安裝:導(dǎo)入shap機(jī)器學(xué)習(xí)可解釋性分析工具包,使用shap.initjs()初始化繪圖環(huán)境,即js環(huán)境:importshapshap.initjs()SHAP使用計(jì)算測(cè)試集每個(gè)樣本的每個(gè)特征對(duì)兩類(lèi)預(yù)測(cè)結(jié)果的shap值:explainer=shap.TreeExplainer(model)shap_values=explainer.shap_values(X_test)特征重要性分析:對(duì)于某個(gè)特征,計(jì)算測(cè)試集每個(gè)員工的該特征shap值之和(shap值越高,特征越重要)shap.summary_plot(shap_values[1],X_test,plot_type="bar")shap.summary_plot(shap_values[1],X_test)shap.summary_plot(shap_values[1],X_test,plot_type="violin")SHAP使用特征重要性可視化shap.summary_plot(shap_values[1],X_test,plot

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論