基于大數(shù)據(jù)技術(shù)的人才隊(duì)伍全景視圖構(gòu)建_第1頁(yè)
基于大數(shù)據(jù)技術(shù)的人才隊(duì)伍全景視圖構(gòu)建_第2頁(yè)
基于大數(shù)據(jù)技術(shù)的人才隊(duì)伍全景視圖構(gòu)建_第3頁(yè)
基于大數(shù)據(jù)技術(shù)的人才隊(duì)伍全景視圖構(gòu)建_第4頁(yè)
基于大數(shù)據(jù)技術(shù)的人才隊(duì)伍全景視圖構(gòu)建_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于大數(shù)據(jù)技術(shù)的人才隊(duì)伍全景視圖構(gòu)建摘要:目前浙江電力集團(tuán)在實(shí)施“互聯(lián)網(wǎng)+營(yíng)銷”的戰(zhàn)略時(shí),需要考慮互聯(lián)網(wǎng)人才“數(shù)據(jù)導(dǎo)向”、“邏輯與創(chuàng)造力”、“迅速的改變”、“持續(xù)學(xué)習(xí)能力”等方面的特征,應(yīng)用聚類、關(guān)聯(lián)規(guī)則等大數(shù)據(jù)分析建模方法,多角度、多維度的分析挖掘,構(gòu)建“互聯(lián)網(wǎng)+營(yíng)銷服務(wù)”創(chuàng)新基地人才隊(duì)伍全景視圖,通過(guò)深層次的解讀“互聯(lián)網(wǎng)+營(yíng)銷服務(wù)”創(chuàng)新人才特征,發(fā)現(xiàn)各類人才的獨(dú)特性和影響力,并針對(duì)不同的職能需求,為決策者在人才能力評(píng)估、人才培訓(xùn)、崗位配置等決策時(shí)提供可靠的數(shù)據(jù)支持。

關(guān)鍵詞:大數(shù)據(jù);分析建模;標(biāo)簽;人才隊(duì)伍;全景視圖

ConstructionofEmployeePortraitBasedonBigData

Abstract:StateGridZhejiangElectricPowerCompanyneedstoconsiderthecharacteristicsof“data-oriented”,“l(fā)ogicandcreativity”,“rapidchange”,“sustainablelearningability”ofinternettalentswhenimplementingthe“Internet+Marketing”strategy.Therefore,applyclustering,associationrulesandotherbig-dataanalysismodelingmethods,tomulti-angleandmulti-dimensionalanalysisandminingandbuildanemployeeportraitofthe“Internet+Marketing”innovationbase.Inthisway,youcaninterpretthecharacteristicsof“Internet+Marketing”employeesdeeper,discovertheuniquenessandinfluenceofvariousemployees,andprovidereliabledatasupportfordecision-makersinemployee’scapacityassessment,training,andjobplacementfordifferentfunctionalneeds.

Keywords:Big-Data,AnalyticalModeling,Tag,Employee,Portrait

引言

根據(jù)國(guó)家電網(wǎng)總部戰(zhàn)略部署的要求:構(gòu)建“互聯(lián)網(wǎng)+”重要戰(zhàn)略部署,浙江省電力有限公司于2015年8月成立“互聯(lián)網(wǎng)+營(yíng)銷服務(wù)”創(chuàng)新基地,旨在打造中國(guó)電力營(yíng)銷領(lǐng)域創(chuàng)新成果轉(zhuǎn)化孵化器和創(chuàng)新人才培育基地。但在瞬息萬(wàn)變的互聯(lián)網(wǎng)環(huán)境、越來(lái)越精細(xì)化的人才需求情況下,傳統(tǒng)人力資源管理方式,無(wú)法全面、快速、精準(zhǔn)的對(duì)人才各項(xiàng)能力進(jìn)行判斷,必定會(huì)面臨員工與崗位無(wú)法精準(zhǔn)匹配、個(gè)人能力考核難以評(píng)估、人力資源規(guī)劃與社會(huì)發(fā)展趨勢(shì)無(wú)法緊密結(jié)合、創(chuàng)新型人才培養(yǎng)難以滿足個(gè)性化需求等等問(wèn)題。

為進(jìn)一步促進(jìn)創(chuàng)新人才培養(yǎng)基地的人才隊(duì)伍能力評(píng)估、人才能力培養(yǎng)、人才選拔和人才引進(jìn)等相關(guān)工作開展,基于大數(shù)據(jù)技術(shù)和算法模型的發(fā)展,通過(guò)建立有效的數(shù)據(jù)指標(biāo),有效刻畫出現(xiàn)有員工的能力、崗位需求匹配的能力,構(gòu)建人才隊(duì)伍全景視圖,有效進(jìn)行人與崗位的匹配,為創(chuàng)新基地的人員能力評(píng)估、人才隊(duì)伍能力培訓(xùn)、人才選拔或引進(jìn)提供數(shù)據(jù)支撐服務(wù)。

1人才隊(duì)伍全景視圖概述

1.1定義

傳統(tǒng)的人才畫像中,浙江省電力有限公司各基層單位以各自的實(shí)際需求為出發(fā)點(diǎn),形成具有自身特點(diǎn)的標(biāo)簽體系。然而值得注意的是,對(duì)于創(chuàng)新基地來(lái)說(shuō),各基層單位的人才信息分散且不全面。分散是指各基層單位系統(tǒng)彼此之間相互獨(dú)立又各有關(guān)聯(lián),整合難度大;不全面是指數(shù)據(jù)往往是由浙電各基層單位建立、圍繞電力領(lǐng)域展開的,因此創(chuàng)新基地僅僅基于浙電內(nèi)部擁有的數(shù)據(jù)往往難以對(duì)人才進(jìn)行全方位的畫像。

人才隊(duì)伍全景視圖是基于大數(shù)據(jù)技術(shù),將浙電內(nèi)部以前難以處理的半結(jié)構(gòu)化和非結(jié)構(gòu)化等內(nèi)部數(shù)據(jù)進(jìn)行結(jié)構(gòu)化解析,且結(jié)合創(chuàng)新基地人才隊(duì)伍的需求特征,引入與其高度相關(guān)的外部數(shù)據(jù)源,通過(guò)整合和分析電力領(lǐng)域內(nèi)、外的結(jié)構(gòu)化、非結(jié)構(gòu)化信息,將社交數(shù)據(jù)和浙江電網(wǎng)數(shù)據(jù)有機(jī)融合,可以更清晰真實(shí)的還原創(chuàng)新基地人才隊(duì)伍的全景視圖,使創(chuàng)新基地更加了解人才隊(duì)伍。

1.2作用

人才隊(duì)伍全景視圖的構(gòu)建,在一定程度可以反應(yīng)出人才的各種硬性指標(biāo)能力,可以為浙江電力人才創(chuàng)新基地的人才培養(yǎng)、人才選拔和引進(jìn)工作提供參考數(shù)據(jù)支撐,為崗位的能力匹配提供指導(dǎo),但是因?yàn)槿瞬艠?biāo)簽是由模型算法根據(jù)具體數(shù)據(jù)指標(biāo)演算出來(lái)的,而部分?jǐn)?shù)據(jù)指標(biāo)的設(shè)定或者數(shù)據(jù)信息的設(shè)定均存在主觀性,所以人才全景視圖只能作為崗位人才培養(yǎng)和選拔的輔助工具,而不是絕對(duì)標(biāo)準(zhǔn)。

如:人才的溝通能力、工作效率質(zhì)量、學(xué)習(xí)能力等數(shù)據(jù)是通過(guò)調(diào)研文檔或管理者對(duì)人員的評(píng)估進(jìn)行收集的,存在一定的主觀性,這些主觀性數(shù)據(jù)指標(biāo)將影響算法結(jié)果。

2大數(shù)據(jù)技術(shù)介紹

創(chuàng)新基地人才隊(duì)伍全景視圖的構(gòu)建研究,主要應(yīng)用到的大數(shù)據(jù)技術(shù)和算法模型如下:

2.1中文分詞

中文分詞是指將一個(gè)中文文本分割成一個(gè)個(gè)詞語(yǔ),并按照一定的規(guī)則重新組成單詞序列的過(guò)程。英文文本的單詞之間是直接利用空格進(jìn)行分隔的,而中文文本能利用標(biāo)點(diǎn)符號(hào)來(lái)劃分字、句和段等文本單位,但不能利用符號(hào)來(lái)對(duì)詞進(jìn)行直接劃分。因此中文的分詞處理要比英文復(fù)雜和困難很多。中文分詞是中文文本信息分析的前提,目前國(guó)內(nèi)的一些科研院校和研究所都有研究該技術(shù)的團(tuán)隊(duì),也開發(fā)了一些中文分詞的開源項(xiàng)目,如JIEBA、HTTPCWS、IK、Paoding(庖丁解牛分詞)、NLPIR(前身ICTCLAS)和盤古分詞等。JIEBA分詞是文本分析處理中普遍使用的一種中文分詞方法。

JIEBA主要涉及到的算法有:

●基于Trie樹結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(DAG);

●采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;

●對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。

JIEBA提供了3種分詞模式,分別為:

●精確模式(默認(rèn)):試圖將句子最精確地切開,適合文本分析;

●全模式:把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái),速度非???,但是不能理解歧義問(wèn)題;

●搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞。

另外,JIEBA分詞支持繁體分詞和自定義字典方法。

2.2文本特征向量化

中文分詞將文本分割為詞序列后,還需要進(jìn)一步轉(zhuǎn)化為特征向量,常用的文本特征向量化的方式有兩種:基于詞頻-逆文檔頻率(TFIDF,TermFrequency-InverseDocumentFrequency)和基于計(jì)數(shù)的向量化。

TF-IDF是文本分析處理中普遍使用的一種特征向量化方法,它可以評(píng)估一個(gè)文檔中單詞在語(yǔ)料庫(kù)中的重要程度。TF-IDF的指導(dǎo)思想基于假設(shè):在一個(gè)文本中,出現(xiàn)很多次的單詞在另一個(gè)同類文本中出現(xiàn)的次數(shù)也會(huì)很多,反之亦然。其主要原則是:如果一個(gè)單詞在個(gè)別文檔中高頻出現(xiàn),但是在其他文檔中出現(xiàn)頻率很低,則這個(gè)單詞通過(guò)TF-IDF計(jì)算后將得到較高權(quán)重。

TF稱為詞頻,指的是某一給定的詞語(yǔ)在該文檔中出現(xiàn)的次數(shù),該值通常會(huì)被歸一化,以防它偏向長(zhǎng)的文檔(同一個(gè)詞語(yǔ)在長(zhǎng)文檔里可能會(huì)比短文檔里有更高的詞頻,而不管該詞語(yǔ)重要與否);

IDF稱為反文檔頻率,是一個(gè)詞語(yǔ)普遍重要性的度量。某一個(gè)特定詞語(yǔ)的IDF,可以由總文檔數(shù)目除以包含該詞語(yǔ)的文檔的數(shù)目,再將得到的商取對(duì)數(shù)得到。

將這兩個(gè)值(TF和IDF)相乘,得到了一個(gè)詞的TF-IDF值。

假設(shè)文檔集合為,表示中的任意文檔,表示文檔中單詞的出現(xiàn)頻率,表示文檔集合中包含單詞的文檔數(shù)目,則單詞的逆文檔頻率和其在文檔中的權(quán)重如下式所示:

2.3K均值聚類算法

2.3.1K均值聚類算法簡(jiǎn)述

在K均值聚類算法中,第一步是從原始數(shù)據(jù)集中挑選K個(gè)數(shù)據(jù)對(duì)象,并把它們當(dāng)作初始聚類中心,接下來(lái)根據(jù)樣本和聚類中心間的歐式距離,將自身歸到相應(yīng)的類別中,再計(jì)算形成的新類的聚類中心,重復(fù)以上過(guò)程,直到得到的評(píng)價(jià)函數(shù)收斂為止。

通常,評(píng)價(jià)函數(shù)可以用簇內(nèi)誤差平方和表示:

式中,k表示聚類的個(gè)數(shù),P表示簇i中的數(shù)據(jù)對(duì)象,表示聚類中心,且聚類中按照以下公式更新:

式中,表示數(shù)據(jù)對(duì)象的個(gè)數(shù)。

2.3.2改進(jìn)的K均值聚類算法

本文提出一種改進(jìn)的K均值聚類算法,改進(jìn)算法提供了一種確定最佳聚類數(shù)的方法,并找到最佳聚類中心。首先,算法在高密度的數(shù)據(jù)點(diǎn)中選出一個(gè)和聚類中心的距離最遠(yuǎn)的點(diǎn),并把它看作一個(gè)新的聚類中心,放置到聚類中心的集合中對(duì)某個(gè)數(shù)據(jù)集來(lái)說(shuō),當(dāng)最佳聚類數(shù)確定時(shí),根據(jù)改進(jìn)算法求出的聚類中心也是確定的,這樣,算法的穩(wěn)定性就會(huì)大大提高。

下面給出相關(guān)的概念定義。

●點(diǎn)密度:處在點(diǎn)的鄰域內(nèi)的點(diǎn)的數(shù)量;

式中,表示聚類中心,表示鄰域半徑。

●類內(nèi)距離:所有處于類中的點(diǎn)和聚類中心間歐氏距離的平均值;

●類間距離:各個(gè)類的聚類中心間的歐氏距離值;

●類間最大相似度均值(AMS):各個(gè)類間的最大相似度的平均值;

當(dāng)AMS的取值最小時(shí),表明算法的聚類效果最好,這時(shí)最佳聚類數(shù)就是K。

改進(jìn)的K均值聚類算法的具體過(guò)程如下:

(1)計(jì)算點(diǎn)密度,然后在備選點(diǎn)集合D中添加點(diǎn)密度較大的M個(gè)數(shù)據(jù)點(diǎn);

(2)在D中根據(jù)密度值大小排序,挑選出前兩個(gè)密度最大的點(diǎn)當(dāng)作算法的初始聚類中心,并且把它們從D中刪除;

(3)從D中選出和步驟(2)初始聚類中心距離最遠(yuǎn)的點(diǎn)當(dāng)作新的聚類中心,并且把該點(diǎn)從D中刪除;

(4)利用迭代算法對(duì)N個(gè)數(shù)據(jù)點(diǎn)進(jìn)行以上操作,計(jì)算AMS值;

(5)當(dāng)計(jì)算出的當(dāng)下AMS值比前一次的AMS值小時(shí),繼續(xù)執(zhí)行算法,并轉(zhuǎn)到步驟(6);當(dāng)計(jì)算出的當(dāng)下AMS值比前一次的AMS值大時(shí),把該最小AMS值相對(duì)應(yīng)的聚類中心看作K均值聚類算法的初始聚類中心,并轉(zhuǎn)到步驟(7);

(6)按照聚類中心更新公式更新聚類中心,然后在集合D中挑選出一個(gè)數(shù)據(jù)點(diǎn),使它和新的聚類中心間的最小距離有最大值,并把它看作下一個(gè)聚類中心,且從D中將其刪除,轉(zhuǎn)到步驟(4);

(7)執(zhí)行K均值聚類算法。

2.4協(xié)同過(guò)濾算法

協(xié)同過(guò)濾一般是在海量的用戶中發(fā)掘出小部分和你品味比較類似的。在協(xié)同過(guò)濾中,這些用戶成為鄰居,然后根據(jù)他們喜歡的其他東西組織成一個(gè)排序的目錄作為推薦。協(xié)同過(guò)濾的主要功能是預(yù)測(cè)和推薦,算法通過(guò)對(duì)用戶歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的偏好,基于不同的偏好對(duì)用戶進(jìn)行群組劃分并推薦品味相似的商品。協(xié)同過(guò)濾推薦算法分為兩類,分別使基于用戶的協(xié)同過(guò)濾算法(user-basedcollaborativefiltering),和基于物品的協(xié)同過(guò)濾算法(item-basedcollaborativefiltering)。

2.4.1基于用戶的協(xié)同過(guò)濾算法

基于用戶的協(xié)同過(guò)濾算法使通過(guò)用戶的歷史行為數(shù)據(jù)發(fā)現(xiàn)用戶對(duì)商品或內(nèi)容的喜歡(如商品購(gòu)買、收藏、內(nèi)容評(píng)論或分享),并對(duì)這些喜好進(jìn)行度量和打分。根據(jù)不同用戶對(duì)相同商品或內(nèi)容的態(tài)度和偏好程度計(jì)算用戶之間的關(guān)系。在由相同喜好的用戶間進(jìn)行商品推薦。

2.4.2基于物品的協(xié)同過(guò)濾算法

基于物品的協(xié)同過(guò)濾算法與基于用戶的協(xié)同過(guò)濾算法很像,將商品和用戶互換。通過(guò)計(jì)算不同用戶對(duì)不同物品的評(píng)分獲得物品間的關(guān)系,基于物品間的關(guān)系對(duì)用戶進(jìn)行相似物品的推薦。這里的評(píng)分代表用戶對(duì)商品的態(tài)度和偏好。

當(dāng)已經(jīng)對(duì)用戶行為進(jìn)行分析得到用戶喜好后,可根據(jù)用戶喜好計(jì)算相似用戶和物品。以下介紹幾種相似度計(jì)算的方法:

●歐幾里得距離

歐幾里得距離最初用于歐幾里得空間中的兩個(gè)點(diǎn)的距離,假設(shè)x,y是n維空間的兩個(gè)點(diǎn),它們之間的歐幾里得距離為:

當(dāng)用歐幾里得距離表示相似度時(shí),一般采用以下公式進(jìn)行轉(zhuǎn)換:距離越小,相速度越大;

●皮爾遜相關(guān)系數(shù)

皮爾遜相關(guān)系數(shù)一般用于計(jì)算兩個(gè)定距變量間聯(lián)系的緊密程度,其取值在[-1,+1]之間;

●余弦相似度

3基于大數(shù)據(jù)技術(shù)構(gòu)建人才隊(duì)伍全景視圖的步驟

人才隊(duì)伍全景視圖構(gòu)建的主要思路是:基于浙江省電力有限公司“互聯(lián)網(wǎng)+營(yíng)銷服務(wù)”基地培養(yǎng)“互聯(lián)網(wǎng)+營(yíng)銷服務(wù)”創(chuàng)新人才的需求,收集人才基本信息維度、能力維度、行為維度、性格維度、需求維度方面的數(shù)據(jù),通過(guò)模型算法挖掘人才模型標(biāo)簽,構(gòu)建人才隊(duì)伍全景視圖,為決策者在人才培養(yǎng)、崗位匹配、人才能力評(píng)估等提供有效的數(shù)據(jù)支持。具體構(gòu)建步驟示意圖如下:

3.1數(shù)據(jù)源分析

3.1.1數(shù)據(jù)收集

本文所使用的數(shù)據(jù)來(lái)源主要有兩部分:

1.一部分是浙江電力的數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)。包括人才和工作崗位的基本信息、績(jī)效考評(píng)等。

●人才數(shù)據(jù)包括姓名、性別、年齡、工作經(jīng)歷、教育背景、自我介紹、技能特長(zhǎng)、工作經(jīng)歷、感興趣的崗位類型、待遇要求,以及人才使用推薦系統(tǒng)過(guò)程中反饋的信息等人才的基本信息,其中教育背景、工作經(jīng)驗(yàn)、自我介紹等字段屬于長(zhǎng)文本字段。

●崗位數(shù)據(jù)包括崗位名稱、類型、等級(jí)、薪資、福利待遇、職能、能力要求等,其中能力要求屬于長(zhǎng)文本字段。

●績(jī)效考核數(shù)據(jù)包括考勤記錄、培訓(xùn)記錄、工作完成情況等。

2.另一部分來(lái)自于外部訪談與問(wèn)卷調(diào)查補(bǔ)錄入。包括人才的社交行為、運(yùn)動(dòng)行為等方面的訪談或問(wèn)卷,屬于長(zhǎng)文本字段。

可模擬2000條員工信息,每個(gè)信息包含的字段有:性格自我評(píng)測(cè)(長(zhǎng)文本)、通用技能得分、互聯(lián)網(wǎng)創(chuàng)新能力得分、數(shù)據(jù)分析能力得分、綜合能力得分、營(yíng)銷業(yè)務(wù)能力得分;例如員工A的數(shù)據(jù)情況如下:

3.1.2數(shù)據(jù)處理

由于采集的數(shù)據(jù)有數(shù)值型也有字符型,還存在重復(fù)冗余、缺失值、不一致等問(wèn)題,所以,數(shù)據(jù)預(yù)處理階段還需要對(duì)這些數(shù)據(jù)進(jìn)行仔細(xì)分析,并根據(jù)數(shù)據(jù)中存在的具體問(wèn)題設(shè)計(jì)對(duì)應(yīng)的預(yù)處理規(guī)則,對(duì)數(shù)值型變量進(jìn)行補(bǔ)缺、標(biāo)準(zhǔn)化等處理,對(duì)字符型字段進(jìn)行中文分詞后特征向量化,才能對(duì)數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,從而提高數(shù)據(jù)質(zhì)量。具體處理步驟如下:

(1)數(shù)據(jù)分布探索:對(duì)數(shù)值型變量進(jìn)行匯總統(tǒng)計(jì)、計(jì)算百分位數(shù)、均值、方差等考察其分布情況;對(duì)字符型變量考察其取值情況;

(2)數(shù)據(jù)清洗:結(jié)合業(yè)務(wù)邏輯,主要是刪除采集的員工原始數(shù)據(jù)集中的無(wú)關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),篩選掉與挖掘主題無(wú)關(guān)的數(shù)據(jù),處理缺失值、異常值。具體常用的方法有刪除法、替換法、插補(bǔ)法等;

(3)數(shù)據(jù)變換:將數(shù)據(jù)從一種表示形式變?yōu)榱硪环N表現(xiàn)形式的過(guò)程。對(duì)數(shù)值型變量進(jìn)行轉(zhuǎn)換,常用的變換方法有對(duì)數(shù)轉(zhuǎn)換、平方根轉(zhuǎn)換和倒數(shù)轉(zhuǎn)換等;對(duì)長(zhǎng)文本字段進(jìn)行中文分詞、特征提取及特征向量化;對(duì)字符型變量轉(zhuǎn)換成啞變量、標(biāo)稱標(biāo)量或序數(shù)變量;

通過(guò)以上步驟的數(shù)據(jù)處理工作,使數(shù)據(jù)更加標(biāo)準(zhǔn)化,便于下一步的分成分析模型數(shù)據(jù)應(yīng)用。

例如,對(duì)上述員工A的數(shù)據(jù)進(jìn)行處理??煽闯鰡T工A的數(shù)據(jù)中,沒有空值和異常值,只需對(duì)數(shù)據(jù)進(jìn)行變換即可,變換步驟如下:

●數(shù)值字段“通用技能”、“互聯(lián)網(wǎng)創(chuàng)新”、“數(shù)據(jù)分析”、“綜合能力”和“營(yíng)銷業(yè)務(wù)”需對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理;利用“最大值-最小值”標(biāo)準(zhǔn)化方法,將得分統(tǒng)一為0.57、0.49、0.8、0.66和0.58;

●對(duì)于“性格自我評(píng)測(cè)”等文本對(duì)其進(jìn)行中文分詞,利用python的jieba分詞(jieba.cut(text)),分別得到“本人/有/較/強(qiáng)/的/上進(jìn)心/,/能/較/快/適應(yīng)環(huán)境/,/責(zé)任心/強(qiáng)/,/具有/良好/的/團(tuán)隊(duì)/合作/精神/和/溝通/能力”;

●對(duì)文本分詞的結(jié)果進(jìn)行文本去燥,刪除停用詞(停用詞詞典可用網(wǎng)上的通用停用詞點(diǎn))后特征選擇,利用python的CountVectorizer包,并保留詞頻數(shù)大于等于2的詞語(yǔ)(CountVectorizer(min_df=2))得到結(jié)果“上進(jìn)心/責(zé)任心/合作/溝通”;

●對(duì)清洗后的文本詞語(yǔ)使用TF-IDF值進(jìn)行特征表示,利用python的TfidfTransformer包,將每個(gè)詞語(yǔ)都當(dāng)作是一個(gè)特征,并用TF-IDF值作為每個(gè)員工數(shù)據(jù)對(duì)應(yīng)的特征值;

●再結(jié)合處理后的員工數(shù)值型字段和長(zhǎng)文本字段(每個(gè)員工特征的TF-IDF值)得到一個(gè)員工的特征矩陣;

例如:?jiǎn)T工A的特征矩陣為

3.2標(biāo)簽構(gòu)建

基于上述數(shù)據(jù),構(gòu)建人才標(biāo)簽體系。其標(biāo)簽體系框架圖如下:

3.2.1標(biāo)簽體系構(gòu)建

標(biāo)簽體系構(gòu)建分4個(gè)步驟:

1.標(biāo)簽主題確定

本文從人才的基礎(chǔ)信息、能力、行為、性格、需求5個(gè)維度去構(gòu)建。標(biāo)簽主題細(xì)分三級(jí),第一級(jí)為主標(biāo)題,主標(biāo)題細(xì)分分支標(biāo)簽,分支標(biāo)簽再細(xì)分為子主題。具體分級(jí)如下圖:

2.標(biāo)簽粒度細(xì)分

標(biāo)簽粒度是指子主題的細(xì)分,是具體衡量子主題能力的各項(xiàng)具體指標(biāo)。如數(shù)據(jù)分析能力、事業(yè)信息、團(tuán)隊(duì)表現(xiàn)的標(biāo)簽粒度細(xì)分:

3.標(biāo)簽度量

有了標(biāo)簽粒度,則需要對(duì)標(biāo)簽的進(jìn)行度量。標(biāo)簽度量是指對(duì)標(biāo)簽值定義的規(guī)則。譬如工具應(yīng)用熟練程度的定義或者是敏感度高敏感模型概率值定義。

4.標(biāo)簽體系搭建

本文標(biāo)簽體系搭建如下:

3.2.2標(biāo)簽挖掘

標(biāo)簽的生成可分為:自成標(biāo)簽和模型標(biāo)簽。自成標(biāo)簽是指標(biāo)簽主題自帶屬性,無(wú)需要過(guò)多建模預(yù)測(cè)的,如人才的性別,年齡等。模型標(biāo)簽需要通過(guò)機(jī)器學(xué)習(xí)算法對(duì)標(biāo)簽樣本數(shù)據(jù)的多維度學(xué)習(xí),建立機(jī)器自學(xué)習(xí)的標(biāo)簽?zāi)P?,可通過(guò)對(duì)樣本數(shù)據(jù)的調(diào)整以及模型結(jié)構(gòu)及參數(shù)的調(diào)整來(lái)逐步優(yōu)化模型,如人才的抗壓能力,人才的領(lǐng)導(dǎo)風(fēng)格等。本文主要使用K均值聚類算法來(lái)生成模型標(biāo)簽。

對(duì)數(shù)據(jù)處理完的數(shù)據(jù),進(jìn)行行為建模,以抽象出用戶的標(biāo)簽。主要利用改進(jìn)版K均值聚類算法,針對(duì)能力維度與性格維度等隱性特征進(jìn)行標(biāo)簽挖掘。以下舉例領(lǐng)導(dǎo)風(fēng)格標(biāo)簽?zāi)P屯诰蛄鞒蹋?/p>

具體過(guò)程如下:

(1)將每個(gè)員工的數(shù)據(jù)當(dāng)作是n維坐標(biāo)空間上的點(diǎn);

(2)隨機(jī)的取?個(gè)點(diǎn)(即?個(gè)員工)作為?個(gè)初始質(zhì)心;

(3)計(jì)算其他點(diǎn)(其他員工的數(shù)據(jù))到這個(gè)?個(gè)質(zhì)心的距離;如果某個(gè)點(diǎn)?離第?個(gè)質(zhì)心的距離更近,則該點(diǎn)屬于clustern,并對(duì)其打標(biāo)簽;

(4)計(jì)算同一cluster中,也就是相同標(biāo)簽的點(diǎn)向量的平均值,作為新的質(zhì)心;

(5)迭代至所有質(zhì)心都不變化為止,即算法結(jié)束。

(6)算法結(jié)束后得到?個(gè)類別,對(duì)每個(gè)類別的特征進(jìn)行統(tǒng)計(jì)分析,得到每個(gè)類別的主要特征,并為該類別添加一個(gè)標(biāo)簽。

例如:有以下37個(gè)員工各方面的能力得分?jǐn)?shù)據(jù),滿分均為50分;

將以上員工數(shù)據(jù)進(jìn)行聚類聚成3類,得到的3個(gè)類別的中心為

[28.66666667,25.83333333,31.33333333,23.33333333,6.66666667],

[30.83333333,29.54166667,36.33333333,29.58333333,30.58333333],

[25.77272727,22.43181818,28.95454545,29.22727273,24.09090909]

通過(guò)這3個(gè)類別中心可看出,第一個(gè)類別的員工,營(yíng)銷業(yè)務(wù)的能力特別弱,而其他能力一般;第二個(gè)類別的員工,所有方面的能力都相對(duì)較高;第三個(gè)類別的員工,綜合能力相對(duì)較高,而其他能力都一般。因此,可給第一類的員工打上“營(yíng)銷能力薄弱”的標(biāo)簽,給第二類員工打上“全面型人才”的標(biāo)簽,給第三類員工打上“綜合能力強(qiáng)”的標(biāo)簽。

3.3全景視圖輸出

將人才各維度的信息輸入到標(biāo)簽體系中,便能夠得到人才的全景視圖。人才的全景視圖將從基礎(chǔ)信息維度、性格維度、需求維度、行為維度和能力維度對(duì)人才進(jìn)行刻畫。同時(shí),通過(guò)各個(gè)維度的指標(biāo)評(píng)分或指標(biāo)間的關(guān)聯(lián)分析,結(jié)合具體崗位的工作能力需求,將實(shí)現(xiàn)對(duì)人才進(jìn)行綜合的崗位能力匹配評(píng)估分析,為人才培養(yǎng)和選拔提供數(shù)據(jù)支持。某員工的人才全景視圖示意圖如下:

通過(guò)上述的標(biāo)簽的構(gòu)建,輸出整個(gè)員工隊(duì)伍的全景視圖分析維度如下:

4人才全景視圖的應(yīng)用

根據(jù)浙江省電力有限公司“互聯(lián)網(wǎng)+營(yíng)銷服務(wù)”創(chuàng)新基地旨在個(gè)性化培養(yǎng)創(chuàng)新人才與人才推薦的需求,本文的應(yīng)用場(chǎng)景分別為:人才個(gè)人能力評(píng)估、人才崗位推薦、個(gè)性化創(chuàng)新人才培養(yǎng),但是全景視圖的應(yīng)用遠(yuǎn)不局限于以上三種應(yīng)用場(chǎng)景。

4.1人才個(gè)人能力評(píng)估

根據(jù)人才隊(duì)伍全景視圖刻畫出的人才各類標(biāo)簽,通過(guò)因子分析法(因子分析法是通過(guò)實(shí)證分析,研究待測(cè)變量間的相關(guān)關(guān)系,找出能將多個(gè)變量綜合為少數(shù)幾個(gè)因子,并且能盡可能多地反映原變量與因子的相關(guān)關(guān)系),抽取出員工能力背后的不同方向的能力,例如:技術(shù)能力、業(yè)務(wù)能力、溝通能力等,再根據(jù)崗位職責(zé)所需要人才的重點(diǎn),得到人才能力總分,實(shí)現(xiàn)對(duì)于不同崗位的人才能力評(píng)估。

4.2人才崗位推薦

在人力資源推薦系統(tǒng)中,將人才隊(duì)伍全景視圖刻畫的待推薦人才各項(xiàng)能力標(biāo)簽、性格標(biāo)簽等標(biāo)簽作為用戶數(shù)據(jù),崗位數(shù)據(jù)作為項(xiàng)目數(shù)據(jù);使用協(xié)同過(guò)濾算法為人才推薦合適的崗位。協(xié)同過(guò)濾算法主要使用的是從人才標(biāo)簽提取的用戶-項(xiàng)目評(píng)分矩陣,利用用戶-項(xiàng)目評(píng)分矩陣在評(píng)分矩陣集中尋找最相近的N個(gè)近鄰,利用這N個(gè)近鄰的用戶,再次對(duì)所有項(xiàng)目進(jìn)行評(píng)分,選取評(píng)分最高的N個(gè)項(xiàng)目推薦給用戶。推薦過(guò)程如下圖:

4.3個(gè)性化創(chuàng)新人才培養(yǎng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論