大數(shù)據(jù)背景下的學(xué)生孤獨預(yù)警模型_第1頁
大數(shù)據(jù)背景下的學(xué)生孤獨預(yù)警模型_第2頁
大數(shù)據(jù)背景下的學(xué)生孤獨預(yù)警模型_第3頁
大數(shù)據(jù)背景下的學(xué)生孤獨預(yù)警模型_第4頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 大數(shù)據(jù)背景下的學(xué)生孤獨預(yù)警模型 余琳許婷李超廖莉莉許可解攀科摘 要:大數(shù)據(jù)時代背景下,關(guān)注大學(xué)生心理健康,要借用技術(shù)手段科學(xué)、客觀推進(jìn)大學(xué)生心理健康教育工作。目前研究學(xué)生心理健康大多采用問卷調(diào)查的形式,所得結(jié)果取決于被調(diào)查者的填寫情況,不一定真實反映其內(nèi)心的想法,并且調(diào)查個案有限,不能很好地反映總體情況。本文以華中師范大學(xué)為例,通過一卡通消費明細(xì)、圖書門禁明細(xì)得出學(xué)生間的共現(xiàn)頻率,從而得出學(xué)生的朋友關(guān)系表,得到疑似孤獨者名單,結(jié)合學(xué)生的就業(yè)情況,得出朋友關(guān)系較少的學(xué)生未就業(yè)率高于朋友關(guān)系多的結(jié)論;再運用DecisionTreeClassifier模型,挖掘出各個指標(biāo)對就業(yè)成功的影響力,并基于

2、訓(xùn)練好的模型預(yù)測哪些學(xué)生有就業(yè)失敗的可能,可作為重點關(guān)注對象。分析結(jié)果與日常生活反饋較一致,對于應(yīng)用大數(shù)據(jù)在高校學(xué)生管理工作有一定的借鑒作用。Key:大數(shù)據(jù);朋友關(guān)系;消費關(guān)系;圖書館關(guān)系;決策樹算法;各指標(biāo)影響力:TP183 :A :2096-4706(2019)23-0001-04Early Warning Model of StudentsLoneliness under the Background of Big DataTaking Central China Normal University for ExampleYU Lin,XU Ting,LI Chao,LIAO Lili,

3、XU Ke,XIE Panke(Information Office of Central China Normal University,Wuhan 430079,China)Abstract:Under the background of the era of big data,paying attention to the mental health of college students,it is necessary to use scientific means to scientifically and objectively promote the mental health

4、education of college students. At present,the research of studentsmental health mostly adopts the form of questionnaire survey,which depends on the filling of the respondents,not necessarily reflect their inner thoughts,and the investigation cases are limited,which can not reflect the general situat

5、ion well. This paper takes Huazhong Normal University as an example,through the details of the consumption of smartcard and the access details of the library to get the list of students friendship,and get the list of suspected lonely students. Combined with the employment situation of students,it is

6、 concluded that the unemployed rate with fewer friends is higher than that of friends;using the DecisionTreeClassifier decision tree model to discover the influence of various indicators of employment success,and predicting which students fail in employment based on the trained model can be the focu

7、s of attention. The analysis results are consistent with the daily life feedback,and it has certain reference for the application of big data in the management of college students.Keywords:big data;friend relationship;consumption relationship;library relationship;decision tree algorithm;influence of

8、 various indicators0 引 言在大數(shù)據(jù)時代背景下,應(yīng)用數(shù)據(jù)說話,應(yīng)有效利用數(shù)據(jù)挖掘和學(xué)習(xí)分析產(chǎn)生迄今看不見、不被注意的數(shù)據(jù)與結(jié)論,為高校管理工作提供新思路。盡可能地收集全面的數(shù)據(jù),再進(jìn)行分析、挖掘,客觀找出疑似孤獨者名單,幫助就業(yè)處、院系輔導(dǎo)員查找可能存在問題的學(xué)生、提前做好心理健康指導(dǎo)、就業(yè)幫扶,物質(zhì)幫扶等工作,幫助這些學(xué)生學(xué)會與人溝通交流,紓解心理抑郁,引導(dǎo)學(xué)生高質(zhì)量就業(yè)、高幸福感生活,提高學(xué)生心理健康危機預(yù)警實效性。1 現(xiàn)狀分析2011年2月23日,教育部印發(fā)了普通高等學(xué)校學(xué)生心理健康教育工作基本建設(shè)標(biāo)準(zhǔn)(試行)的通知,推進(jìn)大學(xué)生心理健康教育工作科學(xué)化建設(shè),強調(diào)要加強大

9、學(xué)生心理危機預(yù)防與干預(yù)體系建設(shè)1。目前我國各高校相繼開展了心理健康普查工作,有關(guān)調(diào)查結(jié)果表明:大學(xué)生的心理健康狀況較差,經(jīng)常存在心理問題的大學(xué)生約占總數(shù)的1/5,而有時有心理問題者則高達(dá)2/3左右。常有孤獨感的大學(xué)生約占28.6%,少有孤獨感的約占31.7%,從未感到孤獨的學(xué)生幾乎沒有2-4。孤獨、消極的情緒如抑郁、自卑,會危害學(xué)生身心健康,影響學(xué)習(xí)、生活和就業(yè)發(fā)展。目前研究學(xué)生心理健康的論文大多采用調(diào)查問卷的形式,得到的結(jié)果取決于被調(diào)查者的填寫情況,不一定真實反映了其內(nèi)心的想法;并且問卷調(diào)查的個案較少,較難保證每個學(xué)生都填寫問卷,不能很好反映總體。2 研究內(nèi)容各高校主要是通過新生入學(xué)時的心理

10、疾病篩查、日常學(xué)生間的反饋和心理輔導(dǎo)站老師的心理訪談發(fā)現(xiàn)與解決學(xué)生心理健康問題,出于保護隱私的考慮,大多高校的學(xué)生心理診斷結(jié)果及問題名單并未公布,缺乏基礎(chǔ)數(shù)據(jù)源,心理健康的特征難以量化。本文以華中師范大學(xué)為例,采集了20112015級共22448名本科生的學(xué)生基本信息(性別、民族、生源地、政治面貌、婚姻狀況、是否獨生子女等)、學(xué)籍信息(所在年級、院系、入學(xué)年月)、家庭經(jīng)濟情況(是否低保、家庭類別、家庭人口、家庭收入來源等)、畢業(yè)生求職信息(是否就業(yè)、就業(yè)年度)、學(xué)習(xí)成績信息(課程成績、學(xué)分)、獎學(xué)金信息(獎學(xué)金次數(shù)及金額)、榮譽獎勵信息(次數(shù))、圖書借閱信息(借閱數(shù)量)、一卡通消費信息、圖書館

11、門禁信息十大數(shù)據(jù),其中20112014級的本科生17828人,1127人未就業(yè)。本文尋找孤獨的人,孤獨特征難以定義,直接尋找難度較大,研究思路采用排除法,先找出不孤獨的人,再用全體減去不孤獨的人,即是孤獨的人,再去驗證。不孤獨即朋友關(guān)系多,有朋友一起吃飯、一起去圖書館,用數(shù)據(jù)特征表示即是同一食堂刷卡時間接近且次數(shù)較多、進(jìn)入圖書館刷卡時間接近且次數(shù)較多。如果刷卡時間接近的定義過大則會導(dǎo)致朋友關(guān)系網(wǎng)過大、計算量太大;如果刷卡時間接近的定義過小則會導(dǎo)致朋友關(guān)系網(wǎng)較小,過濾了原本是朋友的人;考慮日常的實際食堂消費情況,一起去同一食堂可能不同窗口刷卡,刷卡時間相差不會太大,故本文將刷卡時間接近定義為5分

12、鐘內(nèi)。2.1 數(shù)據(jù)處理一卡通消費信息每月約200萬條明細(xì)數(shù)據(jù),計算同一食堂任意兩個刷卡時間在5分鐘內(nèi)的學(xué)生人數(shù)的記錄數(shù)較多,因數(shù)據(jù)量較大,選取每個年級在大三4、5、6三個月的消費記錄作為樣本數(shù)據(jù),尋找消費朋友關(guān)系網(wǎng)。2011級學(xué)生對應(yīng)的是2014年4、5、6三個月消費關(guān)系明細(xì),2012級學(xué)生對應(yīng)的是2015年4、5、6三個月消費關(guān)系明細(xì),2013級學(xué)生對應(yīng)的是2016年4、5、6三個月消費關(guān)系明細(xì),2014級學(xué)生對應(yīng)的是2017年4、5、6三個月消費關(guān)系明細(xì),2015級學(xué)生對應(yīng)的是2018年4、5、6三個月消費關(guān)系明細(xì)。消費關(guān)系明細(xì)表結(jié)構(gòu)如圖1所示,xny代表每月,xh1代表2011級的某個學(xué)

13、生,time1代表xh1學(xué)生的消費刷卡時間,xh2代表與xh1消費時間5分鐘內(nèi)的所有學(xué)生,time2代表另一學(xué)生的消費刷卡時間且與time1相隔5分鐘之內(nèi),st代表食堂編號?;诖讼M關(guān)系明細(xì)表統(tǒng)計每個食堂的相遇關(guān)系,即統(tǒng)計兩兩相遇的次數(shù)及在該食堂消費的總次數(shù)。再將各食堂的相遇關(guān)系明細(xì)取相遇次數(shù)大于10的,unionall得到總消費次數(shù)表,再按xh1、xh2分組求和,形成食堂消費的朋友圈關(guān)系,如圖2所示。基于此方法同樣可以得到圖書館的朋友圈關(guān)系。2.2 數(shù)據(jù)分析根據(jù)得到的食堂消費的朋友關(guān)系表和圖書館的朋友關(guān)系表,隨意挑選幾組學(xué)生數(shù)據(jù),通過其基本信息聯(lián)系其輔導(dǎo)員及同年級學(xué)生,分析并驗證是否是真的

14、朋友關(guān)系。學(xué)生2013*62與學(xué)生2013*56,圖書館相遇273次,同一食堂相遇次數(shù)149次。通過學(xué)生基本表找出兩個人的特征如圖3所示,這兩個女同學(xué)都來自經(jīng)濟與工商管理學(xué)院,平均學(xué)分績都很高,都得了兩次獎學(xué)金,一個7000元,一個4000元。一個是群眾,一個是共產(chǎn)黨員,都是漢族,都來自于城鎮(zhèn)。一個是福建人,一個是湖北人。都順利就業(yè)。學(xué)生2012*51與學(xué)生2012*94,同一食堂相遇次數(shù)213次,圖書館相遇22次。通過學(xué)生基本表找出兩個人的特征,發(fā)現(xiàn)這兩個學(xué)生都來自社會學(xué)院,都得了兩次獎學(xué)金,都是2000元。一個是群眾,一個是共產(chǎn)黨員,都是漢族,來自于非貧困縣和城鎮(zhèn)(都不是來自農(nóng)村或大城市的

15、)。一個是河北人,一個是山東人。都順利就業(yè)。學(xué)號2014*58與2014*81,同一食堂相遇次數(shù)134次,圖書館相遇20次。發(fā)現(xiàn)這兩個學(xué)生都來自計算機學(xué)院,都是漢族,一男一女,平均學(xué)分績都不高,一個78.15,一個75.72,兩個人都沒有順利就業(yè)。經(jīng)輔導(dǎo)員驗證,確實為男女朋友。經(jīng)驗證,以上隨機挑選的三組朋友關(guān)系,均確實屬于真正的朋友關(guān)系。再回到本項目中,采用排除法,尋找孤獨的人。以20112014級全體本科生作為樣本數(shù)據(jù),共17828人,有食堂消費朋友關(guān)系表的有20585人,有圖書館的朋友圈關(guān)系表的有43840人(此處兩個數(shù)字均大于樣本數(shù)據(jù)17828,是因為按照前文提到的數(shù)據(jù)處理原則,2011

16、2014級的全體本科生作為xh1,xh2可為符合刷卡時間范圍內(nèi)的全校師生,并不局限于同年級的學(xué)生),食堂消費朋友關(guān)系與圖書館的朋友圈關(guān)系取交集得到朋友較多的有15312人,既不在食堂消費朋友關(guān)系表中,也不在圖書館的朋友圈關(guān)系表中的有1932人。具體如圖4所示。關(guān)聯(lián)學(xué)生的就業(yè)信息數(shù)據(jù),將疑似孤獨的學(xué)生1932人按年級性別查看學(xué)生分布概況,如表1所示,115人未就業(yè),未就業(yè)率5.95%。其中2011級疑似孤獨的學(xué)生就有1194人,占一半以上,但華中師范大學(xué)圖書館是2015年4月才安裝門禁的,也就是說門禁數(shù)據(jù)是2015年4月以后才有的,而按照前面的規(guī)則,2011級大三時應(yīng)對應(yīng)2014年的門禁數(shù)據(jù),故

17、2011級學(xué)生的圖書館朋友圈關(guān)系可能不準(zhǔn)確。將2011級的孤獨人數(shù)1194人減掉還剩738人,其中76人未順利就業(yè),未就業(yè)率10.30%。而朋友關(guān)系較多的15312人中只有608人未順利就業(yè),未就業(yè)率3.97%??傻玫浇Y(jié)論:朋友關(guān)系較少的學(xué)生未就業(yè)率高于朋友關(guān)系多的學(xué)生。2.3 數(shù)據(jù)驗證通過食堂消費朋友關(guān)系與圖書館的朋友關(guān)系可以得出朋友關(guān)系少的學(xué)生名單,關(guān)聯(lián)學(xué)生就業(yè)數(shù)據(jù)可以得出朋友關(guān)系少的就業(yè)失敗可能性高于朋友關(guān)系多的結(jié)論,但如果能通過算法正面驗證就業(yè)失敗有哪些影響因素,則可能更有利于證明結(jié)論的可信性。通過前面的收集的樣本數(shù)據(jù),20112014級四年的本科學(xué)生名單17828人,1127人未就業(yè)

18、。將就業(yè)是否成功作為目標(biāo)變量,將25個指標(biāo)(性別、民族、生源地、國籍地區(qū)、政治面貌、婚姻狀況、所在年級、院系、入學(xué)年月、是否低保、家庭類別、家庭人口、家庭人均收入、人均月收入、家庭主要收入來源、畢業(yè)年度、總成績、總學(xué)分、獎學(xué)金次數(shù)及金額、榮譽獎勵次數(shù)、圖書借閱數(shù)量、一卡通消費次數(shù)及金額信息、圖書館門禁次數(shù))作為自變量,使用決策樹模型,找出哪些指標(biāo)是影響就業(yè)成功的因素。決策樹是機器學(xué)習(xí)中常見的一種用于分類和回歸的非參數(shù)監(jiān)督學(xué)習(xí)方法,目標(biāo)是創(chuàng)建一個模型,通過從數(shù)據(jù)特性中推導(dǎo)出簡單的決策規(guī)則來預(yù)測目標(biāo)變量的值。決策樹便于說明和理解,樹可以可視化表達(dá);需要的數(shù)據(jù)準(zhǔn)備不太難。故本項目使用python的機

19、器學(xué)習(xí)算法庫scikit-learn中的DecisionTreeClassifier算法。調(diào)用算法之前,我們把數(shù)據(jù)隨機分為訓(xùn)練集和測試集,采用train_test_split隨機劃分函數(shù),訓(xùn)練集的數(shù)據(jù)主要用于構(gòu)造決策樹,測試集主要用于計算錯誤率,看分析訓(xùn)練后的決策樹模型能不能使用。決策樹數(shù)據(jù)模型中樹的最大深度是一個關(guān)鍵參數(shù),深度設(shè)置較小,會導(dǎo)致欠擬合,訓(xùn)練集的錯誤率較高;深度設(shè)置較大,會導(dǎo)致過擬合,訓(xùn)練集的正確率很高,但測試集的錯誤率較高。想要較好地調(diào)研決策樹分類算法,首先需要找到一個合適的max_depth值。將最大深度設(shè)為140,計算每個值的預(yù)測情況并畫圖,所得結(jié)果如圖5所示。根據(jù)圖5,選

20、取max_depth=21,再進(jìn)行模型訓(xùn)練,計算每個指標(biāo)對目標(biāo)變量的影響力。得到訓(xùn)練集準(zhǔn)確率0.9859,測試集準(zhǔn)確率0.8937,以及每一個指標(biāo)對目標(biāo)變量的影響力。如圖6所示,發(fā)現(xiàn)deal_cs、deal_money、tsg_cs、tsg_ jybs(消費次數(shù)、消費金額、進(jìn)入圖書館次數(shù)、圖書借閱本數(shù))四個指標(biāo)對就業(yè)是否成功的影響力相對較大,其次是zcj、zxf(總成績、總學(xué)分)。再次驗證了之前的結(jié)論,就業(yè)失敗可能性與消費關(guān)系及圖書館關(guān)系有相關(guān)性。3 應(yīng)用與驗證研究預(yù)測2015級本科生情況(總4620人),首先找出不在消費朋友關(guān)系表和圖書館朋友關(guān)系表中的名單,有500人,可得到疑似孤獨者名單。再用這500人名單用之前訓(xùn)練的決策樹模型去預(yù)測就業(yè)失敗的人數(shù),發(fā)現(xiàn)基于此模型,有153人會就業(yè)失敗,可被認(rèn)為是重點關(guān)注孤獨對象。為了實際驗證模型的準(zhǔn)確性,將153人按院系進(jìn)行分布,其中計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論