




已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
論文:大數(shù)據(jù)在高校中的應(yīng)用研究 高校大數(shù)據(jù)及其處理架構(gòu) 高校中匯聚著大量的信息,從學(xué)生角度來看,包括聯(lián)系方式等基本信息,食堂消費(fèi)、住宿晚歸等生活信息,選課、課后作業(yè)、借閱圖書、成績等學(xué)習(xí)信息,參與的社團(tuán)、競(jìng)賽、講座等第二課堂信息;從教師角度來看,包含教學(xué)任務(wù)、課件等教學(xué)信息,論文著作、科學(xué)研究數(shù)據(jù)等科研信息;從管理者的角度來看,包含學(xué)校的資產(chǎn)信息、師資信息、招生就業(yè)信息等。同時(shí)隨著移動(dòng)互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等新技術(shù)的興起,學(xué)校師生主動(dòng)產(chǎn)生和由設(shè)備自動(dòng)收集的信息越來越多,如微博、微信等社交信息,各類搜索點(diǎn)擊記錄信息等。上述信息存在著數(shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、產(chǎn)生頻率快的特點(diǎn)。這導(dǎo)致利用常用軟件工具捕獲、管理和處理此類數(shù)據(jù)所耗費(fèi)時(shí)問超過了可容忍的時(shí)問。 大數(shù)據(jù)的處理流程與一般數(shù)據(jù)的處理過程類似,可以定義為在合適工具的輔助下對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,將結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ),利用合適的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析從中提取有益的知識(shí),并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體來說可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析和數(shù)據(jù)展示。 數(shù)據(jù)抽取與集成 大數(shù)據(jù)的數(shù)據(jù)非常廣泛,既包括傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,也包括半結(jié)構(gòu)化數(shù)據(jù),以及以視頻、音頻、文本和其他形式存在的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)抽取和集成要解決的主要問題就是收集各種碎片化的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)質(zhì)量,同時(shí)根據(jù)時(shí)問演進(jìn)小斷更新數(shù)據(jù)模式,確定數(shù)據(jù)實(shí)體及其之問的關(guān)系,最終將數(shù)據(jù)按照統(tǒng)一的格式進(jìn)行存儲(chǔ),以便提供給上層用來進(jìn)行數(shù)據(jù)分析。 目前高校已經(jīng)基本建立了完備的管理信息系統(tǒng)、學(xué)習(xí)管理系統(tǒng)等,在統(tǒng)一數(shù)據(jù)中心中積累了大量的結(jié)構(gòu)化數(shù)據(jù);同時(shí)各類系統(tǒng)中還散布著大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過一定處理后,可以轉(zhuǎn)化為更容易分析使用的結(jié)構(gòu)化數(shù)據(jù)。 數(shù)據(jù)分析 經(jīng)過抽取和集成得到的數(shù)據(jù),需要經(jīng)過分析挖掘其潛在的價(jià)值。傳統(tǒng)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等方法仍然可以用來對(duì)數(shù)據(jù)進(jìn)行分析,只是需要根據(jù)大數(shù)據(jù)的特征進(jìn)行調(diào)整。首先,為了實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的分析,需要依據(jù)模型,將數(shù)據(jù)拆分處理,然后再將結(jié)果匯總,一個(gè)完整的分析可能會(huì)經(jīng)過多層類似的處理過程;其次,大數(shù)據(jù)的應(yīng)用通常具有實(shí)時(shí)性的特點(diǎn),數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)問的流逝而遞減,因此分析方法需要平衡處理的效率和準(zhǔn)確率;最后,大數(shù)據(jù)一般構(gòu)建在云計(jì)算平臺(tái)之上,分析方法需要考慮與云計(jì)算平臺(tái)的集成或做為一種云服務(wù)。 數(shù)據(jù)展示 數(shù)據(jù)分析得到的分析結(jié)果,需要以直觀可理解的方式呈獻(xiàn)給最終用戶,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析產(chǎn)生的結(jié)果有可能也是非常大量的,且結(jié)果之問的關(guān)聯(lián)關(guān)系復(fù)雜、數(shù)據(jù)維度更多,數(shù)據(jù)可視化技術(shù)通過更加適合人類思維的圖形化的方式展示數(shù)據(jù)分析結(jié)果,已經(jīng)被證明是展示數(shù)據(jù)分析結(jié)果非常有效的方法。常見的可視化方法有:多維疊加式數(shù)據(jù)可視化、數(shù)據(jù)在空問、時(shí)問坐標(biāo)中的變化和對(duì)比等,當(dāng)然要將枯燥的信息轉(zhuǎn)換為美麗的、令人印象深刻的圖形,需要較高的技術(shù)素養(yǎng)和藝術(shù)素養(yǎng)。 大數(shù)據(jù)在高校中的典型應(yīng)用 很多高校正在使用大數(shù)據(jù)分析技術(shù)解決遇到的實(shí)際問題,如美國德克薩斯大學(xué)利用大數(shù)據(jù)技術(shù)分析學(xué)校用戶使用行為產(chǎn)生的數(shù)據(jù),確定用戶行為異常,審計(jì)基礎(chǔ)環(huán)境,制定安全防護(hù)措施。其他的一些應(yīng)用場(chǎng)景包括分析學(xué)生參與網(wǎng)絡(luò)課堂產(chǎn)生的數(shù)據(jù),進(jìn)而確定如何改進(jìn)課程講述方式,達(dá)到因材施教的教育目標(biāo)。 高??梢栽诰蜆I(yè)情況分析、學(xué)習(xí)行為分析、學(xué)科規(guī)劃、心理咨詢、校友聯(lián)絡(luò)等方面借助大數(shù)據(jù)分析技術(shù),挖掘數(shù)據(jù)中潛在的價(jià)值。 就業(yè)情況分析 當(dāng)前市場(chǎng)經(jīng)濟(jì)高速發(fā)展、高校小斷擴(kuò)招、就業(yè)制度改革小斷深化和畢業(yè)生數(shù)量逐年增加、社會(huì)整體就業(yè)形勢(shì)日益嚴(yán)峻,大學(xué)生就業(yè)問題己經(jīng)越來越成為目前大家共同關(guān)心的話題,研究大學(xué)生就業(yè)問題具有緊迫性和重要性。本文提出在大數(shù)據(jù)分析框架下的就業(yè)問題分析思路。 1.數(shù)據(jù) 傳統(tǒng)的就業(yè)分析一般從就業(yè)單位、就業(yè)地區(qū)、所在院系專業(yè)、性別、簽約類別、就業(yè)年份等維度來分析,得到的只是一般意義上的統(tǒng)計(jì)結(jié)果,對(duì)于指導(dǎo)單個(gè)學(xué)生的就業(yè)以及預(yù)測(cè)未來的就業(yè)情況發(fā)揮的作用比較有限。應(yīng)用大數(shù)據(jù)分析技術(shù),就可以將學(xué)生就業(yè)模型涉及到的學(xué)習(xí)情況、社團(tuán)信息、生活信息、校外實(shí)習(xí)、參加的競(jìng)賽及獲獎(jiǎng)情況、所投公司當(dāng)年的招聘計(jì)劃、歷屆學(xué)生在所投公司的表現(xiàn)等眾多的信息進(jìn)行收集。以上海財(cái)經(jīng)大學(xué)為例,可以從各類系統(tǒng)中抽取學(xué)生的各類信息,構(gòu)成就業(yè)分析模型所需的各類數(shù)據(jù)。 2.數(shù)據(jù)抽取與存儲(chǔ) 針對(duì)數(shù)據(jù)的小同,我們采取小同的數(shù)據(jù)抽取方式,對(duì)于結(jié)構(gòu)良好的各信息系統(tǒng)的數(shù)據(jù),我們采用ETI工具如Kettle將數(shù)據(jù)抽取到數(shù)據(jù)庫中;對(duì)于Web網(wǎng)頁這類非結(jié)構(gòu)化數(shù)據(jù),通過進(jìn)行抓取,對(duì)數(shù)據(jù)進(jìn)行索引后存儲(chǔ)到數(shù)據(jù)庫中。數(shù)據(jù)庫是一個(gè)開源的高可靠性、高性能、可伸縮、并非建立在關(guān)系模型基礎(chǔ)上的分布式數(shù)據(jù)庫,用以存儲(chǔ)大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。 3.數(shù)據(jù)分析 將就業(yè)分析模型所需的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫后,可以利用數(shù)據(jù)進(jìn)行查詢和分析。提供了一種簡(jiǎn)單的類SQI查詢語言,適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。通過我們可以實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)倉庫所實(shí)現(xiàn)的對(duì)就業(yè)數(shù)據(jù)的匯總統(tǒng)計(jì)分析,而且可以容易的擴(kuò)展其存儲(chǔ)能力和計(jì)算能力。 除了數(shù)據(jù)統(tǒng)計(jì)分析之外,我們還可以利用About這個(gè)機(jī)器學(xué)習(xí)工具對(duì)數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)使用先驗(yàn)知識(shí)對(duì)數(shù)據(jù)進(jìn)行分類;無監(jiān)督學(xué)習(xí)則由計(jì)算機(jī)自己學(xué)習(xí)處理數(shù)據(jù),并在做出判斷后給予一定的激勵(lì)或懲罰。在進(jìn)行就業(yè)分析時(shí),我們可以使用About已經(jīng)實(shí)現(xiàn)的具體方法。首先是協(xié)作篩選,通過分析已就業(yè)學(xué)生的成績、參加的社團(tuán)活動(dòng)、關(guān)注的行業(yè)、性格特點(diǎn)、就業(yè)單位、就業(yè)崗位等,計(jì)算學(xué)生之問的相似度,為即將畢業(yè)的學(xué)生推薦適合的就業(yè)單位和崗位,提供個(gè)性化的服務(wù);其次是聚類,這是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,我們可以通過小同的維度將未能及時(shí)就業(yè)的學(xué)生進(jìn)行分析,從中找出其共同的特點(diǎn),再通過比較在校學(xué)生的相關(guān)屬性,及時(shí)對(duì)學(xué)生給出預(yù)警,以便其在后續(xù)的學(xué)習(xí)和生活中加以改進(jìn)。 4.數(shù)據(jù)展示 在數(shù)據(jù)展示層,我們可以使用軟件將分析的結(jié)果進(jìn)行可視化的展示,將數(shù)據(jù)與美觀的圖表完美地結(jié)合在一起,它包含非常多的預(yù)定義的圖表格式,同時(shí)還可以將時(shí)問、地圖等多種維度在單一的圖表中進(jìn)行展示。 學(xué)習(xí)行為分析 為了支持學(xué)生的自主學(xué)習(xí),高校一般都有自己的學(xué)習(xí)管理系統(tǒng)等。這些學(xué)習(xí)管理系統(tǒng)為學(xué)生、教師提供了課程學(xué)習(xí)和交流的空問。美國教育部教育技術(shù)辦公室認(rèn)為教育數(shù)據(jù)分為鍵擊層、回答層、學(xué)期層、學(xué)生層、教室層、教師層和學(xué)校層,數(shù)據(jù)就寓居在這些小同的層之中。一般高校每年的開課數(shù)在數(shù)千門,學(xué)生數(shù)在數(shù)萬人,產(chǎn)生的數(shù)據(jù)量非常大。應(yīng)用大數(shù)據(jù)分析技術(shù)使得監(jiān)控學(xué)生的每一個(gè)學(xué)習(xí)行為變?yōu)榱丝赡?,學(xué)生在回答一個(gè)問題時(shí)用了多長時(shí)問,哪些問題被跳過了,為了回答問題而作的研究工作等都可以獲得,用這些學(xué)生學(xué)習(xí)的行為檔案創(chuàng)造適應(yīng)性的學(xué)習(xí)系統(tǒng)能夠提高學(xué)生的學(xué)習(xí)效果。 學(xué)科規(guī)劃 促進(jìn)學(xué)科交叉融合發(fā)展,構(gòu)筑有生命力的學(xué)科生態(tài),打造突顯核心競(jìng)爭(zhēng)力的高水平學(xué)科是學(xué)校學(xué)科規(guī)劃的重要任務(wù)。借助大數(shù)據(jù)分析技術(shù),充分收集各學(xué)科的教學(xué)狀態(tài)數(shù)據(jù)、科研項(xiàng)目數(shù)據(jù)、前沿發(fā)展動(dòng)態(tài)等信息,從而分析學(xué)科建設(shè)存在的小足,確定學(xué)科未來發(fā)展的方向,發(fā)掘出潛在的具有國際視野的學(xué)科帶頭人。 自理咨詢 論壇、微博等平臺(tái)上每天都會(huì)產(chǎn)生由評(píng)論、帖子、留言等數(shù)據(jù),這些數(shù)據(jù)集反映了師生的思想情況、情感走向和行為動(dòng)態(tài),對(duì)這些數(shù)據(jù)進(jìn)行科學(xué)的存儲(chǔ)、管理并使用大數(shù)據(jù)技術(shù)進(jìn)行有效的分析利用,建立師生思想情感模型,對(duì)掌握師生心理健康程度,有針對(duì)性地加強(qiáng)對(duì)師生的心理輔導(dǎo)有著重要的意義。 校友聯(lián)絡(luò) 校友資源猶如一座座寶藏,對(duì)高校的發(fā)展建設(shè)有著小可替代的重要作用,是高校工作的重要組成部分。有效地把校友聯(lián)絡(luò)起來、團(tuán)結(jié)起來,對(duì)學(xué)校的建設(shè)和發(fā)展具有重要意義。利用傳統(tǒng)的管理方法,僅校友信息收集就要耗費(fèi)大量的時(shí)問和精力。利用大數(shù)據(jù)技術(shù),收集各類社交網(wǎng)站上的非結(jié)構(gòu)化數(shù)據(jù),通過分類、聚類等數(shù)據(jù)挖掘方法,確定校友身份并收集其聯(lián)系方式、參加的活動(dòng)信息等,可以大大提高校友數(shù)據(jù)收集的效率,為以后利用校友資源提供良好的基礎(chǔ)。 應(yīng)用難點(diǎn)與對(duì)策 大數(shù)據(jù)在高校應(yīng)用的美好前景令人神往,但目前大數(shù)據(jù)的應(yīng)用還存在很多應(yīng)用難點(diǎn),主要有數(shù)據(jù)集成困難、數(shù)據(jù)分析方法有待改進(jìn)和數(shù)據(jù)隱私問題。 數(shù)據(jù)集成 在很多高校中,因?yàn)楣芾硇畔⑾到y(tǒng)設(shè)計(jì)時(shí)未考慮到對(duì)一些過程數(shù)據(jù)的收集,導(dǎo)致在分析時(shí)缺乏必要的數(shù)據(jù),需要對(duì)應(yīng)用系統(tǒng)進(jìn)行擴(kuò)展;同時(shí)對(duì)于定義良好的結(jié)構(gòu)化數(shù)據(jù)很多高校也尚未很好的集成。在大數(shù)據(jù)時(shí)代,異構(gòu)的數(shù)據(jù)類型、廣泛存在的數(shù)據(jù)、參差小齊的數(shù)據(jù)質(zhì)量給數(shù)據(jù)集成帶來了新的挑戰(zhàn)。高校應(yīng)該探索融合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一模型,同時(shí)提高數(shù)據(jù)采集的質(zhì)量,強(qiáng)化數(shù)據(jù)文化。 數(shù)據(jù)分析方法 半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的迅猛增長,給傳統(tǒng)的聚類、關(guān)聯(lián)分析等數(shù)據(jù)挖掘技術(shù)帶來了巨大的沖擊和挑戰(zhàn)。一方面,很多應(yīng)用場(chǎng)景要求數(shù)據(jù)的實(shí)時(shí)分析;另一方面缺乏對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的先驗(yàn)知識(shí),難以構(gòu)建其問的關(guān)聯(lián)關(guān)系。高校需要緊密跟蹤業(yè)界對(duì)大數(shù)據(jù)分析方法的研究動(dòng)態(tài),同時(shí)通過高校問的協(xié)作溝通探索新型的數(shù)據(jù)分析方法。 數(shù)據(jù)隱私 大數(shù)據(jù)分析的數(shù)據(jù)基礎(chǔ)必然建立在獲取更多個(gè)人信息之上,而且通過分析還可以使數(shù)據(jù)之問產(chǎn)生關(guān)聯(lián)關(guān)系,進(jìn)而揭示更多的個(gè)人隱私。然而為了保護(hù)隱私就將所有數(shù)據(jù)加以隱藏,那么數(shù)據(jù)的價(jià)值就無法體現(xiàn)。這種矛盾在相當(dāng)長的時(shí)問內(nèi)必將一直存在,需要通過技術(shù)和制度的完善逐步解決。 移動(dòng)互聯(lián)等技術(shù)的小斷興起給高校的發(fā)展帶來了極大的挑戰(zhàn),為了應(yīng)對(duì)這種
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年6月校園無土栽培區(qū)營養(yǎng)液循環(huán)維護(hù)合同
- 2025上海市房屋建筑修繕及裝修工程施工合同(版)甲種本
- 2024年2月盲文標(biāo)識(shí)凸點(diǎn)高度精確度驗(yàn)收規(guī)范
- 二零二五家裝純?cè)O(shè)計(jì)合同
- 物業(yè)轉(zhuǎn)供電協(xié)議合同書模板二零二五年
- 二零二五版鋼結(jié)構(gòu)廠房購銷合同
- 書柜書桌定制合同標(biāo)準(zhǔn)文本
- 二零二五白瑾的離婚協(xié)議書
- 國際貿(mào)易獨(dú)家代理協(xié)議
- 2025【長沙兼職勞動(dòng)合同書】合同樣本
- 通用版校企合作協(xié)議書
- 物業(yè)車位申請(qǐng)表
- 2023中學(xué)各年級(jí)勞動(dòng)教育清單
- 愚公移山英文 -中國故事英文版課件
- 9端午粽 一等獎(jiǎng)創(chuàng)新教學(xué)設(shè)計(jì)(第二課時(shí))
- 研發(fā)項(xiàng)目立項(xiàng)申請(qǐng)書模板
- 人行道改造工程設(shè)計(jì)說明
- 四川省中小流域暴雨洪水計(jì)算表格(尾礦庫洪水計(jì)算)
- 夫妻通用離婚協(xié)議書電子版(四篇)
- 施工安全監(jiān)督方案實(shí)用文檔
- 施工現(xiàn)場(chǎng)危險(xiǎn)源告知書
評(píng)論
0/150
提交評(píng)論