



版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 基于大數(shù)據(jù)的高校智慧校園學(xué)生綜合測(cè)評(píng)系統(tǒng)設(shè)計(jì)與研究 茆靈鋮 謝桂芳 邵周偉 時(shí)海茹 蔣秀蓮摘 要:當(dāng)前,信息化正面臨著一個(gè)全新的階段,即以數(shù)據(jù)的深度挖掘和整合應(yīng)用為核心的智慧化階段,智慧校園已成為時(shí)下高校信息化建設(shè)的重要內(nèi)容。分析高校信息化建設(shè)現(xiàn)狀和Hadoop、Spark等大數(shù)據(jù)技術(shù)框架,并重點(diǎn)從數(shù)據(jù)存儲(chǔ)層、核心業(yè)務(wù)層和信息展示層對(duì)智慧校園學(xué)生綜合測(cè)評(píng)系統(tǒng)進(jìn)行分析與設(shè)計(jì),為大數(shù)據(jù)技術(shù)與智慧校園的深度融合提供方案。Key:智慧校園;數(shù)據(jù)挖掘;Hadoop和Spark:TP274 :AAbstract: At present, informatization is entering a new
2、 stage, that is, the intelligent stage with data deep mining and integrated application as the core. Smart campus has become an important part of university information construction. This paper analyzes the current situation of university informatization construction and big data technology framewor
3、k such as Hadoop and Spark, analyzes and designs the student comprehensive evaluation system of smart campus from data storage layer, core business layer and information display layer, so as to provide a scheme for the deep integration of big data technology and smart campus.Keywords: smart campus;
4、data mining; Hadoop and Spark1 引言(Introduction)“智慧校園”源于IBM公司在2008年提出的“智慧”地球理念,其核心是感知、聯(lián)通、智能。它是數(shù)字校園發(fā)展的高端形態(tài),以物聯(lián)網(wǎng)為基礎(chǔ),通過寬帶移動(dòng)、云計(jì)算、大數(shù)據(jù)等技術(shù)整合數(shù)字校園階段規(guī)模巨大的多源異構(gòu)數(shù)據(jù)1,以綜合信息服務(wù)平臺(tái)為載體,提供校園學(xué)習(xí)、工作、生活一體化的智能環(huán)境2。目前,各高校大都具有完備的信息系統(tǒng)和大量的學(xué)生個(gè)人數(shù)據(jù),然而在信息化水平和應(yīng)用上仍處于數(shù)字校園的階段,沒有充分探測(cè)全校師生認(rèn)知行為和校園環(huán)境動(dòng)態(tài)變化的信息支撐平臺(tái)。數(shù)據(jù)挖掘技術(shù)在企業(yè)運(yùn)營(yíng)中得到廣泛應(yīng)用,但高校數(shù)據(jù)挖掘意識(shí)不強(qiáng)。隨
5、著智慧校園的推進(jìn),研究者逐漸重視對(duì)有關(guān)學(xué)生教育大數(shù)據(jù)的分析與挖掘,因此針對(duì)學(xué)生信息測(cè)評(píng)方面的研究不是很多,且高校學(xué)生系統(tǒng)大都由不同部門運(yùn)營(yíng)和維護(hù),學(xué)生測(cè)評(píng)方式單一,缺少統(tǒng)一支持海量數(shù)據(jù)處理的平臺(tái)支撐智慧校園的建設(shè)。因此利用大數(shù)據(jù)技術(shù)建立分析挖掘?qū)W生信息的數(shù)據(jù)處理與應(yīng)用平臺(tái),具有重要實(shí)際意義。2 基于大數(shù)據(jù)技術(shù)的學(xué)生綜合測(cè)評(píng)系統(tǒng)架構(gòu)(Architecture of student comprehensive evaluation system based on big data technology)大數(shù)據(jù)技術(shù)是指用一系列工具來(lái)對(duì)大量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集、存儲(chǔ),從而得到分析和
6、預(yù)測(cè)結(jié)果的技術(shù)3。大數(shù)據(jù)萌芽于20世紀(jì)90年代,這一時(shí)期數(shù)據(jù)挖掘理論與數(shù)據(jù)庫(kù)技術(shù)逐步成熟。21世紀(jì)以來(lái),隨著Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,大數(shù)據(jù)技術(shù)快速突破,形成了并行計(jì)算和分布式系統(tǒng)兩大核心技術(shù),Hadoop和Spark分布式計(jì)算框架也應(yīng)運(yùn)而生。(1)Hadoop分布式計(jì)算框架Hadoop由Java開發(fā),是目前大數(shù)據(jù)技術(shù)的主流軟件架構(gòu),具有良好的容錯(cuò)性和穩(wěn)定性,以及強(qiáng)大的IDE支持。Hadoop生態(tài)圈以HDFS和MapReduce為核心,HDFS是分布式文件處理系統(tǒng),它將大型文件拆分處理成多個(gè)小型文件單位,便于底層龐大數(shù)據(jù)的存儲(chǔ),而分布式并行編程模型MapReduce可對(duì)這
7、些文件中的數(shù)據(jù)集進(jìn)行并行運(yùn)算。同時(shí)Hadoop生態(tài)圈還有Flume、Hive、HBase、Zookeeper、Sqoop、Mahout、Ambari、Pig等功能組件。(2)Spark分布式計(jì)算框架Spark由基于靜態(tài)編譯的Scala語(yǔ)言開發(fā)4,速度快,在執(zhí)行過程中注重函數(shù)本身而非數(shù)據(jù)和狀態(tài)的處理,并將計(jì)算數(shù)據(jù)、中間結(jié)果都存儲(chǔ)于內(nèi)存中,大大減少了I/O開銷,更適合數(shù)據(jù)挖掘中的運(yùn)算。而Hadoop的MapReduce計(jì)算模型表達(dá)能力有限,磁盤I/O開銷大,延遲高,難以勝任實(shí)時(shí)快速的計(jì)算需求,故可將Spark作為一種計(jì)算框架通過JVM取代MapReduce融入Hadoop生態(tài)圈中。并且Spark具
8、有良好的API,能夠給開發(fā)人員帶來(lái)良好的用戶體驗(yàn)。(3)大數(shù)據(jù)技術(shù)與智慧校園的深度融合通過Hadoop和Spark這兩個(gè)大數(shù)據(jù)框架對(duì)高校信息化應(yīng)用水平進(jìn)行改善,即以Hadoop的分布式文件系統(tǒng)HDFS為主,存儲(chǔ)數(shù)字校園階段各管理信息系統(tǒng)的數(shù)據(jù),再以Spark的計(jì)算處理功能為主,實(shí)現(xiàn)這些數(shù)據(jù)的深度挖掘。進(jìn)而通過智能分析,為用戶提供智能預(yù)測(cè)、預(yù)警并輔助決策,推動(dòng)大數(shù)據(jù)技術(shù)與智慧校園的深度融合。同時(shí)結(jié)合數(shù)字校園階段學(xué)生系統(tǒng)的建設(shè)特點(diǎn),可構(gòu)建一個(gè)基于大數(shù)據(jù)技術(shù)的高校智慧校園學(xué)生綜合測(cè)評(píng)系統(tǒng)。(4)學(xué)生綜合測(cè)評(píng)系統(tǒng)總體架構(gòu)高校智慧校園學(xué)生管理系統(tǒng)遵循高內(nèi)聚低耦合的設(shè)計(jì)原則,采用流行的Hadoop和Spa
9、rk開源軟件構(gòu)建平臺(tái)5,使系統(tǒng)可便利地實(shí)現(xiàn)平滑升級(jí),并保證系統(tǒng)風(fēng)格統(tǒng)一、美觀、易于用戶操作。在充分共享信息資源的同時(shí)對(duì)各種訪問權(quán)限進(jìn)行嚴(yán)格限制,保持高可靠性和高安全性6。測(cè)評(píng)系統(tǒng)分為三層,如圖1所示。圖1中,數(shù)據(jù)存儲(chǔ)層是系統(tǒng)的最底層,為上層提供數(shù)據(jù)源,如存儲(chǔ)學(xué)生的學(xué)業(yè)成績(jī)、消費(fèi)、一卡通等校園大數(shù)據(jù)。核心業(yè)務(wù)層處于系統(tǒng)中間層,進(jìn)行數(shù)據(jù)的整合和運(yùn)用數(shù)據(jù)挖掘模型分析數(shù)據(jù)信息。信息展示層位于系統(tǒng)最上層,作為用戶與系統(tǒng)之間的交互界面。3 數(shù)據(jù)存儲(chǔ)層(Data storage layer)由于高校的學(xué)生信息數(shù)據(jù)大都存儲(chǔ)在不同的管理信息系統(tǒng)中,故構(gòu)建高校智慧校園學(xué)生綜合測(cè)評(píng)系統(tǒng)的首要任務(wù)是對(duì)這些數(shù)據(jù)進(jìn)行整合
10、,其處理流程如圖2所示。圖2中,ETL是指將數(shù)據(jù)從源端處經(jīng)過抽取、轉(zhuǎn)換、加載至目的端處的過程;Sqoop是可實(shí)現(xiàn)Hadoop系統(tǒng)與關(guān)系數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)遷移的專門工具;HBase是具有高性能、高可靠性、可伸縮、實(shí)時(shí)讀寫等特點(diǎn)的列式數(shù)據(jù)庫(kù),一般采用HDFS作為其底層數(shù)據(jù)存儲(chǔ);Hive是基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具,可對(duì)Hadoop文件中的數(shù)據(jù)集進(jìn)行數(shù)據(jù)整理、特殊查詢和分析存儲(chǔ)。數(shù)據(jù)存儲(chǔ)層先通過ETL數(shù)據(jù)預(yù)處理工具7,將分布在各部門管理信息系統(tǒng)中的學(xué)生數(shù)據(jù)抽取到臨時(shí)中間層,然后進(jìn)行清洗、轉(zhuǎn)換、集成、裝載,最后結(jié)合Sqoop工具,將處理后的數(shù)據(jù)導(dǎo)入到基于Hadoop系統(tǒng)的中心數(shù)據(jù)庫(kù)中,從而利用Hado
11、op中的HDFS分布式文件系統(tǒng)將學(xué)生日積月累產(chǎn)生的大量數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。4 核心業(yè)務(wù)層(Core business layer)在Hadoop和Spark的基礎(chǔ)上,系統(tǒng)在本層可通過FP-Growth算法、真實(shí)熵、K均值聚類、回歸分析等數(shù)據(jù)挖掘模型,對(duì)學(xué)生的個(gè)人信息、學(xué)業(yè)成績(jī)、學(xué)業(yè)狀態(tài)、一卡通消費(fèi)、進(jìn)出圖書館次數(shù)等數(shù)據(jù)進(jìn)行分析,從而得到學(xué)生的測(cè)評(píng)結(jié)果8。通過增加最小模式長(zhǎng)度來(lái)優(yōu)化FP-growth算法9,可生成描述能力更好的頻繁模式,學(xué)校食堂和超市可以根據(jù)這些模式來(lái)調(diào)整菜品供應(yīng)以及超市商品的擺放,同時(shí)還可調(diào)整物品的供應(yīng)量。K-means聚類收斂速度快、易于理解,以學(xué)生消費(fèi)的次數(shù)、金額和用途等
12、數(shù)據(jù)進(jìn)行聚類10,可對(duì)學(xué)生的消費(fèi)水平進(jìn)行分類。回歸模型能夠?qū)D書館、食堂的人員流動(dòng)進(jìn)行預(yù)測(cè),相關(guān)管理人員可據(jù)此合理安排工作人員值班。真實(shí)熵用于解決人類移動(dòng)行為的可預(yù)測(cè)性問題11,借助學(xué)生在校園各個(gè)地方的出入、消費(fèi)數(shù)據(jù)可以了解學(xué)生的性格特征。將學(xué)生的日常行為數(shù)據(jù)和學(xué)業(yè)成績(jī)作為訓(xùn)練集,可得到分類規(guī)則12,預(yù)估學(xué)生考試不及格、學(xué)業(yè)障礙等的可能性,提前預(yù)警,督促其完成學(xué)習(xí)任務(wù)。校方通過特定的算法,以數(shù)據(jù)挖掘結(jié)果為依據(jù)和支撐,可以制定更合理的教學(xué)管理政策,如根據(jù)學(xué)生消費(fèi)水平確定貧困生補(bǔ)助資格、等級(jí),根據(jù)學(xué)業(yè)成績(jī)和行為特征進(jìn)行個(gè)性化教育、制定更加人性化的獎(jiǎng)學(xué)金政策等。5 信息展示層(Information
13、 display layer)信息展示層是平臺(tái)與用戶交互的可視化窗口,本系統(tǒng)在核心業(yè)務(wù)層的基礎(chǔ)上,對(duì)數(shù)據(jù)挖掘得到的有價(jià)值的信息進(jìn)行整合并分模塊展示,將其分為學(xué)生基本信息統(tǒng)計(jì)、學(xué)業(yè)分析、消費(fèi)分析和綜合分析等四個(gè)模塊,主要功能如表1所示。本系統(tǒng)將采用數(shù)據(jù)挖掘算法從校園大數(shù)據(jù)中得到的有價(jià)值的信息以可視化、模塊化的方式呈現(xiàn)給用戶,旨在方便快捷地為用戶提供學(xué)情分析、消費(fèi)分析、綜合對(duì)比等服務(wù)13。(1)基本信息統(tǒng)計(jì)模塊本模塊整合學(xué)生的性別、民族、地區(qū)、家庭收入等基本的個(gè)人信息,由數(shù)據(jù)倉(cāng)庫(kù)提供的類似于關(guān)系數(shù)據(jù)庫(kù)SQL語(yǔ)言的Hive QL即可對(duì)學(xué)生的個(gè)人信息進(jìn)行特征分析,通過餅圖、柱狀圖等在網(wǎng)頁(yè)進(jìn)行可視化展示
14、。在本模塊中,每個(gè)用戶都可以查看全校學(xué)生整體統(tǒng)計(jì)分布情況,并且校園管理者用戶在自己的權(quán)限范圍內(nèi)可以查看每個(gè)學(xué)生的詳細(xì)情況,而每個(gè)學(xué)生用戶僅能夠查看自己的詳細(xì)信息。(2)學(xué)生學(xué)業(yè)分析模塊本模塊整合學(xué)生的學(xué)業(yè)成績(jī)、進(jìn)出圖書館次數(shù)、借閱記錄和獎(jiǎng)懲情況等信息,經(jīng)核心業(yè)務(wù)層處理得到學(xué)生學(xué)業(yè)的統(tǒng)計(jì)數(shù)據(jù),如學(xué)生的學(xué)業(yè)情況、學(xué)習(xí)狀態(tài)、獎(jiǎng)懲分布、閱讀偏好等。在本模塊中,每個(gè)用戶都可以查看學(xué)生總體的學(xué)業(yè)分布情況,并且學(xué)生用戶可以查看自己的學(xué)業(yè)數(shù)據(jù)和學(xué)習(xí)記錄,教師用戶可以查看自己所教授班級(jí)學(xué)生的學(xué)業(yè)數(shù)據(jù)和學(xué)習(xí)記錄。同時(shí)系統(tǒng)管理員可以根據(jù)閱讀偏好來(lái)提醒圖書館管理者優(yōu)化圖書館購(gòu)書類別,根據(jù)學(xué)業(yè)情況對(duì)學(xué)生進(jìn)行掛科預(yù)警等。
15、(3)學(xué)生消費(fèi)分析模塊本模塊整合學(xué)生的一卡通消費(fèi)數(shù)據(jù)、食堂及商店消費(fèi)數(shù)據(jù)等信息,經(jīng)核心業(yè)務(wù)層處理得到學(xué)生的消費(fèi)統(tǒng)計(jì)數(shù)據(jù),如學(xué)生的平均消費(fèi)情況、飲食偏好、消費(fèi)結(jié)構(gòu)等。在本模塊中,學(xué)生用戶可以查看學(xué)生總體的消費(fèi)分布情況和自己的消費(fèi)數(shù)據(jù)。同時(shí)系統(tǒng)管理員用戶可以根據(jù)學(xué)生消費(fèi)的偏好和頻繁模式來(lái)提醒食堂和商店管理人員優(yōu)化商品的供應(yīng),根據(jù)學(xué)生消費(fèi)情況衡量學(xué)生家庭條件,為學(xué)校精準(zhǔn)關(guān)愛貧困生提供數(shù)據(jù)支撐。(4)學(xué)生綜合分析模塊本模塊是信息展示層的核心模塊,基于前三個(gè)模塊的分析數(shù)據(jù),由系統(tǒng)管理員自定義設(shè)置,在核心業(yè)務(wù)層中進(jìn)行更深層次的處理,可以得到不同指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)。如根據(jù)學(xué)生的消費(fèi)數(shù)據(jù)加權(quán)得到經(jīng)濟(jì)富裕指數(shù),根據(jù)
16、學(xué)生的學(xué)業(yè)數(shù)據(jù)得到成就性指數(shù),根據(jù)學(xué)生行為數(shù)據(jù)結(jié)合真實(shí)熵算法得到嚴(yán)謹(jǐn)性指數(shù)等14。在本模塊中,每個(gè)用戶都可以查看學(xué)生總體的指標(biāo)分布情況,并且學(xué)生用戶可以查看自己的詳細(xì)分析情況。管理員用戶可以根據(jù)這些指標(biāo)數(shù)據(jù)結(jié)合相關(guān)規(guī)定進(jìn)行獎(jiǎng)學(xué)金評(píng)比、貧困生補(bǔ)助、教學(xué)區(qū)開放時(shí)間等活動(dòng)。6 結(jié)論(Conclusion)通過對(duì)大數(shù)據(jù)技術(shù)和高校教育教學(xué)工作深度融合的研究,在數(shù)字校園的基礎(chǔ)上,引入大數(shù)據(jù)計(jì)算框架Hadoop和Spark以及經(jīng)典的數(shù)據(jù)挖掘模型,構(gòu)建以大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)為核心的學(xué)生綜合測(cè)評(píng)系統(tǒng),對(duì)學(xué)生的基本信息、學(xué)業(yè)信息、消費(fèi)信息、綜合信息進(jìn)行分析挖掘,從而為高校進(jìn)行精準(zhǔn)的教育教學(xué)管理提供科學(xué)合理
17、的有效支撐。Reference(References)1 Fang Dong,Xiaolin Guo,Pengcheng Zhou,et al.Task-Aware Flow Scheduling with Heterogeneous Utility Characteristics for Data Center NetworksJ.Tsinghua Science and Technology,2019,24(04):400-411.2 Tongya ZHENG,Gang CHEN,Xinyu WANG,et al.Real-time intelligent big data process
18、ing:technology,platform,and applicationsJ.Science China(Information Sciences),2019,62(08):102-113.3 Hira Zahid,Tariq Mahmood,Ahsan Morshed,et al.Big Data Analytics in Telecommunications:Literature Review and Architecture RecommendationsJ.IEEE/CAA Journal of Automatica Sinica,2020,7(01):18-38.4 Xiaoming Ye,Xingshu Chen,Dunhu Liu,et al.Efficient Feature Extraction Using Apache Spark for Network Behavio
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 全款轉(zhuǎn)讓房產(chǎn)合同范本
- 加班法務(wù)合同范本
- 公司入股合同范本文檔
- 仔豬購(gòu)銷糾紛合同范本
- 包裝插畫合同范本
- 農(nóng)村協(xié)議買房合同范本
- 2024年金山區(qū)衛(wèi)生健康事業(yè)單位招聘衛(wèi)生專業(yè)技術(shù)人員考試真題
- 2024年南丹縣丹融文化傳媒有限公司招聘筆試真題
- 農(nóng)村修水渠合同范本
- 2024年阜陽(yáng)市皖西北(阜南)糧食產(chǎn)業(yè)園有限公司招聘考試真題
- 2024年江蘇航空職業(yè)技術(shù)學(xué)院高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
- 幼兒羽毛球培訓(xùn)課件
- 紅色旅游線路
- 膝骨關(guān)節(jié)炎中醫(yī)診療指南
- 胰性腦病和wernicke腦病
- 大國(guó)工匠課件
- 遼寧省冷鏈物流行業(yè)報(bào)告
- 清潔氫能生產(chǎn)與輸儲(chǔ)技術(shù)創(chuàng)新
- 產(chǎn)品標(biāo)準(zhǔn)化大綱(課件)
- 貸款的培訓(xùn)課件
- 《雷達(dá)干擾技術(shù)概述》課件
評(píng)論
0/150
提交評(píng)論