技術(shù)報告基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)架構(gòu)分析與設(shè)計_第1頁
技術(shù)報告基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)架構(gòu)分析與設(shè)計_第2頁
技術(shù)報告基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)架構(gòu)分析與設(shè)計_第3頁
技術(shù)報告基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)架構(gòu)分析與設(shè)計_第4頁
技術(shù)報告基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)架構(gòu)分析與設(shè)計_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、計劃類別 項目編號 項目技術(shù)報告課題名稱 項目主持人 承擔單位 題目:基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)架構(gòu)分析與設(shè)計目前基于信息化、體驗式的教學(xué)線上和線下課堂,可通過移動端、網(wǎng)頁端、嵌入式設(shè)備端等捕獲大量的學(xué)情行為數(shù)據(jù)。如何采集這些線上線下產(chǎn)生的各種學(xué)情數(shù)據(jù),利用采集數(shù)據(jù)的特點結(jié)合主流的大數(shù)據(jù)應(yīng)用技術(shù)進行處理、分析和挖掘,并對受教育者或教育機構(gòu)提供有用的決策信息成為很多研究機構(gòu)的研究主題。本文基于目前學(xué)情分析系統(tǒng)的發(fā)展,引入大數(shù)據(jù)技術(shù),設(shè)計了以Hadoop為核心的學(xué)情分析系統(tǒng),提出了基于學(xué)情分析系統(tǒng)的數(shù)據(jù)挖掘并行算法分析平臺設(shè)計,實現(xiàn)了一種基于數(shù)據(jù)的智慧校園平臺。關(guān)鍵詞:學(xué)情數(shù)據(jù);大數(shù)據(jù)技術(shù);

2、數(shù)據(jù)挖掘;平臺設(shè)計1 引言(Introduction)隨著信息技術(shù)的發(fā)展,數(shù)據(jù)無時無刻不在產(chǎn)生,特別是教育大數(shù)據(jù),已經(jīng)成為推動教育行業(yè)的提升和變革的強大力量?;谛畔⒒Ⅲw驗式的教學(xué)線上和線下課堂,可通過移動端、網(wǎng)頁端、嵌入式設(shè)備端等捕獲大量的學(xué)情行為數(shù)據(jù),這些數(shù)據(jù)符合大數(shù)據(jù)4V特性:海量(Volume)、多樣性(Variety)、時效性(Velocity)和有效性(Veracity),給傳統(tǒng)的教育數(shù)據(jù)存儲、分析和處理都帶來了極大的挑戰(zhàn)。在與其他行業(yè)相比,教育界對大數(shù)據(jù)的廣泛接納比其他成熟行業(yè)稍晚。但如今大數(shù)據(jù)已經(jīng)慢慢走進教育的各個角落。產(chǎn)生了更多的教育機構(gòu)和企業(yè)開始對教育大數(shù)據(jù)深入研究并構(gòu)建

3、可交互的大數(shù)據(jù)平臺。教育的大數(shù)據(jù)不僅影響學(xué)校內(nèi)部治理的改革,而且會驅(qū)動整個教育領(lǐng)域的變革,利用大數(shù)據(jù)平臺構(gòu)建每一位受教育者的用戶畫像,針對每一位受教育者給出合理的建議,從而使得教育和關(guān)愛每一個孩子成為可能?!按髷?shù)據(jù)”這一概念已經(jīng)在各行業(yè)的應(yīng)用獲得了極大的成功,也應(yīng)運而生了“數(shù)據(jù)科學(xué)”這一嶄新科學(xué)領(lǐng)域,通過大數(shù)據(jù)理論基礎(chǔ)和框架技術(shù)可解決教育和大數(shù)據(jù)融合中所產(chǎn)生的問題。本文提出了教育大數(shù)據(jù)背景下運用大數(shù)據(jù)技術(shù)處理和分析教育行業(yè)數(shù)據(jù)的技術(shù)架構(gòu),并基于Hadoop技術(shù)生態(tài)圈設(shè)計了學(xué)情分析系統(tǒng)的技術(shù)架構(gòu)及數(shù)據(jù)挖掘平臺,將其應(yīng)用于學(xué)院教學(xué)質(zhì)量監(jiān)控。2 學(xué)情分析概述(Overview of academic

4、 behavioranalysis)學(xué)情分析指的是學(xué)生在學(xué)習(xí)方面有何特點、學(xué)習(xí)方法怎樣、習(xí)慣怎樣、興趣如何,成績?nèi)绾蔚?。其設(shè)計理念包括教學(xué)方法、學(xué)法指導(dǎo)和教學(xué)設(shè)想,根據(jù)獲取的數(shù)據(jù)研究者可以從高校創(chuàng)新創(chuàng)業(yè)教育改革、創(chuàng)新創(chuàng)業(yè)人才培養(yǎng)、基于產(chǎn)業(yè)發(fā)展需求的專業(yè)結(jié)構(gòu)調(diào)整研究、學(xué)生學(xué)習(xí)行為分析、教師教授行為分析,以及個性化推薦等角度展開研究1。對教育大數(shù)據(jù)進行分析,需要從大量數(shù)據(jù)中進行提取與挖掘,在這個過程中包括數(shù)據(jù)的清洗、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示等。這些分析環(huán)節(jié)的每個構(gòu)成都應(yīng)成為數(shù)據(jù)分析研究的重要內(nèi)容,從而最大限度地保持與還原客觀事實2。在如今的學(xué)校教育中,數(shù)據(jù)已成為教學(xué)改進最為

5、顯著的指標,而更多科學(xué)決策也是基于數(shù)據(jù)而產(chǎn)生的。在學(xué)校的數(shù)據(jù)種類不僅僅指考試成績,也包括入學(xué)率、出勤率、輟學(xué)率、升學(xué)率等。對于具體的課堂教學(xué)來說,數(shù)據(jù)應(yīng)該是能說明教學(xué)效果的,比如學(xué)生考試成績、作業(yè)正確率、上課出勤率、積極參與課堂科學(xué)的舉手次數(shù),回答問題次數(shù)、時長與正確率,師生互動的頻率與時長等。根據(jù)以上綜合分析,基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺研究和建設(shè)是有著重大的意義,廣東東軟學(xué)院作為全國應(yīng)用型大學(xué)的典范,我們更加注重課程實踐性和學(xué)生動手能力,根據(jù)大數(shù)據(jù)分析和挖掘技術(shù)可以更加合理調(diào)整學(xué)院的學(xué)科專業(yè)、教師教授方式和學(xué)生學(xué)習(xí)方式等。同時,該平臺的建立會完善廣東東軟學(xué)院的大數(shù)據(jù)應(yīng)用實踐教學(xué)體系

6、。因此,建立和完善學(xué)情分析平臺可促進和深化學(xué)院學(xué)生的學(xué)習(xí)、教師教學(xué)實踐,以及幫助相關(guān)部門提供更加合理的計劃和建議。3 研究現(xiàn)狀(Current research situation)國外對學(xué)習(xí)和學(xué)情分析的研究起步較早,從2011年起已經(jīng)積累了很多的理論基礎(chǔ),近年來已經(jīng)由純粹的理論概念階段發(fā)展到具體的實際應(yīng)用階段,涌現(xiàn)出很多已經(jīng)處于實用階段的學(xué)習(xí)和學(xué)情分析系統(tǒng)。與國外相比,國內(nèi)到目前為止主要還是停留在理論探索和分析階段,或者是在理論和概念上的拓展,對于具體的學(xué)習(xí)分析工具和系統(tǒng)的實際應(yīng)用的研究和開發(fā)較少1-3?;诖髷?shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺是廣東東軟學(xué)院在學(xué)習(xí)和學(xué)情分析領(lǐng)域的實際應(yīng)用,利用通

7、用大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)對教育數(shù)據(jù)進行多維分析。通過大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘技術(shù)結(jié)合能夠更好為各階段學(xué)生提供更有價值的信息,如“希維塔斯學(xué)習(xí)”就是一家專門聚焦于運用預(yù)測性分析、機器學(xué)習(xí)從而提高學(xué)生成績的公司1。加拿大的一家教育科技公司“渴望學(xué)習(xí)”(Desire 2 Learn)已經(jīng)面向高等教育領(lǐng)域的學(xué)生,推出了基于他們自己過去的學(xué)習(xí)成績數(shù)據(jù)預(yù)測并改善其未來學(xué)習(xí)成績的大數(shù)據(jù)服務(wù)項目2?!翱释麑W(xué)習(xí)”的產(chǎn)品通過監(jiān)控學(xué)生閱讀電子化的課程材料、提交電子版的作業(yè)、通過在線與同學(xué)交流、完成考試與測驗,就能讓其計算程序持續(xù)、系統(tǒng)地分析每個學(xué)生的教育數(shù)據(jù)。老師得到的不再是過去那種只展示學(xué)生 分數(shù)與作業(yè)的結(jié)果,而是像閱讀

8、材料的時間長短等這樣更為詳細的重要信息,如此老師就能及時診斷問題的所在,提出改進的建議,并預(yù)測學(xué)生的期末考試成績。紐頓的創(chuàng)辦人、首席執(zhí)行官何塞費雷拉和培生高等教育分公司的總裁格雷格托賓合作研發(fā)將大學(xué)數(shù)學(xué)、大學(xué)統(tǒng)計學(xué)、大學(xué)一年級作文、經(jīng)濟學(xué)和科學(xué)等領(lǐng)域納入教育產(chǎn)品中3。在學(xué)習(xí)和學(xué)情分析系統(tǒng)建設(shè)方面,其研究成果主要涉及多個不同的教育系統(tǒng)?;赪eb的學(xué)習(xí)系統(tǒng):Pardos等學(xué)者在基于Web的數(shù)學(xué)教學(xué)平臺AssisTments上,花了兩年時間,跟蹤分析1393名8年級學(xué)生在該平臺上的數(shù)學(xué)學(xué)習(xí)行為數(shù)據(jù),研究學(xué)習(xí)中體現(xiàn)的情感如厭倦、專注、困惑、挫折等與最終的學(xué)習(xí)結(jié)果之間的關(guān)系4。Kizilcec等學(xué)者針

9、對Mooc教學(xué)中低完成率的問題,提出根據(jù)學(xué)生與Mooc學(xué)習(xí)課程的交互,對不同的學(xué)習(xí)者進行分類,該研究對Mooc未來的教學(xué)指導(dǎo)設(shè)計有一定意義5?;趯W(xué)習(xí)管理系統(tǒng)(LMS),許多學(xué)習(xí)分析研究是基于LMS記錄的教育數(shù)據(jù)。Lonn等針對密歇根大學(xué)一二年級工程系學(xué)生,開發(fā)了M-STEM Academy作為早期學(xué)業(yè)預(yù)警系統(tǒng),研究了如何挖掘LMS數(shù)據(jù),以及將這些數(shù)據(jù)轉(zhuǎn)化成警示數(shù)據(jù)每周提供給導(dǎo)師,以方便導(dǎo)師對學(xué)生進行有針對性的支持6。Garcia-Solorzano等指出LMS環(huán)境和面對面教學(xué)環(huán)境不同,教師在線監(jiān)控學(xué)習(xí)較困難,許多LMS提供的學(xué)生跟蹤數(shù)據(jù)難以理解。針對這個問題,他們設(shè)計了一個基于瀏覽的圖像化教

10、學(xué)監(jiān)控工具,幫助教師洞察學(xué)生表現(xiàn),并及時發(fā)現(xiàn)潛在問題7?;赪eb 2.0或社會學(xué)習(xí)系統(tǒng):Gunnarsson和Alterman分析了班上107名學(xué)生的博客,使用學(xué)生之間互動的相關(guān)博客數(shù)據(jù),特別是某學(xué)生對其他學(xué)生博客內(nèi)容的推介,建立了一個模型來識別有價值的內(nèi)容和對教師的意義7。Southavilay等學(xué)者研究了大學(xué)生使用云計算工具Google Docs進行合作寫作的案例,提出三種可視化方法分析寫作進程,包括校訂版本演化、主題演化圖、主題合作網(wǎng)絡(luò)來探索學(xué)生的思維、能力表現(xiàn),目的是讓團隊中的每一個學(xué)生的寫作更有成效7。在社會學(xué)習(xí)分析方面,英國學(xué)者Ferguson和Buckingham做了全面的分析

11、,提出了五種方法研究正式和非正式的教育環(huán)境數(shù)據(jù)源,注重從社會維度如情感、性格、學(xué)習(xí)網(wǎng)絡(luò)所反映出的學(xué)習(xí)者的學(xué)習(xí)狀態(tài)?;趯崟r學(xué)習(xí)系統(tǒng):傳統(tǒng)教學(xué)環(huán)境中,教師通過分析學(xué)生表現(xiàn)如出勤率、考試、教室內(nèi)的行為等傳統(tǒng)數(shù)據(jù)來幫助學(xué)生?,F(xiàn)在利用信息和通信技術(shù)(Information Communication Technology),可以將教室中的交互情境數(shù)字化,從而使數(shù)據(jù)更加多源。Blikstenin提出多情態(tài)交互分析系統(tǒng),數(shù)據(jù)包括視頻、音頻、文本、姿勢、生物傳感信息(如眼球跟蹤)等6,7,研究者可以探究過去不可能獲知的學(xué)生學(xué)習(xí)活動,進行更全面的分析。通過上述分析,目前基于教育大數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘仍處于

12、發(fā)展的初期,特別是在國內(nèi)的研究與實施仍處于起步階段,在實際的應(yīng)用中仍然不能依靠數(shù)據(jù)提供的有價值信息促進學(xué)生學(xué)習(xí)。因此,利用不同的數(shù)據(jù)源產(chǎn)生的分布式教育數(shù)據(jù),建立一個集成和開放的學(xué)情分析系統(tǒng)是很有必要的。4 基于大數(shù)據(jù)技術(shù)的學(xué)情分析系統(tǒng)框架(Frameworkof academic behavior analysis system based onbig data technology)基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺研建是大數(shù)據(jù)技術(shù)與教育行業(yè)結(jié)合的一種實際應(yīng)用的體現(xiàn),通過平臺提供的功能來改善學(xué)生的學(xué)習(xí)行為,為教師提供更好的教學(xué)方案,為職能部門提供合理的管理方案等?;谥髁鞯腍adoop技術(shù)

13、搭建大數(shù)據(jù)平臺,提供了數(shù)據(jù)的清洗、過濾及匯總操作,根據(jù)業(yè)務(wù)需求選取合適的大數(shù)據(jù)框架進行大數(shù)據(jù)分析。在大數(shù)據(jù)平臺之上構(gòu)建了數(shù)據(jù)挖掘并行算法處理平臺,挖掘更加有價值的數(shù)據(jù)信息,為學(xué)生推薦更加科學(xué)合理有用的學(xué)習(xí)資源或其他資源。4.1 系統(tǒng)開發(fā)的目標基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)研建是將大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘技術(shù)和機器學(xué)習(xí)技術(shù)等計算機技術(shù)應(yīng)用于教育行業(yè)數(shù)字化和信息化的重要方面,可以通過平臺幫助學(xué)生更好的學(xué)習(xí)、幫助老師更好的教學(xué),為學(xué)校管理層和決策層提供更加科學(xué)的決策依據(jù)。區(qū)別于其他行業(yè),教育行業(yè)逐漸被認為是大數(shù)據(jù)可以大有作為的一個重要領(lǐng)域,利用大數(shù)據(jù)技術(shù)促進和完善教育教學(xué)改革。此項目的建立將會更加加快

14、高校信息化建設(shè)的速度和質(zhì)量。4.2 系統(tǒng)開發(fā)的可行性分析根據(jù)教育行業(yè)業(yè)務(wù)需求,設(shè)計了合理的大數(shù)據(jù)處理與分析平臺和數(shù)據(jù)挖掘并行算法處理平臺,項目重點為利用Hadoop平臺對大數(shù)據(jù)日志進行存儲、分析、處理,對采集的數(shù)據(jù)進行分析,完成相應(yīng)日志的入庫、處理、分析、實時查詢等主要功能。對經(jīng)過處理后的數(shù)據(jù)進行數(shù)據(jù)挖掘,挖掘出有價值的信息,給用戶推薦更好的資源。按照實施計劃部署相應(yīng)的大數(shù)據(jù)系統(tǒng)平臺,根據(jù)平臺的數(shù)據(jù)處理量,初步規(guī)劃Hadoop集群的數(shù)量為510臺。4.3 系統(tǒng)開發(fā)數(shù)據(jù)來源數(shù)據(jù)來源于學(xué)院學(xué)生信息管理系統(tǒng)、招生就業(yè)系統(tǒng)、校園考勤系統(tǒng)、圖書管理系統(tǒng)平臺、教務(wù)等真實數(shù)據(jù),同時從輔助教學(xué)平臺上抓取有價值

15、的可信度高的數(shù)據(jù),如發(fā)帖數(shù)據(jù)(貼吧等)、學(xué)習(xí)者調(diào)查、用戶資料、網(wǎng)絡(luò)社交媒體等獲取相關(guān)數(shù)據(jù),從而形成學(xué)情分析系統(tǒng)大數(shù)據(jù)平臺的數(shù)據(jù)集。4.4 系統(tǒng)開發(fā)過程及關(guān)鍵技術(shù)首先根據(jù)數(shù)據(jù)集的數(shù)量級(PB或TB)確定集群數(shù)量,確定選擇在線大數(shù)據(jù)平臺還是本地建立服務(wù)器集群搭建大數(shù)據(jù)處理與分析的分布式平臺。對數(shù)據(jù)源進行初步整理和分析,學(xué)校相關(guān)信息系統(tǒng)需要與相關(guān)職能部分溝通數(shù)據(jù)中有價值或權(quán)重較高的字段或描述,從其他網(wǎng)站采集的數(shù)據(jù)需要經(jīng)過討論分析后確定技術(shù)可行性和評估數(shù)據(jù)源價值。將采集到的各數(shù)據(jù)源通過大數(shù)據(jù)技術(shù)提供的Sqoop(主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(Mysql、Oracle等)間進行數(shù)據(jù)的

16、傳遞)和Flume(日志采集工具)技術(shù)將數(shù)據(jù)源導(dǎo)入或推送到HDFS分布式文件系統(tǒng)中,對未來可能開發(fā)并投入使用的管理信息系統(tǒng)通過Log4G日志的形式記錄,每天或每周定點通過大數(shù)據(jù)日志收集工具Flume向大數(shù)據(jù)平臺的HDFS分布式文件系統(tǒng)推送記錄數(shù)據(jù)。對存儲在HDFS中的數(shù)據(jù)進行數(shù)據(jù)的ETL(清洗、過濾、匯總),大數(shù)據(jù)分析部分采用Hive與Impala結(jié)合方式,對查詢速度要求較高的采用基于內(nèi)存的迭代式框架Spark技術(shù)框架,此時經(jīng)過大數(shù)據(jù)分析后的數(shù)據(jù)可直接通過Web系統(tǒng)作統(tǒng)計數(shù)據(jù)的頁面展示。處理之后的數(shù)據(jù)可以作為數(shù)據(jù)挖掘平臺進行聚類、分類、關(guān)聯(lián)和回歸等數(shù)據(jù)挖掘算法的并行化處理媒介,從而得到學(xué)生行為

17、分析的重要信息,最后通過推薦系統(tǒng)為學(xué)生推薦合理的資源信息。4.5 集群環(huán)境搭建方案根據(jù)業(yè)務(wù)需求搭建集群10臺左右的大數(shù)據(jù)處理和分析平臺, 項目中需要Hadoop集群能夠商用,并且要求穩(wěn)定,性能沒有瓶頸。所以針對于Hadoop服務(wù)器,需要做一些操作系統(tǒng)級別優(yōu)化(CentOS6.4),以使得集群獲得最優(yōu)的性能和穩(wěn)定性能8。當Hbase提供服務(wù)速度難以保證情況下,使用Impala替換HBase、Impala StateStore和Impala Catalog Server安裝到HBase master所在機器,HBase Region所在機器安裝Impala Daemon。JobTracker機器變

18、為ResourceManager,TaskTracker變?yōu)镹odeManager。以上集群安排是根據(jù)數(shù)據(jù)和業(yè)務(wù)進行預(yù)估暫定集群數(shù)量在10臺以下,如果后期集群數(shù)量增加應(yīng)該重新調(diào)整各節(jié)點的配置。管理服務(wù)器是平臺的主節(jié)點,負責管理計算和任務(wù)分配等,節(jié)點14和剩余節(jié)點機都屬于從節(jié)點,從節(jié)點負責執(zhí)行主節(jié)點分配的存儲和計算的任務(wù)。要求數(shù)據(jù)節(jié)點盡可能放在一起利于數(shù)據(jù)的本地化,加快數(shù)據(jù)查詢速率,這里的HRegion由HRegionServer存放和管理本地節(jié)點,主要用于讀寫HDFS,管理Table中的數(shù)據(jù),因為應(yīng)該將HRegion與HDFS中的DataNode安裝在同一個從節(jié)點服務(wù)器中。HA采用管理服務(wù)器1

19、和服務(wù)器2互備。項目根據(jù)預(yù)期的數(shù)據(jù)和業(yè)務(wù)需求搭建集群在10臺以下的大數(shù)據(jù)處理和分析平臺,項目中采用穩(wěn)定、性能瓶頸小的Hadoop集群。同時針對于Hadoop服務(wù)器,需要做一些操作系統(tǒng)級別優(yōu)化(CentOS6.4),以使得集群獲得最優(yōu)的性能和穩(wěn)定性能。4.6 架構(gòu)設(shè)計基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺架構(gòu)分為大數(shù)據(jù)處理與分析平臺和數(shù)據(jù)挖掘并行算法分析平臺組成。其中大數(shù)據(jù)處理與分析平臺主要對數(shù)據(jù)源進行ETL過程,滿足一部分的數(shù)據(jù)查詢需求,以及圖形化展示需求。數(shù)據(jù)挖掘并行算法分析平臺主要對經(jīng)過大數(shù)據(jù)處理后的數(shù)據(jù)挖掘出潛在有價值的信息,為學(xué)生的學(xué)習(xí)、生活等方面提供個性化的推薦和意見等9,10。4.6

20、.1 學(xué)情分析系統(tǒng)的大數(shù)據(jù)平臺架構(gòu)設(shè)計學(xué)情分析系統(tǒng)的大數(shù)據(jù)平臺架構(gòu)設(shè)計如圖1所示。學(xué)院信息網(wǎng)站數(shù)據(jù)和由外部網(wǎng)站采集的數(shù)據(jù)均以壓縮形式上傳HDFS對應(yīng)的目錄,相應(yīng)的Mapreduce直接從HDFS上獲取原始數(shù)據(jù)進行數(shù)據(jù)處理和分析。Mapreduce主要包含三種類型:匯總部分(過濾、清洗、匯總)。使用分布式存儲系統(tǒng)HBase存儲一些數(shù)據(jù)量級較大的數(shù)據(jù)和進行一些簡單的統(tǒng)計分析,同時,將Mapreduce處理后的數(shù)據(jù)存儲在Hbase中,之后使用Thrift服務(wù)與Web進行交互顯示。Spark分析部分主要利用SparkSql、SparkMLlib、Graphx三大組件進行復(fù)雜的批量處理、基于響應(yīng)速度要求

21、高的交互查詢、基于實時數(shù)據(jù)流的查詢。Mapreduce匯總部分的結(jié)果加載到Hive中并且使用Impala提供Web端的查詢。需要做進一步分析和關(guān)聯(lián)的部分使用Sqoop導(dǎo)出到Oracle或Mysql中,由Oracle或Mysql來完成Web端復(fù)雜圖形的展現(xiàn)11,12。4.6.2 學(xué)情分析系統(tǒng)數(shù)據(jù)挖掘并行算法分析平臺設(shè)計數(shù)據(jù)挖掘并行算法分析平臺如圖2所示。數(shù)據(jù)經(jīng)過預(yù)處理后,需要考慮如何能讓數(shù)據(jù)發(fā)揮作用。這就需要采用數(shù)據(jù)挖掘平臺提供的數(shù)據(jù)挖掘和分析工具、算法進行有價值信息的抽取,從而實現(xiàn)從數(shù)據(jù)到信息的高效轉(zhuǎn)化。對受教育者的學(xué)習(xí)數(shù)據(jù)、行為數(shù)據(jù)等進行深入分析和挖掘,查找可能存在的問題等重要信息,并利用這些數(shù)據(jù)為改善受教育者的成績或?qū)W習(xí)行為提供個性化的服務(wù)。同時,借助數(shù)據(jù)中一位受教育者的各個維度數(shù)據(jù)來綜合評判學(xué)生表現(xiàn),利用大數(shù)據(jù)挖掘技術(shù),針對學(xué)生存在的問題提供合理的建議與意見13,14。通過大數(shù)據(jù)和數(shù)據(jù)挖掘進行學(xué)習(xí)分析能夠為每一位受教育者創(chuàng)設(shè)一個量身定做的學(xué)習(xí)環(huán)境和個性化的課程,還能創(chuàng)建一個早期預(yù)警系統(tǒng)以便發(fā)現(xiàn)開除和輟學(xué)等潛在的風險,為受教育者的多年學(xué)習(xí)提供一個富有挑戰(zhàn)性而非逐漸厭倦的學(xué)習(xí)計劃。因此,學(xué)習(xí)可以依靠大數(shù)據(jù)驅(qū)動。通過分析和挖掘,進一步改善教學(xué)的方式與方法,進一步促進學(xué)生學(xué)習(xí)成績的提高。根據(jù)平臺需求主要使用以下五種數(shù)據(jù)挖掘技術(shù)從大數(shù)據(jù)分析后的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論