紅亞科技-數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室建設(shè)方案_第1頁
紅亞科技-數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室建設(shè)方案_第2頁
紅亞科技-數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室建設(shè)方案_第3頁
紅亞科技-數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室建設(shè)方案_第4頁
紅亞科技-數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室建設(shè)方案_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)平臺方案北京紅亞華宇科技有限公司二零一五年數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室目錄一.背景 . 4 1.1數(shù)據(jù)挖掘和大數(shù)據(jù)分析行業(yè)背景和發(fā)展趨勢 . 4 1.2數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室建設(shè)的必要性 . 5 二.數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室設(shè)計(jì)理念及目標(biāo) . 5 2.1實(shí)驗(yàn)室設(shè)計(jì)理念 . . 5 2.2 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室建設(shè)目標(biāo)與特色 . 62.2.1實(shí)驗(yàn)室建設(shè)目標(biāo) . . 6 2.2.2實(shí)驗(yàn)室特色 . 7 三.數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)平臺建設(shè)方案 . . 8 3.1 基礎(chǔ)環(huán)境建設(shè) . . 83.1.1IT 環(huán)境建設(shè). 8 3.1.2網(wǎng)絡(luò)環(huán)境建設(shè). 8 3.2 實(shí)驗(yàn)平臺

2、功能 . . 93.2.1用戶管理功能. 10 3.2.2實(shí)驗(yàn)管理功能. 10 3.2.3課件資源管理功能 . . 11 3.2.4實(shí)驗(yàn)加載功能. 12 3.2.5考試管理功能. 13 3.2.6Hadoop 管理功能 . . 14 3.2.7部署方式簡易. 15 3.2.8科研創(chuàng)新支撐. 15 3.3實(shí)訓(xùn)平臺特色 . . 16 四.數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)課程內(nèi)容 . 17 4.1E XCEL 數(shù)據(jù)處理 . . 20 4.2統(tǒng)計(jì)與建模方法演示 . . 20 4.3數(shù)據(jù)挖掘方法演示 . . 21 4.4SAS 編程基礎(chǔ) . . 22 4.5R 語言編程基礎(chǔ). 23 4.6M Y SQL 數(shù)據(jù)庫

3、操作. 23 4.7JAVA 數(shù)據(jù)爬取. 24數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室4.8E XCEL 高級編程 . . 25 4.9SAS 統(tǒng)計(jì)與建模 . . 26 4.10SAS 數(shù)據(jù)挖掘 . 27 4.11R 語言統(tǒng)計(jì)與建模 . 28 4.12R 語言數(shù)據(jù)挖掘 . 29 4.13H ADOOP 大數(shù)據(jù)分析 . 30 4.14JAVA 自然語言處理 . 31 4.15SAS 數(shù)據(jù)分析綜合應(yīng)用 . 32 4.16R 語言數(shù)據(jù)分析綜合應(yīng)用 . 32 4.17大數(shù)據(jù)分析綜合應(yīng)用 . 33 4.18實(shí)驗(yàn)列表 . 34 五.數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室建設(shè)優(yōu)勢 . 36 5.1方案優(yōu)勢 . . 36 5.2技術(shù)優(yōu)

4、勢 . . 36 六.技術(shù)服務(wù) . . 37 6.1售前技術(shù)服務(wù) . . 38 6.2技術(shù)培訓(xùn) . . 38 6.3售后技術(shù)服務(wù) . . 38 七.數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室設(shè)備清單 . 39數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室一. 背景1.1 數(shù)據(jù)挖掘和大數(shù)據(jù)分析行業(yè)背景和發(fā)展趨勢移動互聯(lián)網(wǎng)、電子商務(wù)以及社交媒體的快速發(fā)展使得企業(yè)需要面臨的數(shù)據(jù)量成指數(shù)增長。根據(jù) IDC 數(shù)字宇宙(Digital Universe研究報(bào)告顯示,2020 年全球新建和復(fù)制的信息量已經(jīng)超過 40ZB,是2012年的12倍; 而中國的數(shù)據(jù)量則會在2020年超過8ZB ,比2012年增長22倍。數(shù)據(jù)量的飛速增長帶來了大數(shù)據(jù)技術(shù)

5、和服務(wù)市場的繁榮發(fā)展。IDC 亞太區(qū)(不含日本 最新關(guān)于大數(shù)據(jù)和分析(BDA領(lǐng)域的市場研究表明,大數(shù)據(jù)技術(shù)和服務(wù)市場規(guī)模將會從2012年的5.48億美元增加到2017年的23.8億美元,未來5年的復(fù)合增長率達(dá)到34.1%。該市場涵蓋了存儲、服務(wù)器、網(wǎng)絡(luò)、軟件以及服務(wù)市場。數(shù)據(jù)量的增長是一種非線性的增長速度。據(jù)IDC 分析報(bào)道,最近一年來,亞太區(qū)出現(xiàn)了越來越廣泛的大數(shù)據(jù)和分析領(lǐng)域的應(yīng)用案例。在中國,從互聯(lián)網(wǎng)企業(yè),到電信、金融、政府這樣的傳統(tǒng)行業(yè),都開始采用各種大數(shù)據(jù)和分析技術(shù),開始了自己的大數(shù)據(jù)實(shí)踐之旅; 應(yīng)用場景也在逐漸拓展,從結(jié)構(gòu)化數(shù)據(jù)的分析,發(fā)展到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的分析,尤其是社交媒

6、體信息分析受到用戶的更多關(guān)注。用戶們開始評估以Hadoop 、數(shù)據(jù)庫一體機(jī)以及內(nèi)存計(jì)算技術(shù)為代表的大數(shù)據(jù)相關(guān)新型技術(shù)。最新調(diào)研結(jié)果顯示,提高競爭優(yōu)勢,降低成本以及吸引新的客戶是中國用戶對大數(shù)據(jù)項(xiàng)目最期望的三大回報(bào)。目前現(xiàn)有的大數(shù)據(jù)項(xiàng)目主要集中在業(yè)務(wù)流程優(yōu)化以及提高客戶滿意度方面的應(yīng)用。IDC 發(fā)現(xiàn)很多用戶希望大數(shù)據(jù)能夠?yàn)槠髽I(yè)帶來業(yè)務(wù)創(chuàng)新,并且開始使用高級分析的解決方案以管理復(fù)雜的數(shù)據(jù)環(huán)境。過去一年中用戶對社交數(shù)據(jù)的收集和分析應(yīng)用的關(guān)注度增加明顯。未來,地理位置信息分析將會增長迅速,這也會推動用戶對大數(shù)據(jù)安全和隱私管理的關(guān)注。在亞太區(qū),澳大利亞和新加坡的用戶對大數(shù)據(jù)的相關(guān)投資主要在咨詢服務(wù)方面,

7、更關(guān)注如何根據(jù)新的最佳實(shí)踐需求設(shè)計(jì)和實(shí)施方案。中國和印度在大數(shù)據(jù)領(lǐng)域的硬件投資則非常明顯,更傾向于數(shù)據(jù)中心相關(guān)的基礎(chǔ)架構(gòu)的投資。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室在傳統(tǒng)的數(shù)據(jù)分析與商業(yè)數(shù)據(jù)挖掘中,人們通常遵循二八原則。也就是任務(wù)20%的用戶提供了80%的價(jià)值,因此利用優(yōu)勢資源用戶對于少數(shù)用戶的服務(wù)。隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的低價(jià)值用戶進(jìn)入到商業(yè)體系中,這部分用戶成為商業(yè)企業(yè)競爭的目標(biāo)。比如電商行業(yè),大量顧客都是傳統(tǒng)意義上的低價(jià)值客戶,數(shù)據(jù)表明對于這部分用戶價(jià)值的挖掘可以改變二八原則,甚至可達(dá)到價(jià)值的幾乎均勻分布。并且由于計(jì)算技術(shù)的發(fā)展,對于大數(shù)據(jù)的分析也成為了可能。1.2 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室

8、建設(shè)的必要性數(shù)據(jù)挖掘與大數(shù)據(jù)分析是以計(jì)算機(jī)基礎(chǔ)為基礎(chǔ),以挖掘算法為核心,緊密面向行業(yè)應(yīng)用的一門綜合性學(xué)科。其主要技術(shù)涉及概率論與數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘、算法與數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)網(wǎng)絡(luò)、并行計(jì)算等多個(gè)專業(yè)方向,因此該學(xué)科對于實(shí)驗(yàn)室具有較高的專業(yè)要求。實(shí)驗(yàn)室不僅要提供基礎(chǔ)的開發(fā)環(huán)境,還要提供大數(shù)據(jù)的運(yùn)算環(huán)境以及用于實(shí)驗(yàn)的實(shí)戰(zhàn)大數(shù)據(jù)案例。這些實(shí)驗(yàn)素材的準(zhǔn)備均需專業(yè)的大數(shù)據(jù)實(shí)驗(yàn)室作為支撐。目前,在我國高校的專業(yè)設(shè)置上與數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)相關(guān)的學(xué)科專業(yè)包括:計(jì)算機(jī)科學(xué)與技術(shù)、信息管理與信息系統(tǒng)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)、金融、貿(mào)易、生物信息以及公共衛(wèi)生等。這些專業(yè)的學(xué)生需要分別從原理、技術(shù)與應(yīng)用等不同的角度掌握大數(shù)據(jù)

9、分析的理論與分析方法。學(xué)生要很好地掌握這些課程,除了課堂學(xué)習(xí),通過實(shí)驗(yàn)來加深理解和提高實(shí)際應(yīng)用操作能力也是主要途徑。調(diào)查表明,數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)所需要的算法、計(jì)算環(huán)境以及數(shù)據(jù)等,都無法在我國高校現(xiàn)有的實(shí)驗(yàn)室中完成。因此,建設(shè)專門的數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室就顯得非常重要。二. 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室設(shè)計(jì)理念及目標(biāo)2.1 實(shí)驗(yàn)室設(shè)計(jì)理念數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室的設(shè)計(jì)全面落實(shí)“產(chǎn)、學(xué)、研、用”一體化的思想和模式,從教學(xué)、實(shí)踐、科研和使用多方面注重專業(yè)人才和特色人才的培養(yǎng)。本實(shí)驗(yàn)室建設(shè)方案融合數(shù)據(jù)挖掘與大數(shù)據(jù)分析專業(yè)教學(xué)、實(shí)訓(xùn)、實(shí)戰(zhàn)等各層次實(shí)踐教學(xué),能夠從面向大數(shù)據(jù)分析行業(yè)需求和促進(jìn)學(xué)生

10、職業(yè)發(fā)展的角度規(guī)劃和建設(shè)數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室,真正在產(chǎn)業(yè)、學(xué)校、科研及實(shí)際項(xiàng)目中相互配合,發(fā)揮優(yōu)數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 勢,形成生產(chǎn)、學(xué)習(xí)、科學(xué)研究、實(shí)踐運(yùn)用的系統(tǒng)運(yùn)作模式,從而建設(shè)大數(shù)據(jù)分析特色專業(yè)。利用虛擬化教學(xué)資源,搭建實(shí)訓(xùn)平臺和實(shí)戰(zhàn)平臺,將理論學(xué)習(xí)、實(shí)踐教學(xué)和大數(shù)據(jù)分析實(shí)戰(zhàn)融為一體,由難而易、循序漸進(jìn),逐步提升學(xué)生的學(xué)習(xí)技能和實(shí)踐水平,提高“學(xué)”的質(zhì)量和成效。利用大數(shù)據(jù)分析主流軟件框架,搭建與業(yè)界主要用戶一致的實(shí)驗(yàn)與科研環(huán)境,將理論課程中學(xué)到的數(shù)據(jù)挖掘算法運(yùn)用到實(shí)際的數(shù)據(jù)分析過程中,提升學(xué)生的動手操作和項(xiàng)目實(shí)踐能力。使得學(xué)生所學(xué)與企業(yè)項(xiàng)目人才需求無縫銜接,與教師的科研工作緊密

11、配合。通過專業(yè)的大數(shù)據(jù)分析計(jì)算資源搭建的開放式大數(shù)據(jù)分析平臺,可以充分的融合教師的科研需求,教師可以在開放的平臺環(huán)境下開展大數(shù)據(jù)科研工作,提升教師的科研創(chuàng)新能力,充分提高“研”的成效。2.2 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室建設(shè)目標(biāo)與特色2.2.1 實(shí)驗(yàn)室建設(shè)目標(biāo)大數(shù)據(jù)指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法利用目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到采集、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的數(shù)據(jù)信息。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)

12、據(jù)的“增值”。因此數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室重點(diǎn)培養(yǎng)學(xué)生對于數(shù)據(jù)的處理與分析能力。由此可見,數(shù)據(jù)挖掘與大數(shù)據(jù)教學(xué)過程中包含數(shù)據(jù)挖掘算法與大數(shù)據(jù)分析算法兩個(gè)部分的內(nèi)容。學(xué)生首先要掌握數(shù)據(jù)挖掘的基本理論與算法,其次要掌握大數(shù)據(jù)處理的框架與平臺,進(jìn)而掌握針對大數(shù)據(jù)的數(shù)據(jù)挖掘方法。因此本實(shí)驗(yàn)室建設(shè)內(nèi)容包括數(shù)據(jù)挖掘部分與大數(shù)據(jù)算法部分兩大類實(shí)驗(yàn)。數(shù)據(jù)挖掘部分的實(shí)驗(yàn)包括基本實(shí)驗(yàn)與算法實(shí)驗(yàn)兩部分?;緦?shí)驗(yàn)用于給學(xué)生建立起數(shù)據(jù)挖掘的基本概念,展示常用的數(shù)據(jù)挖掘算法。以典型的應(yīng)用數(shù)據(jù)為例,展示常用算法的分析效果。算法實(shí)驗(yàn)為學(xué)生提供編程框架,針對重要的數(shù)據(jù)挖掘算法進(jìn)行實(shí)數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 現(xiàn)。該部分實(shí)驗(yàn)以

13、R 語言為開發(fā)環(huán)境,學(xué)生通過本實(shí)驗(yàn)室將掌握數(shù)據(jù)挖掘主要算法的實(shí)現(xiàn)方法。大數(shù)據(jù)算法實(shí)驗(yàn)包括基本的大數(shù)據(jù)分析平臺與算法實(shí)驗(yàn)以及典型實(shí)戰(zhàn)數(shù)據(jù)分析實(shí)驗(yàn)兩部分。大數(shù)據(jù)分析平臺與算法實(shí)驗(yàn)包括平臺配置與典型算法設(shè)計(jì)兩大類,通過該類實(shí)驗(yàn)使得學(xué)生能夠完成對于大數(shù)據(jù)分析平臺的配置與初始化工作并具有基本MapReduce 算法開發(fā)能力。典型實(shí)戰(zhàn)數(shù)據(jù)分析實(shí)驗(yàn),讓學(xué)生利用真實(shí)的行業(yè)數(shù)據(jù),完成大數(shù)據(jù)挖掘與分析,掌握數(shù)據(jù)挖掘與大數(shù)據(jù)分析的一般流程。2.2.2 實(shí)驗(yàn)室特色1、大數(shù)據(jù)環(huán)境搭建與大數(shù)據(jù)算法實(shí)現(xiàn)相結(jié)合。大數(shù)據(jù)算法作為最新的算法分析技術(shù)具有完全不同的設(shè)計(jì)思路,算法開發(fā)過程對初次接觸該部分內(nèi)容的本科生而言有較大的難度,

14、一方面是算法思想的新穎性,另一方面則是算法實(shí)現(xiàn)對于程序開發(fā)的能力要求較高。因此為了實(shí)驗(yàn)的順利完成,需要給學(xué)生一個(gè)入門的過程,本實(shí)驗(yàn)室通過環(huán)境搭建以及簡單實(shí)驗(yàn)的過渡來實(shí)現(xiàn)的。本實(shí)驗(yàn)對于學(xué)生的要求是框架性的,允許學(xué)生的創(chuàng)新,以激發(fā)和培養(yǎng)學(xué)生的創(chuàng)新意識和創(chuàng)新能力。2、多梯度、層次式的系列實(shí)驗(yàn)。為了照顧和覆蓋能力和興趣存在明顯差別的多個(gè)學(xué)生群體,在設(shè)置特色實(shí)驗(yàn)的具體實(shí)驗(yàn)內(nèi)容時(shí),提供層次性、階段性的開發(fā)目標(biāo),不同學(xué)生可以根據(jù)自己的能力差別選擇合適的開發(fā)任務(wù)難度,而且在實(shí)驗(yàn)過程中,學(xué)生也可以根據(jù)進(jìn)度調(diào)整相應(yīng)的實(shí)驗(yàn)難度,以避免學(xué)生不能完成實(shí)驗(yàn)的情況,充分維護(hù)和提高學(xué)生參與該特色實(shí)驗(yàn)的興趣和信心。3、充分支撐

15、的科研工作。系統(tǒng)提供數(shù)據(jù)分析接口,可將收集到的大數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì),按自己需求生成報(bào)表,為科研工作提供數(shù)據(jù)支承。例如某地區(qū)經(jīng)濟(jì)數(shù)據(jù)分析、股市數(shù)據(jù)分析等。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室三. 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)平臺建設(shè)方案作為專業(yè)的高校實(shí)驗(yàn)室建設(shè)方案提供商,結(jié)合相關(guān)知名高校及科研機(jī)構(gòu)的教學(xué)及科研成果,提供了一套完整的高校數(shù)據(jù)挖掘與大數(shù)據(jù)分析的實(shí)驗(yàn)室解決方案。該實(shí)驗(yàn)室方案按照數(shù)據(jù)挖掘、大數(shù)據(jù)平臺與算法、行業(yè)實(shí)戰(zhàn)數(shù)據(jù)分析三個(gè)層次來搭建。通過典型的算法展示、算法實(shí)現(xiàn)結(jié)合大數(shù)據(jù)分析的應(yīng)用場景與案例對學(xué)生進(jìn)行數(shù)據(jù)分析方面的綜合訓(xùn)練,從而實(shí)現(xiàn)專業(yè)實(shí)驗(yàn)教學(xué)的由點(diǎn)及面、理論到應(yīng)用、涵蓋原理驗(yàn)證/綜合應(yīng)用/自主設(shè)計(jì)

16、及創(chuàng)新的多層次實(shí)驗(yàn)體系。3.1 基礎(chǔ)環(huán)境建設(shè)實(shí)驗(yàn)室基礎(chǔ)環(huán)境建設(shè)主要是支撐實(shí)驗(yàn)室教學(xué)運(yùn)行的基本環(huán)境配套建設(shè),包括學(xué)生實(shí)驗(yàn)用桌椅、教學(xué)用投影音響器材、實(shí)驗(yàn)室空調(diào)系統(tǒng)、綜合布線系統(tǒng)、安防監(jiān)控系統(tǒng)及實(shí)驗(yàn)室裝修系統(tǒng)等。通過這些基礎(chǔ)支撐環(huán)境的建設(shè),才能保證實(shí)驗(yàn)室正常為教學(xué)和科研服務(wù)。綜合基礎(chǔ)環(huán)境建設(shè)的各項(xiàng)內(nèi)容,針對實(shí)驗(yàn)室的空間環(huán)境及現(xiàn)代實(shí)驗(yàn)教學(xué)的發(fā)展趨勢,一個(gè)實(shí)驗(yàn)班級50個(gè)學(xué)生可分為5個(gè)實(shí)驗(yàn)組,每組可安排10個(gè)學(xué)生同時(shí)進(jìn)行實(shí)驗(yàn),這樣可安排50個(gè)學(xué)生同時(shí)進(jìn)行數(shù)據(jù)挖掘與大數(shù)據(jù)分析相關(guān)的實(shí)驗(yàn)課程。3.1.1 IT環(huán)境建設(shè)IT 環(huán)境建設(shè)包括實(shí)驗(yàn)終端個(gè)人電腦和存儲規(guī)劃建設(shè)。學(xué)生實(shí)驗(yàn)終端計(jì)算機(jī)一方面可以采用普通終端P

17、C 機(jī),組合成實(shí)驗(yàn)室局域網(wǎng),支撐學(xué)生進(jìn)行實(shí)驗(yàn),另一方面隨著云計(jì)算技術(shù)的發(fā)展,學(xué)生計(jì)算機(jī)可以采用虛擬桌面云終端的設(shè)計(jì)方式,通過采用專用云資源服務(wù)器及存云調(diào)度設(shè)備進(jìn)行設(shè)計(jì),利用服務(wù)器虛擬化的方法來對終端進(jìn)行支撐,用戶通過部署在實(shí)驗(yàn)臺的瘦客戶端進(jìn)行實(shí)驗(yàn)操作,所有應(yīng)用、數(shù)據(jù)統(tǒng)一存放在后臺服務(wù)器,虛擬桌面云終端不存放任何數(shù)據(jù),可被管理工具統(tǒng)一管理,包括分發(fā)系統(tǒng)、更新軟件、遠(yuǎn)程監(jiān)控、審計(jì)等操作。虛擬桌面云平臺也通過虛擬化平臺的管理工具管理,大大降低維護(hù)人員的重復(fù)工作量。3.1.2 網(wǎng)絡(luò)環(huán)境建設(shè)數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室網(wǎng)絡(luò)部署環(huán)境如圖1所示。其中,路由器和交換機(jī)數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 等網(wǎng)絡(luò)設(shè)備將用戶

18、和存儲連接起來,是用戶之間以及用戶與資源之間的通信設(shè)備;實(shí)訓(xùn)平臺設(shè)備提供云存儲和統(tǒng)一資源調(diào)度系統(tǒng)功能,其可以是一臺設(shè)備,也可以是多臺設(shè)備的集群部署,以提高設(shè)備的虛擬化能力,用戶通過統(tǒng)一資源調(diào)度平臺調(diào)用其中的所所有資源,而無需關(guān)注硬件設(shè)備;管理員可以對平臺進(jìn)行統(tǒng)一管理,包括賬戶管理、資源管理、實(shí)驗(yàn)管理等;普通用戶可以通過平臺進(jìn)行各項(xiàng)數(shù)據(jù)挖掘?qū)嶒?yàn)及技術(shù)驗(yàn)證等操作。針對校方已有的網(wǎng)絡(luò)設(shè)備,可以進(jìn)行整合,而且相關(guān)設(shè)備與模塊也可根據(jù)校方專業(yè)教學(xué)和實(shí)驗(yàn)室建設(shè)的具體情況進(jìn)行選擇。 圖 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)3.2 實(shí)驗(yàn)平臺功能教學(xué)實(shí)訓(xùn)平臺建設(shè)通過云計(jì)算虛擬化平臺及教育管理平臺實(shí)現(xiàn)教學(xué)實(shí)訓(xùn)平臺

19、的建設(shè)。云計(jì)算虛擬平臺通過云計(jì)算管理平臺為計(jì)算機(jī)教學(xué)虛擬各種實(shí)驗(yàn)操作環(huán)境,讓學(xué)生進(jìn)行各種數(shù)據(jù)挖掘算法的演示與開發(fā),真實(shí)體驗(yàn)數(shù)據(jù)科學(xué)在實(shí)際環(huán)境中的應(yīng)用。教育培訓(xùn)管理平臺即我們通常說的網(wǎng)絡(luò)學(xué)習(xí)平臺, 是一種基礎(chǔ)性技術(shù)平臺。 它以課程管理為中心、學(xué)習(xí)活動驅(qū)動的一套輔助性培訓(xùn)信息化解決方案軟件系統(tǒng)。創(chuàng)新性引進(jìn)了模擬仿真教學(xué)的理念, 可將面授課堂完全搬到網(wǎng)絡(luò)進(jìn)行, 同時(shí)引進(jìn)了培訓(xùn)班的概念, 將課程學(xué)習(xí)及考試與培訓(xùn)班有機(jī)結(jié)合, 對在線培訓(xùn)進(jìn)行有效管理。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室3.2.1 用戶管理功能根據(jù)學(xué)校實(shí)際情況,管理員可以自定義添加刪除專業(yè)、年級和班級,通過Excel 表格批量導(dǎo)入導(dǎo)出用戶。根據(jù)實(shí)驗(yàn)

20、環(huán)境也可進(jìn)行用戶的自主注冊,由管理員審核后即可進(jìn)行登錄。 專業(yè)、年級、班級列表 批量導(dǎo)入用戶列表3.2.2 實(shí)驗(yàn)管理功能根據(jù)教學(xué)安排制定課程表,安排學(xué)生的選修課和必修課,最后通過課程調(diào)度可以按課程或者按用戶進(jìn)行安排課程。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 課程表3.2.3 課件資源管理功能針對高等院校計(jì)算機(jī)、商科、統(tǒng)計(jì)等學(xué)科相關(guān)專業(yè)德爾要求,本實(shí)驗(yàn)平臺開發(fā)了包括低中高不同難度的17大類近百個(gè)實(shí)現(xiàn)項(xiàng)目。實(shí)驗(yàn)涵蓋了統(tǒng)計(jì)分析、軟件應(yīng)用、算法展示、統(tǒng)計(jì)算法開發(fā)以及大數(shù)據(jù)計(jì)算等內(nèi)容,可以滿足不同學(xué)科不同層次學(xué)生的學(xué)習(xí)需求。針對這些實(shí)驗(yàn)內(nèi)容,實(shí)驗(yàn)平臺開發(fā)了相應(yīng)的實(shí)驗(yàn)指導(dǎo)書、實(shí)驗(yàn)數(shù)據(jù)說明以及實(shí)驗(yàn)數(shù)據(jù)等課件資源。學(xué)生

21、可利用這些資源順利完成實(shí)驗(yàn)內(nèi)容。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 課件資源3.2.4 實(shí)驗(yàn)加載功能通過web 瀏覽器直接登錄實(shí)訓(xùn)平臺并啟動實(shí)驗(yàn),參照實(shí)驗(yàn)課件可以進(jìn)行自主學(xué)習(xí)。在學(xué)生進(jìn)行實(shí)驗(yàn)的過程當(dāng)中,教師可以隨時(shí)進(jìn)行遠(yuǎn)程協(xié)助,對學(xué)生進(jìn)行指導(dǎo)。實(shí)驗(yàn)結(jié)束后,自動釋放系統(tǒng)資源。 學(xué)生實(shí)驗(yàn)環(huán)境數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室3.2.5 考試管理功能針對實(shí)驗(yàn)課程在線進(jìn)行課程實(shí)訓(xùn)考核,學(xué)生可根據(jù)老師的要求提交實(shí)驗(yàn)報(bào)告,老師在后臺進(jìn)行評分。 實(shí)驗(yàn)報(bào)告 成績數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 后臺打分3.2.6 Hadoop管理功能針對大數(shù)據(jù)處理機(jī)群,后臺提供可視化的管理界在,可查看計(jì)算資源使用情況,可根據(jù)使用情況對機(jī)群進(jìn)行管理

22、及資源分配。 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 Hadoop 機(jī)群管理3.2.7 部署方式簡易數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)平臺部署非常簡易,通過一根網(wǎng)線接入到實(shí)驗(yàn)室網(wǎng)絡(luò)中,客戶端無須安裝任何客戶端軟件,即可完成設(shè)備的部署和環(huán)境的搭建。學(xué)生通過web 頁面訪問設(shè)備并進(jìn)行實(shí)驗(yàn),教師和管理員通過web 頁面進(jìn)行實(shí)驗(yàn)和設(shè)備的管理。實(shí)驗(yàn)平臺所需的計(jì)算資源均通過虛擬化的方式提供,可靈活適應(yīng)教學(xué)實(shí)驗(yàn)與科研工作需求。3.2.8 科研創(chuàng)新支撐數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)平臺通過虛擬機(jī)的方式為學(xué)生提供了實(shí)驗(yàn)開發(fā)與操作平臺,同時(shí)也為教師科研提供專門的算法開發(fā)平臺。通過這些算法平臺,教師可方便地進(jìn)行數(shù)據(jù)爬取、文本分析、算法實(shí)現(xiàn)等開

23、發(fā)工作,并且通過實(shí)驗(yàn)平臺所提供的Hadoop 運(yùn)算環(huán)境,自由設(shè)計(jì)算法處理數(shù)據(jù)。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 開啟科研虛擬機(jī) 實(shí)際科研數(shù)據(jù)案例分析3.3 實(shí)訓(xùn)平臺特色云計(jì)算虛擬功能平臺采用云虛擬化技術(shù),包括OS 虛擬化(單平臺多操作系統(tǒng),容易擴(kuò)展遷移)、APP 虛擬化(一次安裝,隨處使用,方便共享)、實(shí)驗(yàn)環(huán)境虛擬化(用戶接入實(shí)訓(xùn)平臺,使用云虛擬環(huán)境提供的在線實(shí)驗(yàn)服務(wù)),提高了單臺產(chǎn)品虛擬化能力,擴(kuò)充了實(shí)驗(yàn)環(huán)境,達(dá)到了一臺設(shè)備就是一個(gè)實(shí)驗(yàn)室的效果,降低了投入成本和維護(hù)成本。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 虛擬機(jī)管理 鏡像生成器功能用戶可以非常方便的完成所需設(shè)備的鏡像制作以及新實(shí)驗(yàn)的環(huán)境搭建,無需購買新的

24、硬件設(shè)備。 簡便快捷整合功能可以將實(shí)驗(yàn)需要的材料、虛擬機(jī)資源、網(wǎng)絡(luò)、存儲資源等整合成全新的實(shí)驗(yàn)供用戶使用。 實(shí)驗(yàn)課程并發(fā)功能教師可以同時(shí)開展多個(gè)大數(shù)據(jù)分析課程,通過啟動不動的實(shí)驗(yàn)課件,為不同的學(xué)員分配相應(yīng)的實(shí)驗(yàn)課程。 實(shí)驗(yàn)考評功能提供教師編寫考題的功能,可針對自身教學(xué)的需要,根據(jù)實(shí)驗(yàn)內(nèi)容或相關(guān)知識點(diǎn)編寫試題及答案加入題庫;在給學(xué)生分配實(shí)驗(yàn)的同時(shí)可以引入相關(guān)的實(shí)驗(yàn)考題,學(xué)生在完成實(shí)驗(yàn)后回答相關(guān)的試題,系統(tǒng)將根據(jù)提交結(jié)果自動進(jìn)行評分。 統(tǒng)一管理功能平臺具備統(tǒng)一數(shù)據(jù)管理、實(shí)驗(yàn)內(nèi)容管理等功能,結(jié)合真實(shí)網(wǎng)絡(luò)、Hadoop 環(huán)境、行業(yè)應(yīng)用數(shù)據(jù)進(jìn)行信息大數(shù)據(jù)分析實(shí)驗(yàn)。四. 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)課程內(nèi)容數(shù)

25、據(jù)挖掘與大數(shù)據(jù)分析涉及到概率論與數(shù)理統(tǒng)計(jì)、算法與數(shù)據(jù)結(jié)構(gòu)、程序語言開發(fā)、數(shù)據(jù)挖掘、計(jì)算機(jī)網(wǎng)絡(luò)、并行計(jì)算等多門學(xué)科。本實(shí)驗(yàn)課程的內(nèi)容涵蓋了上述所數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室涉及到的內(nèi)容,并按照實(shí)驗(yàn)內(nèi)容的復(fù)雜度分為初級、中級以及高級三個(gè)等級。同時(shí)實(shí)驗(yàn)課程也根據(jù)面向的專業(yè)不同,將實(shí)驗(yàn)內(nèi)容分為了演示實(shí)驗(yàn)、一般操作性實(shí)驗(yàn)、開發(fā)性實(shí)驗(yàn)以及大數(shù)據(jù)開放實(shí)驗(yàn)等不同實(shí)現(xiàn)內(nèi)容。這些內(nèi)容的交叉組合可以實(shí)現(xiàn)針對不同專業(yè)與不同層次學(xué)生的實(shí)驗(yàn)課程設(shè)計(jì)。實(shí)驗(yàn)內(nèi)容有4類共計(jì)100多個(gè)實(shí)驗(yàn)項(xiàng)目,采用實(shí)驗(yàn)管理系統(tǒng),能夠?yàn)閿?shù)據(jù)挖掘與大數(shù)據(jù)教學(xué)及科研提供一個(gè)完整的、一體化的實(shí)驗(yàn)教學(xué)環(huán)境,從而打造出全方位的專業(yè)大數(shù)據(jù)分析實(shí)驗(yàn)室。數(shù)據(jù)挖掘與

26、大數(shù)據(jù)分析實(shí)驗(yàn)室 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室4.1 Excel 數(shù)據(jù)處理Excel 是微軟公司office 系列辦公軟件的組件之一,它是一個(gè)功能強(qiáng)大的電子表格程序。Excel 不僅可以將整齊而美觀的表格呈現(xiàn)給用戶,還可以用來進(jìn)行數(shù)據(jù)的分析和預(yù)測,完成許多復(fù)雜的數(shù)據(jù)運(yùn)算,幫助使用者做出更加有根據(jù)的決策。同時(shí)它還具有強(qiáng)大的可視化功能可以將表格中的數(shù)據(jù)通過各種各樣的圖形、圖表的形式表現(xiàn)出來,增強(qiáng)表格的表達(dá)力和感染力。因此Excel 是用于數(shù)據(jù)挖掘與數(shù)據(jù)分析的最基本軟件工具。本類實(shí)驗(yàn)主要側(cè)重Excel 數(shù)據(jù)處理的教學(xué),對學(xué)生無任何基礎(chǔ)要求。本類實(shí)驗(yàn)包括:Excel 基本操作、數(shù)據(jù)可視化、函數(shù)與公式、透

27、視表和基本的數(shù)據(jù)分析方法。通過本類實(shí)驗(yàn),學(xué)生可以掌握Excel 數(shù)據(jù)處理的基本方法。 4.2 統(tǒng)計(jì)與建模方法演示統(tǒng)計(jì)學(xué)是通過搜索、整理、分析數(shù)據(jù)等手段,以達(dá)到推斷所測對象的本質(zhì),甚至預(yù)測對象未來的一門綜合性科學(xué)。其中用到了大量的數(shù)學(xué)及其它學(xué)科的專業(yè)知識,它的使用范圍幾乎覆蓋了社會科學(xué)和自然科學(xué)的各個(gè)領(lǐng)域。建模就是建立模型,就是為了理解事物而對事物做出的一種抽象,是對事物的一種無歧義的書面描述。建立系統(tǒng)模型的過程,又稱模型化。建模是研究系統(tǒng)的重要手段和前提。本類實(shí)驗(yàn)主要側(cè)重統(tǒng)計(jì)學(xué)方法以及常用數(shù)學(xué)建模方法的演示,對學(xué)生無編程基礎(chǔ)要求,也并不會涉及任何代碼。本類實(shí)驗(yàn)包括:統(tǒng)計(jì)推斷基礎(chǔ)、統(tǒng)計(jì)分布、假設(shè)

28、檢驗(yàn)、數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室基本線性回歸、多變量線性回歸和廣義線性模型。通過本類實(shí)驗(yàn),學(xué)生可以掌握統(tǒng)計(jì)與建模的一般方法和流程。 4.3 數(shù)據(jù)挖掘方法演示數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。本類實(shí)驗(yàn)主要側(cè)重?cái)?shù)據(jù)挖掘方法的演示,對學(xué)生無編程基礎(chǔ)要求,也并不會涉及任何代碼。本類實(shí)驗(yàn)包括:數(shù)據(jù)可視化、聚類、數(shù)據(jù)降維、分類基礎(chǔ)、決策樹分類方法、高級分類方法和關(guān)聯(lián)分析。通過本類實(shí)驗(yàn),學(xué)生可以掌握數(shù)據(jù)挖掘的常用方法和流程。數(shù)據(jù)挖掘與大數(shù)據(jù)分

29、析實(shí)驗(yàn)室 4.4 SAS 編程基礎(chǔ)SAS (全稱STATISTICAL ANALYSIS SYSTEM,簡稱SAS )是全球最大的軟件公司之一,是由美國NORTH CAROLINA州立大學(xué)1966年開發(fā)的統(tǒng)計(jì)分析軟件。經(jīng)歷了許多版本,并經(jīng)過多年來的完善和發(fā)展,SAS 系統(tǒng)在國際上已被譽(yù)為統(tǒng)計(jì)分析的標(biāo)準(zhǔn)軟件,在各個(gè)領(lǐng)域得到廣泛應(yīng)用。本類實(shí)驗(yàn)主要側(cè)重SAS 編程的教學(xué),對學(xué)生無編程基礎(chǔ)要求。本類實(shí)驗(yàn)包括:SAS 基礎(chǔ)、控制語句、數(shù)據(jù)類型、常用函數(shù)和程序調(diào)試。通過本類實(shí)驗(yàn),學(xué)生可以掌握SAS 編程的基本方法。 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室4.5 R 語言編程基礎(chǔ)R 語言是一套完整的數(shù)據(jù)處理、計(jì)算和制圖

30、軟件系統(tǒng)。其功能包括:數(shù)據(jù)存儲和處理系統(tǒng)、數(shù)組運(yùn)算工具(其向量、矩陣運(yùn)算方面功能尤其強(qiáng)大)、完整連貫的統(tǒng)計(jì)分析工具、優(yōu)秀的統(tǒng)計(jì)制圖功能、簡便而強(qiáng)大的編程語言,可操縱數(shù)據(jù)的輸入和輸出,可實(shí)現(xiàn)分支、循環(huán),用戶可自定義功能。本類實(shí)驗(yàn)主要側(cè)重R 語言編程的教學(xué),對學(xué)生無編程基礎(chǔ)要求。本類實(shí)驗(yàn)包括:R 語言基礎(chǔ)、控制語句、數(shù)據(jù)類型、常用函數(shù)和程序調(diào)試。通過本類實(shí)驗(yàn),學(xué)生可以掌握R 語言編程的基本方法。 4.6 MySQL 數(shù)據(jù)庫操作MySQL 是一個(gè)關(guān)系型數(shù)據(jù)庫管理系統(tǒng),是最流行的關(guān)系數(shù)據(jù)庫管理系統(tǒng)應(yīng)用軟件之一。MySQL 所使用的 SQL 語言是用于訪問數(shù)據(jù)庫的最常用標(biāo)準(zhǔn)化語言。由于其體積小、速度快、

31、總體擁有成本低,尤其是開放源碼這一特點(diǎn),一般中小型網(wǎng)站的開發(fā)都選擇 MySQL 作為網(wǎng)站數(shù)據(jù)庫。由于其社區(qū)版的性能卓越,搭配 PHP 和 Apache 可組成良好的開發(fā)環(huán)境。本類實(shí)驗(yàn)主要側(cè)重SQL 編程和MySQL 的使用,對學(xué)生無編程基礎(chǔ)要求。本類實(shí)驗(yàn)包括:MySQL 配置、SQL 中的DDL 、DML 和DCL 語句、MySQL 常用函數(shù)、存儲過程和自定義函數(shù)。通過本類實(shí)驗(yàn),學(xué)生可以掌握MySQL 數(shù)據(jù)庫的基本使用方法和SQL 編程的基本方法。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 4.7 JAVA 數(shù)據(jù)爬取網(wǎng)絡(luò)爬蟲,又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳

32、本。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL 開始,獲得初始網(wǎng)頁上的URL ,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL 放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。本類實(shí)驗(yàn)主要側(cè)重用JAVA 編寫爬蟲程序的基本步驟和模塊,要求學(xué)生在實(shí)驗(yàn)前掌握基本的JAVA 語法和JAVA 程序的調(diào)試方法。本類實(shí)驗(yàn)包括:抓取網(wǎng)頁、處理HTML 頁面、非HTML 正文提取、設(shè)計(jì)爬蟲隊(duì)列和并行爬蟲。通過本類實(shí)驗(yàn),學(xué)生可以掌握用JAVA 編寫爬蟲程序的基本方法。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 4.8 Excel 高級編程在Excel 中,有些數(shù)據(jù)分析的高級功能需要掌握VBA 才能充分實(shí)現(xiàn)。Visual Basic for

33、 Applications (VBA )是Visual Basic 的一種宏語言,是微軟開發(fā)出來在其桌面應(yīng)用程序中執(zhí)行通用的自動化任務(wù)的編程語言。主要能用來擴(kuò)展Windows 的應(yīng)用程式功能,特別是Microsoft Office軟件。本類實(shí)驗(yàn)主要側(cè)重Excel VBA 的教學(xué),要求學(xué)生在實(shí)驗(yàn)前先完成Excel 數(shù)據(jù)處理實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:VBA 程序基礎(chǔ)、控制語句、常用函數(shù)和綜合應(yīng)用。通過本類實(shí)驗(yàn),學(xué)生可以掌握Excel VBA編程的基本方法。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 4.9 SAS 統(tǒng)計(jì)與建模SAS 具有強(qiáng)大的統(tǒng)計(jì)與建模功能,可以進(jìn)行基本的統(tǒng)計(jì)檢驗(yàn)、線性回歸、方差分析、列聯(lián)表檢驗(yàn)等基本統(tǒng)

34、計(jì)分析,還可以進(jìn)行曲線擬合、線性回歸以及廣義線性模型擬合。本類實(shí)驗(yàn)主要側(cè)重用SAS 進(jìn)行統(tǒng)計(jì)與建模的基本方法,要求學(xué)生在實(shí)驗(yàn)前先完成統(tǒng)計(jì)與建模方法演示和SAS 編程基礎(chǔ)實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:SAS 統(tǒng)計(jì)推斷基礎(chǔ)、統(tǒng)計(jì)分布、假設(shè)檢驗(yàn)、基本線性回歸、多變量線性回歸和廣義線性模型。通過本類實(shí)驗(yàn),學(xué)生可以掌握用SAS 進(jìn)行統(tǒng)計(jì)與建模的常用方法和流程。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 4.10 SAS 數(shù)據(jù)挖掘SAS Enterprise Miner (SAS EM 是一個(gè)圖形化界面,菜單驅(qū)動的,拖拉式操作,對用戶非常友好且功能強(qiáng)大的數(shù)據(jù)挖掘集成環(huán)境。其中集成了數(shù)據(jù)獲取工具、數(shù)據(jù)抽樣工具、數(shù)據(jù)篩選工具、數(shù)據(jù)變量

35、轉(zhuǎn)換工具、數(shù)據(jù)挖掘數(shù)據(jù)庫、數(shù)據(jù)挖掘過程、多種形式的回歸工具、為建立決策樹的數(shù)據(jù)剖分工具、決策樹瀏覽工具、人工神經(jīng)元網(wǎng)絡(luò)和數(shù)據(jù)挖掘的評價(jià)工具。本類實(shí)驗(yàn)主要側(cè)重用SAS EM進(jìn)行數(shù)據(jù)挖掘方法的基本方法,要求學(xué)生在實(shí)驗(yàn)前先完成數(shù)據(jù)挖掘方法演示和SAS 編程基礎(chǔ)實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:SAS 數(shù)據(jù)可視化、聚類、數(shù)據(jù)降維、分類基礎(chǔ)、決策樹分類方法、高級分類方法和關(guān)聯(lián)分析。通過本類實(shí)驗(yàn),學(xué)生可以掌握用SAS EM進(jìn)行數(shù)據(jù)挖掘的常用方法和流程。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 4.11 R 語言統(tǒng)計(jì)與建模R 語言具有強(qiáng)大的統(tǒng)計(jì)與建模功能。R 并不是僅僅提供若干統(tǒng)計(jì)程序、使用者只需指定數(shù)據(jù)庫和若干參數(shù)便可進(jìn)行一個(gè)統(tǒng)計(jì)分

36、析。R 的思想是:它可以提供一些集成的統(tǒng)計(jì)工具,但更大量的是它提供各種數(shù)學(xué)計(jì)算、統(tǒng)計(jì)計(jì)算的函數(shù),從而使使用者能靈活機(jī)動的進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法。本類實(shí)驗(yàn)主要側(cè)重用R 語言進(jìn)行統(tǒng)計(jì)與建模的基本方法,要求學(xué)生在實(shí)驗(yàn)前先完成統(tǒng)計(jì)與建模方法演示和R 語言編程基礎(chǔ)實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:R 語言統(tǒng)計(jì)推斷基礎(chǔ)、統(tǒng)計(jì)分布、假設(shè)檢驗(yàn)、基本線性回歸、多變量線性回歸和廣義線性模型。通過本類實(shí)驗(yàn),學(xué)生可以掌握用R 語言進(jìn)行統(tǒng)計(jì)與建模的常用方法和流程。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 4.12 R 語言數(shù)據(jù)挖掘R 語言在數(shù)據(jù)挖掘方面應(yīng)用廣泛,包含了大量的數(shù)據(jù)挖掘方面的算法包,使得它成為一款優(yōu)秀的、不

37、可多得的數(shù)據(jù)挖掘工具軟件。本類實(shí)驗(yàn)主要側(cè)重用R 語言進(jìn)行數(shù)據(jù)挖掘方法的基本方法,要求學(xué)生在實(shí)驗(yàn)前先完成數(shù)據(jù)挖掘方法演示和R 語言編程基礎(chǔ)實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:R 語言數(shù)據(jù)可視化、聚類、數(shù)據(jù)降維、分類基礎(chǔ)、決策樹分類方法、高級分類方法和關(guān)聯(lián)分析。通過本類實(shí)驗(yàn),學(xué)生可以掌握用R 語言進(jìn)行數(shù)據(jù)挖掘的常用方法和流程。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室 4.13 Hadoop 大數(shù)據(jù)分析Hadoop 是一個(gè)由Apache 基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲。Hadoop 實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distri

38、buted File System ),簡稱HDFS 。HDFS 有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上;而且它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。HDFS 放寬了POSIX 的要求,可以以流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。本類實(shí)驗(yàn)主要側(cè)重用Hadoop 進(jìn)行大數(shù)據(jù)分析的基本方法,要求學(xué)生在實(shí)驗(yàn)前先完成MySQL 數(shù)據(jù)庫操作實(shí)驗(yàn)。本類實(shí)驗(yàn)包括:Hadoop 配置、基本操作、基本MR 程序開發(fā)、迭代式MR 程序開發(fā)、高級MR 程序開發(fā)和Hive 數(shù)據(jù)庫操作。通過本類實(shí)驗(yàn),學(xué)生可以掌握用Hadoop 進(jìn)行大數(shù)據(jù)分析的常用方法和流程。數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室

39、4.14 JAVA 自然語言處理自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實(shí)現(xiàn)自然語言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。本類實(shí)驗(yàn)主要側(cè)重用JAVA 進(jìn)行自然語言處理的基本方法,要求學(xué)生在實(shí)驗(yàn)前掌握基本的JAVA 語法和JAVA 程序的調(diào)試方法。本類實(shí)驗(yàn)包括

40、:字符串編碼、正則表達(dá)式、自動分詞、句法分析和語義分析。通過本類實(shí)驗(yàn),學(xué)生可以掌握用JAVA 編進(jìn)行自然語言處理的基本方法。 數(shù)據(jù)挖掘與大數(shù)據(jù)分析實(shí)驗(yàn)室4.15 SAS 數(shù)據(jù)分析綜合應(yīng)用SAS 被稱贊為“世界五百強(qiáng)背后的管理大師”。個(gè)中的原因就在于,企業(yè) 通過使用SAS 的商業(yè)智能軟件,能夠從海量的數(shù)據(jù)中,挖掘出不易認(rèn)知的各種聯(lián)系。大量企業(yè)正在使用SAS 進(jìn)行市場營銷的策略分析和研究,在市場細(xì)分、 客戶流失管理、信用管理等諸多領(lǐng)域業(yè)已取得了初步的成效。因此,學(xué)生掌握SAS 的綜合應(yīng)用對未來的職場競爭力有著舉足輕重的作用。本類實(shí)驗(yàn)主要側(cè)重用SAS 在數(shù)據(jù)分析中的綜合應(yīng)用案例,要求學(xué)生在實(shí)驗(yàn)前先完

41、成SAS 統(tǒng)計(jì)與建模和SAS 數(shù)據(jù)挖掘?qū)嶒?yàn)。本類實(shí)驗(yàn)包括:SAS 建立信用評分模型、預(yù)測股票市場收益、預(yù)測經(jīng)濟(jì)指標(biāo)、偵測欺詐交易、微陣列樣本分類。通過本類實(shí)驗(yàn),學(xué)生可以掌握用SAS 處理真實(shí)案例的常用方法和流程。 4.16 R 語言數(shù)據(jù)分析綜合應(yīng)用在Tiobe 公布的編程語言排行榜上,R 語言位列第27位,市場占有率目前是0.5%,SAS 目前是0.386%,排在第35位??梢姡琑 語言比SAS 使用人數(shù)更多。R 語言是全世界最強(qiáng)大的用于統(tǒng)計(jì)計(jì)算分析的計(jì)算機(jī)語言。它可以計(jì)算所有的統(tǒng)計(jì)學(xué)方程式。R 語言不只是一門計(jì)算機(jī)語言,而是一個(gè)工具包,一個(gè)群落,一個(gè)眾多免費(fèi)軟件的集合。有了開源的R 語言,人人都能夠準(zhǔn)確地知道他們的房子、車子、公司和前景到底如何。許多世界五百強(qiáng)企業(yè)也正逐漸引入R 語言作為他們分析環(huán)境的一部分。本類實(shí)驗(yàn)主要側(cè)重用R 語言在數(shù)據(jù)分析中的綜合應(yīng)用案例,要求學(xué)生在實(shí)驗(yàn)前先完成R 語言統(tǒng)計(jì)與建模和R 語言數(shù)據(jù)挖掘?qū)嶒?yàn)。本類實(shí)驗(yàn)包括:R 語言建立信用評分模型、預(yù)測股票市場收益、預(yù)測經(jīng)濟(jì)指標(biāo)、偵測欺詐交易、微陣列樣本分類。通過本類實(shí)驗(yàn),學(xué)生可以掌握用R 語言處理真實(shí)案例的常

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論