旅游大數(shù)據(jù)平臺方案_第1頁
旅游大數(shù)據(jù)平臺方案_第2頁
旅游大數(shù)據(jù)平臺方案_第3頁
旅游大數(shù)據(jù)平臺方案_第4頁
旅游大數(shù)據(jù)平臺方案_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、.旅游研究院大數(shù)據(jù)挖掘與分析科研平臺建設(shè)方案.一.背景1.1 數(shù)據(jù)挖掘和大數(shù)據(jù)分析行業(yè)背景和發(fā)展趨勢移動(dòng)互聯(lián)網(wǎng)、 電子商務(wù)以及社交媒體的快速發(fā)展使得企業(yè)需要面臨的數(shù)據(jù)量成指數(shù)增長。根據(jù) IDC 數(shù)字宇宙 (DigitalUniverse) 研究報(bào)告顯示, 2020 年全球新建和復(fù)制的信息量已經(jīng)超過40ZB,是 2015 年的 12 倍 ; 而中國的數(shù)據(jù)量則會(huì)在 2020 年超過 8ZB,比 2015 年增長 22 倍。數(shù)據(jù)量的飛速增長帶來了大數(shù)據(jù)技術(shù)和服務(wù)市場的繁榮發(fā)展。IDC 亞太區(qū) ( 不含日本 ) 最新關(guān)于大數(shù)據(jù)和分析 (BDA)領(lǐng)域的市場研究表明, 大數(shù)據(jù)技術(shù)和服務(wù)市場規(guī)模將會(huì)從201

2、2 年的 5.48 億美元增加到 2017 年的 23.8 億美元,未來 5 年的復(fù)合增長率達(dá)到34.1%。該市場涵蓋了存儲(chǔ)、服務(wù)器、網(wǎng)絡(luò)、軟件以及服務(wù)市場。數(shù)據(jù)量的增長是一種非線性的增長速度。據(jù) IDC 分析報(bào)道,最近一年來,亞太區(qū)出現(xiàn)了越來越廣泛的大數(shù)據(jù)和分析領(lǐng)域的應(yīng)用案例。在中國,從互聯(lián)網(wǎng)企業(yè),到電信、金融、政府這樣的傳統(tǒng)行業(yè),都開始采用各種大數(shù)據(jù)和分析技術(shù),開始了自己的大數(shù)據(jù)實(shí)踐之旅; 應(yīng)用場景也在逐漸拓展,從結(jié)構(gòu)化數(shù)據(jù)的分析,發(fā)展到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的分析,尤其是社交媒體信息分析受到用戶的更多關(guān)注。用戶們開始評估以Hadoop、數(shù)據(jù)庫一體機(jī)以及內(nèi)存計(jì)算技術(shù)為代表的大數(shù)據(jù)相關(guān)新型技

3、術(shù)。最新調(diào)研結(jié)果顯示, 提高競爭優(yōu)勢, 降低成本以及吸引新的客戶是中國用戶對大數(shù)據(jù)項(xiàng)目最期望的三大回報(bào)。 目前現(xiàn)有的大數(shù)據(jù)項(xiàng)目主要集中在業(yè)務(wù)流程優(yōu)化以及提高客戶滿意度方面的應(yīng)用。IDC 發(fā)現(xiàn)很多用戶希望大數(shù)據(jù)能夠?yàn)槠髽I(yè)帶.來業(yè)務(wù)創(chuàng)新,并且開始使用高級分析的解決方案以管理復(fù)雜的數(shù)據(jù)環(huán)境。過去一年中用戶對社交數(shù)據(jù)的收集和分析應(yīng)用的關(guān)注度增加明顯。未來,地理位置信息分析將會(huì)增長迅速,這也會(huì)推動(dòng)用戶對大數(shù)據(jù)安全和隱私管理的關(guān)注。在亞太區(qū),澳大利亞和新加坡的用戶對大數(shù)據(jù)的相關(guān)投資主要在咨詢服務(wù)方面,更關(guān)注如何根據(jù)新的最佳實(shí)踐需求設(shè)計(jì)和實(shí)施方案。中國和印度在大數(shù)據(jù)領(lǐng)域的硬件投資則非常明顯,更傾向于數(shù)據(jù)中心

4、相關(guān)的基礎(chǔ)架構(gòu)的投資。在傳統(tǒng)的數(shù)據(jù)分析與商業(yè)數(shù)據(jù)挖掘中, 人們通常遵循二八原則。 也就是任務(wù)20%的用戶提供了 80%的價(jià)值,因此利用優(yōu)勢資源用戶對于少數(shù)用戶的服務(wù)。隨著互聯(lián)網(wǎng)的發(fā)展, 越來越多的低價(jià)值用戶進(jìn)入到商業(yè)體系中, 這部分用戶成為商業(yè)企業(yè)競爭的目標(biāo)。 比如電商行業(yè), 大量顧客都是傳統(tǒng)意義上的低價(jià)值客戶, 數(shù)據(jù)表明對于這部分用戶價(jià)值的挖掘可以改變二八原則, 甚至可達(dá)到價(jià)值的幾乎均勻分布。并且由于計(jì)算技術(shù)的發(fā)展,對于大數(shù)據(jù)的分析也成為了可能。1.2 旅游行業(yè)開展大數(shù)據(jù)分析及應(yīng)用的意義旅游行業(yè)有行業(yè)廣、 規(guī)模大、移動(dòng)性強(qiáng)的特點(diǎn), 因此更加依賴大數(shù)據(jù)。 當(dāng)前,旅游業(yè)也在 “新常態(tài)” 下迎來了

5、升級的挑戰(zhàn)和變革的機(jī)遇,新常態(tài)對于一般的經(jīng)濟(jì)部門是經(jīng)濟(jì)速度放慢、 人均 GDP增速減小,很多傳統(tǒng)行業(yè)在調(diào)整結(jié)構(gòu),但新常態(tài)對旅游行業(yè)卻是速度加快的。旅游大數(shù)據(jù)的解決之道, 在于整合國內(nèi)多途徑的大數(shù)據(jù)源,形成旅游大數(shù)據(jù)生態(tài), 為國內(nèi)旅游業(yè)提供大數(shù)據(jù)解決方案,促進(jìn)旅游業(yè)的轉(zhuǎn)型升級。1.3 數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺建設(shè)的必要性數(shù)據(jù)挖掘與大數(shù)據(jù)分析是以計(jì)算機(jī)基礎(chǔ)為基礎(chǔ), 以挖掘算法為核心, 緊密面向行業(yè)應(yīng)用的一門綜合性學(xué)科。其主要技術(shù)涉及概率論與數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘、算法與數(shù)據(jù)結(jié)構(gòu)、 計(jì)算機(jī)網(wǎng)絡(luò)、 并行計(jì)算等多個(gè)專業(yè)方向, 因此該學(xué)科對于科研.平臺具有較高的專業(yè)要求。 科研平臺不僅要提供基礎(chǔ)的編程環(huán)境

6、, 還要提供大數(shù)據(jù)的運(yùn)算環(huán)境以及用于科學(xué)研究的實(shí)戰(zhàn)大數(shù)據(jù)案例。 這些素材的準(zhǔn)備均需完整的科研平臺作為支撐。目前,在我國高校的專業(yè)設(shè)置上與數(shù)據(jù)挖掘與大數(shù)據(jù)分析相關(guān)的學(xué)科專業(yè)包括:計(jì)算機(jī)科學(xué)與技術(shù)、信息管理與信息系統(tǒng)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)、金融、貿(mào)易、生物信息、旅游以及公共衛(wèi)生等。這些專業(yè)的在使用科研平臺時(shí)的側(cè)重點(diǎn)各不相同,使用人員層次水平也不相同, 對算法的使用也不相同, 因此,需要建設(shè)一個(gè)便利、操作簡易、算法全面、可視化的大數(shù)據(jù)科研平臺是非常有必要的。二.數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺總體規(guī)劃2.1 科研平臺規(guī)劃科研平臺建設(shè)的基本原則是科研為主,同時(shí)為教學(xué)實(shí)驗(yàn)提供部分計(jì)算資源及安全資源,系統(tǒng)在授權(quán)范圍內(nèi)

7、共享科研系統(tǒng)的計(jì)算資源,提高教學(xué)實(shí)驗(yàn)的真實(shí)性。項(xiàng)目的總體架構(gòu)如圖1 所示。.大數(shù)據(jù)科研環(huán)境Hadoop 集群Hadoop 集群可視化計(jì)算虛擬化實(shí)驗(yàn)集群集群21 U21 U21 U21 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U10 U2 U2 U2 U2 U2 U2 U千兆數(shù)據(jù)千兆數(shù)據(jù)交換機(jī)交換機(jī)核心交換機(jī)2 U圖 1. 總體架構(gòu)圖系統(tǒng)整體由千兆核心交換機(jī)作為核心節(jié)點(diǎn),并以兩個(gè)千兆接入交換機(jī)作為科研與實(shí)驗(yàn)環(huán)境的交換節(jié)點(diǎn)。科研環(huán)境由我司開發(fā)的商業(yè)Hadoop集群為基礎(chǔ),上層集成便于操作的大數(shù)據(jù)科研應(yīng)用系統(tǒng)

8、,集成10TB大數(shù)據(jù)案例集及可拖拽的數(shù)據(jù)算法和可視化算法。.2.2 科研平臺功能規(guī)劃本科研平臺針對數(shù)據(jù)挖掘有大數(shù)據(jù)分析研究內(nèi)容,兼顧科研與教學(xué)的需求,既能滿足科研工作中對大數(shù)據(jù)分析高性能平臺要求也具有教學(xué)實(shí)驗(yàn)平臺簡單易用的特點(diǎn)。1) 大數(shù)據(jù)資源規(guī)劃內(nèi)置商業(yè)級數(shù)據(jù)資源,按常見科研分類規(guī)劃數(shù)據(jù)資源,可以直接用于科學(xué)研究,具有數(shù)據(jù)資源授權(quán)管控功能。2) 大數(shù)據(jù)分析功能規(guī)劃建設(shè)以商業(yè)版 Hadoop 為核心的大數(shù)據(jù)分析平臺,系統(tǒng)提供 MapReduce以及 Spark 等大數(shù)據(jù)挖掘功能。系統(tǒng)具有完整的管理調(diào)度功能。3) 硬件資源功能規(guī)劃系統(tǒng)具有 24 個(gè) Intel Xeon E5 CPU 計(jì)算能力,

9、提供超過 40TB的存儲(chǔ)能力以及 1T 以上的內(nèi)存,可滿足 1000 任務(wù)共時(shí)計(jì)算內(nèi)能,方便擴(kuò)充。.三.數(shù)據(jù)挖掘與大數(shù)據(jù)分析科研平臺建設(shè)方案3.1 大數(shù)據(jù)科研平臺設(shè)備架構(gòu)高性能交換機(jī)高性能交換機(jī)高性能交換機(jī)主節(jié)點(diǎn)備份主節(jié)點(diǎn)管理節(jié)點(diǎn)接口節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)接口節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)機(jī)架 1機(jī)架 2機(jī)架 3圖 3. 設(shè)備架構(gòu)3.1.1主節(jié)點(diǎn)和備份主節(jié)點(diǎn)主節(jié)點(diǎn)負(fù)責(zé)整個(gè)分布式大數(shù)據(jù)平臺的運(yùn)行。主節(jié)點(diǎn)始終在內(nèi)存中保存整個(gè)文件系統(tǒng)的目錄結(jié)構(gòu), 每個(gè)目錄有哪些文件, 每個(gè)文件有哪些分塊及每個(gè)分塊保存在哪個(gè)計(jì)算上,用于處理讀寫請求。同時(shí),主節(jié)點(diǎn)還負(fù)責(zé)將作業(yè)分解成子

10、任務(wù),并將這些子任務(wù)分配到各個(gè)計(jì)算節(jié)點(diǎn)上。備份主節(jié)點(diǎn)在主節(jié)點(diǎn)發(fā)生故障時(shí)承擔(dān)主節(jié)點(diǎn)的各種任務(wù),使得分布式大數(shù)據(jù)平臺仍然能夠正常運(yùn)行。.3.1.2管理節(jié)點(diǎn)管理節(jié)點(diǎn)用于管理整個(gè)分布式大數(shù)據(jù)平臺,可進(jìn)行節(jié)點(diǎn)安裝、 配置、服務(wù)配置等,提供網(wǎng)頁窗口界面提高了系統(tǒng)配置的可見度,而且降低了集群參數(shù)設(shè)置的復(fù)雜度。3.1.3接口節(jié)點(diǎn)終端用戶通過接口節(jié)點(diǎn)連接和使用分布式大數(shù)據(jù)平臺,提交任務(wù)并獲得結(jié)果,并可以用其他數(shù)據(jù)分析工具做進(jìn)一步處理,與外界進(jìn)行數(shù)據(jù)交互 (如連接關(guān)系型數(shù)據(jù)庫)。3.1.4計(jì)算節(jié)點(diǎn)分布式大數(shù)據(jù)平臺包含了多個(gè)計(jì)算節(jié)點(diǎn)。計(jì)算節(jié)點(diǎn)是系統(tǒng)中真正存儲(chǔ)數(shù)據(jù)和做數(shù)據(jù)運(yùn)算的節(jié)點(diǎn)。 每個(gè)計(jì)算節(jié)點(diǎn)周期性地和主節(jié)點(diǎn)通信

11、,還時(shí)不時(shí)和客戶端代碼以及其他計(jì)算節(jié)點(diǎn)通信。計(jì)算節(jié)點(diǎn)還維護(hù)一個(gè)開放的socket 服務(wù)器,讓客戶端代碼和其他計(jì)算節(jié)點(diǎn)通過它可以讀寫數(shù)據(jù),這個(gè)服務(wù)器還會(huì)匯報(bào)給主節(jié)點(diǎn)。3.2 大數(shù)據(jù)科研平臺底層架構(gòu)大數(shù)據(jù)科研平臺低層架構(gòu)以我司自主研發(fā)的商業(yè)版Hadoop為基礎(chǔ)架構(gòu),包含和大數(shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等功能模塊,并以HDFS以及 Hbase 作為存儲(chǔ)基礎(chǔ)。.任務(wù)執(zhí)行調(diào)度接口數(shù)據(jù)交互接口統(tǒng)計(jì)建模(Shell)(JDBC, ODBC)(R)批處理交互式 SQL引擎機(jī)器學(xué)習(xí)算法庫內(nèi)存計(jì)算(MapReduce, Pig)(Hive)(Mahout)(Spark)管理監(jiān)控分布式資源調(diào)度管理(HonyaES-

12、data)(YARN)分布式存儲(chǔ)(Sentry)分布式持久化數(shù)據(jù)存儲(chǔ)分布式實(shí)時(shí)數(shù)據(jù)庫(HDFS)(Hbase)圖 2.軟件架構(gòu)3.2.1分布式持久化數(shù)據(jù)存儲(chǔ)HDFSHadoop 分布式文件系統(tǒng)( HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但同時(shí),它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。 HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。 HDFS放寬了一部分 POSIX約束,來實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。3.2.2分布式實(shí)時(shí)數(shù)據(jù)庫HBaseHBase是一個(gè)分布式的、

13、 面向列的開源數(shù)據(jù)庫, 該技術(shù)來源于 Fay Chang 所撰寫的Google 論文“ Bigtable :一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。就像Bigtable利用了Google 文件系統(tǒng)(所提供的分布式數(shù)據(jù)存儲(chǔ)一樣,HBase 在Hadoop之上提供了類似于BigTable 的能力。 HBase是 Apache 的 Hadoop項(xiàng)目的.子項(xiàng)目。 HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫。另一個(gè)不同的是HBase基于列的而不是基于行的模式。3.2.3分布式資源調(diào)度管理YARNYarn是Hadoop2.0 的MapReduce 框 架 。 YARN 分 層 結(jié)

14、構(gòu) 的 本 質(zhì) 是ResourceManager。這個(gè)實(shí)體控制整個(gè)集群并管理應(yīng)用程序向基礎(chǔ)計(jì)算資源的分配。ResourceManager 將各個(gè)資源部分(計(jì)算、內(nèi)存、帶寬等)精心安排給基礎(chǔ)NodeManager(YARN的每節(jié)點(diǎn)代理)。ResourceManager 還與 ApplicationMaster一起分配資源,與NodeManager 一起啟動(dòng)和監(jiān)視它們的基礎(chǔ)應(yīng)用程序。在此上下 文中 , ApplicationMaster承 擔(dān) 了以 前 的TaskTracker的一 些角 色,ResourceManager 承擔(dān)了 JobTracker的角色。3.2.4交互式 SQL引擎 Hive

15、Hive 是基于 Hadoop的一個(gè)數(shù)據(jù)倉庫工具, 可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為 MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL 語句快速實(shí)現(xiàn)簡單的MapReduce統(tǒng)計(jì),不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。3.2.5內(nèi)存計(jì)算 SparkSpark 是 UC Berkeley AMP 實(shí)驗(yàn)室所開源的類Hadoop MapReduce的通用的并行計(jì)算框架。Spark 擁有 Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于 MapReduce.的是 Job 中間輸出結(jié)果可以保存

16、在內(nèi)存中,從而不再需要讀寫HDFS,因此 Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce算法。3.3 科研平臺的功能3.3.1科研項(xiàng)目管理在科研平臺中, 科研計(jì)算是以計(jì)算項(xiàng)目來保存的,包括了計(jì)算項(xiàng)目建立、 計(jì)算項(xiàng)目維護(hù)、 計(jì)算項(xiàng)目設(shè)計(jì)、 計(jì)算項(xiàng)目運(yùn)行和結(jié)果可視化等幾個(gè)環(huán)節(jié)。從技術(shù)角度來說,計(jì)算項(xiàng)目中也包括了算法組件、算法流程和數(shù)據(jù)集,一旦設(shè)計(jì)完后,就可用于計(jì)算,后期還可以調(diào)整算法和基于新的數(shù)據(jù)資源進(jìn)行計(jì)算。計(jì)算項(xiàng)目完成后, 可以訓(xùn)練出算法模型, 在新的計(jì)算項(xiàng)目中使用已經(jīng)訓(xùn)練好的模型進(jìn)行數(shù)據(jù)的預(yù)測,形成一次訓(xùn)練多次使用的算法實(shí)現(xiàn)。3.3.2平臺內(nèi)置數(shù)據(jù)集在科研工作中,

17、如何獲取到海量高質(zhì)量大數(shù)據(jù)資源是最大的難點(diǎn)。目前在互聯(lián)網(wǎng)等渠道是很難找到科研工作所需的數(shù)據(jù)源,尤其是經(jīng)過數(shù)據(jù)清洗和治理后的高質(zhì)量數(shù)據(jù)。數(shù)據(jù)超市平臺利用以下模式, 通過外部的資源, 為高校的科研工作提供優(yōu)質(zhì)數(shù)據(jù)資源:.1)通過商務(wù)合作的模式,直接與數(shù)據(jù)所有權(quán)擁有者進(jìn)行靈活的商務(wù)溝通,獲得科研的數(shù)據(jù)使用授權(quán);2)邀請行業(yè)內(nèi)優(yōu)質(zhì)的第三方數(shù)據(jù)服務(wù)提供商入駐數(shù)據(jù)超市平臺;3)通過數(shù)據(jù)采集的方式,經(jīng)過數(shù)據(jù)尋源、采集、治理、清洗后,引入具有公開版權(quán)的數(shù)據(jù)資源;所有引入數(shù)據(jù)都會(huì)經(jīng)過數(shù)據(jù)工程師的嚴(yán)格審核,保證數(shù)據(jù)的清潔和質(zhì)量,可以直接用于數(shù)據(jù)計(jì)算。如平臺內(nèi)置的專利數(shù)據(jù),包括了國內(nèi)近2000 萬各類商業(yè)數(shù)據(jù),并且

18、不斷更新,可以直接用于旅游各方面的科學(xué)研究。有別區(qū)目前行業(yè)提供的數(shù)據(jù)庫,數(shù)據(jù)超市直接提供了原始的數(shù)據(jù), 可以打通其他的行業(yè)數(shù)據(jù), 用于深層次的數(shù)據(jù)分析和經(jīng)濟(jì)預(yù)測。3.3.3科研數(shù)據(jù)上傳科研老師已有的數(shù)據(jù)可以上傳到平臺參與數(shù)據(jù)計(jì)算,老師可以在平臺上建立數(shù)據(jù)表,然后把本地?cái)?shù)據(jù)文件上傳到數(shù)據(jù)表中。也可以維護(hù)外部的JDBC數(shù)據(jù)源,平臺會(huì)把外部數(shù)據(jù)自動(dòng)抽取到平臺中進(jìn)行計(jì)算和預(yù)測。3.3.4集成算法組件為了便于科研老師快速進(jìn)行科研數(shù)據(jù)的加工、分析和計(jì)算,數(shù)據(jù)超市平臺集成了 50 多種通用大數(shù)據(jù)算法組件,包括回歸算法、分類算法、聚類算法、關(guān)聯(lián).規(guī)劃算法、推薦算法、預(yù)測評估、數(shù)據(jù)預(yù)處理算法、機(jī)器學(xué)習(xí)等。所有的

19、算法無須重新編程,只需要拖拽繪圖完成即可進(jìn)行計(jì)算,如下圖:算法組件經(jīng)過配置可以實(shí)現(xiàn)強(qiáng)大的自定義計(jì)算功能和效果,調(diào)整后的模型可以完成老師需要的數(shù)據(jù)分析和預(yù)測。.3.3.5科研平臺可視化功能提供 20 余種可視化展示模式,一鍵選擇,一鍵切換,可按使用者需求展示大數(shù)據(jù)之美, 根據(jù)需要展示對應(yīng)的緯度,并可以一鍵生成高質(zhì)量PNG文件,保存到本地后可用于科研報(bào)告和論文等。.四.平臺數(shù)據(jù)集清單科研平臺為方便用戶快速開展科學(xué)研究、生成科研數(shù)據(jù)報(bào)告, 平臺提供了一些通用的數(shù)據(jù)集,包括各類標(biāo)準(zhǔn)科研數(shù)據(jù)等。平臺也內(nèi)置了數(shù)百款可選數(shù)據(jù)集,分為多個(gè)數(shù)據(jù)包,總量近10TB,并且隨商務(wù)和采集工作推進(jìn),仍在不斷增加中。五.定

20、制數(shù)據(jù)服務(wù)根據(jù)科研老師的需求, 數(shù)據(jù)超市平臺提供數(shù)據(jù)采集和商務(wù)合作等定制數(shù)據(jù)引入模式,數(shù)據(jù)引入后,可以直接引入數(shù)據(jù)超市,由老師來進(jìn)行使用。.如老師需要旅游服務(wù)評價(jià)類數(shù)據(jù)進(jìn)行服務(wù)情況的分析和預(yù)測,可以直接通過數(shù)據(jù)超市內(nèi)的數(shù)據(jù)定制模塊提出數(shù)據(jù)需求,經(jīng)數(shù)據(jù)超市平臺管理員匯總后,可以通過數(shù)據(jù)超市平臺進(jìn)行數(shù)據(jù)的準(zhǔn)備,交給老師進(jìn)行使用。六.科研平臺算法清單平臺集成的算法包括72 種,全部來自科研網(wǎng)站,經(jīng)過了商業(yè)機(jī)構(gòu)的驗(yàn)證,引入平臺后完成了分布式優(yōu)化,可以高效執(zhí)行,詳細(xì)如下表:序算法分類算法名稱算法描述號1回歸算法線性回歸利用線性模型對數(shù)值型變量進(jìn)行擬合。2回歸算法決策樹回歸利用平方誤差最小化準(zhǔn)則,進(jìn)行特征

21、選擇,生成二叉樹,從而對對數(shù)值型變量進(jìn)行擬合3回歸算法隨機(jī)森林回歸以回歸決策樹為基模型,將一定數(shù)量的基模型組合對數(shù)值型變量擬合,并對基模型的預(yù)測結(jié)果平均作為算法的最終結(jié)果4回歸算法梯度提升回歸樹以二叉回歸決策樹為基函數(shù)的加法模型與前向分步結(jié)合的算法 ,通過對損失函數(shù)在當(dāng)前模型的預(yù)測值的梯度作為近似殘差進(jìn)行擬合,從而對數(shù)值型變量預(yù)測。5分類算法邏輯回歸二分類對目標(biāo)變量為二值型分類變量,建立參數(shù)化邏輯斯諦分布,即 sigmoid 函數(shù),近似條件概率分布,以實(shí)現(xiàn)二值分類。6分類算法邏輯回歸多分類邏輯回歸多分類 ,k 個(gè)獨(dú)立的 logistic回歸分類器與 onevsall 結(jié)合的分類模型 , 分類對

22、象類別之間不是互斥的.7分類算法Softmax 回歸多分類Softmax 回歸就是邏輯回歸的一般形式 ,是logistic 回歸模型在多分類問題上的推廣, 分類對象類別是互斥的8分類算法決策樹分類利用信息增益準(zhǔn)則或基尼指數(shù)最小化準(zhǔn)則,進(jìn)行特征選擇,生成二叉樹,從而對對目標(biāo)變量為離散變量的數(shù)據(jù)進(jìn)行分類9分類算法隨機(jī)森林分類以分類決策樹為基模型,將一定數(shù)量的基模型組合對離散型的目標(biāo)變量擬合,并根據(jù)基模型的預(yù)測結(jié)果進(jìn)行投票,以占多數(shù)結(jié)果的種類作為算法的最終結(jié)果10分類算法梯度提升分類樹以二叉分類決策樹為基函數(shù)的加法模型與前向分步結(jié)合的算法,通過對損失函數(shù)在當(dāng)前模型的預(yù)測值的梯度作為近似殘差進(jìn)行擬合,

23、從而對分類型目標(biāo)變量預(yù)測。11分類算法BP神經(jīng)網(wǎng)絡(luò)以感知器為基函數(shù),通過將當(dāng)前基函數(shù)的的輸出作為下一個(gè)感知器的輸入,從而實(shí)現(xiàn)對離散型分類變量的分類12分類算法貝葉斯分類基于貝葉斯定理與特征條件獨(dú)立假設(shè),對給定數(shù)據(jù)集,學(xué)習(xí)輸入輸出的聯(lián)合概率分布,利用貝葉斯原理輸出后驗(yàn)概率最大的預(yù)測類作為預(yù)測結(jié)果13分類算法支持向量機(jī)分類在感知機(jī)的基礎(chǔ)上,通過在特征空間上間隔最大和核技巧,實(shí)現(xiàn)對二類目標(biāo)變量分類14聚類算法K均值聚類將無標(biāo)記樣本根據(jù)特征空間中的數(shù)據(jù)結(jié)構(gòu),劃入K個(gè)不相交的子集中15聚類算法二分 K 均值聚類K 均值聚類的改進(jìn)版,能克服原算法收斂局部最小的缺點(diǎn),每次選其中一簇分成兩簇。16聚類算法高斯

24、混合模型對于符合高斯分布的數(shù)據(jù), 假設(shè)存在 K個(gè)高斯模型,將數(shù)據(jù)反復(fù)迭代,期望極大化。將樣本聚到后驗(yàn)概.率最大的模型類下。17關(guān)聯(lián)規(guī)則算頻繁項(xiàng)集挖掘算法(FP-Growth )主要分為兩個(gè)步驟: FP-tree構(gòu)建、遞歸挖掘法FP-tree 。挖掘出共同出現(xiàn)的頻繁物品集。18推薦算法協(xié)同過濾算法協(xié)同過濾是在海量數(shù)據(jù)中挖掘出某部分與目標(biāo)客戶行為類似的數(shù)據(jù),并根據(jù)某種指標(biāo)對其進(jìn)行排序。19預(yù)測評估分類預(yù)測及評估分類算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上,將未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測結(jié)果與實(shí)際目標(biāo)變量比對評估,檢測模型的性能。20預(yù)測評估回歸預(yù)測及評估回歸算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上,將

25、未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測結(jié)果與實(shí)際目標(biāo)變量比對評估,檢測模型的性能。21預(yù)測評估聚類預(yù)測及評估聚類算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上,將未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測結(jié)果與實(shí)際數(shù)據(jù)類型比對評估,檢測模型的性能。22預(yù)測評估推薦評估推薦算法中,在已有訓(xùn)練數(shù)據(jù)訓(xùn)練模型的基礎(chǔ)上,將未訓(xùn)練的數(shù)據(jù)代入算法中,預(yù)測結(jié)果與物品類目比對評估,檢測模型的性能。23數(shù)據(jù)預(yù)處理歸一化將有量綱的數(shù)據(jù)轉(zhuǎn)化為無量綱的數(shù)據(jù),min-max 標(biāo)準(zhǔn)化24數(shù)據(jù)預(yù)處理Join- 兩表關(guān)聯(lián)類似 sql join的功能,將兩張表通過一個(gè)字段對或者多個(gè)字段對的相等關(guān)系關(guān)聯(lián)合成一張表25數(shù)據(jù)預(yù)處理類型轉(zhuǎn)換( string類型轉(zhuǎn)換數(shù)值

26、類型)將不同數(shù)據(jù)的類型按需要進(jìn)行轉(zhuǎn)換26數(shù)據(jù)預(yù)處理Union對不同數(shù)據(jù)集取并集27數(shù)據(jù)預(yù)處理標(biāo)準(zhǔn)化 / 正則化標(biāo)準(zhǔn)化是將數(shù)據(jù)縮放到一個(gè)區(qū)間范圍內(nèi),如正態(tài)分布,小數(shù)定標(biāo),邏輯斯諦分布。正則化是利用先驗(yàn)知識,對模型增加約束,防止過擬合。28數(shù)據(jù)預(yù)處理缺失值填充對數(shù)據(jù)中某項(xiàng)數(shù)值所對應(yīng)的某些樣本缺失,通過某種先驗(yàn)假設(shè),根據(jù)樣本其他已知數(shù)據(jù)項(xiàng)對缺失值擬.合預(yù)測。29數(shù)據(jù)預(yù)處理拆分按照比例拆分樣本集,如設(shè)置0.6 ,切分成 60:40兩個(gè)樣本集。30數(shù)據(jù)預(yù)處理隨機(jī)采樣當(dāng)數(shù)據(jù)量過大或模型訓(xùn)練批容量有限時(shí),隨機(jī)采取一定量 / 比例的樣本集。31數(shù)據(jù)預(yù)處理增加序列號在數(shù)據(jù)表第一列追加ID 列。32數(shù)據(jù)預(yù)處理Se

27、lect數(shù)據(jù)庫查詢操作,查詢 某限定條件下的樣本33數(shù)據(jù)預(yù)處理Select_Distinct數(shù)據(jù)庫查詢操作,查詢某限定條件下并過濾掉重復(fù)的樣本34數(shù)據(jù)預(yù)處理Select_Where數(shù)據(jù)庫查詢操作,查詢指定條件下的樣本35數(shù)據(jù)預(yù)處理Select_And_Or數(shù)據(jù)庫查詢操作,查詢條件的交集與并集36數(shù)據(jù)預(yù)處理Select_OrderBy數(shù)據(jù)庫查詢操作,查詢結(jié)果按某指標(biāo)排序37數(shù)據(jù)預(yù)處理Select_Limit數(shù)據(jù)庫查詢操作,查詢某限定段的數(shù)據(jù)38數(shù)據(jù)預(yù)處理Select_Like數(shù)據(jù)庫查詢操作,查詢包含指定字段的數(shù)據(jù)39特征工程主成分分析數(shù)據(jù)降維去噪常用方法,對數(shù)據(jù)的協(xié)方差矩陣取前K個(gè)最大方差方向作

28、為新的數(shù)據(jù)方向。40特征工程Onehot 編碼用戶將特征值進(jìn)行二元編碼映射成二元向量,并與數(shù)值向量進(jìn)行拼接42特征工程特征尺度變換由于計(jì)算需要或根據(jù)數(shù)據(jù)特點(diǎn)將某特征對應(yīng)數(shù)據(jù)項(xiàng)進(jìn)行縮放,不改變樣本間該數(shù)值項(xiàng)的相對大小43特征工程特征重要性分析指根據(jù)數(shù)據(jù)集各項(xiàng)特征在算法模型中對目標(biāo)變量的相對重要程度的分析,從而提出冗余特征,關(guān)注重要特征,提高算法模型的效率準(zhǔn)確性44特征工程特征離散對連續(xù)型特征按某方法轉(zhuǎn)換為離散型變量45文本分析SplitWord分布式 jieba 分詞接口,基于 Trie 樹結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖( DAG);采用了動(dòng)態(tài)規(guī)劃查找.

29、最大概率路徑 ,找出基于詞頻的最大切分組合;對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了 Viterbi算法46文本分析文檔主題生成模型( LDA)LDA(Latent Dirichlet allocation),是一種主題模型,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。同時(shí)它是一種無監(jiān)督學(xué)習(xí)算法,在訓(xùn)練時(shí)不需要手工標(biāo)注的訓(xùn)練集,需要的僅僅是文檔集以及指定主題的數(shù)量 k 即可。 LDA 首先由David M. Blei 、Andrew Y. Ng 和 Michael I. Jordan于 2003 年提出,目前在文本挖掘領(lǐng)域包括文本主題識別、文本分類以及文本相似度計(jì)算方

30、面都有應(yīng)用。47文本分析TF 特征將文本文檔的集合轉(zhuǎn)換為詞頻計(jì)數(shù)的向量。48文本分析HashingTF 特征使用散列技巧將一系列詞語映射到其詞頻的向量,HashingTF 的過程就是對每一個(gè)詞作了一次哈希并對特征維數(shù)取余得到該詞的位置,然后按照該詞出現(xiàn)的次數(shù)計(jì)次。所以就不用像傳統(tǒng)方法一樣每次維護(hù)一張?jiān)~表,運(yùn)用 HashingTF就可以方便的得到該詞所對應(yīng)向量元素的位置。當(dāng)然這樣做的代價(jià)就是向量維數(shù)會(huì)非常大,好在 spark 可以支持稀疏向量,所以計(jì)算開銷并不大。49文本分析TF-IDF 特征TF-IDF (term frequency inverse documentfrequency )是一

31、種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)。 TF-IDF 是一種統(tǒng)計(jì)方法, 用以評估一字詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。 字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。 TF-IDF 加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評級。50文本分析字符串相似度一個(gè)字符串轉(zhuǎn)換成另外一個(gè)字符串的代價(jià),轉(zhuǎn)換的代價(jià)越高則說明兩個(gè)字符串的相似度越低。51文本分析停用詞過濾針對文檔數(shù)據(jù),將包含的特定詞匯過濾掉,不計(jì)入統(tǒng)計(jì)數(shù)據(jù)中.52文本分析Word2Vec53文本分析詞頻統(tǒng)計(jì)54文本分析文本摘要55文本分析關(guān)鍵詞

32、提取56文本分析長句拆分57工具算法sql 腳本58統(tǒng)計(jì)分析單樣本 T 檢驗(yàn)59統(tǒng)計(jì)分析配對樣本均數(shù)T 檢驗(yàn)Word2Vec 是一種著名的詞嵌入(Word Embedding)方法,它可以計(jì)算每個(gè)單詞在其給定語料庫環(huán)境下的 分布式詞向量( Distributed Representation,亦直接被稱為詞向量)。詞向量表示可以在一定程度上刻畫每個(gè)單詞的語義。如果詞的語義相近,它們的詞向量在向量空間中也相互接近,這使得詞語的向量化建模更加精確,可以改善現(xiàn)有方法并提高魯棒性。詞向量已被證明在許多自然語言處理問題,如:機(jī)器翻譯,標(biāo)注問題,實(shí)體識別等問題中具有非常重要的作用。Word2Vec具有兩種

33、模型, 其一是 CBOW,其思想是通過每個(gè)詞的上下文窗口詞詞向量來預(yù)測中心詞的詞向量。其二是Skip-gram ,其思想是通過每個(gè)中心詞來預(yù)測其上下文窗口詞,并根據(jù)預(yù)測結(jié)果來修正中心詞的詞向量。該組件目前只支持后者。在對文章進(jìn)行分詞的基礎(chǔ)上,按行保序輸出對應(yīng)文章 ID 列(docId) 對應(yīng)文章的詞,統(tǒng)計(jì)指定文章ID列(docId) 對應(yīng)文章內(nèi)容 (docContent) 的詞頻。通過 pagerank 算法計(jì)算得到的重要性最高的若干句子可以當(dāng)作摘要。全面把握文章的中心思想的基礎(chǔ)上,提取出若干個(gè)代表文章語義內(nèi)容的詞匯或短語根據(jù)長句中的標(biāo)點(diǎn)符號將句子進(jìn)行分割成多個(gè)短句用戶可以在該組件自定義的 S

34、QL腳本從而完成對數(shù)據(jù)的轉(zhuǎn)換處理單樣本 T 檢驗(yàn):單樣本 t 檢驗(yàn)(one-sample t-test)又稱單樣本均數(shù)t 檢驗(yàn),適用于樣本均數(shù) x 與已知總體均數(shù) u0 的比較,其比較目的是檢驗(yàn)樣本均數(shù)x所代表的總體均數(shù)u0 是否與已知總體均數(shù) u0 有差別。已知總體均數(shù)u0,一般為標(biāo)準(zhǔn)值、理論值或經(jīng)大量觀察得到的較穩(wěn)定的指標(biāo)值。T 檢驗(yàn)的前提是樣本總體服從正態(tài)分布配對樣本均數(shù) t 檢驗(yàn)( paired t test), 又稱非獨(dú).立兩樣本均數(shù)t 檢驗(yàn),適用于配對設(shè)計(jì)計(jì)量資料均數(shù)的比較,其比較目的是檢驗(yàn)兩相關(guān)樣本均數(shù)所代表的未知總體均數(shù)是否有差別。60統(tǒng)計(jì)分析兩獨(dú)立樣本均數(shù)T 檢驗(yàn)兩獨(dú)立樣本

35、t 檢驗(yàn) (two-sample t-test),又稱成組t 檢驗(yàn),它適用于完全隨機(jī)設(shè)計(jì)的兩樣本均數(shù)的比較,其目的是檢驗(yàn)兩樣本所來自總體的均數(shù)是否相等。完全隨機(jī)設(shè)計(jì)是將受試對象隨機(jī)地分配到兩組中,每組對象分別接受不同的處理,分析比較兩組的處理效應(yīng)。61統(tǒng)計(jì)分析方差齊性檢驗(yàn)由兩樣本方差推斷兩總體方差是否相同。有三種方差齊性檢驗(yàn)的方法可供選擇。選用Bartlett檢驗(yàn):如果我們的數(shù)據(jù)服從正態(tài)分布,那么這種方法將是最為適用的。對于正態(tài)分布的數(shù)據(jù),這種檢驗(yàn)極為靈敏;而當(dāng)數(shù)據(jù)為非正態(tài)分布時(shí),使用該方法則很容易導(dǎo)致假陽性誤判。 Levene 檢驗(yàn):當(dāng)樣本數(shù)據(jù)偏態(tài)或者非正態(tài)性的情況下,選用Levene 檢驗(yàn)

36、魯棒性與精度比 Bartlett 檢驗(yàn)好。Fligner-Killeen檢驗(yàn): 這是一個(gè)非參數(shù)的檢驗(yàn)方法,完全不依賴于對分布的假設(shè)。62統(tǒng)計(jì)分析卡方適配度檢驗(yàn)卡方適配度檢驗(yàn), Chi-Square Goodness of FitTest. 驗(yàn)證一組觀察值的次數(shù)分配是否異于理論上的分配。其 H0 假設(shè)(虛無假設(shè), null hypothesis)為一個(gè)樣本中已發(fā)生事件的次數(shù)分配會(huì)服從某個(gè)特定的理論分配。通常情況下這個(gè)特定的理論分配指的是均勻分配63統(tǒng)計(jì)分析卡方獨(dú)立性檢驗(yàn)卡方獨(dú)立性檢測, Chi-Square IndependenceTest ,驗(yàn)證從兩個(gè)變量抽出的配對觀察值組是否互相獨(dú)立。其虛無假設(shè)是:兩個(gè)變量呈統(tǒng)計(jì)獨(dú)立性。64統(tǒng)計(jì)分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論