大數(shù)據(jù)R語(yǔ)言介紹_第1頁(yè)
大數(shù)據(jù)R語(yǔ)言介紹_第2頁(yè)
大數(shù)據(jù)R語(yǔ)言介紹_第3頁(yè)
大數(shù)據(jù)R語(yǔ)言介紹_第4頁(yè)
大數(shù)據(jù)R語(yǔ)言介紹_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)R語(yǔ)言介紹第五章R語(yǔ)言5.1R語(yǔ)言簡(jiǎn)介5.2R與數(shù)據(jù)挖掘5.3SparkR習(xí)題of4425.1 R語(yǔ)言簡(jiǎn)介用于統(tǒng)計(jì)計(jì)算和作圖的語(yǔ)言計(jì)量經(jīng)濟(jì)學(xué)實(shí)證金融學(xué)統(tǒng)計(jì)遺傳學(xué)等免費(fèi)、開(kāi)源及統(tǒng)計(jì)模塊齊全R語(yǔ)言數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)自然語(yǔ)言處理等十大熱門(mén)編程語(yǔ)言第七位of4435.1 R語(yǔ)言簡(jiǎn)介基于S語(yǔ)言的一個(gè)GNU項(xiàng)目,語(yǔ)法來(lái)自Scheme語(yǔ)言,R語(yǔ)言的源代碼正式發(fā)布到自由軟件協(xié)會(huì)的FTP上核心開(kāi)發(fā)團(tuán)隊(duì)達(dá)到20人,來(lái)自牛津大學(xué)、AT&T實(shí)驗(yàn)室等等。不單是一門(mén)語(yǔ)言,更是一個(gè)數(shù)據(jù)計(jì)算與分析的環(huán)境,內(nèi)容涵蓋了從統(tǒng)計(jì)計(jì)算到機(jī)器學(xué)習(xí),從金融分析到生物信息,從社會(huì)網(wǎng)絡(luò)分析到自然語(yǔ)言處理,從各種數(shù)據(jù)庫(kù)各種語(yǔ)言接口到高性能計(jì)

2、算模型S語(yǔ)言1995年2013年of4445.1.1R語(yǔ)言產(chǎn)生與發(fā)展歷程5.1 R語(yǔ)言簡(jiǎn)介5.1.2 R語(yǔ)言基本功能介紹數(shù)據(jù)存儲(chǔ)和處理系統(tǒng)數(shù)組運(yùn)算工具,(其向量、矩陣運(yùn)算方面功能尤其強(qiáng)大)完整連貫的統(tǒng)計(jì)分析工具優(yōu)秀的統(tǒng)計(jì)制圖功能R語(yǔ)言是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng),主要包括以下功能of4455.1 R語(yǔ)言簡(jiǎn)介豐富的數(shù)據(jù)讀取和存儲(chǔ)能力可以保存和加載R語(yǔ)言的數(shù)據(jù),與R.data的交互是通過(guò)R語(yǔ)言的save( )函數(shù)和load()函數(shù)實(shí)現(xiàn)的能夠加載和導(dǎo)出.csv文件(write.csv()函數(shù)和read.csv()函數(shù))能夠?qū)隨PSS/SAS/Matlab等數(shù)據(jù)集可以通過(guò)RODBC接口,

3、從數(shù)據(jù)庫(kù)中導(dǎo)入數(shù)據(jù)可以通過(guò)odbcConnectExcel接口從Excel表格中導(dǎo)入數(shù)據(jù)R語(yǔ)言讀取存儲(chǔ)of4465.1 R語(yǔ)言簡(jiǎn)介豐富的數(shù)據(jù)處理功能數(shù)據(jù)挖掘中,需要花70%以上的時(shí)間在數(shù)據(jù)處理上,R語(yǔ)言提供豐富的數(shù)據(jù)處理功能篩選filter() 按給定的邏輯判斷篩選出符合要求的子數(shù)據(jù)集排列arrange() 按給定的列名依次對(duì)行進(jìn)行排序選擇select() 用列名作參數(shù)來(lái)選擇子數(shù)據(jù)集變形mutate()或transformation()用來(lái)進(jìn)行列變形匯總summarise()進(jìn)行匯總操作,返回一維結(jié)果分組分組動(dòng)作 group_by()of4475.1 R語(yǔ)言簡(jiǎn)介豐富的數(shù)據(jù)處理能力向量因子數(shù)組矩

4、陣列表R語(yǔ)言處理數(shù)據(jù)的最基本單位是向量,而不是原子數(shù)據(jù)R語(yǔ)言定義了一類(lèi)非常特殊的數(shù)據(jù)類(lèi)型:因子數(shù)組是向量和矩陣的直接推廣,是由三維或三維以上的數(shù)據(jù)構(gòu)成的較復(fù)雜的繼承關(guān)系,和數(shù)組的關(guān)系既是父親又是兒子,還是孫子列表由向量直接派生而來(lái)數(shù)據(jù)框可以將幾個(gè)不同類(lèi)型但長(zhǎng)度相同的向量合并到一個(gè)數(shù)據(jù)框特殊值數(shù)據(jù)定義了如NULL、NA、NaN、inf等特殊數(shù)據(jù)有用函數(shù)提供了獲取數(shù)據(jù)類(lèi)型信息的一些有用函數(shù)of4485.1 R語(yǔ)言簡(jiǎn)介統(tǒng)計(jì)分析應(yīng)用數(shù)學(xué)計(jì)量經(jīng)濟(jì)金融分析財(cái)經(jīng)分析生物信息學(xué)數(shù)據(jù)可視化數(shù)據(jù)挖掘人工智能R語(yǔ)言應(yīng)用領(lǐng)域of4495.1.3 R語(yǔ)言常見(jiàn)的應(yīng)用領(lǐng)域第五章R語(yǔ)言5.1R語(yǔ)言簡(jiǎn)介5.2R與數(shù)據(jù)挖掘5.3

5、SparkR習(xí)題of44105.2 R與數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining)是從大量的數(shù)據(jù)中發(fā)現(xiàn)有趣知識(shí)的過(guò)程,涉及統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別等多個(gè)交叉;主要技術(shù)包括分類(lèi)與預(yù)測(cè)、聚類(lèi)、離群點(diǎn)檢測(cè)、關(guān)聯(lián)規(guī)則、序列分析和文本挖掘以及社交網(wǎng)絡(luò)分析和情感分析等。R語(yǔ)言與數(shù)據(jù)挖掘有關(guān)的任務(wù)視圖MachineLearning:主要涉及機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí)功能Cluster:主要涉及聚類(lèi)分析和有限混合模型TimeSeries:主要涉及時(shí)間序列分析Multivariate:主要用于多元統(tǒng)計(jì)分析及其算法Spatial:主要用于空間數(shù)據(jù)分析R語(yǔ)言主要用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖,提供了大量的統(tǒng)計(jì)和制圖工具o

6、f44115.2 R與數(shù)據(jù)挖掘K-近鄰算法決策樹(shù)支持向量機(jī)分類(lèi)與預(yù)測(cè)算法分類(lèi)與預(yù)測(cè)算法of44125.2.1 R軟件包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5.2 R與數(shù)據(jù)挖掘分類(lèi)與預(yù)測(cè)算法K-近鄰算法of4413如果一個(gè)樣本與特征空間中的K個(gè)最相似(特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別 library(kknn) data(iris) m val +prob=rep(1/m,m) iris.learn iris.valid iris.kknn +kernel=triangular) summary(iris.kknn) fit table(iris.valid$Spec

7、ies,fit)fit setosa versicolor virginicasetosa 12 0 0versicolor 0 21 0virginica 0 0 17kknn函數(shù)的使用5.2.1 R軟件包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5.2 R與數(shù)據(jù)挖掘分類(lèi)與預(yù)測(cè)算法決策樹(shù)of4414iris數(shù)據(jù)集的決策樹(shù)決策樹(shù)(Decision Tree)是一種依托于分類(lèi)、訓(xùn)練上的預(yù)測(cè)樹(shù),根據(jù)已知預(yù)測(cè)、歸類(lèi)未來(lái)生成樹(shù)階段決策樹(shù)修剪階段5.2.1 R軟件包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5.2 R與數(shù)據(jù)挖掘分類(lèi)與預(yù)測(cè)算法支持向量機(jī)of4415支持向量機(jī)(Support Vector Machine,SVM)是一個(gè)二分類(lèi)

8、的辦法,即將數(shù)據(jù)集中的數(shù)據(jù)分為兩類(lèi)SVM中的超平面對(duì)比利用超平面分割數(shù)據(jù)集5.2.1 R軟件包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5.2 R與數(shù)據(jù)挖掘聚類(lèi)算法及其R包“聚類(lèi)”是根據(jù)“物以類(lèi)聚”的原理,將本身沒(méi)有類(lèi)別的樣本聚集成不同的組(或稱(chēng)為簇),并對(duì)每個(gè)簇進(jìn)行描述的過(guò)程常用的聚類(lèi)算法主要包括K-means聚類(lèi)、層次聚類(lèi)和基于密度的聚類(lèi)K-means聚類(lèi)層次聚類(lèi)基于密度的聚類(lèi)of44165.2.1 R軟件包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5.2 R與數(shù)據(jù)挖掘聚類(lèi)算法及其R包K-means聚類(lèi)of4417同一聚類(lèi)中的對(duì)象相似度較高;而不同聚類(lèi)中的對(duì)象相似度較小部分鳶尾花數(shù)據(jù)的3-means聚類(lèi)結(jié)果5.2.1 R軟件

9、包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5.2 R與數(shù)據(jù)挖掘聚類(lèi)算法及其R包層次聚類(lèi)of4418一層一層地進(jìn)行聚類(lèi),可以從下而上地把小的cluster合并聚集,也可以從上而下地將大的cluster進(jìn)行分割iris數(shù)據(jù)集中20個(gè)樣本的層次聚類(lèi)結(jié)果5.2.1 R軟件包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5.2 R與數(shù)據(jù)挖掘聚類(lèi)算法及其R包基于密度的聚類(lèi)of4419DBSCAN算法的數(shù)據(jù)集DBSCAN算法的密度聚類(lèi)結(jié)果關(guān)鍵參數(shù)可到距離,用于定義鄰域的大小eps最小數(shù)目的對(duì)象點(diǎn)MinPts5.2.1 R軟件包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5.2 R與數(shù)據(jù)挖掘離群點(diǎn)檢測(cè)與R包離群點(diǎn)檢測(cè)與R包單變量的離群點(diǎn)檢測(cè)返回的統(tǒng)計(jì)信息用于繪制箱體

10、圖實(shí)現(xiàn)多變量離群點(diǎn)的檢測(cè)多變量離群點(diǎn)檢測(cè)局部離群點(diǎn)因子檢測(cè)用聚類(lèi)方法進(jìn)行離散點(diǎn)檢測(cè)基于密度的局部離群點(diǎn)檢測(cè)將不屬于任務(wù)一類(lèi)的數(shù)據(jù)作為異常值檢測(cè)of44205.2.1 R軟件包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5.2 R與數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則與R包Groceries數(shù)據(jù)集關(guān)聯(lián)度的散點(diǎn)圖top-10關(guān)聯(lián)規(guī)則關(guān)系圖of44215.2.1 R軟件包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5.2 R與數(shù)據(jù)挖掘時(shí)間序列分類(lèi)與R包人口出生率時(shí)間序列圖出生率時(shí)間序列解構(gòu)圖of44225.2.1 R軟件包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5.2 R與數(shù)據(jù)挖掘文本挖掘提取文本中的詞語(yǔ),并統(tǒng)計(jì)頻率of44235.2.1 R軟件包與常見(jiàn)的數(shù)據(jù)挖掘算法介紹5

11、.2 R與數(shù)據(jù)挖掘背景河流中海藻的集中爆發(fā)不僅會(huì)對(duì)河流的生態(tài)環(huán)境造成破壞,還會(huì)影響河流的水質(zhì)需求基于以往的觀(guān)測(cè)數(shù)據(jù),對(duì)河流中海藻的爆發(fā)情況進(jìn)行預(yù)測(cè)并采取必要防范措施以提高河流的水質(zhì)量方法以海藻樣本數(shù)據(jù)為數(shù)據(jù)集,通過(guò)數(shù)據(jù)挖掘的方式分析影響海藻爆發(fā)的主要因素,并通過(guò)構(gòu)建預(yù)測(cè)模型,對(duì)海藻的爆發(fā)情況進(jìn)行事先預(yù)測(cè)of44245.2.2 R在數(shù)據(jù)挖掘中的應(yīng)用舉例5.2 R與數(shù)據(jù)挖掘數(shù)據(jù)集加載數(shù)據(jù)集中的數(shù)據(jù)分析預(yù)測(cè)模型的構(gòu)建模型的評(píng)價(jià)與選擇海藻爆發(fā)頻率預(yù)測(cè)完成對(duì)海藻爆發(fā)情況的實(shí)現(xiàn)預(yù)測(cè)無(wú)效數(shù)據(jù)處理of44255.2.2 R在數(shù)據(jù)挖掘中的應(yīng)用舉例5.2 R與數(shù)據(jù)挖掘of4426 lm.predictions.a

12、1 rt.predictions.a1 mae.a1.lm mae.a1.rt mae.a1.lm #顯示線(xiàn)性回歸模型預(yù)測(cè)值的平均誤差1 13.10681 mae.a1.rt #顯示回歸樹(shù)模型預(yù)測(cè)值的平均誤差1 8.480619部分代碼線(xiàn)性回歸和回歸樹(shù)模型的預(yù)測(cè)回歸樹(shù)的MAE值為8.48線(xiàn)性回歸模型的MAE值 13.11回歸樹(shù)模型的預(yù)測(cè)值的平均誤差要優(yōu)于線(xiàn)性回歸模型預(yù)測(cè)值的平均誤差5.2.2 R在數(shù)據(jù)挖掘中的應(yīng)用舉例第五章R語(yǔ)言5.1R語(yǔ)言簡(jiǎn)介5.2R與數(shù)據(jù)挖掘5.3SparkR習(xí)題of44275.3 SparkRtaFrames的數(shù)據(jù)來(lái)源非常廣泛高擴(kuò)展性DataFrames的優(yōu)化SparkR

13、就是用R語(yǔ)言編寫(xiě)Spark程序,它允許數(shù)據(jù)科學(xué)家分析大規(guī)模的數(shù)據(jù)集,并通過(guò)R Shell交互式地在SparkR上運(yùn)行作業(yè)上123SparkR的核心是SparkR DataFrame,數(shù)據(jù)組織成一個(gè)帶有列名的分布式數(shù)據(jù)集對(duì)RDD API的支持4of44285.3.1 SparkR 簡(jiǎn)介5.3 SparkR1. Linux下安裝R2. rJava包安裝3. SparkR的安裝首先在官網(wǎng)下載R的軟件包,官網(wǎng)網(wǎng)址為/SparkR包對(duì)rJava包有依賴(lài)關(guān)系,因此,在安裝SparkR之前,需要先完成rJava包的安裝為了避免Spark版本的兼容問(wèn)題,采用源碼編譯的方式來(lái)安裝SparkRof44295.3.

14、2 SparkR 環(huán)境搭建5.3 SparkR創(chuàng)建SparkSession創(chuàng)建SparkDataFrmesSparkSession(即Spark會(huì)話(huà))是SparkR的切入點(diǎn),它使得R程序和Spark集群相互通信根據(jù)需要從本地R數(shù)據(jù)框(R data frame),Hive表(Hive table)或者從其他數(shù)據(jù)源創(chuàng)建SparkDataFrmesof44305.3.3 SparkR 使用5.3 SparkRHQL是一種類(lèi)SQL的語(yǔ)言,這種語(yǔ)言最終被轉(zhuǎn)化為Map/Reduce,通過(guò)Hive可以使用HQL語(yǔ)言查詢(xún)存放在HDFS上的數(shù)據(jù)SparkR利用Hive表來(lái)創(chuàng)建DataFrame;將DataFra

15、me轉(zhuǎn)化為Spark SQL;SparkR提供了對(duì)HQL的支持和API,但是Hive適合用來(lái)對(duì)一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行分析查詢(xún)of44315.3.4 SparkR 與HQL5.3 SparkR廣義線(xiàn)性模型簡(jiǎn)單最小二乘回歸(OLS)的擴(kuò)展,響應(yīng)變量可以是正整數(shù)或分類(lèi)數(shù)據(jù),為某指數(shù)分布族,期望值函數(shù)與預(yù)測(cè)變量之間為線(xiàn)性關(guān)系,需要指定分布類(lèi)型和連接函數(shù)加速失效時(shí)間生存回歸模型AFT模型將經(jīng)典線(xiàn)性回歸模型的建模方法直接拓展到了生存分析領(lǐng)域,即具有截尾生存時(shí)間的情形樸素貝葉斯模型通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,選擇具有最大后驗(yàn)概率的類(lèi)作為該對(duì)象所屬的類(lèi)K-means模型SparkR提供

16、了對(duì)K-means算法的支持,K-means算法是很典型的基于距離的聚類(lèi)算法,采用距離作為相似性的評(píng)價(jià)指標(biāo)模型的保存與加載模型訓(xùn)練好了以后,需要將訓(xùn)練好的模型保存起來(lái),以便下一次再用of44325.3.5 SparkR實(shí)現(xiàn)的主要機(jī)器學(xué)習(xí)算法概述5.3 SparkR利用SparkR提供的接口函數(shù),在Hadoop集群環(huán)境中對(duì)“德國(guó)信用數(shù)據(jù)集”進(jìn)行處理,并利用訓(xùn)練得到的信用梯度損失模型對(duì)貸款人的信用度進(jìn)行預(yù)測(cè)加載Spark解析文件矩陣形式從HDFS中讀取德國(guó)信用數(shù)據(jù)文件預(yù)測(cè)模型模型評(píng)價(jià)分割為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集完成模型訓(xùn)練和數(shù)據(jù)預(yù)測(cè)梯度下降算法優(yōu)化損失函數(shù)和邏輯回歸算法對(duì)借款人的信用進(jìn)行評(píng)級(jí)of4

17、4335.3.6 SparkR在數(shù)據(jù)分析中的應(yīng)用舉例5.3 SparkRof4434部分代碼利用梯度下降算法優(yōu)化損失函數(shù)和邏輯回歸算法,計(jì)算信用等級(jí)預(yù)測(cè)模型 # 初始化向量theta theta hypot gCost - function(t,X,y) + 1/nrow(X)*(t(X)%*%(hypot(X%*%t)-y)# 定義訓(xùn)練函數(shù)+ train - function(theta, rdd) # 計(jì)算梯度+ gradient_rdd - lapplyPartition(rdd, function(part) + X - part,1:25+ y - part,26+ p_gradient - gCost(theta,X,y)+ list(list(1, p_gradient)+ )+ agg_gradient_rdd alpha tol ste

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論