




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)BIG DATA.第五章R言語5.1R言語簡介5.2R與數(shù)據(jù)發(fā)掘5.3SparkR習(xí)題of442.5.1 R言語簡介配套PPT課件用于統(tǒng)計(jì)計(jì)算和作圖的言語計(jì)量經(jīng)濟(jì)學(xué)實(shí)證金融學(xué)統(tǒng)計(jì)遺傳學(xué)等免費(fèi)、開源及統(tǒng)計(jì)模塊齊全R言語數(shù)據(jù)發(fā)掘機(jī)器學(xué)習(xí)自然言語處置等十大搶手編程言語第七位of443.5.1 R言語簡介配套PPT課件基于S言語的一個(gè)GNU工程,語法來自Scheme言語,R言語的源代碼正式發(fā)布到自在軟件協(xié)會(huì)的FTP上中心開發(fā)團(tuán)隊(duì)到達(dá)20人,來自牛津大學(xué)、AT&T實(shí)驗(yàn)室等等。不單是一門言語,更是一個(gè)數(shù)據(jù)計(jì)算與分析的環(huán)境,內(nèi)容涵蓋了從統(tǒng)計(jì)計(jì)算到機(jī)器學(xué)習(xí),從金融分析到生物信息,從社會(huì)網(wǎng)絡(luò)分析到自然言語
2、處置,從各種數(shù)據(jù)庫各種言語接口到高性能計(jì)算模型S言語1995年2021年of4445.1.1R言語產(chǎn)生與開展歷程.5.1 R言語簡介配套PPT課件5.1.2 R言語根本功能引見數(shù)據(jù)存儲(chǔ)和處置系統(tǒng)數(shù)組運(yùn)算工具,其向量、矩陣運(yùn)算方面功能尤其強(qiáng)大完好銜接的統(tǒng)計(jì)分析工具優(yōu)秀的統(tǒng)計(jì)制圖功能R言語是一套完好的數(shù)據(jù)處置、計(jì)算和制圖軟件系統(tǒng),主要包括以下功能of445.5.1 R言語簡介配套PPT課件豐富的數(shù)據(jù)讀取和存儲(chǔ)才干可以保管和加載R言語的數(shù)據(jù),與R.data的交互是經(jīng)過R言語的save( )函數(shù)和load()函數(shù)實(shí)現(xiàn)的可以加載和導(dǎo)出.csv文件write.csv()函數(shù)和read.csv()函數(shù)可以導(dǎo)
3、入SPSS/SAS/Matlab等數(shù)據(jù)集可以經(jīng)過RODBC接口,從數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)可以經(jīng)過odbcConnectExcel接口從Excel表格中導(dǎo)入數(shù)據(jù)R言語讀取存儲(chǔ)of446.5.1 R言語簡介配套PPT課件豐富的數(shù)據(jù)處置功能數(shù)據(jù)發(fā)掘中,需求花70%以上的時(shí)間在數(shù)據(jù)處置上,R言語提供豐富的數(shù)據(jù)處置功能挑選filter() 按給定的邏輯判別挑選出符合要求的子數(shù)據(jù)集陳列arrange() 按給定的列名依次對行進(jìn)展排序選擇select() 用列名作參數(shù)來選擇子數(shù)據(jù)集變形mutate()或transformation()用來進(jìn)展列變形匯總summarise()進(jìn)展匯總操作,前往一維結(jié)果分組分組動(dòng)作
4、group_by()of447.5.1 R言語簡介配套PPT課件豐富的數(shù)據(jù)處置才干向量因子數(shù)組矩陣列表R言語處置數(shù)據(jù)的最根本單位是向量,而不是原子數(shù)據(jù)R言語定義了一類非常特殊的數(shù)據(jù)類型:因子數(shù)組是向量和矩陣的直接推行,是由三維或三維以上的數(shù)據(jù)構(gòu)成的較復(fù)雜的承繼關(guān)系,和數(shù)組的關(guān)系既是父親又是兒子,還是孫子列表由向量直接派生而來數(shù)據(jù)框可以將幾個(gè)不同類型但長度一樣的向量合并到一個(gè)數(shù)據(jù)框特殊值數(shù)據(jù)定義了如NULL、NA、NaN、inf等特殊數(shù)據(jù)有用函數(shù)提供了獲取數(shù)據(jù)類型信息的一些有用函數(shù)of448.5.1 R言語簡介配套PPT課件統(tǒng)計(jì)分析運(yùn)用數(shù)學(xué)計(jì)量經(jīng)濟(jì)金融分析財(cái)經(jīng)分析生物信息學(xué)數(shù)據(jù)可視化數(shù)據(jù)發(fā)掘人工
5、智能R言語運(yùn)用領(lǐng)域of4495.1.3 R言語常見的運(yùn)用領(lǐng)域.第五章R言語5.1R言語簡介5.2R與數(shù)據(jù)發(fā)掘5.3SparkR習(xí)題of4410.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining)是從大量的數(shù)據(jù)中發(fā)現(xiàn)有趣知識(shí)的過程,涉及統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別等多個(gè)交叉;主要技術(shù)包括分類與預(yù)測、聚類、離群點(diǎn)檢測、關(guān)聯(lián)規(guī)則、序列分析和文本挖掘以及社交網(wǎng)絡(luò)分析和情感分析等。R語言與數(shù)據(jù)挖掘有關(guān)的任務(wù)視圖MachineLearning:主要涉及機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí)功能Cluster:主要涉及聚類分析和有限混合模型TimeSeries:主要涉及時(shí)間序列分析Multivariat
6、e:主要用于多元統(tǒng)計(jì)分析及其算法Spatial:主要用于空間數(shù)據(jù)分析R語言主要用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖,提供了大量的統(tǒng)計(jì)和制圖工具of4411.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件K-近鄰算法決策樹支持向量機(jī)分類與預(yù)測算法分類與預(yù)測算法of44125.2.1 R軟件包與常見的數(shù)據(jù)發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件分類與預(yù)測算法K-近鄰算法of4413假設(shè)一個(gè)樣本與特征空間中的K個(gè)最類似特征空間中最臨近的樣本中的大多數(shù)屬于某一個(gè)類別,那么該樣本也屬于這個(gè)類別 library(kknn) data(iris) m val +prob=rep(1/m,m) iris.learn iris.
7、valid iris.kknn +kernel=triangular) summary(iris.kknn) fit table(iris.valid$Species,fit)fit setosa versicolor virginicasetosa 12 0 0versicolor 0 21 0virginica 0 0 17kknn函數(shù)的運(yùn)用5.2.1 R軟件包與常見的數(shù)據(jù)發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件分類與預(yù)測算法決策樹of4414iris數(shù)據(jù)集的決策樹決策樹Decision Tree是一種依托于分類、訓(xùn)練上的預(yù)測樹,根據(jù)知預(yù)測、歸類未來生成樹階段決策樹修剪階段5.2.
8、1 R軟件包與常見的數(shù)據(jù)發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件分類與預(yù)測算法支持向量機(jī)of4415支持向量機(jī)Support Vector Machine,SVM是一個(gè)二分類的方法,即將數(shù)據(jù)集中的數(shù)據(jù)分為兩類SVM中的超平面對比利用超平面分割數(shù)據(jù)集5.2.1 R軟件包與常見的數(shù)據(jù)發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件聚類算法及其R包“聚類是根據(jù)“物以類聚的原理,將本身沒有類別的樣本聚集成不同的組或稱為簇,并對每個(gè)簇進(jìn)展描畫的過程常用的聚類算法主要包括K-means聚類、層次聚類和基于密度的聚類K-means聚類層次聚類基于密度的聚類of44165.2.1 R軟件包與常見的數(shù)據(jù)
9、發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件聚類算法及其R包K-means聚類of4417同一聚類中的對象類似度較高;而不同聚類中的對象類似度較小部分鳶尾花數(shù)據(jù)的3-means聚類結(jié)果5.2.1 R軟件包與常見的數(shù)據(jù)發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件聚類算法及其R包層次聚類of4418一層一層地進(jìn)展聚類,可以從下而上地把小的cluster合并聚集,也可以從上而下地將大的cluster進(jìn)展分割iris數(shù)據(jù)集中20個(gè)樣本的層次聚類結(jié)果5.2.1 R軟件包與常見的數(shù)據(jù)發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件聚類算法及其R包基于密度的聚類of4419DBSCAN算法的數(shù)據(jù)集D
10、BSCAN算法的密度聚類結(jié)果關(guān)鍵參數(shù)可到間隔,用于定義鄰域的大小eps最小數(shù)目的對象點(diǎn)MinPts5.2.1 R軟件包與常見的數(shù)據(jù)發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件離群點(diǎn)檢測與R包離群點(diǎn)檢測與R包單變量的離群點(diǎn)檢測前往的統(tǒng)計(jì)信息用于繪制箱體圖實(shí)現(xiàn)多變量離群點(diǎn)的檢測多變量離群點(diǎn)檢測部分離群點(diǎn)因子檢測用聚類方法進(jìn)展離散點(diǎn)檢測基于密度的部分離群點(diǎn)檢測將不屬于義務(wù)一類的數(shù)據(jù)作為異常值檢測of44205.2.1 R軟件包與常見的數(shù)據(jù)發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件關(guān)聯(lián)規(guī)那么與R包Groceries數(shù)據(jù)集關(guān)聯(lián)度的散點(diǎn)圖top-10關(guān)聯(lián)規(guī)那么關(guān)系圖of44215.2.1 R軟件
11、包與常見的數(shù)據(jù)發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件時(shí)間序列分類與R包人口出生率時(shí)間序列圖出生率時(shí)間序列解構(gòu)圖of44225.2.1 R軟件包與常見的數(shù)據(jù)發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件文本發(fā)掘提取文本中的詞語,并統(tǒng)計(jì)頻率of44235.2.1 R軟件包與常見的數(shù)據(jù)發(fā)掘算法引見.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件背景河流中海藻的集中迸發(fā)不僅會(huì)對河流的生態(tài)環(huán)境呵斥破壞,還會(huì)影響河流的水質(zhì)需求基于以往的觀測數(shù)據(jù),對河流中海藻的迸發(fā)情況進(jìn)展預(yù)測并采取必要防備措施以提高河流的水質(zhì)量方法以海藻樣本數(shù)據(jù)為數(shù)據(jù)集,經(jīng)過數(shù)據(jù)發(fā)掘的方式分析影響海藻迸發(fā)的主要要素,并經(jīng)過構(gòu)建預(yù)測模型,對
12、海藻的迸發(fā)情況進(jìn)展事先預(yù)測of44245.2.2 R在數(shù)據(jù)發(fā)掘中的運(yùn)用舉例.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件數(shù)據(jù)集加載數(shù)據(jù)集中的數(shù)據(jù)分析預(yù)測模型的構(gòu)建模型的評價(jià)與選擇海藻迸發(fā)頻率預(yù)測完成對海藻迸發(fā)情況的實(shí)現(xiàn)預(yù)測無效數(shù)據(jù)處置of44255.2.2 R在數(shù)據(jù)發(fā)掘中的運(yùn)用舉例.5.2 R與數(shù)據(jù)發(fā)掘配套PPT課件of4426 lm.predictions.a1 rt.predictions.a1 mae.a1.lm mae.a1.rt mae.a1.lm #顯示線性回歸模型預(yù)測值的平均誤差1 13.10681 mae.a1.rt #顯示回歸樹模型預(yù)測值的平均誤差1 8.480619部分代碼線性回歸和
13、回歸樹模型的預(yù)測回歸樹的MAE值為8.48線性回歸模型的MAE值 13.11回歸樹模型的預(yù)測值的平均誤差要優(yōu)于線性回歸模型預(yù)測值的平均誤差5.2.2 R在數(shù)據(jù)發(fā)掘中的運(yùn)用舉例.第五章R言語5.1R言語簡介5.2R與數(shù)據(jù)發(fā)掘5.3SparkR習(xí)題of4427.5.3 SparkR配套PPT課件taFrames的數(shù)據(jù)來源非常廣泛高擴(kuò)展性DataFrames的優(yōu)化SparkR就是用R言語編寫Spark程序,它允許數(shù)據(jù)科學(xué)家分析大規(guī)模的數(shù)據(jù)集,并經(jīng)過R Shell交互式地在SparkR上運(yùn)轉(zhuǎn)作業(yè)上123SparkR的中心是SparkR DataFrame,數(shù)據(jù)組織成一個(gè)帶有列名的分布式數(shù)據(jù)集對RDD
14、API的支持4of44285.3.1 SparkR 簡介.5.3 SparkR配套PPT課件1. Linux下安裝R2. rJava包安裝3. SparkR的安裝首先在官網(wǎng)下載R的軟件包,官網(wǎng)網(wǎng)址為httpcran.rstudio/SparkR包對rJava包有依賴關(guān)系,因此,在安裝SparkR之前,需求先完成rJava包的安裝為了防止Spark版本的兼容問題,采用源碼編譯的方式來安裝SparkRof44295.3.2 SparkR 環(huán)境搭建.5.3 SparkR配套PPT課件創(chuàng)建SparkSession創(chuàng)建SparkDataFrmesSparkSession即Spark會(huì)話是SparkR的切
15、入點(diǎn),它使得R程序和Spark集群相互通訊根據(jù)需求從本地R數(shù)據(jù)框R data frame,Hive表Hive table或者從其他數(shù)據(jù)源創(chuàng)建SparkDataFrmesof44305.3.3 SparkR 運(yùn)用.5.3 SparkR配套PPT課件HQL是一種類SQL的言語,這種言語最終被轉(zhuǎn)化為Map/Reduce,經(jīng)過Hive可以運(yùn)用HQL言語查詢存放在HDFS上的數(shù)據(jù)SparkR利用Hive表來創(chuàng)建DataFrame;將DataFrame轉(zhuǎn)化為Spark SQL;SparkR提供了對HQL的支持和API,但是Hive適宜用來對一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)展分析查詢of44315.3.4 SparkR
16、與HQL.5.3 SparkR配套PPT課件廣義線性模型簡單最小二乘回歸OLS的擴(kuò)展,呼應(yīng)變量可以是正整數(shù)或分類數(shù)據(jù),為某指數(shù)分布族,期望值函數(shù)與預(yù)測變量之間為線性關(guān)系,需求指定分布類型和銜接函數(shù)加速失效時(shí)間生存回歸模型AFT模型將經(jīng)典線性回歸模型的建模方法直接拓展到了生存分析領(lǐng)域,即具有截尾生存時(shí)間的情形樸素貝葉斯模型經(jīng)過某對象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,選擇具有最大后驗(yàn)概率的類作為該對象所屬的類K-means模型SparkR提供了對K-means算法的支持,K-means算法是很典型的基于間隔的聚類算法,采用間隔作為類似性的評價(jià)目的模型的保管與加載模型訓(xùn)練好了以后,需求將訓(xùn)
17、練好的模型保管起來,以便下一次再用of44325.3.5 SparkR實(shí)現(xiàn)的主要機(jī)器學(xué)習(xí)算法概述.5.3 SparkR配套PPT課件利用SparkR提供的接口函數(shù),在Hadoop集群環(huán)境中對“德國信譽(yù)數(shù)據(jù)集進(jìn)展處置,并利用訓(xùn)練得到的信譽(yù)梯度損失模型對貸款人的信譽(yù)度進(jìn)展預(yù)測加載Spark解析文件矩陣方式從HDFS中讀取德國信譽(yù)數(shù)據(jù)文件預(yù)測模型模型評價(jià)分割為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集完成模型訓(xùn)練和數(shù)據(jù)預(yù)測梯度下降算法優(yōu)化損失函數(shù)和邏輯回歸算法對借款人的信譽(yù)進(jìn)展評級of44335.3.6 SparkR在數(shù)據(jù)分析中的運(yùn)用舉例.5.3 SparkR配套PPT課件of4434部分代碼利用梯度下降算法優(yōu)化損失函
18、數(shù)和邏輯回歸算法,計(jì)算信譽(yù)等級預(yù)測模型 # 初始化向量theta theta hypot gCost - function(t,X,y) + 1/nrow(X)*(t(X)%*%(hypot(X%*%t)-y)# 定義訓(xùn)練函數(shù)+ train - function(theta, rdd) # 計(jì)算梯度+ gradient_rdd - lapplyPartition(rdd, function(part) + X - part,1:25+ y - part,26+ p_gradient - gCost(theta,X,y)+ list(list(1, p_gradient)+ )+ agg_gradient_rdd alpha tol step while(T) + cat(step: ,step,n)+ p_gradient - train(theta, matrix_train_rdd)+ theta - theta-alpha*p_gradient+ gradient - train(theta, matrix_train_rdd) #根據(jù)梯度下降算法進(jìn)展模型訓(xùn)練+ if(abs(norm(gradient,type=F)-norm(p_gradient
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國小蜜蜂花粉豆市場調(diào)查研究報(bào)告
- 2025年中國封袋縫包輸送機(jī)市場調(diào)查研究報(bào)告
- 2025年中國多功能分散劑市場調(diào)查研究報(bào)告
- 如何預(yù)防心理壓力帶來的傷害
- 學(xué)生健康成長營養(yǎng)餐的重要作用
- 冷鏈技術(shù)研發(fā)合同(2篇)
- 學(xué)生跑步鍛煉的科學(xué)與藝術(shù)性研究
- 學(xué)校公共衛(wèi)生安全管理及預(yù)防措施
- 孩子對未來消費(fèi)的規(guī)劃能力
- 為青少年在單親環(huán)境中建立積極的心理防線
- GB/T 44357-2024石油瀝青性能等級評價(jià)試驗(yàn)方法
- DB65-T 4814-2024 干旱區(qū)礦山生態(tài)修復(fù)工程水、土、種子富集技術(shù)規(guī)范
- 幼兒園中班社會(huì)《猜猜這是誰的包》課件
- 2024CSCO胰腺癌診療指南解讀
- GB/T 10069.3-2024旋轉(zhuǎn)電機(jī)噪聲測定方法及限值第3部分:噪聲限值
- 2024年公文寫作基礎(chǔ)知識(shí)競賽試題庫及答案(共220題)
- JBT 10381-2013 柔性組合式懸掛起重機(jī)
- 名校高一下學(xué)期期末考試語文試題(含答案)
- 知道智慧網(wǎng)課《科技倫理》章節(jié)測試答案
- 最簡單工程合作協(xié)議書范本
- 輸液反應(yīng)的應(yīng)急預(yù)案及處理流程課件
評論
0/150
提交評論