推薦系統(tǒng)案例-第二天3mllib與_第1頁
推薦系統(tǒng)案例-第二天3mllib與_第2頁
推薦系統(tǒng)案例-第二天3mllib與_第3頁
推薦系統(tǒng)案例-第二天3mllib與_第4頁
推薦系統(tǒng)案例-第二天3mllib與_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

MLlib與MLlib與推薦系主要內1SparkMLlib1SparkMLlib2MLlib推薦算法3MLlib推薦算法4總主要內1SparkMLLib1SparkMLLib2MLlib推薦算法3MLlib推薦算法4總SparkSparkMLlibMLLib是基于Spark引擎實現(xiàn)的機器學良好的擴展性和容充分利用了Spark擴展性屬于Spark生態(tài)系統(tǒng)重要組成實現(xiàn)了大部分常用的數(shù)據(jù)挖聚類分類推薦

MLlib分類算(summarystatisticsstratifiedsamplingrandomdatagenerationClassificationandregression分類一般針對離散型數(shù)linearmodels(SVMs,logisticregressionlinearregressionnaive decisiontreesensemblesoftrees(RandomForestsandGradient-BoostedTreesMLlib分類算 alternatingleastsquaresALS)交替最小二乘法(ALS singular position 奇異值分principal ysis(PCA)主成分分stochasticgradientdescent隨機梯度下limited-memoryBFGS(L-BFGS)短時 的BFGS(擬 DeveloperApi在未來的發(fā)布種可能會被修改主要內1SparkMLlib1SparkMLlib2MLlib推薦算法3MLlib推薦算法4總MLlib協(xié)同過濾算MLlibMLlib基于ALS(alternatingleastsquares)的協(xié)同numBlocks:計算并行度(若為-1表示自動化配置Rank:模型中隱含影響因子,默認是Iterations:迭代次數(shù),默認是Lambda:ALS中正則化參implicitPrefs:是否使用顯式反饋變量或使用隱式反饋數(shù)據(jù)的變Alpha:ALS中的一個參數(shù),作用于隱式反饋變量,控制基本的信心主要內1SparkMLlib1SparkMLlib2MLlib推薦算法3MLlib推薦算法4總MLlibMLlibALS加載數(shù)據(jù)將數(shù)據(jù)集解析成ALS要求的格將數(shù)據(jù)集分割成兩部分:訓練集和測試運行ALS,產(chǎn)生并評估模將最終模型用于推MLlibMLlibALS推薦步驟1valvalconf=newvalsc=newvalvalmovieLensHomeDir=valdataSet=sc.textFile(newFile(movieLensHomeDir,MLlibMLlibALS推薦步驟2valvalrating=dataSet.map{linevalfields=//format:(timestamp%10,Rating(userId,movieId,}MLlibMLlibALS推薦步驟3valnumPartitions=valtraining=ratings.filter(x=>x._1<valvalidation=ratings.filter(x=>x._1>=6&&x._1<valtest=ratings.filter(x=>x._1>=valnumTraining=training.count()valnumTest=test.count()MLlibALSMLlibALS推薦步驟4:運行defdeftrain(ratings:RDD[Rating],rank:Int,iterations:Int,lambda::MatrixFactorizationModel=你的代}MLlibALSMLlibALS推薦步驟4(2):運行ranks=List(8,vallambdas=List(1.0,valnumIters=List(10,varbestModel:Option[MatrixFactorizationModel]=NonevarbestValidationRmse=Double.MaxValuevarbestRank=varbestLambda=-1.0varbestNumIter=-1//findbestmodelherevaltestRmse=computeRmse(bestModel.get,test,println("Thebestmodelwastrainedwithrank="+bestRank+"andlambda="++",andnumIter="+bestNumIter+",anditsRMSEonthetestsetis"+testRmse+MLlibALS推薦步驟4(2):運行for(rank<-ranks;lambda<-lambdas;numIter<-numIters)valmodel=ALS.train(training,rank,numIter,valvalidationRmse=computeRmse(model,validation,numValidation)println("RMSE(validation)="+validationRmse+"forthemodeltrainedwithrank=+rank+",lambda="+lambda+",andnumIter="+numIter+".")if(validationRmse<bestValidationRmse){bestModel=Some(model)bestRank=rankbestLambda=bestNumIter=}}MLlibALS推薦步驟MLlibALS推薦步驟5:使用模 //...你的代}valcandida

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論