《Spark應(yīng)用開發(fā)技術(shù)》課件-02-掌握DataFrame基礎(chǔ)操作_第1頁
《Spark應(yīng)用開發(fā)技術(shù)》課件-02-掌握DataFrame基礎(chǔ)操作_第2頁
《Spark應(yīng)用開發(fā)技術(shù)》課件-02-掌握DataFrame基礎(chǔ)操作_第3頁
《Spark應(yīng)用開發(fā)技術(shù)》課件-02-掌握DataFrame基礎(chǔ)操作_第4頁
《Spark應(yīng)用開發(fā)技術(shù)》課件-02-掌握DataFrame基礎(chǔ)操作_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Spark應(yīng)用開發(fā)技術(shù)本章主要講述SparkSQL的使用。本章主要講述SparkDataFrame基礎(chǔ)操作。通過學(xué)習(xí)本節(jié)將能夠?qū)W習(xí)SparkSQL、SparkDataFrame基礎(chǔ)操作。通過本節(jié)學(xué)習(xí)可以:理解SparkSQL的基本概念。掌握SparkSQL與Shell交互。掌握創(chuàng)建DataFrame對象的方法。掌握DataFrame查看數(shù)據(jù)的方法。掌握DataFrame的查詢及輸出操作。認(rèn)識SparkSQLSpark

SQL簡介Spark

SQLCLI配置SparkSQL與Shell交互掌握DataFrame基礎(chǔ)操作創(chuàng)建DataFrame對象DataFrame查看數(shù)據(jù)DataFrame查詢操作DataFrame輸出操作探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)獲取數(shù)據(jù)、網(wǎng)頁類型分析、點擊次數(shù)分析、網(wǎng)頁排名分析1.創(chuàng)建DataFrame對象結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame外部數(shù)據(jù)庫創(chuàng)建DataFrameRDD創(chuàng)建DataFrameHive中的表創(chuàng)建DataFrame掌握DataFrame基礎(chǔ)操作結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame加載parquet文件為DataFrame加載json文件為DataFrame方式一加載json文件為DataFrame方式二掌握DataFrame基礎(chǔ)操作外部數(shù)據(jù)庫創(chuàng)建DataFrameSparkSQL可以從外部數(shù)據(jù)庫(比如MySQL、Oracle等數(shù)據(jù)庫)中創(chuàng)建DataFrame使用這種方式創(chuàng)建DataFrame需要通過JDBC連接或ODBC連接的方式訪問數(shù)據(jù)庫掌握DataFrame基礎(chǔ)操作RDD創(chuàng)建DataFrame方式一利用反射機制推斷RDD模式,使用這種方式首先需要定義一個caseclass,因為只有caseclass才能被Spark隱式地轉(zhuǎn)換為DataFrame。掌握DataFrame基礎(chǔ)操作RDD創(chuàng)建DataFrame方式二從原來的RDD創(chuàng)建一個元組或列表的RDD用StructType創(chuàng)建一個和上一個步驟中創(chuàng)建

的RDD中元組或列表的結(jié)構(gòu)相匹配的Schema通過SQLContext提供的createDataFrame方法

將Schema應(yīng)用到RDD上掌握DataFrame基礎(chǔ)操作從Hive中的表創(chuàng)建RDD從Hive表中的表創(chuàng)建DataFrame,可以聲明一個HiveContext對象使用HiveContext對象查詢Hive中的表并轉(zhuǎn)成DataFrame掌握DataFrame基礎(chǔ)操作準(zhǔn)備數(shù)據(jù)將數(shù)據(jù)movies.dat,ratings.dat,users.dat上傳到HDFS分別加載movies.dat,ratings.dat,users.dat數(shù)據(jù)為RDD數(shù)據(jù)movies,ratings,users分別將RDD數(shù)據(jù)movies,ratings,users轉(zhuǎn)換為DataFrame掌握DataFrame基礎(chǔ)操作2.DataFrame查看數(shù)據(jù)掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——printSchemaprintSchema函數(shù)查看數(shù)據(jù)模式,打印出列的名稱和類型掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——show掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——show()/show(truncate:Boolean)show()方法與show(true)方法一樣,只顯示前20條記錄并且最多只顯示20個字符若是要顯示所有字符,需要使用show(false)方法掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——show(numRows:Int)show(numRows:Int)查看前n行記錄掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——first/head/take/takeAsList掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——collect/collectAsListcollect方法可以將DataFrame中的所有數(shù)據(jù)都獲取到,并返回一個Array對象collectAsList方法可以獲取所有數(shù)據(jù)到List掌握DataFrame基礎(chǔ)操作3.DataFrame查詢方式一將DataFrame注冊成為臨時表,然后通過SQL語句進(jìn)行查詢掌握DataFrame基礎(chǔ)操作4.DataFrame查詢方式二直接在DataFrame對象上進(jìn)行查詢,DataFrame提供了很多查詢的方法掌握DataFrame基礎(chǔ)操作DataFrame查詢——條件查詢DataFrame可以使用where(conditionExpr:String)根據(jù)指定條件進(jìn)行查詢參數(shù)中可以使用and或or該方法的返回結(jié)果仍然為DataFrame類型掌握DataFrame基礎(chǔ)操作DataFrame查詢——條件查詢DataFrame還可使用filter篩選符合條件的數(shù)據(jù)filter與where的使用方法一樣掌握DataFrame基礎(chǔ)操作DataFrame查詢——查詢指定字段的數(shù)據(jù)信息select方法根據(jù)傳入的string類型字段名,獲取指定字段的值,以DataFrame類型返回掌握DataFrame基礎(chǔ)操作DataFrame查詢——查詢指定字段的數(shù)據(jù)信息掌握DataFrame基礎(chǔ)操作selectExpr:對指定字段進(jìn)行特殊處理可以對指定字段調(diào)用UDF函數(shù)或者指定別名selectExpr傳入string類型的參數(shù),返回DataFrame對象。DataFrame查詢——查詢指定字段的數(shù)據(jù)信息col或者apply也可以獲取DataFrame指定字段col或者apply只能獲取一個字段,并且返回對象為Column類型掌握DataFrame基礎(chǔ)操作DataFrame查詢——limitlimit方法獲取指定DataFrame的前n行記錄,得到一個新的DataFrame對象不同于take與head,limit方法不是Action操作。掌握DataFrame基礎(chǔ)操作DataFrame查詢——orderByorderBy方法是根據(jù)指定字段排序,默認(rèn)為升序排序若是要求降序排序,可以使用desc(“字段名稱”)或者$”字段名”.desc或者在指定字段前面加“-”來表示降序排序掌握DataFrame基礎(chǔ)操作DataFrame查詢——sortsort方法與orderBy方法一樣,也是根據(jù)指定字段排序,用法也與orderBy一樣掌握DataFrame基礎(chǔ)操作DataFrame查詢——groupBygroupBy方法是根據(jù)字段進(jìn)行分組操作groupBy方法有兩種調(diào)用方式,可以傳入String類型的字段名,也可傳入Column類型的對象。掌握DataFrame基礎(chǔ)操作DataFrame查詢——groupBygroupBy方法返回的是GroupedData對象,GroupedData的操作方法如表所示掌握DataFrame基礎(chǔ)操作DataFrame查詢——joinDataFrame提供了三種join方法用于連接兩個表掌握DataFrame基礎(chǔ)操作DataFrame查詢——join(right:DataFrame)掌握DataFrame基礎(chǔ)操作DataFrame查詢——join(right:DataFrame,joinExprs:Column)掌握DataFrame基礎(chǔ)操作DataFrame查詢——join(right:DataFrame,joinExprs:Column,joinType:String)連接類型joinType只能是inner、outer、left_outer、right_outer、semijoin中的一種掌握DataFrame基礎(chǔ)操作5.DataFrame輸出操作save方法可以將DataFrame保存成文件,save操作有一個可選參數(shù)SaveMode,用這個參數(shù)可以指定如何處理數(shù)據(jù)已經(jīng)存在的情況。在使用HiveContext的時候,DataFrame可以用saveAsTable方法,將數(shù)據(jù)保存成持久化的表。讀取持久化表時,只需要用表名作為參數(shù),調(diào)用SQLContext.table方法即可得到對應(yīng)DataFrame。掌握DataFrame基礎(chǔ)操作將DataFrame保存到一個文件里方法一首先創(chuàng)建一個Map對象,用于存儲一些save函數(shù)需要用到的一些數(shù)據(jù),這里將指定保存文件路徑及JSON文件的頭信息從DataFrame對象中選擇出userId,gender和age三列調(diào)用save函數(shù)保存(2)中的DataFrame數(shù)據(jù)到copyOfUser.json文件夾中掌握DataFrame基礎(chǔ)操作將DataFrame保存到一個文件里方法一mode函數(shù)可以接收的參數(shù)有Overwrite、Append、Ignore和ErrorIfExists。Overwrite代表覆蓋目錄下之前存在的數(shù)據(jù)Append代表給指導(dǎo)目錄下追加數(shù)據(jù)Ignore代表如果目錄下已經(jīng)有文件,那就什么都不執(zhí)行ErrorIfExists代表如果保存目錄下存在文件掌握DataFrame基礎(chǔ)操作將DataFrame保存到一個文件里方法一查看保存結(jié)果掌握DataFrame基礎(chǔ)操作將DataFrame保存到一個文件里方法二直接調(diào)用save(path:String,source:String,mode:SaveMode)方法掌握DataFrame基礎(chǔ)操作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論