《Spark應(yīng)用開(kāi)發(fā)技術(shù)》課件-02-掌握DataFrame基礎(chǔ)操作_第1頁(yè)
《Spark應(yīng)用開(kāi)發(fā)技術(shù)》課件-02-掌握DataFrame基礎(chǔ)操作_第2頁(yè)
《Spark應(yīng)用開(kāi)發(fā)技術(shù)》課件-02-掌握DataFrame基礎(chǔ)操作_第3頁(yè)
《Spark應(yīng)用開(kāi)發(fā)技術(shù)》課件-02-掌握DataFrame基礎(chǔ)操作_第4頁(yè)
《Spark應(yīng)用開(kāi)發(fā)技術(shù)》課件-02-掌握DataFrame基礎(chǔ)操作_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Spark應(yīng)用開(kāi)發(fā)技術(shù)本章主要講述SparkSQL的使用。本章主要講述SparkDataFrame基礎(chǔ)操作。通過(guò)學(xué)習(xí)本節(jié)將能夠?qū)W習(xí)SparkSQL、SparkDataFrame基礎(chǔ)操作。通過(guò)本節(jié)學(xué)習(xí)可以:理解SparkSQL的基本概念。掌握SparkSQL與Shell交互。掌握創(chuàng)建DataFrame對(duì)象的方法。掌握DataFrame查看數(shù)據(jù)的方法。掌握DataFrame的查詢及輸出操作。認(rèn)識(shí)SparkSQLSpark

SQL簡(jiǎn)介Spark

SQLCLI配置SparkSQL與Shell交互掌握DataFrame基礎(chǔ)操作創(chuàng)建DataFrame對(duì)象DataFrame查看數(shù)據(jù)DataFrame查詢操作DataFrame輸出操作探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)獲取數(shù)據(jù)、網(wǎng)頁(yè)類型分析、點(diǎn)擊次數(shù)分析、網(wǎng)頁(yè)排名分析1.創(chuàng)建DataFrame對(duì)象結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame外部數(shù)據(jù)庫(kù)創(chuàng)建DataFrameRDD創(chuàng)建DataFrameHive中的表創(chuàng)建DataFrame掌握DataFrame基礎(chǔ)操作結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame加載parquet文件為DataFrame加載json文件為DataFrame方式一加載json文件為DataFrame方式二掌握DataFrame基礎(chǔ)操作外部數(shù)據(jù)庫(kù)創(chuàng)建DataFrameSparkSQL可以從外部數(shù)據(jù)庫(kù)(比如MySQL、Oracle等數(shù)據(jù)庫(kù))中創(chuàng)建DataFrame使用這種方式創(chuàng)建DataFrame需要通過(guò)JDBC連接或ODBC連接的方式訪問(wèn)數(shù)據(jù)庫(kù)掌握DataFrame基礎(chǔ)操作RDD創(chuàng)建DataFrame方式一利用反射機(jī)制推斷RDD模式,使用這種方式首先需要定義一個(gè)caseclass,因?yàn)橹挥衏aseclass才能被Spark隱式地轉(zhuǎn)換為DataFrame。掌握DataFrame基礎(chǔ)操作RDD創(chuàng)建DataFrame方式二從原來(lái)的RDD創(chuàng)建一個(gè)元組或列表的RDD用StructType創(chuàng)建一個(gè)和上一個(gè)步驟中創(chuàng)建

的RDD中元組或列表的結(jié)構(gòu)相匹配的Schema通過(guò)SQLContext提供的createDataFrame方法

將Schema應(yīng)用到RDD上掌握DataFrame基礎(chǔ)操作從Hive中的表創(chuàng)建RDD從Hive表中的表創(chuàng)建DataFrame,可以聲明一個(gè)HiveContext對(duì)象使用HiveContext對(duì)象查詢Hive中的表并轉(zhuǎn)成DataFrame掌握DataFrame基礎(chǔ)操作準(zhǔn)備數(shù)據(jù)將數(shù)據(jù)movies.dat,ratings.dat,users.dat上傳到HDFS分別加載movies.dat,ratings.dat,users.dat數(shù)據(jù)為RDD數(shù)據(jù)movies,ratings,users分別將RDD數(shù)據(jù)movies,ratings,users轉(zhuǎn)換為DataFrame掌握DataFrame基礎(chǔ)操作2.DataFrame查看數(shù)據(jù)掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——printSchemaprintSchema函數(shù)查看數(shù)據(jù)模式,打印出列的名稱和類型掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——show掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——show()/show(truncate:Boolean)show()方法與show(true)方法一樣,只顯示前20條記錄并且最多只顯示20個(gè)字符若是要顯示所有字符,需要使用show(false)方法掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——show(numRows:Int)show(numRows:Int)查看前n行記錄掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——first/head/take/takeAsList掌握DataFrame基礎(chǔ)操作DataFrame查看數(shù)據(jù)——collect/collectAsListcollect方法可以將DataFrame中的所有數(shù)據(jù)都獲取到,并返回一個(gè)Array對(duì)象collectAsList方法可以獲取所有數(shù)據(jù)到List掌握DataFrame基礎(chǔ)操作3.DataFrame查詢方式一將DataFrame注冊(cè)成為臨時(shí)表,然后通過(guò)SQL語(yǔ)句進(jìn)行查詢掌握DataFrame基礎(chǔ)操作4.DataFrame查詢方式二直接在DataFrame對(duì)象上進(jìn)行查詢,DataFrame提供了很多查詢的方法掌握DataFrame基礎(chǔ)操作DataFrame查詢——條件查詢DataFrame可以使用where(conditionExpr:String)根據(jù)指定條件進(jìn)行查詢參數(shù)中可以使用and或or該方法的返回結(jié)果仍然為DataFrame類型掌握DataFrame基礎(chǔ)操作DataFrame查詢——條件查詢DataFrame還可使用filter篩選符合條件的數(shù)據(jù)filter與where的使用方法一樣掌握DataFrame基礎(chǔ)操作DataFrame查詢——查詢指定字段的數(shù)據(jù)信息select方法根據(jù)傳入的string類型字段名,獲取指定字段的值,以DataFrame類型返回掌握DataFrame基礎(chǔ)操作DataFrame查詢——查詢指定字段的數(shù)據(jù)信息掌握DataFrame基礎(chǔ)操作selectExpr:對(duì)指定字段進(jìn)行特殊處理可以對(duì)指定字段調(diào)用UDF函數(shù)或者指定別名selectExpr傳入string類型的參數(shù),返回DataFrame對(duì)象。DataFrame查詢——查詢指定字段的數(shù)據(jù)信息col或者apply也可以獲取DataFrame指定字段col或者apply只能獲取一個(gè)字段,并且返回對(duì)象為Column類型掌握DataFrame基礎(chǔ)操作DataFrame查詢——limitlimit方法獲取指定DataFrame的前n行記錄,得到一個(gè)新的DataFrame對(duì)象不同于take與head,limit方法不是Action操作。掌握DataFrame基礎(chǔ)操作DataFrame查詢——orderByorderBy方法是根據(jù)指定字段排序,默認(rèn)為升序排序若是要求降序排序,可以使用desc(“字段名稱”)或者$”字段名”.desc或者在指定字段前面加“-”來(lái)表示降序排序掌握DataFrame基礎(chǔ)操作DataFrame查詢——sortsort方法與orderBy方法一樣,也是根據(jù)指定字段排序,用法也與orderBy一樣掌握DataFrame基礎(chǔ)操作DataFrame查詢——groupBygroupBy方法是根據(jù)字段進(jìn)行分組操作groupBy方法有兩種調(diào)用方式,可以傳入String類型的字段名,也可傳入Column類型的對(duì)象。掌握DataFrame基礎(chǔ)操作DataFrame查詢——groupBygroupBy方法返回的是GroupedData對(duì)象,GroupedData的操作方法如表所示掌握DataFrame基礎(chǔ)操作DataFrame查詢——joinDataFrame提供了三種join方法用于連接兩個(gè)表掌握DataFrame基礎(chǔ)操作DataFrame查詢——join(right:DataFrame)掌握DataFrame基礎(chǔ)操作DataFrame查詢——join(right:DataFrame,joinExprs:Column)掌握DataFrame基礎(chǔ)操作DataFrame查詢——join(right:DataFrame,joinExprs:Column,joinType:String)連接類型joinType只能是inner、outer、left_outer、right_outer、semijoin中的一種掌握DataFrame基礎(chǔ)操作5.DataFrame輸出操作save方法可以將DataFrame保存成文件,save操作有一個(gè)可選參數(shù)SaveMode,用這個(gè)參數(shù)可以指定如何處理數(shù)據(jù)已經(jīng)存在的情況。在使用HiveContext的時(shí)候,DataFrame可以用saveAsTable方法,將數(shù)據(jù)保存成持久化的表。讀取持久化表時(shí),只需要用表名作為參數(shù),調(diào)用SQLContext.table方法即可得到對(duì)應(yīng)DataFrame。掌握DataFrame基礎(chǔ)操作將DataFrame保存到一個(gè)文件里方法一首先創(chuàng)建一個(gè)Map對(duì)象,用于存儲(chǔ)一些save函數(shù)需要用到的一些數(shù)據(jù),這里將指定保存文件路徑及JSON文件的頭信息從DataFrame對(duì)象中選擇出userId,gender和age三列調(diào)用save函數(shù)保存(2)中的DataFrame數(shù)據(jù)到copyOfUser.json文件夾中掌握DataFrame基礎(chǔ)操作將DataFrame保存到一個(gè)文件里方法一mode函數(shù)可以接收的參數(shù)有Overwrite、Append、Ignore和ErrorIfExists。Overwrite代表覆蓋目錄下之前存在的數(shù)據(jù)Append代表給指導(dǎo)目錄下追加數(shù)據(jù)Ignore代表如果目錄下已經(jīng)有文件,那就什么都不執(zhí)行ErrorIfExists代表如果保存目錄下存在文件掌握DataFrame基礎(chǔ)操作將DataFrame保存到一個(gè)文件里方法一查看保存結(jié)果掌握DataFrame基礎(chǔ)操作將DataFrame保存到一個(gè)文件里方法二直接調(diào)用save(path:String,source:String,mode:SaveMode)方法掌握DataFrame基礎(chǔ)操作

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論