2022高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書(shū)8(賽項(xiàng)賽題)_第1頁(yè)
2022高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書(shū)8(賽項(xiàng)賽題)_第2頁(yè)
2022高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書(shū)8(賽項(xiàng)賽題)_第3頁(yè)
2022高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書(shū)8(賽項(xiàng)賽題)_第4頁(yè)
2022高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書(shū)8(賽項(xiàng)賽題)_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2022年全國(guó)職業(yè)院校技能大賽

高職組

“大數(shù)據(jù)技術(shù)與應(yīng)用”

賽項(xiàng)賽卷(8卷)

務(wù)

書(shū)

參賽隊(duì)編號(hào):

背景描述

工業(yè)互聯(lián)網(wǎng)是工業(yè)全要素、全產(chǎn)業(yè)鏈、全價(jià)值鏈的全面連接,是

人、機(jī)、物、工廠互聯(lián)互通的新型工業(yè)生產(chǎn)制造服務(wù)體系,是互聯(lián)網(wǎng)

從消費(fèi)領(lǐng)域向生產(chǎn)領(lǐng)域、從虛擬經(jīng)濟(jì)向?qū)嶓w經(jīng)濟(jì)拓展的核心載體,是

建設(shè)現(xiàn)代化經(jīng)濟(jì)體系、實(shí)現(xiàn)高質(zhì)量發(fā)展和塑造全球產(chǎn)業(yè)競(jìng)爭(zhēng)力的關(guān)鍵

支撐。黨中央、國(guó)務(wù)院高度重視工業(yè)互聯(lián)網(wǎng)發(fā)展,習(xí)近平總書(shū)記連續(xù)

四年對(duì)推動(dòng)工業(yè)互聯(lián)網(wǎng)發(fā)展做出重要指示。加快發(fā)展工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè),

不僅是各國(guó)順應(yīng)產(chǎn)業(yè)發(fā)展大勢(shì),搶占產(chǎn)業(yè)未來(lái)制高點(diǎn)的戰(zhàn)略選擇,也

是我國(guó)推動(dòng)制造業(yè)質(zhì)量變革、效率變革和動(dòng)力變革,實(shí)現(xiàn)高質(zhì)量發(fā)展

的客觀要求。

為完成工業(yè)大數(shù)據(jù)分析工作,你所在的小組將應(yīng)用大數(shù)據(jù)技術(shù),

以Scala作為整個(gè)項(xiàng)目的基礎(chǔ)開(kāi)發(fā)語(yǔ)言,基于大數(shù)據(jù)平臺(tái)綜合利用

Hive,Spark,Flink,Vue.js等技術(shù),對(duì)數(shù)據(jù)進(jìn)行處理、分析及可

視化呈現(xiàn),你們作為該小組的技術(shù)人員,請(qǐng)按照下面任務(wù)完成本次工

作。

模塊A:大數(shù)據(jù)平臺(tái)搭建(容器環(huán)境)(15分)

環(huán)境說(shuō)明:

服務(wù)端登錄地址詳見(jiàn)各模塊服務(wù)端說(shuō)明。

補(bǔ)充說(shuō)明:宿主機(jī)可通過(guò)Asbru工具或SSH客戶(hù)端進(jìn)行SSH訪(fǎng)問(wèn);

相關(guān)軟件安裝包在宿主機(jī)的/opt目錄下,請(qǐng)選擇對(duì)應(yīng)的安裝包進(jìn)行

安裝,用不到的可忽略;

所有模塊中應(yīng)用命令必須采用絕對(duì)路徑;

從本地倉(cāng)庫(kù)中拉取鏡像,并啟動(dòng)3個(gè)容器

進(jìn)入Master節(jié)點(diǎn)的方式為

dockerexec-itmaster/bin/bash

進(jìn)入Slavel節(jié)點(diǎn)的方式為

dockerexec-itslavel/bin/bash

進(jìn)入Slave2節(jié)點(diǎn)的方式為

dockerexec-itslave2/bin/bash

同時(shí)將/opt目錄下的所有安裝包移動(dòng)到3個(gè)容器節(jié)點(diǎn)中。

任務(wù)一:Hadoop完全分布式安裝配置

本環(huán)節(jié)需要使用root用戶(hù)完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)境。

命令中要求使用絕對(duì)路徑,具體要求如下:

1、將Master節(jié)點(diǎn)JDK安裝包解壓并移動(dòng)到/usr/java路徑(若路徑不存在,則

需新建),將命令復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中;

2、修改/root/profile文件,設(shè)置JDK環(huán)境變量,配置完畢后在Master節(jié)點(diǎn)分

別執(zhí)行“java”和“javac”命令,將命令行執(zhí)行結(jié)果分別截圖并粘貼至對(duì)

應(yīng)報(bào)告中;

3、請(qǐng)完成host相關(guān)配置,將三個(gè)節(jié)點(diǎn)分別命名為master、slavel、slave2,

并做免密登錄,使用絕對(duì)路徑從Master節(jié)點(diǎn)復(fù)制JDK解壓后的安裝文件到

SlavedSlave2節(jié)點(diǎn),并配置相關(guān)環(huán)境變量,將全部復(fù)制命令復(fù)制并粘貼至

對(duì)應(yīng)報(bào)告中;

4、在Master節(jié)點(diǎn)將Hadoop解壓到/opt目錄下,并將解壓包分發(fā)至Slavel、

Slave2中,配置好相關(guān)環(huán)境,初始化Hadoop環(huán)境namenode,將初始化命令

及初始化結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

5、啟動(dòng)Hadoop集群,查看Master節(jié)點(diǎn)jps進(jìn)程,將查看結(jié)果復(fù)制粘貼至對(duì)應(yīng)

報(bào)告中。

任務(wù)二:Kafka安裝配置

本環(huán)節(jié)需要使用root用戶(hù)完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)

境,具體要求如下:

1、將ZooKeeper配置完畢后,在各節(jié)點(diǎn)啟動(dòng)Zookeeper,查看Master節(jié)點(diǎn)的

zkServer服務(wù)狀態(tài),將查看命令及結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

2、修改Kafka的server,properties文件,并將修改的內(nèi)容復(fù)制粘貼至對(duì)應(yīng)報(bào)

告中;

3、完善其他配置并在每個(gè)節(jié)點(diǎn)啟動(dòng)Kafka,將Master節(jié)點(diǎn)的Kafka啟動(dòng)命令復(fù)

制粘貼至對(duì)應(yīng)報(bào)告中。

任務(wù)三:Hive安裝配置

本環(huán)節(jié)需要使用root用戶(hù)完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)

境,具體要求如下:

1、將Master節(jié)點(diǎn)Hive安裝包解壓到/opt目錄下,將完整命令復(fù)制粘貼至對(duì)應(yīng)

報(bào)告中;

2、把解壓后的apache-hiveT.2.2-bin文件夾更名為hive;進(jìn)入hive文件夾

使用Is進(jìn)行查看,將完整命令復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

3、設(shè)置Hive環(huán)境變量,并使環(huán)境變量只對(duì)當(dāng)前root用戶(hù)生效;并將環(huán)境變量

配置內(nèi)容復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中;

4、將Hive安裝目錄里hive-default.xml.template文件更名為hive-site.xml;

將完整命令復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

5、修改hive-site,xml配置文件,將MySQL數(shù)據(jù)庫(kù)作為Hive元數(shù)據(jù)庫(kù)。將配置

文件中配置Hive元存儲(chǔ)的相關(guān)內(nèi)容復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中;

6、初始化Hive元數(shù)據(jù),將MySQL數(shù)據(jù)庫(kù)JDBC驅(qū)動(dòng)拷貝到Hive安裝目錄的lib

文件夾下;并通過(guò)schematool相關(guān)命令執(zhí)行初始化,將初始化結(jié)果復(fù)制粘貼

至對(duì)應(yīng)報(bào)告中;

7、完善其他配置并啟動(dòng)Hive,將命令行輸出結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。

模塊B:離線(xiàn)數(shù)據(jù)處理(25分)

環(huán)境說(shuō)明:

服務(wù)端登錄地址詳見(jiàn)各模塊服務(wù)端說(shuō)明。

補(bǔ)充說(shuō)明:各主機(jī)可通過(guò)Asbru工具或SSH客戶(hù)端進(jìn)行SSH訪(fǎng)問(wèn);

Master節(jié)點(diǎn)MySQL數(shù)據(jù)庫(kù)用戶(hù)名/密碼:root/123456(已配置遠(yuǎn)程

連接);

Hive的元數(shù)據(jù)啟動(dòng)命令為:

nohuphive-servicemetastore&

Hive的配置文件位于/opt/apache-hive-2.3.4-bin/conf/

Spark任務(wù)在Yarn上用Client運(yùn)行,方便觀察日志。

任務(wù)一:數(shù)據(jù)抽取

編寫(xiě)Scala工程代碼,將MySQL庫(kù)中表EnvironmentData,ChangeRecord,

Basemachine,MachineData,ProduceRecord全量抽取到Hive的ods庫(kù)中對(duì)應(yīng)

表EnvironmentData,ChangeRecord,Basemachine,MachineData,

ProduceRecord中。

1、抽取MySQL的shtd_store庫(kù)中EnvironmentData表的全量數(shù)據(jù)進(jìn)入Hive的

ods庫(kù)中表EnvironmentData,字段排序、類(lèi)型不變,同時(shí)添加靜態(tài)分區(qū),

分區(qū)字段類(lèi)型為String,且值為當(dāng)前比賽日的前一天日期(分區(qū)字段格式為

yyyyMMdd)。并在hivecli執(zhí)行showpartitionsods.EnvironmentData命

令,將結(jié)果截圖復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

2、抽取MySQL的shtd_store庫(kù)中ChangeRecord表的全量數(shù)據(jù)進(jìn)入Hive的ods

庫(kù)中表ChangeRecord,字段排序、類(lèi)型不變,同時(shí)添加靜態(tài)分區(qū),分區(qū)字段

類(lèi)型為String,且值為當(dāng)前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。

并在hivecli執(zhí)行showpartitionsods.ChangeRecord命令,將結(jié)果截圖

復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

3、抽取MySQL的shtdstore庫(kù)中Basemachine表的全量數(shù)據(jù)進(jìn)入Hive的ods

庫(kù)中表Basemachine,字段排序、類(lèi)型不變,同時(shí)添加靜態(tài)分區(qū),分區(qū)字段

類(lèi)型為String,且值為當(dāng)前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。

并在hivecli執(zhí)行showpartitionsods.Basemachine命令,將結(jié)果截圖

復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

4、抽取MySQL的shtdstore庫(kù)中ProduceRecord表的全量數(shù)據(jù)進(jìn)入Hive的ods

庫(kù)中表ProduceRecord,字段排序、類(lèi)型不變,同時(shí)添加靜態(tài)分區(qū),分區(qū)字

段類(lèi)型為String,且值為當(dāng)前比賽日的前一天日期(分區(qū)字段格式為

yyyyMMdd)o并在hivecli執(zhí)行showpartitionsods.ProduceRecord命令,

將結(jié)果截圖復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

5、抽取MySQL的shtd_store庫(kù)中MachineData表的全量數(shù)據(jù)進(jìn)入Hive的ods

庫(kù)中表MachineData,字段排序、類(lèi)型不變,同時(shí)添加靜態(tài)分區(qū),分區(qū)字段

類(lèi)型為String,且值為當(dāng)前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。

并在hivecli執(zhí)行showpartitionsods.ProduceRecord命令,將結(jié)果截

圖復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

任務(wù)二:數(shù)據(jù)清洗

編寫(xiě)HiveSQL代碼,將ods庫(kù)中相應(yīng)表數(shù)據(jù)全量抽取到Hive的dwd庫(kù)中對(duì)

應(yīng)表中。表中有涉及到timestamp類(lèi)型的,均要求按照yyyy-MM-ddss,

不記錄毫秒數(shù),若原數(shù)據(jù)中只有年月日,則在時(shí)分秒的位置添加00:00:00,添

加之后使其符合yyyy-MM-ddsso

1、抽取ods庫(kù)中EnvironmentData的全量數(shù)據(jù)進(jìn)入Hive的dwd庫(kù)中表

factenvironment_data,分區(qū)字段為etldate且值與ods庫(kù)的相對(duì)應(yīng)表該

值相等,并添加dwd_insertuser.dwd_insert_time^dwd_modify_user.

dwd_modifytime四列,其中dwd_insert_userdwd_modifyuser均填寫(xiě)

“userl”,dwd_insert_time>dwd_modify_time均填寫(xiě)操作時(shí)間,并進(jìn)行數(shù)

據(jù)類(lèi)型轉(zhuǎn)換。并在hivecli執(zhí)行descdwd.fact_environment_data命令,

將結(jié)果內(nèi)容復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

2、抽取ods庫(kù)中ChangeRecord的全量數(shù)據(jù)進(jìn)入Hive的dwd庫(kù)中表

factchange_record,分區(qū)字段為etldate且值與ods庫(kù)的相對(duì)應(yīng)表該值相

等,并添力口dwd_insert_user、dwd_insert_time、dwd_modify_user、

dwd_modify_time四列,其中dwd_insert_userdwd_modify_user均填寫(xiě)

“userl",dwd_insert_time>dwd_modify_time均填寫(xiě)操作時(shí)間,并進(jìn)行數(shù)

據(jù)類(lèi)型轉(zhuǎn)換。并在hivecli執(zhí)行descdwd.fact_change_record命令,將

結(jié)果內(nèi)容復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

3、抽取ods庫(kù)中Basemachine的全量數(shù)據(jù)進(jìn)入Hive的dwd庫(kù)中表dim_machine,

抽取數(shù)據(jù)之前需要對(duì)數(shù)據(jù)根據(jù)BaseMachinelD進(jìn)行去重處理。分區(qū)字段為

etldate且值與ods庫(kù)的相對(duì)應(yīng)表該值相等,并添加dwdinsert_user

dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中

dwd_insert_user>dwd_modify_user均填寫(xiě)“userl",dwd_insert_time>

dwd_modify_time均填寫(xiě)操作時(shí)間,并進(jìn)行數(shù)據(jù)類(lèi)型轉(zhuǎn)換。在hivecli中按

照Base_machine順序排序,查詢(xún)dim_machine前2條數(shù)據(jù),將結(jié)果內(nèi)容復(fù)

制粘貼至對(duì)應(yīng)報(bào)告中;

4、抽取ods庫(kù)中ProduceRecord的全量數(shù)據(jù)進(jìn)入Hive的dwd庫(kù)中表

fact_produce_record,分區(qū)字段為etldate且值與ods庫(kù)的相對(duì)應(yīng)表該值相

等,并添力口dwd_insert_user、dwd_insert_time、dwd_modify_user、

dwd_modify_time四列,其中dwd_insert_user>dwd_modifyuser均填寫(xiě)

“userl”,dwd_insert_time>dwd_modify_time均填寫(xiě)操作時(shí)間,并進(jìn)行數(shù)

據(jù)類(lèi)型轉(zhuǎn)換。在hivecli中按照produce_machine_id順序排序,查詢(xún)

fact_produce_record前2條數(shù)據(jù),將結(jié)果內(nèi)容復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

5、抽取ods庫(kù)中MachineData的全量數(shù)據(jù)進(jìn)入Hive的dwd庫(kù)中表

fact_machine_datao分區(qū)字段為etldate且值與ods庫(kù)的相對(duì)應(yīng)表該值相

等,并添力口dwd_insert_user、dwd_insert_time、dwd_modify_user、

dwd_modify_time四列,其中dwd_insert_userdwd_modify_user均填寫(xiě)

“userl”,dwd_insert_time>dwd_modifytime均填寫(xiě)操作時(shí)間,并進(jìn)行數(shù)

據(jù)類(lèi)型轉(zhuǎn)換。并在hivecli執(zhí)行showpartitionsdwd.fact_machine_data

命令,將結(jié)果內(nèi)容復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

任務(wù)三:指標(biāo)計(jì)算

1、編寫(xiě)Scala工程代碼,根據(jù)dwd層dwd.fact_environment_data表,統(tǒng)計(jì)檢

測(cè)設(shè)備(BaselD)每日的PM10的檢測(cè)平均濃度,然后將每個(gè)設(shè)備的平均濃

度與廠內(nèi)所有檢測(cè)設(shè)備每日檢測(cè)結(jié)果的平均濃度做比較(結(jié)果值為:高/低/

相同)存入MySQL數(shù)據(jù)庫(kù)shtdstore的表MachineRunningCompare(表結(jié)構(gòu)

如下)中,然后在Linux的MySQL命令行中根據(jù)檢測(cè)設(shè)備ID倒序排序,查

詢(xún)出前5條,將SQL語(yǔ)句與執(zhí)行結(jié)果截圖粘貼至對(duì)應(yīng)報(bào)告中。

字段類(lèi)型中文含義備注

BaselDint檢測(cè)設(shè)備ID

MachineAvgdecimal單設(shè)備檢測(cè)平

均值

FactoryAvgdecimal廠內(nèi)所有設(shè)備

平均值

Comparisonstring比較結(jié)果高/低/相同

EnvDatestring檢測(cè)日期如:2021-12-12

2、編寫(xiě)Scala工程代碼,根據(jù)dwd層dwd.fact_machine_data關(guān)聯(lián)

dwd.dim_machine表統(tǒng)計(jì)每個(gè)月、每個(gè)車(chē)間、每種狀態(tài)的時(shí)長(zhǎng),存入MySQL

數(shù)據(jù)庫(kù)shtd_store的表(表結(jié)構(gòu)如下)中,然后在Linux的MySQL命令行

中根據(jù)設(shè)備id、狀態(tài)持續(xù)時(shí)長(zhǎng)均為逆序排序,查詢(xún)出前5條,將SQL語(yǔ)句與

執(zhí)行結(jié)果截圖粘貼至對(duì)應(yīng)報(bào)告中;

字段類(lèi)型中文含義備注

MachinelDint車(chē)間id

ChangeRecordStatestring狀態(tài)

duration_tirnestring持續(xù)時(shí)長(zhǎng)當(dāng)月該狀態(tài)的時(shí)長(zhǎng)和

Yearint年?duì)顟B(tài)產(chǎn)生的年

Monthint月?tīng)顟B(tài)產(chǎn)生的月

3、編寫(xiě)Scala工程代碼,根據(jù)dwd層dwd.fact_change_record表聯(lián)合

dimjnachine表,統(tǒng)計(jì)每個(gè)車(chē)間中設(shè)備運(yùn)行時(shí)長(zhǎng)(即設(shè)備狀態(tài)為“運(yùn)行”)的

中位數(shù),存入MySQL數(shù)據(jù)庫(kù)shtd_store的表MachineRunningMedian(表結(jié)

構(gòu)如下)中,然后在Linux的MySQL命令行中根據(jù)所屬車(chē)間、設(shè)備id均為

倒序排序,查詢(xún)出前5條數(shù)據(jù),將SQL語(yǔ)句與執(zhí)行結(jié)果截圖粘貼至對(duì)應(yīng)報(bào)告

中;

字段類(lèi)型中文含義備注

MachinelDint設(shè)備id

MachineFactoryint所屬車(chē)間

TotalRunningTimeint運(yùn)行總時(shí)長(zhǎng)結(jié)果以秒為單位

模塊C:數(shù)據(jù)挖掘(10分)

環(huán)境說(shuō)明:

服務(wù)端登錄地址詳見(jiàn)各模塊服務(wù)端說(shuō)明。

補(bǔ)充說(shuō)明:各主機(jī)可通過(guò)Asbru工具或SSH客戶(hù)端進(jìn)行SSH訪(fǎng)問(wèn);

Master節(jié)點(diǎn)MySQL數(shù)據(jù)庫(kù)用戶(hù)名/密碼:root/123456(已配置遠(yuǎn)程

連接);

Hive的元數(shù)據(jù)啟動(dòng)命令為:

nohuphive-servicemetastore&

Hive的配置文件位于/opt/apache-hive-2.3.4-bin/conf/

Spark任務(wù)在Yarn上用Client運(yùn)行,方便觀察日志。

該模塊均使用Scala編寫(xiě),利用Spark相關(guān)庫(kù)完成。

任務(wù)一:特征工程

1、根據(jù)dwd庫(kù)中fact_machine_data表,根據(jù)以下要求轉(zhuǎn)換:獲取最大分區(qū)

的數(shù)據(jù)后,首先解析列g(shù)et_xmldata中的數(shù)據(jù)(數(shù)據(jù)格式為xml,采用dom4j

解析,會(huì)給出解析demo),并獲取主軸轉(zhuǎn)速,主軸倍率,主軸負(fù)載,進(jìn)給倍

率,進(jìn)給速度,PMC程序號(hào),循環(huán)時(shí)間,運(yùn)行時(shí)間,有效軸數(shù),總加工個(gè)數(shù),

已使用內(nèi)存,未使用內(nèi)存,可用程序量,注冊(cè)程序量等相關(guān)的值,同時(shí)轉(zhuǎn)換

machine_record_stat字段的值,若值為報(bào)警,則填寫(xiě)1,否則填寫(xiě)0,以下

為表結(jié)構(gòu),將數(shù)據(jù)保存在dwd.factmachine_learning_data,在hivecli

中按照machine_record_id順序排序,查詢(xún)

dwd.fact_machine_learning_data前1條數(shù)據(jù),將結(jié)果內(nèi)容復(fù)制粘貼至對(duì)應(yīng)

報(bào)告中;

dwd.factmachinelearningdata表結(jié)構(gòu):

字段類(lèi)型中文含義備注

machine_record_idint自增長(zhǎng)id

machine_iddouble機(jī)器id

machine_record_mainshaft_speeddouble主軸轉(zhuǎn)速默認(rèn)0.0

machine_record_mainshaft_multipleratedouble主軸倍率默認(rèn)0.0

machine_record_mainshaft_loaddouble主軸負(fù)載默認(rèn)0.0

machine_record_feed_speeddouble進(jìn)給倍率默認(rèn)0.0

machine_record_feed_muItipleratedouble進(jìn)給速度默認(rèn)0.0

machine_record_pmc_codedoublePMC程序號(hào)默認(rèn)0.0

machine_record_cricle_timedouble循環(huán)時(shí)間默認(rèn)0.0

machine_record_run_timedouble運(yùn)行時(shí)間默認(rèn)0.0

machine_recordefficive_shaftdouble有效軸數(shù)默認(rèn)0.0

machine_record_amount_processdouble總加工個(gè)數(shù)默認(rèn)0.0

machine_record_use_memorydouble已使用內(nèi)存默認(rèn)0.0

machine_record_free_memorydouble未使用內(nèi)存默認(rèn)0.0

machine_record_amount_use_codedouble可用程序量默認(rèn)0.0

machine_record_amount_free_codedouble注冊(cè)程序量默認(rèn)0.0

machine_record_statedouble機(jī)器狀態(tài)默認(rèn)0.0

任務(wù)二:報(bào)警預(yù)測(cè)

1、根據(jù)任務(wù)一的結(jié)果,建立隨機(jī)森林(隨機(jī)森林相關(guān)參數(shù)考生可自定義,不做

限制),使用任務(wù)一的結(jié)果訓(xùn)練隨機(jī)森林模型,然后再將hive中

dwd.fact_machine_learning_data_test(表結(jié)構(gòu)與

dwd.fact_machine_learning_data一致,但machine_record_state列值為

空)轉(zhuǎn)成向量,預(yù)測(cè)其是否報(bào)警將結(jié)果輸出到mysql庫(kù)shtd_industry中的

ml_result表中。在Linux的MySQL命令行中查詢(xún)出所有數(shù)據(jù)并按照

machine_record_id順序排序,將SQL語(yǔ)句與執(zhí)行結(jié)果截圖粘貼至對(duì)應(yīng)報(bào)告

中。

ml_result表結(jié)構(gòu):

字段類(lèi)型中文含義備注

machine_record_idint自增長(zhǎng)id

machine_record_statedouble機(jī)器狀態(tài)報(bào)警為1,其他

狀態(tài)則為0

模塊D:數(shù)據(jù)采集與實(shí)時(shí)計(jì)算(20分)

環(huán)境說(shuō)明:

服務(wù)端登錄地址詳見(jiàn)各模塊服務(wù)端說(shuō)明。

補(bǔ)充說(shuō)明:各主機(jī)可通過(guò)Asbru工具或SSH客戶(hù)端進(jìn)行SSH訪(fǎng)問(wèn);

請(qǐng)先檢查ZooKeeper、Kafka、Redis端口看是否已啟動(dòng),若未啟動(dòng)

則各啟動(dòng)命令如下:

ZK啟動(dòng)(netstat-ntlp查看2181端口是否打開(kāi))

/usr/zk/zookeeper-3.4.6/bin/zkServer.shstart

Redis啟動(dòng)(netstat-ntlp查看6379端口是否打開(kāi))

/usr/redis/bin/redis-server/usr/redis/bin/redis.conf

Kafka啟動(dòng)(netstat-ntlp查看9092端口是否打開(kāi))

/opt/kafka/kafka_2.11-2.0.O/bin/kafka-server-start.sh-daemon(空格連接下一行)

/opt/kafka/kafka_2.11-2.0.0/config/server.properties

Flink任務(wù)在Yarn上用perjob模式(即Job分離模式,不采用

Session模式),方便Yarn回收資源。

任務(wù)一:實(shí)時(shí)數(shù)據(jù)采集

1、在Master節(jié)點(diǎn)使用Flume采集/data_log目錄下實(shí)時(shí)日志文件中的數(shù)據(jù),將

數(shù)據(jù)存入到Kafka的Topic中(topic名稱(chēng)分別為ChangeRecord和

EnvironmentData,分區(qū)數(shù)為4),將Flume的配置截圖粘貼至對(duì)應(yīng)報(bào)告中;

2、Flume接收數(shù)據(jù)注入kafka的同時(shí),將數(shù)據(jù)備份到HDFS目錄

/user/test/flumebackup下,將備份結(jié)果截圖粘貼至對(duì)應(yīng)報(bào)告中。

任務(wù)二:使用Flink處理Kafka中的數(shù)據(jù)

編寫(xiě)Scala工程代碼,使用Flink消費(fèi)Kafka中Topic為ChangeRecord的

數(shù)據(jù)并進(jìn)行相應(yīng)的數(shù)據(jù)統(tǒng)計(jì)計(jì)算。

1、使用Flink消費(fèi)Kafka中EnvironmentData主題的數(shù)據(jù),監(jiān)控各環(huán)境檢測(cè)設(shè)

備數(shù)據(jù),當(dāng)溫度(Temperature字段)持續(xù)10分鐘高于39度時(shí)記錄為預(yù)警

數(shù)據(jù)(設(shè)備id,溫度,預(yù)警時(shí)間),將該環(huán)境檢測(cè)設(shè)備的預(yù)警數(shù)據(jù)寫(xiě)入Mysql

表envtemperaturealarm中,然后在Linux的MySQL命令行中根據(jù)Machine1D

逆序排序,查詢(xún)出前3條,將SQL語(yǔ)句與執(zhí)行結(jié)果截圖粘貼至對(duì)應(yīng)報(bào)告中;

2^使用Flink消費(fèi)Kafka中ChangeRecord主題的數(shù)據(jù),統(tǒng)計(jì)每個(gè)設(shè)備從其他

狀態(tài)轉(zhuǎn)變?yōu)?運(yùn)行”狀態(tài)的總次數(shù),將key設(shè)置成totalswitch存入Redis

中(再使用hash數(shù)據(jù)格式,key存放為設(shè)備id,value存放為該設(shè)備切換為

"運(yùn)行"的總次數(shù)),使用rediscli以getkey方式獲取to

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論