工業(yè)大數(shù)據(jù)采集處理與應(yīng)用_第1頁
工業(yè)大數(shù)據(jù)采集處理與應(yīng)用_第2頁
工業(yè)大數(shù)據(jù)采集處理與應(yīng)用_第3頁
工業(yè)大數(shù)據(jù)采集處理與應(yīng)用_第4頁
工業(yè)大數(shù)據(jù)采集處理與應(yīng)用_第5頁
已閱讀5頁,還剩202頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

工業(yè)大數(shù)據(jù)采集、處理與應(yīng)用1一、了解工業(yè)大數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集三、工業(yè)大數(shù)據(jù)預(yù)處理四、工業(yè)大數(shù)據(jù)建模五、工業(yè)大數(shù)據(jù)分析六、工業(yè)大數(shù)據(jù)可視化七、工業(yè)大數(shù)據(jù)應(yīng)用課程目錄一、了解工業(yè)大數(shù)據(jù)大數(shù)據(jù)的特征工業(yè)大數(shù)據(jù)的主要來源、特點、分類,數(shù)據(jù)的應(yīng)用場景工業(yè)大數(shù)據(jù)平臺架構(gòu)、主要技術(shù)2知識目標技能目標能夠分析生產(chǎn)企業(yè)的數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)規(guī)模能夠闡述工業(yè)大數(shù)據(jù)的主要應(yīng)用場景能夠闡述工業(yè)大數(shù)據(jù)平臺的基本組成掌握安裝部署大數(shù)據(jù)平臺Hadoop的方法學(xué)習(xí)目標3一、了解工業(yè)大數(shù)據(jù)什么是大數(shù)據(jù)大數(shù)據(jù)的特征數(shù)據(jù)的類型數(shù)據(jù)規(guī)模的度量工業(yè)大數(shù)據(jù)的來源工業(yè)大數(shù)據(jù)的特征工業(yè)大數(shù)據(jù)實例工業(yè)企業(yè)運行流程工業(yè)大數(shù)據(jù)分類工業(yè)大數(shù)據(jù)應(yīng)用場景工業(yè)大數(shù)據(jù)應(yīng)用類型工業(yè)大數(shù)據(jù)應(yīng)用實例靜態(tài)數(shù)據(jù)和流數(shù)據(jù)批量計算和流式計算工業(yè)大數(shù)據(jù)架構(gòu)分布式計算框架Hadoop分布式文件系統(tǒng)HDFS分布式文件系統(tǒng)HDFS(一)認識工業(yè)大數(shù)據(jù)特征(二)了解工業(yè)大數(shù)據(jù)及應(yīng)用分類(三)認識工業(yè)大數(shù)據(jù)系統(tǒng)架構(gòu)4什么是大數(shù)據(jù)(BigData)?麥肯錫:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。維基百科:大數(shù)據(jù)指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時間內(nèi)達到截取、管理、處理、并整理成為人類所能解讀的信息。研究機構(gòu)Gartner:大數(shù)據(jù)是需要新處理模式才能有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!瓪w納:海量數(shù)據(jù)集合,已經(jīng)無法用傳統(tǒng)的技術(shù)手段和工具進行查詢、分析和挖掘,需要采用新計算模式和技術(shù)。一、了解工業(yè)大數(shù)據(jù)5大數(shù)據(jù)4V特征規(guī)模性(Volume)規(guī)模大增量快多樣性(Variety)來源多類型多價值性(Value)可挖掘有價值高速性(Velocity)采集快處理快大數(shù)據(jù)的特征《大數(shù)據(jù)時代》

[英]維克托邁爾-舍恩伯格,肯尼斯克耶一、了解工業(yè)大數(shù)據(jù)VolumeVelocityVarietyValue4V6大數(shù)據(jù)的特征——規(guī)模性數(shù)據(jù)呈現(xiàn)爆發(fā)性增長IDC估測,數(shù)據(jù)一直都在以每年50%的速度增長,即每兩年就增長一倍一、了解工業(yè)大數(shù)據(jù)7大數(shù)據(jù)的特征——規(guī)模性數(shù)據(jù)呈現(xiàn)爆發(fā)性增長一、了解工業(yè)大數(shù)據(jù)8大數(shù)據(jù)的特征——高速性數(shù)據(jù)產(chǎn)生速度快微信、抖音……傳感器一、了解工業(yè)大數(shù)據(jù)9大數(shù)據(jù)的特征——多樣性一、了解工業(yè)大數(shù)據(jù)10大數(shù)據(jù)的特征——價值性一、了解工業(yè)大數(shù)據(jù)數(shù)據(jù)背后隱藏有巨大價值,可以通過數(shù)據(jù)挖掘、機器學(xué)習(xí)等方法深度分析,從各種各樣看似不相關(guān)的數(shù)據(jù)中挖掘出有價值的數(shù)據(jù),從而創(chuàng)造更大的價值。價值性比數(shù)量規(guī)模更為重要。對于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù)是成為贏得競爭的關(guān)鍵。11數(shù)據(jù)類型:結(jié)構(gòu)化數(shù)據(jù)序號設(shè)備名稱計劃采購數(shù)備注1電腦裁線機5切線設(shè)備2靜音端子機2壓線設(shè)備3拉脫力測試儀4檢驗設(shè)備…………結(jié)構(gòu)化數(shù)據(jù)示例一、了解工業(yè)大數(shù)據(jù)12數(shù)據(jù)類型:非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)視頻語音圖像圖形文本mp4,mov,asf,avi…mp3,wma,wav,ogg…jpg,png,tiff…txt……一、了解工業(yè)大數(shù)據(jù)13數(shù)據(jù)類型:半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)--XML示例<?xmlversion="1.0"encoding="UTF-8"?><person><name>張三</name><age>13</age><gender>男</gender></person>一、了解工業(yè)大數(shù)據(jù)14數(shù)據(jù)類型:半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)--JSON示例{"name":"張三","age":18,"address":{"country":"china","zip-code":"10000"}}一、了解工業(yè)大數(shù)據(jù)15數(shù)據(jù)規(guī)模的度量單位bit:位。一個二進制位為1個bitByte:字節(jié) 1B=8bitKB(Kilobyte) 1KB=1024BMB(Megabyte) 1MB=1024KBGB(Gigabyte) 1GB=1024MBTB(Terabyte) 1TB=1024GBPB(Petabyte) 1PB=1024TBEB(Exabyte) 1EB=1024PBZB(Zettabyte) 1ZB=1024EBYB(Yottabyte) 1YB=1024ZBBB(Brontobyte)

1BB=1024YB一、了解工業(yè)大數(shù)據(jù)16數(shù)據(jù)規(guī)模的度量單位

數(shù)據(jù)規(guī)模的直觀舉例TB10的12次方1塊1TB硬盤200,000照片或MP3歌曲PB10的15次方2個數(shù)據(jù)中心機柜16個blackblaepods存儲單元EB10的18次方2000個機柜占據(jù)1個街區(qū)的4層數(shù)據(jù)中心ZB10的21次方1000個數(shù)據(jù)中心紐約曼哈頓思維1/5區(qū)域YB10的24次方一百萬個數(shù)據(jù)中心特拉華州和羅德島州一、了解工業(yè)大數(shù)據(jù)17工業(yè)大數(shù)據(jù)的來源(1)企業(yè)內(nèi)部信息化數(shù)據(jù)企業(yè)產(chǎn)品數(shù)據(jù)管理系統(tǒng)(PDM)企業(yè)資源計劃系統(tǒng)(ERP)制造執(zhí)行系統(tǒng)(MES)產(chǎn)品生命周期管理系統(tǒng)(PLM)供應(yīng)鏈管理系統(tǒng)(SCM)客戶關(guān)系管理系統(tǒng)(CRM)質(zhì)量檢驗系統(tǒng)(QC)辦公自動化系統(tǒng)(OA)……一、了解工業(yè)大數(shù)據(jù)18工業(yè)大數(shù)據(jù)的來源(2)工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)一、了解工業(yè)大數(shù)據(jù)19工業(yè)大數(shù)據(jù)的來源(3)外部數(shù)據(jù)行業(yè)信息市場變化合作伙伴、競爭對手氣候變化、生態(tài)約束政治事件、自然災(zāi)害一、了解工業(yè)大數(shù)據(jù)20分類系統(tǒng)類型典型數(shù)據(jù)文件/系統(tǒng)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)特點實時性

企業(yè)管理信息產(chǎn)品設(shè)計資料產(chǎn)品模型、圖紙文檔半結(jié)構(gòu)化非結(jié)構(gòu)化類型各異、更新不頻繁非實時生產(chǎn)流程管理制造執(zhí)行系統(tǒng)的排程、工單、質(zhì)檢資料結(jié)構(gòu)化半結(jié)構(gòu)化

沒有嚴格的時效性要求、需要定期同步非實時價值鏈管理供應(yīng)鏈管理、客戶關(guān)系管理的供應(yīng)商、客戶、合作伙伴、客服等資料半結(jié)構(gòu)化非結(jié)構(gòu)化沒有嚴格的時效性要求、需要定期同步非實時資源管理企業(yè)資源計劃、倉庫管理、能源管理系統(tǒng)的生產(chǎn)計劃、庫存等結(jié)構(gòu)化沒有嚴格的時效性要求、需要定期同步非實時企業(yè)辦公管理自動化辦公系統(tǒng)的辦公文檔、人力資源等資料結(jié)構(gòu)化半結(jié)構(gòu)化非結(jié)構(gòu)化沒有嚴格的時效性要求、需要定期同步非實時

企業(yè)生產(chǎn)信息工業(yè)控制系統(tǒng)分散控制系統(tǒng)、可編程控制器PLC結(jié)構(gòu)化需要實時監(jiān)控、實時反饋控制實時生產(chǎn)監(jiān)控系統(tǒng)數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)結(jié)構(gòu)化需要實時監(jiān)控、實時反饋控制實時各類傳感器外掛式傳感器、條碼、射頻識別結(jié)構(gòu)化包含實時數(shù)據(jù)和歷史數(shù)據(jù)實時其他外部裝置視頻攝像頭非結(jié)構(gòu)化數(shù)據(jù)量大、低延時、要求網(wǎng)絡(luò)帶寬和時延實時外部信息外部數(shù)據(jù)(互聯(lián)網(wǎng)、外部系統(tǒng)等)相關(guān)行業(yè)、法律法規(guī)、市場數(shù)據(jù)等半結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)相對靜止,變化較小、定期更新非實時工業(yè)大數(shù)據(jù)的來源常見工業(yè)數(shù)據(jù)源一、了解工業(yè)大數(shù)據(jù)21工業(yè)大數(shù)據(jù)的特征時序性

來自控制器、傳感器和其他智能感知設(shè)備,采樣得到的這些數(shù)據(jù)通常都是有時間順序的,是一組時間序列數(shù)據(jù)。實時性實時監(jiān)測、實時預(yù)警、實時控制。采集的數(shù)據(jù)具有實時性的要求。高通量數(shù)據(jù)吞吐量大,產(chǎn)生的頻度高。高緯度

一個事務(wù)有大量不同描述角度的數(shù)據(jù)。多尺度

同一對象有多種不同的描述尺度。高噪性

存在漏讀數(shù)據(jù)、誤差數(shù)據(jù)。除了具有大數(shù)據(jù)的4V特征外,工業(yè)大數(shù)據(jù)還具有以下特征:一、了解工業(yè)大數(shù)據(jù)22數(shù)據(jù)規(guī)模計算舉例某機床制造企業(yè)

應(yīng)力、表面溫度、傳輸壓力、傳輸流量等數(shù)據(jù)

以單車間1,000個采集傳感器來計算,平均每20秒上報一次數(shù)據(jù),數(shù)據(jù)包大小以200KB為平均量,那么單個車間每天產(chǎn)生的數(shù)據(jù)量是多少?數(shù)據(jù)量/天=1,000個傳感器*200KB/個傳感器*24*60分鐘*3次/分鐘一、了解工業(yè)大數(shù)據(jù)23數(shù)據(jù)規(guī)模計算舉例某煉鐵企業(yè)PLC生產(chǎn)操作數(shù)據(jù)、工業(yè)傳感器產(chǎn)生的檢測數(shù)據(jù)、現(xiàn)場的各類就地儀表的數(shù)據(jù)等。整個煉鐵大數(shù)據(jù)平臺接入約200座高爐的數(shù)據(jù)。以單座高爐為例,每個高爐約有2,000個數(shù)據(jù)點,數(shù)據(jù)采集頻率為1分鐘一次,每座高爐產(chǎn)生的采集的數(shù)據(jù)點約為288萬點/天、數(shù)據(jù)大小約為200MB/天。每天產(chǎn)生的數(shù)據(jù)量是多少?采集的數(shù)據(jù)點量/天·座=24*60分鐘*2000點/座·分鐘數(shù)據(jù)量/天=200座*200MB/座·天一、了解工業(yè)大數(shù)據(jù)24一、了解工業(yè)大數(shù)據(jù)工業(yè)企業(yè)運行流程25一、了解工業(yè)大數(shù)據(jù)制造企業(yè)活動示例26一、了解工業(yè)大數(shù)據(jù)工業(yè)大數(shù)據(jù)應(yīng)用場景27一、了解工業(yè)大數(shù)據(jù)什么是批量計算和流式計算?流式計算批量計算28一、了解工業(yè)大數(shù)據(jù)工業(yè)大數(shù)據(jù)體系架構(gòu)29一、了解工業(yè)大數(shù)據(jù)分布式計算框架:HadoopMapReduce分布式計算Yarn資源調(diào)度HDFS數(shù)據(jù)存儲ApacheHadoop組成30一、了解工業(yè)大數(shù)據(jù)分布式文件系統(tǒng):HDFS31一、了解工業(yè)大數(shù)據(jù)分布式計算框架:MapReduce32一、了解工業(yè)大數(shù)據(jù)分布式計算舉例--排序33一、了解工業(yè)大數(shù)據(jù)拓展知識:大數(shù)據(jù)技術(shù)框架模型34一、了解工業(yè)大數(shù)據(jù)拓展知識:大數(shù)據(jù)技術(shù)框架35一、二、工業(yè)大數(shù)據(jù)采集三、四、五、六、36學(xué)習(xí)目標二、工業(yè)大數(shù)據(jù)采集1.認識工業(yè)現(xiàn)場網(wǎng)絡(luò),了解工業(yè)數(shù)據(jù)的采集方式;2.掌握工業(yè)數(shù)據(jù)采集系統(tǒng)的部署方法;3.能夠闡述工業(yè)數(shù)據(jù)的采集方式;4.能夠根據(jù)業(yè)務(wù)要求完成PLC數(shù)據(jù)的采集與存儲;5.能夠根據(jù)業(yè)務(wù)要求完成PTL數(shù)據(jù)的采集與存儲。37機器設(shè)備數(shù)據(jù)工業(yè)大數(shù)據(jù)采集產(chǎn)品設(shè)計數(shù)據(jù)生產(chǎn)流程管理數(shù)據(jù)資源管理數(shù)據(jù)……結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)工業(yè)數(shù)據(jù)釆集又稱數(shù)據(jù)獲取,是將工業(yè)數(shù)據(jù)自動及主動采集的過程,其目標是從企業(yè)內(nèi)部和外部數(shù)據(jù)源中獲取各種類型的數(shù)據(jù),獲取的有效數(shù)據(jù)信息是工業(yè)大數(shù)據(jù)處理、分析和應(yīng)用的基礎(chǔ)?;靖拍疃?、工業(yè)大數(shù)據(jù)采集38工業(yè)大數(shù)據(jù)囊括了整個產(chǎn)品全生命周期各個環(huán)節(jié)所產(chǎn)生的各類數(shù)據(jù),包括產(chǎn)品設(shè)計資料、產(chǎn)品生產(chǎn)流程管理數(shù)據(jù)、資源管理數(shù)據(jù)、生產(chǎn)過程數(shù)據(jù)等,其產(chǎn)生的主體是人和工業(yè)設(shè)備,相比于其他大數(shù)據(jù),工業(yè)大數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)更多,相關(guān)性和實時性也更強。相關(guān)知識二、工業(yè)大數(shù)據(jù)采集產(chǎn)品設(shè)計資料生產(chǎn)過程數(shù)據(jù)資源管理數(shù)據(jù)產(chǎn)品生產(chǎn)流程管理數(shù)據(jù)工業(yè)大數(shù)據(jù)39設(shè)備層控制層車間層企業(yè)層協(xié)同層上海產(chǎn)業(yè)技術(shù)研究院工程大數(shù)據(jù)服務(wù)創(chuàng)新中心提出的工業(yè)大數(shù)據(jù)參考架構(gòu)從物理域的角度,工業(yè)大數(shù)據(jù)架構(gòu)將企業(yè)自下而上劃分為5層:工業(yè)大數(shù)據(jù)架構(gòu)二、工業(yè)大數(shù)據(jù)采集40生產(chǎn)制造過程中產(chǎn)生的主要數(shù)據(jù)設(shè)備層控制層車間層企業(yè)層協(xié)同層現(xiàn)場傳感器儀表工業(yè)機器人……PLCCNCDCS……MES(作業(yè)過程管理、數(shù)據(jù)管理、工藝管理、質(zhì)量管理)等產(chǎn)品設(shè)計數(shù)據(jù)企業(yè)管理數(shù)據(jù)客戶關(guān)系管理……網(wǎng)絡(luò)化協(xié)同制造生產(chǎn)資源共享客戶關(guān)系管理……相關(guān)知識二、工業(yè)大數(shù)據(jù)采集41工業(yè)現(xiàn)場網(wǎng)絡(luò)現(xiàn)場總線網(wǎng)絡(luò)如果將現(xiàn)場總線看作一種局域網(wǎng),工業(yè)現(xiàn)場設(shè)備或高級控制系統(tǒng)即為網(wǎng)絡(luò)節(jié)點,通過雙絞線或光纖等傳輸介質(zhì)建立連接后,可實現(xiàn)工業(yè)現(xiàn)場設(shè)備(智能化儀器儀表、控制器、執(zhí)行機構(gòu)等)間的數(shù)字通信,以及現(xiàn)場控制設(shè)備與高級控制系統(tǒng)之間的通信,為實現(xiàn)企業(yè)信息集成和企業(yè)綜合自動化打下了基礎(chǔ)。ControlNetProfibus控制層設(shè)備層現(xiàn)場總線是一種工業(yè)數(shù)據(jù)總線,屬于自動化領(lǐng)域中的底層數(shù)據(jù)通信網(wǎng)絡(luò),能夠?qū)F(xiàn)場傳感器、控制器等的模擬量或數(shù)字量信號,轉(zhuǎn)換成雙向數(shù)字通信的現(xiàn)場總線信號,具有簡單、可靠、經(jīng)濟實用等優(yōu)點。二、工業(yè)大數(shù)據(jù)采集42現(xiàn)場總線符合IEC61158標準,與計算機網(wǎng)絡(luò)普遍采用的IOS/OSI參考模型相比較,現(xiàn)場總線網(wǎng)絡(luò)模型只規(guī)定了應(yīng)用層、數(shù)據(jù)鏈路層和物理層?,F(xiàn)場總線網(wǎng)絡(luò)模型工業(yè)現(xiàn)場網(wǎng)絡(luò)二、工業(yè)大數(shù)據(jù)采集43工業(yè)以太網(wǎng)以太網(wǎng)技術(shù)引入工廠設(shè)備底層,并將特殊工業(yè)協(xié)議封裝在以太網(wǎng)協(xié)議中,自此就產(chǎn)生了工業(yè)以太網(wǎng)。EtherCAT,Profinet,Modbus等工業(yè)現(xiàn)場網(wǎng)絡(luò)二、工業(yè)大數(shù)據(jù)采集44工業(yè)以太網(wǎng)的優(yōu)點01020304兼容性好以太網(wǎng)是一種標準的開放式網(wǎng)絡(luò),方便不同廠商的設(shè)備的互聯(lián)互通,實現(xiàn)控制系統(tǒng)中不同廠商設(shè)備的兼容和互操作的問題,也能實現(xiàn)辦公自動化網(wǎng)絡(luò)與工業(yè)控制網(wǎng)絡(luò)的信息無縫集成。通信速率高目前以太網(wǎng)的通信速率為10M或100M,1000M、10G的快速以太網(wǎng)也開始應(yīng)用,其速率比目前的現(xiàn)場總線快得多,可有效滿足對帶寬的更高要求。通信速率高目前以太網(wǎng)的通信速率為10M或100M,1000M、10G的快速以太網(wǎng)也開始應(yīng)用,其速率比目前的現(xiàn)場總線快得多,可有效滿足對帶寬的更高要求。易于共享資源隨著Internet/Intranet的快速發(fā)展,以太網(wǎng)已滲透到各個角落,網(wǎng)絡(luò)上的用戶能夠在任何地方實現(xiàn)對企業(yè)控制現(xiàn)場數(shù)據(jù)的監(jiān)控,便捷地訪問遠程系統(tǒng)。工業(yè)現(xiàn)場網(wǎng)絡(luò)二、工業(yè)大數(shù)據(jù)采集45工業(yè)以太網(wǎng)協(xié)議在物理層和數(shù)據(jù)鏈路層均采用有線以太網(wǎng)標準IEEE802.3在網(wǎng)絡(luò)層和傳輸層采用了標準的TCP/IP協(xié)議簇(包括UDP、TCP、IP、ARP、ICMP、IGMP等)。在高層協(xié)議中,有的工業(yè)以太網(wǎng)協(xié)議只定義應(yīng)用層,有的工業(yè)以太網(wǎng)協(xié)議還定義了用戶層工業(yè)以太網(wǎng)網(wǎng)絡(luò)模型工業(yè)現(xiàn)場網(wǎng)絡(luò)二、工業(yè)大數(shù)據(jù)采集46目前比較有影響力的實時工業(yè)以太網(wǎng)有:西門子的PROFINET、倍福的EtherCAT、貝加萊的Powerlink、橫河的VNET/IP、東芝的TCnet、施耐德的Modbus、浙大中控的EPA等。PROFINET系統(tǒng)架構(gòu)EtherCAT系統(tǒng)架構(gòu)主流工業(yè)以太網(wǎng)工業(yè)現(xiàn)場網(wǎng)絡(luò)二、工業(yè)大數(shù)據(jù)采集47截至目前已有40多種現(xiàn)場總線運用到現(xiàn)場工業(yè)網(wǎng)絡(luò)中,多種工業(yè)網(wǎng)絡(luò)協(xié)議支持不同層次的設(shè)備應(yīng)用:(1)傳感器級總線用于處理傳感器、行程開關(guān)、繼電器、接觸器等設(shè)備的數(shù)據(jù)傳輸,一般有快速、高精確度的通信要求,如Ethercat。(2)設(shè)備級總線用于建立PLC、DCS等控制系統(tǒng)之間或與分散的I/O設(shè)備之間的通信,如Modbus、Fieldbus等。(3)車間生產(chǎn)管理級總線用于大范圍、多系統(tǒng)的復(fù)雜通信,建立工業(yè)數(shù)據(jù)向上層傳輸?shù)耐ǖ?,將現(xiàn)場設(shè)備和生產(chǎn)管理系統(tǒng)連接起來,如OPCUA、MTConnect、MQTT等。Ethercat、DeviceNet、Profibus等Modbus、Fieldbus等OPCUA、MTConnect、MQTT等現(xiàn)場總線協(xié)議二、工業(yè)大數(shù)據(jù)采集48OPC是自動化應(yīng)用中使用的一整套接口、屬性和方法的標準集,實現(xiàn)了工業(yè)自動化系統(tǒng)中獨立單元之間標準化的互聯(lián)互通。主要包括三個規(guī)范:OPCDA(OPCDataAccess)用于定義數(shù)據(jù)交換,包括值、時間和質(zhì)量信息;OPCAE(OPCAlarms&Events)用于定義報警和事件類型消息信息的交換,以及變量狀態(tài)和狀態(tài)管理;OPCHDA(OPCHistoricalDataAccess)用于定義可應(yīng)用于歷史數(shù)據(jù)、時間數(shù)據(jù)的查詢和分析的方法。OPC協(xié)議二、工業(yè)大數(shù)據(jù)采集49OPCUA即OPC統(tǒng)一架構(gòu)(UnifiedArchitecture),支持多種操作系統(tǒng)(如MicrosoftWindows、AppleOSX、Android、Linux),可實現(xiàn)從傳感器和現(xiàn)場層讀取原始數(shù)據(jù)和預(yù)處理的信息傳輸給控制系統(tǒng)和生產(chǎn)規(guī)劃系統(tǒng)的功能?,F(xiàn)場層控制層操作層管理層企業(yè)資源規(guī)劃OPCUA協(xié)議二、工業(yè)大數(shù)據(jù)采集50OPCUA系統(tǒng)結(jié)構(gòu)包括OPC服務(wù)器和客戶端兩部分,其中OPCUA服務(wù)器負責(zé)采集數(shù)據(jù)并處理邏輯,然后通過OPCUA通訊協(xié)議對OPCUA客戶端程序提供相應(yīng)的數(shù)據(jù)與服務(wù)。OPCClientOPCServerOPCUA協(xié)議二、工業(yè)大數(shù)據(jù)采集51每個系統(tǒng)可以包含多個服務(wù)器和客戶端。OPCServerOPCServerOPCServerOPCClientOPCClientOPCClientOPCClientOPCUA協(xié)議二、工業(yè)大數(shù)據(jù)采集52OPCUA服務(wù)器與客戶端之間有兩種交互方式:(1)請求方式OPCUA客戶端向OPCUA服務(wù)器發(fā)送請求,OPCUA服務(wù)器執(zhí)行指定任務(wù)后,立即向OPCUA客戶端返回一個響應(yīng)。該方式可完成OPCUA客戶端與服務(wù)器的讀和寫操作。OPCUAClientOPCUAServerClientrequestsServerresponsesPublishedNotificationsOPCUA協(xié)議二、工業(yè)大數(shù)據(jù)采集53(2)訂閱方式當(dāng)OPCUA服務(wù)器的數(shù)據(jù)發(fā)生變化時,OPCUA客戶端可自動獲取到OPCUA服務(wù)器發(fā)送的數(shù)據(jù),同時OPCUA服務(wù)器周期性的更新CACHE。該方式只能讀取OPCUA服務(wù)器的數(shù)據(jù)。Publisher(server)Publisher(server)Publisher(server)Subscriber(client)Subscriber(client)Subscriber(client)OPCUA協(xié)議二、工業(yè)大數(shù)據(jù)采集54MQTT是IBM開發(fā)的一種輕量級的machine-to-machine通信協(xié)議,運行在TCP/IP協(xié)議棧之上,是基于客戶端向服務(wù)器發(fā)布/訂閱的消息傳輸協(xié)議,因其開放、簡單、功耗低、易實現(xiàn),現(xiàn)已發(fā)展成為物聯(lián)網(wǎng)的重要組成部分。應(yīng)用層傳輸層網(wǎng)絡(luò)層鏈路層應(yīng)用層傳輸層網(wǎng)絡(luò)層鏈路層MQTTTCPIPMQTT協(xié)議MQTT協(xié)議二、工業(yè)大數(shù)據(jù)采集55MQTT協(xié)議的特點

(1)低功耗、低帶寬、低成本。(2)傳輸可靠。(3)采用發(fā)布/訂閱消息模式,提供一對多的消息發(fā)布和應(yīng)用程序之間的解耦,支持數(shù)千個并發(fā)連接的客戶端。(4)消息傳輸不需要知道負載內(nèi)容,不強求傳輸數(shù)據(jù)的類型與格式。MQTT服務(wù)器MQTT客戶端MQTT客戶端MQTT協(xié)議二、工業(yè)大數(shù)據(jù)采集56MQTT采用的發(fā)布/訂閱模式,將信息的發(fā)布者(負責(zé)發(fā)送特定消息)和訂閱者(訂閱特定消息的客戶端)分離出來,二者保持互相獨立,利用代理(即第三方)進行信息的收集和過濾后,將相應(yīng)的信息分發(fā)給他們,即不需要接觸即可保證消息的傳送。發(fā)布者代理訂閱者訂閱發(fā)布發(fā)布MQTT協(xié)議MQTT發(fā)布/訂閱模式二、工業(yè)大數(shù)據(jù)采集57工業(yè)數(shù)據(jù)采集方式工業(yè)數(shù)據(jù)采集處于工業(yè)大數(shù)據(jù)技術(shù)架構(gòu)的最底層,主要以傳感器為采集工具,并結(jié)合RFID、掃碼槍、人機交互界面、智能終端等手段,通過直接的方式或通過PLC設(shè)備,與工業(yè)數(shù)據(jù)采集系統(tǒng)建立連接,再通過互聯(lián)網(wǎng)或現(xiàn)場總線等技術(shù)實現(xiàn)原始數(shù)據(jù)的實時準確傳輸。DataCollector工業(yè)設(shè)備數(shù)據(jù)采集大數(shù)據(jù)基礎(chǔ)技術(shù)平臺數(shù)據(jù)處理數(shù)據(jù)存儲PLC工業(yè)機器人CNC…工業(yè)級算法分析引擎通用搜索引擎…內(nèi)存存儲全文搜索TSDB…數(shù)據(jù)管理/服務(wù)資產(chǎn)管理/服務(wù)數(shù)據(jù)安全數(shù)據(jù)分析應(yīng)用層二、工業(yè)大數(shù)據(jù)采集58傳感器是工業(yè)現(xiàn)場常用的物理環(huán)境測量工具,涵蓋了聲音、溫度、濕度、距離、振動、電流等多種類型,并可將環(huán)境變量轉(zhuǎn)化為可讀的數(shù)字信號,是物理世界信息化數(shù)字采集的重要途徑。工業(yè)數(shù)據(jù)采集方式1.傳感器二、工業(yè)大數(shù)據(jù)采集59(1)有線傳感器有線傳感網(wǎng)絡(luò)是通過網(wǎng)線實現(xiàn)傳感器信息的收集,在便于部署的現(xiàn)場環(huán)境中,這種方式具有更好的抗干擾能力。料庫揀選系統(tǒng)結(jié)構(gòu)工業(yè)數(shù)據(jù)采集方式現(xiàn)場傳感器分為有線傳感器和無線傳感器。1.傳感器二、工業(yè)大數(shù)據(jù)采集60(2)無線傳感器無線傳感網(wǎng)絡(luò)利用無線網(wǎng)絡(luò)進行信息傳輸,這種部署方式靈活簡單,且價格便宜,因此在現(xiàn)場的應(yīng)用越來越普遍。工業(yè)數(shù)據(jù)采集方式1.傳感器二、工業(yè)大數(shù)據(jù)采集61RFID(RadioFrequencyIdentification,射頻識別)是一種非接觸式的自動識別技術(shù),其原理為RFID讀寫器與標簽通過射頻方式進行非接觸雙向通信,達到識別目的并交換數(shù)據(jù)。2.RFID工業(yè)數(shù)據(jù)采集方式二、工業(yè)大數(shù)據(jù)采集62當(dāng)安裝有RFID標簽的物體進入RFID讀寫頭的工作區(qū)域時,讀寫頭采用超高頻射頻技術(shù)與讀寫標簽進行雙向數(shù)據(jù)交換,將數(shù)據(jù)采集到網(wǎng)關(guān)控制器中,再經(jīng)PLC控制器完成邏輯運算和處理,實現(xiàn)物體的識別與跟蹤,同時該數(shù)據(jù)信息將通過標準的工業(yè)總線協(xié)議傳輸至數(shù)據(jù)采集系統(tǒng)(IoTHub)。工業(yè)數(shù)據(jù)采集方式2.RFID二、工業(yè)大數(shù)據(jù)采集63條碼是指通過一組規(guī)則排列的條、空及其對應(yīng)字符組成的標記,來表達一組信息的圖形標識符,是一種圖形化的信息代碼。條形碼可以標出物品的生產(chǎn)廠家、生產(chǎn)日期、商品名稱、類別等眾多信息,具有簡單、可靠、靈活、實用的特點,應(yīng)用先進的條碼技術(shù)對工業(yè)現(xiàn)場需要采集的數(shù)據(jù)進行全面標識,可實現(xiàn)對生產(chǎn)過程中產(chǎn)生的大量的實時數(shù)據(jù)的自動化快速收集,確保了基層數(shù)據(jù)統(tǒng)計時第一手數(shù)據(jù)資料的完全真實和可靠性。工業(yè)數(shù)據(jù)采集方式3.條碼技術(shù)二、工業(yè)大數(shù)據(jù)采集64(1)利用人機交互的形式直接讀取的數(shù)據(jù);(2)通過攝像頭采集的圖片或錄像數(shù)據(jù);(3)從各類業(yè)務(wù)應(yīng)用信息系統(tǒng)中獲取的數(shù)據(jù),如庫存系統(tǒng)數(shù)據(jù)、銷售系統(tǒng)數(shù)據(jù)等。工業(yè)數(shù)據(jù)采集方式4.其他采集方式二、工業(yè)大數(shù)據(jù)采集IoTHub

平臺…65隨著工業(yè)互聯(lián)網(wǎng)和企業(yè)信息化的不斷推進,工業(yè)領(lǐng)域不斷產(chǎn)生大量的數(shù)據(jù),為有效規(guī)整多種信息系統(tǒng)匯聚而來的工業(yè)數(shù)據(jù),便于后續(xù)的工業(yè)大數(shù)據(jù)處理和分析,可以將任務(wù)采集到的數(shù)據(jù)保存到數(shù)據(jù)庫中。010101011010100010101011010010101010101010101010101101數(shù)據(jù)存儲二、工業(yè)大數(shù)據(jù)采集66本教材以MySQL為數(shù)據(jù)存儲的工具,它采用的是標準化的SQL語言,使得數(shù)據(jù)的存取和更新更加容易,對于復(fù)雜的查詢也非常方便。MySQL的體積小、速度快、成本低,能夠及時處理上千萬條記錄,初步滿足和支持大數(shù)據(jù)存儲所需的高并發(fā)讀寫和高效率讀寫需求。隨著其分庫與分布、業(yè)務(wù)拆分、主從復(fù)制等性能的擴展,以及讀寫性能的提高,MySQL在大數(shù)據(jù)應(yīng)用中發(fā)揮了極大的作用。IoTHub平臺數(shù)據(jù)存儲二、工業(yè)大數(shù)據(jù)采集67PLC即可編程邏輯控制器,全稱為ProgrammableLogicController,是一種具有微處理器的數(shù)字電子設(shè)備,主要用于自動化數(shù)字邏輯控制。自1969年美國數(shù)字設(shè)備公司研制出第一臺設(shè)備以來,作為一款專為工業(yè)環(huán)境應(yīng)用而設(shè)計的產(chǎn)品,經(jīng)過幾十年的不斷發(fā)展,其功能已遠超邏輯控制,有效促進了工業(yè)生產(chǎn)效率的提高。什么是PLC?采集PLC數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集68PLC主要由CPU(中央處理器)、存儲器、通信接口和輸入/輸出單元組成。存儲器CPU通信接口輸入輸出電源下裝上載編程電腦PLC的組成采集PLC數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集存儲器CPU模塊輸入/輸出單元通信接口69功能性強PLC的數(shù)據(jù)存儲區(qū)容量巨大,可存儲大量輸入/輸出、中間變量信號,同時多達幾百條的控制指令可實現(xiàn)各種邏輯問題的處理。維修方便PLC各模塊上均有運行和故障指示裝置,用戶通過指示信息可快速了解運行情況,并方便查找故障。模塊化的設(shè)計更方便用戶通過更換模塊的方法使系統(tǒng)快速恢復(fù)運行。可靠性高PLC各模塊均采用屏蔽措施,抗干擾能力強,同時還具備良好的自診斷功能,一旦出現(xiàn)異常情況,CPU將立即采取有效措施。編程簡單PLC通常采用梯形圖為編程語言,梯形圖形象直觀,簡單易學(xué),使用者不需要具備計算機的專門知識也可快速學(xué)會,并用來進行編程。01020304PLC的特點采集PLC數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集數(shù)字量模擬量70PLC連接的信號類型數(shù)字量是離散的物理量,由“0”和“1”組成,經(jīng)過編碼后即成為有規(guī)律的信號。例如可以將電機的啟動狀態(tài)認為是“1”,停止狀態(tài)是“0”,或指示燈點亮狀態(tài)為“1”,熄滅狀態(tài)為“0”。模擬量與數(shù)字量相對應(yīng),是一些連續(xù)變化的物理量,如壓力、速度、流量、溫度、濕度等。PLC的模擬量模塊采集現(xiàn)場傳感器信號(4~20mA的電流信號或1~5V、0~10V的電壓信號)后,將其量化轉(zhuǎn)換為對應(yīng)的數(shù)值(如0~100℃的溫度值)。采集PLC數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集71PLC的通信西門子S7-1200的控制器上集成了PROFENET以太網(wǎng)接口,支持TCP/IP、ISO-on-TCP、UDP和S7協(xié)議,可以滿足S7-1200與編程計算機、HMI和其他S7PLC的通信,同時還可以在CPU模塊左側(cè)插入通信模塊,支持PROFIBUS、Modbus-TCP、AS-i協(xié)議,滿足控制器與現(xiàn)場自動化設(shè)備的雙向數(shù)據(jù)通信。PROFINETPROFIBUSDPAS-Interface采集PLC數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集72請參考教材完成以下任務(wù):運用IoTHub工具完成對PLC中數(shù)字量信號“電容傳感器”和模擬量信號“電機轉(zhuǎn)速”的實時數(shù)據(jù)采集,并將數(shù)據(jù)保存到MySQL數(shù)據(jù)庫中。保存IoTHub

平臺采集PLC數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集73采集PTL數(shù)據(jù)PTL(PickToLight)智能揀選系統(tǒng),通過用燈光、數(shù)顯等方式實現(xiàn)物料出入庫、盤點庫存等操作功能,能完整采集揀選人員的行為數(shù)據(jù)做大數(shù)據(jù)分析,為精細化管理做優(yōu)化決策的支持。二、工業(yè)大數(shù)據(jù)采集74PTL系統(tǒng)構(gòu)成電子標簽安裝附件PTL網(wǎng)關(guān)采集PTL數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集75PTL系統(tǒng)組件電子標簽:PTL系統(tǒng)的顯示和交互組件,分4位數(shù)碼管顯示屏、6位數(shù)碼管顯示屏兩類標簽。電子標簽連接口2電子標簽連接口1電源連接口固件升級窗以太網(wǎng)通訊口2以太網(wǎng)通訊口1PTL網(wǎng)關(guān):電子標簽與上位機的通訊接口,也是系統(tǒng)供電的接入模塊。①電源指示燈②通訊指示燈③報警指示燈④返回⑤菜單⑥查詢⑦操作任務(wù)指示燈⑧6段位數(shù)碼管顯示屏,顯示內(nèi)容:訂單號操作員,操作數(shù)量⑨上翻⑩確定鍵?下翻?揀選確認鍵/揀選指示燈/報警指示燈采集PTL數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集76PTL的特點1采用工業(yè)總線技術(shù),通訊速度快,響應(yīng)時間短;快速2具有多任務(wù)排隊模式,可滿足多任務(wù)訂單同時下達處理需求;高效3刺破式接線技術(shù)易于安裝、免維護,節(jié)省產(chǎn)品安裝調(diào)試時間;便捷4標簽通訊狀態(tài)、揀選執(zhí)行情況、誤操作報警燈信息可實時上傳;智能5為用戶開放按鍵和指示燈DLL標準函數(shù)庫,方便系統(tǒng)開發(fā)集成。易用采集PTL數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集77PTL系統(tǒng)功能01-出貨下發(fā)02-盤點下發(fā)03-響應(yīng)訂單04-LED燈控制05-報警信息06-報警及復(fù)位系統(tǒng)通過網(wǎng)關(guān)與上位機實現(xiàn)數(shù)據(jù)和指令的上行下發(fā),通過電子標簽的數(shù)顯數(shù)據(jù)、指示燈顯示和按鈕功能,可實現(xiàn)如下功能:向?qū)?yīng)料位下發(fā)操作員號、物料號、揀選數(shù)量;向所有標簽下發(fā)當(dāng)前對應(yīng)料位的物料數(shù)量,由數(shù)據(jù)庫庫存信息提供;顯示上位機下發(fā)的操作員號、物料號、揀選數(shù)量,根據(jù)上位機命令亮指示燈并向上位機反饋執(zhí)行情況對標簽面板所有的LED燈的通斷情況進行置1或置0操作,以配合相應(yīng)指令顯示操作結(jié)果上位機根據(jù)操作員的訂單處理錯誤等情況向指定料位標簽下發(fā)報警信息,可以是指示燈或錯誤代碼操作員誤操作標簽時向上位上傳對應(yīng)的誤操作標簽信息,并鳴響蜂鳴器;按復(fù)位鍵后報警消除采集PTL數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集78請參考教材完成以下任務(wù):通過相關(guān)知識的學(xué)習(xí),結(jié)合料庫揀選系統(tǒng),完成數(shù)據(jù)采集系統(tǒng)的部署,通過配置實現(xiàn)PTL系統(tǒng)數(shù)據(jù)的采集,并將其存儲至大數(shù)據(jù)平臺的基礎(chǔ)庫中,可用于監(jiān)控料庫操作人員的操作以及庫存數(shù)量的變化。IoTHub

平臺保存采集PTL數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集79一、了解工業(yè)大數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集三、工業(yè)大數(shù)據(jù)預(yù)處理四、工業(yè)大數(shù)據(jù)建模五、工業(yè)大數(shù)據(jù)分析六、工業(yè)大數(shù)據(jù)可視化七、工業(yè)大數(shù)據(jù)應(yīng)用課程目錄三、工業(yè)大數(shù)據(jù)預(yù)處理理解數(shù)據(jù)清洗、轉(zhuǎn)換和加載(ETL)的作用與過程理解數(shù)據(jù)倉庫的基本概念和構(gòu)建方法80知識目標技能目標掌握ETL工具Kettle的應(yīng)用,能夠?qū)?shù)據(jù)進行清洗、轉(zhuǎn)換處理掌握數(shù)據(jù)倉庫工具Hive的使用,能夠創(chuàng)建數(shù)據(jù)倉庫、加載數(shù)據(jù)掌握Hive查詢操作學(xué)習(xí)目標81三、工業(yè)大數(shù)據(jù)預(yù)處理什么是ETL認識ETL工具Kettle啟動運行用戶界面基本要素常用功能使用方法創(chuàng)建“轉(zhuǎn)換”創(chuàng)建“步驟”創(chuàng)建“跳”連接數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別認識數(shù)據(jù)倉庫工具hive創(chuàng)建數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)表分區(qū)分桶加載數(shù)據(jù)使用Hive查詢數(shù)據(jù)使用Hive統(tǒng)計數(shù)據(jù)使用Hive排序數(shù)據(jù)(一)數(shù)據(jù)ETL(二)建立數(shù)據(jù)倉庫(三)查詢大數(shù)據(jù)82什么是ETL?三、工業(yè)大數(shù)據(jù)預(yù)處理E:Extract,抽取T:Transform,轉(zhuǎn)換L:Load,加載83三、工業(yè)大數(shù)據(jù)預(yù)處理將分散的、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù),從各種原始業(yè)務(wù)系統(tǒng)抽取到目標庫增量抽取只抽取自上次抽取以來新增或修改的數(shù)據(jù)。全量抽取將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)原封不動的從數(shù)據(jù)庫中抽取出來。數(shù)據(jù)抽取84三、工業(yè)大數(shù)據(jù)預(yù)處理數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)清洗數(shù)據(jù)值缺失數(shù)據(jù)值重復(fù)數(shù)據(jù)值有噪音、異常數(shù)據(jù)值不規(guī)范數(shù)據(jù)量級不同替換(補缺失)過濾(去重)平滑(去噪)標準化(規(guī)范化)異常檢測(去異常)數(shù)據(jù)校驗清洗:刪除或者更正臟數(shù)據(jù)的過程轉(zhuǎn)換:數(shù)據(jù)格式轉(zhuǎn)換數(shù)據(jù)粒度轉(zhuǎn)換數(shù)據(jù)降維業(yè)務(wù)規(guī)則計算85三、工業(yè)大數(shù)據(jù)預(yù)處理數(shù)據(jù)加載1選定數(shù)據(jù)來源,即源數(shù)據(jù)位置2選定數(shù)據(jù)去向,即目標數(shù)據(jù)位置3配置源數(shù)據(jù)和目標數(shù)據(jù)的映射關(guān)系4配置兩邊源數(shù)據(jù)的同步方式,如增量同步或全量同步,同步時間等。86三、工業(yè)大數(shù)據(jù)預(yù)處理啟動:Windows環(huán)境下,運行spoon.batETL工具Kettle87三、工業(yè)大數(shù)據(jù)預(yù)處理認識kettle的界面核心對象視圖88三、工業(yè)大數(shù)據(jù)預(yù)處理認識Kettle的界面主對象視圖89三、工業(yè)大數(shù)據(jù)預(yù)處理執(zhí)行按鈕執(zhí)行結(jié)果認識Kettle的界面90三、工業(yè)大數(shù)據(jù)預(yù)處理認識Kettle的要素步驟(Step)轉(zhuǎn)換(Tranformation)數(shù)據(jù)流(Stream)步驟轉(zhuǎn)換數(shù)據(jù)流跳跳(Hop)91核心對象功能數(shù)據(jù)庫連接建立與數(shù)據(jù)庫的連接。表輸入從數(shù)據(jù)庫表中讀取數(shù)據(jù)。表輸出將處理結(jié)果輸出到數(shù)據(jù)庫表。CSV文件輸入從CSV文件讀取數(shù)據(jù)。Excel輸出將處理結(jié)果輸出到電子表格。過濾記錄根據(jù)條件對數(shù)據(jù)流劃分為若干部分。流查找在數(shù)據(jù)流里查找符合條件的數(shù)據(jù)。值映射把某個數(shù)值映射為另一個數(shù)值。值替換把一列數(shù)據(jù)值替換為另一列數(shù)據(jù)值。排序記錄按條件排序數(shù)據(jù)。插入\更新根據(jù)處理結(jié)果對數(shù)據(jù)庫表進行插入更新。如果數(shù)據(jù)庫中不存在相關(guān)記錄則插入,否則為更新。根據(jù)查詢條件中字段進行判斷。數(shù)據(jù)庫查詢根據(jù)設(shè)定的查詢條件,對目標表進行查詢,返回需要的結(jié)果字段。三、工業(yè)大數(shù)據(jù)預(yù)處理認識Kettle的常用功能92三、工業(yè)大數(shù)據(jù)預(yù)處理認識Kettle的使用方法新建一個轉(zhuǎn)換,保存。如操作數(shù)據(jù)庫,則需建立數(shù)據(jù)庫連接創(chuàng)建步驟在步驟之間建立跳轉(zhuǎn)設(shè)置步驟、跳轉(zhuǎn)參數(shù)運行93三、工業(yè)大數(shù)據(jù)預(yù)處理如何新建“轉(zhuǎn)換“94三、工業(yè)大數(shù)據(jù)預(yù)處理如何創(chuàng)建“步驟“95如何創(chuàng)建步驟之間的“跳“三、工業(yè)大數(shù)據(jù)預(yù)處理96如何連接數(shù)據(jù)庫三、工業(yè)大數(shù)據(jù)預(yù)處理測試連接是否成功97訂單號產(chǎn)品名稱產(chǎn)品型號購買數(shù)量單價金額訂購日期10107MotorcyclesS10_16783095.728712/24/200310121ClassicS10_19493481.352765.95/7/200310134MotorcyclesS10_20164194.743884.347/1/2003……

三、工業(yè)大數(shù)據(jù)預(yù)處理認識數(shù)據(jù)庫1.關(guān)系數(shù)據(jù)庫2.非關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫,由行、列組成,可以簡單理解為二維表格行:記錄列:字段98三、工業(yè)大數(shù)據(jù)預(yù)處理認識數(shù)據(jù)倉庫數(shù)據(jù)倉庫:面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合。用于支持管理決策。數(shù)據(jù)庫主題舉例:商品客戶99功能數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)范圍存儲歷史的、完整的、反應(yīng)歷史變化的數(shù)據(jù)當(dāng)前數(shù)據(jù)狀態(tài)數(shù)據(jù)變化可添加,無刪除、無變更頻繁的增加、刪除應(yīng)用場景面向分析、決策支持面向日常的事務(wù)處理設(shè)計理論適當(dāng)冗余,不遵循范式遵循范式,避免冗余處理量非頻繁,大批量,高吞吐,有延時頻繁,小批量,高并發(fā),低延時三、工業(yè)大數(shù)據(jù)預(yù)處理數(shù)據(jù)庫與數(shù)據(jù)倉庫100三、工業(yè)大數(shù)據(jù)預(yù)處理大數(shù)據(jù)查詢分析工具HiveHive的存儲單元:數(shù)據(jù)庫(Database)表(內(nèi)部表Table、外部表ExternalTable)分區(qū)(Partition)分桶(Bucket)Hive是一個基于Hadoop的大數(shù)據(jù)查詢分析工具,能對存儲在文件系統(tǒng)HDFS中的數(shù)據(jù)進行操作、查詢和分析,可以用于創(chuàng)建基于Hadoop的數(shù)據(jù)倉庫。101三、工業(yè)大數(shù)據(jù)預(yù)處理創(chuàng)建數(shù)據(jù)庫hive>createdatabase[ifnotexists]

數(shù)據(jù)庫名[comment注釋][location

文件路徑][with

dbproperties

(屬性名=屬性值,...)];

例:創(chuàng)建1個數(shù)據(jù)庫,庫名為:targethive>createdatabasetarget;語句中的方括號表示該項是可選項,斜體字表示是關(guān)鍵字。comment,表示注釋行l(wèi)ocation,表示數(shù)據(jù)庫所在的實際文件路徑。withdbproperties,表示設(shè)定該數(shù)據(jù)庫的某些屬性。語句結(jié)束符號102三、工業(yè)大數(shù)據(jù)預(yù)處理創(chuàng)建數(shù)據(jù)表hive>create[external]

table[ifnotexists]

數(shù)據(jù)表名

[(列名

數(shù)據(jù)類型

[comment

列注釋],...)][comment

表注釋][partitionedby (列名

數(shù)據(jù)類型,...)][clusteredby

(列名,列名,

...)][storedby

(列名

[ASC|DESC],...)]into

分桶數(shù)量

buckets][rowfromat

row_format][storedas

file_format][location

文件路徑];語句中的方括號表示該項是可選項,藍色斜體字表示是關(guān)鍵字。ifnotexists,表示如果相同名字的表已經(jīng)存在,則拋出異常。external,表示創(chuàng)建一個外部表。partitionedby,表示數(shù)據(jù)按某些屬性分區(qū)存放。clusteredby,表示數(shù)據(jù)按某些屬性分桶存放。storedby,表示分桶時的排序順序。rowformat,表示數(shù)據(jù)行間隔方式。storedas,表示數(shù)據(jù)存儲格式,比如txtfile。comment,注釋。語句結(jié)束符號103三、工業(yè)大數(shù)據(jù)預(yù)處理創(chuàng)建數(shù)據(jù)表——例子1例:創(chuàng)建一個用戶瀏覽網(wǎng)頁的記錄表,表名為:par_table。數(shù)據(jù)按用戶瀏覽日期和所在地分區(qū)存放。hive>createtablepar_table( viewTime

int,

comment'瀏覽時間' userid

bgint,comment'用戶ID' page_url

string,comment'頁面URL地址' referrer_url

string,comment'來源URL地址' ip

stringcomment

'IP地址') comment

'瀏覽記錄表' partitionedby(datestring,posstring)'按日期和地區(qū)分區(qū)存放

rowformatdelimited‘\t’ fieldsterminatedby'\n' storedasSEQUENCEFILE;數(shù)據(jù)類型列名注釋104三、工業(yè)大數(shù)據(jù)預(yù)處理創(chuàng)建數(shù)據(jù)表——例子2

例:創(chuàng)建1個名為sales的表。序號列名列類型描述1ordernumberstring訂單號2orderlinenumstring訂單明細號3quantityorderedint訂購數(shù)量4priceeachdouble單價5salesdouble金額6qtr_idstring季度7month_idstring月8year_idstring年9productlinestring產(chǎn)品名稱10productcodestring產(chǎn)品型號11statusstring訂單狀態(tài)12countrystring國家hive>createtableifnotexixtssales(

ordernumber

string,

orderlinenumber

string,

quantityordered

int,

priceeach

double,

sales

double,

qtr_id

string, month_id

string,

year_id string,

productline string,

productcode string,

status

string, country

string);rowformatdelimited,fieldsterminatedby‘\t’;105三、工業(yè)大數(shù)據(jù)預(yù)處理加載數(shù)據(jù)進表hive>loaddata[local]inpath

‘filepath’[overwrite]

intotable表名

[partition(partcol1=val1,partcol2=val2...)];local,表示源數(shù)據(jù)文件在本地文件系統(tǒng)。filepath,表示目標數(shù)據(jù)存放的文件路徑。overwrite,表示如果有同名的數(shù)據(jù)表,則覆蓋原有數(shù)據(jù)。partition,表示分區(qū)。hive>loaddatalocalinpath'/home/hadoop/products.txt'overwriteintotableproTable;例:把/home/hadoo目錄下的產(chǎn)品數(shù)據(jù)文件products.txt的據(jù)裝進表proTable。106三、工業(yè)大數(shù)據(jù)預(yù)處理Hive創(chuàng)建分區(qū)

——例子數(shù)據(jù)能夠按照分區(qū)(Partition)來管理,即按照數(shù)據(jù)的某列或某些列分為多個區(qū)存放,例如,按日期存放監(jiān)控數(shù)據(jù)。分區(qū)可以極大地提高數(shù)據(jù)查詢效率。hive>createtabledeviceLog(idint,statusint)partitioinedby(datestring)rowformatdelemitedfieldsterminatedby‘\t’;hive>loaddatalocalinpath‘/home/hadoop/data/device.txt’intotabledeviceLogpartition(date=‘20200801’);hive>selectid,statusfromdeviceLogwherename=’20200801’;創(chuàng)建一個表,按日期分區(qū)存放數(shù)據(jù)把device.txt里的數(shù)據(jù)加載到日期為20200801的分區(qū)查詢?nèi)掌跒?0200801的監(jiān)控數(shù)據(jù)例:把監(jiān)控日志數(shù)據(jù)device.txt保存到分區(qū)表107三、工業(yè)大數(shù)據(jù)預(yù)處理Hive創(chuàng)建桶——例子分桶是相對分區(qū)進行更細粒度的劃分,就是把大表化成了“小表”。將數(shù)據(jù)按照某列屬性值的哈希值進行區(qū)分。hive>hive.enforce.bucketing=true;

hive>createtable

partLog(idint,statusint)clusteredby(id)

into3bucktesrowformatdelemitedfieldsterminatedby‘\t’;hive>insert overwrite tablepartLogselect*fromtable1;hive>select*frompartLogtablesample

(bucket1outof3onid);

例:把零部件的檢測日志數(shù)據(jù)分桶存放創(chuàng)建桶表,按桶方式存放數(shù)據(jù)查第1個桶的數(shù)據(jù)把table1的數(shù)據(jù)存放到桶表108三、工業(yè)大數(shù)據(jù)預(yù)處理使用Hive查詢數(shù)據(jù)hive>select[all|distinct]select_expr,select_expr,...from

table_reference[where

where_condition][groupby

col_list[havingcondition]][clusterby

col_list[distributeby

col_list][sortby|orderby

col_list]][limit

number];語句中的方括號表示該項是可選項,斜體字表示是關(guān)鍵字。all,表示查詢所有數(shù)據(jù)。默認是all。distinct,表示去掉重復(fù)的數(shù)據(jù)行。from,表示查詢的數(shù)據(jù)表。where,表示查詢條件。groupby,表示查詢的分組條件。orderby,表示全局排序。sortby,表示局部排序。clusterby,控制Map的輸出在Reducer是如何劃分的。與sortby一起使用。例如,可以將同一臺設(shè)備的數(shù)據(jù)送到同一個Reduce去處理。limit,限制查詢結(jié)果數(shù)據(jù)行。109三、工業(yè)大數(shù)據(jù)預(yù)處理使用Hive查詢數(shù)據(jù)例:查詢銷售表sales中所有國家的銷售情況。hive>selectcountry,salesfromsales;hive>selectcountry,sales

from saleswhere year_id=2004;例:查詢2004年的銷售情況。查詢條件110三、工業(yè)大數(shù)據(jù)預(yù)處理使用Hive統(tǒng)計數(shù)據(jù)例:統(tǒng)計每個國家的銷售總額。hive>select

country,sum(sales)

astotalfrom

salesgroupby

country;111三、工業(yè)大數(shù)據(jù)預(yù)處理使用Hive排序數(shù)據(jù)例:按國家的銷售總額排序。hive>selectcountry,sum(sales)astotalfrom salesgroupby

countryorderby

total;hive>selectcountry,sum(sales)astotalfrom salesgroupby

countryorderby

totaldesc;例:按國家的銷售總額的降序排序。112一、了解工業(yè)大數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集三、工業(yè)大數(shù)據(jù)預(yù)處理四、工業(yè)大數(shù)據(jù)建模五、工業(yè)大數(shù)據(jù)分析六、工業(yè)大數(shù)據(jù)可視化七、工業(yè)大數(shù)據(jù)應(yīng)用課程目錄三、工業(yè)大數(shù)據(jù)建模理解統(tǒng)一建模語言UML類圖的表示方法掌握UML描述信息模型的基本方法113知識目標技能目標掌握UML工具StarUML的使用能夠繪制車間設(shè)備的信息模型能夠繪制生產(chǎn)過程的信息模型學(xué)習(xí)目標114三、工業(yè)大數(shù)據(jù)預(yù)處理統(tǒng)一建模語言UML什么是類?如何表示類?如何表示對象關(guān)系?如何轉(zhuǎn)化為二維表?使用工具繪制類圖信息模型設(shè)備信息構(gòu)成設(shè)備運行信息模擬數(shù)字化車間的設(shè)備信息模型構(gòu)建生產(chǎn)過程信息構(gòu)成生產(chǎn)線、工序、工位、工藝、設(shè)備的關(guān)系生產(chǎn)線信息工序信息零部件信息(一)認識建模語言UML(二)建立設(shè)備信息模型(三)建立生產(chǎn)過程信息模型115三、工業(yè)大數(shù)據(jù)建模什么是數(shù)據(jù)模型?數(shù)據(jù)模型:數(shù)據(jù)模型是對現(xiàn)實世界的抽象。

數(shù)據(jù)建模的目的是為了管理和分析數(shù)據(jù),從海量數(shù)據(jù)中發(fā)現(xiàn)新知識。數(shù)據(jù)模型:物理對象的信息模型

(項目4)數(shù)據(jù)分析的算法模型

(項目5)數(shù)據(jù)模型工廠物理對象信息模型數(shù)據(jù)分析算法模型116三、工業(yè)大數(shù)據(jù)建模建立工廠信息模型從現(xiàn)實世界到數(shù)據(jù)庫現(xiàn)實世界信息模型數(shù)據(jù)庫關(guān)系模式抽象轉(zhuǎn)化117三、工業(yè)大數(shù)據(jù)建模UML(UnifiedModelingLanguage,統(tǒng)一建模語言)

UML是一種面向?qū)ο蠓治雠c設(shè)計的建模工具,獨立于任何具體程序設(shè)計語言,可用于描述軟件的需求、設(shè)計等。UML采用一組圖形符號來描述軟件模型,包括:類圖、用例圖、順序圖、狀態(tài)圖等。不同類型的圖應(yīng)用在不同場景。認識統(tǒng)一建模語言——UML用面向?qū)ο蟮姆椒枋銎髽I(yè)的信息需求,作為企業(yè)信息應(yīng)用的依據(jù)。118三、工業(yè)大數(shù)據(jù)建模類:UML中,把具有相同屬性和方法的對象的集合稱為類。類名

屬性

方法

UML類圖

認識建模語言UML什么是類?UML如何表示類?119三、工業(yè)大數(shù)據(jù)建模對象間關(guān)系泛化聚合組合關(guān)聯(lián)依賴接口認識對象間主要的6種關(guān)系120三、工業(yè)大數(shù)據(jù)建模泛化:表示對象間一般與特殊的關(guān)系。例:帶三角箭頭的實線,箭頭指向父類如何表示對象之間的關(guān)系?121三、工業(yè)大數(shù)據(jù)建模關(guān)聯(lián):表示對象之間的擁有關(guān)系。例:

雙向關(guān)聯(lián):無箭頭,或雙向箭頭單向關(guān)聯(lián):帶普通箭頭的實心線,指向被擁有者0..1表示可以有0個或者1個實例;0..*表示實例的數(shù)目沒有限制;1

表示只能有一個實例;1..*表示至少有一個實例。對象間的關(guān)系——關(guān)聯(lián)122三、工業(yè)大數(shù)據(jù)建模聚合:表示對象之間的部分與整體的關(guān)系。例:

帶空心菱形的實心線,菱形指向整體對象間的關(guān)系——聚合123三、工業(yè)大數(shù)據(jù)建模組合:表示對象之間的部分與整體的關(guān)系,但部分不能離開整體而單獨存在例:

帶實心菱形的實心線,菱形指向整體對象間的關(guān)系——組合124三、工業(yè)大數(shù)據(jù)建模依賴:依賴關(guān)系是一種使用的關(guān)系,

即一個類的實現(xiàn)需要另一個類的協(xié)助例:

對象間的關(guān)系——依賴125三、工業(yè)大數(shù)據(jù)建模把UML類圖里的類,轉(zhuǎn)換為二維表操作人員(工號,姓名,所屬車間)設(shè)備(設(shè)備編號,設(shè)備名稱,設(shè)備類型,設(shè)備狀態(tài))如何表示為二維表(關(guān)系數(shù)據(jù)庫)126三、工業(yè)大數(shù)據(jù)建模如何表示為二維表(關(guān)系數(shù)據(jù)庫)把UML類圖里的關(guān)系,轉(zhuǎn)換為二維表里的外鍵進行關(guān)聯(lián)操作人員(工號,姓名,所屬車間,設(shè)備編號)設(shè)備(設(shè)備編號,設(shè)備名稱,設(shè)備類型,設(shè)備狀態(tài))外鍵127三、工業(yè)大數(shù)據(jù)建模把UML類圖里的關(guān)系,轉(zhuǎn)換二維表生產(chǎn)線(生產(chǎn)線標識,生產(chǎn)線名稱,類型,所屬位置,生產(chǎn)線狀態(tài))工位(工位標識,工位名稱,類型,所屬位置,工位狀態(tài))產(chǎn)線工位關(guān)系表(生產(chǎn)線標識,工位標識)如何表示為二維表(關(guān)系數(shù)據(jù)庫)128三、工業(yè)大數(shù)據(jù)建模

畫布工具箱模型管理器使用類圖繪制工具——starUML129三、工業(yè)大數(shù)據(jù)建模信息模型的構(gòu)成信息模型的三要素:對象

對象屬性對象關(guān)系建立信息模型時主要考慮的4個問題:定義哪些對象?對象有哪些屬性?對象之間的有何種關(guān)系?用什么形式描述信息模型?信息模型對象對象屬性對象關(guān)系UML130三、工業(yè)大數(shù)據(jù)建模設(shè)備信息構(gòu)成機械加工設(shè)備信息構(gòu)成131三、工業(yè)大數(shù)據(jù)建模設(shè)備信息示例設(shè)備管理信息設(shè)備編號D_0301設(shè)備名稱1號擰緊機設(shè)備類型擰緊機

設(shè)備功能特性

特性名稱度量單位標準值最大值最小值扭矩牛米1.82.41角度度453555轉(zhuǎn)速轉(zhuǎn)/分鐘300250340噪音分貝10515設(shè)備構(gòu)成信息

伺服電機,型號xxx減速器扭矩傳感器擰緊機設(shè)備信息:設(shè)備管理信息設(shè)備功能特性設(shè)備構(gòu)成信息132三、工業(yè)大數(shù)據(jù)建模設(shè)備運行信息示例擰緊機運行信息:扭矩角度轉(zhuǎn)速噪音擰緊時間狀態(tài)采集時間(時間字段)扭矩角度轉(zhuǎn)速噪音擰緊時間狀態(tài)00:00:001.242301900:00:00

00:10:001.3403211000:10:00

00:20:001.239322800:20:00

00:30:001.9353101000:30:00

…………………133三、工業(yè)大數(shù)據(jù)建模認識生產(chǎn)過程信息構(gòu)成生產(chǎn)過程信息包括:生產(chǎn)線、工序、工位、工藝、零部件、設(shè)備。生產(chǎn)線:指生產(chǎn)某種產(chǎn)品的物理產(chǎn)線。工序:指一個(或一組)工人在一個工作地對一個(或幾個)勞動對象連續(xù)進行生產(chǎn)活動的綜合。工步:是工序的組成部分。一道工序可按工藝特點進一步細分為若干工步。工位:安排人員、設(shè)備、原材料和工具進行生產(chǎn)裝配的地方。工藝:規(guī)定工藝路線、每道工序、工步的技術(shù)參數(shù)。工藝路線通常被畫成一張工序順序圖,也就是生產(chǎn)工藝流程圖。工序A工序B工序C工序D工序E工序F工序工序A工序B工序C工藝流程A工序D工序A工序E工序F工藝流程B工位工位1工位2工位3工位4工位5工位6工位7工位8產(chǎn)線1工位1工位2工位4產(chǎn)線2工位1工位3工位4產(chǎn)線3工位5工位7工位8工位1A1B23C4工序工位規(guī)則135三、工業(yè)大數(shù)據(jù)建模生產(chǎn)過程信息——生成線信息構(gòu)成生產(chǎn)線信息一個工廠往往由多個車間所組成,而一個車間里可以配有多條生產(chǎn)線,每一條生產(chǎn)線有多臺設(shè)備有序構(gòu)成。生產(chǎn)線信息主要包括:生產(chǎn)線編號生產(chǎn)線名稱所屬車間工位加工零部件類型設(shè)備設(shè)備狀態(tài)(如故障、維修、停機)136三、工業(yè)大數(shù)據(jù)建模生產(chǎn)過程信息——生產(chǎn)線與工序、工藝、設(shè)備的關(guān)系生產(chǎn)線與工序、工藝、設(shè)備的關(guān)系工序設(shè)備、工裝工位信息工藝信息生產(chǎn)線137三、工業(yè)大數(shù)據(jù)建模生產(chǎn)過程信息——工序信息構(gòu)成例:機械加工的工序信息

一道工序的信息由工序編號、工序名稱、工序內(nèi)容、工裝(設(shè)備),以及若干工步所組成。

每一個工步中的信息包含工步編號、刀具編號、切削參數(shù)、NC程序等內(nèi)容。138三、工業(yè)大數(shù)據(jù)建模生產(chǎn)過程信息——零部件零部件信息構(gòu)成139三、工業(yè)大數(shù)據(jù)建模生產(chǎn)過程信息例:

一個小批量的齒輪加工過程包含6道工序,分別是:車、鉆、插、磨平面、滾齒、齒面淬火。其中某些工序分為多個工步工序號工序內(nèi)容工步工藝工裝/設(shè)備1車1.粗車外圓2.鉆孔3.粗鏜孔4.精鏜孔5.精車外圓6.倒角1.走刀2次2.走刀2次4.走刀2次

車床3鉆鉆Φ12孔

鉆床3插插鍵槽若干次刨床4磨平面

磨床5滾齒1.粗滾2.精滾

滾齒機6齒面高淬火

140三、工業(yè)大數(shù)據(jù)建模分析:一個模擬數(shù)字化車間的設(shè)備構(gòu)成,以及五彩棒的生產(chǎn)加工過程建立生產(chǎn)過程信息模型141三、工業(yè)大數(shù)據(jù)建模拓展知識——數(shù)字孿生數(shù)字孿生將現(xiàn)實世界中復(fù)雜的產(chǎn)品研發(fā)、生產(chǎn)制造和產(chǎn)線維護映射到了虛擬世界中一個個數(shù)字化模型,通過虛實連接,數(shù)據(jù)的不斷迭代,模型的不斷優(yōu)化,進而不斷提升制造業(yè)的生產(chǎn)效率。142一、了解工業(yè)大數(shù)據(jù)二、工業(yè)大數(shù)據(jù)采集三、工業(yè)大數(shù)據(jù)預(yù)處理四、工業(yè)大數(shù)據(jù)建模五、工業(yè)大數(shù)據(jù)分析六、工業(yè)大數(shù)據(jù)可視化七、工業(yè)大數(shù)據(jù)應(yīng)用課程目錄五、工業(yè)大數(shù)據(jù)分析認識大數(shù)據(jù)分析過程理解機器學(xué)習(xí)的相關(guān)概念理解兩種不同預(yù)測算法的應(yīng)用場景143知識目標技能目標掌握數(shù)據(jù)分析工具的安裝和使用方法掌握兩類常見的回歸和分類預(yù)測方法能夠使用數(shù)據(jù)分析工具進行分類預(yù)測分析學(xué)習(xí)目標144五、工業(yè)大數(shù)據(jù)建模大數(shù)據(jù)分析過程建立算法模型的關(guān)鍵機器學(xué)習(xí)及應(yīng)用場景機器學(xué)習(xí)類型認識算法建模工具WekaWeka界面Weka數(shù)據(jù)Weka文件格式回歸分析算法思想如何評估歸回分析模型的優(yōu)劣建立歸回分析模型的步驟使用回歸分析進行預(yù)測Weka:導(dǎo)入數(shù)據(jù)集利用散點圖觀察數(shù)據(jù)的變化趨勢選擇線性回歸算法設(shè)置訓(xùn)練集、驗證集數(shù)據(jù)執(zhí)行訓(xùn)練分析誤差分類分析算法思想如何評估分類模型的優(yōu)劣查準率、查全率、ROC與AUC使用分類分析進行預(yù)測Weka導(dǎo)入數(shù)據(jù)選擇分類算法設(shè)置訓(xùn)練集、驗證集數(shù)據(jù)分析誤差、可視化拓展知識集成學(xué)習(xí)、聚類分析、關(guān)聯(lián)規(guī)則、時間序列(一)使用大數(shù)據(jù)分析工具(二)使用回歸分析預(yù)測(三)使用分類分析預(yù)測內(nèi)容組成145大數(shù)據(jù)分析過程五、工業(yè)大數(shù)據(jù)分析大數(shù)據(jù)分析

對海量數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的過程,也就是建立經(jīng)驗?zāi)P汀?46五、工業(yè)大數(shù)據(jù)分析算法選擇

根據(jù)要解決的具體業(yè)務(wù)問題來構(gòu)建或選擇算法。模型訓(xùn)練

模型開發(fā)過程是一個從數(shù)據(jù)中學(xué)習(xí)得到模型的過程,稱為“訓(xùn)練”或“學(xué)習(xí)”。模型中可以適當(dāng)變化的部分,一般叫做參數(shù)。應(yīng)基于實際的業(yè)務(wù)數(shù)據(jù)來確定最合適的模型參數(shù)。數(shù)據(jù)集劃分

算法建模所用的數(shù)據(jù)集一般分為兩個部分。一部分用于訓(xùn)練模型的,叫“訓(xùn)練集”;另一部分用于評估模型的,叫“驗證集”。原則上不用訓(xùn)練集作為驗證集。模型評估

用驗證集來判斷訓(xùn)練得到的模型是否適用。如果在訓(xùn)練集和驗證集上的預(yù)測效果差不多,就表示模型質(zhì)量尚好,可直接使用。如果發(fā)現(xiàn)訓(xùn)練集和驗證集上的預(yù)測效果相差太遠,說明模型還有優(yōu)化的余地。建立算法模型的關(guān)鍵環(huán)節(jié)147三、工業(yè)大數(shù)據(jù)建模機器學(xué)習(xí)

通過算法使得機器能從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而對新的樣本能做出智能識別或預(yù)測。。機器學(xué)習(xí)的應(yīng)用場景常見應(yīng)用預(yù)測:設(shè)備故障預(yù)測、降雨預(yù)測、產(chǎn)品質(zhì)量預(yù)測……營銷:商品推薦、用戶群體畫像、廣告精準投放金融:貸款發(fā)放預(yù)測、金融風(fēng)險控制、股票走勢預(yù)測、黃金價格預(yù)測社交關(guān)系挖掘:社交關(guān)系鏈分析、微博粉絲領(lǐng)袖分析自然語言處理:翻譯、關(guān)鍵詞提取、文章摘要、文本內(nèi)容分析圖片分類、圖片文本內(nèi)容提取、文字識別148三、工業(yè)大數(shù)據(jù)分析有監(jiān)督學(xué)習(xí)在給定一系列輸入/輸出樣本(實例)構(gòu)成的數(shù)據(jù)集的條件下,學(xué)習(xí)輸入x到輸出y的映射關(guān)系。有監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是帶有標簽的,每一個樣本數(shù)據(jù)都含有已知結(jié)論,其主要做法是使用有標簽的樣本數(shù)據(jù)來訓(xùn)練得到模型。無監(jiān)督學(xué)習(xí)在給定一系列僅由輸入樣本(實例)構(gòu)成的數(shù)據(jù)集的條件下,發(fā)現(xiàn)數(shù)據(jù)中的模式。無監(jiān)督學(xué)習(xí)有時候也稱為知識發(fā)現(xiàn)。無監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)沒有任何標簽,而是直接從數(shù)據(jù)本身發(fā)現(xiàn)一些潛在的規(guī)律。強化學(xué)習(xí)

強化學(xué)習(xí)是指一個系統(tǒng)和外界環(huán)境不斷地交互,獲得外界反饋,然后決定自身的行為,達到長期目標的最優(yōu)化。其中典型的案例就是阿爾法狗下圍棋,或者汽車無人駕駛。機器學(xué)習(xí)類型149三、工業(yè)大數(shù)據(jù)分析分類預(yù)測

利用算法,從樣本數(shù)據(jù)中學(xué)習(xí)并推導(dǎo)出判斷模型,從而對未知的數(shù)據(jù)進行識別。

包括以下兩類:回歸分析:輸入變量(特征)與輸出變量(結(jié)果)均為連續(xù)變量的預(yù)測問題。例如,預(yù)測明天的氣溫是多少度(定量),這是一個回歸任務(wù)。分類分析:輸出變量(結(jié)果)為有限個離散變量的預(yù)測問題。例如,預(yù)測明天是陰、晴還是雨(定性),這是一個分類任務(wù)。

什么是分類預(yù)測?150三、工業(yè)大數(shù)據(jù)建模認識Weka151三、工業(yè)大數(shù)據(jù)建模認識Weka的數(shù)據(jù)實例屬性152五、工業(yè)大數(shù)據(jù)分析認識Weka的數(shù)據(jù)文件格式——arff%ARFFweather@relationweather@attributetemperaturereal@attributehumidityreal@attributewindy{TRUE,FALSE}@attributeplay{yes,no}@data29,85,FALSE,no26,90,TRUE,no28,86,FALSE,yes21,96,FALSE,yes注釋行數(shù)據(jù)集名稱數(shù)據(jù)屬性數(shù)據(jù)行起始153三、工業(yè)大數(shù)據(jù)建模分類預(yù)測

利用算法,從樣本數(shù)據(jù)中學(xué)習(xí)并推導(dǎo)出判斷模型,從而對未知的數(shù)據(jù)進行識別。

包括兩類:回歸分析:輸入變量(特征)與輸出變量(結(jié)果)均為連續(xù)變量的預(yù)測問題。例如,預(yù)測明天的氣溫是多少度(定量),這是一個回歸任務(wù)。分類分析:輸出變量(結(jié)果)為有限個離散變量的預(yù)測問題。例如,預(yù)測明天是陰、晴還是雨(定性),這是一個分類任務(wù)。分類預(yù)測回歸得到的結(jié)果是連續(xù)值,分類的得到的結(jié)果是離散值。154三、工業(yè)大數(shù)據(jù)建模回歸分析思想:給定一個自變量

x,以及一個因變量y,用歷史數(shù)據(jù)樣本,擬合得到一條直線或曲線。

歸回分析算法思想因變量:通常是實際問題中所關(guān)心的一類指標,常用y表示。例如,研究能源消耗與某些因素關(guān)系中,那么,能源消耗就是因變量。自變量:影響因變量取值的變量稱為自變量,常用x來表示。如研究能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論