




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 基于大數(shù)據(jù)環(huán)境的海事船舶數(shù)據(jù)研究 李凡摘 要 目前長(zhǎng)江海事局現(xiàn)有的數(shù)十個(gè)信息系統(tǒng)在支撐傳統(tǒng)海事業(yè)務(wù)中扮演著重要的角色,但是隨著時(shí)代的發(fā)展越來越暴露出很多問題,如:系統(tǒng)之間接口繁雜,信息孤島,各系統(tǒng)之間數(shù)據(jù)不一致,無法支持智能化安全監(jiān)管、船舶防污、人命救助等業(yè)務(wù)。通過大數(shù)據(jù)的技術(shù),打通數(shù)據(jù)孤島,建立業(yè)務(wù)分析預(yù)測(cè)模型,對(duì)現(xiàn)有海事信息系統(tǒng)進(jìn)行智能化改造,可以全面提升海事局的各項(xiàng)業(yè)務(wù)的速度和質(zhì)量。關(guān)鍵詞 數(shù)據(jù)清洗 數(shù)據(jù)挖掘 關(guān)聯(lián)分析1航運(yùn)船舶大數(shù)據(jù)研究的意義國(guó)家海事部門2011年組織編制了海事信息系統(tǒng)頂層設(shè)計(jì),提出了“一個(gè)目標(biāo)、二個(gè)模型、四套體系”
2、,即海事信息化總體發(fā)展目標(biāo),信息系統(tǒng)和基礎(chǔ)設(shè)施的架構(gòu)模型,以及標(biāo)準(zhǔn)規(guī)范、管理控制、規(guī)章制度和組織體系,以指導(dǎo)海事未來一段時(shí)期的信息化建設(shè)。在“大數(shù)據(jù)”管理時(shí)代,這一切將發(fā)生改變。基于數(shù)據(jù)的“事實(shí)”將會(huì)成為決策的重要依據(jù)。海事管理涉及人、船、環(huán)境等多個(gè)方面,其中船舶的管理是其中的一大重點(diǎn)。目前,海事局已經(jīng)建立了完善的船舶登記系統(tǒng)和船舶動(dòng)態(tài)管理系統(tǒng),用于收集和管理船舶的基本情況和安全管理狀況,包含船舶基本數(shù)據(jù)、登記注冊(cè)信息、安全檢查、事故、行政處罰、重點(diǎn)跟蹤及協(xié)查船舶等分類管理信息。在“大數(shù)據(jù)”時(shí)代,經(jīng)過專業(yè)化的處理,每一艘船的信息都將詳盡地記錄在案。對(duì)于船舶的管理,更多是基于計(jì)算機(jī)系統(tǒng)對(duì)數(shù)據(jù)分析
3、后得出的“客觀判斷”,讓“事實(shí)”成為真正的“決策人”。隨著長(zhǎng)江海事局?jǐn)?shù)據(jù)資源中心的建成并投入使用,海事業(yè)務(wù)系統(tǒng)信息孤島的問題基本得到解決,為海事數(shù)據(jù)的大數(shù)據(jù)分析和挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。2航運(yùn)船舶大數(shù)據(jù)研究的目標(biāo)對(duì)海事數(shù)據(jù)進(jìn)行清洗、整合,抽取幾個(gè)關(guān)鍵維度,建模分析,預(yù)測(cè)船舶是否違章。把建立的模型應(yīng)用到業(yè)務(wù)系統(tǒng):通過實(shí)時(shí)抽取業(yè)務(wù)系統(tǒng)數(shù)據(jù),實(shí)時(shí)預(yù)測(cè)船舶違章狀態(tài)并提供報(bào)表展示。3航運(yùn)船舶大數(shù)據(jù)研究的方法3.1理論依據(jù)實(shí)施大數(shù)據(jù)戰(zhàn)略意味著管理模式的轉(zhuǎn)變,從經(jīng)驗(yàn)思維過渡到數(shù)據(jù)思維。經(jīng)驗(yàn)思維是以個(gè)人知識(shí)和經(jīng)驗(yàn)為中心的管理,強(qiáng)調(diào)個(gè)體的作用。數(shù)據(jù)思維則以客觀數(shù)據(jù)為基礎(chǔ),通過對(duì)數(shù)據(jù)抽取、清洗、整合、建模、分析和可
4、視化,形成決策信息和知識(shí)。所以,數(shù)據(jù),特別是海量大數(shù)據(jù),對(duì)于海事管理意義重大。數(shù)據(jù)對(duì)于管理模式的提升分為三個(gè)層次(如圖1所示):第一層:報(bào)表。這是對(duì)部門的數(shù)據(jù)進(jìn)行分析匯總,制作業(yè)務(wù)所需要的各種報(bào)表。由于數(shù)據(jù)的采集范圍所限,報(bào)表層的大數(shù)據(jù)分析,體現(xiàn)的是局部信息;第二層:數(shù)據(jù)倉庫/商業(yè)智能。這是對(duì)全海事各個(gè)部門的數(shù)據(jù)進(jìn)行統(tǒng)一歸類,抽取,清洗和集成,形成企業(yè)統(tǒng)一數(shù)據(jù)中心?;跀?shù)據(jù)中心,開發(fā)商業(yè)智能應(yīng)用,包括多維分析、企業(yè)儀表盤,即席查詢報(bào)表等;由于數(shù)據(jù)倉庫是企業(yè)全部數(shù)據(jù)的整合,它所展示的是整體信息;第三層:數(shù)據(jù)挖掘。這是根據(jù)歷史業(yè)務(wù)數(shù)據(jù)建立挖掘模型,包括客戶分類模型、精準(zhǔn)營(yíng)銷模型、客戶購買決策判斷模
5、型、客戶流失預(yù)警模型等。建立好的模型用于對(duì)當(dāng)前客戶進(jìn)行實(shí)時(shí)預(yù)測(cè)分析,給管理者提供一個(gè)預(yù)知未來的能力。3.2大數(shù)據(jù)平臺(tái)系統(tǒng)部署架構(gòu)圖工作流程:(1)大數(shù)據(jù)開發(fā)工程師了解客戶業(yè)務(wù),整理需求,設(shè)計(jì)大數(shù)據(jù)解決方案;(2)大數(shù)據(jù)開發(fā)工程師使用客戶端,根據(jù)設(shè)計(jì)方案開發(fā)數(shù)據(jù)處理流程;(3)數(shù)據(jù)處理流程通過“后臺(tái)服務(wù)”推送到“引擎服務(wù)”;(4)“引擎服務(wù)”對(duì)數(shù)據(jù)處理流程進(jìn)行翻譯,把翻譯的結(jié)果推送到“計(jì)算集群”;(5)“計(jì)算集群”申請(qǐng)計(jì)算資源,執(zhí)行翻譯結(jié)果。(6)如果執(zhí)行過程中需要抽取網(wǎng)頁/微博數(shù)據(jù),則請(qǐng)求“抽取服務(wù)”獲取對(duì)應(yīng)數(shù)據(jù)。(7)如果需要其他類型數(shù)據(jù),則直接從“數(shù)據(jù)源”請(qǐng)求數(shù)據(jù);(8)“計(jì)算集群”對(duì)數(shù)據(jù)
6、處理分析的結(jié)果以推送到“報(bào)表服務(wù)”,由報(bào)表服務(wù)渲染成可視化報(bào)表;(9)最終用戶通過筆記本,手機(jī)或其他終端設(shè)備訪問報(bào)表服務(wù),獲取分析報(bào)告。系統(tǒng)配置清單:3.3系統(tǒng)功能架構(gòu)圖海事大數(shù)據(jù)平臺(tái)包括5個(gè)子模塊:數(shù)據(jù)抽取、數(shù)據(jù)整合、數(shù)據(jù)中心、建模分析和報(bào)表展示。新平臺(tái)提供10多種不同的數(shù)據(jù)接口,可以抽取任意的業(yè)務(wù)數(shù)據(jù),包括海事外部的數(shù)據(jù),比如新浪微博和網(wǎng)頁等。抽取來的數(shù)據(jù)輸入到分布式整合引擎,進(jìn)行數(shù)據(jù)的清洗、過濾、整合。其目的是解決數(shù)據(jù)質(zhì)量問題,把最終清洗整合好的高質(zhì)量業(yè)務(wù)數(shù)據(jù),統(tǒng)一導(dǎo)入一個(gè)分布式的大數(shù)據(jù)中心,實(shí)現(xiàn)數(shù)據(jù)的長(zhǎng)時(shí)間永久保存?;诖髷?shù)據(jù)中心可以建立各種挖掘分析模型。挖掘分析的結(jié)果,通過可視化的方
7、式展示給最終用戶。整個(gè)大數(shù)據(jù)平臺(tái)為可視化環(huán)境(ide),工程師可以通過一個(gè)可視化的工具對(duì)各個(gè)模塊進(jìn)行配置和管理。整個(gè)大數(shù)據(jù)平臺(tái)的功能,運(yùn)行在高性能分布式的計(jì)算集群上。3.4數(shù)據(jù)抽取子模塊數(shù)據(jù)抽取子模塊用于從海事的各個(gè)業(yè)務(wù)系統(tǒng)中抽取數(shù)據(jù)。抽取上來的數(shù)據(jù)通過接口自動(dòng)導(dǎo)入到數(shù)據(jù)整合子模塊,進(jìn)而對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行過濾、清洗、變換和集成。抽取功能通過可視化組件的形式在敏捷大數(shù)據(jù)ide中提供。抽取功能也提供了http和webservice接口,用于和第三方應(yīng)用的整合。3.5數(shù)據(jù)整合子模塊該模塊用于對(duì)抽取來的原始業(yè)務(wù)數(shù)據(jù)進(jìn)行過濾、清洗、變換和集成。業(yè)務(wù)數(shù)據(jù)在被整合的過程中,逐步解決多種數(shù)據(jù)質(zhì)量問題:數(shù)據(jù)不一致:
8、比如同一個(gè)船員的手機(jī)號(hào)碼,在不同系統(tǒng)中不同。數(shù)據(jù)不一致,將導(dǎo)致最終的報(bào)表可能數(shù)據(jù)有沖突,影響運(yùn)營(yíng)和決策;解決數(shù)據(jù)不一致問題,一般是先確定業(yè)務(wù)規(guī)則,然后在數(shù)據(jù)整合系統(tǒng)中實(shí)現(xiàn)該業(yè)務(wù)邏輯。數(shù)據(jù)丟失:多種原因可能導(dǎo)致數(shù)據(jù)丟失,比如個(gè)人隱私,像船舶ais狀態(tài)。采用敏捷大數(shù)據(jù)有多種數(shù)據(jù)擬合模型,可以用于對(duì)缺失的數(shù)據(jù)進(jìn)行推測(cè)補(bǔ)充。數(shù)據(jù)孤島:來源于不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)其目的并不是為分析設(shè)計(jì)。使用大數(shù)據(jù)技術(shù)建立360度的業(yè)務(wù)模型,比如客戶畫像,依賴海事全局的大數(shù)據(jù)中心。該大數(shù)據(jù)中心整合了各個(gè)業(yè)務(wù)部門、各個(gè)業(yè)務(wù)流程、各個(gè)渠道的數(shù)據(jù)。3.6數(shù)據(jù)中心子模塊數(shù)據(jù)中心子模塊以敏捷大數(shù)據(jù)平臺(tái)本身的數(shù)據(jù)存儲(chǔ)系統(tǒng)為核心搭建。它是
9、一個(gè)分布式的大數(shù)據(jù)存儲(chǔ)系統(tǒng),可用于gb、tb、pb級(jí)的海量數(shù)據(jù)存儲(chǔ)和高效讀取檢索。和傳統(tǒng)關(guān)系型數(shù)據(jù)庫對(duì)比,其存儲(chǔ)能力幾乎無限,可以通過集群低成本快速水平擴(kuò)充。同時(shí),它可以對(duì)分析,建模,報(bào)表,以及第三方系統(tǒng)提供高性能查詢接口。億級(jí)記錄,實(shí)時(shí)查詢可控制在秒級(jí)。3.7建模分析子模塊建模分析子模塊主要是數(shù)據(jù)挖掘模型支持,包括聚類、分類、回歸、支持向量機(jī)等10多種不同的數(shù)據(jù)挖掘模型。這些挖掘模型可用于解決各種海事大數(shù)據(jù)分析模型,這些模型同樣也是通過可視化組件的形式提供:4航運(yùn)船舶大數(shù)據(jù)研究的結(jié)論4.1事故關(guān)聯(lián)分析關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。關(guān)聯(lián)規(guī)則是指幾種事物之間存在的因果關(guān)系。例如在船舶碰撞
10、事故中,瞭望不當(dāng)和疲勞之間的相關(guān)性就是一種關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“90%的碰撞中,當(dāng)了望不當(dāng)時(shí),值班人員總是處于疲勞狀態(tài)之類的知識(shí)”。關(guān)聯(lián)規(guī)則挖掘旨在建立數(shù)據(jù)項(xiàng)間潛在相互關(guān)系的模型,并用規(guī)則的形式表示出來。其中支持度 是關(guān)聯(lián)規(guī)則中的一個(gè)重要概念, 表示包含某個(gè)事務(wù)在數(shù)據(jù)庫中所占的比例。內(nèi)河航線固定,事故與其發(fā)生河段存在著很大的相關(guān)性, 海事管理部門的經(jīng)驗(yàn)性的分析主要是集中在幾個(gè)重點(diǎn)航段中的海事發(fā)生率。但數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì)可以通過多個(gè)數(shù)據(jù)分析主題的關(guān)聯(lián), 在更高層次上對(duì)數(shù)據(jù)進(jìn)行泛化, 從而得出優(yōu)于個(gè)人經(jīng)驗(yàn)的相關(guān)結(jié)論。通過對(duì)海事事故進(jìn)行關(guān)聯(lián)分析,
11、確定導(dǎo)致事故的客觀或主管因素,從而可以制定有針對(duì)性的預(yù)防和救治措施,以預(yù)防事故發(fā)生。4.2事故聚類分析聚類分析屬于探索性的數(shù)據(jù)分析方法。通常,我們利用聚類分析將看似無序的對(duì)象進(jìn)行分組、歸類,以達(dá)到更好地理解研究對(duì)象的目的。聚類結(jié)果要求組內(nèi)對(duì)象相似性較高,組間對(duì)象相似性較低。聚類分析把海事事故自動(dòng)分組,再對(duì)每一分組進(jìn)行關(guān)聯(lián)查詢,特征化,即可得到該組事故的關(guān)鍵特征。由此,可以判斷導(dǎo)致特定類型事故發(fā)生的主要因素,從而可以制定有針對(duì)性的預(yù)防和救治措施,以預(yù)防事故發(fā)生。4.3船舶航行軌跡聚類分析通過提取船舶ais數(shù)據(jù),采用kmeans聚類技術(shù)對(duì)船舶的航行軌跡進(jìn)行刻畫和自動(dòng)分組,并以形象的可視化形式進(jìn)行展
12、示見圖5。·航道預(yù)警分析·在船舶密度達(dá)到一定閾值時(shí),系統(tǒng)報(bào)警,預(yù)防事故發(fā)生。·分析航道使用率·分析航道使用密度和事故的關(guān)聯(lián)性·最繁忙航道·航道使用情況隨時(shí)間、季節(jié)、水文、氣象等變化4.4河道交通流量預(yù)測(cè)通過測(cè)試,完全實(shí)現(xiàn)了預(yù)先設(shè)定的測(cè)試目標(biāo),基本驗(yàn)證了敏捷大數(shù)據(jù)技術(shù)在海事當(dāng)中應(yīng)用的價(jià)值和可能性,為正式立項(xiàng)和推廣奠定了堅(jiān)實(shí)的基礎(chǔ)。通過對(duì)ais、簽證、違章的數(shù)據(jù)清洗整合,克服了數(shù)據(jù)存儲(chǔ)方式導(dǎo)致的抽取耗時(shí)高、數(shù)據(jù)質(zhì)量、海事業(yè)務(wù)知識(shí)積累不足的困難。通過抽取幾個(gè)維度的信息,建立了一個(gè)能對(duì)運(yùn)行船舶是否違章進(jìn)行實(shí)時(shí)預(yù)測(cè)的模型。5未來展望5.1建立船
13、舶完整數(shù)據(jù)鏈打通各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),消除信息孤島.整合ais軌跡、簽證、違章、船員、貨物等各個(gè)業(yè)務(wù)系統(tǒng)及外部數(shù)據(jù),建立一個(gè)全方位的船舶信息中心。實(shí)現(xiàn)船舶監(jiān)管的立體化。5.2通過數(shù)據(jù)挖掘提升監(jiān)管介入通過對(duì)海事數(shù)據(jù)建模分析,提高對(duì)違章、事故的防范能力,通過數(shù)據(jù)預(yù)測(cè)結(jié)果,優(yōu)化監(jiān)管流程、監(jiān)管介入時(shí)間及地點(diǎn),精準(zhǔn)監(jiān)管,提高監(jiān)管效率。5.3數(shù)據(jù)輔助決策通過大數(shù)據(jù)中心的建立,對(duì)各個(gè)業(yè)務(wù)進(jìn)行建模分析,優(yōu)化流程,輔助決策。改變以往的憑經(jīng)驗(yàn)、拍腦袋的主觀決策方式,尋求通過數(shù)據(jù)層次的支持來輔助決策的方式。參考文獻(xiàn)1 刁瑩. 用數(shù)學(xué)建模方法評(píng)價(jià)存儲(chǔ)系統(tǒng)性能d.哈爾濱:哈爾濱工程大學(xué),2013.2 符青云.面向大規(guī)模流媒體服務(wù)的高性能存儲(chǔ)系統(tǒng)研究d.成都:電子科技大學(xué),2009.3 王玉林.多節(jié)點(diǎn)容錯(cuò)存儲(chǔ)系統(tǒng)的數(shù)據(jù)與緩存組織研究d.成都:電子科技大學(xué),2010.4 羅東健.大規(guī)模存儲(chǔ)系統(tǒng)高可靠性關(guān)鍵技術(shù)研究d.武漢:華中科技大學(xué),2011.5 劉洋. 層次混合存儲(chǔ)系統(tǒng)中緩存和預(yù)取技術(shù)研究d.武漢:華中科技大學(xué),2013.6 任崇廣.面向海量數(shù)據(jù)處理領(lǐng)域的云計(jì)算及其關(guān)鍵技術(shù)研究d.南京:南京理工大學(xué),2013.7 pavlo,a. et
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【復(fù)習(xí)大串講】【中職專用】高二語文上學(xué)期期末應(yīng)用文寫作專題(職業(yè)模塊)(原卷版)
- 分租店面裝修合同范本
- 農(nóng)機(jī)課題申報(bào)書怎么寫
- 專用預(yù)埋件銷售合同范本
- 友誼合同范本
- 產(chǎn)業(yè)用工合同范本
- 前期物業(yè)托管合同范本
- 豐沃達(dá)采購合同范本
- 農(nóng)場(chǎng)民宿到超市合同范本
- 醫(yī)院物業(yè)服務(wù)合同范本格式
- 2024煤礦安全規(guī)程解讀
- 上海2025年上海市發(fā)展改革研究院招聘9人筆試歷年參考題庫附帶答案詳解
- 德州環(huán)鋰新能源科技有限公司2萬噸年廢舊鋰電池回收項(xiàng)目環(huán)境影響報(bào)告書
- 2025年江蘇省中職《英語》學(xué)業(yè)水平考試核心考點(diǎn)試題庫500題(重點(diǎn))
- 延期實(shí)習(xí)申請(qǐng)書
- 2024-2025學(xué)年一年級(jí)語文下冊(cè)第一單元測(cè)試(含答案)
- 2025年江蘇信息職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試近5年??及鎱⒖碱}庫含答案解析
- 易制毒化學(xué)品理論考試試題及答案
- 2024年煙臺(tái)汽車工程職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫含答案解析
- 2024年江西旅游商貿(mào)職業(yè)學(xué)院高職單招語文歷年參考題庫含答案解析
- 2025年春新人教PEP版英語三年級(jí)下冊(cè)課件 Unit 1 Part C 第8課時(shí) Reading time
評(píng)論
0/150
提交評(píng)論