智慧城多源異構(gòu)大數(shù)據(jù)處理框架_第1頁
智慧城多源異構(gòu)大數(shù)據(jù)處理框架_第2頁
智慧城多源異構(gòu)大數(shù)據(jù)處理框架_第3頁
智慧城多源異構(gòu)大數(shù)據(jù)處理框架_第4頁
智慧城多源異構(gòu)大數(shù)據(jù)處理框架_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

智慧城市多源異構(gòu)大數(shù)據(jù)處理框架摘要:智慧城市建設(shè)的重心已由傳統(tǒng)IT系統(tǒng)和信息資源共享建設(shè),轉(zhuǎn)變?yōu)閿?shù)據(jù)的深度挖掘利用和數(shù)據(jù)資產(chǎn)的運(yùn)營流通。大數(shù)據(jù)中心是數(shù)據(jù)資產(chǎn)管理和利用的實(shí)體基礎(chǔ),其核心驅(qū)動引擎是大數(shù)據(jù)平臺及各類數(shù)據(jù)挖掘與分析系統(tǒng)。討論了智慧城市大數(shù)據(jù)中心建設(shè)的功能架構(gòu),圍繞城市多源異構(gòu)數(shù)據(jù)處理的實(shí)際需要,對數(shù)據(jù)中心大數(shù)據(jù)平臺的架構(gòu)進(jìn)行了拆分講解,并以視頻大數(shù)據(jù)處理為例,闡述了數(shù)據(jù)中心中大數(shù)據(jù)平臺的運(yùn)轉(zhuǎn)流程。關(guān)鍵詞:智慧城市;大數(shù)據(jù);多源異構(gòu);視頻分析1引言隨著智慧城市建設(shè)逐步由信息基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)建設(shè)邁入數(shù)據(jù)資產(chǎn)集約利用與運(yùn)營管理階段,城市大數(shù)據(jù)中心已成為智慧城市打造核心競爭力、提升政府管理效能的重要工具。一方面政府借助大數(shù)據(jù)中心建設(shè)可以將有限的信息基礎(chǔ)設(shè)施資源集中高效管理和利用,大幅降低各自為政、運(yùn)維機(jī)關(guān)龐雜、財(cái)政壓力過大的問題;另一方面,可以在國務(wù)院、發(fā)展和改革委員會大力支持的政策東風(fēng)下,打破部門間數(shù)據(jù)壁壘,推動政府各部門職能由管理轉(zhuǎn)為服務(wù),提高數(shù)據(jù)共享利用率和透明度。以大數(shù)據(jù)中心為核心構(gòu)建城市駕駛艙,實(shí)現(xiàn)城市運(yùn)轉(zhuǎn)過程的實(shí)時全面監(jiān)控,提高政府決策的科學(xué)性和及時性。智慧城市大數(shù)據(jù)中心建設(shè)功能框架如圖1所示,其中針對不同部門的數(shù)據(jù)源,由數(shù)據(jù)收集系統(tǒng)完成數(shù)據(jù)的匯聚,并根據(jù)數(shù)據(jù)業(yè)務(wù)類型和內(nèi)容的差異進(jìn)行粗分類。為避免過多“臟數(shù)據(jù)”對大數(shù)據(jù)平臺的污染,對于批量數(shù)據(jù),不推薦直接將數(shù)據(jù)匯入大數(shù)據(jù)平臺,而是單設(shè)一個前端原始數(shù)據(jù)資源池,在這里暫時存儲前端流入的多源異構(gòu)數(shù)據(jù),供大數(shù)據(jù)平臺處理調(diào)用。力燃胃用明授梅*——1!一?一里維也;ni悔性etn值回3MCVR11攫制日力燃胃用明授梅*——1!一?一里維也;ni悔性etn值回3MCVR11攫制日幄*?;iM:1笥VJ坦敢?guī)?圖1智慧城市大數(shù)據(jù)中心功能框架大數(shù)據(jù)平臺是城市大數(shù)據(jù)中心運(yùn)轉(zhuǎn)的核心驅(qū)動引擎,主要完成多源數(shù)據(jù)導(dǎo)入、冗余存儲、冷熱遷移、批量計(jì)算、實(shí)時計(jì)算、圖計(jì)算、安全管理、資源管理、運(yùn)維監(jiān)控等功能[1],大數(shù)據(jù)平臺的主體數(shù)據(jù)是通過專線連接或硬件復(fù)制各政府部門數(shù)據(jù)庫的方式獲得,例如地理信息系統(tǒng)(geographicinformationsystem,GIS)數(shù)據(jù)、登記信息等。部分?jǐn)?shù)據(jù)通過直連業(yè)務(wù)部門傳感監(jiān)測設(shè)備的方式獲得,例如監(jiān)控視頻、河道流量等。大數(shù)據(jù)平臺的輸出主要是結(jié)構(gòu)化關(guān)聯(lián)數(shù)據(jù)以及統(tǒng)計(jì)分析結(jié)果數(shù)據(jù),以方便各類業(yè)務(wù)系統(tǒng)的直接使用。不同部門間共享與交換的數(shù)據(jù)不推薦直接使用原始數(shù)據(jù),一方面是因?yàn)樵紨?shù)據(jù)內(nèi)容密級存在差異,另一方面是因?yàn)樵紨?shù)據(jù)內(nèi)容可能存在錯誤或紕漏。推薦使用經(jīng)過大數(shù)據(jù)平臺分類、過濾和統(tǒng)計(jì)分析后的數(shù)據(jù)。不同使用部門經(jīng)過政務(wù)信息門戶統(tǒng)一需求申請和查看所需數(shù)據(jù),所有數(shù)據(jù)的交換和審批以及數(shù)據(jù)的監(jiān)控運(yùn)維統(tǒng)一由數(shù)據(jù)信息中心負(fù)責(zé),避免了跨部門協(xié)調(diào)以及數(shù)據(jù)管理不規(guī)范等人為時間的損耗,極大地提高了數(shù)據(jù)的流通和使用效率。另外,針對特定的業(yè)務(wù)需求,可以基于大數(shù)據(jù)平臺擁有的數(shù)據(jù)進(jìn)行定制開發(fā),各業(yè)務(wù)系統(tǒng)屬于應(yīng)用層,建設(shè)時不宜與大數(shù)據(jù)平臺部署在同一服務(wù)器集群內(nèi),并且要保證數(shù)據(jù)由大數(shù)據(jù)平臺至業(yè)務(wù)系統(tǒng)的單向性,盡量設(shè)置業(yè)務(wù)數(shù)據(jù)過渡區(qū),避免應(yīng)用系統(tǒng)直接對大數(shù)據(jù)平臺核心區(qū)數(shù)據(jù)的訪問。目前主流大數(shù)據(jù)平臺都采用以Hadoop為核心的數(shù)據(jù)處理框架,例如Cloudera公司的CDH(ClouderaDistributionforHadoop)和星環(huán)信息科技(上海)有限公司Transwarp)的TDH(TranswarpDataHub)、ApacheHadoop等。以Hadoop為核心的大數(shù)據(jù)解決方案占大數(shù)據(jù)市場95%以上的份額,目前國內(nèi)80%的市場被Cloudera占有,剩余20%的市場由星環(huán)信息科技(上海)有限公司、北京紅象云騰系統(tǒng)技術(shù)有限公司、華為技術(shù)有限公司等大數(shù)據(jù)公司分享。隨著數(shù)據(jù)安全意識的增強(qiáng)、價(jià)格競爭優(yōu)勢的擴(kuò)大,國內(nèi)企業(yè)在國內(nèi)大數(shù)據(jù)市場的份額和影響力正在快速提升。大數(shù)據(jù)的應(yīng)用歷程可歸納為3個階段:第一個階段是面向互聯(lián)網(wǎng)數(shù)據(jù)收集、處理的搜索推薦時代;第二個階段是面向金融、安全、廣播電視數(shù)據(jù)的用戶畫像和關(guān)系發(fā)現(xiàn)時代;第三個階段是面向多數(shù)據(jù)源與多業(yè)務(wù)領(lǐng)域數(shù)據(jù)的融合分析與數(shù)據(jù)運(yùn)營時代,并且對數(shù)據(jù)處理規(guī)模和實(shí)時性的要求大幅提高。本文在智慧城市大數(shù)據(jù)中心建設(shè)方案的基礎(chǔ)上,闡述了多源異構(gòu)大數(shù)據(jù)處理的框架和流程,并以最典型的非結(jié)構(gòu)化視頻大數(shù)據(jù)處理為例,介紹了多源異構(gòu)大數(shù)據(jù)處理框架運(yùn)轉(zhuǎn)的流程。2多源異構(gòu)大數(shù)據(jù)處理框架2.1系統(tǒng)整體架構(gòu)多源異構(gòu)是大數(shù)據(jù)的基本特征[2],為適應(yīng)此類數(shù)據(jù)導(dǎo)入、存儲、處理和交互分析的需求,本文設(shè)計(jì)了如圖2所示的系統(tǒng)框架,主要包括3個層面的內(nèi)容:基礎(chǔ)平臺層、數(shù)據(jù)處理層、應(yīng)用展示層。其中,基礎(chǔ)平臺層由Hadoop生態(tài)系統(tǒng)組件以及其他數(shù)據(jù)處理工具構(gòu)成,除了提供基本的存儲、計(jì)算和網(wǎng)絡(luò)資源外,還提供分布式流計(jì)算、離線批處理以及圖計(jì)算等計(jì)算引擎;數(shù)據(jù)處理層由多個數(shù)據(jù)處理單元組成,除了提供基礎(chǔ)的數(shù)據(jù)抽取與統(tǒng)計(jì)分析算法外,還提供半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)結(jié)構(gòu)化數(shù)據(jù)處理算法、數(shù)據(jù)內(nèi)容深度理解算法等,涉及自然語言處理、視頻圖像內(nèi)容理解、文本挖掘與分析等,是與人工智能聯(lián)系最緊密的層,該層數(shù)據(jù)處理效果的好壞直接決定了業(yè)務(wù)應(yīng)用層數(shù)據(jù)統(tǒng)計(jì)分析的準(zhǔn)確性和客戶體驗(yàn);應(yīng)用展

示層由SSH(Struts+Spring+Hibernate)框架及多類前端可視化工具組成,對應(yīng)用層的約束是比較寬松的,主要是對數(shù)據(jù)處理層結(jié)果的進(jìn)一步歸納和總結(jié),以滿足具體業(yè)務(wù)的需要。系統(tǒng)框架的使用優(yōu)先推薦開源生態(tài)系統(tǒng)及其組件,系統(tǒng)存儲主要依托Hadoop分布式文件系統(tǒng)(Hadoopdistributedfilesystem,HDFS)、HBase,同時支持Oracle、MySQL等結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng),計(jì)算框架涵蓋MapReduce、Storm、Spark以及定制分布式視頻流處理引擎,可視化系統(tǒng)基于SSH框架設(shè)計(jì),可根據(jù)實(shí)際需求,靈活配置。步入MHawIhhcfniiblc(即可J:M.liiIIIM1.5-步入MHawIhhcfniiblc(即可J:M.liiIIIM1.5-圖2多源異構(gòu)大數(shù)據(jù)處理框架r赤硼劃::宣據(jù)整押如出陽由?\致?lián)?biāo)程j[m^Tcducp][it附國「Nuc廿JHba窕J[期全審計(jì)]鑒于數(shù)據(jù)存儲介質(zhì)、數(shù)據(jù)存儲類型和數(shù)據(jù)傳輸方式的差異,系統(tǒng)在數(shù)據(jù)導(dǎo)入單元設(shè)計(jì)了如下數(shù)據(jù)導(dǎo)入框架,借助不同的導(dǎo)入工具,實(shí)現(xiàn)不同源數(shù)據(jù)和不同結(jié)構(gòu)數(shù)據(jù)的導(dǎo)入,如圖3所示。其中,對實(shí)時性要求較高的監(jiān)測數(shù)據(jù)以分布式消息隊(duì)列的形式由Kafka分發(fā);關(guān)系型數(shù)據(jù)庫使用Sqoop等工具,直接將數(shù)據(jù)導(dǎo)入HDFS⑶4];對于安全等級較高的數(shù)據(jù)和其他一些離線數(shù)據(jù),使用硬件復(fù)制或文件傳輸協(xié)議(filetransferprotocol,FTP)傳輸?shù)姆绞綄?dǎo)入;對于日志等文本數(shù)據(jù)使用Flume工具導(dǎo)入;對于互聯(lián)網(wǎng)數(shù)據(jù)使用爬蟲程序爬取,并導(dǎo)入;對于視頻等多媒體數(shù)據(jù),使用各廠商提供的定制碼流軟件開發(fā)工具包(softwaredevelopmentkit,SDK)開發(fā)導(dǎo)入程序,或者利用多媒體流處理引擎直接抓取和在線處理。在智慧城市建設(shè)過程中,數(shù)據(jù)來源差異一般較大,數(shù)據(jù)庫中存放的主要是經(jīng)過業(yè)務(wù)系統(tǒng)加工后的數(shù)據(jù),而描述行為過程的數(shù)據(jù)一般都未被記錄,此時,需要定制開發(fā)能夠直接連接原始數(shù)據(jù)源的數(shù)據(jù)采集工具。信把數(shù)據(jù)交旃??谟灏瞤n公文數(shù)據(jù)城m數(shù)據(jù)也蕓數(shù)據(jù)應(yīng)用教推據(jù)源熱掘心宏睇站克制效據(jù)區(qū)縣寓推信把數(shù)據(jù)交旃??谟灏瞤n公文數(shù)據(jù)城m數(shù)據(jù)也蕓數(shù)據(jù)應(yīng)用教推據(jù)源熱掘心宏睇站克制效據(jù)區(qū)縣寓推R林敕據(jù)心心數(shù)據(jù)外加式制以隊(duì)MK通口次「一氈怖圖3多源數(shù)據(jù)導(dǎo)入框架異構(gòu)數(shù)據(jù)處理根據(jù)數(shù)據(jù)類型的差異,選擇不同的計(jì)算和存儲引擎。對于非實(shí)時性數(shù)據(jù)計(jì)算,選擇MapReduce計(jì)算引擎⑸;對實(shí)時性要求較高的數(shù)據(jù)計(jì)算,選擇Spark或Storm計(jì)算框架[6,7];對時序不可分的流媒體數(shù)據(jù)處理,選擇定制流媒體計(jì)算引擎,如圖4所示。對于結(jié)構(gòu)化或鍵值對數(shù)據(jù),采用Hive或HBase存儲,兼容Oracle和MySQL等關(guān)系型數(shù)據(jù)庫;對于日志、多媒體等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),采用HDFS存儲。數(shù)據(jù)倉庫可以統(tǒng)一建立在HDFS上,統(tǒng)一的存儲有助于最大化地發(fā)揮分布式系統(tǒng)的數(shù)據(jù)處理能力,充分利用內(nèi)網(wǎng)帶寬,減少異構(gòu)數(shù)據(jù)倉庫自身性能瓶頸導(dǎo)致的大數(shù)據(jù)系統(tǒng)性能下降問題。對于結(jié)構(gòu)化數(shù)據(jù)的處理主要包括內(nèi)容清洗、統(tǒng)計(jì)分析、關(guān)聯(lián)分析等;對于半結(jié)構(gòu)化數(shù)據(jù)的處理涉及模板分類、字段檢索、關(guān)鍵字段提取等;對于非結(jié)構(gòu)化數(shù)據(jù)的處理涉及音視頻內(nèi)容的結(jié)構(gòu)轉(zhuǎn)化、文本內(nèi)容的挖掘與分析、語義理解與情感分析等。隨著數(shù)據(jù)結(jié)構(gòu)多樣性和內(nèi)容不確定性的增加,數(shù)據(jù)處理的復(fù)雜度和難度呈現(xiàn)指數(shù)型非線性增長,諸多數(shù)據(jù)處理問題在這個階段轉(zhuǎn)變?yōu)槿斯ぶ悄芩惴▎栴}。統(tǒng)一運(yùn)維管理大數(shù)據(jù)平臺的運(yùn)維管理借助統(tǒng)一運(yùn)維管理平臺實(shí)現(xiàn),管控平臺具備大數(shù)據(jù)平臺定制化組件安裝、資源靈活配置、字段級權(quán)限控制、賬戶管理等功能,借助統(tǒng)一的運(yùn)維管理平臺,對平臺安裝節(jié)點(diǎn)的CPU、內(nèi)存、硬盤資源進(jìn)行控制,并對節(jié)點(diǎn)所在機(jī)架進(jìn)行規(guī)劃,通過運(yùn)維管理主節(jié)點(diǎn),可實(shí)現(xiàn)大數(shù)據(jù)平臺的自動部署和安裝,與此同時,運(yùn)維管理平臺可實(shí)時監(jiān)控正在運(yùn)行的各服務(wù)的資源使用情況和任務(wù)進(jìn)度情況,為各服務(wù)提供資源隔離或資源搶占式兩種選擇方案,靈活配置服務(wù)運(yùn)行節(jié)點(diǎn),大大節(jié)省運(yùn)維管理人員的工作量。3視頻數(shù)據(jù)處理應(yīng)用示例在智慧城市建設(shè)中,視頻不僅是存儲規(guī)模最大的數(shù)據(jù),同時也是最典型的異構(gòu)大數(shù)據(jù),數(shù)據(jù)內(nèi)容在不同的處理階段,表現(xiàn)為不同的數(shù)據(jù)形式:非結(jié)構(gòu)化(視頻、圖像)、半結(jié)構(gòu)化(特征點(diǎn))、結(jié)構(gòu)化(特征向量、描述屬性)。視頻數(shù)據(jù)[8]不僅用于治安偵查、違章監(jiān)測,還被用于城市人群密度監(jiān)測,結(jié)合輿情、地理定位等信息,可用于對城市不同區(qū)域安全等級的評估。視頻數(shù)據(jù)處理算法框架如圖5所示,視頻數(shù)據(jù)處理的過程是逐步將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù),然后做統(tǒng)計(jì)和關(guān)聯(lián)分析的過程。視頻數(shù)據(jù)標(biāo)記有助于提高視頻內(nèi)容提取和描述的準(zhǔn)確性和穩(wěn)定性,使得視頻內(nèi)容檢測與分析算法的設(shè)計(jì)更有針對性,原則上對視頻內(nèi)容的結(jié)構(gòu)化描述信息越全面越好,但是容易受標(biāo)記人員主觀因素干擾,因此只選擇容易區(qū)分和定義的以下幾類標(biāo)記信息:視頻場景、視頻主色、運(yùn)動方向、適用算法。視頻場景可分為:卡口、路口、廣場、街道等,視頻主色可分為:彩色和灰色,運(yùn)動方向根據(jù)圖像坐標(biāo)系分為8個方向,適用算法主要用于標(biāo)記該視頻適用于哪類算法,例如行人檢測、遺留物檢測、交通標(biāo)志檢測、車牌檢測等。標(biāo)記后的視頻經(jīng)過視頻分割算法處理,被切分成大小適合MapReduce處理的文件塊。視頻內(nèi)容挖掘視頻多媒體數(shù)據(jù)包含的信息非常豐富,這里僅以視頻中的人、車、自行車目標(biāo)的檢測與跟蹤為例,闡述非結(jié)構(gòu)化視頻大數(shù)據(jù)內(nèi)容挖掘的實(shí)現(xiàn)過程。視頻內(nèi)容挖掘是通過對視頻文件或視頻流的解碼,逐幀進(jìn)行分析處理的。視頻中的運(yùn)動目標(biāo)是檢測的主要對象,通過背景建模、前景目標(biāo)分割算法確定潛在運(yùn)動目標(biāo)的位置,然后通過運(yùn)動目標(biāo)跟蹤算法對粘連目標(biāo)、誤分割目標(biāo)以及特征不穩(wěn)定目標(biāo)進(jìn)行切分、合并和過濾處理,處理流程如圖6所示,圖6中對不同的運(yùn)動目標(biāo)分別建立檢測存儲隊(duì)列、跟蹤存儲隊(duì)列、結(jié)果存儲隊(duì)列,用以實(shí)現(xiàn)基于視頻前后幀序列的目標(biāo)過濾與判定。整個處理過程可以使用MapReduce框架實(shí)現(xiàn),值得注意的是,視頻對象處理需要耗費(fèi)大量的內(nèi)存資源,單靠Java虛擬機(jī)(Javavirtualmachine,JVM)E難以滿足需求,因此,推薦使用C+Java的混合語言編程處理模式。

對視頻內(nèi)容挖掘單元輸出的目標(biāo)圖像文件做進(jìn)一步顯著性檢測與分類判定,主要包括圖像中的人體檢測、車輛檢測、自行車檢測,并對目標(biāo)圖像中包含多個目標(biāo)的情況進(jìn)行切分,對誤檢或位置不精確的目標(biāo)進(jìn)行過濾或校正。本文使用優(yōu)化的彈性形變模型(deformablepartsmodel,DPM)算法對目標(biāo)圖像進(jìn)行二次檢測,如圖7所示。為提高檢測精度,對尺寸(寬或高)小于320像素的圖像進(jìn)行插值處理,擴(kuò)大至(寬或高)640像素,二次檢測的結(jié)果仍以圖像文件的形式存儲在HDFS上,文件屬性及其與原視頻流的對應(yīng)關(guān)系記錄在HBase中,該對應(yīng)關(guān)系主要包括原視頻路徑、圖像對應(yīng)視頻中的幀序號等。

圖7基于優(yōu)化DPM的行人二次定位示例視頻目標(biāo)檢索視頻目標(biāo)檢索是在視頻目標(biāo)分類結(jié)果的基礎(chǔ)上,對圖像內(nèi)容進(jìn)行結(jié)構(gòu)化特征描述[9],特征向量冷數(shù)據(jù)存儲在HBase中,熱數(shù)據(jù)存儲在內(nèi)存中,每一次的檢索查詢是對所有圖像數(shù)據(jù)特征的相似性比較。其中特征向量的構(gòu)建綜合考慮顏色不變性和尺度不變性的現(xiàn)實(shí)需求,使得特征向量對顏色變化敏感而對尺度變化頑健,目標(biāo)間的相似性通過特征向量余弦計(jì)算。視頻監(jiān)控目標(biāo)檢索示例如圖8所示。圖8視頻監(jiān)控目標(biāo)檢索示例區(qū)域密度監(jiān)測如圖9所示,將檢測到的人、車、自行車等以行為人為主體的目標(biāo)與監(jiān)控?cái)z像機(jī)的地理位置結(jié)合在一起,得出人車分布情況和城市活躍度情況。圖9(a)以曲線形式展示了不同

時刻的人車分布情況,圖9(b)為基于密度波動

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論