大數(shù)據(jù)在信息系統(tǒng)設計與推廣中的思考_第1頁
大數(shù)據(jù)在信息系統(tǒng)設計與推廣中的思考_第2頁
大數(shù)據(jù)在信息系統(tǒng)設計與推廣中的思考_第3頁
大數(shù)據(jù)在信息系統(tǒng)設計與推廣中的思考_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)在信息系統(tǒng)設計與推廣中的思考摘要相對于大數(shù)據(jù)技術,大數(shù)據(jù)更加注重的是在思考和設計方式上的轉 變,在大數(shù)據(jù)理念和技術快速興起并受到廣泛關注的背景下,結合公安行業(yè)的 信息化特點探討大數(shù)據(jù)在信息化建設中的應用基礎和實施策略。關鍵詞大數(shù)據(jù);數(shù)據(jù)倉庫;信息化建設;系統(tǒng)推廣;功能調研1背景目前,“大數(shù)據(jù)”理念和相關技術已經(jīng)被廣泛討論和研究,一方面,對大數(shù) 據(jù)的掌握程度可以轉化為實際的應用價值;另一方面,大數(shù)據(jù)的影響范圍由電 商、金融向政府、公安等更多的行業(yè)和領域擴展。要應用大數(shù)據(jù),就必須要對其有詳細的定義,但是站在不同的角度和時期 對其有不同的認識,我們可以認為大數(shù)據(jù)就是“利用歷史積累的海量數(shù)據(jù)建立

2、數(shù) 學模型,分析事物之間的相關關系,挖掘數(shù)據(jù)的價值,解決實際問題,”也可以 認為大數(shù)據(jù)是“無法在一定時間內用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內容進行抓取、管 理和處理的數(shù)據(jù)集合”或“大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞 察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。”不管如何定 義,大數(shù)據(jù)不但要求“大”,而且要求“全”,注重數(shù)據(jù)的完整性和相關性,推翻 了采樣分析和追求因果關系的傳統(tǒng)觀點。大數(shù)據(jù)具有明顯的行業(yè)特征,其落地的關鍵在于與行業(yè)應用的深度融合, 傳統(tǒng)BI通過大量的ETL形成完整的數(shù)據(jù)倉庫,而基于大數(shù)據(jù)的BI分析可能會 將數(shù)據(jù)倉庫設計為分布式的、能夠處理非結構化數(shù)據(jù)的綜合性數(shù)據(jù)

3、倉庫。數(shù)據(jù) 分析的基本方法和思路沒有改變,只是落地到執(zhí)行的數(shù)據(jù)存儲和數(shù)據(jù)處理方法 改變了,當然對系統(tǒng)集群的維護也提出了更高的要求。現(xiàn)在,大數(shù)據(jù)理念和相關技術在新興行業(yè)中應用已較為成熟,例如,電商 行業(yè)直接借助于新興的互聯(lián)網(wǎng)技術,獲取大量不同類型的客戶數(shù)據(jù),從中分析 客戶行為規(guī)律,為其提供相關的商品推薦。另外,大數(shù)據(jù)理念和技術在公安行 業(yè)中的應用也嶄露頭角。大數(shù)據(jù)正在逐漸影響著更多的行業(yè),對傳統(tǒng)的業(yè)務系統(tǒng)也會有新的貢獻。 公安行業(yè)信息化投資大、風險高,技術人員和領導團隊都需要從大量當前系統(tǒng) 使用情況的數(shù)據(jù)中抽取有價值的信息作為系統(tǒng)推廣、后期調研、綜合研判的依 據(jù)。公安業(yè)務系統(tǒng)數(shù)據(jù)具有分散性、多樣

4、性和異構性特點,隨著數(shù)據(jù)量的增 加,對大量信息的處理難度也不斷增大,從大量數(shù)據(jù)中發(fā)現(xiàn)有利信息成為數(shù)據(jù) 利用的關鍵技術。這些是公安行業(yè)信息系統(tǒng)建設的難點也正是大數(shù)據(jù)理念和技 術引入的必要性和數(shù)據(jù)基礎。目前,一些警種已經(jīng)把數(shù)據(jù)倉庫引入到研判的信息系統(tǒng)中,用商務智能的 方法處理數(shù)據(jù),以便能夠迅速、準確、全面及時地掌握各方面信息,從整體上 提高生產(chǎn)率。數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的和反映歷史變化的數(shù)據(jù) 集合,通過對原有的大量復雜數(shù)據(jù)進行抽取、轉換、加載而形成真實、全面、 統(tǒng)一的數(shù)據(jù)。在獲取了全面的數(shù)據(jù)信息之后,還需要建立相關模型,挖掘數(shù)據(jù) 中隱含的知識,探索案件發(fā)生的規(guī)律,預測警情等,為更有效地

5、進行資源分配 和防范犯罪提供可靠依據(jù)。很多地區(qū)都開始了公安云的建設。如江蘇省、山東省、湖北省等地區(qū)都建 立起了省級的云平臺,建立統(tǒng)一的管理和服務平臺,實現(xiàn)了數(shù)據(jù)的資產(chǎn)化管理 和集成應用。主要表現(xiàn)在:注重現(xiàn)場自動化建設、注重應用的集成、注重對數(shù) 據(jù)的深入利用、注重通過信息化促進工作優(yōu)化。這些都是傳統(tǒng)BI技術在公安行 業(yè)中的應用,要拓展新思路,探索新方法,實現(xiàn)新發(fā)展,可以從大數(shù)據(jù)理念的 角度出發(fā)思考問題又公安搭業(yè)作為具有代表性的新興行業(yè),其現(xiàn)有的信息系統(tǒng)相對成熟,傳統(tǒng) 觀念已根深蒂固,針對大數(shù)據(jù)技術的人員儲備不足,信息化技術在上游業(yè)務中 的應用較少,如果完全以新技術取代傳統(tǒng)技術對企業(yè)的系統(tǒng)架構、信

6、息安全和 人員配置以及運維方法都會造成很大的沖擊,導致整個生產(chǎn)鏈條的紊亂。因 此,公安行業(yè)需要引進大數(shù)據(jù)理念和技術,要從上游業(yè)務中開始注重各方面基 礎數(shù)據(jù)的采集,逐步穩(wěn)妥地將數(shù)據(jù)理念滲入到傳統(tǒng)的BI技術中。但不宜大范圍 地更換新技術,應該先建立試點,待技術成熟、制度完善、有應用戰(zhàn)果之后再 進行推廣。公安經(jīng)濟保衛(wèi)工作也在按照這個思路向新理念、新技術靠攏。近些年,先 后完成了經(jīng)保業(yè)務等專業(yè)數(shù)據(jù)庫建設,囊括了經(jīng)保信息系統(tǒng)投入開發(fā)后所產(chǎn)生 的絕大部分業(yè)務數(shù)據(jù),形成了覆蓋整體業(yè)務的數(shù)據(jù)管理體系,并參照警綜平臺 和情報平臺的數(shù)據(jù)模型,開展了業(yè)務系統(tǒng)的升級改造,先后與多個系統(tǒng)進行了 對接,為數(shù)據(jù)的綜合應用打

7、下了堅實基礎,使數(shù)據(jù)管理基本實現(xiàn)正規(guī)化。隨著 對云計算技術的全面應用,參照大數(shù)據(jù)的理念,已經(jīng)具備了開展大數(shù)據(jù)應用的 理論基礎和技術基礎。2關于大數(shù)據(jù)的應用觀點2.1 關聯(lián)分析是關注點大數(shù)據(jù)時代,人們追求的是相關性而不是因果性。建立在相關關系分析法 基礎上的預測是大數(shù)據(jù)的核心。相關關系是通過識別有用的關聯(lián)物來幫助人們 分析一個現(xiàn)象,而不是通過揭示其內部的運作機制。2.2 建立分析模型是根本大數(shù)據(jù)應用具有明顯的行業(yè)特征,其落地的關鍵在于與行業(yè)應用的深度融 合,根據(jù)行業(yè)特點,建立不同的分析模型,以促使大數(shù)據(jù)應用更好的“落地2.3 可視化應用是同點首先,大數(shù)據(jù)技術分析的數(shù)據(jù)量大而且結構多樣化,分析過程

8、比較復雜, 但是普通用戶不能從大數(shù)據(jù)中直接獲取知識,因此更關心結果的展示,所以, 數(shù)據(jù)可視化應用是大數(shù)據(jù)技術的亮點。其次,作為傳統(tǒng)的IT系統(tǒng),現(xiàn)有的系統(tǒng)架構和技術人員配置都相對成熟, 但是這些基礎設施、數(shù)據(jù)結構、技術儲備都無法滿足大數(shù)據(jù)分析的技術要求, 所以面臨技術升級(如分布式系統(tǒng)架構Hadoop等)的挑戰(zhàn),這就要求具備強 大而穩(wěn)定的技術開發(fā)和運維團隊。3主要工作基于以上分析,認為公安行業(yè)應當實行大數(shù)據(jù)理念和傳統(tǒng)的BI技術并行的 策略。根據(jù)自身實際情況,從系統(tǒng)建設的標準化必備模塊、數(shù)據(jù)管理制度建 設、綜合數(shù)據(jù)倉庫建設、數(shù)據(jù)的應用分析四個層面開展工作,包括以下內容:1.1.1 標準化必備模塊1

9、.1.2 據(jù)采集大數(shù)據(jù)的采集是指通過多個數(shù)據(jù)庫或多類統(tǒng)一業(yè)務的信息存儲表來接收發(fā) 自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù) 據(jù)庫來進行簡單的查詢和處理工作。如使用傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和 Oracle等來存儲每一筆事務數(shù)據(jù)。此外,Redis和MongoDB這樣的NoSQL數(shù) 據(jù)庫也常用于采集業(yè)務的其他角度的描述信息。在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為在同一時 間,可能會有成千上萬的用戶來進行訪問和操作,如人口信息,它們并發(fā)的訪 問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且 如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的

10、確是需要深入的思考和設計。雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的 分析,還是應該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫, 或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工 作,來滿足部分業(yè)務的實時計算需求。導入與預處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大,每秒鐘的導入量 經(jīng)常會達到百兆,甚至千兆級別。1.1.3 統(tǒng)計分析統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內 的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在 這方面,一些實時性需求會用到EMC的Greenplum, Oracle的Exadat

11、a,以及 基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù) 的需求可以使用Hadoopo統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資 源,特別是I/O會有極大的占用。1.1.4 數(shù)據(jù)挖掘與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預先設定好的主 題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,起到預測(Predict)的 效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的 Kmeans,用于統(tǒng)計學習的SVM和用于分類的Naive Bayes,主要使用的工具有 Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘

12、的算法很復雜,并 且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。3.2 完善數(shù)據(jù)管理制度進一羲善數(shù)據(jù)管理制度,用大數(shù)據(jù)理念梳理并完善各警種的數(shù)字資源管 理,構建集曰常工作、預警提示、決策支持與服務為一體的大數(shù)據(jù)應用體系, 尤其是建立和規(guī)范實時數(shù)據(jù)和視頻數(shù)據(jù)的存儲管理機制,形成以專業(yè)數(shù)據(jù)庫為 基礎、中心數(shù)據(jù)庫為核心包括實時數(shù)據(jù)庫和空間數(shù)據(jù)庫的涵蓋數(shù)據(jù)入庫、質量 控制、數(shù)據(jù)標準化與數(shù)據(jù)整合的數(shù)據(jù)管理體系。3.3 公安數(shù)據(jù)集市從公安業(yè)務需求和信息化的實際情況來看,建立地區(qū)級的數(shù)據(jù)倉庫應該是 下一步工作的主要方向。目前可以以中心數(shù)據(jù)庫為基礎建立地區(qū)級數(shù)據(jù)倉庫, 梳理和構建標準化數(shù)據(jù)項、數(shù)據(jù)評測指標體系,實現(xiàn)業(yè)務分析對象與指標體系 的靈活、快速組合,滿足各級用戶曰常數(shù)據(jù)分析的個性化需求,提高用戶數(shù)據(jù) 綜合分析能力,為大數(shù)據(jù)在共享、預測、研判等應用方面提供基礎支撐,提高 深層次業(yè)務數(shù)據(jù)分析能力,并促進各級管理水平的提升。該系統(tǒng)的功能主要包 括指標體系定義、分析對象自定義、指標連續(xù)性跟蹤、數(shù)據(jù)與圖形一體化展 示、成果分布和共享、標準化分析、靈活數(shù)據(jù)查詢等。3.4 開展分析平臺建設以正在運行的公安業(yè)務系統(tǒng)數(shù)據(jù)為基礎,建立各種業(yè)務的業(yè)務分析模型, 包括預警

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論