環(huán)保局統一污染源數據庫方案書_第1頁
環(huán)保局統一污染源數據庫方案書_第2頁
環(huán)保局統一污染源數據庫方案書_第3頁
環(huán)保局統一污染源數據庫方案書_第4頁
環(huán)保局統一污染源數據庫方案書_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、環(huán)保局統一污染源數據庫方案書第一章.公司介紹7第二章.環(huán)保局信息系統分析82.1 環(huán)保局信息系統現狀82.1.1產生的問題82.1.2 問題產生的原因92.1.3結論102.2 需求分析102.2.1“統一污染源數據庫”定義102.2.2統一污染源數據庫的數據102.2.3處室-系統-數據對應關系112.2.4各處室與統一污染源數據的關系122.2.5數據整合和集成需求122.3 統一污染源數據庫實質上是一個部門級數據倉庫.142.4 統一污染源數據庫是環(huán)保局信息門戶的先鋒.152.5 需求的總結16統一數據16統一操作界面16統一認證17統一接口.17第三章.系統解決方案183.1 系統解決

2、方案原則183.1.1可擴充性183.1.2易維護性183.1.3安全性183.1.4合理性183.1.5開放性183.2 技術路線183.3業(yè)務體系結構193.3.1污染源數據內容233.3.2基礎數據庫243.3.3數據倉庫243.3.4地理信息系統243.3.5信息門戶綜合發(fā)布系統253.3.6綜合辦公系統253.4技術體系結構25第四章 污染源統一數據庫274.1 數據庫設計274.1.1 數據庫設計主線274.1.2 數據庫規(guī)范化設計304.1.3 粒度設計324.1.4 元數據管理。324.1.5 性能優(yōu)化344.2 etl(抽取.轉換.裝載)354.2.1 抽取374.2.2 轉

3、換和清洗384.2.3 裝載384.2.4 自動調度394.3 olap(聯機在線分析)394.4 表現層404.4.1 表現層結構404.4.2 表現層功能41第五章 信息門戶設計435.1 信息門戶的概念435.2 athene信息門戶系統.435.2.1底層數據信息存儲445.2.2內容管理整合445.3 athene信息門戶特點.45第六章 其他功能設計476.1 外圍接口設計476.1.2 接口分類.486.2 備份設計486.2.1日常備份486.2.2 計劃內下線496.2.3 數據恢復49第七章 系統特點49第八章 項目的組織和實施508.1 組織機構及職責508.1.1項目經

4、理508.1.2專家顧問組508.1.3項目執(zhí)行組508.1.4業(yè)務組508.1.5軟件開發(fā)組518.1.6測試驗收組518.1.7 文檔組518.1.8支持組518.2 實施方法528.3 項目實施計劃538.4培訓計劃538.4.1培訓對象與目標:538.4.2培訓內容54第九章 技術支持和服務55共同制訂明確的服務和支持計劃55系統維護的承諾55熱線服務系統55客戶檔案管理55常規(guī)性維護服務55應用軟件服務的承諾56技術轉移56技術文檔移交56第一章.公司介紹第二章.環(huán)保局信息系統分析2.1 環(huán)保局信息系統現狀隨著數據庫技術的廣泛運用,環(huán)保局信息系統的運營環(huán)境逐漸轉化為以數據庫為中心的運

5、營環(huán)境。同時因為環(huán)保局內部對數據的需求是多方面的,所以根據工作職能的不同而建立了部門級的數據庫。比如監(jiān)督處關注環(huán)保局環(huán)境監(jiān)督管理,許可證的管理,因此建立了環(huán)保業(yè)務系統;監(jiān)理所關注排污收費,現場檢查,接受投訴糾紛等內容,因此建立了排污收費系統,監(jiān)控中心系統;監(jiān)測站關注監(jiān)測數據所以有了監(jiān)測系統;而由于根據不同環(huán)保局不同部門管理的現狀,在監(jiān)督處、監(jiān)理所,各區(qū)分局內部都是用了同一套排污申報系統.隨著環(huán)保局信息化建設的深入以及各部門的業(yè)務聯系的需求,部門與部門之間的數據交互日益增多,比如在監(jiān)理所的業(yè)務流程中需要監(jiān)測站的監(jiān)測數據,需要監(jiān)督處的許可證數據;監(jiān)督處需要察看監(jiān)理所監(jiān)測到的環(huán)保局違規(guī)數據;信息中心

6、需要將各部門的排污申報數據進行匯總,以供上層領導參考。于是環(huán)保局內部系統也都做出了數據抽取的努力和嘗試,例如監(jiān)理所系統中增加監(jiān)測數據的接口、審批資料接口;結合gis系統建立了污染源信息匯總的一套查詢系統以供內部使用等等。2.1.1產生的問題可以看出,隨著數據的交互抽取,很可能會形成“蜘蛛網”現象,使得數據的抽取和訪問顯得錯綜復雜。這種演變不是人為制造的,而是自然演變的結果,如果不在體系結構上進行調整,“蜘蛛網”問題將會越來越嚴重。因為錯綜復雜的抽取與訪問將會產生很多問題:2.1.1.1、數據分析的結果缺乏可靠性例如在環(huán)保局內部存在著多套排污申報系統,不同部門各自進行匯總的信息與統一匯總的信息經

7、常會不一致,這樣在領導面前就會出現不一致,缺乏可靠性的數據。2.1.1.2、數據處理的效率低下在錯綜復雜的體系結構中,不同級別的數據庫可能使用不同類型的數據庫系統,環(huán)保局內部就存在了sqlserver,sybase,foxpro等等數據庫,根據各種不同數據庫的開發(fā)工具的不同,抽取程序應用的技術不同,因而難以集成。2.1.1.3、數據共享困難對于大量的數據不能提供一個統一的數據接口,不能采用一種通用的標準和規(guī)范(如使用不同的指標代碼體系和編碼體系),共享通用的數據源。隨著業(yè)務的增加,管理人員的操作越來越復雜,操作越來越多,用戶分散,相互聯系程度低,信息相對封閉,共享程度低2.1.1.4、難以將數

8、據轉化為信息此外,“蜘蛛網”式的結構還難以將數據轉化為決策信息。因為每個數據庫由于其數據量和業(yè)務處理的需求不同,同時對歷史數據的存儲時間也不同,因此以現有的數據庫系統難以提供完整的歷史數據。鑒于這樣的原因,用戶根本不可能從這些數據中提取出完整的信息。例如污染源執(zhí)法系統所提供的數據就不能夠滿足統一污染源的需求。2.1.2 問題產生的原因最根本的原因是由于各業(yè)務系統建設和實施數據管理系統的階段性、技術性以及其它經濟和人為因素等因素影響,導致在發(fā)展過程中積累了大量采用不同存儲方式的業(yè)務數據,包括采用的數據管理系統也大不相同,從簡單的文件數據庫到復雜的網絡數據庫,它們構成了環(huán)保局的異構數據源。這些分散

9、的不同業(yè)務的數據管理系統雖然能夠滿足業(yè)務數據存儲和管理要求,但在許多情況下,為作出一個決策,可能需要訪問分布在網絡不同位置上的多個業(yè)務數據管理系統中的數據。環(huán)保局數據源異構性主要表現在兩方面:2.1.2.1、系統異構即數據源所依賴的業(yè)務應用系統、數據庫管理系統乃至操作系統之間的不同構成了系統異構。2.1.2.2、模式異構即數據源在存儲模式上的不同。存儲模式主要包括關系模式、對象模式、對象關系模式和文檔嵌套模式等幾種,其中關系模式(關系數據庫)為主流存儲模式。同時,即便是同一類存儲模式,它們的模式結構可能也存在著差異。例如不同的關系數據管理系統的數據類型等方面并不是完全一致的,如db2、orac

10、le、sybase、informix、sqlserver、foxpro等。2.1.2.3、來源異構即環(huán)保局內部數據源和外部數據源之間的異構。2.1.3結論異構數據源的整和、集成是環(huán)保局信息化建設過程經常遇到的一個現實問題。也是制約環(huán)保局各種應用信息系統建設和數據共享程度,以及信息化建設投資重復或負擔重的一個重要因素。由此可知,解決好現階段環(huán)保局信息系統整合的問題,必須要建立一套基于整體、集成各個業(yè)務異構數據源的綜合信息倉庫,包括信息基礎數據庫和一個強大的分布式應用系統。2.2 需求分析針對環(huán)保局現有整體系統結構比較復雜,業(yè)務系統多的情況,建立環(huán)境基礎數據庫及在該基礎數據庫上開展的分布式應用系統

11、需要對現有業(yè)務系統需求進行詳細地分析。2.2.1“統一污染源數據庫”定義“統一污染源數據庫”可以從兩方面來理解。首先,該系統是一“數據庫”,其存儲的數據包括了污染源的所有相關信息。將原有各個系統的數據進行收集和格式轉化,實現數據的統一集中管理,以改善目前環(huán)境信息存在的利用率低、共享程度差等問題。其次,該系統注重的是“統一”,因為現有污染源相關的數據來源比較多,多處存在數據不一致的情況,因此有必要通過數據的抽取、過濾、轉換成為統一的,標準的數據,并把原來面向事務的數據結構轉化為面向分析和決策的結構,這樣才能夠使得數據共享變得有意義,同時也便于利用統一后的數據進行分析,統計,決策。從這一立場來看,

12、“統一污染源數據庫”可以看成是面向“污染源”主題的數據倉庫的建立。2.2.2統一污染源數據庫的數據統一污染源數據庫的數據是原有業(yè)務系統中涉及到污染源信息的主要業(yè)務流程產生的數據,換句話說就是確定哪些信息內容需要納入到統一污染源數據庫,也就是在統一污染源數據庫上集中管理的內容。通過對環(huán)保局內部系統的詳細了解,我們初步確定了以下業(yè)務流程數據:從上圖中可以看到統一污染源數據庫應該包括的信息數據,這些數據分散在各個處室,不同處室不僅使用不同的系統,也有可能使用相同的系統單機版(比如排污申報軟件)。2.2.3處室-系統-數據對應關系下圖表明了上述污染源相關數據與環(huán)保局內各處室、業(yè)務系統的對應關系:上圖每

13、一縱列中的綠色模塊表示處室部門,黃色模塊表示該部門該部門使用的業(yè)務系統,白色模塊表示該業(yè)務系統中包含的與污染源相關的信息數據。由上面兩張圖可以大致歸納出統一污染源數據庫需要集中管理的內容包括:1、污染源審批信息(審批清單、環(huán)保設施、產品原材料、驗收信息)2、排污申報(水氣聲渣申報、水氣聲渣統計)3、排污許可證(排放量、年審信息)4、排污收費(每月每年排污費統計)5、現場檢查(統計信息、投訴信息)6、污染源監(jiān)測信息(監(jiān)測報告)7、環(huán)境統計信息8、固體廢物處理信息9、環(huán)境執(zhí)法信息(限期整改、整治、罰款、停業(yè) 立案-審議-處罰決定)2.2.4各處室與統一污染源數據的關系當統一污染源數據庫之后,各處室

14、可以:向統一污染源數據庫提供其自身擁有的相關數據從統一數據庫中得到更為一致性,全面的業(yè)務數據從統一數據庫中得到其他處室提供的業(yè)務數據因此,從信息共享的角度來看,各處室對上述不同信息的關注程度是不一樣的。下圖中大致表明了各處室關注統一污染源數據庫中的那些數據:2.2.5數據整合和集成需求對各處室的異構數據源數據進行整合、集成成為統一污染源數據庫的目的是為環(huán)保局提供綜合的、統一的、安全的、快捷的信息查詢、數據挖掘和決策支持服務。為了滿足這個需求條件,各處室整合、集成后的數據必須保證一定的集成性、完整性、一致性和訪問安全性。2.2.5.1、集成性各種原先孤立的業(yè)務信息系統數據經過整合、集成后,應該達

15、到查詢一個綜合信息不必再到各個處室業(yè)務系統中進行分別查詢和人工處理,只要在整合、集成后的數據信息倉庫中就可以直接訪問到,即整合、集成后的綜合信息倉庫的數據是各異構業(yè)務數據的有機集成和關聯存儲(整合、發(fā)掘出各業(yè)務數據間的內在關聯關系),而不是簡單、孤立的堆放在一個數據庫系統里。2.2.5.2、完整性包括數據完整性和約束完整性兩方面。數據完整性是指完整提取數據本身,約束完整性,約束是指數據與數據之間的關聯關系,是唯一表征數據間邏輯的特征。保證約束的完整性是良好的數據發(fā)布和交換的前提,可以方便數據處理過程,提高效率。2.2.5.3、一致性不同業(yè)務信息資源之間存在著語義上的區(qū)別。這些語義上的不同會引起

16、各種不完整甚至錯誤信息的產生,從簡單的名字語義沖突(不同的名字代表相同的概念),到復雜的結構語義沖突(不同的模型表達同樣的信息)。語義沖突會帶來數據集成結果的冗余,干擾數據處理、發(fā)布和交換。整合、集成后的數據應該根據一定的數據轉換模式和商業(yè)規(guī)則進行統一數據結構和字段語義編碼轉換。2.2.5.4、訪問安全性由于數據庫資源可能歸屬不同的單位,各業(yè)務數據系統有著各自的用戶權限管理模式,訪問和安全管理很不方便,不能集中、統一管理,所以保證在訪問異構數據源數據基礎上保障原有數據庫的權限不被侵犯,實現對原有數據源訪問權限的隔離和控制,就需要設計基于整合、集成后的綜合信息倉庫的統一的用戶安全管理模式來解決此

17、問題。 綜上所述,異構數據源的整合與集成如下圖所示:2.3 統一污染源數據庫實質上是一個部門級數據倉庫.在分析過程中,我們發(fā)現污染源統一數據庫有以下的特點.1 面向決策分析的.2 污染源信息的集成性.3 面向污染源主題的4 相對穩(wěn)定5 反映歷史變化同時,我們注意到美國著名信息工程學家w.h.inmon在建立數據倉庫一書中對數據倉庫做了如下定義:“數據倉庫(data warehouse)是一個面向主題的、集成的、穩(wěn)定的、包含歷史數據的數據集合,它用于支持管理中的決策制定過程?!彼^主題,它是數據歸類的標準,每個主題對應一個客觀分析領域,如銷售狀況、人事狀況、整個企業(yè)的利潤狀況等。它可以輔助決策集

18、成多個部門不同系統的大量數據。所謂面向主題,是指數據倉庫內的信息是按主題進行組織的,為按主題進行決策的過程提供信息。 所謂集成,是指數據倉庫中的信息不是從各個業(yè)務處理系統中簡單抽取出來的,而是經過系統加工、匯總和整理,以確保數據倉庫內的信息是關于整個企業(yè)的一致的全局信息。 所謂穩(wěn)定,是指一旦某個數據進入數據倉庫,一般情況下將被長期保留,也就是數據倉庫中一般有大量的插入和查詢操作,但修改和刪除操作很少。 所謂包含歷史數據,是指數據倉庫內的信息并不只是關于企業(yè)當時或某一時點的信息,而是系統記錄了企業(yè)從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程

19、和未來趨勢做出定量分析和預測。這樣,我們有理由認為,統一污染源數據庫在應用的實質意義上就是基于污染源管理的部門級數據倉庫.污染源數據倉庫的建立主要是針對污染源的管理進行一系列的分析,以便于局領導作出有效的決策.將統一污染源數據庫上升為污染源數據倉庫的概念,有利于指導統一污染源數據庫在整體上的規(guī)劃,同時,利用數據倉庫現有的開發(fā)技術,可以有效的確定用戶需求,快速的開發(fā)出高效,穩(wěn)定的產品.第一, 數據倉庫有效集成了企業(yè)的業(yè)務數據,提供了標準的報表和圖表的功能。數據倉庫的報表和圖表是關于整個企業(yè)集成信息的報表和圖表,其中的數據可來源于不同的多個事務處理系統。從而為企業(yè)提供了按照主題的多方位的決策支持。

20、 第二, 數據倉庫可以對分布在不同系統的業(yè)務數據進行清洗和加工。數據倉庫的源數據可能來自許多異構的事務處理系統,它們具有不同的數據格式和數據存儲管理組織,數據倉庫可以按照面向主題的原則對這些數據進行清洗和加工,使它們成為統一格式的易于使用的支持決策的數據。 第三, 數據倉庫支持多維分析。多維分析是通過把一個實體的多項重要的屬性定義為多個維度,使得用戶能方便地匯總數據集,簡化了數據的分析處理邏輯,并能對不同維度值的數據進行比較,而維度則表示了對信息的不同理解角度,例如,時間和地理區(qū)域是經常采用的維度。應用多維分析可以在一個查詢中對不同階段的數據進行縱向或橫向比較,這在決策過程中非常有用。 第四,

21、 數據倉庫技術可以幫助企業(yè)決策者對企業(yè)未來狀況作出預測。數據挖掘技術是數據倉庫表現的關鍵技術。數據挖掘技術可以在已有數據中識別數據的模式,以幫助用戶理解現有的信息,并在已有信息的基礎上,對未來的狀況作出預測。在數據倉庫的基礎上進行數據挖掘,就可以針對整個企業(yè)的狀況和未來發(fā)展作出比較完整、合理、準確的分析和預測。 第五, 成功的數據倉庫系統可以為企業(yè)帶來高的投資回報。結合企業(yè)業(yè)務現狀,數據倉庫可以建立在原有運行系統之上,企業(yè)可以在以分主題方式對原來運行數據重組的基礎之上,為了某種支持特定決策的需要,再跨主題進行數據重組,這就需要數據集市(data marts)了。數據集市是聚集的、面向主題的數據

22、倉庫,它簡單、靈活,并且建立速度更快,花費也更低廉。通常情況下,企業(yè)將建立一系列數據集市,用來處理一定范疇的問題,快速決策意味著企業(yè)可以對市場機會做出快速反應,這將為企業(yè)帶來巨大的商業(yè)利益。2.4 統一污染源數據庫是環(huán)保局信息門戶的先鋒.為了將污染源數據及其分析決策信息能夠方便的讓環(huán)保局內部所有相關人員訪問使用,必須要一種大家都易于接受的方式來表現這些數據,在這點上,信息中心建議采用b/s結構,用瀏覽器作為系統的統一表達方式。同時,將來建設的系統在表現層上也都準備采用同樣的表現形式,所以,一個綜合的門戶發(fā)布系統對于整體環(huán)境信息系統而言是必備的。而在統一污染源項目中將門戶的概念提出是有利于整體系

23、統規(guī)劃的,可以說污染源的門戶發(fā)布系統就是整體環(huán)境信息系統的先鋒。這樣,我們可以知道,其實, 統一污染源數據庫是環(huán)保局信息門戶的先鋒.環(huán)保局信息門戶(enterprise information portal),就是采用標準瀏覽器,如internet explorer,提供對環(huán)保局的intranet和extranet的單點訪問,使每個人能通過統一界面訪問經授權的環(huán)保局內部和外部信息,從而提高決策水平。環(huán)保局信息門戶為環(huán)保局的各種使用者提供了一個統一的應用界面,使環(huán)保局的使用者可以根據自己的需要獲得想要的信息,它是通過提供全面的信息和應用來支持決策和客戶選擇的,主要作用體現在: 第一, 環(huán)保局信息

24、門戶(eip)是將web技術與環(huán)保局的運作過程相集成的解決方案,它提供了一個單獨的網關來訪問信息和應用。環(huán)保局門戶可以對未組織的信息進行編目和跟蹤,也可以訪問國際互連網上的內容,并根據用戶的需求和在環(huán)保局中的角色來過濾這些內容。一個門戶通過開放和封閉的網絡,提供了數據和信息的傳遞,使用戶更方便地來了解有關的信息。 第二, 環(huán)保局信息門戶能夠將存儲在數據庫、數據倉庫和文件中的數據轉換為可用的信息。它可以使你在環(huán)保局內和環(huán)保局外快速地改變信息,并通過瀏覽器傳送信息。分散的公司通過網絡連接在一起,加上最新型的信息傳遞方式,這就意味著在很短的時間內,獲取正確的信息,傳送給正確的用戶,從而提高生產率。

25、第三, 環(huán)保局信息門戶提供了一個對傳統的個人桌面工作模式的改進方法,可以在通過簡便的方法定制出的圖形化的用戶界面下進行工作(就像目前的商業(yè)門戶,如netcenter),能夠實現信息的有效處理和系統的穩(wěn)定性,就如同在原來的應用和信息系統下獨立工作一樣可以這么說,數據倉庫為環(huán)保局提供了一個統一的數據視圖,而環(huán)保局信息門戶則為環(huán)保局提供了一個統一的應用界面,使他們方便快捷地訪問數據倉庫,進一步加速決策速度,提高決策水平。環(huán)保局信息門戶的貢獻不只在于幫助環(huán)保局了解手中大量信息的意義,更重要的是使他們能夠應付那些由于分散的信息資源和處理過程維護能力下降而產生的問題。環(huán)保局信息門戶能夠通過超越現在的分散的

26、應用環(huán)境實現這個目標,把原來不同的相互關系連接到一起,形成廣泛的、相互關聯的應用環(huán)境,從而縮短環(huán)保局響應時間。環(huán)保局數據倉庫系統是環(huán)保局信息門戶的基石,為環(huán)保局信息門戶的建立提供了一個完整的基礎框架和統一的數據視圖;而環(huán)保局信息門戶的建立是對環(huán)保局數據倉庫系統查詢、檢索、集成等功能的優(yōu)化,二者是相輔相成的、統一的、都是為環(huán)保局的決策信息系統服務的,也是環(huán)保局實現電子政務關鍵因素。 綜上所訴,統一污染源數據庫項目的建設是基于污染源數據倉庫的環(huán)保局信息門戶的建設.我們將站在數據倉庫的高度,利用數據倉庫的技術,結合當前環(huán)保局當前的狀況,對環(huán)保局統一污染源數據庫作出規(guī)劃2.5 需求的總結我們可以把環(huán)保

27、局的需求分為四個統一統一數據關于污染源的統一數據庫.統一操作界面要求以后統一的操作界面.統一認證用戶,外部應用程序有統一的認證機制,實現單點認證.統一接口.外部應用程序有統一的調用接口第三章.系統解決方案3.1 系統解決方案原則3.1.1可擴充性可擴充原則能夠最大限度地保護原有資源,就是原來已經建設好的業(yè)務系統。統一污染源數據庫平臺將最大限度地兼容其他業(yè)務系統的數據,但并不干涉原有系統的業(yè)務數據。同時將來新開展的業(yè)務系統也可以將其相關信息數據納入其中,而不改動其業(yè)務流程。3.1.2易維護性由信息中心統一管理的集中數據庫可以根據各處室需求統一的開發(fā)報表,分析數據等操作,通過靈活的數據庫維護工具,

28、數據分析工具能夠做到統一數據庫的易維護效果。3.1.3安全性利用工業(yè)強度級別的關系型數據庫建設統一污染源數據庫,在污染源數據庫的應用系統中根據實際情況設置用戶權限以達到數據級別的安全性。3.1.4合理性根據環(huán)保局現有業(yè)務系統的現實狀況進行分析,對數據的不一致性作出合理判斷,提供用戶自我判斷數據合理性功能。3.1.5開放性系統著眼于環(huán)保局環(huán)境信息系統的整體規(guī)劃角度來看待污染源項目,提出多個嶄新觀念,其開放性便于將來整體平臺的深入建設。3.2 技術路線.為了充分的保證環(huán)保局現有系統的投資,以及以后系統的擴充能力,在綜合考慮了環(huán)保局的現狀以后,我們確定了以統一的平臺為基本的集成平臺,以信息門戶的構建

29、為基本框架.整合已有的業(yè)務系統,同時,要考慮到各種系統以后的接口,充分保證系統的擴充性.同時,為了保證環(huán)保局系統的先進型和穩(wěn)定性,我們采用當今先進的j2ee結構, 3.3業(yè)務體系結構根據對環(huán)保局內部信息系統的信息調研,我們將在統一污染源數據庫項目中采用以下的系統體系結構:3.3.1污染源數據內容從環(huán)保局原有業(yè)務系統中提取的數據來源大致有兩處:一是國家環(huán)??偩窒掳l(fā)的一系列環(huán)境軟件,更污染源相關的有排污申報系統,環(huán)境統計系統,城考系統等;二是環(huán)保局針對自身業(yè)務特點細節(jié)開發(fā)的業(yè)務系統,主要有監(jiān)督處的環(huán)保業(yè)務系統,監(jiān)理所的監(jiān)控中心系統,排污收費系統,監(jiān)測站的監(jiān)測系統等等。在上圖中描述了這些業(yè)務系統分別

30、提供了那些與污染源相關的信息數據,這些數據就是統一污染源數據庫需要抽取的業(yè)務數據。3.3.2基礎數據庫基礎數據庫是環(huán)保局整體環(huán)境信息系統的重要基礎,主要包括“統一污染源”和“環(huán)境質量”,這里提到的基礎數據庫指的都是統一污染源數據庫,數據也是與污染源相關的數據。根據環(huán)保局信息化建設的安排,將來可將“環(huán)境質量”也納入到其中?;A數據庫為各處室提供了共享的、全面的、權威的污染源信息。3.3.3數據倉庫前面提到,隨著環(huán)保局總體電子政務應用需求的發(fā)展,產生了信息“蜘蛛網”的問題,要解決這樣的問題,必須將用于事務處理的數據環(huán)境和用于數據分析的數據環(huán)境分離開,所以我們在統一污染源數據庫基礎上建立了數據倉庫應

31、用。從圖中我們可以看出,數據處理被分為操作型處理和分析型處理(或信息型處理)兩大類。操作型處理以各個業(yè)務系統的數據庫為中心進行環(huán)保局日常的業(yè)務處理;分析型處理以統一污染源數據庫、數據倉庫為中心分析數據背后的關聯和規(guī)律,為環(huán)保局的決策提供可靠有效的數據。所以操作型系統的使用人員通常是具體操作的部門人員,比如監(jiān)督處、監(jiān)理所等,處理的數據通常是業(yè)務的細節(jié)信息,其目標是實現環(huán)保局的業(yè)務運營;而分析型系統的使用人員通常是中高層的管理者或者從事數據分析的工作人員。分析型系統包含了環(huán)保局宏觀信息而非具體細節(jié),其目的是為環(huán)保局的決策者提供支持信息。操作型處理和分析型處理的分離,劃清了數據處理的分析型環(huán)境與操作

32、型環(huán)境之間的界限,從而由原來數據庫為中心的數據環(huán)境發(fā)展成為以數據庫為中心的業(yè)務處理系統和以數據倉庫為基礎的分析系統。以數據庫為中心的業(yè)務處理系統和以數據倉庫為基礎的分析系統的基礎上,就可以建立商業(yè)智能(business intelligence)bi系統作為商業(yè)智能系統中的核心部分,決策支持系統具備下列功能:1、多維信息查詢2、olap在線分析處理3、數據挖掘4、趨勢預測3.3.4地理信息系統統一污染源數據庫的上層應用之一是與gis系統結合進行開發(fā),把污染源的各種完整信息同地理位置和有關的視圖結合起來,并可根據各處室需要對這些信息進行分析,把結果交由有關領導和部門作為決策的參考。gis的空間分

33、析功能需要有大量的基礎數據,其中工業(yè)污染源數據是必備數據之一,在污染源數據庫設計中,我們強調了數據庫系統與現有arc/info、mapobject等gis系統的結合,污染源數據庫將環(huán)保局內部各部門積累的大量數據進行統一,并對這些屬性數據進行處理和加工從而實現了數據的查詢、統計和分析,gis系統在此基礎上利用其自身的空間方式就可以很好把污染源排放、治理、達標狀況表現出來。3.3.5信息門戶綜合發(fā)布系統全面的內容整合環(huán)保局門戶平臺可以集成現有的應用系統,包括環(huán)保局的各種業(yè)務系統、一站式單點登錄可使得用戶一次登錄自動訪問所有授權的企業(yè)級應用軟件系統,無需記憶多種登錄過程、id或口令。并作為環(huán)保局統一

34、的工作和溝通平臺.3.3.6綜合辦公系統統一污染源數據庫項目中產生的應用信息,如數據的查詢,分析結果,報表等內容可以便利、無縫的與athene環(huán)保局整體電子政務方案中的綜合辦公系統交換數據,為將來環(huán)保局的建設提供了可擴展性。3.4技術體系結構根據上述業(yè)務體系結構的特點,我們設計了下圖所示的技術體系結構:我們在統一污染軟數據庫上進行數據挖掘及olap分析,得到查詢結果或者統計報表數據,然后配合xml中間件技術將這些數據轉化為標準xml格式信息, 通過xslt(可擴展樣式表轉換)將xml數據轉換成為系統中的處理格式信息,這些信息通過安全認證后,以servlet,jsp的形式生成網頁表現出來。第四章

35、 污染源統一數據庫4.1 數據庫設計在本系統中中.污染源數據庫的設計是整個系統的重點和難點,如何保證高效的,準確的對現有數據的集成,是直接影響到決策圖標是否正確,以后新的業(yè)務系統是否穩(wěn)定和準確的關鍵,同時, 污染源數據庫的高效在線處理能力也是對以后新的業(yè)務系統性能上起著至關重要的影響.下面從以下幾個方面來論述污染源統一數據庫的建設.4.1.1 數據庫設計主線在污染源統一數據庫中,我們發(fā)現,貫穿整個污染源統一數據庫業(yè)務點有兩個,污染源和排污單位,利用這兩點.可以完整的理解現在污染源統一數據庫中的業(yè)務行為,對整個數據庫設計起到關鍵的統領作用.4.1.1.1概念模型設計進行概念模型設計所要完成的工作

36、是: 界定統一污染源數據庫系統邊界 確定統一污染源數據庫主要的主題域及其內容 概念模型設計的成果是,在原有的業(yè)務數據庫的基礎上建立了一個較為穩(wěn)固的概念模型。因為統一污染源數據庫是對原有業(yè)務數據庫系統中的數據進行集成和重組而形成的數據集合,所以統一污染源數據庫的概念模型設計,首先要對原有業(yè)務數據庫系統加以分析理解,看在原有的業(yè)務數據庫系統中“有什么”、“怎樣組織的”和“如何分布的”等,然后再來考慮應當如何建立統一污染源數據庫的概念模型。一方面,通過原有的業(yè)務數據庫的設計文檔以及在數據字典中的數據庫關系模式,可以對現有的業(yè)務數據庫中的內容有一個完整而清晰的認識;另一方面,統一污染源數據庫的概念模型

37、是面向全局建立的,它為集成來自各個面向業(yè)務的數據庫的數據提供了統一的概念視圖。 概念模型的設計是在較高的抽象層次上的設計,因此建立概念模型時不用考慮具體技術條件的限制。 1. 界定系統的邊界 統一污染源數據庫是面向決策分析的數據庫,我們無法在統一污染源數據庫設計的最初就得到詳細而明確的需求,但是一些基本的方向性的需求還是擺在了我們的面前: l 要做的決策類型有哪些? l 各個處室需要的數據是什么?l 以后可能會有怎么樣的業(yè)務系統接入到本統一污染源數據庫?l 可能需要怎么樣的數據接口?l 決策者感興趣的是什么問題? l 這些問題需要什么樣的信息? l 要得到這些信息需要包含原有數據庫系統的哪些部

38、分的數據? 這樣,我們可以劃定一個當前的大致的系統邊界,集中精力進行最需要的部分的開發(fā)。因而,從某種意義上講,界定系統邊界的工作也可以看作是統一污染源數據庫系統設計的需求分析.2. 確定主要的主題域 在這一步中,要確定系統所包含的主題域,然后對每個主題域的內容進行較明確的描述,描述的內容包括: l 主題域的公共碼鍵; l 主題域之間的聯系; l 充分代表主題的屬性組。 4.1.1.2 邏輯模型設計 在這一步里進行的工作主要有: l 分析主題域,確定當前要裝載的主題; l 確定粒度層次劃分; l 確定數據分割策略; l 關系模式定義; l 記錄系統定義 邏輯模型設計的成果是,對每個當前要裝載的主

39、題的邏輯實現進行定義,并將相關內容記錄在數據倉庫的元數據中,包括: l 適當的粒度劃分; l 合理的數據分割策略; l 適當的表劃分; l 定義合適的數據來源等。 1. 分析主題域 在概念模型設計中,我們確定了幾個基本的主題域,但是,統一污染源的設計方法是一個逐步求精的過程,在進行設計時,一般是一次一個主題或一次若干個主題地逐步完成的。所以,我們必須對概念模型設計步驟中確定的幾個基本主題域進行分析,并選擇首先要實施的主題域。選擇第一個主題域所要考慮的是它要足夠大,以便使得該主題域能建設成為一個可應用的系統;它還要足夠小,以便于開發(fā)和較快地實施。如果所選擇的主題域很大并且很復雜,我們甚至可以針對

40、它的一個有意義的子集來進行開發(fā)。在每一次的反饋過程中,都要進行主題域的分析。 2. 粒度層次劃分 數據倉庫邏輯設計中要解決的一個重要問題是決定統一污染源的粒度劃分層次,粒度層次劃分適當與否直接影響到統一污染源中的數據量和所適合的查詢類型。確定統一污染源的粒度劃分,可以通過估算數據行數和所需的dasd數,來確定是采用單一粒度還是多重粒度,以及粒度劃分的層次。 3. 確定數據分割策略 在這一步里,要選擇適當的數據分割的標準,一般要考慮以下幾方面因素:數據量(而非記錄行數)、數據分析處理的實際情況、簡單易行以及粒度劃分策略等。數據量的大小是決定是否進行數據分割和如何分割的主要因素;數據分析處理的要求

41、是選擇數據分割標準的一個主要依據,因為數據分割是跟數據分析處理的對象緊密聯系的;我們還要考慮到所選擇的數據分割標準應是自然的、易于實施的:同時也要考慮數據分割的標準與粒度劃分層次是適應的。 4. 關系模式定義 統一污染源的每個主題都是由多個表來實現的,這些表之間依靠主題的公共碼鍵聯系在一起,形成一個完整的主題。在概念模型設計時,我們就確定了統一污染源的基本主題,并對每個主題的公共碼鍵、基本內容等做了描述在這一步里,我們將要對選定的當前實施的主題進行模式劃分,形成多個表,并確定各個表的關系模式。 4.1.1.3 物理模型設計 這一步所做的工作是確定數據的存儲結構,確定索引策略,確定數據存放位置,

42、確定存儲分配。 確定統一污染源實現的物理模型,我們必須做到以下幾方面: l 要全面了解所選用的數據庫管理系統,特別是存儲結構和存取方法。 l 了解數據環(huán)境、數據的使用頻度、使用方式、數據規(guī)模以及響應時間要求等,這些是對時間和空間效率進行平衡和優(yōu)化的重要依據。 l 了解外部存儲設備的特性,如分塊原則,塊大小的規(guī)定,設備的io特性等。 1. 確定數據的存儲結構 一個數據庫管理系統往往都提供多種存儲結構供設計人員選用,不同的存儲結構有不同的實現方式,各有各的適用范圍和優(yōu)缺點,我們在選擇合適的存儲結構時應該權衡三個方面的主要因素:存取時間、存儲空間利用率和維護代價。 2. 確定索引策略 統一污染源的數

43、據量很大,因而需要對數據的存取路徑進行仔細的設計和選擇。由于數據倉庫的數據都是不常更新的,因而可以設計多種多樣的索引結構來提高數據存取效率。 在數據倉庫中,設計人員可以考慮對各個數據存儲建立專用的、復雜的索引,以獲得最高的存取效率,因為在數據倉庫中的數據是不常更新的,也就是說每個數據存儲是穩(wěn)定的,因而雖然建立專用的、復雜的索引有一定的代價,但一旦建立就幾乎不需維護索引的代價。 3. 確定數據存放位置 在物理設計時,我們常常要按數據的重要程度、使用頻率以及對響應時間的要求進行分類,并將不同類的數據分別存儲在不同的存儲設備中。重要程度高、經常存取并對響應時間要求高的數據就存放在高速存儲設備上,如硬

44、盤;存取頻率低或對存取響應時間要求低的數據則可以放在低速存儲設備上,如磁盤或磁帶。 數據存放位置的確定還要考慮到其它一些方法,如:決定是否進行合并表;是否對一些經常性的應用建立數據序列;對常用的、不常修改的表或屬性是否冗余存儲。如果采用了這些技術,就要記入元數據。 4. 確定存儲分配 許多數據庫管理系統提供了一些存儲分配的參數供設計者進行物理優(yōu)化處理,如:塊的尺寸、緩沖區(qū)的大小和個數等等,它們都要在物理設計時確定。這同創(chuàng)建數據庫系統時的考慮是一樣的。 4.1.1.4 統一污染源數據庫的生成 在這一步里所要做的工作是接口編程,數據裝入。 這一步工作的成果是,數據已經裝入到數據倉庫中,可以在其上建

45、立統一污染源的應用,即dss應用。 1. 設計接口 將操作型環(huán)境下的數據裝載進入數據倉庫環(huán)境,需要在兩個不同環(huán)境的記錄系統之間建立一個接口。乍一看,建立和設計這個接口,似乎只要編制一個抽取程序就可以了,事實上,在這一階段的工作中,的確對數據進行了抽取,但抽取并不是全部的工作,這一接口還應具有以下的功能: l 從面向應用和操作的環(huán)境生成完整的數據; l 數據的基于時間的轉換; l 數據的凝聚; l 對現有記錄系統的有效掃描,以便以后進行追加。 當然,考慮這些因素的同時,還要考慮到物理設計的一些因素和技術條件限制,根據這些內容,嚴格地制定規(guī)格說明,然后根據規(guī)格說明,進行接口編程。從操作型環(huán)境到數據

46、倉庫環(huán)境的數據接口編程的過程和一般的編程過程并無區(qū)別,它也包括偽碼開發(fā)、編碼、編譯、檢錯、測試等步驟。 在接口編程中,要注意: l 保持高效性,這也是一般的編程所要求的; l 要保存完整的文檔記錄; l 要靈活,易于改動; l 要能完整、準確地完成從操作型環(huán)境到數據倉庫環(huán)境的數據抽取、轉換與集成。 2. 數據裝入 在這一步里所進行的就是運行接口程序,將數據裝入到數據倉庫中。主要的工作是: l 確定數據裝入的次序; l 清除無效或錯誤數據; l 數據“老化” ; l 數據粒度管理; l 數據刷新等。最初只使用一部分數據來生成第一個主題域,使得設計人員能夠輕易且迅速地對已做工作進行調整,而且能夠盡

47、早地提交到下一步驟,即數據倉庫的使用和維護。這樣既可以在經濟上最快地得到回報,又能夠通過最終用戶的使用、盡早發(fā)現一些問題并提出新的需求,然后反饋給設計人員,設計人員繼續(xù)對系統改進、擴展。4.1.2 數據庫規(guī)范化設計數據倉庫的建模方法 邏輯建模是數據倉庫實施中的重要一環(huán),因為它能直接反映出業(yè)務部門的需求,同時對系統的物理實施有著重要的指導作用。目前較常用的兩種建模方法是所謂的第三范式 (3nf,即 third normal form)和星型模式 (star-schema)。什么是第三范式 范式是數據庫邏輯模型設計的基本理論,一個關系模型可以從第一范式到第五范式進行無損分解,這個過程也稱為規(guī)范化

48、(normalize)。在數據倉庫的模型設計中目前一般采用第三范式,它有非常嚴格的數學定義。如果從其表達的含義來看,一個符合第三范式的關系必須具有以下三個條件: 1. 每個屬性的值唯一,不具有多義性; 2. 每個非主屬性必須完全依賴于整個主鍵,而非主鍵的一部分; 3. 每個非主屬性不能依賴于其他關系中的屬性,因為這樣的話,這種屬性應該歸到其他關系中去。 可以看到,第三范式的定義基本上是圍繞主鍵與非主屬性之間的關系而作出的。如果只滿足第一個條件,則稱為第一范式;如果滿足前面兩個條件,則稱為第二范式,依此類推。因此,各級范式是向下兼容的。 什么是星型模式 星型模式是一種多維的數據關系,它由一個事實

49、表(fact table)和一組維表(dimens ion table)組成。每個維表都有一個維作為主鍵,所有這些維則組合成事實表的主鍵,換言之,事實表主鍵的每個元素都是維表的外鍵。事實表的非主屬性稱為事實 (fact),它們一般都是數值或其他可以進行計算的數據;而維大都是文字、時間等類型的數據。 第三范式和星型模式在統一污染源數據庫中的應用 大多數人在設計中央數據倉庫的邏輯模型時,都按照第三范式來設計;而在進行物理實施時,則由于數據庫引擎的限制,不得不對邏輯模型進行不規(guī)范處理 (de-normalize), 以提高系統的響應速度,這當然是以增加系統的復雜度、維護工作量、磁盤使用比率 (指原始

50、數據與磁盤大小的比率)并降低系統執(zhí)行動態(tài)查詢能力為代價的。 根據數據倉庫的測試標準 tpc-d規(guī)范,在數據倉庫系統中,對數據庫引擎最大的挑戰(zhàn)主要是這樣幾種操作:多表連接、表的累計、數據排序、大量數據的掃描。下面列出了一些 dbms在實際系統中針對這些困難所采用的折衷處理辦法: 1、 如何避免多表連接:在設計模型時對表進行合并,即所謂的預連接 (pre-join)。當數據規(guī)模小時,也可以采用星型模式, 這樣能提高系統速度,但增加了數據冗余量。 2、 如何避免表的累計:在模型中增加有關小計數據 (summarized data)的項。這樣也增加了數據冗余,而且如果某項問題不在預建的累計項內,需臨時

51、調整。 3、 如何避免數據排序:對數據事先排序。但隨著數據倉庫系統的運行,不斷有新的數據加入,數據庫管理員的工作將大大增加。大量的時間將用于對系統的整理,系統的可用性隨之降低。 4、 如何避免大表掃描:通過使用大量的索引,可以避免對大量數據進行掃描。但這也將增加系統的復雜程度,降低系統進行動態(tài)查詢的能力。 這些措施大都屬于不規(guī)范處理。根據上面的討論,當把規(guī)范的系統邏輯模型進行物理實施時,由于數據庫引擎的限制,常常需要進行不規(guī)范處理。舉例來說,當系統數據量很小 ,比如只有幾個 gb時,進行多表連接之類復雜查詢的響應時間是可以忍受的。但是設想一下,如果數據量擴展到很大,到幾百 gb,甚至上 tb,

52、一個表中的記錄往往有幾百萬、幾千萬,甚至更多,這時進行多表連接這樣的復雜查詢,響應時間長得不可忍受。這時就有必要把幾個表合并,盡量減少表的連接操作。當然,不規(guī)范處理的程度取決于數據庫引擎的并行處理能力。不規(guī)范處理的階段 現在來討論一下,當不得不選擇不規(guī)范處理時,應在哪個階段進行。由于中央數據倉庫的數據模型反映了整個企業(yè)的業(yè)務運行規(guī)律,在這里進行不規(guī)范處理容易影響整個系統,不利于今后的擴展。 而且不規(guī)范處理產生的數據冗余將使整個系統的數據量迅速增加,這將增加 dba的工作量和系統投資。因此,當系統性能下降而進行不規(guī)范處理時,比較好的辦法是選擇問題較集中的部門數據集市實施這種措施。這樣既能有效地改

53、善系統性能,又不至于影響整個系統。在國外一些成功的大型企業(yè)級數據倉庫案例中,基本上都是采用這種方法。 那么,在中央數據倉庫中是否可以采用星型模式來進行模型設計呢?我們知道,星型模式中有一個事實表和一組維表,我們可以把事實看成是各個維交叉點上的值。例如,一個汽車廠在研究其銷售情況時可以考察汽車的型號、顏色、代理商等多種因素,這些因素就是維,而銷售量就是事實。這種多維模型能迅速給出基于各個維的報表,這些維必須事先確定。 星型模式之所以速度快,在于針對各個維作了大量的預處理,如按照維進行預先的統計、分類、排序等。在上面的例子中,就是按照汽車的型號、顏色、代理商進行預先的銷售量統計。因此,在星型模式設

54、計的數據倉庫中,作報表的速度雖然很快,但由于存在大量的預處理,其建模過程相對來說就比較慢。當業(yè)務問題發(fā)生變化,原來的維不能滿足要求時,需要增加新的維。由于事實表的主鍵由所有維表的主鍵組成,這種維的變動將是非常復雜、非常耗時的。星型模式另一個顯著的缺點是數據的冗余量很大。綜合這些討論,不難得出結論,星型模式比較適合于預先定義好的問題,如需要產生大量報表的場合;而不適合于動態(tài)查詢多、系統可擴展能力要求高或者數據量很大的場合。因此,星型模式在一些要求大量報表的部門數據集市中有較多的應用。 上面討論了數據倉庫模型設計中常用的兩種方法。在數據倉庫的應用環(huán)境中,主要有兩種負載:一種是回答重復性的問題;另一

55、種是回答交互性的問題。動態(tài)查詢具有較明顯的交互性特征,即在一個問題答案的基礎上進行進一步的探索,這種交互過程常稱為數據挖掘 (data mining)或者知識探索 (knowledge discovery)。對于以第一種負載為主的部門數據集市,當數據量不大、報表較固定時可以采用星型模式;對于中央數據倉庫,考慮到系統的可擴展能力、投資成本和易于管理等多種因素,最好采用第三范式。根據我們對環(huán)保局的業(yè)務的分析,我們知道,在統一污染源數據庫中,大量的查詢是基于固定的,重復性質的查詢和報表工作,同樣的,也會具有少量的即席查詢,所以,我們對統一污染源的建模方面,將以第三范式為主,同時,在可以預見的查詢和分

56、析主題上,采取適當的數據冗余。使用星型模式,增加系統的處理能力和反映能力。4.1.3 粒度設計數據倉庫中的數據分為四個級別:早期細節(jié)級、當前細節(jié)級、輕度綜合級、高度綜合級。源數據經過綜合后,首先進入當前細節(jié)級,并根據具體需要進行進一步的綜合,從而進入輕度綜合級乃至高度綜合級,老化的數據將進入早期細節(jié)級由此可見,數據倉庫中存在著不同的綜合級別,一般稱之為粒度。粒度越大,表示細節(jié)程度越低,綜合程度越高.粒度是數據倉庫的重要概念。粒度是對數據倉庫中的數據的綜合程度高低的一個度量,它既影響數據倉庫中的數據量的多少,也影響數據倉庫所能回答詢問的種類。在數據倉庫中,多維粒度是必不可少的。由于數據倉庫的主要作用是dss分析,因而絕大多數查詢都基于一定程度的綜合數據之上的,只有極少數查詢涉及到細節(jié)。所以應該將大粒度數據存儲于快速設備如磁盤上,小粒度數據存于低速設備如磁帶上。 在統一污染源的分析中,我們發(fā)現,統一污染源既要保存當前業(yè)務系統的細節(jié),也要保存深度處理后的數據,所以,我們決定,在統一污染源的粒度設計中,我們采取兩重標準,在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論