




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 煙草專賣行業(yè)數(shù)據(jù)綜合分析應(yīng)用可行性研究報(bào)告目錄 TOC o 1-5 h z 一、建設(shè)背景 3二、建設(shè)思路 3三、建設(shè)目標(biāo) 4四、總體設(shè)計(jì) 4、設(shè)計(jì)原則 4、設(shè)計(jì)思路 64.3、總體架構(gòu) 7五、系統(tǒng)實(shí)現(xiàn) 75.1、整合內(nèi)容 75.2、采集處理方式 8、數(shù)據(jù)采集 8、數(shù)據(jù)整合 1.0、數(shù)據(jù)應(yīng)用 1.7、應(yīng)用定制 1.7、數(shù)據(jù)展現(xiàn) 2.5、應(yīng)用主題數(shù)據(jù) 2.6.、主要功能 2.6、數(shù)據(jù)來源管理 2.6.、主題和指標(biāo)管理 2.7.、報(bào)表定制 2.7、圖表定制 2.8、熱點(diǎn)定制 2.8、連接資源管理 2.8.、頁面定制 2.9、用戶及角色管理 2.9.六、系統(tǒng)價(jià)值 2.9 、企業(yè)報(bào)表 2.9、主題分析
2、 3.0、運(yùn)營監(jiān)控 3.1.七、成功案例 錯誤. !未定義書簽。、河北省省級衛(wèi)生數(shù)據(jù)整合共享和綜合信息管理平臺 錯誤!未定義書簽。、國藥樂仁堂信息采集整合展現(xiàn)管理平臺 錯誤!未定義書簽。八、公司及產(chǎn)品優(yōu)勢 錯誤!未定義書簽。、公司優(yōu)勢 錯.誤. !未定義書簽。、產(chǎn)品特色 錯.誤. !未定義書簽。、建設(shè)背景近幾年,中國煙草行業(yè)信息化飛速發(fā)展,各個企業(yè)目前己經(jīng)基本完成了基礎(chǔ) 設(shè)施建設(shè)和業(yè)務(wù)系統(tǒng)建設(shè),如營銷系統(tǒng)、專賣系統(tǒng)、物流系統(tǒng)、財(cái)務(wù)系統(tǒng)、0A系統(tǒng)等。這些信息系統(tǒng)之間相對獨(dú)立,缺乏有機(jī)聯(lián)系,形成了信息孤島,無法做 到信息資源的共享,進(jìn)而影響了許多正常業(yè)務(wù)的效率。由于各單位前期在實(shí)施信 息系統(tǒng)過程中
3、分別采用了各自的系統(tǒng)標(biāo)準(zhǔn), 因而導(dǎo)致了現(xiàn)有各信息系統(tǒng)之間很難 做到“無縫連接”,并且在各系統(tǒng)間存在大量的“手工連接”,進(jìn)而造成大量的信 息失真和信息延時,這種情況還對信息管理部門增加了很多工作量, 每天為數(shù)據(jù) 而忙碌。同時各業(yè)務(wù)系統(tǒng)側(cè)重于業(yè)務(wù)處理, 不能進(jìn)行充分的價(jià)值挖掘,缺乏為企 業(yè)領(lǐng)導(dǎo)或業(yè)務(wù)處室的綜合分析、宏觀決策提供有力支持。因此,在煙草企業(yè)數(shù)據(jù) 綜合分析應(yīng)用系統(tǒng)的建設(shè)與完善就顯得尤為重要。二、建設(shè)思路三、建設(shè)目標(biāo)通過建立煙草數(shù)據(jù)綜合分析應(yīng)用系統(tǒng), 實(shí)現(xiàn)收集目前的營銷系統(tǒng)、 專賣系統(tǒng)、 物流系統(tǒng)、財(cái)務(wù)系統(tǒng)、 0A 系統(tǒng)等以及其他業(yè)務(wù)系統(tǒng)的相關(guān)數(shù)據(jù),并對數(shù)據(jù)進(jìn)行 整合,加工形成涵蓋管理、采
4、購、客服、物流、質(zhì)管、運(yùn)營、財(cái)務(wù)七大領(lǐng)域的信 息域,并對信息進(jìn)行多維度的綜合展現(xiàn), 提供各業(yè)務(wù)所需的綜合報(bào)表, 從而充分 挖掘利用現(xiàn)有信息資源, 為領(lǐng)導(dǎo)提供決策支持, 并更好的為各業(yè)務(wù)科室和一線業(yè) 務(wù)人員服務(wù)。四、總體設(shè)計(jì)、設(shè)計(jì)原則本項(xiàng)目在系統(tǒng)設(shè)計(jì)、 軟硬件采購、 應(yīng)用開發(fā)、 系統(tǒng)集成和服務(wù)過程中應(yīng)采用 已有的國家標(biāo)準(zhǔn)、 行業(yè)標(biāo)準(zhǔn)和主流國際標(biāo)準(zhǔn), 遵循但不僅限于下列標(biāo)準(zhǔn)體系和要 求:煙草行業(yè)信息化標(biāo)準(zhǔn)體系及其有關(guān)標(biāo)準(zhǔn)煙草行業(yè)信息化建設(shè)統(tǒng)一技術(shù)平臺要求煙草行業(yè)數(shù)字證書應(yīng)用接口規(guī)范煙草行業(yè)信息系統(tǒng)安全等級保護(hù)定級指南國家 SOA 標(biāo)準(zhǔn)體系 除了遵循上述標(biāo)準(zhǔn),在整個項(xiàng)目設(shè)計(jì)開發(fā)過程中,需要遵守下面的
5、 5 項(xiàng)原 則。技術(shù)的先進(jìn)性系統(tǒng)應(yīng)采用先進(jìn)成熟的技術(shù),以保證投資的有效性和延續(xù)性。支持常用的操作系統(tǒng)平臺、常用的數(shù)據(jù)庫系統(tǒng)、常用的應(yīng)用服務(wù)器平臺 和常用的開發(fā)工具,與 XX 煙草現(xiàn)有系統(tǒng)互聯(lián)互通,以保證系統(tǒng)的兼容 性。系統(tǒng)的穩(wěn)定性保證系統(tǒng)能夠正常運(yùn)作,系統(tǒng)應(yīng)能夠7 X24小時連續(xù)穩(wěn)定工作。軟件版本升級或改進(jìn)應(yīng)在不影響業(yè)務(wù)的情況下進(jìn)行, 保證系統(tǒng)可以穩(wěn)定、 平滑過渡。系統(tǒng)可維護(hù)性 系統(tǒng)應(yīng)能使系統(tǒng)管理員集中方便地配置、監(jiān)視、控制、診斷整個系統(tǒng), 并且能夠監(jiān)視和控制用戶情況、提高效率、消除隱患。 對于系統(tǒng)各功能模塊的配置、控制、監(jiān)視、診斷等工作能夠通過專用的 系統(tǒng)管理工具方便的進(jìn)行,無須進(jìn)行專門的編
6、碼工作。數(shù)據(jù)中心系統(tǒng)將按照集中的模式進(jìn)行部署, 因此對系統(tǒng)處理并發(fā)任務(wù)的 能力提出了很高的要求, 投標(biāo)方需要提供大規(guī)模并發(fā)流量的處理機(jī)制以 及發(fā)生性能問題時的解決方案; 并提供實(shí)時交易量 (并發(fā)交易量及其硬件 配置 )和并發(fā)用戶量 (并發(fā)用戶數(shù)及硬件配置 )的相關(guān)測試報(bào)告和案例說 明;系統(tǒng)安全性 系統(tǒng)應(yīng)保證信息的安全性,即保證此系統(tǒng)中的信息能夠安全存儲,并有 良好的數(shù)據(jù)備份和快速恢復(fù)方案; 采用分級的安全體系,保證數(shù)據(jù)在處理和傳輸全過程的安全性。系統(tǒng)支 持對關(guān)鍵的信息(如:用戶密碼)進(jìn)行加密保存,同時支持對一些比較重要的業(yè)務(wù)數(shù)據(jù)在傳送和存儲過程中進(jìn)行加密保護(hù); 保證系統(tǒng)中的信息不被非授權(quán)用戶訪
7、問, 按組織結(jié)構(gòu)劃分操作人員的操 作權(quán)限,使用煙草辦公自動化系統(tǒng)的用戶身份認(rèn)證系統(tǒng),且各種使用權(quán) 限所能調(diào)用的應(yīng)用軟件模塊可按要求靈活配置; 系統(tǒng)在身份認(rèn)證方面支持多種的認(rèn)證手段,如:口令認(rèn)證、數(shù)字證書認(rèn) 證等; 系統(tǒng)支持基于角色和基于資源的授權(quán)方式,支持用戶到角色的映射,并 采用角色的身份來控制對特定操作的訪問權(quán),支持層次化,結(jié)構(gòu)化和區(qū) 域化的角色設(shè)定; 系統(tǒng)需要有對系統(tǒng)數(shù)據(jù)的關(guān)鍵操作(如授權(quán)操作、流程環(huán)節(jié)變更)進(jìn)行 追蹤和回溯的能力;、設(shè)計(jì)思路1、模塊化的系統(tǒng)結(jié)構(gòu)系統(tǒng)結(jié)構(gòu)采用三層(3-tier )或多層(N-tier )設(shè)計(jì)模型;設(shè)計(jì)模式為B/S模 式。由合理分劃、邊界清晰的子系統(tǒng)和模塊組
8、成,形成組裝式、插件式的體系結(jié) 構(gòu),以利于系統(tǒng)的升級、擴(kuò)充和發(fā)展。支持業(yè)務(wù)流程的可調(diào)整性;支持業(yè)務(wù)信息 的可調(diào)整性和延續(xù)性。2、面向服務(wù)的整體架構(gòu)( SOA ) 系統(tǒng)模塊都是向系統(tǒng)內(nèi)部和外部提供服務(wù)的邏輯單元; 采用標(biāo)準(zhǔn)的協(xié)議提供服務(wù)。采用松耦合的機(jī)制與外部系統(tǒng)進(jìn)行信息交換和系統(tǒng)之間的互操作。3、無縫集成的應(yīng)用提供與其他相關(guān)信息系統(tǒng)的數(shù)據(jù)接口、 支持開放的XML標(biāo)準(zhǔn)接口規(guī)范。不 同的異構(gòu)系統(tǒng)之間可以無縫地實(shí)現(xiàn)數(shù)據(jù)集成,也可以無縫地實(shí)現(xiàn)業(yè)務(wù)流程的集成。4.3、總體架構(gòu)系統(tǒng)基于SOA設(shè)計(jì)理念,架構(gòu)信息采集、整合、展現(xiàn)信息系統(tǒng),為增值服 務(wù)管理奠定總體架構(gòu)基礎(chǔ),并以“服務(wù)”方式,擴(kuò)展將來主題業(yè)務(wù)數(shù)據(jù)
9、分析、服 務(wù)系統(tǒng)*僅氯利用 11值蘇柑miI 按長麗礙倉讓勢SMSecii cK1 副T1*18x1 殆跖十五、系統(tǒng)實(shí)現(xiàn)5.1、整合內(nèi)容數(shù)據(jù)來源主要為營銷系統(tǒng)、專賣系統(tǒng)、物流系統(tǒng)、財(cái)務(wù)系統(tǒng)、0A系統(tǒng)以及其他業(yè)務(wù)系統(tǒng)、采集處理方式、數(shù)據(jù)采集、功能設(shè)計(jì)通過整合完善數(shù)據(jù)采集系統(tǒng), 更加高效的接收和處理來自各系統(tǒng)的數(shù)據(jù), 實(shí) 現(xiàn)數(shù)據(jù)采集工作的靈活設(shè)置和快速部署, 使數(shù)據(jù)采集工作更專業(yè)化和規(guī)范化, 減 輕數(shù)據(jù)提供單位的負(fù)擔(dān), 提高數(shù)據(jù)采集效率和質(zhì)量。 支持基于事件發(fā)生時接收數(shù) 據(jù)消息、支持?jǐn)?shù)據(jù)庫改變時數(shù)據(jù)同步、支持定時提取數(shù)據(jù)、支持外部文件導(dǎo)入、 支持異地全局?jǐn)?shù)據(jù)庫。 并且支持基于消息的數(shù)據(jù)傳輸, 在前
10、置機(jī)感知數(shù)據(jù)改變后, 通過 WebService 機(jī)制項(xiàng)服務(wù)器傳遞消息;支持通過各類數(shù)據(jù)傳輸中間件進(jìn)行 消息的傳遞。數(shù)據(jù)采集方式包括:自動采集、定時采集。自動采集是指通過系統(tǒng)接口, 自動實(shí)時從數(shù)據(jù)源采集數(shù)據(jù), 適用于實(shí)時性要 求較高的數(shù)據(jù)信息。定時采集是指在設(shè)定好的時間點(diǎn)對數(shù)據(jù)源數(shù)據(jù)進(jìn)行采集, 適用于數(shù)據(jù)源有規(guī) 范的數(shù)據(jù)傳輸技術(shù)架構(gòu)。數(shù)據(jù)審核:在數(shù)據(jù)加載到數(shù)據(jù)庫前對采集的數(shù)據(jù)的格式及數(shù)據(jù)內(nèi)容進(jìn)行校驗(yàn) 和審核,保證數(shù)據(jù)采集平臺采集的數(shù)據(jù)質(zhì)量。自動采集: 支持自動采集和定時采集方式, 實(shí)現(xiàn)采集系統(tǒng)自動獲取數(shù)據(jù)源數(shù) 據(jù)的功能。數(shù)據(jù)加工處理:包括數(shù)據(jù)信息清洗、信息轉(zhuǎn)換、信息加載等功能,將從數(shù)據(jù) 源獲取
11、過來的數(shù)據(jù)進(jìn)行規(guī)范化處理, 實(shí)現(xiàn)多源數(shù)據(jù)組合、 沖突數(shù)據(jù)處理、 數(shù)據(jù)格 式檢查等功能。 并將其轉(zhuǎn)換成數(shù)據(jù)倉庫需要的格式。 數(shù)據(jù)加載功能是將經(jīng)過規(guī)范化處理后的數(shù)據(jù)存放到數(shù)據(jù)倉庫中。 需要定義數(shù)據(jù)的加載頻率和加載方式。 數(shù)據(jù) 的加載頻率根據(jù)數(shù)據(jù)的產(chǎn)生頻率和數(shù)據(jù)倉庫對數(shù)據(jù)的分析粒度決定, 可以根據(jù)需 要來定義加載的間隔。采集平臺系統(tǒng)功能結(jié)構(gòu)如下圖:數(shù)據(jù)采集模信息采賓漠塊數(shù)據(jù)古核數(shù)據(jù)清洗數(shù)據(jù)捷換521.2、技術(shù)實(shí)現(xiàn)1、技術(shù)架構(gòu)通過各種采集方式把現(xiàn)有各部門、企業(yè)的諸多系統(tǒng)通過數(shù)據(jù)交換平臺抓取進(jìn)入數(shù)據(jù)中心,并可以通過業(yè)務(wù)報(bào)表填報(bào)的功能補(bǔ)充信息,支持暴扣文檔、多媒體、XML、文件以及數(shù)據(jù)庫等多種方式的數(shù)據(jù)采
12、集。數(shù)循濱采圭方式f9丈件媒體 XML地聲報(bào)表攻報(bào).9.調(diào)査冋巻刪一.U拠附燥呼數(shù)據(jù)利用負(fù)苗共童R綜會分析敷摒其享2、數(shù)據(jù)接口本系統(tǒng)采集通過建立數(shù)據(jù)口的方式與現(xiàn)有的營銷系統(tǒng)、專賣系統(tǒng)、物流系統(tǒng)、 財(cái)務(wù)系統(tǒng)、0A系統(tǒng)以及其他業(yè)務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)采集,并將采集數(shù)據(jù)進(jìn)行審核與 加工處理。與此同時考慮到與新系統(tǒng)的整合,系統(tǒng)將預(yù)留數(shù)據(jù)交互模塊并建立數(shù) 據(jù)交換機(jī)制,為新業(yè)務(wù)系統(tǒng)的接入提供準(zhǔn)備。522、數(shù)據(jù)整合利用完善的ETL工具,通過節(jié)點(diǎn)控制庫、信息共享與管理庫把采集來的數(shù) 據(jù)按照業(yè)務(wù)內(nèi)在關(guān)聯(lián)形成能夠表述完整業(yè)務(wù)鏈信息的整合信息,并為下一步的數(shù)據(jù)應(yīng)用打定基礎(chǔ)。5.2.2.1、技術(shù)架構(gòu)1、ETL工具介紹ETL負(fù)
13、責(zé)將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、 平面數(shù)據(jù)文件等抽取 到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成 為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)ETL 是數(shù)據(jù)倉庫中的非常重要的一環(huán)。 它是承前啟后的必要的一步。 相對于 關(guān)系數(shù)據(jù)庫,數(shù)據(jù)倉庫技術(shù)沒有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),它更面向?qū)嶋H項(xiàng)目應(yīng)用。 所以從項(xiàng)目應(yīng)用的角度來考慮, 按著物理數(shù)據(jù)模型的要求加載數(shù)據(jù)并對數(shù)據(jù)進(jìn)行 一些系列處理, 處理過程與經(jīng)驗(yàn)直接相關(guān), 同時這部分的工作直接關(guān)系數(shù)據(jù)倉庫 中數(shù)據(jù)的質(zhì)量,從而影響到聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的結(jié)果的質(zhì)量。ETL 的質(zhì)量問題具體表現(xiàn)為正確性、完整性、一致性、完備性、有效性、時 效性
14、和可獲取性等幾個特性。 而影響質(zhì)量問題的原因有很多, 由系統(tǒng)集成和歷史 數(shù)據(jù)造成的原因主要包括 :業(yè)務(wù)系統(tǒng)不同時期系統(tǒng)之間數(shù)據(jù)模型不一致;業(yè)務(wù)系 統(tǒng)不同時期業(yè)務(wù)過程有變化;舊系統(tǒng)模塊在運(yùn)營、人事、財(cái)務(wù)、辦公系統(tǒng)等相關(guān) 信息的不一致;遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來的不一致性。實(shí)現(xiàn)ETL,首先要實(shí)現(xiàn)ETL轉(zhuǎn)換的過程。它可以集中地體現(xiàn)為以下幾個方面: 空值處理: 可捕獲字段空值, 進(jìn)行加載或替換為其他含義數(shù)據(jù), 并可根據(jù)字段空 值實(shí)現(xiàn)分流加載到不同目標(biāo)庫。規(guī)范化數(shù)據(jù)格式 可實(shí)現(xiàn)字段格式約束定義,對 于數(shù)據(jù)源中時間、數(shù)值、字符等數(shù)據(jù),可自定義加載格式。拆分?jǐn)?shù)據(jù):依據(jù)業(yè)務(wù) 需求對字段可進(jìn)行
15、分解。 驗(yàn)證數(shù)據(jù)正確性: 可利用 Lookup 及拆分功能進(jìn)行數(shù)據(jù) 驗(yàn)證。數(shù)據(jù)替換:對于因業(yè)務(wù)因素, 可實(shí)現(xiàn)無效數(shù)據(jù)、 缺失數(shù)據(jù)的替換。 Lookup 查獲丟失數(shù)據(jù) Lookup 實(shí)現(xiàn)子查詢,并返回用其他手段獲取的缺失字段,保證 字段完整性。建立 ETL 過程的主外鍵約束 對無依賴性的非法數(shù)據(jù),可替換或?qū)?出到錯誤數(shù)據(jù)文件中,保證主鍵唯一記錄的加載。2、整體結(jié)構(gòu)系統(tǒng)將各個業(yè)務(wù)系統(tǒng)中采集到的銷售、 財(cái)務(wù)、物流、倉儲等基本業(yè)務(wù)數(shù)據(jù)進(jìn) 行整合,形成節(jié)點(diǎn)前置庫, 并進(jìn)行數(shù)據(jù)加載, 形成結(jié)構(gòu)化的綜合信息共享庫與管理數(shù)據(jù)庫,最后通過加工處理形成數(shù)據(jù)集市,并通過綜合分析、統(tǒng)計(jì)報(bào)表、智能分析、決策支持等方式展
16、現(xiàn)給用戶。如下圖所示:522.2、數(shù)據(jù)資源整合劌比尊導(dǎo) E豐壟抹去,1現(xiàn)與甘析區(qū)I用戶)主要功能是實(shí)現(xiàn)將分散、異構(gòu)的數(shù)據(jù)和記錄進(jìn)行規(guī)范化整理并實(shí)現(xiàn)聚合處理,生成基本數(shù)據(jù)集所規(guī)范的、全面動態(tài)的企業(yè)業(yè)務(wù)綜合數(shù)據(jù)信息(宏觀或個案級別 綜合業(yè)務(wù)視圖)共享庫,該綜合共享庫支持動態(tài)、交互、智能的綜合業(yè)務(wù)管理, 可發(fā)布(提供)綜合集成的“全景業(yè)務(wù)信息”以支持全局性同步信息共享。主要 功能模塊包括數(shù)據(jù)規(guī)范化整理(數(shù)據(jù)校驗(yàn)、語法學(xué)清洗、語義學(xué)清洗等)和數(shù)據(jù) 聚合處理(數(shù)據(jù)解析、整合存儲/主數(shù)據(jù)管理、展現(xiàn)預(yù)處理等)流程如下圖:獸裝&上*1 抽氐,叫發(fā)*顯枚1載曲帙令址PB1、數(shù)據(jù)校驗(yàn)清洗數(shù)據(jù)質(zhì)量問題分類: 根據(jù)處
17、理的是單數(shù)據(jù)源還是多數(shù)據(jù)源以及問題出在模式層還是實(shí)例層我們 將數(shù)據(jù)質(zhì)量問題分為 4 類:單數(shù)據(jù)源模式層問題、單數(shù)據(jù)源實(shí)例層問題、多數(shù)據(jù) 源模式層問題和多數(shù)據(jù)源實(shí)例層問題,具體的質(zhì)量問題表現(xiàn)如下:1)缺少完整性約束 ,糟糕的模式設(shè)計(jì), 2 )數(shù)據(jù)記錄的錯誤 ,3 )異質(zhì)的數(shù)據(jù) 模型和模式設(shè)計(jì),4)冗余、互相矛盾或者不一致的數(shù)據(jù),5)唯一性約束,(11)引用約 束,6)拼寫錯誤,7)相似重復(fù)記錄 ,8)互相矛盾的字段 ,9)命名沖突,10)結(jié)構(gòu)沖 突,11)不一致的匯總 ,12)不一致的時間選擇。問題數(shù)據(jù)處理:單數(shù)據(jù)源情形中出現(xiàn)的問題在多數(shù)據(jù)源的情況下會變得更加嚴(yán)重.多數(shù)據(jù)源沒有列出在單數(shù)據(jù)源情形
18、中就已經(jīng)出現(xiàn)的問題.模式層次上的問題也會體現(xiàn)在實(shí)例層次上 .糟糕的模式設(shè)計(jì)、缺少完整性約束的定義以及多個數(shù)據(jù)源之間異質(zhì)的 數(shù)據(jù)模型、命名和結(jié)構(gòu)沖突等 ,都屬于該類問題 .可以通過改進(jìn)模式設(shè)計(jì)、模式轉(zhuǎn) 化和模式集成來解決模式層次上的問題 .實(shí)例層次上的問題在模式層次上不可見 , 一些可能的情況有數(shù)據(jù)拼寫錯誤、無效的數(shù)據(jù)值、重復(fù)記錄等。對于第 1 種情形 ,由于在數(shù)據(jù)輸入時不知道電話字段的值 ,因此在數(shù)據(jù)庫中以 存放一個無效值來表示 .如果針對電話字段定義一個規(guī)則存放在數(shù)據(jù)清洗庫中,清洗工具就能夠根據(jù)這條規(guī)則判斷出哪些是無效值.對于第 2 種拼寫錯誤的情形 ,需要在數(shù)據(jù)清洗庫中建立一個存放所有城市
19、名的查找表 ,通過與該查找表中的城市 名相比較 ,就可以判斷出數(shù)據(jù)庫中存放的本來應(yīng)該是哪個城市.對于第 3 種情況 ,一般也需要利用外部的查找表才能檢測出來并加以改正.在數(shù)據(jù)清洗工具中 ,一些 典型的查找表應(yīng)該是內(nèi)建的 ,此外也應(yīng)該具備可擴(kuò)展性 ,允許用戶加入新的查找表對于第 4 種情形 ,在一個自由格式的文本類型的字段里包括了很多部分,每個部分都可以單獨(dú)作為一個字段 .如果每個部分的先后順序一定 ,且互相之間有分隔符或 者保留字 ,比如 Street,Road 等等 ,就比較容易處理 .但是,實(shí)際中的情況往往不是 這樣 ,因此要通過機(jī)器學(xué)習(xí)或者其他辦法來解決.由領(lǐng)域?qū)<疫x定學(xué)習(xí)樣本 (相對于
20、所要處理的數(shù)據(jù)集 ,樣本數(shù)量少得多 )來訓(xùn)練系統(tǒng) ,等訓(xùn)練好了以后 ,再由系統(tǒng)自 動處理大規(guī)模的數(shù)據(jù)集 .由于采用機(jī)器學(xué)習(xí)的辦法 ,因此一般來說 ,需要折衷考慮 記憶率和準(zhǔn)確率 .我們將利用隱馬爾科夫模型 (HMM) 的解決辦法 .第 6 種情形的問題是字段之間不對應(yīng) .為了改正,需要知道哪個字段更可信 , 這必須利用其他信息才能決定。第 8 種和第 9 種情形表示的是相似重復(fù)記錄的情況 .在第 8 種情形里 , 一個記 錄的 name 沒有簡寫 ,而另一個記錄的 name 被簡寫了 ,通過定義合適的編輯距離 函數(shù),或者內(nèi)建常用的縮寫規(guī)則 ,清洗工具可以檢測出這類重復(fù)記錄 .在第9 種情形 中
21、,同一個現(xiàn)實(shí)實(shí)體 (兩個記錄的 name 值相同),但是兩個記錄的 bdate 值不一樣 , 在合并這兩條記錄時 ,如何選擇一個合適的 bdate 值 ,是一個棘手的問題 .相似重 復(fù)記錄的匹配和合并 ,是數(shù)據(jù)清洗過程中一個很重要的問題.首先 ,選擇一個好的距離函數(shù)很重要 .另外 ,記錄的匹配過程非常耗時 .如果采用最簡單的方法 ,所有記 錄之間兩兩進(jìn)行比較,以此來決定是否匹配,其計(jì)算復(fù)雜度為0(n2),這里n為數(shù)據(jù) 庫中的記錄數(shù) .對很大的數(shù)據(jù)庫來說 ,這樣的時間開銷是無法忍受的。在檢測相似重復(fù)記錄之前 ,需要先對數(shù)據(jù)進(jìn)行一些處理 .典型的處理操作包 括:字段分裂.從自由格式的文本字段中抽取
22、結(jié)構(gòu) ,分離各個部分 .驗(yàn)證和改正 .根據(jù)查找表來驗(yàn)證字段值的正確性 ,若發(fā)現(xiàn)錯誤 ,則加以改正 .如 果提供合適的領(lǐng)域知識 ,該過程也可以驗(yàn)證字段之間的依賴關(guān)系 .數(shù)據(jù)標(biāo)準(zhǔn)化 .將同一類型的數(shù)據(jù)用統(tǒng)一的格式來表示 ,比如日期、電話號碼、 性別等.在完成大部分的數(shù)據(jù)轉(zhuǎn)化和其他清洗步驟以后 ,就可以執(zhí)行相似重復(fù)記錄的 匹配和合并了。通常情況下 ,指向同一個現(xiàn)實(shí)實(shí)體的兩條記錄的信息是部分冗余 的 ,它們的數(shù)據(jù)互為補(bǔ)充。因此 ,通過將其合并 ,能夠更準(zhǔn)確地反映該實(shí)體 .相似重復(fù)記錄清除可以針對兩個數(shù)據(jù)集或者一個合并后的數(shù)據(jù)集.首先 ,需要識別出標(biāo)識同一個現(xiàn)實(shí)實(shí)體的相似重復(fù)記錄 ,即記錄匹配過程 .隨
23、后 ,將相似重復(fù) 記錄合并成一個包含該實(shí)體的更多屬性 ,而且無冗余信息的記錄 ,同時從數(shù)據(jù)集中 刪除多余的記錄。,我們還考最簡單的情況是 ,數(shù)據(jù)記錄具有這樣的屬性集 (或者屬性 ),它總能夠惟一標(biāo)識 一個實(shí)體 .這時 ,只要對兩個記錄集在該屬性集上作等值連接 ,就完成了記錄匹配 過程 .對單個記錄集的情形 ,先根據(jù)該屬性集進(jìn)行排序 ,然后通過檢查相鄰的記錄 , 就可以判斷出它們是否為相似重復(fù)記錄 .如果不存在這樣的鍵屬性集 ,而且數(shù)據(jù)中 可能還存在錯誤 ,例如拼寫錯誤等 ,上面的簡單辦法就不合適了 .這時可以通過引 入匹配規(guī)則來完成模糊匹配 ,規(guī)則是描述性的 ,而且可以利用用戶自定義的函數(shù) .
24、 例如,可以有這樣的規(guī)則 :如果 name 字段相同 ,而且 address 字段相似度也很大 , 那么這兩條記錄是重復(fù)記錄 .字段之間的相似度 ,一般用 01 之間的數(shù)值來表示 , 而且不同的字段對記錄之間總的相似度的貢獻(xiàn) ,具有不同的權(quán)值 .相似度的定義和 權(quán)值的分配 ,要由領(lǐng)域?qū)<襾泶_定 .對字符串類型的數(shù)據(jù) ,精確匹配或者基于通配 符、詞頻、編輯距離、鍵盤距離和發(fā)音相似度的模糊匹配是很有用的慮了字符串的縮寫形式并結(jié)合信息檢索的向量空間模型來定義文本元素之間的 相似度。在處理大的數(shù)據(jù)集時 ,匹配重復(fù)記錄是一個非常耗時的過程 .因?yàn)槭悄:ヅ?所以整個過程相當(dāng)于要對兩個記錄集做笛卡爾積 .
25、然后 ,根據(jù)相似度進(jìn)行排序 ,那 些相似度超過某一閾值的記錄被認(rèn)為是重復(fù)記錄 ,低于某一閾值的記錄則不被認(rèn) 為是重復(fù)記錄,而相似度介于這兩個閾值之間的記錄是候選的相似重復(fù)記錄,需要用戶作出決定。因?yàn)檫@類記錄的數(shù)量不多 ,所以由用戶來決定是可行的。2、數(shù)據(jù)聚合處理 根據(jù)信息采集整合展現(xiàn)信息系統(tǒng)的建設(shè)需求,把清洗后的數(shù)據(jù)抽象為采購、 客服、物流、質(zhì)管、運(yùn)營、財(cái)務(wù) 6 個業(yè)務(wù)域。、數(shù)據(jù)分類存儲1、標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)是系統(tǒng)運(yùn)行的數(shù)據(jù)基礎(chǔ)。 標(biāo)準(zhǔn)數(shù)據(jù)包括業(yè)務(wù)數(shù)據(jù)的所有數(shù)據(jù)標(biāo)準(zhǔn)規(guī) 范,通過這個庫和數(shù)據(jù)校驗(yàn)機(jī)制對數(shù)據(jù)中心的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化保障。 由于數(shù)據(jù)標(biāo) 準(zhǔn)存在著時效性, 因此針對有時效性的數(shù)據(jù)進(jìn)行版本控制,
26、 不同的版本有各自的 生命周期,不同生命周期中的業(yè)務(wù)數(shù)據(jù)對應(yīng)不同版本的數(shù)據(jù)。2、業(yè)務(wù)數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)是指從各業(yè)務(wù)系統(tǒng)中各環(huán)節(jié)收集上來的業(yè)務(wù)數(shù)據(jù), 如財(cái)務(wù)信息、 物 流信息、采購訂單信息等等。這些數(shù)據(jù)將會存儲到相應(yīng)的業(yè)務(wù)域中進(jìn)行統(tǒng)一管理。3、主題數(shù)據(jù) 業(yè)務(wù)數(shù)據(jù)以主題的方式進(jìn)行整合和預(yù)處理,本系統(tǒng)主要包括的數(shù)據(jù)主題有:采購、客服、物流、質(zhì)管、運(yùn)營、財(cái)務(wù)、中間庫存儲服務(wù) 是承接信息獲取服務(wù)所加載的數(shù)據(jù)集并實(shí)現(xiàn)按數(shù)據(jù)提供將原始數(shù)據(jù)集歸檔。根據(jù)業(yè)務(wù)需求和技術(shù)能力其具體實(shí)現(xiàn)可做多種策略選擇: “基于自定義建模的關(guān) 系數(shù)據(jù)存儲”,或“基于自定義建模的關(guān)系數(shù)據(jù)存儲 + 基于主數(shù)據(jù)管理模式的操 作數(shù)據(jù)存儲”。區(qū)別在
27、于對業(yè)務(wù)需求變化擴(kuò)展的適應(yīng)性和實(shí)施成本效益,另外基 于主數(shù)據(jù)管理模式的操作數(shù)據(jù)存儲可以直接支持面向全局同步信息共享視圖展 現(xiàn),同時可相當(dāng)程度支持?jǐn)?shù)據(jù)利用業(yè)務(wù)需求變化。 數(shù)據(jù)倉庫存儲服務(wù)是面向決策 支持、基于決策模型的信息展現(xiàn)引擎。當(dāng)綜合數(shù)據(jù)信息共享庫 (綜合數(shù)據(jù)存儲服務(wù)) 包含基于主數(shù)據(jù)管理的操作數(shù) 據(jù)存儲和基于決策模型的面向主題存儲時, 綜合管理信息平臺對因業(yè)務(wù)需求變化 (決策模型變化或信息共享規(guī)范擴(kuò)展)的適應(yīng)性和支持能力得以提高。、數(shù)據(jù)聚合數(shù)據(jù)倉庫是為了系統(tǒng)建立的數(shù)據(jù)庫 ,其用來對業(yè)務(wù)進(jìn)行統(tǒng)計(jì)分析、 業(yè)務(wù)監(jiān)督、 績效考核、應(yīng)急指揮及決策支持等。其是通過從各系統(tǒng)數(shù)據(jù)中抽取歸納出來的, 主要包
28、括共享資源數(shù)據(jù)庫和主題數(shù)據(jù)庫。、數(shù)據(jù)應(yīng)用數(shù)據(jù)應(yīng)用模塊采用 SOA 構(gòu)架 ,統(tǒng)一了 Web 應(yīng)用構(gòu)架,統(tǒng)一了元數(shù)據(jù),能夠 訪問企業(yè)資源系統(tǒng)的所有數(shù)據(jù)源,為所有用戶提供了基于純?yōu)g覽器的全面的 BI 功能。、應(yīng)用定制 系統(tǒng)主要應(yīng)用定制方式為:報(bào)表定制、熱點(diǎn)定制、圖形定制、數(shù)據(jù)挖掘四部分,主要實(shí)現(xiàn)技術(shù)路線為下圖:JU A淀制熱八淀吿ll5忌;I?制I1、熱點(diǎn)定制定制文本數(shù)據(jù)混合的輸出方式,簡稱熱點(diǎn)定制??商峁┛删庉嬳撁?,支持從 WORD或網(wǎng)頁直接黏貼內(nèi)容以規(guī)范文本輸出。提供指標(biāo)選擇功能,讓用戶可以 自行選擇匯總指標(biāo)到編輯頁面,并在選擇時指定匯總指標(biāo)的各種條件的默認(rèn)值。保存熱點(diǎn)名稱和用到的匯總指標(biāo)定義到
29、數(shù)據(jù)庫,把可編輯頁面的HTML代碼保存到數(shù)據(jù)庫,并可以進(jìn)行修改。如下圖:2、報(bào)表定制通過指定匯總指標(biāo)及其分組項(xiàng)、條件,形成各種類型的報(bào)表。樹形結(jié)構(gòu)列出 所有的匯總指標(biāo)以備用戶選擇,可以多選,并可以選擇上月數(shù)、去年同期數(shù)。綜合選擇的匯總指標(biāo), 列出其共有的分組因素, 并分為三欄顯示。 根據(jù)用戶指定的 縱向分組因素和橫向分組因素生成預(yù)覽表。 并可保存所有用戶定義到指定的報(bào)表 名稱。如下圖 :3、圖形定制通過指定匯總指標(biāo)及其分組項(xiàng)、 條件,形成各種類型的圖形。 樹形結(jié)構(gòu)列出 所有的匯總指標(biāo)以備用戶選擇, 只能單選。 分析用戶用戶選擇的匯總指標(biāo)并將其 分組因素列為兩欄。 其一為輸出分組項(xiàng)選擇, 選擇后
30、可以預(yù)覽報(bào)表和圖形、 其二 為條件或默認(rèn)條件指定區(qū)域, 在分組因素外多出時間范圍條件。 允許用戶選擇輸 出圖形的類型包括比例圖、直方圖、日線趨勢圖或月線趨勢圖,如果用戶 選擇的是趨勢圖則分組項(xiàng)選擇失效, 只能按照時間進(jìn)行分組。 允許用戶預(yù)覽輸出 結(jié)果(不含數(shù)據(jù)或隨機(jī)數(shù)據(jù)) ,并對圖表位置進(jìn)行調(diào)整。如下圖:4、數(shù)據(jù)挖掘?qū)φ宫F(xiàn)的數(shù)據(jù)進(jìn)行深入挖掘探索,一直到基礎(chǔ)數(shù)據(jù)或相關(guān)鏈接系統(tǒng)。 上級中規(guī)定了在數(shù)據(jù)輸出的同時把每個數(shù)據(jù)項(xiàng)的元數(shù)據(jù)屬性同時輸出, 該屬 性包括:該數(shù)據(jù)項(xiàng)對應(yīng)的匯總指標(biāo)的指標(biāo) ID ;該數(shù)據(jù)項(xiàng)已經(jīng)包含的條件;該數(shù) 據(jù)項(xiàng)已經(jīng)包含體現(xiàn)的分組因素; 該報(bào)表、圖形或熱點(diǎn)本身定義中規(guī)范的鏈接方向
31、(可以為空)。依據(jù)以上元數(shù)據(jù)的定義,有兩種分支: (1)如果該報(bào)表、圖形或熱點(diǎn)本身定義中規(guī)范的鏈接方向不為空,則1、2、31)如果鏈接方向?yàn)楸鞠到y(tǒng)中的其他數(shù)據(jù)資源則把元數(shù)據(jù)屬性中的部分分別傳遞給該數(shù)據(jù)資源, 并把當(dāng)前點(diǎn)擊的數(shù)據(jù)項(xiàng)的值和其分組項(xiàng)關(guān)系也作為 條件傳輸給目標(biāo)數(shù)據(jù)資源,然后調(diào)用數(shù)據(jù)輸出功能對目標(biāo)數(shù)據(jù)資源進(jìn)行輸出。2)如果鏈接方向?yàn)槠渌麡I(yè)務(wù)系統(tǒng)中的頁面資源,則利用單點(diǎn)登錄功能模擬 出登錄效果,并打開該頁面資源。(2)如果該報(bào)表、圖形或熱點(diǎn)本身定義中規(guī)范的鏈接方向?yàn)榭?,則 1)分析該匯總指標(biāo)已經(jīng)體現(xiàn)了哪些分組因素, 條件中考慮了哪些分組因素, 從而獲得沒有涉及到的分組因素列表, 并用彈出菜
32、單的方式請求用戶選擇向下展 開至哪個分組因素,菜單末尾為“基礎(chǔ)數(shù)據(jù)” ;如果沒有未涉及到的分組因素則 直接進(jìn)入基礎(chǔ)數(shù)據(jù)查詢。2)如果進(jìn)入的還是匯總指標(biāo)的查詢,則系統(tǒng)形成新的臨時圖形分析定制, 依據(jù)用戶選擇的分組項(xiàng)和原數(shù)據(jù)項(xiàng)含帶的元數(shù)據(jù)生成, 如果是絕對數(shù)指標(biāo)則默認(rèn) 以比例圖方式展現(xiàn),如果是計(jì)算指標(biāo)則默認(rèn)以直方圖展現(xiàn)。3)如果進(jìn)入的是基礎(chǔ)數(shù)據(jù)查詢,則判斷該匯總指標(biāo)通過哪些基礎(chǔ)數(shù)據(jù)視圖 的數(shù)據(jù)匯總得來, 并提取這些基礎(chǔ)數(shù)據(jù)視圖中列表顯示的基礎(chǔ)數(shù)據(jù)指標(biāo), 配合匯 總指標(biāo)的分組因素 (本次涉及到的) 形成基礎(chǔ)數(shù)據(jù)列表的輸出表頭, 同時依據(jù)匯 總指標(biāo)的條件設(shè)置和基礎(chǔ)數(shù)據(jù)視圖的關(guān)聯(lián)關(guān)系形成 SQL 語句,
33、從而得到數(shù)據(jù)。 5.2.1.2 、數(shù)據(jù)分析支撐實(shí)現(xiàn)應(yīng)用定制的支撐工具包括元數(shù)據(jù)模型設(shè)計(jì)和管理工具、 多維分析服務(wù)器、 報(bào)表工具、多維分析工具、數(shù)據(jù)管理工具1、元數(shù)據(jù)模型設(shè)計(jì)和管理工具 本系統(tǒng)采用統(tǒng)一的元數(shù)據(jù)模型。 應(yīng)用統(tǒng)一的元數(shù)據(jù)模型設(shè)計(jì)和管理工具, 通 過圖形化的界面,就可以對多數(shù)據(jù)源進(jìn)行描述,并且能夠同時描述 DB , OLAP等各種數(shù)據(jù)源。 為應(yīng)用提供統(tǒng)一一致的數(shù)據(jù)訪問。 同時元數(shù)據(jù)模型設(shè)計(jì)和管理工 具支持通用的 CWM 標(biāo)準(zhǔn)能夠和各種第三方的工具實(shí)現(xiàn)元數(shù)據(jù)交換??芍苯邮?用第三方工具生成的元數(shù)據(jù)模型。從而: 1 、減小了開發(fā)工作量; 2、減小了系 統(tǒng)維護(hù)和修改工作量; 3、提高了應(yīng)用開
34、發(fā)效率; 4 、具有良好的元數(shù)據(jù)的層狀 擴(kuò)展性。是應(yīng)用和數(shù)據(jù)庫之間的語義層,他封裝數(shù)據(jù)庫底層表和字段,建立表連接, 為后續(xù)開發(fā)人員和最終用戶提供一個貼合業(yè)務(wù)術(shù)語的數(shù)據(jù)庫結(jié)構(gòu)視圖。 在元數(shù)據(jù) 模型中可以對已有的數(shù)據(jù)庫結(jié)構(gòu)進(jìn)行描述, 加入各種計(jì)算字段, 綁定數(shù)據(jù)的過濾 器等,同時可以采用動態(tài) SQL,使查詢的語句根據(jù)不同的條件和情況靈活的適 應(yīng)數(shù)據(jù)庫結(jié)構(gòu)。他可以連接多個數(shù)據(jù)源,能夠連接 OLAP,DB 等各種數(shù)據(jù)源。提 供對元數(shù)據(jù)的定制和管理以及安全性控制等相關(guān)控制。 可直接使用各種標(biāo)準(zhǔn)工具 制作的元數(shù)據(jù)模型。2、多維分析服務(wù)器 從各類數(shù)據(jù)源(數(shù)據(jù)庫、數(shù)據(jù)倉庫、平面文件)中精心篩選出來的“黃金”
35、數(shù)據(jù)創(chuàng)建成稱為 PowerCubes 的多維數(shù)據(jù)立方體。 立方體是按探察業(yè)務(wù)的 OLAP 多維因素分析模型的設(shè)計(jì)創(chuàng)建,通過對多維數(shù)據(jù)立方體的 OLAP 分析,用戶可 以辨明趨勢、跟蹤業(yè)務(wù)運(yùn)作、創(chuàng)建高效的統(tǒng)計(jì)匯總報(bào)表。支持異構(gòu)數(shù)據(jù)源訪問, 能夠適應(yīng)用戶從簡單到復(fù)雜的應(yīng)用數(shù)據(jù)環(huán)境, 支持虛 擬 Cube 技術(shù) (可按時間生成不同的子 Cube ,可針對單個子 Cube 進(jìn)行增量更 新,通過虛擬 Cube 訪問多個子 Cube, 支持虛擬 Cube 的各子 Cube 維度不同, 以適應(yīng)變化 )。 Cognos OLAP Modeling 生成的 Cube 為壓縮方式,通常為原 始數(shù)據(jù)占用空間的十分之
36、一甚至更小。 同時具有足夠的靈活性, 支持手工自定義 層次和節(jié)點(diǎn),支持維度中不同層次節(jié)點(diǎn)之間的計(jì)算,支持指標(biāo)層次靈活設(shè)計(jì)3、報(bào)表工具可以通過其制作各種類型的報(bào)表, 制作報(bào)表時不僅能夠連接數(shù)據(jù)庫, 還能連 接 OLAP 服務(wù)器,能夠同時連接數(shù)據(jù)庫, OLAP 數(shù)據(jù)源。用戶直接通過在沒有 插件,沒有 Applet 的純?yōu)g覽器界面中鼠標(biāo)托拽就可以實(shí)現(xiàn)各種列表,交叉表, 圖表,分段報(bào)表,主從報(bào)表等各種常用報(bào)表 ,以及中國特色的非平衡報(bào)表,動態(tài) 儀表盤, KPI 報(bào)表等各種高級報(bào)表報(bào)告。報(bào)表可以分頁面設(shè)計(jì),每頁可以有多個 查詢,每個查詢可以連接多個數(shù)據(jù)源, 甚至異構(gòu)數(shù)據(jù)源。 報(bào)表的內(nèi)容采用的是化 繁為簡
37、的方式, 可以精確控制報(bào)表中每一個對象的各種屬性。 可以通過鼠標(biāo)拖拽 方式將包括聲音,視頻,圖形,表格,文字,關(guān)系型數(shù)據(jù)庫內(nèi)容, OLAP 等任何 有用的信息集成在報(bào)表中。還可以方便實(shí)現(xiàn)報(bào)表數(shù)據(jù)和 GIS 地圖數(shù)據(jù)的無縫集 成。報(bào)表布局可以精確控制和排版, 支持所見即所得的打印。 報(bào)表設(shè)計(jì)好之后可 以批量生成,也可以通過用戶交互條件生成, 甚至基于時間以及事件等進(jìn)行調(diào)度, 也可以通過 Email 等方式主動推送給用戶。 同時采用直接保存即發(fā)布的方式, 大 大簡化了報(bào)表的發(fā)布和管理。對于報(bào)表應(yīng)用, 主要由即席報(bào)表工具和即席查詢工具來實(shí)現(xiàn)。 通過報(bào)表工具 可以制作各種固定格式的報(bào)表報(bào)告等, 通過即
38、席查詢工具用戶可以方便的進(jìn)行自 助式報(bào)表的制作。工具提供了一個完全基于 Web 方式的交互式數(shù)據(jù)查詢、報(bào)表 定制和報(bào)表瀏覽界面, 能夠?qū)崿F(xiàn)各種復(fù)雜的報(bào)表, 并提供定時運(yùn)行、 報(bào)表數(shù)據(jù)監(jiān) 視預(yù)警、多渠道報(bào)表分發(fā)(如通過 Email )等功能。本工具還提供了強(qiáng)大的儀表 盤,多媒體報(bào)表,地圖報(bào)表等各種報(bào)表報(bào)告功能。工具支持用戶直接在沒有插件,沒有 Applet 的純?yōu)g覽器界面中通過鼠標(biāo)拖 拽的方式進(jìn)行報(bào)表的制作, 同時報(bào)標(biāo)志制作完成后, 直接通過點(diǎn)擊鼠標(biāo), 就能夠 將報(bào)表進(jìn)行發(fā)布,實(shí)現(xiàn)信息的共享。由于系統(tǒng)采用統(tǒng)一的元數(shù)據(jù), 能夠同時訪問國藥樂仁堂醫(yī)藥有限公司的各個 數(shù)據(jù)源,所以用戶在進(jìn)行報(bào)表制作的過
39、程中不需要了解數(shù)據(jù)源的具體結(jié)構(gòu), 而只 需要從業(yè)務(wù)的角度出發(fā), 通過鼠標(biāo)拖拽就能夠?qū)⒍鄶?shù)據(jù)源的數(shù)據(jù)整合在一張報(bào)表 中展現(xiàn)通過統(tǒng)一的元數(shù)據(jù)模型設(shè)計(jì)之后,就可以支持用戶直接通過純?yōu)g覽器界面, 進(jìn)行從簡單到復(fù)雜的各種報(bào)表的制作, 制作的過程中通過各種對象的拖拽, 屬性 設(shè)置,不需要編寫代碼, 同時用戶通過點(diǎn)擊鼠標(biāo)就能實(shí)現(xiàn)報(bào)表的發(fā)布, 真正做到 了端對端的報(bào)表的展現(xiàn)。4、多維分析工具聯(lián)機(jī)分析處理主要指的是多維分析。它提供將數(shù)據(jù)組織成多維立方體(不論邏輯的還是物理的 ),而用戶可以對這些數(shù)據(jù)立方體進(jìn)行切片、旋轉(zhuǎn)、匯總等多 角度的查詢和統(tǒng)計(jì)。 這種查詢和統(tǒng)計(jì)可完全出自用戶對業(yè)務(wù)的考慮, 而不必關(guān)心 數(shù)據(jù)的
40、物理結(jié)構(gòu)和技術(shù)上的組織形式。聯(lián)機(jī)分析應(yīng)用是業(yè)務(wù)智能應(yīng)用中最主要, 也是最廣泛應(yīng)用形式。本方案中的 OLAP 應(yīng)用主要由多維分析工具來實(shí)現(xiàn)。多維分析工具提供完 全基于 Web 方式的 OLAP 應(yīng)用界面,能實(shí)現(xiàn)不同主題 Cube 之間的鉆取, 并能 與報(bào)表工具構(gòu)成穿透鉆取環(huán)境,融合查詢報(bào)表和 OLAP 應(yīng)用,為用戶提供一個 貫穿宏觀和細(xì)節(jié)的全景數(shù)據(jù)視圖。該工具是面向最終用戶的多維分析展現(xiàn), 進(jìn)行方便的多維度, 多層次, 多指 標(biāo)的分析。用戶只需要在 Web 界面中通過簡單的鼠標(biāo)拖拽等操作,就可以進(jìn)行各種 OLAP 分析,如上鉆,下鉆,切片,旋轉(zhuǎn),切塊等,另外可以支持圖表起展現(xiàn)和圖表聯(lián)動,支持柱圖
41、,餅圖,折線圖,堆積圖,面積圖,散點(diǎn)圖等各種 二維、三維圖形,支持用戶自定義子集功能, 支持同比,環(huán)比,百分比等各種 比例分析,支持 TOP N/ Bottom N分析,支持 2/8 分析,支持壓縮零。支持排名排序功能, 支持維度中不同粒度的混合分析, 支持不同維度的非平衡混合分 析,支持不同層次維度節(jié)點(diǎn)之間的計(jì)算,支持用戶在純?yōu)g覽器界面上進(jìn)行各種 OLAP 分析,不需要安裝插件,不使用 Applet ,確保數(shù)據(jù)安全性,支持用戶使 用簡單的拖拽的方式進(jìn)行多角度分析, 支持從 Cube 和 Cube 信息之間的鉆取支 持 Cube 和關(guān)系型數(shù)據(jù)庫信息之間的鉆取, 支持將分析結(jié)果導(dǎo)出 EXCEL,
42、 PDF 等 各種格式, 采用保存即發(fā)布的方式, 不需要另外的發(fā)布工具它能夠讓系統(tǒng)中的每 一位用戶都能夠輕松自如地訪問對應(yīng)權(quán)限的數(shù)據(jù), 從而更有效地管理其業(yè)務(wù), 作 出正確決策。5、數(shù)據(jù)管理工具是個數(shù)據(jù)抽取、整合、傳輸、加載的(ETL)工具。它對所有的數(shù)據(jù)源提供唯 一地點(diǎn)來定義元數(shù)據(jù)和業(yè)務(wù)規(guī)則, 定義描述用戶業(yè)務(wù)特征的信息目錄, 創(chuàng)建數(shù)據(jù) 集市或數(shù)據(jù)倉庫, 形成數(shù)據(jù)中心。 通過有效的單結(jié)構(gòu)模型, 實(shí)現(xiàn)了多種異構(gòu)數(shù)據(jù) 源、多數(shù)據(jù)源或多個應(yīng)用的元數(shù)據(jù)定義。 本工具主要提供數(shù)據(jù)轉(zhuǎn)換、 傳輸和加載 服務(wù),它能快速生成 BI 應(yīng)用的信息目錄,以及面向主題的數(shù)據(jù)集市。這種數(shù)據(jù) 集市既可是關(guān)系型的數(shù)據(jù)庫表也
43、可是多維數(shù)據(jù)結(jié)構(gòu)存儲的數(shù)據(jù)立方體OLAP數(shù)據(jù)源。這些數(shù)據(jù)將是信息系統(tǒng)用戶在網(wǎng)上做數(shù)據(jù)訪問分析的基礎(chǔ)數(shù)據(jù)。它確保了所有用戶能夠迅速訪問一致性的數(shù)據(jù), 進(jìn)行全業(yè)務(wù)指標(biāo)整體分析、 報(bào)表制作和 決策支持用來自任何普通關(guān)系型格式、 ERP 數(shù)據(jù)源、平面文件格式的數(shù)據(jù)或者可以通 過 ODBC (開放數(shù)據(jù)庫連接)應(yīng)用協(xié)議接口訪問的數(shù)據(jù)?;跀?shù)據(jù)的集成性, 本工具可以采用各種格式提供數(shù)據(jù)結(jié)果, 例如維度框架、 關(guān)系型表格等, 用戶還 可以將數(shù)據(jù)從一個環(huán)境移動復(fù)制到另一個環(huán)境。可以簡化 IT 部門的數(shù)據(jù)抽取、轉(zhuǎn)換和加載工作。 DataManager 使用單一 的界面,該界面具有用來架構(gòu)數(shù)據(jù)倉庫的生動的構(gòu)造流程(
44、 build )圖形,可以 讓穿透鉆取關(guān)系更加清晰直觀, 使屬性的顯示和修改更加方便。 自動化向?qū)Э梢?幫助開發(fā)人員分步驟的創(chuàng)建一個維度構(gòu)造流程( dimension build )或事實(shí)構(gòu)造 流程( fact build )以及眾多的轉(zhuǎn)換函數(shù)。自動化的維度管理過程和支持匯總和 合并的強(qiáng)大引擎可以簡化 IT 的工作,為 IT 工作提供支持。成功的數(shù)據(jù)倉庫項(xiàng)目建立在維度框架結(jié)構(gòu)基礎(chǔ)之上。 維度設(shè)計(jì)可以消除在數(shù) 據(jù)集市或數(shù)據(jù)倉庫環(huán)境的設(shè)計(jì)、實(shí)施和維護(hù)過程中最常見也是最重要的困難??绮块T、流程和業(yè)務(wù)領(lǐng)域的共享或一致維度的使用意味著可以將分布式數(shù)據(jù) 源集成到一個一致的視圖中。為了實(shí)現(xiàn)這個目的,本工具會
45、將公共描述符 ( descriptor )組織成維度表并將事實(shí)內(nèi)容組織成事實(shí)表。、數(shù)據(jù)展現(xiàn)系統(tǒng)展現(xiàn)采用基于 JAVA 平臺、 B/S 應(yīng)用模式,支持圖、文、表集成輸出, 易于用戶理解, 同時有利于用戶從多維度分析數(shù)據(jù)。 系統(tǒng)數(shù)據(jù)挖掘簡單易用, 并 支持形成動態(tài)報(bào)表,自動從后臺提取數(shù)據(jù),及時更新。數(shù)據(jù)展現(xiàn)終端分為頁面端展現(xiàn)與移動端展現(xiàn)。 即用戶可以通過 PC 機(jī)了瀏覽 器獲取數(shù)據(jù), 同時可以通過手機(jī)端安卓系統(tǒng)瀏覽數(shù)據(jù)。 對于移動端展現(xiàn)系統(tǒng)同樣 支持圖、文、表集成顯示,并保證數(shù)據(jù)所產(chǎn)生的單位流量最低。、應(yīng)用主題數(shù)據(jù)系統(tǒng)可以根據(jù)用戶的實(shí)際需求, 快速建立應(yīng)用主題數(shù)據(jù)庫, 將相關(guān)某一主題 的數(shù)據(jù)進(jìn)行集
46、成展現(xiàn), 既方便高級管理者從公司全局層面獲取數(shù)據(jù), 又方便針對 公司某一業(yè)務(wù)線路進(jìn)行數(shù)據(jù)挖掘。以卷煙銷售、財(cái)務(wù)管理、經(jīng)濟(jì)運(yùn)行、專賣監(jiān)管等業(yè)務(wù)領(lǐng)域?yàn)橹骶€,滿足公司 中層以上對報(bào)表統(tǒng)計(jì)、業(yè)務(wù)分析、多維分析、輔助決策支持的需求。針對地市級 用戶的業(yè)務(wù)需求應(yīng)用分析主題內(nèi)容側(cè)重較微觀的業(yè)務(wù)操作層面。 其應(yīng)用主題主要 包括:客戶主題分析供應(yīng)商主題分析銷售主題分析庫存主題分析成本毛利主題分析商品主題分析市場投放主題分析。、主要功能5.4.1 、數(shù)據(jù)來源管理數(shù)據(jù)來源是指系統(tǒng)的每一項(xiàng)基礎(chǔ)數(shù)據(jù)的來源途徑, 包括邏輯概念的數(shù)據(jù)來源 和物理概念的來源服務(wù)器, 邏輯概念的數(shù)據(jù)來源包括各種系統(tǒng)、 以及機(jī)構(gòu), 例如 專賣系
47、統(tǒng)、營銷系統(tǒng)、物流系統(tǒng)等;而物理概念的來源服務(wù)器主要是指服務(wù)器、 數(shù)據(jù)庫或應(yīng)用服務(wù)等,例如位于 192.0.0.2 上的端口為 1521 的數(shù)據(jù)庫;或者位 于 192.0.2.3 上的端口為 8020 的 getData 服務(wù)等。1、數(shù)據(jù)來源 提供對數(shù)據(jù)來源的增、刪、改、查的功能,邏輯數(shù)據(jù)來源的信息項(xiàng)應(yīng)當(dāng)至少 包括:名稱、資源說明、注冊者、注冊時間、發(fā)布者、發(fā)布時間、失效時間等。2、來源服務(wù)器在數(shù)據(jù)來源下管理來源服務(wù)器, 提供注冊, 修改和刪除的功能, 來源服務(wù)器 的管理信息應(yīng)當(dāng)至少包括:名稱、地址、端口、類別等信息,注冊后作為系統(tǒng)實(shí) 際的數(shù)據(jù)提取來源被管理起來。、主題和指標(biāo)管理提供樹形關(guān)系的
48、主題和域的管理,包括增加下級、增加同級、刪除、修改等 各種操作,管理的信息內(nèi)容包括名稱、說明信息、注冊者、注冊時間、發(fā)布者、 發(fā)布時間、停用時間的基礎(chǔ)信息。作為對信息分類的基本管理單元,本功能應(yīng)當(dāng)能夠把所有的指標(biāo)包括 基礎(chǔ)數(shù)據(jù)指標(biāo)和管理指標(biāo)均注冊到分別的主題和域, 系統(tǒng)支持注冊基礎(chǔ)數(shù)據(jù)指標(biāo)、 注冊管理指標(biāo)以及相應(yīng)的反向操作。 其中包括: 主題樹和主題管理、 基層數(shù)據(jù)指 標(biāo)管理、管理數(shù)據(jù)指標(biāo)管理、數(shù)據(jù)來源、來源服務(wù)器、 基礎(chǔ)數(shù)據(jù)視圖等,如下 圖所示:、報(bào)表定制主要實(shí)現(xiàn)報(bào)表定制, 通過選擇報(bào)表要查詢的管理指標(biāo)項(xiàng), 對報(bào)表的數(shù)據(jù)行的 分組項(xiàng),并且選擇報(bào)表的查詢條件和該查詢條件的默認(rèn)值進(jìn)行定制, 同時支持報(bào) 表表樣預(yù)覽區(qū)域, 可以根據(jù)業(yè)務(wù)變化方便快捷的調(diào)整所需要的報(bào)表, 不需做任何 程序改動。其如下圖所示:、圖表定制通過設(shè)定圖表要查詢的管理指標(biāo)項(xiàng)、 圖表的查詢條件和默認(rèn)值、 圖表關(guān)聯(lián)的 熱點(diǎn)、圖表展現(xiàn)的形式等條件進(jìn)行圖表的制定。其如下圖所示:、熱點(diǎn)定制 對熱點(diǎn)內(nèi)容進(jìn)行編輯,并且進(jìn)行定義,如定義“想得到門急診人次是多少, 選擇門急診人次,選擇時間范圍”等。、連接資源管理 本功能應(yīng)用環(huán)境為應(yīng)用端管理人員為信息資源本身進(jìn)行編目管理, 從而內(nèi)接 系統(tǒng)的主題和域等范疇,外連門戶中的目錄體系。具體管理內(nèi)容包括: 1、管理者能夠?qū)π?/p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣告安裝委托合同7篇
- 過戶車輛轉(zhuǎn)讓協(xié)議與運(yùn)動員參賽合同8篇
- 2025年南昌貨運(yùn)從業(yè)資格證模擬考試試題題庫答案
- 項(xiàng)目啟動會議紀(jì)要與決策記錄
- 中秋福利采購合同
- 委托代理進(jìn)口合同協(xié)議書
- 2025年天津貨運(yùn)上崗證考試考哪些科目
- 2025年蚌埠駕校考試貨運(yùn)從業(yè)資格證考試題庫
- f2025二手商鋪買賣合同8篇
- 《2.2分子結(jié)構(gòu)與物質(zhì)的性質(zhì)》說課稿
- DeepSeek從入門到精通培訓(xùn)課件
- 俄羅斯進(jìn)口凍肉合同范例
- 2.3 品味美好情感 課件 -2024-2025學(xué)年統(tǒng)編版道德與法治 七年級下冊
- 2025年湖北省技能高考(建筑技術(shù)類)《建設(shè)法規(guī)》模擬練習(xí)試題庫(含答案)
- 部編版七年級語文下冊《第2課說和做》課件
- 養(yǎng)老服務(wù)信息化發(fā)展-深度研究
- 2024-2025學(xué)年第二學(xué)期學(xué)??倓?wù)工作計(jì)劃(附2月-6月安排表行事歷)
- 23G409先張法預(yù)應(yīng)力混凝土管樁
- 個體工商戶公司章程模板
- 蘭州商學(xué)院二級學(xué)院權(quán)力運(yùn)行流程圖
- 預(yù)埋件計(jì)算公式
評論
0/150
提交評論