論數(shù)據(jù)采集工具的現(xiàn)狀問題解決方案和展望_第1頁
論數(shù)據(jù)采集工具的現(xiàn)狀問題解決方案和展望_第2頁
論數(shù)據(jù)采集工具的現(xiàn)狀問題解決方案和展望_第3頁
論數(shù)據(jù)采集工具的現(xiàn)狀問題解決方案和展望_第4頁
論數(shù)據(jù)采集工具的現(xiàn)狀問題解決方案和展望_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、論數(shù)據(jù)采集工具的現(xiàn)狀問題解決方案和展望論數(shù)據(jù)采集工具的現(xiàn)狀、問題、解決方案和展望一、數(shù)據(jù)采集工具的現(xiàn)狀和存在的問題數(shù)據(jù)采集工具的發(fā)展經(jīng)過了兩代產(chǎn)品。第一代數(shù)據(jù)采集工具主要是根據(jù)財務(wù)軟件使用的數(shù)據(jù)庫,直接拷貝財務(wù)軟件數(shù)據(jù)庫文件。比如:用友U811版本的軟件后臺數(shù)據(jù)庫采用ACCESS直接拷貝相關(guān)UFDATA.MDB文件。用友U852版本的軟件后臺數(shù)據(jù)庫采用SQLSERVER能夠有三種采集方式:第一、經(jīng)過ODBC或者OLEDB等方式直連SQLSERVE敢據(jù)庫,把數(shù)據(jù)下來生成第三方文件格式,比如ACCES誠者文本文件等。第二、在SQLSERVERk業(yè)管理器或者查詢分析器中直接備份需要的數(shù)據(jù)庫,生成SQ

2、LSERVE敢據(jù)庫的備份文件*.BAK,然后直接拷貝該文件。第三、直接找到SQLSERVER勺物理文件*.MDF,拷貝相應(yīng)的文件。這一代采集工具一般為通用型數(shù)據(jù)采集工具,比如:文件型數(shù)據(jù)查找拷貝工具、SQLSERVEFRI集工具、ORACLE采集工具等。這一代工具有其優(yōu)點(diǎn):第一、工具簡練,依據(jù)常見數(shù)據(jù)庫類型做相關(guān)工具;第二、采集數(shù)據(jù)比較完整,基本上是整個數(shù)據(jù)庫全部照搬,屬于數(shù)據(jù)庫級??墒且灿忻黠@的不足:第一,需要有相關(guān)數(shù)據(jù)庫的基礎(chǔ)知識,比如ODBC數(shù)據(jù)源配置、WINDOWS認(rèn)證或者SQLSERVE福合認(rèn)證方式。其次,采集的數(shù)據(jù)位全部數(shù)據(jù),其中有很多數(shù)據(jù)沒有用,如果遇到特別大的數(shù)據(jù)時,采集的時間

3、很長,而且占用很大的硬盤空間。第三,直接拿到的數(shù)據(jù)庫備份,需要有該數(shù)據(jù)庫的環(huán)境才能恢復(fù)進(jìn)去,這些需要有相關(guān)數(shù)據(jù)庫操作經(jīng)驗(yàn)的人員才能掌握。第四、采集工具分散,不能集成在一起使用。因此,第一代數(shù)據(jù)采集工具在應(yīng)用方面的不足,催生了第二代采數(shù)工具的產(chǎn)生。第二代數(shù)據(jù)采集工具充分利用了財務(wù)軟件系統(tǒng)本身的后臺數(shù)據(jù)庫資源,經(jīng)過直接連接后臺數(shù)據(jù)庫,采集需要用到的數(shù)據(jù)表,并經(jīng)過數(shù)據(jù)轉(zhuǎn)換算法把數(shù)據(jù)導(dǎo)出到設(shè)計了固定表結(jié)構(gòu)的第三方文件中。比如:使用工具采集金蝶K3數(shù)據(jù),經(jīng)過填寫連接SQLSERVER數(shù)據(jù)庫的參數(shù),金蝶K3服務(wù)器IP、用戶名SASA的密碼,直接連接到金蝶K3的數(shù)據(jù)庫,然后關(guān)聯(lián)相關(guān)數(shù)據(jù)表t_Account、

4、t_Balance、t_Voucher、t_VoucherEntry進(jìn)行查詢輸出成固定結(jié)構(gòu)數(shù)據(jù)kmk科目庫、kmye年初數(shù)庫、pzk憑證庫。第二代工具有其優(yōu)點(diǎn):第一、以財務(wù)軟件為單位,每種財務(wù)軟件做一個接口,針對性強(qiáng);采集工具集成度高,把各種財務(wù)軟件接口都集成在一個數(shù)據(jù)采集工具上,方便維護(hù)和使用;第二、采集數(shù)據(jù)屬于字段級,僅采集需要的數(shù)據(jù)表中的某些字段,采集后的數(shù)據(jù)很?。坏谌?、直連數(shù)據(jù)方式,能夠充分利用數(shù)據(jù)庫環(huán)境資源,高效且省資源。然而,這種方式也有其致命的弱點(diǎn):第一、字段級的數(shù)據(jù)采集,需要對財務(wù)軟件數(shù)據(jù)結(jié)構(gòu)非常熟悉,只要有一點(diǎn)問題都需要到現(xiàn)場重新采集數(shù)據(jù),非常麻煩。而且如果需要一些其它的輔助

5、字段,由于需求沒有考慮周全,也需要重新采集。第二、只支持直連數(shù)據(jù)庫采集,不支持備份方式采集,對于很多單位不允許直連數(shù)據(jù)庫只提供備份的情況,就需要自己手動恢復(fù)數(shù)據(jù),對使用者要求較高。第三、采集后的數(shù)據(jù)都是按照標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu)進(jìn)行轉(zhuǎn)換整理后的數(shù)據(jù),原始表結(jié)構(gòu)已經(jīng)不復(fù)存在,這樣的數(shù)據(jù)作為證據(jù)保留下來是有問題的,正確性無法保障。二、針對數(shù)據(jù)采集工具之不足的解決方案數(shù)據(jù)采集工具有以下三點(diǎn)原則性分歧或者不足之處:第一、數(shù)據(jù)采集的顆粒度過大或者顆粒度過小。第一代工具強(qiáng)調(diào)數(shù)據(jù)庫的全盤拷貝,不論所采集數(shù)據(jù)是否有用全部采集,造成取了很多沒有用的數(shù)據(jù),而且采集速度明顯會降低,這種數(shù)據(jù)庫級的采集方式顆粒度過大;而第二代采

6、集工具僅采集使用到的表中的某些字段,當(dāng)前沒有需求的字段都不會提取,如果一旦出現(xiàn)表結(jié)構(gòu)分析不完整或者需求的增加,都要重新到現(xiàn)場采集,費(fèi)時費(fèi)力費(fèi)錢,這種字段級的采集方式顆粒度過小。第二、數(shù)據(jù)采集接口是按照數(shù)據(jù)庫類型組織還是按照財務(wù)軟件類別組織。第一代工具按照數(shù)據(jù)庫的幾種類型來組織采數(shù)接口,缺點(diǎn)就是需要一定的數(shù)據(jù)庫基礎(chǔ)知識,上手不容易。第二代采集工具按照財務(wù)軟件類別組織,缺點(diǎn)就是財務(wù)軟件很多,需要對每種財務(wù)軟件結(jié)構(gòu)了解透徹,比較費(fèi)功夫,一旦分析有誤容易采集數(shù)據(jù)不全。第三、采集后的數(shù)據(jù)是整個數(shù)據(jù)庫的備份還是需要經(jīng)過轉(zhuǎn)換后的數(shù)據(jù)。第一代工具強(qiáng)調(diào)采集整個數(shù)據(jù)庫,而且采集的數(shù)據(jù)不做任何變動,保持原貌,缺點(diǎn)是

7、數(shù)據(jù)過大,不好處理。第二代工具在采集的同時做了數(shù)據(jù)轉(zhuǎn)換操作,已經(jīng)改變了原有數(shù)據(jù)庫的結(jié)構(gòu),缺點(diǎn)是結(jié)構(gòu)發(fā)生變化,不能作為原始證據(jù)。針對以上三點(diǎn)原則性分歧或者不足之處所提出的解決方案:1、選擇適中的采集粒度,即數(shù)據(jù)表級采集。采集我們可能用到的數(shù)據(jù)表,字段不做篩選,整張表全部采集,表中記錄經(jīng)過where條件做過濾。這樣既能夠避免采集無用的數(shù)據(jù),又能夠保證表結(jié)構(gòu)的完整性,及時需求擴(kuò)展到同一張表的其它字段也不用重新采集。2、綜合財務(wù)軟件類別和數(shù)據(jù)庫類型自組織采集接口。既有各種財務(wù)軟件的單獨(dú)接口,也有幾種數(shù)據(jù)庫的通用采集接口,將萬全模式和傻瓜模式相結(jié)合。當(dāng)遇到已有財務(wù)軟件單獨(dú)接口的情況,直接使用簡單模式采集

8、,當(dāng)遇到?jīng)]有見過的財務(wù)軟件時,采用完全模式也能夠把數(shù)據(jù)完整采集到。3、采集的數(shù)據(jù)不要經(jīng)過轉(zhuǎn)換處理,轉(zhuǎn)換過程放到單獨(dú)的數(shù)據(jù)轉(zhuǎn)換階段處理。數(shù)據(jù)為用到的某些表,而且保持表的結(jié)構(gòu)完整性,不改變表的原來的任何屬性。這樣既能夠減少數(shù)據(jù)過大,內(nèi)容冗余問題,又能夠保持原有格式作為原始證據(jù)之用。三、今后數(shù)據(jù)采集工具發(fā)展的方向經(jīng)過對數(shù)據(jù)采集工具的現(xiàn)狀、問題及解決方案的探討,將來的新一代數(shù)據(jù)采集工具應(yīng)該具備如下特點(diǎn):1、自動搜索財務(wù)軟件:工具運(yùn)行后經(jīng)過自動檢索本機(jī)注冊表,本機(jī)目錄,找特征文件等方式,自動檢索出本機(jī)安裝的財務(wù)軟件及版本,并最大可能的把能夠相關(guān)連接數(shù)據(jù)庫的參數(shù)檢索出來自動填入。實(shí)現(xiàn)真正意義上的“以人為本

9、”的傻瓜式取數(shù)。2、支持備份取數(shù):工具應(yīng)該支持各種數(shù)據(jù)庫備份的數(shù)據(jù)采集,即在安裝了相應(yīng)備份的數(shù)據(jù)庫環(huán)境基礎(chǔ)上,工具提供備份還原的功能,并直接在還原的數(shù)據(jù)庫上進(jìn)行數(shù)據(jù)采集工作,將備份恢復(fù)和采集數(shù)據(jù)融為一體。另外,針對各種財務(wù)軟件本身的備份文件,也要加緊研發(fā)相關(guān)解析接口,能夠直接讀取備份文件。&支持多種數(shù)據(jù)庫方式取數(shù):數(shù)據(jù)采集工具應(yīng)該能支持各種數(shù)據(jù)庫的采集,包括常見的ORACLE,SQLSERVER,DB2,SYBASE,MYSQL,INFORMIX,ACCESS,SYBASEANYWHERE,INTERBASE,POSTGRESQL,TXT,EXCE他酮包括通用數(shù)據(jù)庫采數(shù)方式,比如odb

10、c,ado方式等。4取數(shù)模板開放性:以前的數(shù)據(jù)采集接口,采了哪些表,哪些字段都是寫到程序中的,都經(jīng)過了編譯處理的,對于應(yīng)用者來說都是黑箱操作,不透明。將來的數(shù)據(jù)采集模版應(yīng)該是開放式的,透明的。這種采集接口模板化結(jié)構(gòu)設(shè)計,能夠輕松制作各種采集接口,支持接口的任意導(dǎo)入和導(dǎo)出,其開放式、圖形化的采集模板設(shè)計界面,方便所有應(yīng)用者制作數(shù)據(jù)采集接口。即使是自行開發(fā)設(shè)計的財務(wù)軟件,經(jīng)過簡單配置就能成功取數(shù)。S取數(shù)不安裝數(shù)據(jù)庫客戶端便捷性:數(shù)據(jù)采集工具應(yīng)該把連接各種數(shù)據(jù)庫的方式和驅(qū)動資源進(jìn)行封裝,而且能夠自由添加各種資源文件(比如access的系統(tǒng)數(shù)據(jù)庫等)。比如在連接ORACLE數(shù)據(jù)庫時,很多情況客戶機(jī)上沒有安裝ORACL嗽據(jù)庫的客戶端程序,這是我們的采數(shù)工具也應(yīng)該支持直接連接,而delphi中的ODAC組件直連ORACLE勺方式就是一個很好的例子。&保持原始數(shù)據(jù)表結(jié)構(gòu):采集的數(shù)據(jù)保持原始數(shù)據(jù)的表結(jié)構(gòu),對于作為原始證據(jù)來說至關(guān)重要。只有和原始數(shù)據(jù)庫中的表結(jié)構(gòu),包括表名稱、字段名稱、字段類型、字段長度這些信息一致,才可能說采集的表和原始數(shù)據(jù)表一致,才能作為副本作為證據(jù)保存。如果對表結(jié)構(gòu)進(jìn)行了變動或者進(jìn)行了轉(zhuǎn)換,那么就失去了與原始表相同的這些原子特性,就存在不一致或者可能有錯誤在數(shù)據(jù)中。7、壓縮加密的安全性:工具采集后的數(shù)據(jù)一般為文本格式,這樣支持大數(shù)據(jù)存放,而且要進(jìn)行壓縮加

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論