版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
基于數(shù)據(jù)挖掘的審計數(shù)據(jù)分析[摘要]本文針對計算機審計的現(xiàn)狀,提出了基于數(shù)據(jù)挖掘的審計數(shù)據(jù)分析流程,以及應用DBSCAN聚類算法查找審計證據(jù)的辦法。[核心詞]計算機審計;數(shù)據(jù)挖掘;聚類算法;噪聲數(shù)據(jù)隨著經(jīng)濟和信息技術的不停發(fā)展,許多公司開始引入了ERP等系統(tǒng),這些系統(tǒng)使得公司的眾多活動數(shù)據(jù)能夠?qū)崟r統(tǒng)計,形成了大量有關公司經(jīng)營管理的數(shù)據(jù)倉庫。從這些海量數(shù)據(jù)中獲取有用的審計數(shù)據(jù)是現(xiàn)在計算機審計的一種應用。對于審計人員來說,如何從被審計單位的海量數(shù)據(jù)中找出全方面、高質(zhì)量的審計數(shù)據(jù)從而找出審計證據(jù)是一種難題。本文運用數(shù)據(jù)挖掘技術對此問題進行了探討并提出理解決的辦法。數(shù)據(jù)挖掘(DataMining)指的是從大量的、不完全的、有噪聲的、含糊的、隨機的實際應用數(shù)據(jù)中提取出隱藏的、不為人知的卻潛在有用的信息和知識的過程[1]。事實上,實際應用數(shù)據(jù)的質(zhì)量和存儲模式對于實施計算機審計并成功獲取審計證據(jù)非常重要。由于被審單位信息系統(tǒng)軟硬件平臺的異構(gòu)性和可能存在的人為故意隱瞞、造假等,為確保計算機審計工作順利進行和審計結(jié)論的對的,對審計數(shù)據(jù)進行采集時必須對數(shù)據(jù)進行檢查、控制和分析。1審計數(shù)據(jù)采集審計數(shù)據(jù)采集指在開展計算機審計時從被審計單位的財務及業(yè)務信息系統(tǒng)及其它數(shù)據(jù)源獲得審計所需的電子數(shù)據(jù)并進行適宜的格式轉(zhuǎn)換[3]。普通來說,計算機審計中數(shù)據(jù)采集的辦法重要涉及下列幾個:(1)運用被審單位信息系統(tǒng)的數(shù)據(jù)導出功效。大多數(shù)的信息管理系統(tǒng)都提供了數(shù)據(jù)導出的功效,審計人員直接能夠運用該功效導出公司財務數(shù)據(jù)完畢數(shù)據(jù)的采集。(2)運用通用的數(shù)據(jù)解決軟件完畢數(shù)據(jù)采集。如Access、SQLServer等都含有較強大的數(shù)據(jù)導入導出功效和數(shù)據(jù)轉(zhuǎn)換功效。審計人員能夠運用這些軟件完畢數(shù)據(jù)的采集。如被審公司原始數(shù)據(jù)為文本格式能夠轉(zhuǎn)換為數(shù)據(jù)庫表格格式。(3)運用審計軟件完畢數(shù)據(jù)采集。如國家從2002年開始建設的“金審工程”就以現(xiàn)場審計實施系統(tǒng)(AO)及審計辦公系統(tǒng)(OA)作為計算機輔助審計的工具。別外應用國內(nèi)的公司財務審計軟件、審計數(shù)據(jù)采集分析軟件等都能夠完畢審計數(shù)據(jù)的采集。(4)運用專用程序接口完畢數(shù)據(jù)采集。當被審計單位提供的審計數(shù)據(jù)的數(shù)據(jù)構(gòu)造與已有的審計數(shù)據(jù)解決軟件系統(tǒng)的數(shù)據(jù)構(gòu)造差別較大時,能夠在審計人員的協(xié)助下由專門的程序員開發(fā)接口程序,完畢數(shù)據(jù)的采集,但成本相對較高。2數(shù)據(jù)清洗運用數(shù)據(jù)挖掘?qū)徲嫈?shù)據(jù)進行解決分類時,為了提高分類的精確性、高效性和可伸縮性,必須對數(shù)據(jù)庫進行預解決,涉及:數(shù)據(jù)的清洗、有關性分析、數(shù)據(jù)轉(zhuǎn)換等。文獻[4]中給出數(shù)據(jù)清洗的定義為:發(fā)現(xiàn)和消除數(shù)據(jù)中的錯誤和不一致來提高數(shù)據(jù)的質(zhì)量。普通而言,審計數(shù)據(jù)庫中數(shù)據(jù)采集于異質(zhì)操作數(shù)據(jù)庫,不可避免存在著數(shù)據(jù)的錯誤或不一致等問題,如數(shù)據(jù)造假、數(shù)據(jù)重復、數(shù)據(jù)缺失等錯誤。根據(jù)文獻[5]提出的審計數(shù)據(jù)質(zhì)量特性,必須要對采集的原始數(shù)據(jù)進行清洗,即由“臟”變“干凈”,提高審計數(shù)據(jù)質(zhì)量,這是確保審計結(jié)論對的的核心。數(shù)據(jù)清洗的普通過程如圖2所示。(1)數(shù)據(jù)分析:為了清洗出干凈的數(shù)據(jù),必須對數(shù)據(jù)進行詳盡的分析,涉及數(shù)據(jù)的格式類別等。例如采集來的財務數(shù)據(jù)的字段類型、寬度、含義等。(2)模式轉(zhuǎn)換:模式轉(zhuǎn)換重要是指將源數(shù)據(jù)映射成目的數(shù)據(jù)模型,如屬性的轉(zhuǎn)換,字段的約束條件和數(shù)據(jù)庫中各個數(shù)據(jù)集之間的映射和轉(zhuǎn)換等。有時需要將多個數(shù)據(jù)表合并成一種二維表格,有時卻要將一種數(shù)據(jù)表拆分成多個二維表格方便于問題的解決。(3)數(shù)據(jù)校驗:上一步的模式轉(zhuǎn)換可行否,需要進行評定測試,通過重復分析、設計、計算、分析才干更加好地清洗數(shù)據(jù)。否則不通過數(shù)據(jù)校驗可能有些錯誤數(shù)據(jù)不是很明顯,不能被較好地篩選出來。例如模式轉(zhuǎn)換時將一種數(shù)據(jù)集分解成多個數(shù)據(jù)表的時候,造成父表的主核心字的值和子表外部核心字的值不一致,從而形成孤立統(tǒng)計,影響審計人員審計證據(jù)的對的性,進而影響審計結(jié)論的對的性。(4)數(shù)據(jù)回流:用“干凈”的數(shù)據(jù)替代原始數(shù)據(jù)源中的“臟”數(shù)據(jù),避免下次數(shù)據(jù)采集時重做數(shù)據(jù)的清洗。有時候數(shù)據(jù)的清洗需要重復進行,審計人員需要對采集到的電子數(shù)據(jù)進行多次清洗,這樣才干得到高質(zhì)量的審計數(shù)據(jù)。3數(shù)據(jù)挖掘?qū)崿F(xiàn)通過數(shù)據(jù)預解決后的審計數(shù)據(jù)庫包含了多個數(shù)據(jù)集,每個數(shù)據(jù)集又包含了若干數(shù)據(jù)統(tǒng)計或者稱為元組,如何從這些二維表格數(shù)據(jù)中挖掘出故意義的審計數(shù)據(jù)至關重要。本文介紹一種運用聚類算法進行審計數(shù)據(jù)挖掘的算法。3.1算法概述3.1.1聚類算法所謂聚類就是根據(jù)相似性對數(shù)據(jù)對象進行分組,發(fā)現(xiàn)數(shù)據(jù)的分布特性,使得每個聚類中數(shù)據(jù)有非常高的相似性而不同聚類中的數(shù)據(jù)盡量不同[6]。它同分類的重要區(qū)別在于,分類事先懂得所根據(jù)的數(shù)據(jù)特性,而聚類是要找到這個數(shù)據(jù)特性。作為數(shù)據(jù)挖掘的功效,聚類分析能夠作為一種獲取數(shù)據(jù)分布狀況、觀察每個類的特性和對特定類進行進一步獨立分析的工具;聚類也能夠有效解決噪聲數(shù)據(jù),例如數(shù)據(jù)庫中普遍包含的孤立點、空缺或錯誤數(shù)據(jù)等。聚類分析算法普通有5類[7]:①基于劃分的辦法,如CLARANS;②基于層次的辦法,如CURE和BIRCH;③基于密度的辦法,如DBSCAN、OPTICS、GDBSCAN和DBRS;④基于網(wǎng)格的辦法,如STING和WaveCluster;⑤基于模型的辦法,如COBWEB。其中DBSCAN算法含有較好的過濾噪聲數(shù)據(jù)的優(yōu)點。本文探討運用DBSCAN算法對審計數(shù)據(jù)進行解決,找出異常數(shù)據(jù),查找出審計證據(jù)。3.1.2DBSCAN算法DBSCAN算法的基本思想為[8]:對于同一種聚類中的每個對象,在給定的半徑d的鄰域中包含的對象不能少于某一種給定的最小數(shù)目MinPts(也稱密度)。為了生存一種聚類,DBSCAN算法首先從數(shù)據(jù)集DB中選擇任意一種對象p,并查找數(shù)據(jù)集DB中有關半徑d的全部鄰域?qū)ο?,如果這個鄰域?qū)ο蟮膫€數(shù)不大于最小數(shù)目MinPts,則p為噪聲數(shù)據(jù);否則p的鄰域?qū)ο笮纬梢环N初始聚類N,N中包含對象p及p直接密度可達的全部對象。然后擬定該類中的每一種對象q與否為核心對象,若是,就將q的d—鄰域內(nèi)尚未包含到N的全部對象追加到N中,并繼續(xù)鑒定新追加的對象與否為核心對象,如果是,重復上述追加過程,直到這個聚類不能再擴大為止。然后DBSCAN算法再在數(shù)據(jù)集DB中另選一種沒有被標記為某個聚類或者噪聲的對象,重復上面的操作,始終到數(shù)據(jù)集DB中的全部對象要么被標記為某個聚類、要么被標記為噪聲數(shù)據(jù)為止。DBSCAN算法進行聚類的過程就是不停執(zhí)行數(shù)據(jù)集查詢比較的過程,最后產(chǎn)生的噪聲數(shù)據(jù)就是普通所說的異常數(shù)據(jù),對于協(xié)助審計人員進行審計判斷非常有效。圖3表達了二維平面坐標下的噪聲數(shù)據(jù)和若干聚類。3.2數(shù)據(jù)模式定義3.2.1項間的距離設Ri和Rj是數(shù)據(jù)集DB中的任意兩條統(tǒng)計即某兩個數(shù)據(jù)項,它們之間的距離定義為:式中,Ri(Rix,Riy),Rj(Rjx,Rjy)表達數(shù)據(jù)集中兩個項Ri和Rj在二維空間的坐標點,因此dij表達Ri和Rj在二維空間坐標的距離。如果dij不不大于給定的值d,則表達Ri和Rj不屬于同一種聚類分組。3.2.2審計數(shù)據(jù)預解決數(shù)據(jù)挖掘時數(shù)據(jù)的選擇是在二維平面上進行的,首先選擇列(字段或?qū)傩裕?,再選擇行(統(tǒng)計或元組)。為了能夠獲得有效的審計證據(jù)得出對的的審計結(jié)論,有時候必須對源數(shù)據(jù)集進行數(shù)據(jù)轉(zhuǎn)換。由于各個企事業(yè)單位的規(guī)模不同,財務數(shù)據(jù)的數(shù)量級或者數(shù)量單位可能不同,為了得到更加科學可靠的聚類分析成果,需要對財務數(shù)據(jù)進行預解決,普通進行比例變換。如將x軸定義為某公司某月營業(yè)收入與利潤總額的比值,將y軸定義為財務費用與凈利潤的比值,這樣解決的數(shù)據(jù)能更加好地反映該公司的實際狀況。這里的財務數(shù)據(jù)預解決都是由顧客來定義的,能夠根據(jù)不同的審計規(guī)定和審計目的來定義。建立一種新的二維表格數(shù)據(jù)最少包含4個屬性項:統(tǒng)計號,x軸數(shù)據(jù),y軸數(shù)據(jù),標記。其中統(tǒng)計號保持對應源數(shù)據(jù)集DB中的統(tǒng)計號,x坐標和y坐標即為通過比例變換后的數(shù)值,標記字段初始內(nèi)容為空。3.3算法描述及流程圖給定一種計算機審計數(shù)據(jù)集,假設含有N個元組或者統(tǒng)計,運用DBSCAN算法思想構(gòu)造出L個分組(L<N),每個分組代表一種聚類。且L個分組必須滿足以下條件:(1)每個分組最少包含MinPts個元組。(2)每個分組中的任意兩個元組直接的距離不大于等于給定的距離d。(3)每個元組僅屬于一種分組。圖4為實現(xiàn)審計數(shù)據(jù)挖掘的算法(稱為AUDBSCAN)的流程圖。3.4聚類算法的實現(xiàn)算法:審計數(shù)據(jù)挖掘聚類算法(AUDBSCAN)輸入:根據(jù)數(shù)據(jù)集DB產(chǎn)生的二維表格數(shù)據(jù) //最少含有4個字段:rec統(tǒng)計號,rxx坐標數(shù)據(jù),ryy坐標數(shù)據(jù),rno標記 半徑d//度量密度的距離 密度MinPts//簇中的數(shù)目輸出:噪聲數(shù)據(jù)統(tǒng)計AlgorithmAUDBSCAN(data,d,MinPts)ForeachrecordindatadoIfeachreccordindataismarkedOutputnoisereccord//輸出標記為噪聲的數(shù)據(jù)ElseForeachreccordindataisnotmarkednoiseorclasserdoP←Rand(areccordisnotmarkednoiseorclasser)//隨機選用沒有被標記的統(tǒng)計pL←Found(p,d,MinPts)//找到p有關d的MinPts密度可達統(tǒng)計Ifs=recount(L)<MinPtsPismarkednoiseElseN←Found(p,d,MinPts)EachreccordinNismarkedclasserForeachreccordinNdoq←onereccord Ifqisacenterrecord//q為核心統(tǒng)計 N←found(q,d)EndifEndforEndifEndforEndifEndfor在AUDBSCAN算法中,運用Rand()函數(shù)產(chǎn)生第一種隨機統(tǒng)計p,運用Found()函數(shù)產(chǎn)生p有關d的MinPts密度可達統(tǒng)計。該算法最后的成果和隨機產(chǎn)生的第一條統(tǒng)計有關,形成的聚類可能有不同,但得到的噪聲數(shù)據(jù)一致,因此對于審計證據(jù)的查找是有效的。4結(jié)論數(shù)據(jù)挖掘技術與海量數(shù)據(jù)下審計業(yè)務的有效結(jié)合是將來計算機審計的一種發(fā)展方向。本文重要介紹了審計數(shù)據(jù)的采集、數(shù)據(jù)的解決轉(zhuǎn)換和數(shù)據(jù)的挖掘3個方面,并且在數(shù)據(jù)的挖掘方面采用了基于聚類的DBSCAN算法來快速、精確、高效地輸出噪聲數(shù)據(jù)。該算法中涉及的二維平面x,y軸坐標能夠根據(jù)實際審計需要由審計人員加以定義,因此能夠應用到各類審計實踐中去。另外,能夠?qū)ⅲ模拢樱茫粒嗡惴〝U展到三維空間上,只要再加上一種z軸數(shù)據(jù),固然z軸數(shù)據(jù)也應當是和x,y軸數(shù)據(jù)有關的一種比例數(shù)據(jù),此時聚類的成果將會變成一種不規(guī)則球體,從而能夠更加容易挖掘出未曾發(fā)現(xiàn)的知識,也更加容易發(fā)現(xiàn)數(shù)據(jù)間的潛在聯(lián)系。重要參考文獻[1][加]JiaweiH,MichellineK.數(shù)據(jù)挖掘概念與技術[M].范明,譯.北京:機械工業(yè)出版社,2004.[2]陳偉,張金城,RobinQiu.審計數(shù)據(jù)解決實驗中的模擬數(shù)據(jù)生成系統(tǒng)[J].計算機工程,2007(19).[3]王琦峰,胡玲玲.基于AO的審計數(shù)據(jù)采集辦法[J].計算機系統(tǒng)應用,2009(3).[4]米天勝,張金城.面對數(shù)據(jù)的計算機審計中數(shù)據(jù)質(zhì)量問題的探討[J].審計與經(jīng)濟研究,2006(1).[5]王昊,朱文明.審計數(shù)據(jù)質(zhì)量研究:從審計取證的視角[J].南京大學學報:自然科學版,2007(1).[6]楊磊,李建軍,張志軍,孫翠娟.談數(shù)據(jù)挖掘中慣用的聚類算法[J].
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二手房買賣合同范本參考
- 打管樁分包勞務合同范本
- 月結(jié)采購合同
- 學校聘用舞蹈老師培訓合同
- 景觀石購銷合同范本
- 實驗室租賃合同
- 二手房購買房屋合同
- 貨物商品購銷的合同范本
- 熱感探測器與火災警示
- 消防力量調(diào)度和協(xié)同作戰(zhàn)
- 人教版五年級上冊小數(shù)除法豎式計算練習練習300題及答案
- 綜合素質(zhì)提升培訓全面提升個人綜合素質(zhì)
- 如何克服高中生的社交恐懼癥
- 聚焦任務的學習設計作業(yè)改革新視角
- 《監(jiān)理安全培訓》課件
- 2024高二語文期末試卷(選必上、中)及詳細答案
- 淋巴瘤患者的護理
- 水利工程建設管理概述課件
- 人美版初中美術知識點匯總九年級全冊
- 2022中和北美腰椎間盤突出癥診療指南的對比(全文)
- 乳房整形知情同意書
評論
0/150
提交評論