版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
淺談應(yīng)用Benford法則和Apriori算法對海量數(shù)據(jù)的審計
[摘要]隨著信息時代的飛速發(fā)展,被審計單位財務(wù)和業(yè)務(wù)數(shù)據(jù)量爆炸式增長,審計技術(shù)必須不斷發(fā)展和創(chuàng)新以適應(yīng)信息時代審計的新要求。本文在這一背景下,對審計技術(shù)的創(chuàng)新作了探索性的研究,主要通過Benford法則和Apriori算法的關(guān)聯(lián)數(shù)據(jù)挖掘的技術(shù)手段在審計中的應(yīng)用,探討了如何在被審計單位海量數(shù)據(jù)中進(jìn)行挖掘分析,從而發(fā)現(xiàn)有業(yè)務(wù)意義的強(qiáng)規(guī)則,通過這些強(qiáng)規(guī)則解釋數(shù)位發(fā)生偏離的原因,從而快速發(fā)現(xiàn)審計疑點(diǎn)。
[關(guān)鍵詞]Benford法則;Apriori算法;關(guān)聯(lián)規(guī)則;審計數(shù)據(jù)分析
1技術(shù)簡介
1.1Benford法則簡介
1.Benford法則[1]的定義
1938年,通用電氣公司物理學(xué)家FrankBenford收集了大量的數(shù)據(jù)集合后發(fā)現(xiàn),人們處理較低數(shù)字開頭的數(shù)值的頻率較大。
2Benford法則的Benford分布
Benford分布屬于第二代分布,描述了數(shù)據(jù)總體的客觀分布規(guī)律,數(shù)據(jù)總體由其他分布中的抽樣數(shù)據(jù)組成的分布。
2004年UtahStateUniversity的CindyDurtschi的研究[2]表明:
數(shù)字出現(xiàn)概率的期望值的標(biāo)準(zhǔn)偏差為:
Z=/Si
分布概率的Z統(tǒng)計量為:
P0:實際的數(shù)據(jù)出現(xiàn)比率;Pe:根據(jù)Benford法則的預(yù)期出現(xiàn)比率;Si:某個數(shù)字的標(biāo)準(zhǔn)偏差;n:目標(biāo)數(shù)據(jù)集的記錄數(shù)。
3Benford分布中的數(shù)字頻率上下限
數(shù)字頻率的上限:
數(shù)字頻率的下限:
4Benford法則的應(yīng)用范圍
可以針對海量數(shù)據(jù)進(jìn)行挖掘分析,數(shù)據(jù)規(guī)模越大,分析結(jié)果越精確。
會計舞弊調(diào)查[3-5]、審計[6-8]、稅收監(jiān)管[9]、金融分析和反洗錢[10]。
1.2Apriori算法簡介
Apriori算法[11]是一種對布爾關(guān)聯(lián)規(guī)則頻繁項集進(jìn)行挖掘的算法。Apriori算法使用一種逐層搜索的迭代方法,即使用k-項集用于探索-項集,其中k=1,2,3,…,n,n∈N,直到最終無法找到頻繁-項集,從而確定最終的頻繁k-項集。
2應(yīng)用Benford法則和Apriori算法對海量數(shù)據(jù)的審計分析
Benford法則和Apriori算法的聯(lián)合數(shù)據(jù)挖掘在審計中的應(yīng)用主要圍繞為以下兩個核心步驟展開:
2.1應(yīng)用Benford法則發(fā)現(xiàn)審計疑點(diǎn)
判斷數(shù)據(jù)的來源是否符合Benford法則的應(yīng)用范圍。
對總體數(shù)據(jù)的一、二位有效數(shù)字進(jìn)行Benford法則的符合性測試,初步發(fā)現(xiàn)對數(shù)據(jù)進(jìn)行深入鉆取的線索。
對標(biāo)準(zhǔn)分布頻率和實際分布頻率進(jìn)行比較,分析頻率偏差,確定合理的鉆取重點(diǎn)。
根據(jù)分析結(jié)果和實際需要,進(jìn)行更多位數(shù)字的進(jìn)一步數(shù)據(jù)鉆取和分析,直至發(fā)現(xiàn)目標(biāo)數(shù)據(jù)。
鉆取過程如圖1所示。
2.2應(yīng)用Apriori算法分析審計疑點(diǎn)
采集通過Benford法則分析后輸出的疑點(diǎn)數(shù)據(jù)集。
整理疑點(diǎn)數(shù)據(jù)集以建立事務(wù)集,即Apriori算法要求輸入的數(shù)據(jù)集合。
掃描事務(wù)集產(chǎn)生候選數(shù)據(jù)集合,并依據(jù)最小支持度篩選出頻繁項集。
頻繁項集進(jìn)行自關(guān)聯(lián),迭代第三、第四步,確定最終的頻繁項集。
依據(jù)最小置信度從頻繁項集產(chǎn)生強(qiáng)規(guī)則。
對強(qiáng)規(guī)則進(jìn)行人工審計業(yè)務(wù)分析。
3應(yīng)用案例
3.1應(yīng)用Benford法則對審計疑點(diǎn)的發(fā)現(xiàn)過程
3.1.1確定審計數(shù)據(jù)和目標(biāo)字段
分析某企業(yè)的憑證數(shù)據(jù),從其記賬憑證表accvouch摘取字段結(jié)構(gòu)如表1所示:
3.1.2數(shù)據(jù)導(dǎo)入
將相應(yīng)的目標(biāo)數(shù)據(jù)表導(dǎo)入審計人員使用的數(shù)據(jù)庫。
3.1.3總體頻率計算
3.1.3.1數(shù)位的選取
以憑證T2000001和T2000002為例解釋數(shù)位選取方式,如我們選取憑證編號T2000001的金額欄1000元的第一、二位數(shù)值為”10”,作為該筆記錄的第一、二位數(shù);我們選取憑證編號為T2000002的借方金額欄3029元的第一、二位數(shù)值為”30”,作為該筆記錄的第一、二位數(shù),如表2所示:
3.1.3.2數(shù)位分析
對記賬憑證表accvouch中的借方金額字段前兩位進(jìn)行分析,第一、二數(shù)值為10的憑證紀(jì)錄有540筆,全部記錄有10149筆,因此第一、二位數(shù)為”10”頻率為5.3%。部分結(jié)果如圖2所示。
3.1.4分析頻率偏差
根據(jù)Benford分布的數(shù)字頻率上限、數(shù)字頻率下限和分布概率Z統(tǒng)計量的公式計算得到圖2所示數(shù)據(jù)。
分析圖2數(shù)據(jù)可以得出:
第一、二位數(shù)為”10”的實際頻率為5.3%,高于Benford法則的理論上限4.53%,計算其Z統(tǒng)計量的值,Z值為5.8444,也大于1.96,因此我們初步判定存在錯誤、潛在舞弊行為或者人為的偏差。
第一、二位數(shù)為”11”的實際頻率為3.25%,低于Benford法則的理論下限3.4%,雖然Z值為3.038也大于1.96,但可能是由于數(shù)位為”10”超過Benford法則的理論頻率過大從而導(dǎo)致其頻率偏低,因此應(yīng)該屬于無異常。
3.2應(yīng)用Apriori算法對審計疑點(diǎn)的關(guān)聯(lián)規(guī)則挖掘
3.2.1獲取并整理疑點(diǎn)數(shù)據(jù)
為了進(jìn)一步明晰數(shù)據(jù)間的關(guān)系,觀察數(shù)據(jù)的規(guī)律性,對疑點(diǎn)數(shù)據(jù)通過關(guān)聯(lián)查詢篩選出來,形成審計中間表,部分?jǐn)?shù)據(jù)如表3所示。
3.2.2運(yùn)用Apriori算法探索關(guān)聯(lián)規(guī)則
步驟一:以表3中的第1列、第3列、第4列和第5列數(shù)據(jù)建立事務(wù)集D,由D建立候選1-項集C1,部分?jǐn)?shù)據(jù)如表4所示。
步驟二:假設(shè)最小支持記錄數(shù)為100,將支持度不足的項去掉,得到頻繁1-項集L1,如表5所示。
步驟三:循環(huán)步驟一和步驟二,得到最終的頻繁3-項集L3,如表6所示。
步驟四:根據(jù)最終的頻繁3-項集L3和設(shè)置的最小置信度100%得出表7所示的強(qiáng)規(guī)則。
步驟五:由業(yè)務(wù)審計人員確定強(qiáng)規(guī)則的業(yè)務(wù)價值,進(jìn)行人工排查后,確定編號為1的強(qiáng)規(guī)則為有意義的規(guī)則。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版甲醛合作協(xié)議書范本
- 武漢海事職業(yè)學(xué)院《基礎(chǔ)醫(yī)學(xué)概要》2023-2024學(xué)年第一學(xué)期期末試卷
- 溫州大學(xué)《測繪管理與法規(guī)》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五版房產(chǎn)收購項目驗收標(biāo)準(zhǔn)協(xié)議書3篇
- 2024高層管理人員保密知識與信息保護(hù)合同版B版
- 二零二五版夫妻自愿離婚協(xié)議及財產(chǎn)分配范本6篇
- 2025年度新能源汽車充電樁安裝與運(yùn)營服務(wù)合同6篇
- 唐山工業(yè)職業(yè)技術(shù)學(xué)院《植物營養(yǎng)診斷與施肥(實驗)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024版治療承諾協(xié)議書
- 二零二五年度海鮮產(chǎn)品國際認(rèn)證采購合同3篇
- 市政道路建設(shè)工程竣工驗收質(zhì)量自評報告
- 公司設(shè)備轉(zhuǎn)讓合同協(xié)議書
- 2023年全國統(tǒng)一建筑工程預(yù)算工程量計算規(guī)則完整版
- 教科版四年級科學(xué)下冊第三單元巖石與土壤4.制作巖石和礦物標(biāo)本(教學(xué)設(shè)計)教案
- 大學(xué)《工程力學(xué)》期末考試試題庫含詳細(xì)答案
- 2022年湖北省武漢市中考數(shù)學(xué)試卷含解析
- TLFSA 003-2020 危害分析與關(guān)鍵控制點(diǎn)(HACCP)體系調(diào)味面制品生產(chǎn)企業(yè)要求
- LY/T 2244.3-2014自然保護(hù)區(qū)保護(hù)成效評估技術(shù)導(dǎo)則第3部分:景觀保護(hù)
- 紀(jì)律教育月批評與自我批評五篇
- GB/T 26480-2011閥門的檢驗和試驗
- GB/T 13342-2007船用往復(fù)式液壓缸通用技術(shù)條件
評論
0/150
提交評論