淺談應(yīng)用Benford法則和Apriori算法對海量數(shù)據(jù)的審計_第1頁
淺談應(yīng)用Benford法則和Apriori算法對海量數(shù)據(jù)的審計_第2頁
淺談應(yīng)用Benford法則和Apriori算法對海量數(shù)據(jù)的審計_第3頁
淺談應(yīng)用Benford法則和Apriori算法對海量數(shù)據(jù)的審計_第4頁
淺談應(yīng)用Benford法則和Apriori算法對海量數(shù)據(jù)的審計_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

淺談應(yīng)用Benford法則和Apriori算法對海量數(shù)據(jù)的審計

[摘要]隨著信息時代的飛速發(fā)展,被審計單位財務(wù)和業(yè)務(wù)數(shù)據(jù)量爆炸式增長,審計技術(shù)必須不斷發(fā)展和創(chuàng)新以適應(yīng)信息時代審計的新要求。本文在這一背景下,對審計技術(shù)的創(chuàng)新作了探索性的研究,主要通過Benford法則和Apriori算法的關(guān)聯(lián)數(shù)據(jù)挖掘的技術(shù)手段在審計中的應(yīng)用,探討了如何在被審計單位海量數(shù)據(jù)中進(jìn)行挖掘分析,從而發(fā)現(xiàn)有業(yè)務(wù)意義的強(qiáng)規(guī)則,通過這些強(qiáng)規(guī)則解釋數(shù)位發(fā)生偏離的原因,從而快速發(fā)現(xiàn)審計疑點(diǎn)。

[關(guān)鍵詞]Benford法則;Apriori算法;關(guān)聯(lián)規(guī)則;審計數(shù)據(jù)分析

1技術(shù)簡介

1.1Benford法則簡介

1.Benford法則[1]的定義

1938年,通用電氣公司物理學(xué)家FrankBenford收集了大量的數(shù)據(jù)集合后發(fā)現(xiàn),人們處理較低數(shù)字開頭的數(shù)值的頻率較大。

2Benford法則的Benford分布

Benford分布屬于第二代分布,描述了數(shù)據(jù)總體的客觀分布規(guī)律,數(shù)據(jù)總體由其他分布中的抽樣數(shù)據(jù)組成的分布。

2004年UtahStateUniversity的CindyDurtschi的研究[2]表明:

數(shù)字出現(xiàn)概率的期望值的標(biāo)準(zhǔn)偏差為:

Z=/Si

分布概率的Z統(tǒng)計量為:

P0:實際的數(shù)據(jù)出現(xiàn)比率;Pe:根據(jù)Benford法則的預(yù)期出現(xiàn)比率;Si:某個數(shù)字的標(biāo)準(zhǔn)偏差;n:目標(biāo)數(shù)據(jù)集的記錄數(shù)。

3Benford分布中的數(shù)字頻率上下限

數(shù)字頻率的上限:

數(shù)字頻率的下限:

4Benford法則的應(yīng)用范圍

可以針對海量數(shù)據(jù)進(jìn)行挖掘分析,數(shù)據(jù)規(guī)模越大,分析結(jié)果越精確。

會計舞弊調(diào)查[3-5]、審計[6-8]、稅收監(jiān)管[9]、金融分析和反洗錢[10]。

1.2Apriori算法簡介

Apriori算法[11]是一種對布爾關(guān)聯(lián)規(guī)則頻繁項集進(jìn)行挖掘的算法。Apriori算法使用一種逐層搜索的迭代方法,即使用k-項集用于探索-項集,其中k=1,2,3,…,n,n∈N,直到最終無法找到頻繁-項集,從而確定最終的頻繁k-項集。

2應(yīng)用Benford法則和Apriori算法對海量數(shù)據(jù)的審計分析

Benford法則和Apriori算法的聯(lián)合數(shù)據(jù)挖掘在審計中的應(yīng)用主要圍繞為以下兩個核心步驟展開:

2.1應(yīng)用Benford法則發(fā)現(xiàn)審計疑點(diǎn)

判斷數(shù)據(jù)的來源是否符合Benford法則的應(yīng)用范圍。

對總體數(shù)據(jù)的一、二位有效數(shù)字進(jìn)行Benford法則的符合性測試,初步發(fā)現(xiàn)對數(shù)據(jù)進(jìn)行深入鉆取的線索。

對標(biāo)準(zhǔn)分布頻率和實際分布頻率進(jìn)行比較,分析頻率偏差,確定合理的鉆取重點(diǎn)。

根據(jù)分析結(jié)果和實際需要,進(jìn)行更多位數(shù)字的進(jìn)一步數(shù)據(jù)鉆取和分析,直至發(fā)現(xiàn)目標(biāo)數(shù)據(jù)。

鉆取過程如圖1所示。

2.2應(yīng)用Apriori算法分析審計疑點(diǎn)

采集通過Benford法則分析后輸出的疑點(diǎn)數(shù)據(jù)集。

整理疑點(diǎn)數(shù)據(jù)集以建立事務(wù)集,即Apriori算法要求輸入的數(shù)據(jù)集合。

掃描事務(wù)集產(chǎn)生候選數(shù)據(jù)集合,并依據(jù)最小支持度篩選出頻繁項集。

頻繁項集進(jìn)行自關(guān)聯(lián),迭代第三、第四步,確定最終的頻繁項集。

依據(jù)最小置信度從頻繁項集產(chǎn)生強(qiáng)規(guī)則。

對強(qiáng)規(guī)則進(jìn)行人工審計業(yè)務(wù)分析。

3應(yīng)用案例

3.1應(yīng)用Benford法則對審計疑點(diǎn)的發(fā)現(xiàn)過程

3.1.1確定審計數(shù)據(jù)和目標(biāo)字段

分析某企業(yè)的憑證數(shù)據(jù),從其記賬憑證表accvouch摘取字段結(jié)構(gòu)如表1所示:

3.1.2數(shù)據(jù)導(dǎo)入

將相應(yīng)的目標(biāo)數(shù)據(jù)表導(dǎo)入審計人員使用的數(shù)據(jù)庫。

3.1.3總體頻率計算

3.1.3.1數(shù)位的選取

以憑證T2000001和T2000002為例解釋數(shù)位選取方式,如我們選取憑證編號T2000001的金額欄1000元的第一、二位數(shù)值為”10”,作為該筆記錄的第一、二位數(shù);我們選取憑證編號為T2000002的借方金額欄3029元的第一、二位數(shù)值為”30”,作為該筆記錄的第一、二位數(shù),如表2所示:

3.1.3.2數(shù)位分析

對記賬憑證表accvouch中的借方金額字段前兩位進(jìn)行分析,第一、二數(shù)值為10的憑證紀(jì)錄有540筆,全部記錄有10149筆,因此第一、二位數(shù)為”10”頻率為5.3%。部分結(jié)果如圖2所示。

3.1.4分析頻率偏差

根據(jù)Benford分布的數(shù)字頻率上限、數(shù)字頻率下限和分布概率Z統(tǒng)計量的公式計算得到圖2所示數(shù)據(jù)。

分析圖2數(shù)據(jù)可以得出:

第一、二位數(shù)為”10”的實際頻率為5.3%,高于Benford法則的理論上限4.53%,計算其Z統(tǒng)計量的值,Z值為5.8444,也大于1.96,因此我們初步判定存在錯誤、潛在舞弊行為或者人為的偏差。

第一、二位數(shù)為”11”的實際頻率為3.25%,低于Benford法則的理論下限3.4%,雖然Z值為3.038也大于1.96,但可能是由于數(shù)位為”10”超過Benford法則的理論頻率過大從而導(dǎo)致其頻率偏低,因此應(yīng)該屬于無異常。

3.2應(yīng)用Apriori算法對審計疑點(diǎn)的關(guān)聯(lián)規(guī)則挖掘

3.2.1獲取并整理疑點(diǎn)數(shù)據(jù)

為了進(jìn)一步明晰數(shù)據(jù)間的關(guān)系,觀察數(shù)據(jù)的規(guī)律性,對疑點(diǎn)數(shù)據(jù)通過關(guān)聯(lián)查詢篩選出來,形成審計中間表,部分?jǐn)?shù)據(jù)如表3所示。

3.2.2運(yùn)用Apriori算法探索關(guān)聯(lián)規(guī)則

步驟一:以表3中的第1列、第3列、第4列和第5列數(shù)據(jù)建立事務(wù)集D,由D建立候選1-項集C1,部分?jǐn)?shù)據(jù)如表4所示。

步驟二:假設(shè)最小支持記錄數(shù)為100,將支持度不足的項去掉,得到頻繁1-項集L1,如表5所示。

步驟三:循環(huán)步驟一和步驟二,得到最終的頻繁3-項集L3,如表6所示。

步驟四:根據(jù)最終的頻繁3-項集L3和設(shè)置的最小置信度100%得出表7所示的強(qiáng)規(guī)則。

步驟五:由業(yè)務(wù)審計人員確定強(qiáng)規(guī)則的業(yè)務(wù)價值,進(jìn)行人工排查后,確定編號為1的強(qiáng)規(guī)則為有意義的規(guī)則。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論