數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應(yīng)用_第1頁(yè)
數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應(yīng)用_第2頁(yè)
數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應(yīng)用_第3頁(yè)
數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應(yīng)用_第4頁(yè)
數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應(yīng)用隨著計(jì)算機(jī)技術(shù)的發(fā)展和數(shù)據(jù)挖掘應(yīng)用的逐漸成熟,數(shù)據(jù)挖掘技術(shù)引起了越來(lái)越多的行業(yè)的重視。在國(guó)外,政府應(yīng)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)欺詐行為已經(jīng)有了30多年的歷史,如今,中國(guó)的各類政府機(jī)關(guān)在信息化的進(jìn)程中也都不約而同的將數(shù)據(jù)挖掘應(yīng)用提到了議事日程上來(lái)。稅務(wù)征管需要以更新、更便捷、更有效的方法,對(duì)大量的征管數(shù)據(jù)進(jìn)行分析、提取、挖掘其隱藏信息數(shù)據(jù)中的潛能。本文著重介紹了通過(guò)數(shù)據(jù)挖掘技術(shù)如何實(shí)現(xiàn)納稅評(píng)估選案,從而降低征管成本,提高管理效果。一、稅務(wù)征管發(fā)展基本狀況我國(guó)和許多起他國(guó)家一樣每年都會(huì)因?yàn)榧{稅人的偷漏稅問(wèn)題而損失大量的財(cái)政收入,有關(guān)稅務(wù)部門一直以來(lái)都致力于解決這方面的問(wèn)題

2、。但是在沒(méi)有引進(jìn)計(jì)算機(jī)工具和數(shù)據(jù)挖掘工具技術(shù)之前,這方面的工作在很大程度上,是依賴專業(yè)的人員根據(jù)以往的工作經(jīng)驗(yàn)和某些直覺(jué)上的判斷來(lái)圈定那些不法納稅人的特征,雖然這在初期可能會(huì)有很大的幫助,但是隨著稅務(wù)體制的改革,經(jīng)濟(jì)的發(fā)展,自然而然的引起的稅源的增加,稅種的增加,這時(shí),政府的稅務(wù)管理部門在使用以往總結(jié)的憑經(jīng)驗(yàn)和直覺(jué)判斷的方法,去區(qū)分判斷那些違法的納稅人,勢(shì)必會(huì)導(dǎo)致產(chǎn)生以下問(wèn)題:征管人員的增加,引起征管成本增大;選案的不科學(xué)性,引起征管效率低下;同時(shí),對(duì)于個(gè)案檢查過(guò)程中,由于沒(méi)有證據(jù)來(lái)源,所以增加了個(gè)案的時(shí)間成本,而且往往是效果也不是十分明顯。 以上種種問(wèn)題表明,僅僅依賴定性的研究來(lái)輔助政府稅務(wù)

3、管理部門如何加大監(jiān)管的工作力度已經(jīng)出現(xiàn)了很多弊端,借鑒國(guó)外的成功經(jīng)驗(yàn),使用數(shù)據(jù)挖掘,對(duì)稅務(wù)管理部門所轄的納稅戶進(jìn)行納稅評(píng)估選案的工作,將會(huì)大大提高監(jiān)管工作的效率和工作的效果。當(dāng)各個(gè)稅收征管部門把稅務(wù)信息化作為急待解決的問(wèn)題時(shí),而數(shù)據(jù)挖掘是實(shí)現(xiàn)信息化的必由之路。金稅三期展開前后,稅務(wù)部門都比較關(guān)注稅務(wù)數(shù)據(jù)的深度利用和數(shù)據(jù)挖掘問(wèn)題。二、對(duì)數(shù)據(jù)挖掘深度利用的理解數(shù)據(jù)挖掘(Data Mining)是一種知識(shí)發(fā)現(xiàn)的過(guò)程,它主要基于統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等技術(shù),高度自動(dòng)化地分析數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,并對(duì)未來(lái)情況進(jìn)行分析、預(yù)測(cè),以輔助管理者、決策者評(píng)估風(fēng)險(xiǎn)、做出正確的決策。同時(shí),

4、數(shù)據(jù)挖掘也包含了一系列旨在從數(shù)據(jù)集中發(fā)現(xiàn)有用而尚未發(fā)現(xiàn)的模式(Pattern )的技術(shù)。確切地說(shuō),從大量的數(shù)據(jù)中抽取出潛在的、不為人知的有用信息、模式和趨勢(shì),是一種更深層次的數(shù)據(jù)分析。 數(shù)據(jù)是形成知識(shí)的源泉,原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識(shí)可以被用于信息管理,查詢優(yōu)化,決策支持和過(guò)程控制,還可以用于數(shù)據(jù)自身的應(yīng)用維護(hù)。因此,數(shù)據(jù)挖掘技術(shù)是一門交叉學(xué)科,它把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢,提升到從數(shù)據(jù)中挖掘知識(shí)、提供管理和決策支

5、持。在這種需求牽引下,匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計(jì)、可視化技術(shù)和并行計(jì)算等方面的學(xué)者和工程技術(shù)人員,投身到數(shù)據(jù)挖掘這一新興的研究領(lǐng)域,形成新的技術(shù)熱點(diǎn)。在實(shí)際應(yīng)用中,數(shù)據(jù)挖掘主要采用關(guān)聯(lián)規(guī)則與時(shí)間序列、分類與聚類、Web 頁(yè)挖掘等幾種分析中進(jìn)行發(fā)現(xiàn):(一)關(guān)聯(lián)規(guī)則與時(shí)間序列分析關(guān)聯(lián)規(guī)則挖掘就是發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。根據(jù)所處理值的類型分為布爾關(guān)聯(lián)規(guī)則與量化關(guān)聯(lián)規(guī)則;根據(jù)涉及的屬性維數(shù)分為單維關(guān)聯(lián)規(guī)則或多維關(guān)聯(lián)規(guī)則。這方面比較有影響的算法有Apriori 算法等。時(shí)間序列分析與關(guān)聯(lián)規(guī)則分析類似,目的也是為了挖掘出數(shù)據(jù)之間的聯(lián)系,但時(shí)間序列分

6、析更加側(cè)重于數(shù)據(jù)在時(shí)間先后上的因果關(guān)系。(二)分類與聚類分析分類在數(shù)據(jù)挖掘中是一項(xiàng)非常重要的任務(wù)。分類的目的是通過(guò)統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法(包括決策樹法和規(guī)則歸納法)、神經(jīng)網(wǎng)絡(luò)方法等構(gòu)造一個(gè)分類模型,然后把數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射到給定類別中的某一個(gè)中去。分類分析首先為每一個(gè)觀測(cè)賦予一個(gè)標(biāo)記,然后檢查這些被標(biāo)記的觀測(cè),描述出這些觀測(cè)的特征。這種描述可以是一個(gè)數(shù)學(xué)公式或者模型,利用它可以分類新的觀測(cè)。常用的幾種典型的分類模型有線性回歸模型、決策樹模型、基于規(guī)則模型和神經(jīng)網(wǎng)絡(luò)模型等。聚類分析是把一組未標(biāo)定的記錄或個(gè)體按照相似性歸成若干類型,即" 物以類聚". 它的目的是根據(jù)一定的規(guī)則,

7、使同一類別之內(nèi)的相似性盡可能大,而類別之間的相似性盡可能小,合理地劃分記錄集合。知識(shí)外化過(guò)程的下一層次包含了更為強(qiáng)大的搜索工具和文件管理系統(tǒng),它們對(duì)貯存的知識(shí)進(jìn)行分類,并能識(shí)別出各信息源之間的相似之處?;诖?,可用聚類的方法找出知識(shí)庫(kù)中各知識(shí)結(jié)構(gòu)間隱含的關(guān)系或聯(lián)系。(三)Web 頁(yè)挖掘分析隨著Internet 的迅速發(fā)展,使得網(wǎng)絡(luò)上的信息量無(wú)比豐富,通過(guò)對(duì)Web 的挖掘,可以利用其上的海量數(shù)據(jù)進(jìn)行分析,根據(jù)分析結(jié)果找出企業(yè)管理過(guò)程中出現(xiàn)的各種問(wèn)題,對(duì)這些信息進(jìn)行分析和處理,以便識(shí)別、分析、獲取、存儲(chǔ)、傳遞信息,并將其轉(zhuǎn)化為知識(shí)。長(zhǎng)期以來(lái),稅收工作中數(shù)據(jù)利用比較常見(jiàn)的形式有:報(bào)表瀏覽、簡(jiǎn)單查詢、

8、復(fù)雜查詢、稅源分析、稅負(fù)分析、收入預(yù)測(cè)、過(guò)程監(jiān)控等,多數(shù)專家認(rèn)為,目前稅務(wù)數(shù)據(jù)應(yīng)用的一般特征是基于匯總、分類、簡(jiǎn)單計(jì)算基礎(chǔ)之上的原始稅收數(shù)據(jù)的“復(fù)制式”展現(xiàn)和對(duì)稅收現(xiàn)象的“陳列式”描述。 隨著經(jīng)濟(jì)、社會(huì)的發(fā)展,稅收數(shù)據(jù)的一般利用已經(jīng)不能滿足稅收信息化深化和稅收管理現(xiàn)代化的內(nèi)在需求,為了加強(qiáng)稅收征管、規(guī)范稅收秩序,國(guó)務(wù)院于1994年開始實(shí)施“金稅工程”?!敖鸲惞こ獭背跗谝浴霸鲋刀惐O(jiān)管”為主要目標(biāo);二期時(shí),內(nèi)容已拓寬為增值稅防偽稅控開票系統(tǒng)、防偽稅控認(rèn)證系統(tǒng)、增值稅計(jì)算機(jī)交叉稽核系統(tǒng)、發(fā)票協(xié)查信息管理系統(tǒng)的四個(gè)系統(tǒng);到了三期,其目標(biāo)已經(jīng)成為:在二期基礎(chǔ)上,建立七個(gè)子系統(tǒng)(管理子系統(tǒng)、征收子系統(tǒng)、稽

9、查子系統(tǒng)、處罰子系統(tǒng)、執(zhí)行子系統(tǒng)、救濟(jì)子系統(tǒng)、監(jiān)控子系統(tǒng) ,35個(gè)模塊。依據(jù)美國(guó)學(xué)者Richard L-Nolan 的理論(對(duì)于任何行業(yè),信息化大體要經(jīng)歷初始、蔓延、控制、集成、數(shù)據(jù)管理和成熟這樣幾個(gè)發(fā)展階段,這是信息化發(fā)展的般規(guī)律。 和Mische 的補(bǔ)充(他認(rèn)為集成和數(shù)據(jù)管理是密不可分的,因此信息化發(fā)展的必然路徑是起步、增長(zhǎng)、成熟和更新四個(gè)階段 ,目前,稅務(wù)信息化的發(fā)展階段已開始向成熟階段過(guò)渡。于是稅收數(shù)據(jù)的深度利用便提上日程。我們可以從稅收管理戰(zhàn)略和稅收政策分析兩方面來(lái)看這種需求的提出。從稅務(wù)管理戰(zhàn)略來(lái)看,在納稅前如何綜合評(píng)價(jià)簡(jiǎn)化管理制度(法律 及照章納稅宣傳的相對(duì)效果;在納稅中如何核算

10、稅收結(jié)構(gòu)和管理程度的實(shí)際資源成本(管理、照章納稅、效率、逃稅 ,以及納稅后對(duì)稅收差距的衡量(包括潛在稅收與申報(bào)稅收的差距、申報(bào)稅收與實(shí)收稅收的差距、實(shí)收稅收與送達(dá)國(guó)庫(kù)稅收的差距 ,都涉及到稅收數(shù)據(jù)的深度利用問(wèn)題。 從稅收政策分析的角度來(lái)看,稅收經(jīng)濟(jì)的和諧發(fā)展度量、稅制改革方案分析、稅收減免和優(yōu)惠的成本和政策收益、稅收政策的經(jīng)濟(jì)影響等等也涉及到稅收數(shù)據(jù)的深度利用和挖掘問(wèn)題。這些問(wèn)題都從以下兩方面引發(fā)了我們對(duì)稅務(wù)數(shù)據(jù)深度利用的理解和思考:一方面提出了我們需要全面檢視擁有的稅務(wù)數(shù)據(jù)信息的需求。在各國(guó)稅務(wù)數(shù)據(jù)信息深度利用的經(jīng)驗(yàn)當(dāng)中,提出過(guò)一些全面檢視的標(biāo)準(zhǔn),例如按照稅基到稅收收入的實(shí)現(xiàn)途徑,可以檢視:

11、稅基的規(guī)模,包括真實(shí)稅基和潛在稅基;稅收管理資源使用方向的詳細(xì)分類;管理資源使用的效用;稅收管理的效果,例如收到稅款的多少,處理案件的數(shù)量等。另一方面,更為關(guān)鍵的是,提出了如何科學(xué)利用、深度利用的問(wèn)題??偨Y(jié)以上兩方面,我們認(rèn)為稅收數(shù)據(jù)的深度利用是指:在數(shù)據(jù)集中和系統(tǒng)整合的基礎(chǔ)上,建立全面的稅務(wù)數(shù)據(jù)信息,既包括稅務(wù)系統(tǒng)內(nèi)部數(shù)據(jù),也包括其他政府部門、企業(yè)、居民等外部數(shù)據(jù),并且進(jìn)一步在各種模型的幫助下,發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律。就目前而言,重點(diǎn)任務(wù)是在稅務(wù)管理方面提出適用中國(guó)實(shí)踐的模型并且應(yīng)用,同時(shí)初步探索在稅收經(jīng)濟(jì)方面能夠刻畫符合我國(guó)國(guó)情的模型。三、構(gòu)建模型是數(shù)據(jù)深度利用的切入口如前所述,稅務(wù)數(shù)據(jù)深度利

12、用和挖掘的關(guān)鍵在于模型的應(yīng)用,下面我們就來(lái)討論模型是什么? 我們?yōu)槭裁葱枰P? 我們需要什么樣的模型? 就稅收數(shù)據(jù)深度利用的模型而言,大致可以分為兩類:以科學(xué)化管理、定量化管理、精細(xì)化管理為內(nèi)在思想的管理工具和手段所形成的模型;以研究稅收經(jīng)濟(jì)關(guān)系協(xié)調(diào)發(fā)展為目的的稅收經(jīng)濟(jì)模型。在基本認(rèn)識(shí)了稅務(wù)數(shù)據(jù)深度利用中的模型是什么之后,雖然我們達(dá)成了一種共識(shí),我們需要模型,但是如果我們思考過(guò)為什么需要模型? 顯然會(huì)對(duì)模型應(yīng)用更能得心應(yīng)手。我們認(rèn)為模型所發(fā)揮的作用無(wú)外乎以下三種:首先,刻畫稅收經(jīng)濟(jì)關(guān)系。一般而言,我們經(jīng)常提到的是模型在刻畫稅收經(jīng)濟(jì)關(guān)系當(dāng)中所起的作用,即采用代數(shù)形式的定量分析將稅收經(jīng)濟(jì)理論模型

13、化,然后適當(dāng)根據(jù)實(shí)踐情況把理論模型予以修正,并將相關(guān)數(shù)據(jù)應(yīng)用到修正模型中,對(duì)模型結(jié)果進(jìn)行經(jīng)驗(yàn)分析。這種利用的過(guò)程是階段性的,是從初級(jí)到高級(jí)的過(guò)程,是一個(gè)水平不斷提高、效果不斷改進(jìn)的發(fā)展過(guò)程。其次,歸納稅收管理實(shí)踐。模型起到的作用是將復(fù)雜的稅收征納活動(dòng)通過(guò)數(shù)字化的形式總結(jié)歸納,將稅收征納的每一個(gè)過(guò)程精細(xì)化、每一個(gè)結(jié)果數(shù)據(jù)化,并且建立起投入到產(chǎn)出之間的對(duì)應(yīng)關(guān)系。最后,數(shù)據(jù)組織的導(dǎo)向性作用。這種導(dǎo)向性作用的發(fā)揮是通過(guò)模型應(yīng)用過(guò)程當(dāng)中對(duì)各類數(shù)據(jù)提出的要求實(shí)現(xiàn)的,通過(guò)該作用,隨著時(shí)間的發(fā)展,數(shù)據(jù)集中的有效性與目的性不斷加強(qiáng),反之,模型應(yīng)用空間不斷擴(kuò)展。在這一方面,美國(guó)個(gè)人所得稅模型應(yīng)用為我們提供了很好的

14、啟迪。結(jié)合目前的稅務(wù)數(shù)據(jù)基礎(chǔ)及其發(fā)展趨勢(shì)來(lái)看,金稅三期將成為稅收數(shù)據(jù)深度利用的良好契機(jī),構(gòu)建相應(yīng)模型是我們形成稅務(wù)數(shù)據(jù)深度利用良好局面的切入口。對(duì)于“我們需要什么樣的模型”的回答,是一個(gè)不斷結(jié)合實(shí)際進(jìn)行摸索的過(guò)程,但是就現(xiàn)階段而言,從可操作性的角度出發(fā),我們還是需要給所應(yīng)用的模型框定一個(gè)邊界:數(shù)據(jù)可利用性,如果沒(méi)有數(shù)據(jù)的支持,模型應(yīng)用將無(wú)從談起;可計(jì)算性,模型應(yīng)用迅速發(fā)展的基石之一就是現(xiàn)代計(jì)算技術(shù)的發(fā)展,沒(méi)有計(jì)算工具的支持,具有龐大計(jì)算量的各種稅收模型的完成無(wú)法想象,支持稅收模型應(yīng)用的計(jì)算工具包括硬件具備的計(jì)算能力和軟件具有的算法能力兩種。四、數(shù)據(jù)深度利用平臺(tái)建設(shè)的體制數(shù)據(jù)深度利用和挖掘最終必

15、須落實(shí)到具體計(jì)算平臺(tái)上,否則縱然有大量的數(shù)據(jù)積累,仍然擺脫不了研究與實(shí)踐部門脫節(jié)的窘態(tài)。雖然目前我們擁有大量的計(jì)算軟件平臺(tái),然而,總感覺(jué)到這些應(yīng)用平臺(tái)離我們的實(shí)際需要有一定距離。從目前應(yīng)用平臺(tái)的構(gòu)建來(lái)看,有幾點(diǎn)體會(huì):首先,平臺(tái)的構(gòu)建必須結(jié)合具體的研究問(wèn)題展開。通用性的平臺(tái)雖然很好,但是由于前面所提到的數(shù)據(jù)可利用性和可計(jì)算性的原因,加上實(shí)際工作的緊迫性需求,往往使得通用性平臺(tái)的規(guī)劃會(huì)落空,甚至于進(jìn)一步影響數(shù)據(jù)深度利用工作本身。其次,考慮針對(duì)具體問(wèn)題研究的通用性拓展。雖然實(shí)用為先,然而要做到持續(xù)性的數(shù)據(jù)利用,必然要考慮拓展的問(wèn)題。在這個(gè)問(wèn)題上,我們的平臺(tái)通過(guò)稅制表示方法、稅收政策分析模型描述語(yǔ)言中國(guó)稅收政策分析模型支持系統(tǒng)等方法進(jìn)行嘗試。更為重要的是,對(duì)適合中國(guó)國(guó)情的稅收經(jīng)濟(jì)模型的提出。由于長(zhǎng)期以來(lái)的數(shù)據(jù)缺少原因,在我國(guó)模型建設(shè)方面沒(méi)有進(jìn)一步的探索。這種缺陷在海量的數(shù)據(jù)突然呈現(xiàn)在我們面前的時(shí)候更加突出。我們正在嘗試提出適用干中國(guó)的稅收經(jīng)濟(jì)模型,雖然肯定會(huì)比較艱難,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論