云數(shù)據(jù)平臺(tái)算法模型優(yōu)化方案_第1頁(yè)
云數(shù)據(jù)平臺(tái)算法模型優(yōu)化方案_第2頁(yè)
云數(shù)據(jù)平臺(tái)算法模型優(yōu)化方案_第3頁(yè)
云數(shù)據(jù)平臺(tái)算法模型優(yōu)化方案_第4頁(yè)
云數(shù)據(jù)平臺(tái)算法模型優(yōu)化方案_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

29云數(shù)據(jù)平臺(tái)算法模型優(yōu)化方案\l“_TOC_250040“第1章整體方案 4\l“_TOC_250039“工程需求理解方案 4\l“_TOC_250038“工程背景 4\l“_TOC_250037“工程概述 4\l“_TOC_250036“工程現(xiàn)狀 4\l“_TOC_250035“工程目標(biāo) 6\l“_TOC_250034“工程內(nèi)容 7\l“_TOC_250033“總體設(shè)計(jì)方案 8\l“_TOC_250032“總體定位及目標(biāo) 8\l“_TOC_250031“設(shè)計(jì)原則及約束 9\l“_TOC_250030“總體設(shè)計(jì)約束 9\l“_TOC_250029“總體應(yīng)用架構(gòu)設(shè)計(jì) 10\l“_TOC_250028“總體數(shù)據(jù)架構(gòu)設(shè)計(jì) 12\l“_TOC_250027“數(shù)據(jù)框架設(shè)計(jì) 12\l“_TOC_250026“數(shù)據(jù)框架細(xì)化設(shè)計(jì) 13\l“_TOC_250025“算法模型優(yōu)化方案 15\l“_TOC_250024“算法概述 15\l“_TOC_250023“算法的特征 16\l“_TOC_250022“算法的要素 16\l“_TOC_250021“算法的判定 17\l“_TOC_250020“算法的描述方式 18\l“_TOC_250019“典型的算法 18\l“_TOC_250018“算法模型優(yōu)化 22\l“_TOC_250017“算法模型優(yōu)化要點(diǎn) 22\l“_TOC_250016“數(shù)據(jù)模型優(yōu)化 24\l“_TOC_250015“數(shù)據(jù)建模工具 37\l“_TOC_250014“優(yōu)化完善及運(yùn)維的算法模型效勞 38\l“_TOC_250013“根底算法模型設(shè)計(jì) 38\l“_TOC_250012“開放算法模型效勞 40\l“_TOC_250011“機(jī)構(gòu)改革的算法模型優(yōu)化 40\l“_TOC_250010“算法模型指標(biāo)重測(cè)算 40\l“_TOC_250009“國(guó)合并影響分析 41\l“_TOC_250008“應(yīng)用支撐方案 41\l“_TOC_250007“應(yīng)用接入標(biāo)準(zhǔn)制定 42\l“_TOC_250006“應(yīng)用接入方式 43\l“_TOC_250005“應(yīng)用接入管控 44\l“_TOC_250004“應(yīng)用接入效勞 44\l“_TOC_250003“平臺(tái)層應(yīng)用接入效勞 44\l“_TOC_250002“數(shù)據(jù)層應(yīng)用接入效勞 45\l“_TOC_250001“具體應(yīng)用層接入 46\l“_TOC_250000“應(yīng)用接入聯(lián)調(diào) 47第1工程需求理解方案工程背景始終以“用數(shù)據(jù)效勞征管方式轉(zhuǎn)變”為建設(shè)主線,在大數(shù)據(jù)算法應(yīng)用、海量用戶支持、關(guān)系云圖、風(fēng)險(xiǎn)動(dòng)態(tài)積分、用戶畫像等方面進(jìn)展了樂觀探究、實(shí)踐,精彩實(shí)現(xiàn)為目標(biāo),涵蓋數(shù)據(jù)“采、存、通、用”全生命周期的一體化生態(tài)系統(tǒng),是大數(shù)據(jù)、互聯(lián)網(wǎng)+、云計(jì)算等理念、方法論、技術(shù)手段和解決方案的集成呈現(xiàn)。變化,營(yíng)造良好稅收數(shù)據(jù)生態(tài)。工程概述工程現(xiàn)狀SLB、ODPSDataV18類用戶需求的稅收大數(shù)據(jù)平臺(tái)。主要完成平臺(tái)層、數(shù)據(jù)層、應(yīng)用層的建設(shè):云環(huán)境,并構(gòu)建完整的三層效勞模式。通過建設(shè)IaaS層,為全國(guó)數(shù)據(jù)大集中環(huán)CPU、內(nèi)存、存儲(chǔ)、網(wǎng)絡(luò)、操作系統(tǒng)等根底設(shè)施資源,提高資源的利用率,降低選購(gòu)本錢;通過建設(shè)PaaSIaaSSaaS。續(xù)的提升,保證數(shù)據(jù)資產(chǎn)的長(zhǎng)期價(jià)值。根底層完成了對(duì)稅務(wù)數(shù)據(jù)、外部數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)三類數(shù)據(jù)的集成,化數(shù)據(jù)等操作。中間層完成了四大主題庫(kù)和標(biāo)簽體系的建設(shè)。四大主題庫(kù)分別是:組〔法人和法人分支機(jī)構(gòu)200稅務(wù)機(jī)關(guān)庫(kù),涉及模型近200〔單位納稅人之間、單位納稅人與自然人之間,涉及模型幾十個(gè)。同時(shí)構(gòu)建了企業(yè)、自然人、稅務(wù)機(jī)關(guān)標(biāo)簽體系,包含:企業(yè)標(biāo)簽〔一般納稅人標(biāo)簽、小規(guī)模納稅人標(biāo)簽、千戶集團(tuán)標(biāo)簽、自然人標(biāo)簽、稅務(wù)機(jī)關(guān)標(biāo)簽。模型層完成了面對(duì)應(yīng)用的數(shù)據(jù)模型構(gòu)建。在建設(shè)模型層的過程中,以票流分析、關(guān)系云圖、增值稅發(fā)票查詢分析系統(tǒng)等應(yīng)用共設(shè)計(jì)數(shù)百個(gè)數(shù)據(jù)模型,上千個(gè)指標(biāo)口徑。業(yè)效勞動(dòng)態(tài)監(jiān)控等應(yīng)用。數(shù)據(jù)治理工作主要從五個(gè)方面開展:元數(shù)據(jù)治理、數(shù)據(jù)資產(chǎn)治理、數(shù)據(jù)質(zhì)量規(guī)章指標(biāo)二百多項(xiàng),推動(dòng)全國(guó)數(shù)據(jù)質(zhì)量持續(xù)優(yōu)化。數(shù)據(jù)效勞作,為信用評(píng)價(jià)指標(biāo)調(diào)整供給數(shù)據(jù)依據(jù)等;開展辦企業(yè)預(yù)警模型、非正常戶預(yù)警模型、進(jìn)銷不匹配模型等指標(biāo)設(shè)計(jì)測(cè)算工作。工程目標(biāo)各項(xiàng)工作,保障云平臺(tái)平穩(wěn)運(yùn)行。面的對(duì)接工作,滿足其數(shù)據(jù)庫(kù)創(chuàng)立、擴(kuò)容、變更等需求。管改革和稅制改革。在完成金三系統(tǒng)合并、調(diào)整與地方稅費(fèi)全國(guó)集成根底上,完成云平臺(tái)數(shù)據(jù)層、應(yīng)用層的相應(yīng)調(diào)整優(yōu)化與功能開發(fā)工作,以保障數(shù)據(jù)準(zhǔn)時(shí)、準(zhǔn)確集成至云平臺(tái),并依據(jù)最的需求展現(xiàn)和供給數(shù)據(jù)。工程內(nèi)容不限于以下內(nèi)容:云平臺(tái)數(shù)據(jù)治理升級(jí)完善及運(yùn)維和機(jī)構(gòu)改革軟件效勞工程是在云平臺(tái)數(shù)據(jù)涉及云平臺(tái)調(diào)整優(yōu)化工作兩項(xiàng)內(nèi)容:總體設(shè)計(jì)方案總體定位及目標(biāo)云平臺(tái)數(shù)據(jù)治理工程是工程其次階段的重要組成局部,工程基于目前最工程定位集中表達(dá)了根底性、創(chuàng)性和示范性。自行開發(fā)應(yīng)用工程供給根底數(shù)據(jù)和工具,鼓舞多樣性應(yīng)用開發(fā)。發(fā)結(jié)合的格局。發(fā)的示范性模板,推動(dòng)全收數(shù)據(jù)利用水平提升。有效共享整合,為國(guó)家信息共享化建設(shè)供給了稅務(wù)方案。云平臺(tái)數(shù)據(jù)治理工程升級(jí)完善及運(yùn)維和機(jī)構(gòu)改革軟件效勞工程以云平臺(tái)數(shù)供給必要的根底運(yùn)維,保障云平臺(tái)正常運(yùn)行。設(shè)計(jì)原則及約束總體設(shè)計(jì)約束總體設(shè)計(jì)包括總體架構(gòu)設(shè)計(jì)和數(shù)據(jù)治理機(jī)制設(shè)計(jì)兩個(gè)局部??傮w設(shè)計(jì)要求設(shè)計(jì)目標(biāo)和機(jī)構(gòu)改革軟件效勞工程的總體設(shè)計(jì)。設(shè)計(jì)要求技術(shù)、集成、部署等方面的框架,也包括設(shè)計(jì)管控的體系。一方面,作為框架,總體設(shè)計(jì)要求定義應(yīng)用、數(shù)據(jù)、技術(shù)、集成、部署等架構(gòu)的目標(biāo)藍(lán)圖,還包括相的實(shí)施符合云平臺(tái)數(shù)據(jù)治理升級(jí)完善及運(yùn)維和機(jī)構(gòu)改革軟件效勞工程的總體規(guī)劃。的目標(biāo)。設(shè)計(jì)約束遵循本工程總體設(shè)計(jì)要求和工程設(shè)計(jì)約束。數(shù)據(jù)治理機(jī)制設(shè)計(jì)目標(biāo)依據(jù)數(shù)據(jù)本工程數(shù)據(jù)治理要求與約束,完成國(guó)家數(shù)據(jù)治理機(jī)制建設(shè)。設(shè)計(jì)要求據(jù)標(biāo)準(zhǔn)治理和數(shù)據(jù)質(zhì)量治理三個(gè)方面的機(jī)制和流程建設(shè)。設(shè)計(jì)約束遵循本工程數(shù)據(jù)治理機(jī)制要求和約束。總體應(yīng)用架構(gòu)設(shè)計(jì)建設(shè)、數(shù)據(jù)層建設(shè)和應(yīng)用層建設(shè)。云計(jì)算支撐平臺(tái):系統(tǒng)搭建敏捷、可隨時(shí)調(diào)用計(jì)算資源的數(shù)據(jù)云環(huán)境,并構(gòu)建完整的三層效勞據(jù)分析應(yīng)用需求的沖突。大數(shù)據(jù)支撐平臺(tái):大數(shù)據(jù)支撐平臺(tái)是用于各項(xiàng)數(shù)據(jù)相關(guān)工作的云計(jì)算產(chǎn)品和大數(shù)據(jù)工具軟件標(biāo)準(zhǔn)、數(shù)據(jù)內(nèi)容以及數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)“好用、足用”的目標(biāo)。應(yīng)用平臺(tái)層:在全收數(shù)據(jù)大集中和外部數(shù)據(jù)擴(kuò)展根底上,為總局和各司局及局部省局供給3總體數(shù)據(jù)架構(gòu)設(shè)計(jì)4型組織、信息加工、質(zhì)量治理、結(jié)果呈現(xiàn)等處理功能。數(shù)據(jù)框架設(shè)計(jì)數(shù)據(jù)應(yīng)用數(shù)據(jù)應(yīng)用數(shù)據(jù)治理分析模型數(shù)據(jù)挖掘數(shù)據(jù)供給元數(shù)據(jù)治理數(shù)據(jù)匯總數(shù)據(jù)主體定義主體匯總關(guān)系定義數(shù)據(jù)集成數(shù)據(jù)定義數(shù)據(jù)抽取數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)加載數(shù)據(jù)集成負(fù)責(zé)數(shù)據(jù)集成,通過調(diào)度掌握和規(guī)章治理實(shí)現(xiàn)對(duì)數(shù)據(jù)集成的任務(wù)治理,數(shù)據(jù)集成平臺(tái)將源數(shù)據(jù)〔核心征管、電子稅務(wù)、出口退稅、外部數(shù)據(jù)等〕ETL/數(shù)據(jù)復(fù)制的數(shù)據(jù)加工、清洗、轉(zhuǎn)換,完成從源數(shù)據(jù)數(shù)據(jù)預(yù)備區(qū)統(tǒng)一數(shù)據(jù)視圖。加工中消滅的錯(cuò)誤預(yù)警提交給數(shù)據(jù)治理平臺(tái)的數(shù)據(jù)質(zhì)量治理應(yīng)用。數(shù)據(jù)會(huì)聚的輕度匯總的事實(shí)表和事實(shí)表關(guān)聯(lián)的維度表。數(shù)據(jù)應(yīng)用由查詢統(tǒng)計(jì)、征管狀況分析、報(bào)表治理、風(fēng)險(xiǎn)治理、政策評(píng)估、績(jī)效治理、學(xué)問治理、稅收收入核算分析系統(tǒng)、電子檔案治理等局部和日常應(yīng)用治理組成。本包負(fù)責(zé):查詢統(tǒng)計(jì)、常應(yīng)用治理建設(shè)。數(shù)據(jù)治理負(fù)責(zé)環(huán)境的數(shù)據(jù)治理,它是結(jié)合數(shù)據(jù)治理相關(guān)的組織、制度和流程和數(shù)據(jù)標(biāo)命周期的治理、以及數(shù)據(jù)審計(jì)治理等。數(shù)據(jù)框架細(xì)化設(shè)計(jì)數(shù)據(jù)應(yīng)用數(shù)據(jù)應(yīng)用數(shù)據(jù)報(bào)表數(shù)據(jù)分析數(shù)據(jù)治理數(shù)據(jù)擴(kuò)展利用…挖掘應(yīng)用層數(shù)據(jù)治理數(shù)據(jù)倉(cāng)庫(kù)區(qū)元數(shù)據(jù)數(shù)據(jù)質(zhì)量掌握運(yùn)行監(jiān)控?cái)?shù)據(jù)中間層統(tǒng)一數(shù)據(jù)視圖區(qū)數(shù)據(jù)預(yù)備區(qū)數(shù)據(jù)預(yù)備層數(shù)據(jù)集成數(shù)據(jù)標(biāo)準(zhǔn)治理元數(shù)據(jù)治理數(shù)據(jù)審計(jì)范ETL/數(shù)據(jù)復(fù)制度范警數(shù)據(jù)源核心征管電子稅務(wù)出口退稅發(fā)票底賬征管日志文件外部數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)1、根底數(shù)據(jù)層外部交換數(shù)據(jù)、互聯(lián)網(wǎng)開放數(shù)據(jù)。稅收業(yè)務(wù)系統(tǒng):稅收業(yè)務(wù)系統(tǒng)是本次數(shù)據(jù)體系中最主要的數(shù)據(jù)源頭,稅務(wù)13到核心征管數(shù)據(jù)體系內(nèi)。交換數(shù)據(jù)合并數(shù)據(jù)構(gòu)造,采集到統(tǒng)一的數(shù)據(jù)交換域?;ヂ?lián)網(wǎng)數(shù)據(jù):互聯(lián)網(wǎng)是一個(gè)開放式的數(shù)據(jù)源,在本次數(shù)據(jù)體系和應(yīng)用的建度的要求,滿足爬取數(shù)據(jù)從非構(gòu)造化到構(gòu)造化存儲(chǔ)的要求;2、數(shù)據(jù)中間層豐富,不停豐富主體的描述、行為及治理類的數(shù)據(jù)。易用的生產(chǎn)原料??偩执髷?shù)據(jù)云平臺(tái)將具有強(qiáng)大得數(shù)據(jù)計(jì)算和存儲(chǔ)力量?;谄脚_(tái)的力量和層的建設(shè)將著重三個(gè)主體庫(kù)的建設(shè):企業(yè)庫(kù)、自然人庫(kù)、關(guān)系庫(kù)。3數(shù)據(jù)挖掘?qū)有偷慕ㄔO(shè)和數(shù)據(jù)價(jià)值的挖掘?;诒敬卧破脚_(tái)數(shù)據(jù)治理工程的業(yè)務(wù)需求,數(shù)據(jù)模型和挖掘?qū)鞴芊趾烍w系模型。征管分析模型:標(biāo)數(shù)據(jù),并持續(xù)跟蹤指標(biāo)的變化狀況,為征管工作分析應(yīng)用供給數(shù)據(jù)支撐。企業(yè)標(biāo)簽體系模型進(jìn)展數(shù)據(jù)挖掘,獲得刻畫企業(yè)的標(biāo)簽數(shù)據(jù)。庫(kù)的數(shù)據(jù)進(jìn)展數(shù)據(jù)挖掘,獲得刻畫自然人的標(biāo)簽數(shù)據(jù)。算法模型優(yōu)化方案算法概述算法〔Algorithm〕是指解題方案的準(zhǔn)確而完整的描述,是一系列解決問題時(shí)間簡(jiǎn)單度來衡量。算法中的指令描述的是一個(gè)計(jì)算,當(dāng)其運(yùn)行時(shí)能從一個(gè)初始狀態(tài)和〔可能為空的的一些算法,包含了一些隨機(jī)輸入。算法的特征一個(gè)算法應(yīng)當(dāng)具有以下五個(gè)重要的特征:有窮性〔Finiteness〕算法的有窮性是指算法必需能在執(zhí)行有限個(gè)步驟之后終止;精準(zhǔn)性(Definiteness)算法的每一步驟必需有精準(zhǔn)的定義;輸入項(xiàng)(Input)0是指算法本身定出了初始條件;輸出項(xiàng)(Output)的算法是毫無意義的;可行性(Effectiveness)每個(gè)計(jì)算步都可以在有限時(shí)間內(nèi)完成〔也稱之為有效性。算法的要素一,數(shù)據(jù)對(duì)象的運(yùn)算和操作計(jì)算機(jī)可以執(zhí)行的根本操作是以指令的形式描述的。一個(gè)計(jì)算機(jī)系統(tǒng)能執(zhí)操作有如下四類:算術(shù)運(yùn)算:加減乘除等運(yùn)算。規(guī)律運(yùn)算:或、且、非等運(yùn)算。關(guān)系運(yùn)算:大于、小于、等于、不等于等運(yùn)算。二,算法的掌握構(gòu)造行挨次有關(guān)。算法的判定同一問題可用不同算法解決,而一個(gè)算法的質(zhì)量?jī)?yōu)劣將影響到算法乃至程從時(shí)間簡(jiǎn)單度和空間簡(jiǎn)單度來考慮。時(shí)間簡(jiǎn)單度nf(n),算法的時(shí)間簡(jiǎn)單度也因此記做:T(n)=Ο(f(n))f(n)的增長(zhǎng)率正相關(guān),稱作漸進(jìn)時(shí)間簡(jiǎn)單度〔AsymptoticTimeComplexity??臻g簡(jiǎn)單度算法的空間簡(jiǎn)單度是指算法需要消耗的內(nèi)存空間。其計(jì)算和表示方法與時(shí)度的分析要簡(jiǎn)潔得多。正確性算法的正確性是評(píng)價(jià)一個(gè)算法優(yōu)劣的最重要的標(biāo)準(zhǔn)??勺x性算法的可讀性是指一個(gè)算法可供人們閱讀的簡(jiǎn)潔程度。強(qiáng)健性錯(cuò)性。算法的描述方式PAD圖等,其中最普遍的是流程圖。典型的算法遞推法遞推是序列計(jì)算機(jī)中的一種常用算法。它是依據(jù)肯定的規(guī)律來計(jì)算序列中機(jī)速度快和不知疲乏的特點(diǎn)。遞歸法程序調(diào)用自身的編程技巧稱為遞歸〔recursion。一個(gè)過程或函數(shù)在其定時(shí),遞歸返回。留意:遞歸就是在過程或函數(shù)里調(diào)用自身;在使用遞歸策略時(shí),必需有一個(gè)明確的遞歸完畢條件,稱為遞歸出口。窮舉法10000因此最多嘗試10000一種密碼,問題只在于如何縮短試誤時(shí)間。因此有些人運(yùn)用計(jì)算機(jī)來增加效率,有些人輔以字典來縮小密碼組合的范圍。貪心算法貪心算法是一種對(duì)某些求最優(yōu)解問題的更簡(jiǎn)潔、更快速的設(shè)計(jì)技術(shù)。用貪心法設(shè)計(jì)算法的特點(diǎn)是一步一步地進(jìn)展,常以當(dāng)前狀況為根底依據(jù)某窮盡全部可能而必需消耗的大量時(shí)間,它承受自頂向下,以迭代的方法做出相繼過每一步貪心選擇,可得到問題的一個(gè)最優(yōu)解,雖然每一步上都要保證能獲得局部最優(yōu)解,但由此產(chǎn)生的全局解有時(shí)不肯定是最優(yōu)的,所以貪欲法不要回溯。貪欲算法是一種改進(jìn)了的分級(jí)處理方法,其核心是依據(jù)題意選取一種量度下最優(yōu)解的分級(jí)處理方法稱為貪欲算法。優(yōu)解的最優(yōu)量度標(biāo)準(zhǔn)是使用貪欲算法的核心。擇出最優(yōu)量度標(biāo)準(zhǔn)后,用貪欲算法求解則特別有效。分治法分治法是把一個(gè)簡(jiǎn)單的問題分成兩個(gè)或更多的一樣或相像的子問題,再把即子問題的解的合并。分治法所能解決的問題一般具有以下幾個(gè)特征:該問題的規(guī)模縮小到肯定的程度就可以簡(jiǎn)潔地解決;性質(zhì);利用該問題分解出的子問題的解可以合并為該問題的解;的子子問題。動(dòng)態(tài)規(guī)劃法動(dòng)態(tài)規(guī)劃是一種在數(shù)學(xué)和計(jì)算機(jī)科學(xué)中使用的,用于求解包含重疊子問題廣泛應(yīng)用于計(jì)算機(jī)科學(xué)和工程領(lǐng)域。動(dòng)態(tài)規(guī)劃程序設(shè)計(jì)是對(duì)解最優(yōu)化問題的一種途徑、一種方法,而不是一種去求解。迭代法迭代法也稱輾轉(zhuǎn)法,是一種不斷用變量的舊值遞推值的過程,跟迭代法相對(duì)應(yīng)的是直接法〔或者稱為一次解法,即一次性解決問題。迭代法又分為準(zhǔn)確〔或肯定步驟〕進(jìn)展重復(fù)執(zhí)行,在每次執(zhí)行這組指令〔或這些步驟〕時(shí),都從變量的原值推出它的一個(gè)值。分支界限法同類型的問題解法也各不一樣。分支定界法的根本思想是對(duì)有約束條件的最優(yōu)化問題的全部可行解〔數(shù)目來越小的子集〔稱為分支,并為每個(gè)子集內(nèi)的解的值計(jì)算一個(gè)下界或上界〔稱為定界。在每次分支后,對(duì)但凡界限超出可行解值那些子集不再做進(jìn)一步〔即搜尋樹上的很多結(jié)點(diǎn)〕就可以不予考慮了,從而何子集的界限。因此這種算法一般可以求得最優(yōu)解。與貪心算法一樣,這種方法也是用來為組合優(yōu)化問題設(shè)計(jì)求解算法的,所不行能得到最優(yōu)解的子空間進(jìn)一步搜尋〔類似于人工智能中的剪枝,故它比窮舉法效率更高?;厮莘ā蔡骄颗c回溯法其根本思想是,在包含問題的全部解的解空間樹中,依據(jù)深度優(yōu)先搜尋的〔其實(shí)回溯法就是對(duì)隱式圖的深度優(yōu)先搜尋算法的子樹都要已被搜尋遍才完畢。而假設(shè)使用回溯法求任一個(gè)解時(shí),只要搜尋到問題的一個(gè)解就可以完畢。算法模型優(yōu)化算法模型優(yōu)化要點(diǎn)和工具建立起來的算法模型,它是口徑、算法及其數(shù)據(jù)的集合。設(shè)計(jì),涵蓋稅務(wù)業(yè)務(wù)內(nèi)涵需完整、全面。具體的優(yōu)化要點(diǎn)如下:1、統(tǒng)一數(shù)據(jù)視圖建模優(yōu)化支持對(duì)即時(shí)性的、操作性的、集成的數(shù)據(jù)運(yùn)用需求。統(tǒng)一數(shù)據(jù)視圖可以依據(jù)3NF數(shù)據(jù)庫(kù),以總體架構(gòu)工程規(guī)劃的數(shù)據(jù)模型為根底,優(yōu)化其規(guī)律訪問及物理存儲(chǔ)構(gòu)造,到達(dá)高效查詢的要求。2、數(shù)據(jù)倉(cāng)庫(kù)建模優(yōu)化數(shù)據(jù)倉(cāng)庫(kù)的特征在于面對(duì)主題、集成性、穩(wěn)定性和時(shí)變性,用于供給稅收業(yè)3NF、理大量的數(shù)據(jù)并發(fā)訪問。3、數(shù)據(jù)集市建模優(yōu)化圍繞數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù),面對(duì)不同分析主題,進(jìn)展數(shù)據(jù)集市建模,完成數(shù)據(jù)運(yùn)用平臺(tái)和聯(lián)機(jī)分析應(yīng)用。數(shù)據(jù)集市的構(gòu)造可以是多維數(shù)據(jù)集〔如星型、雪花型,析主題建立等三項(xiàng)內(nèi)容?!踩鐢?shù)據(jù)質(zhì)量指標(biāo)庫(kù)用平臺(tái)支持的需求,具有前瞻性、敏捷性、可擴(kuò)展性等特點(diǎn)。算法,聚類、關(guān)聯(lián)、分類等高級(jí)算法,以及決策樹、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘算法。數(shù)據(jù)模型優(yōu)化征管分析模型發(fā)票發(fā)票票證登記認(rèn)定申報(bào)征收計(jì)會(huì)統(tǒng)優(yōu)待證明綜合評(píng)估審計(jì)稽查法制我們針對(duì)該模型的建設(shè)方式也需要圍繞該主題進(jìn)展。企業(yè)標(biāo)簽體系模型企業(yè)標(biāo)簽體系模型,針對(duì)目前總局對(duì)于企業(yè)征稅治理的需要,設(shè)計(jì)對(duì)企業(yè)據(jù)進(jìn)展數(shù)據(jù)挖掘,獲得刻畫企業(yè)的標(biāo)簽數(shù)據(jù)。企業(yè)標(biāo)簽概念模型設(shè)計(jì)說明。行為力量挖掘框架設(shè)計(jì)用戶力量標(biāo)簽挖掘流程中,首先通過用戶關(guān)系數(shù)據(jù)(主要是分組,用于表達(dá)粉絲關(guān)領(lǐng)域內(nèi)的影響力)挖掘出用戶的力量標(biāo)簽及其根底權(quán)重;其次通過引入用戶的用。標(biāo)簽挖掘模型關(guān)鍵點(diǎn)設(shè)計(jì)標(biāo)簽集合分組信息即用戶為關(guān)注對(duì)象打上的標(biāo)簽作為用戶關(guān)系數(shù)據(jù)引入到挖掘過程中,由于標(biāo)簽屬于UGC,就會(huì)造成同一個(gè)標(biāo)簽主題有多種不同的表達(dá)方式,將多可以有效地提升力量標(biāo)簽的準(zhǔn)確率和掩蓋率。首先將分組信息通過分類模型劃分為強(qiáng)關(guān)系型(稅務(wù)機(jī)關(guān),稅務(wù)活動(dòng)等)和行為型(繳納、金額等)兩類,并將行為型分組信息作為我們的根底預(yù)料。接下來通過聚類、關(guān)聯(lián)等相關(guān)算法進(jìn)展標(biāo)簽詞(分組信息)的聚合;標(biāo)簽高相關(guān)標(biāo)簽低相關(guān)標(biāo)簽標(biāo)簽高相關(guān)標(biāo)簽低相關(guān)標(biāo)簽稅務(wù)活動(dòng)入庫(kù)標(biāo)識(shí)等用戶關(guān)注度用戶關(guān)注度指的是用戶在某個(gè)特定標(biāo)簽下的受關(guān)注程度,因此影響力計(jì)算的邊界是標(biāo)簽對(duì)應(yīng)的興趣用戶群體〔包含該標(biāo)簽的力量用戶,即對(duì)該標(biāo)簽所對(duì)注為作為根底數(shù)據(jù),利用迭代算法進(jìn)展該用戶關(guān)注度的計(jì)算。時(shí)間衰減效益考慮到企業(yè)用戶數(shù)據(jù)的消費(fèi)價(jià)值和計(jì)算代價(jià),對(duì)于用戶內(nèi)容數(shù)據(jù),我們選取了用戶近一段時(shí)期內(nèi)行為活動(dòng)作為根底參照進(jìn)展計(jì)算。關(guān)于時(shí)間衰減,我們結(jié)合牛頓冷卻定律和微博的業(yè)務(wù)需求推導(dǎo)出相應(yīng)的衰行為標(biāo)簽內(nèi)容權(quán)重的時(shí)間衰減函數(shù)自然人標(biāo)簽體系模型自然人標(biāo)簽體系模型,針對(duì)目前總局對(duì)于自然人征稅治理的需要,設(shè)計(jì)對(duì)人庫(kù)的數(shù)據(jù)進(jìn)展數(shù)據(jù)挖掘,獲得刻畫自然人的標(biāo)簽數(shù)據(jù)。自然人標(biāo)簽體系概念模型行為力量挖掘框架設(shè)計(jì)短時(shí)動(dòng)態(tài)數(shù)據(jù)建設(shè)短時(shí)動(dòng)態(tài)數(shù)據(jù)建設(shè)為解決總局快速覺察問題、快速反響業(yè)務(wù)變化的需求供給反響業(yè)務(wù)的變化,覺察可能存在的問題,并能夠業(yè)務(wù)系統(tǒng)產(chǎn)生聯(lián)動(dòng)。短時(shí)動(dòng)態(tài)數(shù)據(jù)建設(shè)主要基于流式數(shù)據(jù)處理,其過程根本分為三個(gè)階段:數(shù)據(jù)處理基于流計(jì)算技術(shù)實(shí)現(xiàn)。展現(xiàn)。流式數(shù)據(jù)設(shè)計(jì)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)效勞化。數(shù)據(jù)采集流式數(shù)據(jù)處理的支持根底是實(shí)時(shí)數(shù)據(jù)采集。數(shù)據(jù)處理加載后形成可以存儲(chǔ)到數(shù)據(jù)隊(duì)列中。數(shù)據(jù)效勞化數(shù)據(jù)通過隊(duì)列訂閱獵取流式數(shù)據(jù)隊(duì)列中的數(shù)據(jù),并依據(jù)隊(duì)列輸出數(shù)據(jù)進(jìn)展效勞化轉(zhuǎn)變。企業(yè)風(fēng)險(xiǎn)〔信用〕模型納稅信用等級(jí)是指稅務(wù)機(jī)關(guān)依據(jù)納稅人履行納稅義務(wù)狀況,依據(jù)《納稅信內(nèi)的納稅信用所評(píng)定的等級(jí)。企業(yè)風(fēng)險(xiǎn)〔信用〕評(píng)定方法評(píng)定等級(jí)分值比例涉及風(fēng)險(xiǎn)項(xiàng)A分值>=95具有涉嫌違反稅收法律、行政法規(guī)行為,至評(píng)定日仍未結(jié)案或已結(jié)案但未依據(jù)稅務(wù)機(jī)關(guān)處理打算改正的〔指稅務(wù)機(jī)關(guān)確定納稅信用等級(jí)之日起向前推算兩年〕發(fā)生欠繳稅款情形的料的評(píng)定期前兩年有稅務(wù)行政懲罰記錄的C20<=分值<60評(píng)定依法應(yīng)當(dāng)辦理稅務(wù)登記而未辦理稅務(wù)登記的評(píng)定期內(nèi)同時(shí)具備按期納稅申報(bào)率在90%以下,納稅申報(bào)準(zhǔn)確率在70%以下,應(yīng)納稅款按期入庫(kù)率在80%以下,代扣代繳申報(bào)準(zhǔn)確率在80%以下,代扣代繳稅款入庫(kù)率90%以下的〔指稅務(wù)機(jī)關(guān)確定納稅信用等級(jí)之日起向前推算兩年〕有違反稅收法律、行政法規(guī)的行為,且受到稅務(wù)行政懲罰的抄報(bào)稅的應(yīng)稅收入、應(yīng)稅所得核算混亂,有關(guān)憑證、賬簿、報(bào)表不完整、不真實(shí)的D分值<20具有涉稅犯罪嫌疑,已依法移送公安機(jī)關(guān),尚未結(jié)案的〔指稅務(wù)機(jī)關(guān)確定納稅信用等級(jí)之日起向前推算兩年〕有偷稅、躲避追繳欠稅、騙取出口退稅、抗稅、虛開增值稅專用發(fā)票等涉稅犯罪行為記錄的騙取稅收優(yōu)待政策、騙取多繳稅款退回的不能完整、準(zhǔn)確核算應(yīng)納稅款或者不能完整、準(zhǔn)確代扣代繳稅款的不能完整、準(zhǔn)確核算應(yīng)納稅款或者不能完整、準(zhǔn)確代扣代繳稅款的B60<=<955〔信用評(píng)估模型。表名:表名:fx_qyfxpg表描述:企業(yè)風(fēng)險(xiǎn)〔信用〕評(píng)估表描述企業(yè)風(fēng)險(xiǎn)信用等級(jí)為劃型和稅務(wù)評(píng)估做出參考列名字段類型注釋備注NSRSBHVARCHAR2(30)納稅人識(shí)別碼NSRMCVARCHAR2(75)納稅人名稱FXPGXMLXCHAR(2)風(fēng)險(xiǎn)工程類型PGXMLXFZNUMBER評(píng)估工程類型分值表名:表名:fx_fxpgxmlx表描述:風(fēng)險(xiǎn)〔信用〕工程評(píng)估類型風(fēng)險(xiǎn)評(píng)定代碼類型表列名字段類型注釋備注fxpgxmlxCHAR2(2)估類型Fxpgxmlx_mcVARCHAR2(30)風(fēng)險(xiǎn)工程評(píng)估名稱fxpgzcyjChar(6)風(fēng)險(xiǎn)評(píng)定政策依據(jù)LXLRRQLXLRRQDATE風(fēng)險(xiǎn)工程類型列入日期XYBJCHAR(1)選用標(biāo)記表名:表名:fx_nsrfxpdsx表描述:納稅人風(fēng)險(xiǎn)評(píng)定事項(xiàng)風(fēng)險(xiǎn)評(píng)定事項(xiàng)列名字段類型注釋備注nsrsbhVarchar2(30)納稅人識(shí)別碼dqzrnumber檔期收入ljsrnumber累計(jì)收入djrqdate登記日期djzlblnumber登記資料完成比例sssxcsnumber涉稅事項(xiàng)次數(shù)wfajcsnumber違法案件次數(shù)1.3.2.2.6然人風(fēng)險(xiǎn)〔信用〕模型自然人風(fēng)險(xiǎn)〔信用〕模型自然人風(fēng)險(xiǎn)〔信用〕表模型表名:表名:fx_zrrfxpg表描述:自然人風(fēng)險(xiǎn)〔信用〕評(píng)估表描述自然人風(fēng)險(xiǎn)信用等級(jí)為劃型和稅務(wù)評(píng)估做出參考列名字段類型注釋備注zrrsfzjxxVARCHAR2(30)自然人身份證件信息zrrmcVARCHAR2(75)自然人名稱FXPGXMLXCHAR(2)風(fēng)險(xiǎn)工程類型PGXMLXFZNUMBER評(píng)估工程類型分值表名:表名:fx_zrrfxpgxmlx表描述:風(fēng)險(xiǎn)〔信用〕工程評(píng)估類型風(fēng)險(xiǎn)評(píng)定代碼類型表列名字段類型注釋備注fxpgxmlxCHAR2(2)估類型Fxpgxmlx_mcVARCHAR2(30)風(fēng)險(xiǎn)工程評(píng)估名稱fxpgzcyjChar(6)風(fēng)險(xiǎn)評(píng)定政策依據(jù)LXLRRQLXLRRQDATE風(fēng)險(xiǎn)工程類型列入日期XYBJCHAR(1)選用標(biāo)記表名:表名:fx_zrrfxpdsx表描述:自然人風(fēng)險(xiǎn)評(píng)定事項(xiàng)風(fēng)險(xiǎn)評(píng)定事項(xiàng)列名字段類型注釋備注nsrsbhVarchar2(30)納稅人識(shí)別碼grsrnumber個(gè)人收入ljsrnumber累計(jì)收入djrqdate登記日期lcysbjChar(1)兩處以上標(biāo)記sssxcsnumber涉稅事項(xiàng)次數(shù)wfajcsnumber違法案件次數(shù)1.3.2.3數(shù)據(jù)建模工具1、工具需求描述領(lǐng)域模型、規(guī)律模型、物理模型四個(gè)層次建模過程。2、工具需求分析名目名目分析說明支持業(yè)務(wù)模型、領(lǐng)域建模、規(guī)律模型、物理模型,以及這之間的轉(zhuǎn)換;模型支持IDEF支持正向工程:為某些數(shù)據(jù)庫(kù)設(shè)計(jì)生成源代碼。支持?jǐn)?shù)據(jù)庫(kù)周支持逆向工程:以現(xiàn)有數(shù)據(jù)庫(kù)或圖式為根底創(chuàng)立可視化模型。期代碼將修改應(yīng)用于數(shù)據(jù)庫(kù)。名目名目分析說明對(duì)不同數(shù)據(jù)源的元數(shù)據(jù)進(jìn)展導(dǎo)入和導(dǎo)出,數(shù)據(jù)源包括:BI平臺(tái)UML和元數(shù)據(jù)整合XML圖式、以及公共倉(cāng)庫(kù)模型CW。模型審查找是否存在目標(biāo)定義遺漏、未用域名、唯一索引、及循環(huán)關(guān)系等。支持可視化界面開發(fā),操作簡(jiǎn)潔、易用、易學(xué),支持菜單驅(qū)動(dòng)和拖拉式易用性操作。支持團(tuán)隊(duì)開發(fā)分別、比較、合并等。文檔報(bào)表供給建立多模型的RTF和HTML格式的文檔報(bào)表。優(yōu)化完善及運(yùn)維的算法模型效勞根底算法模型設(shè)計(jì)算法模型開發(fā)設(shè)計(jì)主要包括以下內(nèi)容:增值稅發(fā)票風(fēng)險(xiǎn)防范與打擊方案計(jì)算資源和算法資源,設(shè)計(jì)相應(yīng)的增值稅發(fā)票風(fēng)險(xiǎn)防范和打擊方案。利益相關(guān)群體挖掘與分析的風(fēng)險(xiǎn)。商品名稱歸類模型一樣屬性的商品歸為同一類〔如將中華和中南海歸類為香煙,以供給不同粒度的商品名稱列表,為其它大數(shù)據(jù)算法供給良好的數(shù)據(jù)根底。1.3.3.1.2法模型優(yōu)化完善1.辦企業(yè)納稅風(fēng)險(xiǎn)評(píng)估模型效勞。在現(xiàn)有算法的根底上做進(jìn)一步優(yōu)化,以提高評(píng)估結(jié)果的準(zhǔn)確率。納稅人動(dòng)態(tài)信用積分分規(guī)模建立細(xì)分模型,依據(jù)實(shí)際運(yùn)行狀況,進(jìn)展迭代優(yōu)化。進(jìn)銷不符風(fēng)險(xiǎn)企業(yè)覺察企業(yè)名單的準(zhǔn)確率。商品名稱歸集模型升級(jí)〔或物質(zhì)〔18K24K,降低商品名稱多樣性所引入的數(shù)據(jù)噪音。優(yōu)化現(xiàn)有的算法,以提升商品名稱的歸集效果。開放算法模型效勞算法模型錄入算法模型查詢算法模型治理位供給公用算法模型資源的維護(hù)。機(jī)構(gòu)改革的算法模型優(yōu)化準(zhǔn)確的數(shù)據(jù)效勞和數(shù)據(jù)應(yīng)用。算法模型指標(biāo)重測(cè)算滿足實(shí)際工作的需要。國(guó)合并影響分析影響等方面的分析,也是機(jī)構(gòu)改革算法模型優(yōu)化的一個(gè)方面。包括但不限于以下內(nèi)容:非正常戶推測(cè)模型調(diào)整優(yōu)化;辦企業(yè)風(fēng)險(xiǎn)第一階段模型調(diào)整優(yōu)化;辦企業(yè)風(fēng)險(xiǎn)其次階段模型調(diào)整優(yōu)化;辦企業(yè)風(fēng)險(xiǎn)第三階段模型調(diào)整優(yōu)化;團(tuán)伙分析模型調(diào)整優(yōu)化;增數(shù)據(jù)主題動(dòng)態(tài)監(jiān)控、用戶畫像、風(fēng)險(xiǎn)治理應(yīng)用。應(yīng)用支撐方案據(jù)申請(qǐng)、模型開發(fā)等流程標(biāo)準(zhǔn),做好應(yīng)用接入的把關(guān)、管控。本工程承受面對(duì)效勞的設(shè)計(jì)理念,系統(tǒng)應(yīng)用能夠通過效勞形式供給集成,實(shí)個(gè)前提:OLAP充分考慮系統(tǒng)數(shù)據(jù)與業(yè)務(wù)應(yīng)用的關(guān)系,形成合理的應(yīng)用布局,便于打包成可復(fù)制的解決方案;打好根底。工作流引擎嵌入其中,融為云平臺(tái)數(shù)據(jù)治理系統(tǒng)中的一局部。支持操作型BI,系統(tǒng)的一個(gè)具體的電子檔案、查詢或分析結(jié)果等。商業(yè)智能軟件標(biāo)準(zhǔn)、成熟的分析方法和手段,實(shí)現(xiàn)報(bào)表分析、即席分析、數(shù)理統(tǒng)OLAP理論,支持雪花、星型等多種數(shù)據(jù)模型,固定報(bào)表支3NF數(shù)據(jù);支持集中部署,多級(jí)應(yīng)用的數(shù)據(jù)共享模式。應(yīng)用接入承受中間件技術(shù),承受的中間件產(chǎn)品應(yīng)為主流、開放、成熟的產(chǎn)品。應(yīng)用接入標(biāo)準(zhǔn)制定治理,并供給必要的培訓(xùn)。工作約束如下:準(zhǔn)標(biāo)準(zhǔn);要求應(yīng)用層的用戶權(quán)限治理使用的權(quán)限標(biāo)準(zhǔn);撐省局的應(yīng)用創(chuàng);面集成、功能集成、消息集成、權(quán)限繼承、流程集成、效勞集成、數(shù)據(jù)集成。應(yīng)用接入方式最終用戶供給一個(gè)統(tǒng)一的界面級(jí)視圖。業(yè)務(wù)工作門戶至少包含以下內(nèi)容:完整的界面運(yùn)行環(huán)境。戶共性化的配置。支持各應(yīng)用系統(tǒng)待辦事宜的集中呈現(xiàn)。系統(tǒng)的無縫連接。二、應(yīng)用集成本工程應(yīng)用集成承受基于企業(yè)級(jí)效勞總線〔CSB〕的應(yīng)用集成平臺(tái),供給系內(nèi)并供給應(yīng)應(yīng)用作為效勞使用。統(tǒng)的各個(gè)功能實(shí)現(xiàn)。三、安全集成1、用戶治理要求遵循總局統(tǒng)一用戶模型設(shè)計(jì);支持接入總局統(tǒng)一用戶治理系統(tǒng);支持總局統(tǒng)一部署運(yùn)維,總局省局分級(jí)進(jìn)展用戶信息維護(hù)功能。認(rèn)證治理要求支持接入總局統(tǒng)一認(rèn)證治理系統(tǒng);CA/密碼、動(dòng)態(tài)口令、IP..,將來可以敏捷擴(kuò)展;身份互信體系要求遵循總局統(tǒng)一規(guī)劃、設(shè)計(jì)、開發(fā)的身份互信體系。應(yīng)用接入管控重點(diǎn)工作內(nèi)容如下:協(xié)作應(yīng)用開發(fā)商完成數(shù)據(jù)架構(gòu)的設(shè)計(jì),跟蹤治理相關(guān)成果物文檔。協(xié)作應(yīng)用開發(fā)商完成數(shù)據(jù)關(guān)聯(lián)需求分析,跟蹤治理相關(guān)成果物文檔。的分層歸屬,并跟蹤治理相關(guān)成果物文檔。與應(yīng)用開發(fā)商對(duì)接入問題進(jìn)展?fàn)幷摬⑻幚怼L幚砗门c應(yīng)用開發(fā)商的意見分歧,確保應(yīng)用開發(fā)能夠遵循肯定的標(biāo)準(zhǔn)。應(yīng)用接入效勞平臺(tái)層應(yīng)用接入效勞位、應(yīng)用研發(fā)廠商供給以下效勞:培訓(xùn)效勞:按需培訓(xùn)云平臺(tái)相關(guān)產(chǎn)品,以及平臺(tái)產(chǎn)品運(yùn)維體系。產(chǎn)品選型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論