全文預(yù)覽已結(jié)束
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
改進(jìn)型 Apriori 算法在犯罪關(guān)聯(lián)分析中的應(yīng)用 -精品資料 本文檔格式為 WORD,感謝你的閱讀。 最新最全的 學(xué)術(shù)論文 期刊文獻(xiàn) 年終總結(jié) 年終報(bào)告 工作總結(jié) 個(gè)人總結(jié) 述職報(bào)告 實(shí)習(xí)報(bào)告 單位總結(jié) 摘要:介紹了關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),特別是Apriori 核心算法,并對(duì) Apriori 算法進(jìn)行了 Hash優(yōu)化。以某市的犯罪信息數(shù)據(jù)庫(kù)為實(shí)例,將改進(jìn)后的關(guān)聯(lián)分析技術(shù)應(yīng)用其中,以便發(fā)現(xiàn)犯罪行為特點(diǎn)及犯罪嫌疑人特性等潛在的聯(lián)系,為公安部門的戰(zhàn)略部署、決策指揮、偵查破 案、治安管理等提供依據(jù)。 關(guān)鍵詞關(guān)鍵詞:犯罪特征;關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;Apriori TP312A16727800( 2013) 011006802 0 引言 信息技術(shù)的飛速發(fā)展,給公安機(jī)關(guān)的信息化應(yīng)用提供了強(qiáng)有力的保障,較大程度上提高了整個(gè)公安隊(duì)伍的戰(zhàn)斗力,在防范打擊違法犯罪、維護(hù)國(guó)家安全穩(wěn)定等方面起到了重要作用。 “ 金盾工程 ” 的推進(jìn),促使各類業(yè)務(wù)應(yīng)用平臺(tái)逐步建成和完善,但情報(bào)導(dǎo)向的信息應(yīng)用仍處于初探階段。信息的關(guān)鍵價(jià)值不在于存儲(chǔ),而在于對(duì)所擁有的大量警務(wù)信息進(jìn)行二次挖掘 ,獲取更有價(jià)值的情報(bào)信息 1 。近年來,公安部門積累了海量的基礎(chǔ)數(shù)據(jù)和犯罪數(shù)據(jù)信息,但對(duì)于這些數(shù)據(jù)的高效利用和深度應(yīng)用未有明顯成績(jī)。因此,如何利用先進(jìn)的信息技術(shù)在這些海量數(shù)據(jù)中進(jìn)行深度挖掘,得出一些新知識(shí),使之有益于公安部門的戰(zhàn)略部署、決策指揮、偵查破案、治安管理等,具有一定的時(shí)代意義。 1 關(guān)聯(lián)規(guī)則挖掘 關(guān)聯(lián)規(guī)則挖掘,有時(shí)也叫關(guān)聯(lián)分析,是數(shù)據(jù)挖掘的一個(gè)重要研究領(lǐng)域。它是指從事務(wù)數(shù)據(jù)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)和其它信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性,即所謂的關(guān)聯(lián) 規(guī)則。其形式為: “X=Y” ,即在設(shè)定的高置信度的規(guī)則下, X 事件發(fā)生了, Y 事件必然發(fā)生。 關(guān)聯(lián)規(guī)則挖掘核心算法為著名的 Apriori算法。當(dāng)然,此后出現(xiàn)了一些相關(guān)算法,諸如 DIC算法 2 、 DLG算法 3 和 DHP算法 4 等,都是基于 Apriori 算法做了改進(jìn)或優(yōu)化而成的。 1.1Apriori 算法 Apriori 算法,是一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,是 Agrawal.R 、 Imieliski.T 等人在 1994第 20屆大型數(shù)據(jù)庫(kù)國(guó)際會(huì)議上提出的 5 ,于當(dāng)時(shí)最具影響力。此算法實(shí)質(zhì)是一個(gè)逐層迭代搜索的方法,利用 K 項(xiàng)集探索 K+1項(xiàng)集。第一次,找出頻繁 1 項(xiàng)集的集合,記為 L1;第二次,利用 L1探索 L2,找出頻繁 2 項(xiàng)集,記為 L2;如此進(jìn)行探索,直至頻繁項(xiàng)集 K 為空,停止。 算法描述如下: Input: Database D, of transactions; minimum support threshold; Output: L, frequent itemsets in D Method: ( 1) L1=find_frequent_1-itemsets( D); ( 2) For( k=2; Lk-1 ; k+) ( 3) Ck=apriori_gen( Lk-1, min_sup); ( 4) for each transaction tD ( 5) Ct=subset( Ck, t); ( 6) for each candidate c Ct ; ( 7) c.count+; ( 8) ( 9) Lk= cCk |c.countmi n_sup; ( 10) ( 11) return L=kLk ; Procedure apriori_gen( Lk-1: frequent( k-1) -itemsets; min_sup: support) ( 1) for each itemset l1 Lk -1 ( 2) for each itemset l2 Lk -1 ( 3) if( l1 1 = l2 1 ) ( l1 2 = l2 2 ) ( l1 k-2 = l2 k-2 ) ( l1 k-1 = l2 k-1 ) then ( 4) c=l1 l2 ; ( 5) if has_infrequent_subset( c, L k-1) then ( 6) delete c; ( 7) else add c to Ck; ( 8) ( 9) return Ck; Procedure has_infrequent_subset( c: candidate k-itemset; Lk-1: frequent( k-1) -itemsets) ( 1) for each( k-1) -subset s of c ( 2) if s ! L k -1 then ( 3) return true; ( 4) return false; 1.2關(guān)聯(lián)規(guī)則的產(chǎn)生 事實(shí)上,當(dāng)從數(shù)據(jù)庫(kù) D 中的事務(wù)找出頻繁項(xiàng)集時(shí),它們產(chǎn)生的關(guān)聯(lián)規(guī)則是顯而易見的,然而,這些規(guī)則的置信度是不一樣的。因此,和支持度一樣,置信度得設(shè)置一個(gè)閾值。在設(shè)定的置信度閾值和支持度閾值條件下,同時(shí)滿 足這兩個(gè)條件的規(guī)則叫強(qiáng)規(guī)則,這些規(guī)則通常頗為有趣,是關(guān)聯(lián)規(guī)則挖據(jù)的目的。 對(duì)于置信度,可以用下式表示,其中條件概率用項(xiàng)集支持度計(jì)數(shù)表示。 Conference( A=B) =P( B|A) =support-count( A+B)/support-count( A) 其中, support-count( A+B)是包含項(xiàng)集 A+B 的事務(wù)數(shù), support-count( A)包含項(xiàng)集的 A 的事務(wù)數(shù) 6 。 1.3Apriori 算法優(yōu)化 從算法描述可看出,當(dāng)數(shù)據(jù)庫(kù) D 的事務(wù)達(dá)到一定 規(guī)模時(shí),算法的空間復(fù)雜度和時(shí)間復(fù)雜度相當(dāng)高。因此,優(yōu)化是必要的,旨在提高原算法的效率。常用方法有:散列技術(shù)計(jì)數(shù)、事務(wù)壓縮、劃分、選樣。還有一些通過變形實(shí)現(xiàn)有效性,如動(dòng)態(tài)項(xiàng)集計(jì)數(shù)、多層和多維等關(guān)聯(lián)規(guī)則挖掘。 2 實(shí)例分析 2.1挖據(jù)過程 將 Apriori 算法應(yīng)用于犯罪行為分析,主要目的在于找出案件的各個(gè)特征及犯罪嫌疑人各個(gè)特征之前可能存在的相互關(guān)系,以便找出有用的關(guān)聯(lián)規(guī)則。其挖掘過程如下: ( 1)數(shù)據(jù)選擇。從犯罪行為數(shù)據(jù)庫(kù)中檢索并選擇與分析任務(wù)相關(guān)的數(shù)據(jù)并消除噪聲信息。 ( 2)數(shù)據(jù)梳理。運(yùn)用減低維數(shù)、連續(xù)數(shù)據(jù)的離散分類等將數(shù)據(jù)梳理成標(biāo)準(zhǔn)統(tǒng)一的適合于挖據(jù)的形式。 ( 3)關(guān)聯(lián)規(guī)則挖掘。此步驟較為關(guān)鍵,使用 Apriori算法對(duì)已梳理過的事務(wù)進(jìn)行關(guān)聯(lián)分析。 ( 4)實(shí)效評(píng)估。通過調(diào)整支持度閾值及置信度閾值,按照既定的業(yè)務(wù)興趣度量,結(jié)合實(shí)戰(zhàn)檢驗(yàn),使得過程挖掘所獲得的知識(shí)結(jié)果更容易接受,且更有價(jià)值。 ( 5)知識(shí)表示與存儲(chǔ)。使用可視化和知識(shí)表示技術(shù),形成知識(shí)庫(kù),為決策提供依據(jù)。 其中, Apriori算法是關(guān)鍵。過程將發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫(kù)中隱藏的形 式為 “A=B” 的規(guī)則,即在一定的支持度和一定置信度下,假如 A 發(fā)生則 B 一定發(fā)生。圖 1 犯罪行為關(guān)聯(lián)規(guī)則挖掘過程 2.2模型建立 優(yōu)秀的技術(shù)應(yīng)用于具體行業(yè),要想達(dá)到實(shí)戰(zhàn)的成果,模型的建立尤為重要。而對(duì)于關(guān)聯(lián)數(shù)據(jù)挖掘而言,這個(gè)模型的關(guān)鍵點(diǎn)在于合適事務(wù)數(shù)據(jù)庫(kù)的建立。公安業(yè)務(wù)數(shù)據(jù)庫(kù)巨大無比,如何梳理,直接影響到挖掘的成果。 在實(shí)際工作中,犯罪兩個(gè)重要的組成是犯罪行為和行為者。因此,從事和人出發(fā),考慮其特點(diǎn),以已破的刑事犯罪案件信息數(shù)據(jù)為主導(dǎo)進(jìn)行梳理, 案件信息:編號(hào)、類別、時(shí)間、地點(diǎn)、特點(diǎn)、危害程度 、簡(jiǎn)情; 涉案人員:姓名、外號(hào)、性別、民族、出生日期、居民身份證號(hào)碼、籍貫、戶籍地、居住地、文化程度、收入狀況、家庭背景、違法犯罪經(jīng)歷。 本文中,挑選其中主要的八項(xiàng)事務(wù)建立模型:作案形式、選擇時(shí)機(jī)、選擇處所、選擇對(duì)象、案件類別、嫌疑人籍貫、嫌疑人年齡、嫌疑人文化。 2.3數(shù)據(jù)抽樣 樣本來源于某地市 2012年搶劫案連續(xù)抽取的 12個(gè)樣本,并按照模型格式進(jìn)行梳理,其結(jié)果如表 1 所示。 閱讀相關(guān)文檔 :實(shí)施過程管理在網(wǎng)絡(luò)集成項(xiàng)目中的運(yùn)用 微課開發(fā)與應(yīng)用研究 基于 C#的多機(jī)遠(yuǎn)程桌面 監(jiān)控系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 基于 Multigen Creator的三維虛擬校園應(yīng)用研究 基于 CDIO 理念的模擬電路課程教學(xué)改革與實(shí)踐 基于粒子群優(yōu)化算法和 Wiki 的數(shù)字化教材開發(fā)研究 Flash 在深度和廣度優(yōu)先遍歷算法教學(xué)中的應(yīng)用 高效運(yùn)動(dòng)目標(biāo)檢測(cè)算法研究 基于 VC+的虛擬示波器軟件設(shè)計(jì) 振鏡式激光打標(biāo)系統(tǒng)及工藝參數(shù)分析 一種基于多因素的潛在好友推薦算法 基于 .NE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025新人教版英語七年級(jí)下單詞默寫表(小學(xué)部分)
- 莫言《兒子的敵人》閱讀答案及解析
- 商務(wù)英語筆譯之宣傳資料
- 住宅室內(nèi)裝修工序間歇及工藝間歇標(biāo)準(zhǔn)
- 二零二五年度醫(yī)療設(shè)備維護(hù)與保養(yǎng)合同4篇
- 蘇科版七年級(jí)(上)期末復(fù)習(xí)模擬卷
- 八年級(jí)數(shù)學(xué)期末模擬卷(全解全析)(蘇州專用)
- 2024年浙江經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院高職單招數(shù)學(xué)歷年參考題庫(kù)含答案解析
- 2024年浙江電力職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫(kù)含答案解析
- 21世紀(jì)中國(guó)電子商務(wù)網(wǎng)校講義資料
- 《內(nèi)部培訓(xùn)師培訓(xùn)》課件
- 《雷達(dá)原理》課件-3.3.3教學(xué)課件:相控陣?yán)走_(dá)
- 紅色中國(guó)風(fēng)蛇年年會(huì)邀請(qǐng)函
- 2024年車輛修理合同范本
- 高速公路機(jī)電系統(tǒng)培訓(xùn)
- 220kV耐張線夾檢測(cè)報(bào)告
- 化工廠拆除施工方案
- 新能源汽車課件
- 人教版2024-2025學(xué)年七年級(jí)數(shù)學(xué)上冊(cè)3.2代數(shù)式(壓軸題綜合測(cè)試卷)專題特訓(xùn)(學(xué)生版+解析)
- 骨科特殊檢查-肩部特殊檢查(康復(fù)評(píng)定技術(shù))
- 醫(yī)療器械設(shè)備采購(gòu)項(xiàng)目實(shí)施方案
評(píng)論
0/150
提交評(píng)論