改進型Apriori算法在犯罪關聯(lián)分析中的應用[精品資料]

上傳人：追*** IP屬地：河北上傳時間：2014-09-23 格式：DOC 頁數(shù)：5 大小：17.50KB 積分：8.4 舉報 版權(quán)申訴

全文預覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

改進型 Apriori 算法在犯罪關聯(lián)分析中的應用 -精品資料本文檔格式為 WORD,感謝你的閱讀。最新最全的學術(shù)論文期刊文獻年終總結(jié) 年終報告工作總結(jié) 個人總結(jié) 述職報告實習報告單位總結(jié) 摘要：介紹了關聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)，特別是Apriori 核心算法，并對 Apriori 算法進行了 Hash優(yōu)化。以某市的犯罪信息數(shù)據(jù)庫為實例，將改進后的關聯(lián)分析技術(shù)應用其中，以便發(fā)現(xiàn)犯罪行為特點及犯罪嫌疑人特性等潛在的聯(lián)系，為公安部門的戰(zhàn)略部署、決策指揮、偵查破案、治安管理等提供依據(jù)。關鍵詞關鍵詞：犯罪特征；關聯(lián)規(guī)則；數(shù)據(jù)挖掘；Apriori TP312A16727800（ 2013） 011006802 0 引言信息技術(shù)的飛速發(fā)展，給公安機關的信息化應用提供了強有力的保障，較大程度上提高了整個公安隊伍的戰(zhàn)斗力，在防范打擊違法犯罪、維護國家安全穩(wěn)定等方面起到了重要作用。 “ 金盾工程 ” 的推進，促使各類業(yè)務應用平臺逐步建成和完善，但情報導向的信息應用仍處于初探階段。信息的關鍵價值不在于存儲，而在于對所擁有的大量警務信息進行二次挖掘，獲取更有價值的情報信息 1 。近年來，公安部門積累了海量的基礎數(shù)據(jù)和犯罪數(shù)據(jù)信息，但對于這些數(shù)據(jù)的高效利用和深度應用未有明顯成績。因此，如何利用先進的信息技術(shù)在這些海量數(shù)據(jù)中進行深度挖掘，得出一些新知識，使之有益于公安部門的戰(zhàn)略部署、決策指揮、偵查破案、治安管理等，具有一定的時代意義。 1 關聯(lián)規(guī)則挖掘關聯(lián)規(guī)則挖掘，有時也叫關聯(lián)分析，是數(shù)據(jù)挖掘的一個重要研究領域。它是指從事務數(shù)據(jù)庫、關系數(shù)據(jù)庫和其它信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關聯(lián)和相關性，即所謂的關聯(lián) 規(guī)則。其形式為： “X=Y” ，即在設定的高置信度的規(guī)則下， X 事件發(fā)生了， Y 事件必然發(fā)生。關聯(lián)規(guī)則挖掘核心算法為著名的 Apriori算法。當然，此后出現(xiàn)了一些相關算法，諸如 DIC算法 2 、 DLG算法 3 和 DHP算法 4 等，都是基于 Apriori 算法做了改進或優(yōu)化而成的。 1.1Apriori 算法 Apriori 算法，是一種挖掘布爾關聯(lián)規(guī)則頻繁項集的算法，是 Agrawal.R 、 Imieliski.T 等人在 1994第 20屆大型數(shù)據(jù)庫國際會議上提出的 5 ，于當時最具影響力。此算法實質(zhì)是一個逐層迭代搜索的方法，利用 K 項集探索 K+1項集。第一次，找出頻繁 1 項集的集合，記為 L1；第二次，利用 L1探索 L2，找出頻繁 2 項集，記為 L2；如此進行探索，直至頻繁項集 K 為空，停止。算法描述如下： Input： Database D， of transactions； minimum support threshold； Output： L， frequent itemsets in D Method：（ 1） L1=find_frequent_1-itemsets（ D）；（ 2） For（ k=2； Lk-1 ； k+）（ 3） Ck=apriori_gen（ Lk-1， min_sup）；（ 4） for each transaction tD （ 5） Ct=subset（ Ck， t）；（ 6） for each candidate c Ct ；（ 7） c.count+；（ 8）（ 9） Lk= cCk |c.countmi n_sup；（ 10）（ 11） return L=kLk ； Procedure apriori_gen（ Lk-1： frequent（ k-1） -itemsets； min_sup： support）（ 1） for each itemset l1 Lk -1 （ 2） for each itemset l2 Lk -1 （ 3） if（ l1 1 = l2 1 ）（ l1 2 = l2 2 ）（ l1 k-2 = l2 k-2 ）（ l1 k-1 = l2 k-1 ） then （ 4） c=l1 l2 ；（ 5） if has_infrequent_subset（ c， L k-1） then （ 6） delete c；（ 7） else add c to Ck；（ 8）（ 9） return Ck； Procedure has_infrequent_subset（ c： candidate k-itemset； Lk-1： frequent（ k-1） -itemsets）（ 1） for each（ k-1） -subset s of c （ 2） if s ！ L k -1 then （ 3） return true；（ 4） return false； 1.2關聯(lián)規(guī)則的產(chǎn)生事實上，當從數(shù)據(jù)庫 D 中的事務找出頻繁項集時，它們產(chǎn)生的關聯(lián)規(guī)則是顯而易見的，然而，這些規(guī)則的置信度是不一樣的。因此，和支持度一樣，置信度得設置一個閾值。在設定的置信度閾值和支持度閾值條件下，同時滿足這兩個條件的規(guī)則叫強規(guī)則，這些規(guī)則通常頗為有趣，是關聯(lián)規(guī)則挖據(jù)的目的。對于置信度，可以用下式表示，其中條件概率用項集支持度計數(shù)表示。 Conference（ A=B） =P（ B|A） =support-count（ A+B）/support-count（ A）其中， support-count（ A+B）是包含項集 A+B 的事務數(shù)， support-count（ A）包含項集的 A 的事務數(shù) 6 。 1.3Apriori 算法優(yōu)化從算法描述可看出，當數(shù)據(jù)庫 D 的事務達到一定規(guī)模時，算法的空間復雜度和時間復雜度相當高。因此，優(yōu)化是必要的，旨在提高原算法的效率。常用方法有：散列技術(shù)計數(shù)、事務壓縮、劃分、選樣。還有一些通過變形實現(xiàn)有效性，如動態(tài)項集計數(shù)、多層和多維等關聯(lián)規(guī)則挖掘。 2 實例分析 2.1挖據(jù)過程將 Apriori 算法應用于犯罪行為分析，主要目的在于找出案件的各個特征及犯罪嫌疑人各個特征之前可能存在的相互關系，以便找出有用的關聯(lián)規(guī)則。其挖掘過程如下：（ 1）數(shù)據(jù)選擇。從犯罪行為數(shù)據(jù)庫中檢索并選擇與分析任務相關的數(shù)據(jù)并消除噪聲信息。（ 2）數(shù)據(jù)梳理。運用減低維數(shù)、連續(xù)數(shù)據(jù)的離散分類等將數(shù)據(jù)梳理成標準統(tǒng)一的適合于挖據(jù)的形式。（ 3）關聯(lián)規(guī)則挖掘。此步驟較為關鍵，使用 Apriori算法對已梳理過的事務進行關聯(lián)分析。（ 4）實效評估。通過調(diào)整支持度閾值及置信度閾值，按照既定的業(yè)務興趣度量，結(jié)合實戰(zhàn)檢驗，使得過程挖掘所獲得的知識結(jié)果更容易接受，且更有價值。（ 5）知識表示與存儲。使用可視化和知識表示技術(shù)，形成知識庫，為決策提供依據(jù)。其中， Apriori算法是關鍵。過程將發(fā)現(xiàn)事務數(shù)據(jù)庫中隱藏的形式為 “A=B” 的規(guī)則，即在一定的支持度和一定置信度下，假如 A 發(fā)生則 B 一定發(fā)生。圖 1 犯罪行為關聯(lián)規(guī)則挖掘過程 2.2模型建立優(yōu)秀的技術(shù)應用于具體行業(yè)，要想達到實戰(zhàn)的成果，模型的建立尤為重要。而對于關聯(lián)數(shù)據(jù)挖掘而言，這個模型的關鍵點在于合適事務數(shù)據(jù)庫的建立。公安業(yè)務數(shù)據(jù)庫巨大無比，如何梳理，直接影響到挖掘的成果。在實際工作中，犯罪兩個重要的組成是犯罪行為和行為者。因此，從事和人出發(fā)，考慮其特點，以已破的刑事犯罪案件信息數(shù)據(jù)為主導進行梳理，案件信息：編號、類別、時間、地點、特點、危害程度、簡情；涉案人員：姓名、外號、性別、民族、出生日期、居民身份證號碼、籍貫、戶籍地、居住地、文化程度、收入狀況、家庭背景、違法犯罪經(jīng)歷。本文中，挑選其中主要的八項事務建立模型：作案形式、選擇時機、選擇處所、選擇對象、案件類別、嫌疑人籍貫、嫌疑人年齡、嫌疑人文化。 2.3數(shù)據(jù)抽樣樣本來源于某地市 2012年搶劫案連續(xù)抽取的 12個樣本，并按照模型格式進行梳理，其結(jié)果如表 1 所示。閱讀相關文檔 :實施過程管理在網(wǎng)絡集成項目中的運用微課開發(fā)與應用研究基于 C#的多機遠程桌面監(jiān)控系統(tǒng)設計與實現(xiàn) 基于 Multigen Creator的三維虛擬校園應用研究基于 CDIO 理念的模擬電路課程教學改革與實踐基于粒子群優(yōu)化算法和 Wiki 的數(shù)字化教材開發(fā)研究 Flash 在深度和廣度優(yōu)先遍歷算法教學中的應用高效運動目標檢測算法研究基于 VC+的虛擬示波器軟件設計振鏡式激光打標系統(tǒng)及工藝參數(shù)分析一種基于多因素的潛在好友推薦算法基于 .NE

人人文庫> 全部分類> 專業(yè)文獻 > 建筑水利

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

改進型Apriori算法在犯罪關聯(lián)分析中的應用[精品資料]

文檔簡介

溫馨提示

最新文檔

評論