改進型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第1頁
改進型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第2頁
改進型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第3頁
改進型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第4頁
改進型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

改進型 Apriori 算法在犯罪關(guān)聯(lián)分析中的應(yīng)用 -精品資料 本文檔格式為 WORD,感謝你的閱讀。 最新最全的 學(xué)術(shù)論文 期刊文獻 年終總結(jié) 年終報告 工作總結(jié) 個人總結(jié) 述職報告 實習(xí)報告 單位總結(jié) 摘要:介紹了關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),特別是Apriori 核心算法,并對 Apriori 算法進行了 Hash優(yōu)化。以某市的犯罪信息數(shù)據(jù)庫為實例,將改進后的關(guān)聯(lián)分析技術(shù)應(yīng)用其中,以便發(fā)現(xiàn)犯罪行為特點及犯罪嫌疑人特性等潛在的聯(lián)系,為公安部門的戰(zhàn)略部署、決策指揮、偵查破 案、治安管理等提供依據(jù)。 關(guān)鍵詞關(guān)鍵詞:犯罪特征;關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;Apriori TP312A16727800( 2013) 011006802 0 引言 信息技術(shù)的飛速發(fā)展,給公安機關(guān)的信息化應(yīng)用提供了強有力的保障,較大程度上提高了整個公安隊伍的戰(zhàn)斗力,在防范打擊違法犯罪、維護國家安全穩(wěn)定等方面起到了重要作用。 “ 金盾工程 ” 的推進,促使各類業(yè)務(wù)應(yīng)用平臺逐步建成和完善,但情報導(dǎo)向的信息應(yīng)用仍處于初探階段。信息的關(guān)鍵價值不在于存儲,而在于對所擁有的大量警務(wù)信息進行二次挖掘 ,獲取更有價值的情報信息 1 。近年來,公安部門積累了海量的基礎(chǔ)數(shù)據(jù)和犯罪數(shù)據(jù)信息,但對于這些數(shù)據(jù)的高效利用和深度應(yīng)用未有明顯成績。因此,如何利用先進的信息技術(shù)在這些海量數(shù)據(jù)中進行深度挖掘,得出一些新知識,使之有益于公安部門的戰(zhàn)略部署、決策指揮、偵查破案、治安管理等,具有一定的時代意義。 1 關(guān)聯(lián)規(guī)則挖掘 關(guān)聯(lián)規(guī)則挖掘,有時也叫關(guān)聯(lián)分析,是數(shù)據(jù)挖掘的一個重要研究領(lǐng)域。它是指從事務(wù)數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫和其它信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性,即所謂的關(guān)聯(lián) 規(guī)則。其形式為: “X=Y” ,即在設(shè)定的高置信度的規(guī)則下, X 事件發(fā)生了, Y 事件必然發(fā)生。 關(guān)聯(lián)規(guī)則挖掘核心算法為著名的 Apriori算法。當(dāng)然,此后出現(xiàn)了一些相關(guān)算法,諸如 DIC算法 2 、 DLG算法 3 和 DHP算法 4 等,都是基于 Apriori 算法做了改進或優(yōu)化而成的。 1.1Apriori 算法 Apriori 算法,是一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法,是 Agrawal.R 、 Imieliski.T 等人在 1994第 20屆大型數(shù)據(jù)庫國際會議上提出的 5 ,于當(dāng)時最具影響力。此算法實質(zhì)是一個逐層迭代搜索的方法,利用 K 項集探索 K+1項集。第一次,找出頻繁 1 項集的集合,記為 L1;第二次,利用 L1探索 L2,找出頻繁 2 項集,記為 L2;如此進行探索,直至頻繁項集 K 為空,停止。 算法描述如下: Input: Database D, of transactions; minimum support threshold; Output: L, frequent itemsets in D Method: ( 1) L1=find_frequent_1-itemsets( D); ( 2) For( k=2; Lk-1 ; k+) ( 3) Ck=apriori_gen( Lk-1, min_sup); ( 4) for each transaction tD ( 5) Ct=subset( Ck, t); ( 6) for each candidate c Ct ; ( 7) c.count+; ( 8) ( 9) Lk= cCk |c.countmi n_sup; ( 10) ( 11) return L=kLk ; Procedure apriori_gen( Lk-1: frequent( k-1) -itemsets; min_sup: support) ( 1) for each itemset l1 Lk -1 ( 2) for each itemset l2 Lk -1 ( 3) if( l1 1 = l2 1 ) ( l1 2 = l2 2 ) ( l1 k-2 = l2 k-2 ) ( l1 k-1 = l2 k-1 ) then ( 4) c=l1 l2 ; ( 5) if has_infrequent_subset( c, L k-1) then ( 6) delete c; ( 7) else add c to Ck; ( 8) ( 9) return Ck; Procedure has_infrequent_subset( c: candidate k-itemset; Lk-1: frequent( k-1) -itemsets) ( 1) for each( k-1) -subset s of c ( 2) if s ! L k -1 then ( 3) return true; ( 4) return false; 1.2關(guān)聯(lián)規(guī)則的產(chǎn)生 事實上,當(dāng)從數(shù)據(jù)庫 D 中的事務(wù)找出頻繁項集時,它們產(chǎn)生的關(guān)聯(lián)規(guī)則是顯而易見的,然而,這些規(guī)則的置信度是不一樣的。因此,和支持度一樣,置信度得設(shè)置一個閾值。在設(shè)定的置信度閾值和支持度閾值條件下,同時滿 足這兩個條件的規(guī)則叫強規(guī)則,這些規(guī)則通常頗為有趣,是關(guān)聯(lián)規(guī)則挖據(jù)的目的。 對于置信度,可以用下式表示,其中條件概率用項集支持度計數(shù)表示。 Conference( A=B) =P( B|A) =support-count( A+B)/support-count( A) 其中, support-count( A+B)是包含項集 A+B 的事務(wù)數(shù), support-count( A)包含項集的 A 的事務(wù)數(shù) 6 。 1.3Apriori 算法優(yōu)化 從算法描述可看出,當(dāng)數(shù)據(jù)庫 D 的事務(wù)達到一定 規(guī)模時,算法的空間復(fù)雜度和時間復(fù)雜度相當(dāng)高。因此,優(yōu)化是必要的,旨在提高原算法的效率。常用方法有:散列技術(shù)計數(shù)、事務(wù)壓縮、劃分、選樣。還有一些通過變形實現(xiàn)有效性,如動態(tài)項集計數(shù)、多層和多維等關(guān)聯(lián)規(guī)則挖掘。 2 實例分析 2.1挖據(jù)過程 將 Apriori 算法應(yīng)用于犯罪行為分析,主要目的在于找出案件的各個特征及犯罪嫌疑人各個特征之前可能存在的相互關(guān)系,以便找出有用的關(guān)聯(lián)規(guī)則。其挖掘過程如下: ( 1)數(shù)據(jù)選擇。從犯罪行為數(shù)據(jù)庫中檢索并選擇與分析任務(wù)相關(guān)的數(shù)據(jù)并消除噪聲信息。 ( 2)數(shù)據(jù)梳理。運用減低維數(shù)、連續(xù)數(shù)據(jù)的離散分類等將數(shù)據(jù)梳理成標(biāo)準統(tǒng)一的適合于挖據(jù)的形式。 ( 3)關(guān)聯(lián)規(guī)則挖掘。此步驟較為關(guān)鍵,使用 Apriori算法對已梳理過的事務(wù)進行關(guān)聯(lián)分析。 ( 4)實效評估。通過調(diào)整支持度閾值及置信度閾值,按照既定的業(yè)務(wù)興趣度量,結(jié)合實戰(zhàn)檢驗,使得過程挖掘所獲得的知識結(jié)果更容易接受,且更有價值。 ( 5)知識表示與存儲。使用可視化和知識表示技術(shù),形成知識庫,為決策提供依據(jù)。 其中, Apriori算法是關(guān)鍵。過程將發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫中隱藏的形 式為 “A=B” 的規(guī)則,即在一定的支持度和一定置信度下,假如 A 發(fā)生則 B 一定發(fā)生。圖 1 犯罪行為關(guān)聯(lián)規(guī)則挖掘過程 2.2模型建立 優(yōu)秀的技術(shù)應(yīng)用于具體行業(yè),要想達到實戰(zhàn)的成果,模型的建立尤為重要。而對于關(guān)聯(lián)數(shù)據(jù)挖掘而言,這個模型的關(guān)鍵點在于合適事務(wù)數(shù)據(jù)庫的建立。公安業(yè)務(wù)數(shù)據(jù)庫巨大無比,如何梳理,直接影響到挖掘的成果。 在實際工作中,犯罪兩個重要的組成是犯罪行為和行為者。因此,從事和人出發(fā),考慮其特點,以已破的刑事犯罪案件信息數(shù)據(jù)為主導(dǎo)進行梳理, 案件信息:編號、類別、時間、地點、特點、危害程度 、簡情; 涉案人員:姓名、外號、性別、民族、出生日期、居民身份證號碼、籍貫、戶籍地、居住地、文化程度、收入狀況、家庭背景、違法犯罪經(jīng)歷。 本文中,挑選其中主要的八項事務(wù)建立模型:作案形式、選擇時機、選擇處所、選擇對象、案件類別、嫌疑人籍貫、嫌疑人年齡、嫌疑人文化。 2.3數(shù)據(jù)抽樣 樣本來源于某地市 2012年搶劫案連續(xù)抽取的 12個樣本,并按照模型格式進行梳理,其結(jié)果如表 1 所示。 閱讀相關(guān)文檔 :實施過程管理在網(wǎng)絡(luò)集成項目中的運用 微課開發(fā)與應(yīng)用研究 基于 C#的多機遠程桌面 監(jiān)控系統(tǒng)設(shè)計與實現(xiàn) 基于 Multigen Creator的三維虛擬校園應(yīng)用研究 基于 CDIO 理念的模擬電路課程教學(xué)改革與實踐 基于粒子群優(yōu)化算法和 Wiki 的數(shù)字化教材開發(fā)研究 Flash 在深度和廣度優(yōu)先遍歷算法教學(xué)中的應(yīng)用 高效運動目標(biāo)檢測算法研究 基于 VC+的虛擬示波器軟件設(shè)計 振鏡式激光打標(biāo)系統(tǒng)及工藝參數(shù)分析 一種基于多因素的潛在好友推薦算法 基于 .NE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論