高危人員數(shù)據(jù)對象分析與數(shù)據(jù)挖掘研究_圖文_第1頁
高危人員數(shù)據(jù)對象分析與數(shù)據(jù)挖掘研究_圖文_第2頁
高危人員數(shù)據(jù)對象分析與數(shù)據(jù)挖掘研究_圖文_第3頁
高危人員數(shù)據(jù)對象分析與數(shù)據(jù)挖掘研究_圖文_第4頁
高危人員數(shù)據(jù)對象分析與數(shù)據(jù)挖掘研究_圖文_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、高危人員數(shù)據(jù)對象分析與數(shù)據(jù)挖掘研究王 電 1, 楊永川2(1. 中國軟件 與技術服務股份有限公司 , 北京 100081; 2. 中 國人民公安大學 , 北京 100038摘 要 通過高危人員數(shù)據(jù)集合 中各數(shù)據(jù)對象構成之間的關系確定高危人員的基本數(shù) 據(jù)定義 , 從而使高 危人員的 傳統(tǒng)、 靜態(tài)的數(shù)據(jù)定義延展為基于案件的、 動態(tài)的數(shù) 據(jù)定義 , 進 而建立服 務于情 報研判 的高危 人員數(shù) 據(jù)模型 , 使得 高危人員的數(shù)據(jù)空間具備更加實 用和科學的數(shù)據(jù)邊界。 關鍵詞 高危人員 ; 數(shù)據(jù)對象 ; 數(shù)據(jù)挖掘 中圖分類號 T P 392:D631作者簡介 王 電 (1957 , 男 , 云南昆 明人

2、, 中國人民公安大學客座教授、 中國軟件與技術服務股份有限公 司高級工 程師。 主要研究方向為基于公安信 息的計算機應用系統(tǒng)設計與數(shù)據(jù)挖掘。0 引言為了準確、 科學地描述公安業(yè)務中高危人員的數(shù)據(jù)對象特性 , 本文基于高危人員的分析研判主題 , 對高危人員的數(shù)據(jù)體系進行了實際的分析。首先 , 按照公安信息數(shù)據(jù)體系結構模型的概念 , 研究以 /人 員 0為核心的數(shù)據(jù)對象構成 , 建立基本的、 收斂的數(shù) 據(jù)模型。其次 , 確定公安信息數(shù)據(jù)體系結構的技術 路線 , 構建以 /人員 0和 /案件 0為基本分類方案的數(shù) 據(jù)空間 , 以此構建符合高危人員數(shù)據(jù)體系結構的數(shù) 據(jù)事實表。再次 , 根據(jù)基于主題的信

3、息應用數(shù)據(jù)空 間 , 構建以 /高危人群 0和 /高危人員 0為實際主題應 用的數(shù)據(jù)空間 , 以此驗證基于主題應用的高危人員 數(shù)據(jù)體系結構的數(shù)據(jù)空間是否可以由類似 /高危人 員維表 0的數(shù)據(jù)維表來構建。 1 信息屬性與構成分析111 高危人員基礎定義宏觀上講 , 高危人員是指符合某些特征的一群 人員 , 這些人員相對一般人員更可能會成為犯罪嫌 疑人員或被侵害人員。高危人員分析的主要目的就 是要找出這些特征 , 分析挖掘出某些特征項和特征 值 , 對公安人員防范打擊犯罪的過程給予指導性意 見 , 使公安人員的決策判斷更加有效、 準確。 112 高危人員信息屬性項分析高危人員按照犯罪嫌疑人高危人員

4、和被侵害高 危人員 , 擁有互相獨立但又存在交叉的兩套信息屬 性集合 , 每一套信息屬性集合又可按照類別的不同以樹狀結構管理。同時由于 在公安業(yè)務信息 系統(tǒng) 中 , 與人員相關的信息屬性項數(shù)量龐大 , 不可能全部 拿來作為兩種高危人員的信息屬性項集合 , 而且因 為分析的目的、 側重點、 方法各不相同 , 把所有人員 相關的信息屬性全部考慮、 不加處理地進行分析 , 不 可能得到很好的分析結果。所以 , 對這些龐雜的人 員信息屬性項進行重新歸類、 剔除、 綜合、 轉化等的 處理措施是非常有必要和非常關鍵的。這些過濾處 理措施的質量將直接影響到數(shù)據(jù)挖掘模型的建立 , 并最終影響挖掘結果。在高危人

5、員信息屬性項確定之后 , 還要確定在 每個屬性項下面的屬性值。同高危人員信息屬性項 一樣 , 如果這些屬性值沒有得到很好的分析和處理 的話 , 最終的高危人員分析結果也會受到很大的影 響。對高危人員信息屬性值的處理主要是綜合和剔 除處理。經過處理的屬性值顆粒度粗細適合、 分類 清晰、 與業(yè)務關系緊密 , 這將為最后分析結果的質量 提供有效的支撐 , 而且為挖掘結果的模型應用也奠 定了很好的基礎。113 高危人員信息的來源高危人員的各類信息主要來源于現(xiàn)行的各個公 安業(yè)務系統(tǒng)之中 , 它們?yōu)楦呶H藛T的信息分析提供 了很好的數(shù)據(jù)來源基礎。存在于大量業(yè)務系統(tǒng)之中 的關于人員的信息數(shù)據(jù) , 可以豐富高危

6、人員信息 , 并 可提供擴展性很強的交互操作 , 但同時對于高危人 員信息處理工作也是相當大的挑戰(zhàn)。不同的信息存 放格式、 不同的信息分類、 各式各樣的軟硬件環(huán)境都 將對高危人員信息處理工作提出相當苛刻的要求。中國人民公安大學學報 (自然科學版 最終的高危人員信息處理要滿足靈活、 健壯、 可擴展 性強等硬性的要求 , 因此 , 高危人員信息的來源問題 是分析研究過程中的重要環(huán)節(jié)。114高危人員信息的分布密度分析高危人員信息的分布位置主要取決于分析主題 和分析人員的方法。分析人員首先要挑選出對已定 主題具有比較重要貢獻的人員信息項作為參與聚類 的元素 , 然后將這些信息作為聚類算法的輸入進行 分

7、析得出結論。所以高危人員信息的分布密度問題 存在人為定義和控制的問題。2信息分類與邊界分析211高危人員的基本分類高危人員分為犯罪嫌疑人高危人員和被侵害人 高危人員。犯罪嫌疑人高危人員是指按照某種約束 下帶有犯罪嫌疑人普遍具有的特殊特征或者符合犯 罪嫌疑人普遍遵循的特 殊規(guī)律的一部 分人群。同 樣 , 被侵害人高危人員則符合那些被侵害人普遍符 合的特征和規(guī)律。這些高危人員的信息項又可以根 據(jù)性質歸類為幾個大項 , 如人員的基本信息 , 其中包 括人員的年齡、 性別、 居住地等 ; 人員的家庭情況信 息 , 其中包括家庭成員 , 戶籍地等 ; 人員所涉及的案 件信息 , 其中包括案件的類別、 作

8、案工具、 作案時間 等。這些大項最終又可以根據(jù)具體的情況繼續(xù)細分 , 比如案件信息可以再分為現(xiàn)場信息 , 筆錄信息 , 等等。 212高危人員信息與案事件信息的關系高危人員信息來自于各種各樣的人員信息 , 而 這些信息與案事件信息是以多對多的關系存在的。 例如 0案件發(fā)生地 /作為案事件信息 , 它可能會對應 到多個犯罪嫌疑人身上 , 而同一個犯罪嫌疑人也可 能會在多個地點實施犯罪 , 也就是對應到不同的案 件發(fā)生地之上。所以高危人員信息和案事件信息的 關系是在案事件中涉及人員信息基礎上的一種多對 多的關系。213高危人員信息與主題的關系所謂信息主題 , 就是針對某一個特定的數(shù)據(jù)域。 面向主題

9、的高危人員 , 實際就是在分析高危人員的 過程中對 過于寬泛的數(shù)據(jù)集合給予一 定的限制條 件 , 在這些限制條件之下所得出的分析結果即面向 主題的高危人員數(shù)據(jù)。例如將案件性質作為分析主 題 , 這樣就可以得到在不同案件性質下的高危人員 構成的分析結果。214高危人員的信息邊界定義高危人員信息邊界也就是界定是否為參與高危 人員分析的數(shù)據(jù)構成。具體的界定將根據(jù)高危人員 的分析主題而定 , 但都符合一個原理 , 即參與分析的 信息項要對所分析的數(shù)據(jù)事實項有直接或間接的影 響 , 并且在業(yè)務上存在使用價值 , 這兩點同時滿足時 這個信息項就可以定義為高危人員信息。高危人員信息邊界具有一些特征 , 在原

10、理上講 , 在邊界內的信息項將會定性、 定量和以固定的方向 影響最終的高危人員分析結果 ; 而在邊界外的信息 項則會產生隨機的噪聲信息 , 并附加在分析結果之 上 , 使得這些信息項對最后結果的貢獻無法穩(wěn)定。3高危人員的信息模型311高危人員信息的理想模型高危人員信息的理想模型應該符合以下主要特 征。首先 , 高危人員信息應該與高危人員分析事實 有直接或者潛在的聯(lián)系。例如人員的年齡信息 , 根 據(jù)犯罪嫌疑人作案的規(guī)律和經驗 , 犯罪嫌疑人年齡 與案件的類型、 使用工具等犯罪事實都會有相應的 聯(lián)系 , 那么年齡信息就應該作為高危人員信息的一 項來進行處理。相反 , 比如人員的血型信息 , 根據(jù)直

11、 覺和以往的辦案經驗 , 它不會和案件等事實信息有 任何的聯(lián)系。同樣 , 公安人員在辦案過程中也不會 將人員的血型信息和其他信息建立起聯(lián)系 , 所以這 個人員的血型信息就不適合出現(xiàn)在高危人員的信息 項中 ; 其次 , 人員信息之間的聯(lián)系不應該過強 , 過強 的關聯(lián)信息將導致最終的聚類分析結果側重于這些 聯(lián)系項 , 而忽略了其他事實上更加重要的規(guī)律數(shù)據(jù)。 例如人員的居住地和戶籍地 , 大多數(shù)情況下 , 人員的 居住地和戶籍地都是同一個地方 , 這兩項之間在本 質上有著相當強的聯(lián)系 , 這時將這樣的數(shù)據(jù)進行聚 類分析的結果將會顯示出按照居住地和戶籍地的關 聯(lián)關系所得出的聚類結果。所以 , 這時就應

12、該對這 兩項信息進行處理 , 比如去掉一項或者用另外一種 形式表示。312高危人員信息的基本模型高危人員的基本模型主要描述在案件發(fā)生過程 中 , 有可能構成高危人員的全部數(shù)據(jù)關系所構成的 數(shù)據(jù)空間 , 在這個數(shù)據(jù)空間中 , 主要解決高危人員基 本模型的完整性和收斂性問題 , 但決不意味著特定 高危人員的數(shù)據(jù)空間必須完整地由模型所描述的數(shù) 據(jù)實體和數(shù)據(jù)關系構成 , 缺一不可。高危人員信息基本模型的形成依據(jù)及原則主要 遵循理想模型中遵守的原則 , 同時也需要考慮現(xiàn)實 情況中各種約束條件 , 比如數(shù)據(jù)挖掘聚類分析算法圖 1高危人員信息的基本模型的選取、 業(yè)務系統(tǒng)中原有數(shù)據(jù)情況、 主題類型等具體 情況

13、 , 都會影響到具體的、 特定的、 與事實相關的數(shù) 據(jù)模型建立過程。313高危人員信息的事實模型高危人員信息的事實模型主要是基于具體的案 件建立的 , 同時也可以擴展到基本的人員信息。在 聚類分析數(shù)據(jù)挖掘過程中 , 可以將一些信息項不作 為聚類依據(jù)而作為統(tǒng)計數(shù)據(jù) , 也就是事實數(shù)據(jù)來進 行計算。比如高危人員涉及案件的案件數(shù)就可以作 為一個統(tǒng)計項進行分析 , 在最終的聚類分析結果中 , 可以依據(jù)這個數(shù)值對各個高危人群的重要性給予評 估。從而形成了依據(jù) /案件性質 0而聚合產生的高危 人員數(shù)據(jù)空間和相應的指標體系 , 而描述這個高危 人員數(shù)據(jù)空間的模型被稱之為基于 /案件性質 0維度 而構建的主題

14、切片數(shù)據(jù)空間 , 示例中表現(xiàn)的是基于 /系列盜竊案 0的高危人員信息構成的事實模型。 314高危人員信息的維度模型高危人員信息的維度模型也就是除去事實模型 的參與聚類分析的數(shù)據(jù)信息項 , 這些信息項對最終 的聚類結果按照分析人員給定的不同權重分別給予 一定的貢獻。以樹狀結構組織的維度模型事實上只 有樹葉節(jié)點數(shù)據(jù)參與最終的聚類分析 , 而作為樹枝 節(jié)點的數(shù)據(jù)則主要起到邏輯歸類的作用 , 但如果將 此模型應用到其他數(shù)據(jù)挖掘算法中 , 比如關聯(lián)規(guī)則 的數(shù)據(jù)挖掘則會起到真實的作用。4數(shù)據(jù)體系結構與信息主題分析411高危人員信息與基礎人員信息的關系高危人員信息基本上可以說是由基礎人員信息 的子集部分加上

15、額外的案件信息組成的?;A人員 信息在高危人員信息中主要體現(xiàn)為人的自然特征信 息 , 如年齡、 學歷、 住址等 , 這些內容在聚類分析過程 中作為人員的固有屬性起著重要的作用 , 在聚類分 析的結果中可以為分析人員提供很好的無關人員定 位功能 , 可以在無犯罪前科的人員集合內有針對性 地對犯罪進行有效控制。412高危人員信息與相關信息的關系與具體人員相關的案件信息在整個聚類分析中 扮演著準確定位的角色。由于案件信息都是實實在 在真實存在的犯罪歷史 , 所以它較人員的自然屬性 信息更加重要 , 更加可以說明實際的業(yè)務問題。因 此 , 在聚類分析過程中應給予更高的權重。在聚類 分析的結果中可以為分

16、析人 員提供準確的定 位功 能 , 在有犯罪前科的人員集合內進行高效的偵破。 圖 2基于 /系列盜竊案 0的高危人員 信息構成的事實模型413高危人員信息的完整體系結構基礎人員信息和相關的案件信息共同組成了高 危人員信息的完整體系結構。在進行數(shù)據(jù)挖掘聚類 分析的過程中 , 這兩套信息是無差別的 , 每個信息項 除了提供的權重不同 , 其他方面都是相同的 , 只是人 為地賦予了業(yè)務意義 , 根據(jù)具體的業(yè)務含義則可產 生應用于實際公安業(yè)務的信息分析主題。414高危人員信息的主題產生原則實際上 , 面向主題的高危人員信息就是在一定 條件限定下的高危人員信息集合 , 以及根據(jù)分析手 段與目的不同而構成

17、的面向具體應用的數(shù)據(jù)集合。 第一 , 由于主題確立的不同 , 在高危人員信息項上面 的選擇會略有差別。例如在分析毒品 案高危人員 時 , 也許分析人員并不需要人員年齡信息參與其中 , 而另外一個針對青少年高危人員的分析中 , 人員的 年齡信息不但要參與其中 , 而且還具有較高的權重。 第二 , 由于側重點不同 , 在整體的分析集合中也許只 需要其中一部分信息數(shù)據(jù)。例如在分析殺人案高危 人員過程中 , 應只涉及參與過殺人案的犯罪嫌疑人 的信息數(shù)據(jù) , 這樣分析的結果才會符合我們的要求 , 得出正確的結果。5ETL 設計與數(shù)據(jù)映射關系分析511高危人員信息的裝載準備高危人員信息的裝載涉及到數(shù)據(jù)挖掘

18、系統(tǒng)與各 個業(yè)務系統(tǒng) , 高危人員數(shù)據(jù)挖掘過程將所需要的信 息從各個業(yè)務系統(tǒng)中抽取出來加以處理、 利用 , 所以 準備工作主要為對業(yè)務系統(tǒng)數(shù)據(jù)格式的了解和兩套 系統(tǒng)間的硬件軟件聯(lián)系。512高危人員信息的裝載高危人員信息的裝載是進行高危人員分析的基 礎 , 此過程將由高危人員分析系統(tǒng)中的裝載子系統(tǒng) 完成 , 自動將所需要的業(yè)務數(shù)據(jù)經過遷移、 清洗、 重 組等過程存儲在高危人員分析系統(tǒng)中供系統(tǒng)程序分 析使用。513高危人員信息與業(yè)務信息的關系高危人員信息來源于業(yè)務信息中人員信息和涉 及到人員的信息 , 如案件、 物品信息等 , 但又不是完 全照搬 , 需要對其進行加工處理 , 使之滿足高危人員 分

19、析的數(shù)據(jù)挖掘模型需要和分析的主題需要。例如 相應的校驗機制就是用來解決此類問題的 , 這主要 指在業(yè)務系統(tǒng)中存有的信息數(shù)據(jù)出現(xiàn)缺失、 異常時 , 裝載系統(tǒng)所做的處理工作。由于信息量龐大 , 出現(xiàn) 這種情況只占很小的比例 , 所以一般情況下可簡單 地以兩種方式處理 , 一種是簡單地遺棄這類信息 , 另 一種是靜態(tài)或動態(tài)地由分析人員指定在正常值域范 圍內的默認值賦值給這些記錄。514高危人員信息組織與信息映射高危人員信息的組織形式為以邏輯關系為基礎 的樹狀結構 , 樹葉節(jié)點參加真正的聚類分析 , 樹枝節(jié) 點僅供分析人員管理人員信息項所用。高危人員信息映射遵循半自動化和可定制的技 術路線 , 由于業(yè)

20、務系統(tǒng)的復雜狀況 , 做固定方式和全 自動化的方式都是不可取的。固定方式不能適應廣 泛的具體需求 , 同時由于具體情況千差萬別 , 要實現(xiàn) 全自動方式又是得不償失 , 所以要折中選取一條既 滿足需求也要符合技術現(xiàn)實的技術路線。在大多數(shù)情況下 , 業(yè)務系統(tǒng)中的人員案件信息 可完全復制到高危人員分析系統(tǒng)中來 , 保持他們的 信息項和信息值不變 , 通過各個數(shù)據(jù)集關系整理為 一個寬表作為聚類分析目標 , 每一條數(shù)據(jù)便代表一 個具體的 人的相 關信息 (自然 信息 , 案 件信息 , 等 等 。少量的數(shù)據(jù)可能由于各種各樣的原因 , 比如算 法要求 , 分析要求 , 等等 , 需要進行非一對一的映射 關

21、系 , 進行重新歸類形成可用的數(shù)據(jù)。6數(shù)據(jù)挖掘研究611高危人員信息模型的孤立點在基于聚類算法的高危人員信息分析中 , 人員 信息將會自動分類到不同的群里面 , 同時也會有少 量的數(shù)據(jù)散落到這些群之外 , 形成一個個孤立點 , 這 些孤立點在模型比較正確的前提下也是非常具有分 析價值的。當然 , 孤立點檢測與聚類分析是兩個不 同的算法 , 所以在進行孤立點檢測的結果中 , 這些孤 立點會存在于聚類分析結果中的某一個群中。 612高危人員信息孤立點的業(yè)務含義散落在高危人員信息之外的孤立點在業(yè)務上可 能具有多種含義 , 例如可能是由于業(yè)務系統(tǒng)中操作 人員的錄入失誤所造成的 , 也可能是一起很不正常

22、 的案件 , 還可能是犯罪手段極高的案件 , 在作案的過 程中故意打亂規(guī)律的反偵查表現(xiàn) , 等等。613高危人員信息密度變化的基本分析在進行高危人員聚類分析的結果中 , 點集的密 度基本上是連續(xù)的 , 總是從高到低或從低到高在多 維空間中連續(xù)分布。密度變化所在的位置和密度變 化方向可以描述為高危人員是在哪些人員信息項上 以何種方式過渡到非高危人員的。也就是說 , 通過 對密度變化的分析 , 我們可以找到高危人員和非高 危人員的分界線。由于密度變化是連續(xù)的 , 所以這 個分界線可以由分析人員人為參與界定。614高危人員信息的密度排序在評價高危人員信息的有效性時需要理解聚類 密度的概念。在聚類過程中 , 如果將每條記錄看作 一個點 , 人員信息屬性作為維 , 則聚類分析結果就可 以看出是點集在多維空間中的成群過程。點集的密 度越大 , 也就是聚類的效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論