![用戶行為分析系統(tǒng)技術建議書_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/c7bac1f8-d4f4-4e99-9afe-51cffde4282d/c7bac1f8-d4f4-4e99-9afe-51cffde4282d1.gif)
![用戶行為分析系統(tǒng)技術建議書_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/c7bac1f8-d4f4-4e99-9afe-51cffde4282d/c7bac1f8-d4f4-4e99-9afe-51cffde4282d2.gif)
![用戶行為分析系統(tǒng)技術建議書_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/c7bac1f8-d4f4-4e99-9afe-51cffde4282d/c7bac1f8-d4f4-4e99-9afe-51cffde4282d3.gif)
![用戶行為分析系統(tǒng)技術建議書_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/c7bac1f8-d4f4-4e99-9afe-51cffde4282d/c7bac1f8-d4f4-4e99-9afe-51cffde4282d4.gif)
![用戶行為分析系統(tǒng)技術建議書_第5頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/c7bac1f8-d4f4-4e99-9afe-51cffde4282d/c7bac1f8-d4f4-4e99-9afe-51cffde4282d5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、信利SensitiView寬帶用戶行為分析系統(tǒng)技術建議書XlNLI西安信利軟件科技有限公司(版權所有)信利寬帶用戶行為分析系統(tǒng)技術建議書目錄1簡介31.1. 開發(fā)背景31.2. 術語:32. 項目概述42.1. 產(chǎn)品簡介42.2. 商業(yè)機會42.3. 系統(tǒng)組成42.4. 子系統(tǒng)功能描述 52.5. 運行環(huán)境83. 系統(tǒng)總體架構93.1. 系統(tǒng)目標 93.2. 技術方案說明 93.3. 網(wǎng)絡拓撲圖103.4. 網(wǎng)絡拓撲說明 113.5. 系統(tǒng)整體結構圖 113.6. 系統(tǒng)中各服務器介紹 123.7. 模塊清單134. 各模塊說明144.1. 數(shù)據(jù)采集模塊 144.1.1功能概述144.1.2模塊
2、設計要素說明 154.1.3 結構154.1.4詳細功能說明164.2. 數(shù)據(jù)匯總存儲模塊174.2.1 模塊功能概述174.2.2 模塊設計要素說明 174.2.3 結構174.2.4 詳細功能說明184.3. 數(shù)據(jù)分析處理模塊 184.3.1 模塊功能概述184.3.2 模塊設計要素說明 184.3.3 詳細功能說明184.3.4 程序邏輯流程194.4. 數(shù)據(jù)展示模塊 194.4.1 功能描述194.4.2 模塊設計要素說明 214.4.3 結構21用戶信息管理:對用戶信息進行查詢、統(tǒng)計等。 224.4.4 程序邏輯224.4.5 系統(tǒng)頁面設計225. 其他接口說明241、簡介1.1.
3、開發(fā)背景互聯(lián)網(wǎng)應用紛呈,市場空間快速擴張。電信運營商在獲取寬帶接入收入之外,需 要進一步參與互聯(lián)網(wǎng)市場價值分配,不斷開發(fā)出能夠發(fā)揮電信運營商優(yōu)勢的互聯(lián)網(wǎng)業(yè) 務。而這需要電信運營商及時掌握互聯(lián)網(wǎng)用戶的需求特點。面對龐大的互聯(lián)網(wǎng)用戶群體、廣泛多樣的用戶需求,針對性營銷成為提升營銷效率、 改善營銷效果,達成營銷制勝的必選手段。而為了能夠有效的實現(xiàn)針對性營銷,需要首先獲得目標用戶的范圍。1.2. 術語:HOST :特指HTTP協(xié)議中的HOST信息,如訪問某一頁面http:/ news.si .c n/z/2008qglh/i ndex.shtml則對應的HOST信息為:URL :特指訪問WEB站點的地
4、址信息,如訪問某一頁面http:/ news.si .c n/z/2008qglh/i ndex.shtml則對應的 URL 信息為:一級域名:特指訪問WEB站點的一級域名信息,如訪問某一頁面http:/ news.si .c n/z/2008qglh/i ndex.shtml則對應的一級域名信息為:sin 應用分類:指按照預先建立好的分類模型,將用戶的行為信息進行分類,例如訪問,進行應用分類則為新聞類。用戶分類:根據(jù)用戶的網(wǎng)絡行為信息及信息對應的應用分類的結果,將用戶進行分類,每個用戶可以在多個分類中,如新聞類用戶等。4西安信利軟件科技有限公司信利寬帶用戶行為分析系統(tǒng)技術建議書用戶聚類:根據(jù)
5、用戶的網(wǎng)絡行為及分類結果進行數(shù)據(jù)挖掘和各類關聯(lián),從而可以 獲得用戶的相關聚類信息。例如喜歡新聞類的用戶一般也喜歡某類。2. 項目概述2.1. 產(chǎn)品簡介該產(chǎn)品通過對用戶的網(wǎng)絡相關行為進行有效分析,根據(jù)提取出的應用特征對用戶進行有效分群,細致把握用戶互聯(lián)網(wǎng)應用需求, 為實現(xiàn)基于分群的針對化營銷提供有效支 持。22商業(yè)機會目前電信擁有大量的寬帶用戶,使用的大多是簡單包月+物理帶寬為基礎的粗放型業(yè)務發(fā)展模式;然而該模式無法真實的反應用戶的潛在需求,網(wǎng)絡消耗率日益增長, 隨之擴容的頻率也越來越高,不符合集約化,精細化的發(fā)展趨勢,無法給電信帶來更大的收益。另外電信在向信息超市的提供者與管理者的角色轉型過程
6、中,缺少“叫好又叫座” 的SP/CP業(yè)務,同時電信本身所推出的綠色上網(wǎng)、在線服務等增值業(yè)務對用戶也缺少足 夠的吸引力。為了實現(xiàn)寬帶業(yè)務的精耕細作,推進SP/CP業(yè)務以及多樣增值業(yè)務的快速、 健康發(fā)展,目前電信急需對寬帶用戶的上網(wǎng)行為進行了解,從而能夠及時獲知整體用戶的網(wǎng)絡行為或傾向、從而推出相關的業(yè)務,更好的吸引用戶,進而提高自身的收益,促 進寬帶業(yè)務的健康發(fā)展。同時面對龐大的互聯(lián)網(wǎng)用戶群體、廣泛多樣的用戶需求,針對性營銷成為提升營銷效率、改善營銷效果,達成營銷制勝的必選手段。而為了能夠有效的實現(xiàn)針對性營銷, 需要首先獲得目標用戶的范圍。2.3. 系統(tǒng)組成用戶行為分析系統(tǒng)由四大模塊組成:信息采
7、集,信息匯總存儲,信息挖掘統(tǒng)計,系 統(tǒng)展現(xiàn)、輸出:ID名稱功能描述08PN03-SRS-BHCOLLECT信息采集模塊采集用戶行為數(shù)據(jù),負責用戶行為數(shù)據(jù)的 來源。目前主要通過星空極速客戶端,采 集用戶行為信息,主要包括訪問的網(wǎng)站、 搜索的關鍵字、計算機進程、電腦硬件信 息、網(wǎng)頁收臧夾等信息。采集到的數(shù)據(jù)上傳給數(shù)據(jù)存儲匯總模塊。08PN03-SRS-BHSTORE信息匯總存儲模塊匯總并存儲采集插件上傳的數(shù)據(jù)。 匯總后的數(shù)據(jù)輸出到原始數(shù)據(jù)庫中。08PN03-SRS-BHANALYSIS信息挖掘統(tǒng)計模塊系統(tǒng)的核心模塊,定期從原始數(shù)據(jù)庫中提 取出數(shù)據(jù)并進行統(tǒng)計、挖掘和分析。包括 簡單的排名統(tǒng)計、用戶行
8、為分類、用戶分 類、用戶聚類等;分析結果輸出到統(tǒng)計數(shù)據(jù)庫中。08PN03-SRS-BHPRESENT系統(tǒng)展現(xiàn)、輸出 模塊展示用戶行為分析的結果。從結果數(shù)據(jù)庫 中獲取數(shù)據(jù),以web、列表、統(tǒng)計圖、報表 等形式展現(xiàn)出來。08PN03-SRS-BHOTHER其他模塊系統(tǒng)后續(xù)相關功能的完善,如增值業(yè)務使 用情況,用戶自然屬性信息等相關功能。24子系統(tǒng)功能描述各個模塊對應的子系統(tǒng)功能如下:模塊 名稱功能點ID實現(xiàn) 版本核心價 值工作內容其他重點 跟進信息 采集 模塊采集用戶計算機主要配置信 息08PN03-SRS-BHCOLLECT-F011.0了解用戶 計算機配 置情況獲得用戶計算 機的硬件、軟件 配
9、置信息,如CPU、內存、已 安裝軟件等信息。部分信息 也可以從 星空極速 后臺直接 獲取。采集用戶 上網(wǎng)基本 信息O8PNO3-SRS-BHCOLLECT-F021.0反映用戶 基本上網(wǎng) 行為獲得用戶上網(wǎng) 的基本信息,女口 上網(wǎng)時長、上網(wǎng)流里等信息部分信息 也可以從 星空極速 后臺直接 獲取。采集用戶訪問URLO8PNO3-SRS-BHCOLLECT-F031.0反映用戶 頁面訪問獲得用戶進行WEB訪問的有過濾條件可變,信息行為用URL ,過濾掉 圖片等無用信 息,并能夠支持 進行過濾,同時 可以進行信息簡單統(tǒng)計,上傳 指定數(shù)量信息(TOP N 機 制)TOP N 值 可支持動態(tài)給定采集用戶
10、搜索關鍵 字信息08PN03-SRS-BHCOLLECT-F041.0可以獲知 用戶所關 心信息獲得用戶使用 baidu、google, yahoo等主要搜 索引擎進行搜 索的關鍵字信 息,并且需要進 行相關字符的解碼處理先僅記錄頁面搜索 信息,其他分類搜索暫不考慮采集用戶 使用進程 信息08PN03-SRS-BHCOLLECT-F051.0可以獲知 用戶日常 使用程序 的信息獲得用戶機器 中啟動的進程 名稱和使用時 長過濾掉系 統(tǒng)相關的 進程采集用戶 收藏夾信息08PN03-SRS-BHCOLLECT-F061.0可以獲知 用戶喜愛,同時 可驗證用 戶分類正確性獲取用戶收藏 夾相關信息采集用
11、戶對應的郵箱地址信 息08PN03-SRS-BHCOLLECT-F071.0為針對性 營銷提供 目的地采集獲取用戶 所對應的軟件、 WEB等郵箱地址信息WEB郵箱可以僅選 常用郵箱其他采集信息O8PNO3-SRS-BHCOLLECT-F081.0其他反映 用戶行為 信息例如用戶訪問 網(wǎng)站是否收費, 訪冋流量較多 的前多少IP,P2PWOIP 信息 等可以逐步添加細化采集信息 上傳O8PNO3-SRS-BHCOLLECT-F091.0將用戶信 息上傳, 進行匯總、分析將用戶信息上 傳,進行匯總、分析上傳過程需要進行 加密,防止采集行為被用戶感 知,同時盡量做到壓 縮上傳,減少通訊數(shù) 據(jù)量信息 匯
12、總 存儲采集信息 接收08PN03-SRS-BHSTORE-F011.0接收采集 信息獲得采集插件 上傳信息如果上傳 前壓縮,則接收到數(shù) 據(jù)之后需 要解析。采集行為 信息入庫08PN03-SRS-BHSTORE-F021.0保存行為 信息將接收到的采 集信息進行保 存信息 挖掘 統(tǒng)計分類模型 建立08PN03-SRS-BHANALYSIS-F011.0為分類提 供前提根據(jù)行為特征 劃分不同的類 別參見附錄 中的用戶 行為分析 模型設計文檔分類相關特征庫形成08PN03-SRS-BHANALYSIS-F021.0為用戶分 類、行為 統(tǒng)計等提 供數(shù)據(jù)依據(jù)根據(jù)分類模型, 形成URL,搜 索關鍵字,進
13、程 等各類的特征 庫,為進行自動 分類提供依據(jù)。特征庫需 要長時間 逐步完善。數(shù)據(jù)清洗 轉換08PN03-SRS-BHANALYSIS-F031.0丟棄無用信息數(shù)據(jù)根據(jù)已過濾庫、 網(wǎng)頁標題等信 息將原始行為 數(shù)據(jù)進行過濾, 并以特定的格 式進行保存。應用分類08PN03-SRS-BHANALYSIS-F041.0對用戶行 為進行分類依據(jù)分類特征 庫,對用戶行為 數(shù)據(jù)進行分類 并保存分類結 果用戶分類08PN03-SRS-BHANALYSIS-F051.0對用戶進 行分類根據(jù)用戶的行 為數(shù)據(jù)及其分 類,將用戶進行 分類并保存分 類結果用戶聚類 分析08PN03-SRS-BHANALYSIS-F0
14、61.0判定用戶 類別根據(jù)用戶行為 信息和類別,挖 掘用戶其他感 興趣類別相關熱門 統(tǒng)計08PN03-SRS-BHANALYSIS-F071.0獲得整體 以及每個 用戶的熱 門信息根據(jù)用戶行為 信息和分類結 果,統(tǒng)計獲得整網(wǎng)及各用戶的 熱門信息模型訓練 驗證08PN03-SRS-BHANALYSIS-F081.0驗證整個 模型的有 效性通過一定時間 內,根據(jù)大量數(shù) 據(jù)統(tǒng)計的結果 驗證模型的正 確、有效性。需要不斷 逐步改進系統(tǒng) 展現(xiàn)、輸出WEB展現(xiàn)08PN03-SRS-BHPRESENT-F011.0以web形式展現(xiàn)統(tǒng) 計信息以web頁面的 形式將系統(tǒng)統(tǒng) 計信息進行展現(xiàn)自動生成 報表08PN0
15、3-SRS-BHPRESENT-F021.0以報表的 形式展現(xiàn) 統(tǒng)計信息以報表的形式 將系統(tǒng)統(tǒng)計信 息進行展現(xiàn)提供對外 接口08PN03-SRS-BHPRESENT-F031.1為其他系 統(tǒng)提供接 口為其他系統(tǒng)提 供接口其他衍生業(yè)務 分析08PN03-SRS-BH0THER-F011.1了解現(xiàn)有 增值業(yè)務 使用情況獲得用戶試用 現(xiàn)有增值業(yè)務 的使用情況用戶相關 屬性等信 息收集08PN03-SRS-BHOTHER-F021.1獲得用戶 基本信息,便于 分類統(tǒng)計獲得用戶自然、 社會、網(wǎng)絡等屬性從電信相 關服務器 獲得定期營銷 調研08PN03-SRS-BHOTHER-F031.1更深入了解用戶情
16、況由市場營銷人 員進行完成、開 發(fā)上可能需要 提供輸入、報表 生成等接口2.5.運行環(huán)境操作系統(tǒng)采集插件服務器數(shù)據(jù)庫Win dows XF及以上中文簡體操作系統(tǒng)WINDOWS20C或 linux 系統(tǒng)DB2或 ORACLE系統(tǒng)支持語言中文3. 系統(tǒng)總體架構3.1. 系統(tǒng)目標本系統(tǒng)的主要目標是,通過分析用戶的計算機行為(主要是上網(wǎng)行為),來確定用戶的類型(喜好、興趣等),從而實現(xiàn)對用戶進行群分,并可將具有相同喜好的用戶進行聚類, 對不同類型的用戶進行定向的營銷和廣告推送等商業(yè)活動。用戶的行為主要包括用戶計算機安裝軟件、訪問的URL、搜索的關鍵詞、經(jīng)常使用的軟件等等,系統(tǒng)的采集模塊采集到這些數(shù)據(jù)后
17、,由分析處理模塊進行聚類、分類等的處理后, 再將用戶劃分為不同的群體,并由系統(tǒng)的展示模塊展示分群結果。32技術方案說明本系統(tǒng)的特點是以數(shù)據(jù)為中心,進行相關的采集、分析處理工作。因此數(shù)據(jù)采集、數(shù)據(jù) 存儲以及數(shù)據(jù)的分析處理,都是要重點考慮的技術問題。下圖為相關的數(shù)據(jù)流圖:12西安信利軟件科技有限公司信利寬帶用戶行為分析系統(tǒng)技術建議書#西安信利軟件科技有限公司信利寬帶用戶行為分析系統(tǒng)技術建議書展現(xiàn)#西安信利軟件科技有限公司信利寬帶用戶行為分析系統(tǒng)技術建議書#西安信利軟件科技有限公司信利寬帶用戶行為分析系統(tǒng)技術建議書系統(tǒng)主要由信息采集、信息匯總存儲、信息挖掘統(tǒng)計、系統(tǒng)展現(xiàn)輸出幾大部分組成,各部分相關描
18、述為:數(shù)據(jù)采集:以插件(動態(tài)鏈接庫)的方式內嵌到星空極速撥號客戶端中,在用戶上網(wǎng)過程中采集用戶相關的行為數(shù)據(jù)。上網(wǎng)行為數(shù)據(jù)采集基于網(wǎng)絡嗅探的方式進行實現(xiàn),利用WinpCap抓取用戶的上網(wǎng)數(shù)據(jù),如訪問URL,搜索關鍵字等信息用戶其他行為信息,如包括進程快照,硬件、軟件配置等信息,則利用Win dows相關的API進行獲取。信息匯總存儲:借助TCP/IP協(xié)議,信息采集插件在用戶每次上線后, 將上次上網(wǎng)的相關行為信息以 XML 的形式組織上傳;信息匯總存儲部分, 將采集插件上傳的信息進行解析, 并按照內容存儲在 數(shù)據(jù)倉庫中的不同表中,供后續(xù)的統(tǒng)計挖掘使用。同時出于系統(tǒng)容量的考慮,系統(tǒng)會定期的清理無用
19、的歷史數(shù)據(jù),從而減少整體數(shù)據(jù)量, 提供系統(tǒng)的分析、處理性能。系統(tǒng)展現(xiàn)輸出該部分的主要目的是將系統(tǒng)相關的統(tǒng)計分析數(shù)據(jù)簡單直觀的展現(xiàn)給用戶,展現(xiàn)方式有 WEB、報表等形式,展現(xiàn)相關數(shù)據(jù)主要從數(shù)據(jù)倉庫中提取。33網(wǎng)絡拓撲圖I融川訃析業(yè)氏服潺粘劃州分析軸即爛務器珈常為折處嚴服務昭1用戶佇息匚總服務盟址曲隸籌為咼瓏躬住"上ST! 口 Hi牡惡 故據(jù)儉郎 曲1 i冊處恐背陀陽門址向廿苗臨務槪34網(wǎng)絡拓撲說明裝有采集插件的客戶端在使用過程中進行信息采集,并會在適當時間將采集的信息上報給后臺業(yè)務服務器, 業(yè)務服務器接收到采集信息之后,會進行簡單處理,然后將行為數(shù)據(jù)放入到數(shù)據(jù)倉庫中。統(tǒng)計服務器根據(jù)數(shù)據(jù)
20、倉庫和行為特征庫定期將用戶的行為數(shù)據(jù)進行分類,并根據(jù)應用分類的結果對用戶進行分類,同時進行一定的熱門統(tǒng)計、數(shù)據(jù)挖掘等工作。發(fā)布服務器以web、報表、接口等多種方式將用戶分群、匯總統(tǒng)計、模型輸出等相關數(shù) 據(jù)信息進行呈現(xiàn)。3.5.系統(tǒng)整體結構圖向fcfj陶川方向川1牌11 他Mk廣筑nd"俺 1 l片站構化敵據(jù)接"非結構化截舉接1】WcbSciir i c1 B*白定義接11扌H:威細丄艸 tr'i ?lkJIJ帖問 姑 .i.h.'. 打分N網(wǎng)Hi廠數(shù)崩憂捌統(tǒng)汁+J.為跆液turn月.總故押過油故占咖湫轉換、井述址艸X.客戶端插FI:樂*問卷調研illt
21、9;i寬渺用戶疔再曲析奈觥架枸圖該結構圖中信息采集包括了旁路分光采集、客戶端插件采集和其他來源,在現(xiàn)階段,僅僅考慮客戶端插件采集的方式。36系統(tǒng)中各服務器介紹系統(tǒng)中的服務器主要有信息匯總服務器,數(shù)據(jù)倉庫服務器,信息統(tǒng)計分析服務器, 信息發(fā)布服務器等服務器組成。各服務器介紹如下:信息匯總服務器該服務器主要作用是將插件采集的信息進行匯總、保存。數(shù)據(jù)倉庫服務器該服務器主要作用是運行數(shù)據(jù)倉庫,由于數(shù)據(jù)量很大,因此數(shù)據(jù)庫選擇是DB2或ORACLE 。信息統(tǒng)計分析服務器該服務器主要作用是定期對匯總之后的數(shù)據(jù)進行數(shù)據(jù)清洗、應用分類、用戶分群、數(shù)據(jù)挖掘、保存到數(shù)據(jù)倉庫等操作。信息發(fā)布服務器該服務器主要作用是以
22、 web等方式呈現(xiàn)用戶分群、匯總統(tǒng)計、模型輸出等相關數(shù)據(jù)信息。各服務器間的關系如下: 1I 信息發(fā)布服務信息統(tǒng)計分析服務3.7.模塊清單SRS IDHLD ID名稱功能描述08PN03-SRS-BHCOLLECT08PN03-HLD-BHCOLLECT信息采集 模塊采集用戶行為數(shù)據(jù),負責 用戶行為數(shù)據(jù)的來源。 目 前主要通過星空極速客 戶端,采集用戶行為信 息,主要包括訪問的網(wǎng) 站、搜索的關鍵字、計算 機進程、電腦硬件信息、 網(wǎng)頁收臧夾等信息。采集到的數(shù)據(jù)上傳給數(shù) 據(jù)存儲匯總模塊。08PN03-SRS-BHSTORE08PN03-HLD-BHSTORE信息匯總 存儲模塊匯總并存儲采集插件上 傳
23、的數(shù)據(jù)。匯總后的數(shù)據(jù)輸出到原 始數(shù)據(jù)庫中。08PN03-SRS-BHANALYSIS08PN03-HLD-BHANALYSIS信息挖掘 統(tǒng)計模塊系統(tǒng)的核心模塊,定期從 原始數(shù)據(jù)庫中提取出數(shù) 據(jù)并進行統(tǒng)計、挖掘和分 析。包括簡單的排名統(tǒng) 計、用戶行為分類、用戶 分類、用戶聚類等; 分析結果輸出到統(tǒng)計數(shù) 據(jù)庫中。08PN03-SRS-BHPRESENT08PN03-HLD-BHPRESENT系統(tǒng)展現(xiàn)、 輸出模塊展示用戶行為分析的結 果。從結果數(shù)據(jù)庫中獲取 數(shù)據(jù),以web、列表、統(tǒng) 計圖、報表等形式展現(xiàn)出 來。08PN03-SRS-BHOTHER08PN03-HLD-BHOTHER其他模塊系統(tǒng)后續(xù)相
24、關功能的完 善,如增值業(yè)務使用情 況,用戶自然屬性信息等 相關功能。4. 各模塊說明以下從各個子模塊的功能、結構、與其他模塊的接口等方面對各個子模塊進行較詳盡說明介紹:4.1. 數(shù)據(jù)采集模塊4.1.1功能概述該模塊的主要功能是采集并保存用戶上網(wǎng)過程中的相關行為信息,并在用戶每次上線之后,將上次上線的行為數(shù)據(jù)信息進行組織合并,以XML的方式上傳給信息匯總存儲模塊。4.1.2模塊設計要素說明由于該模塊是以插件 (DLL)的方式內嵌在星空極速撥號客戶端中,并在用戶撥號上網(wǎng)過程中,對用戶的相關行為信息進行采集、上傳,整個過程對用戶隱蔽,不希望被用戶發(fā)覺 該模塊的存在,因此模塊設計、開發(fā)、測試等過程中需
25、要充分考慮以下因素。穩(wěn)定、可靠性由于插件是DLL方式內嵌,因此如果采集插件出現(xiàn)問題 (崩潰、資源占用較大等), 會導致星空極速客戶端也受到影響,對用戶造成不良影響,因此需要特別保證采集插件模塊的開發(fā)質量。隱蔽性由于采集插件在數(shù)據(jù)采集過程中,對用戶不可見,因此需要在配置信息保存、數(shù)據(jù)采集、采集數(shù)據(jù)臨時保存、采集信息上傳等各個階段,進行加密等相關操作,從而實現(xiàn) 對用戶的不可見。小流量上傳由于該模塊僅采集用戶的行為數(shù)據(jù), 并在用戶上網(wǎng)過程中上傳該信息, 出于隱蔽性, 以及盡量減少資源消耗的考慮,需要在上傳數(shù)據(jù)前對數(shù)據(jù)進行簡單的匯總,以及壓縮處理,從而縮小上傳的信息量。可擴展性隨著模型的不斷完善,采集
26、部分后續(xù)可能會不斷添加新的功能, 為了盡量減少采集 插件的升級過程,同時降低開發(fā)的復雜度和工作量, 需要系統(tǒng)設計、開發(fā)過程中盡量考 慮可擴展性。為了滿足上訴的各個要素,需要相關的開發(fā)人員在開發(fā)過程中,更加合理的設計軟件,提高代碼質量、強化開發(fā)過程中的單元測試力度;同時相關測試人員需要對上述各個因素進行著重測試,爭取更早的發(fā)現(xiàn)問題。4.1.3結構輸入:網(wǎng)數(shù)據(jù)包計算機信息輸出:數(shù)據(jù)采集模塊 、URL、搜索關鍵字等一:一進程快照、硬件配置等該模塊可以劃分為數(shù)據(jù)采集、數(shù)據(jù)記錄、數(shù)據(jù)上報和采集管理幾個部分,具體說明如下:數(shù)據(jù)采集:采集用戶上網(wǎng)行為信息和計算機配置等信息;數(shù)據(jù)記錄:將采集到的信息臨時保存在
27、文件中,在用戶下次上線之后進行上傳。數(shù)據(jù)上報:將采集到的信息進行組織、壓縮、加密等處理,上傳給匯總存儲模塊;采集管理:負責相關采集配置等信息的接收。4.1.4詳細功能說明詳細功能相關說明使用技術采集用戶計算機主 要配置信息獲得用戶計算機的硬件、軟件配 置信息,如CPU、內存、已安裝 軟件等信息。讀取注冊表相關信息采集用戶上網(wǎng)基本 信息獲得用戶上網(wǎng)的基本信息,如上 網(wǎng)時長、上網(wǎng)流量等信息基于winpcap,使用網(wǎng)絡嗅探技術采集用戶訪問URL 信息獲得用戶進行 WEB訪問的有用URL,過濾掉圖片等無用信息, 并能夠支持進行過濾基于winpcap,使用網(wǎng)絡嗅探技術采集用戶搜索關鍵 字信息獲得用戶使用
28、 baidu、google,yahoo等主要搜索引擎進行搜索的關鍵 字信息,并且需要進行相關字符 的解碼處理基于winpcap ,使用網(wǎng)絡嗅探技 術。冋時涉及到解碼相關技術采集用戶使用進程 信息獲得用戶機器中啟動的進程名稱和使用時長WINDOWS API 等采集用戶收藏夾信獲取用戶收藏夾相關信息WINDOWS API 等息采集用戶對應的郵 箱地址信息采集獲取用戶所對應的軟件、WEB等郵箱地址信息基于winpcap,使用網(wǎng)絡嗅探技術采集信息上傳將用戶信息以XML形式,進行壓 縮,加密之后,上傳給信息匯總 存儲模塊XML技術、壓縮、加密、套接字 等技術42數(shù)據(jù)匯總存儲模塊421 模塊功能概述該模塊
29、主要負責接收數(shù)據(jù)采集模塊上傳的行為數(shù)據(jù),并對該信息進行解密、解壓等操作,然后將操作之后的數(shù)據(jù)根據(jù)內容存入到原始數(shù)據(jù)庫中的不同表中。4.2.2 模塊設計要素說明由于該模塊需要同時接收多個客戶端上傳的采集信息、并需要對該信息進行解密、解壓、入庫存儲等操作,因此該模塊的設計、開發(fā)等過程需要考慮以下因素:效率隨著進行采集用戶的增多,服務器需要處理的上傳量會不斷增大,為了能夠有效處理并存儲所有的行為數(shù)據(jù),服務器需要較高的效率,必要時可以增加硬件設備的投入 穩(wěn)定性作為一個接收、處理服務器,為了保證數(shù)據(jù)的完整性,需要充分考慮模塊的穩(wěn)定性。4.2.3 結構輸入:.采集模塊上傳的采集信息一輸出:數(shù)據(jù)倉庫中已存數(shù)
30、據(jù)一H424 詳細功能說明詳細功能相關說明使用技術采集信息接收接收數(shù)據(jù)采集模塊上傳的用戶行 為數(shù)據(jù)套接字等技術采集信息解密、解壓對接收到的信息進行解密、解壓 等操作解密、解壓相關技術采集行為信息入庫將接收到的信息根據(jù)內容的不同 存儲在數(shù)據(jù)倉庫不冋的表中JDBC相關技術采集配置下發(fā)將采集相關的配置信息以 XML形 式進行下發(fā)套接字等技術4.3. 數(shù)據(jù)分析處理模塊4.3.1 模塊功能概述數(shù)據(jù)分析處理模塊:系統(tǒng)的核心模塊,分析數(shù)據(jù)倉庫中的數(shù)據(jù)。對匯總的數(shù)據(jù)做統(tǒng)計、挖掘和分析。包括簡單的排名統(tǒng)計、用戶行為分類、用戶分類、用戶聚類等;分析結果輸出 到統(tǒng)計數(shù)據(jù)庫中。4.3.2 模塊設計要素說明由于該模塊設
31、計到對行為數(shù)據(jù)進行分類,以及用戶分類等過程,因此在設計、編碼過程中需要考慮以下幾個要素:準確性為了能夠保證分類結果的準確性,需要在分類特征庫建立、分類方法等過程中,保證分類的準確性,準確率應該在 80%以上。效率由于隨著用戶數(shù)的增長,和時間的延長,系統(tǒng)的數(shù)據(jù)會較大,從而導致分類過程時間較 長,因此設計、開發(fā)等過程需要考慮效率問題。4.3.3 詳細功能說明該模塊詳細功能列表為:詳細功能相關說明使用技術分類模型建立根據(jù)行為特征劃分不同的類別統(tǒng)計、營銷等相關理論分類相關特征庫形成根據(jù)分類模型,形成 URL,搜索 關鍵字,進程等各類的特征庫,ADO、網(wǎng)絡爬蟲、拆詞等為進行自動分類提供依據(jù)數(shù)據(jù)清洗轉換根
32、據(jù)已過濾庫、網(wǎng)頁標題等信息 將原始行為數(shù)據(jù)進行過濾,并以 特定的格式進行保存ADO、數(shù)據(jù)挖掘相關技術(ETL)應用分類依據(jù)分類特征庫,對用戶行為數(shù) 據(jù)進行分類并保存分類結果ADO、拆詞,自動分類技術用戶分類根據(jù)用戶的行為數(shù)據(jù)及其分類, 將用戶進行分類并保存分類結果ADO、自動分類,聚類等技術用戶聚類分析根據(jù)用戶行為信息和類別,挖掘 用戶其他感興趣類別相關熱門統(tǒng)計根據(jù)用戶行為信息和分類結果, 統(tǒng)計獲得整網(wǎng)及各用戶的熱門信 息ADO等模型訓練驗證通過一定時間內,根據(jù)大量數(shù)據(jù) 統(tǒng)計的結果驗證模型的正確、有 效性。4.3.4 程序邏輯流程44數(shù)據(jù)展示模塊4.4.1功能描述提供預定義用戶行為分析價值數(shù)據(jù)
33、展現(xiàn)功能,可自定義統(tǒng)計、匯總、分群條件,從基礎數(shù)據(jù)以列表、統(tǒng)計圖、報表等形式提供自定義結果。主要包括分群信息管理,定制分群,自定義分群,數(shù)據(jù)匯總信息,用戶信息查詢,系統(tǒng)管理,宣傳支撐,競爭,分析模塊,合作選擇/談判支撐,自有產(chǎn)品營銷,產(chǎn)品或業(yè)務開發(fā)方向,用戶權限管理等,具體功能模塊規(guī)劃如下:功能名稱功能描述備注網(wǎng)絡行為分群(一級)管理統(tǒng)計查詢網(wǎng)絡行為一級類別分群的用戶比例,用 戶流動特征。網(wǎng)絡行為分群(二級)管理統(tǒng)計查詢網(wǎng)絡行為二級類別分群的用戶比例,用 戶流動特征。商業(yè)價值分群根據(jù)系統(tǒng)自定義商業(yè)級別查詢統(tǒng)計寬帶用戶分布數(shù) 據(jù),以及各級別寬帶用戶流動特征和群組資料。用戶計算機水平分群根據(jù)系統(tǒng)自
34、定義計算機水平等級統(tǒng)計分析寬帶用戶 計算機水平,以及各等級用戶群組資料。用戶安全意識分群依據(jù)系統(tǒng)自定義用戶安全意識統(tǒng)計分析寬帶用戶安 全意識,以及各級別用戶流動特征和群組資料。用戶購買力分群根據(jù)系統(tǒng)自定義用戶購買力級別統(tǒng)計分析寬帶用戶 購買力,以及各級別用戶群流動特征和群組資料。用戶可引導性分群根據(jù)系統(tǒng)自定義用戶消費能力統(tǒng)計分析寬帶用戶消 費能力,以及各級別用戶群組資料。自定義分群可自定義網(wǎng)絡行為類別、種類、商業(yè)價值、可引導性 等用戶分群信息創(chuàng)建自定義分群以及分群用戶資料。全網(wǎng)匯總信息自定義條件統(tǒng)計查詢全網(wǎng)用戶熱門網(wǎng)站、關鍵詞、熱 門軟件信息,以及全網(wǎng)排名。網(wǎng)絡行為熱門信息自定義網(wǎng)絡分類條件,
35、根據(jù)類別統(tǒng)計查詢全網(wǎng)用戶站 點訪問數(shù)據(jù)以及站點全網(wǎng)排名。筆記本電腦用戶自定義檢索條件,根據(jù)檢索條件查詢全網(wǎng)寬帶用戶計 算機配置信息。流行病毒自定義檢索條件,根據(jù)檢索條件查詢全網(wǎng)寬帶用戶計 算機中毒信息,以及病毒發(fā)作排名。流行殺毒軟件自定義查詢條件,根據(jù)查詢條件統(tǒng)計查詢全網(wǎng)寬帶用 戶殺毒軟件安裝情況以及殺毒軟件使用排行。寬帶用戶檢索提供精確或模糊檢索功能,查詢用戶基礎信息,統(tǒng)計 分析該用戶寬帶行為數(shù)據(jù)。宣傳支撐將與產(chǎn)品宣傳所相關的頁面進行組合,并按照給定的 流程逐步給予展示。競爭分析將與產(chǎn)品競爭(web以及增值產(chǎn)品)所相關的頁面進 行組合,并按照給定的流程逐步給予展示。產(chǎn)品推廣包括網(wǎng)絡安全產(chǎn)品推
36、廣和電腦服務推廣 ,將用戶工作 流與系統(tǒng)相關分群以及部分信息相聯(lián)系 ,為產(chǎn)品推廣 準確定位目標客戶群。網(wǎng)絡應用目標客戶識別針對二級網(wǎng)絡應用相關分群,結合用戶所關注的相關 信息,如地區(qū)、時間、偏好等,準確定位目標客戶群, 并展現(xiàn)該目標群的常用 web訪問、搜索等相關信息。用戶權限管理可以支持對用戶設計權限,不同組下的用戶進入頁面后僅能看到其權限允許下的相關頁面操作員管理提供系統(tǒng)操作員管理功能。系統(tǒng)日志管理提供系統(tǒng)能夠日志功能。系統(tǒng)配置管理系統(tǒng)配置管理功能。系統(tǒng)幫助系統(tǒng)幫助442 模塊設計要素說明該模塊目前為 WE頁面,主要展現(xiàn)系統(tǒng)統(tǒng)計的用戶相關行為及分類、聚類等相關信息因此該模塊的設計、開發(fā)等過
37、程需要考慮以下因素:易用性為了能夠直觀方便的展現(xiàn)系統(tǒng)相關數(shù)據(jù),需要web吉構簡單直觀,便于查看。同時由于部分內容需要進行組合查詢,因此需要在組合查詢部分細化相關的查詢功能。效率由于隨著用戶數(shù)的增長,和時間的延長,系統(tǒng)的數(shù)據(jù)會較大,從而導致查詢等待時 間會較長,因此設計、開發(fā)等過程需要考慮效率問題。4.4.3 結構輸入:匯總后的數(shù)據(jù) :.分析處理后的數(shù)據(jù)-一數(shù)據(jù)展示模塊輸出:Web頁面報表系統(tǒng)采用jsp技術做We!開發(fā),從展示邏輯上主要分為分群管理、數(shù)據(jù)匯總和用戶信息管理,各個展示模塊的說明如下:分群管理:主要是展示對用戶的分群結果,包括定制分群和自定義分群兩部分。定制分群是由系統(tǒng)已經(jīng)定制的一些
38、用戶群,這些群都是一些用戶關心的或者具有商業(yè)價值的用 戶群,這些群可由系統(tǒng)決定,用戶不能更改;自定義分群是指用戶可以根據(jù)自己的需要, 組合不同的群特征,以定制出自己感興趣的用戶群;數(shù)據(jù)匯總:對采集到的用戶數(shù)據(jù)做一些簡單的統(tǒng)計、分析,找出那些熱門的上網(wǎng)行為,比如:用戶最喜歡上的網(wǎng)站 TOPN經(jīng)常使用的軟件的TOP等;用戶信息管理:對用戶信息進行查詢、統(tǒng)計等。444程序邏輯31西安信利軟件科技有限公司信利寬帶用戶行為分析系統(tǒng)技術建議書#西安信利軟件科技有限公司信利寬帶用戶行為分析系統(tǒng)技術建議書445 系統(tǒng)頁面設計頁面的展示風格采用如左右結構,左面是功能菜單,右面是功能展示頁面, 具體設計為F面的示
39、例圖如下:分群管理模塊示例圖Si*<Ei Wtifl 量俚I工RCQ IHnudi titi 亞込邑 Chac cl gram k nafriki ifi_ conwl 匕 pndA p 血也昨占 £ radlwl:匕 haki 矗-亍*EfD Hi .FnEi»?!7B| IX舞汨三S £!-審1測司號科:誦IHE S?i M I-" EVITTP ' PT»17ArTP IJHJ甘疇1鴻幫刪胛耐行溝腫im官丘克労聆-BTKMffta1皐記材iia用戶tn UttsJMIn贈口岡產(chǎn)*x交友 eiw口 Jttt/PM VW口母游J
40、im汽羊Its人才時曲測 W口通訊 «rfl口音樂姍»n口規(guī)樂樺網(wǎng)射0 Mumm |甘#西安信利軟件科技有限公司信利寬帶用戶行為分析系統(tǒng)技術建議書自定義分群模塊示例圖日 httpBWZLH 固*価呱 爐E*廳捺隙就AEj flW£j Mfy 也il貞蟲i 工BCD Wj±i Q e=胡Chx 電 gram 亙 coniig «_ corirad 色 pjnda p Poridltt 電 radlrMl: |t_ kmkx 匚K ' |呂蟲回Sfw/n ©ffiw寬帶用戶廳拘井靳系魏 蘭岑1?旦2沖怦冃申譽1翌司9毎:話帕範酗&
41、#187;»刑.書定買詢SHMtfi"_ PRtfiflAHP -ti.l鉀B匚曲鼻ff«HE:用戶馬Hi目的一弗廿:S:埸左訊貞:尊子福腎貞壟|»趕莊奇業(yè)蒯強Affifi則 丨麻F1軽£已壬事門flfl 1天氣円博眸口人才鬥HFin AflFl聲eFI 加9UHliftB?r/££丘樂"KIAttH時刈41$H9fO-WS Bi乩電曰神;嗣科匪日Hfi日毎音出陥H-ailPi E5陽戶*. «e *e*. *e 匕<e用戶mslQttiis e祁那!檔用尸強工鼻矽基力! *J s ftIttx
42、187;用Elt兗計計內16說陰:0 Q'tamm | 如(ft式:*KlWt數(shù)據(jù)匯總模塊示例圖AEj flW£j Mfy 也31貞蟲I 工BCD Wj±i Q e=胡Chx 電 gram 亙 coniig «_ corirad 色 pjnda p Poridltt 電 radlrMl: |t_ kmkx J亡盂細iriVi鈿i對FQE亍)0善- WfnidM.皿血 FfawL hX_JH' Nri|:.UH"m丄 L 閔創(chuàng) BCNmuy 唄釈:"KMHsfeMS1 JFmad'i32西安信利軟件科技有限公司信利寬帶用戶行為分析系統(tǒng)技術建議書0 O'tamGri | 觸Mft式:HF用KlWt 丁訂 曲T 國3Zifv4fflH用F怖曹冊D 尉丁晡P f竊厘回.工JIS"Sfw/nw寬帶用戶抒為井折系iff訛豈號Bl戶E沁it剝油也舛亨冃淚 M-崗軸司q x:2iMi(e ff?Mmi£lllK7TIFn73|邂RF±,fr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 年產(chǎn)3萬臺新能源汽車電機及1500臺風力發(fā)電機配套沖片項目可行性研究報告寫作模板-申批備案
- 2025-2030全球對稱槳行業(yè)調研及趨勢分析報告
- 2025-2030全球高速塑料理瓶機行業(yè)調研及趨勢分析報告
- 2025-2030全球磨削數(shù)控系統(tǒng)行業(yè)調研及趨勢分析報告
- 2025年全球及中國智能體測一體機行業(yè)頭部企業(yè)市場占有率及排名調研報告
- 2025-2030全球活細胞代謝分析儀行業(yè)調研及趨勢分析報告
- 2025-2030全球臨床試驗實驗室服務行業(yè)調研及趨勢分析報告
- 2025年全球及中國生命科學智能制造服務行業(yè)頭部企業(yè)市場占有率及排名調研報告
- 2025-2030全球無人機基礎設施檢查行業(yè)調研及趨勢分析報告
- 代辦服務合同
- 2025年中國南方航空股份有限公司招聘筆試參考題庫含答案解析
- 商務部發(fā)布《中國再生資源回收行業(yè)發(fā)展報告(2024)》
- 山東省濟南市2024-2024學年高三上學期1月期末考試 地理 含答案
- 2025年福建新華發(fā)行(集團)限責任公司校園招聘高頻重點提升(共500題)附帶答案詳解
- 江蘇省駕??荚嚳颇恳豢荚囶}庫
- 四川省成都市青羊區(qū)成都市石室聯(lián)合中學2023-2024學年七上期末數(shù)學試題(解析版)
- 咨詢公司績效工資分配實施方案
- 2025新人教版英語七年級下單詞表
- 注塑成型工藝流程圖
- 廣東省緊密型縣域醫(yī)療衛(wèi)生共同體雙向轉診運行指南
- 檢驗科臨檢組風險評估報告文書
評論
0/150
提交評論