人工智能安全-2-非平衡數(shù)據(jù)處理問題_第1頁
人工智能安全-2-非平衡數(shù)據(jù)處理問題_第2頁
人工智能安全-2-非平衡數(shù)據(jù)處理問題_第3頁
人工智能安全-2-非平衡數(shù)據(jù)處理問題_第4頁
人工智能安全-2-非平衡數(shù)據(jù)處理問題_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

現(xiàn)象與原因非平衡數(shù)據(jù)處理方法概覽欠采樣過采樣混合采樣特征層算法層面提綱非平衡數(shù)據(jù)分類問題在網(wǎng)絡信息安全問題中,諸如惡意軟件檢測、SQL注入、不良信息檢測等許多問題都可以歸結為機器學習分類問題。這類機器學習應用問題中,普遍存在非平衡數(shù)據(jù)的現(xiàn)象。產(chǎn)生的原因攻擊者的理性特征使得攻擊樣本不會大規(guī)模出現(xiàn)。警惕性高的攻擊者,會經(jīng)常變換攻擊方式避免被防御方檢測出來。少數(shù)類樣本的信息量比多數(shù)類要少得很多。非平衡數(shù)據(jù)對各種分類器的影響KNNBayes決策樹Logistic回歸當用于非平衡數(shù)據(jù)分類時,為了最大化整個分類系統(tǒng)的分類精度,必然會使得分類模型偏向于多數(shù)類,從而造成少數(shù)類的分類準確性低?,F(xiàn)象與原因非平衡數(shù)據(jù)處理方法概覽欠采樣過采樣混合采樣特征層算法層面提綱處理方法現(xiàn)象與原因非平衡數(shù)據(jù)處理方法概覽欠采樣過采樣混合采樣特征層算法層面提綱欠抽樣欠抽樣方法通過減少多數(shù)類樣本來提高少數(shù)類的分類性能。常見的欠采樣方法有隨機欠采樣、啟發(fā)式欠采樣等。隨機欠采樣通過隨機地去掉一些多數(shù)類樣本來減小多數(shù)類的規(guī)模,缺點是會丟失多數(shù)類的一些重要信息,不能夠充分利用已有的信息。

啟發(fā)式欠采樣基本出發(fā)點是保留重要樣本、有代表性的樣本,而這些樣本的選擇是基于若干啟發(fā)式規(guī)則。經(jīng)典的欠采樣方法是鄰域清理(NCL,Neighborhoodcleaningrule)和Tomelinks法,其中NCL包含ENN,典型的有以下若干種。EditedNearestNeighbor(ENN)對于多數(shù)類的樣本,如果其大部分k近鄰樣本都跟它自己本身的類別不一樣,就將他刪除。也可以從少數(shù)類的角度來處理:對于少數(shù)類樣本,如果其大部分k近鄰樣本都是少數(shù)類,則將其多數(shù)類近鄰刪除。把多數(shù)類樣本轉(zhuǎn)換為少數(shù)類CondensedNearestNeighbor(CNN)對點進行KNN分類,如果分類錯誤,則將該點作為少數(shù)類樣本。在實際運用中,選擇比較小的K。把多數(shù)類樣本轉(zhuǎn)換為少數(shù)類或剔除NearMiss(NM)NearMiss-1:對于每個多數(shù)類樣本,計算其與最近的三個少數(shù)類樣本的平均距離,選擇最小距離對應的多數(shù)類樣本。NearMiss-2:與NearMiss-1相反,計算與最遠的三個少數(shù)類樣本的平均距離,并選擇最小距離對應的多數(shù)類樣本。NearMiss-3:對每個少數(shù)類樣本,選擇與之最接近的若干個多數(shù)類樣本。NearMiss-1針對數(shù)據(jù)分布的局部特征;NearMiss-2針對數(shù)據(jù)分布的全局特征。NearMiss-1傾向于在比較集中的少數(shù)類附近找到更多的多數(shù)類樣本,而在離群的少數(shù)類附近找到更少的多數(shù)類樣本。TomekLinks方法如果有兩個不同類別的樣本,它們的最近鄰都是對方,也就是A的最近鄰是B,B的最近鄰是A,那么A,B就是Tomeklink。數(shù)學語言:兩個不同類別的樣本點xi和xj,它們之間的距離表示為d(xi,xj),如果不存在第三個樣本點xl使得d(xl,xi)<d(xi,xj)或者d(xl,xj)<d(xi,xj)成立,則稱(xi,xj)為一個Tomeklink

1234TomekLinkRemoval處理方法:把所有Tomeklink都刪除掉,即對于Tomeklink的兩個樣本,如果有一個屬于多數(shù)類樣本,就將該多數(shù)類樣本刪除掉?,F(xiàn)象與原因非平衡數(shù)據(jù)處理方法概覽欠采樣過采樣混合采樣特征層算法層面提綱方法概覽SMOTEBorderline-SMOTE1Borderline-SMOTE2SMOTESyntheticMinorityOversamplingTechnique(SMOTE)該算法只是簡單在兩個近鄰之間進行插值采樣,而沒有考慮到采樣點附近的樣本分布情況,從而可能產(chǎn)生趨向于其他類別的樣本,以及樣本重復等問題。Borderline-SMOTE1該算法根據(jù)少數(shù)類近鄰樣本的類別分布情況,判斷該樣本以后被誤分的可能性,從而有選擇地進行線性插值采樣生成新的少數(shù)類樣本。Borderline-SMOTE2在DANGER數(shù)據(jù)集中的點不僅從S集中求最近鄰并生成新的少數(shù)類點,同時也在L數(shù)據(jù)集中求最近鄰,并生成新的少數(shù)類點。這會使得少數(shù)類的點更加接近其真實值?,F(xiàn)象與原因非平衡數(shù)據(jù)處理方法概覽欠采樣過采樣混合采樣特征層算法層面提綱組合采樣SMOTE+TomekLinkRemovalSMOTE+ENNSMOTE+TomeLinks首先,利用SMOTE方法生成新的少數(shù)類樣本,得到擴充后的數(shù)據(jù)集T。然后剔除T中的Tomeklinks對。為什么需要這兩者的組合呢?避免SMOTE導致原本屬于多數(shù)類樣本的空間被少數(shù)類“入侵”(invade),由Tomeklinks去除噪聲點或者邊界點。ABCSMOTE+ENN和SMOTE+Tomeklinks方法的思路相似,包含兩個步驟。1)利用SMOTE方法生成新的少數(shù)類樣本,得到擴充后的數(shù)據(jù)集T。2)對T中的每一個樣本使用kNN(一般k取3)方法預測,若預測結果和實際類別標簽不符,則剔除該樣本?,F(xiàn)象與原因非平衡數(shù)據(jù)處理方法概覽欠采樣過采樣混合采樣特征層算法層面提綱特征層解決不平衡數(shù)據(jù)分類的思路就是選擇最合適的特征表示空間,再進行分類?!白詈线m”是指提高少數(shù)類及整體的分類正確性。把數(shù)據(jù)樣本投影到這個“最合適”的子空間中,多數(shù)類可能聚集在一起或重疊在一起,那么就有利于減小數(shù)據(jù)的非平衡性。根據(jù)機器學習的特征理論,在特征空間的構造方面,存在兩大類方法,即特征選擇和特征提取?,F(xiàn)象與原因非平衡數(shù)據(jù)處理方法概覽欠采樣過采樣混合采樣特征層算法層面提綱算法層面a)代價敏感:設置損失函數(shù)的權重,使得少數(shù)類判別錯誤的損失大于多數(shù)類判別錯誤的損失b)單類分類器方法:僅對少數(shù)類進行訓練,例如運用SVM算法c)集成學習方法:即多個分類器,然后利用投票或者組合得到結果。代價敏感算法相關問題正常、入侵檢測錯誤時代價是什么以分類錯誤總代價最低為優(yōu)化目標,能更加關注錯誤代價較高類別的樣本,使得分類性能更加合理。實現(xiàn)方法:一是,改變原始的數(shù)據(jù)分布來得到代價敏感的模型;二是,對分類的結果進行調(diào)整,以達到最小損失的目的;三是,直接構造一個代價敏感的學習模型。代價矩陣優(yōu)化目標最優(yōu)的Bayes預測就是把x分為使得R(i|x)最小化的類別k,即:K=argminR(i|x),i=1,2,…N其中R(i|x)是某個類別i的樣本x的分類風險Metacost算法:教材代價敏感SVM對于一個給定的訓練數(shù)據(jù)集((x1,Y1,),…,(xn,yn)),標準的非代價敏感支持向量機學習出一個決策邊界普通SVM偏置懲罰支持向量機(BP-SVM)代價敏感教練損失支持向量機(CSHL-SVM)單分類器方法密度估計法基于聚類的方法基于支持域的方法SVM單類支持向量機(OneclassSVM)支持向量數(shù)據(jù)描述(SupportVectorDataDescription,SVDD)當多數(shù)類中存在明顯簇結構時,使用聚類方法獲得聚類結構有利于提高多數(shù)類輪廓描述的精度。集成學習的方法典型的集成學習方法有Bagging、Boosting、StackingSMOTEBaggingSMOTEBoostBaggingOverBagging:每次迭代時應用隨機過采樣在小類數(shù)據(jù)UnderBagging:每次迭代時應用隨機下采樣在大類數(shù)據(jù)SMOTEBagging:結合了SMOTE與bagging,先使用SMOTE生成更加全面的小類數(shù)據(jù),然后應用baggingAsymmetricbagging:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論