版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)科學概論--數(shù)據(jù)挖掘與處理NorthwesternPolytechnicalUniversity西北工業(yè)大學什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘算法的選擇分類算法的評價標準回歸算法的評價標準分類學習邏輯回歸支持向量機樸素貝葉斯決策樹回歸預測線性回歸支持向量機(回歸)決策樹(回歸)聚類分析K-means算法K-medoids聚類輪廓系數(shù)目錄數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術,是統(tǒng)計學、數(shù)據(jù)庫技術和人工智能技術的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關聯(lián)、變化、異常和有意義的結構;數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術改善預測模型。一、數(shù)據(jù)挖掘知識發(fā)現(xiàn)(KD)輸出的是規(guī)則數(shù)據(jù)挖掘(DM)輸出的是模型共同點兩種方法輸入的都是學習集(learningsets)目的都是盡可能多的自動化數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘過程并不能完全自動化,只能半自動化知識發(fā)現(xiàn)與數(shù)據(jù)挖掘技術分類預言(Predication):用歷史預測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術異常檢測分類(預言)聚集序列模式關聯(lián)分析……數(shù)據(jù)挖掘技術異常檢測是數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)”小的模式”(相對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。異常探測應用電信和信用卡欺騙貸款審批藥物研究氣象預報金融領域客戶分類網(wǎng)絡入侵檢測故障檢測與診斷等異常檢測Hawkins(1980)給出了異常的本質(zhì)性的定義:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機偏差,而是產(chǎn)生于完全不同的機制。聚類算法對異常的定義:異常是聚類嵌于其中的背景噪聲。異常檢測算法對異常的定義:異常是既不屬于聚類也不屬于背景噪聲的點。他們的行為與正常的行為有很大不同。什么是異常(outlier)?基于統(tǒng)計(statistical-based)的方法基于距離(distance-based)的方法基于偏差(deviation-based)的方法基于密度(density-based)的方法高維數(shù)據(jù)的異常探測異常檢測方法的分類分類:預測分類標號(或離散值)根據(jù)訓練數(shù)據(jù)集和類標號屬性,構建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預測:建立連續(xù)函數(shù)值模型,比如預測空缺值典型應用信譽證實目標市場醫(yī)療診斷性能預測分類VS.預測Scikit-learn模型選擇第一步,建立一個模型,描述預定數(shù)據(jù)類集和概念集假定每個元組屬于一個預定義的類,由一個類標號屬性確定基本概念訓練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓練樣本:訓練數(shù)據(jù)集中的單個樣本(元組)學習模型可以用分類規(guī)則、判定樹或數(shù)學公式的形式提供第二步,使用模型,對將來的或未知的對象進行分類首先評估模型的預測準確率對每個測試樣本,將已知的類標號和該樣本的學習模型類預測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立于訓練樣本集,否則會出現(xiàn)“過分適應數(shù)據(jù)”的情況數(shù)據(jù)分類:兩步過程第一步:建立模型訓練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則第二步:用模型進行分類分類規(guī)則測試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?通過對數(shù)據(jù)進行預處理,可以提高分類和預測過程的準確性、有效性和可伸縮性數(shù)據(jù)清理消除或減少噪聲,處理空缺值,從而減少學習時的混亂相關性分析數(shù)據(jù)中的有些屬性可能與當前任務不相關;也有些屬性可能是冗余的;刪除這些屬性可以加快學習步驟,使學習結果更精確數(shù)據(jù)變換可以將數(shù)據(jù)概化到較高層概念,或?qū)?shù)據(jù)進行規(guī)范化準備分類和預測的數(shù)據(jù)使用下列標準比較分類和預測方法預測的準確率:模型正確預測新數(shù)據(jù)的類編號的能力速度:產(chǎn)生和使用模型的計算花銷魯棒性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預測的能力可伸縮性:對大量數(shù)據(jù),有效的構建模型的能力可解釋性:學習模型提供的理解和洞察的層次比較分類方法混淆矩陣查準率、查全率與F1查準率:在預測值為正例的樣本中真實值也為正例的樣本數(shù)量所占的比例.查全率:在真實值為正例的樣本中,預測值為正例的樣本所占的比例F1:查準率與查全率的調(diào)和平均數(shù)不同場景海關稽查走私癌癥篩查預測準確性的評估方法貝葉斯分類利用統(tǒng)計學中的貝葉斯定理,來預測類成員的概率,即給定一個樣本,計算該樣本屬于一個特定的類的概率。樸素貝葉斯分類:假設每個屬性之間都是相互獨立的,并且每個屬性對非類問題產(chǎn)生的影響都是一樣的。貝葉斯分類GaussianNB(高斯樸素貝葉斯)高斯樸素貝葉斯適用于連續(xù)型數(shù)值,比如身高在160cm以下為一類,160-170cm為一個類。MultinomialNB(多項式樸素貝葉斯)多項式樸素貝葉斯常用于文本分類,特征是單詞,值是單詞出現(xiàn)的次數(shù)。BernoulliNB(伯努利樸素貝葉斯)伯努利樸素貝葉斯所用特征為全局特征,只是它計算的不是單詞的數(shù)量,而是出現(xiàn)則為1,否則為0,也就是特征等權重。Scikit-learn中的貝葉斯分類方法#使用高斯樸素貝葉斯分類:Bayes.ipynbfromsklearn.naive_bayesimportGaussianNBgnb=GaussianNB()model=gnb.fit(x_train,y_train)y_pred=model.predict(x_test)survived_pred=model.predict(x_test)fromsklearn.metricsimportclassification_reportprint(classification_report(y_test,survived_pred,target_names=['died','survived']))預測泰坦尼克號生還率什么是決策樹?類似于流程圖的樹結構每個內(nèi)部節(jié)點表示在一個屬性上的測試每個分枝代表一個測試輸出每個樹葉節(jié)點代表類或類分布決策樹的生成由兩個階段組成判定樹構建開始時,所有的訓練樣本都在根節(jié)點遞歸的通過選定的屬性,來劃分樣本(必須是離散值)樹剪枝許多分枝反映的是訓練數(shù)據(jù)中的噪聲和孤立點,樹剪枝試圖檢測和剪去這種分枝決策樹的使用:對未知樣本進行分類通過將樣本的屬性值與判定樹相比較用決策樹歸納分類決策樹算法(一個貪心算法)自頂向下的分治方式構造判定樹樹以代表訓練樣本的單個根節(jié)點開始使用分類屬性(如果是量化屬性,則需先進行離散化)遞歸的通過選擇相應的測試屬性,來劃分樣本,一旦一個屬性出現(xiàn)在一個節(jié)點上,就不在該節(jié)點的任何后代上出現(xiàn)測試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計信息來進行選擇(如:信息增益)遞歸劃分步驟停止的條件給定節(jié)點的所有樣本屬于同一類沒有剩余屬性可以用來進一步劃分樣本——使用多數(shù)表決沒有剩余的樣本決策樹算法特征選擇、決策樹生產(chǎn)和決策樹裁剪三種常見的決策樹算法,使用某特征對數(shù)據(jù)集劃分之后,各數(shù)據(jù)子集的純度要比劃分前的數(shù)據(jù)集D的純度高,也就是不確定性要比劃分前數(shù)據(jù)集D的不確定性低。ID3:通過信息增益選擇特征C4.5:通過信息增益比選擇特征,C4.5算法是對ID3算法的一種改進,ID3算法對可取值數(shù)量較多的屬性有所偏好,因此,C4.5算法不再使用信息增益,而是使用信息增益率來改進這種不利的影響。CART:通過Gini指數(shù)選擇特征,Gini(D)反映了從數(shù)據(jù)集D中隨機抽取兩個樣本,其類別標記不一致的概率。因此,Gini(D)越小,則數(shù)據(jù)集D純度越高。決策樹創(chuàng)建過程#決策樹判斷是否生還decisiontree.ipynb#從sklearn中引入決策樹分類fromsklearn.treeimportDecisionTreeClassifierdtc=DecisionTreeClassifier()dtc.fit(x_train,y_train)y_pred=dtc.predict(x_test)fromsklearn.metricsimportclassification_reportprint(classification_report(y_test,y_pred,target_names=['died','survived']))決策樹預測泰坦尼克號生還與否決策樹在模型描述上有著巨大的優(yōu)勢。決策樹的推斷邏輯非常直觀,具有清晰的可解釋性,也可以很方便地將模型進行可視化。決策樹的可視化后向傳播是一種神經(jīng)網(wǎng)絡學習算法;神經(jīng)網(wǎng)絡是一組連接的輸入/輸出單元,每個連接都與一個權相連。在學習階段,通過調(diào)整神經(jīng)網(wǎng)絡的權,使得能夠預測輸入樣本的正確標號來學習。優(yōu)點預測精度總的來說較高健壯性好,訓練樣本中包含錯誤時也可正常工作輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值對目標進行分類較快缺點訓練(學習)時間長蘊涵在學習的權中的符號含義很難理解很難根專業(yè)領域知識相整合后向傳播分類k-最臨近分類給定一個未知樣本,k-最臨近分類法搜索模式空間,找出最接近未知樣本的k個訓練樣本;然后使用k個最臨近者中最公共的類來預測當前樣本的類標號基于案例的推理樣本或案例使用復雜的符號表示,對于新案例,先檢測是否存在同樣的訓練案例;如果找不到,則搜索類似的訓練案例遺傳算法結合生物進化思想的算法粗糙集方法模糊集方法允許在分類規(guī)則中定義“模糊的”臨界值或邊界其他分類方法預測是構造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。預測和分類的異同相同點兩者都需要構建模型都用模型來估計未知值預測當中主要的估計方法是回歸分析線性回歸和多元回歸非線性回歸不同點分類法主要是用來預測類標號(分類屬性值)預測法主要是用來估計連續(xù)值(量化屬性值)什么是預測?MAE:MeanAbsoluteError”(平均絕對誤差)MSE全稱為“MeanSquaredError”(均方誤差)R2score,分子代表預測值與真實值的差異,而分母代表真實值與平均值的差異。Scikit-learn中使用以下方式導入fromsklearn.metricsimportmean_absolute_error,mean_squared_error,r2_score判斷預測準確性線性回歸:Y=+X其中和是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點,通過最小二乘法來求得多元回歸:Y=+1X1+2X2線性回歸的擴展,設計多個預測變量,可以用最小二乘法求得上式中的,1和2非線性回歸:Y=+1X1+2X22+3X33對不呈線性依賴的數(shù)據(jù)建模使用多項式回歸建模方法,然后進行變量變換,將非線性模型轉(zhuǎn)換為線性模型,然后用最小二乘法求解回歸方法簇(Cluster):一個數(shù)據(jù)對象的集合在同一個類中,對象之間0具有相似性;不同類的對象之間是相異的。聚類分析把一個給定的數(shù)據(jù)對象集合分成不同的簇;聚類是一種無監(jiān)督分類法:沒有預先指定的類別;典型的應用作為一個獨立的分析工具,用于了解數(shù)據(jù)的分布;作為其它算法的一個數(shù)據(jù)預處理步驟;數(shù)據(jù)挖掘算法—聚類模式識別空間數(shù)據(jù)分析在GIS中,通過聚類發(fā)現(xiàn)特征空間來建立主題索引;在空間數(shù)據(jù)挖掘中,檢測并解釋空間中的簇;圖象處理經(jīng)濟學(尤其是市場研究方面)WWW文檔分類分析WEB日志數(shù)據(jù)來發(fā)現(xiàn)相似的訪問模式聚類的常規(guī)應用市場銷售:
幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識來開展一個目標明確的市場計劃;土地使用:
在一個陸地觀察數(shù)據(jù)庫中標識那些土地使用相似的地區(qū);保險:
對購買了汽車保險的客戶,標識那些有較高平均賠償成本的客戶;城市規(guī)劃:
根據(jù)類型、價格、地理位置等來劃分不同類型的住宅;地震研究:
根據(jù)地質(zhì)斷層的特點把已觀察到的地震中心分成不同的類;應用聚類分析的例子一個好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結果——簇,這些簇要具備以下兩個特點:高的簇內(nèi)相似性低的簇間相似性聚類結果的好壞取決于該聚類方法采用的相似性評估方法以及該方法的具體實現(xiàn);聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;聚類方法性能評價輸入集適應性能夠處理噪聲和異常對輸入數(shù)據(jù)對象的順序不敏感能處理高維數(shù)據(jù)在決定輸入?yún)?shù)的時候,盡量不需要特定的領域知識;方法特性可伸縮性能夠處理不同類型的屬性能發(fā)現(xiàn)任意形狀的簇結果能產(chǎn)生一個好的、能滿足用戶指定約束的聚類結果結果是可解釋的、可理解的和可用的聚類方法性能評價差異度/相似度矩陣:相似度通常用距離函數(shù)來表示;有一個單獨的質(zhì)量評估函數(shù)來評判一個簇的好壞;對不同類型的變量,距離函數(shù)的定義通常是不同的,這在下面有詳細討論;根據(jù)實際的應用和數(shù)據(jù)的語義,在計算距離的時候,不同的變量有不同的權值相聯(lián)系;很難定義“足夠相似了”或者“足夠好了”只能憑主觀確定;評價聚類質(zhì)量k-means聚類:一種基于距離的聚類算法,模型可解釋性強,運用較為廣泛。1)隨機選取k個中心點;2)遍歷樣本數(shù)據(jù),將每個樣本劃分到最近的中心點;3)計算每個類中樣本的平均值,并作為新的中心點;4)重復步驟2-3,直到中心點不再變化或者達到最大迭代次數(shù)。k-medoids聚類:1) 在總體n個樣本點中任意選取k個點作為medoids;2) 按照與medoids最近的原則,將剩余的n-k個點分配到當前最佳的medoids代表的類中;3) 對于第i個類中除對應medoids點外的所有其他點,按順序計算當其為新的medoids時,準則函數(shù)的值,遍歷所有可能,選取準則函數(shù)最小時對應的點作為新的medoids;4) 重復2-3的過程,直到所有的medoids點不再發(fā)生變化或已達到設定的最大迭代次數(shù);5) 產(chǎn)出最終確定的k個類常用聚類算法Scikit-learn的聚類算法make_blobs生成測試數(shù)據(jù)使用Kmeans算法進行聚類fromsklearn.clusterimportKMeanskmeans=KMeans(n_clusters=4)kmeans.fit(data)y_kmeans=kmeans.predict(data)使用不同顏色表示不同的聚類plt.scatter(data[:,0],data[:,1],c=y_kmeans,s=50,cmap='viridis')centers=kmeans.cluster_centers_plt.scatter(centers[:,0],centers[:,1],c='black',s=200,alpha=0.5)K-means算法例子k-means.ipynbk-means算法并不保證結果是全局最優(yōu)的,并且在聚類之前需要指定聚類的個數(shù),也就是簇的數(shù)量,它自己不會從數(shù)據(jù)中學習出簇的數(shù)量,如果選擇的簇的數(shù)量不恰當,k-means算法盡管也會執(zhí)行,但結果會不盡人意。K-means聚類的缺點輪廓系數(shù)(SilhouetteCoefficient)是結合類內(nèi)聚合程度和類間離散程度來評估聚類性能,對任意樣本點,計算方法為:1)計算到簇中個點的平均簇內(nèi)距離a(Xi),也稱之為類內(nèi)聚合度;2)分別計算到其它簇中各點的平均距離,取最小值記為b(Xi),也稱之為類間離散度;3)用s(Xi)表示輪廓系數(shù),計算公式如下:
s(Xi)的取值范圍為[-1,1],若s接近-1,表示樣本更應該分到其它簇。使用輪廓系數(shù)評價聚類個數(shù)選擇使系數(shù)較大所對應的k值Forn_clusters=2Theaveragesilhouette_scoreis:0.704978749608Forn_clusters=3Theaveragesilhouette_scoreis:0.588200401213Forn_clusters=4Theaveragesilhouette_scoreis:0.650518663273Forn_clusters=5Theaveragesilhouette_scoreis:0.563764690262Forn_clusters=6Theaveragesilhouette_scoreis:0.450466629437使用輪廓系數(shù)評價聚類效果手肘法利用SSE(sumofthesquarederrors,誤差平方和)判斷聚類個數(shù)是否最優(yōu)隨著聚類數(shù)k的增大,樣本劃分會更加精細,每個簇的聚合程度會逐漸提高,那么誤差平方和SSE自然會逐漸變小。當k小于真實聚類數(shù)時,由于k的增大會大幅增加每個簇的聚合程度,故SSE的下降幅度會很大,而當k到達真實聚類數(shù)時,再增加k所得到的聚合程度回報會迅速變小,所以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 游泳行業(yè)游泳技巧培訓總結
- 零食店服務員工作技巧
- 時尚店銷售員的工作總結
- 快遞行業(yè)派送專員培訓總結
- 《瑜伽與健康》課件
- 《卒中優(yōu)化治療》課件
- 2023年江蘇省宿遷市公開招聘警務輔助人員輔警筆試自考題2卷含答案
- 2022年青海省西寧市公開招聘警務輔助人員輔警筆試自考題2卷含答案
- 2021年江蘇省鹽城市公開招聘警務輔助人員輔警筆試自考題1卷含答案
- 2021年河北省石家莊市公開招聘警務輔助人員輔警筆試自考題1卷含答案
- 2024年時事政治熱點題庫200道附答案(基礎題)
- (正式版)SHT 3045-2024 石油化工管式爐熱效率設計計算方法
- 2008年10月自考00928罪犯勞動改造學試題及答案含解析
- 2024年中儲糧集團招聘筆試參考題庫附帶答案詳解
- 2023-2024學年江蘇省揚州樹人校中考一模數(shù)學試題含解析
- 中國和新加坡的英漢雙語教育政策比較研究
- 2023-2024學年《Web開發(fā)基礎》試卷及答案解析
- 期末試卷-2023-2024學年語文六年級上冊統(tǒng)編版
- 2024年1月國開電大法律事務專科《法律咨詢與調(diào)解》期末考試試題及答案
- 鐵路職業(yè)病防治工作課件
- 快速響應客戶需求機制
評論
0/150
提交評論