




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于 GCV 的 L S2SV M 模型選擇在個(gè)人信用評(píng)估中的應(yīng)用李 嫻1 ,2(1 . 河南大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院 ,開(kāi)封 475001 ; 2 . 上海財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與管理學(xué)院 ,上海 200433)摘 要 : 針對(duì)個(gè)人信用評(píng)估中數(shù)據(jù)海量性以及與影響因素之間的非線性問(wèn)題 , 利用最小二乘支持向量機(jī) ( L S2SV M) 中基于 GCV 準(zhǔn)則和 Newto n2Rap h so n 算法的正則化參數(shù)快速選擇方法建立新的個(gè)人信用風(fēng)險(xiǎn)預(yù)測(cè)模型. 并 把該模型與 Fi sher 線性判別分析 、Lo gi stic 回歸以及半?yún)?shù)廣義可加模型的判別效果進(jìn)行了實(shí)證比較分析. 結(jié)果表 明該方法不僅
2、具有快速高效的模型選擇能力 ,并且具有較優(yōu)的判別預(yù)測(cè)能力.關(guān)鍵詞 : L S2SV M ; GCV ; Newto n2Rap hso n 迭代 ;模型選擇 ;個(gè)人信用評(píng)估中圖分類號(hào) : T P391 文獻(xiàn)標(biāo)志碼 : A 文章編號(hào) : 1003 - 4978 (2011) 03 - 0240 - 06Research and Appl ication of LS2SVM Model Selection Ba sed onGCV in Individual Credit Appra isalL I Xia n1 ,2(1 . S c hool o f M at hem at ics a n d
3、I n f orm at i on S cience , H e n an U ni ve rs i t y , Kai f e n g 475001 , Chi na ;2 . S c hool o f S t at is t ics a n d M an a ge me nt , S h a n g h ai U ni ve rs i t y o f Fi n ance an d Econom ics , S ha n g h ai 200433 , Chi na)Abstract : In view of ma ssive individual credit data a s well
4、a s no n2linear relatio n bet ween credit and it s inf l uencing f acto r s , a new individual credit ri sk fo reca st mo del i s esta bli shed using L S2SV M , in which regula rizatio n p a rameter i s selected ba sed o n t he GCV criterio n a nd t he Newto n2Rap h so n algo rit hm. Di stinctio n e
5、ff ect s are co mpa red a mo ng t he new mo del , Fi sher li nea r di scrimi na nt analysi s , Lo gi stic regre ssio n a s well a s generalized additive mo del . The re sult s sho w t hat t he p ropo sed met ho d no t o nly ha s t he eff ective mo del selectio n abilit y , but al so ha s t he superi
6、o r di stinctio n p redictive abilit y.Key words : L S2SV M ; GCV ; Newto n2Rap h so n it eratio n ; mo del selectio n ; individual credit eval uatio n0 引言近年來(lái) ,隨著消費(fèi)信貸業(yè)務(wù)規(guī)模的不斷擴(kuò)大 ,如何在商業(yè)銀行內(nèi)部開(kāi)發(fā)一種合理有效的個(gè)人信用評(píng)估模 型、準(zhǔn)確客觀地評(píng)估客戶的信用風(fēng)險(xiǎn)狀況、合理有效地控制信貸風(fēng)險(xiǎn)已經(jīng)成為信貸行業(yè)發(fā)展的一個(gè)關(guān)鍵而迫 切的問(wèn)題. 這類問(wèn)題在統(tǒng)計(jì)學(xué)理論中有兩類在起源上略有不同的分析工具 :一種是以廣義線性模型為代表的
7、 經(jīng)典統(tǒng)計(jì)回歸分析工具 ;另一種是以神經(jīng)網(wǎng)絡(luò)為代表的人工智能分析工具. 人工神經(jīng)網(wǎng)絡(luò) ( A N N ) 模型可以 大大降低模型設(shè)定偏差 ,提高信用風(fēng)險(xiǎn)的度量精度 ,但也存在過(guò)度擬合、計(jì)算強(qiáng)度很大 、很難處理信用風(fēng)險(xiǎn)度 量中常見(jiàn)的海量數(shù)據(jù)等問(wèn)題. 相比之下 ,具有簡(jiǎn)單線性結(jié)構(gòu)的傳統(tǒng)回歸分析方法得到實(shí)業(yè)界更為廣泛的重 視 ,但是簡(jiǎn)單性也容易導(dǎo)致模型設(shè)定偏差 ,降低模型的預(yù)測(cè)精度. 為了解決這一矛盾 ,通常的做法是在復(fù)雜模 型與簡(jiǎn)單模型間進(jìn)行折中 ,如王小明 1 提出的一類基于廣義可加模型 ( GA M) 的信用風(fēng)險(xiǎn)度量方法. 近幾年 , 支持向量機(jī) ( SV M) 也被應(yīng)用到信用評(píng)估之中 ,逐步
8、成為新的研究熱點(diǎn). Shi n ,L ee 和 Ki m 2 將 SV M 用于信 用評(píng)估 ,并與 A N N 比較 ,結(jié)果表明 SV M 在預(yù)測(cè)精度和泛化能力方面具有相對(duì)于 A N N 的明顯優(yōu)勢(shì). L S2SV M 是在傳統(tǒng) SV M 基礎(chǔ)上發(fā)展起來(lái)的 ,作為 SV M 的一種改進(jìn)算法 ,它成為克服“維數(shù)災(zāi)難”和“過(guò)學(xué)習(xí)”等 傳統(tǒng)困難的有力手段. L S2SV M 的計(jì)算首先涉及到模型超參數(shù)的選擇 (即模型選擇) 問(wèn)題 ,一旦超參數(shù)確定 ,收稿日期 : 2010212210就可用預(yù)測(cè)函數(shù)進(jìn)行預(yù)測(cè). 考慮到商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)估數(shù)據(jù)的海量性 ,快捷的模型選擇也是一個(gè)特別需要考量的重要方面. 文
9、獻(xiàn) 3 在 L S2SV M 的模型選擇問(wèn)題中 ,針對(duì)再抽樣技術(shù)不能從根本上解決計(jì)算強(qiáng)度過(guò)高 的問(wèn)題 ,提出基于 GCV 準(zhǔn)則的模型選擇方法 ,并建立了 L S2SV M 模型中 ,正則化參數(shù)估計(jì)的快速算法. 研究 表明 ,所給出的快速 GCV 模型選擇方法不僅能保證模型的預(yù)測(cè)精度和穩(wěn)健性 ,而且在計(jì)算速度上具有相對(duì)于 L e nda se A 等 4 提出的 Fa st Boo t st rap 方法的巨大優(yōu)勢(shì). 鑒于以上原因 ,本文研究了 L S2SV M 模型中基于GCV 準(zhǔn)則和 Newto n2Rap h so n 算法的正則化參數(shù)快速選擇方法在個(gè)人信用風(fēng)險(xiǎn)評(píng)估中的應(yīng)用.1 L S2S
10、V M 與基于 GCV 準(zhǔn)則和 New to n2Rap h so n 算法的正則化參數(shù)快速選擇1 . 1 L S2SV M 模型設(shè) ( xk , y k ) , k = 1 , 2 , , N 為來(lái)自總體 ( X , Y ) 的一組觀察或訓(xùn)練樣本 , 其中 xi = ( x i1 , x i2 , , x ip ) 是 p 維輸入向量 , 代表第 i 個(gè)個(gè)體的 p 個(gè)解釋變量或特征 , y k 是 1 維輸出數(shù)據(jù). 在特征空間中 ,L S2SV M 模型取 成下面的形式 :y ( x) = T( x) + b ,( 1)其中非線性映射( ) 將輸入數(shù)據(jù)映射為較高維數(shù)的特征空間中 , 而和 b
11、 則是下面優(yōu)化問(wèn)題的解 :mi n J (, b) = 1 T + N2, b22 k = 1 ek( 2)s. t . y k = T( x k ) + b + ek ,k = 1 , N .由此可見(jiàn) L S2SV M 問(wèn)題與嶺回歸問(wèn)題相對(duì)應(yīng). 根據(jù) L a gra ngia n 條件極值方法 ,有 :NL (, b , e ,) = J (, b) - k = 1k ( x k ) + b + ek - y k ,( 3)其中k 是 L a gra ngia n 乘子. 優(yōu)化條件是 :9LTN( x ) ;9 = 0 = k = 1 k k9L9e k= 0 k = e k , k = 1
12、 , , N ;( 4)N9L = 0 k = 0 ;9b9L9kk = 1= 0 T( x k ) + b + ek - y k = 0 ,k = 1 , N .消除 ek 和 后 , 原最優(yōu)化問(wèn)題 ( 2) 與下面的線性方程組等價(jià)01 T1 +- 1 Ib 0 =y ,( 5)其中 I 為 N 階單位矩陣 , y = ( y1 , y2 , y N ) T , 1 = ( 1 , 1 , 1) T N , = (1 ,2 ,N ) T ,為 N N 非 負(fù)定矩陣 , 稱為核矩陣 , 滿足下面的 Me rce r 條件 :kl = ( x k ) T( x l ) =( x k , x l
13、) ,k , l = 1 , 2 , N .( 6)這里的( , ) 稱為核函數(shù). 對(duì)于任意一個(gè)核函數(shù) , 都可以確定一個(gè)核矩陣 , 并可由方程組 ( 5) 解出 b 和,再由 (4) 可得到 L S2SV M 模型的預(yù)測(cè)函數(shù) :Ny ( x) = T( x) + b =k( x k , x) + b ,( 7)k = 1常用的核函數(shù)包括高斯徑向基核函數(shù)、多項(xiàng)式核函數(shù)與小波核函數(shù)等. 本文將討論給定核函數(shù)( , ) 及核參數(shù) ,如何選擇 L S2SV M 模型中的正則化參數(shù). 在本文的數(shù)據(jù)分析中 ,采用徑向基核函數(shù) :x1 - x2 2( x1 , x2 ) = e xp -2.( 8)但是
14、,對(duì)于其它形式的核函數(shù) ,文中的參數(shù)優(yōu)選方法同樣適用.1 . 2基于 GCV 準(zhǔn)則和 Newto n2Rap h so n 迭代的正則化參數(shù)快速選擇方法在 L S2SV M 模型下 , GCV 準(zhǔn)則等價(jià)于 :NGCV () = i = 1y i - y i1 - d () / N2 N RS S = ( N - d () ) 2 . ( 9)在上述準(zhǔn)則下選擇模型正則化參數(shù)等價(jià)于求使 GCV () 達(dá)到最小的值. 這里涉及到兩方面的計(jì)算問(wèn) 題 , 一是回歸平方和 RS S , 另一個(gè)是模型參數(shù)的有效個(gè)數(shù) d , 它們都是模型正則化參數(shù)的函數(shù).設(shè) ( x tk , y tk ) , k = 1 ,
15、 2 , n 為來(lái)自同一總體 ( X , Y ) 的一組測(cè)試樣本. 為此 , 將式 ( 4) 和式 ( 5) 代入式( 7) , 記 = - 1 , 有預(yù)測(cè)方程 :y = ( 1 pre )( x1 , x t1 )( x N , x t1 )01 T1 +I- 1 0,y這里 ,pre =( x1 , x tn ) ( x N , x tn ), 而 為訓(xùn)練樣本構(gòu)成的核矩陣. 特別地 ,在訓(xùn)練數(shù)據(jù)上有 :0=y00=- 0I01 T1 000I01 T1 +I01 T1 +I- 1 0y- 1 000I0. ( 10)y所以 ,訓(xùn)練數(shù)據(jù)上的擬合函數(shù)為 : y = ( I - A22 ) y
16、, 其中 A22 為01 T1 +I- 1劃去第一行和第一列后的子矩 11 1-陣. 記 = +I , 經(jīng)計(jì)算 , 可得 A22 = - 1 T- 1- 1+ , 將 進(jìn)行正交分解 U TU = , 其中 U 為正1 T 1- 1 T- 1交矩陣 ,為對(duì)角矩陣. 記 = +I , 有 y = ( I - H) y = Sy , 其中 S = I +H 帽子矩陣 , H = U 1 11 T- 1 1U- - 1 T, 1 = U T1 . 由此可以很方便地得到不同值下的殘差平方和 : RS S () = yT( I - S) 2y = 2 yTH2 y 與對(duì)應(yīng)的有效參數(shù)個(gè)數(shù) d () = t
17、r ( S) = N +t r ( H) , 進(jìn)而得到 : 1 1 - 1 T 2dd- 1T - 1dH = dU1 T- 1- U= H .因此有 : 1 dT 22 T 3dR S S () = 2y d Td2 RS S () = 2 y dH y + 2 yH2 y + 8y T2H y ,H3 y + 6 yTH4 y ,( 11)dd () = t r ( H) +t r ( H ) ,d2 2 3d2 d () = 2t r ( H ) +t r ( H ) ,利用上式及 New to n2Rap h so n 公式 ,就可建立 GCV 準(zhǔn)則下 L S2SV M 中正則化參數(shù)的
18、迭代公式 :2new = ol d - d lo g ( GCV )dlo g ( GCV ) ,( 12) T 3 d2 ) 2 d22 T 4 T 33 )( 2 )其中 , d lo g ( GCV ) = yH y - t r ( H, d lo g ( GCV ) = 3 yH y - 2 y H y- 2 t r ( H+ t r H.dy T H2 yt r ( H)d2y T H2 yy T H2 yt r ( H)t r ( H)整個(gè)迭代過(guò)程僅需對(duì)矩陣 做一次正交分解就能順利完成 ,這樣就節(jié)省了大量的計(jì)算時(shí)間.2 實(shí)證分析2 . 1數(shù)據(jù)來(lái)源與數(shù)據(jù)預(yù)處理研究使用數(shù)據(jù)來(lái)自加州大學(xué)
19、歐文分校 ( U C I) 機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)所提供的德國(guó)信用卡數(shù)據(jù). 該數(shù)據(jù)庫(kù)含有1 000 位德國(guó)客戶信用卡審核資料 ,其中每個(gè)樣本共用 20 個(gè)申請(qǐng)者個(gè)人特征變量 (解釋變量) 和 1 個(gè)類別 (目標(biāo)) 變量 (違約或是無(wú)違約) 來(lái)描述. 20 個(gè)申請(qǐng)者個(gè)人特征變量中有 7 個(gè)為數(shù)值型數(shù)據(jù) ,有 13 個(gè)為屬性數(shù)據(jù) ;目標(biāo)變量包含 700 條好客戶 (無(wú)違約案例) 和 300 條壞客戶 (違約案例) .建立模型前 ,對(duì)原始數(shù)據(jù)做了如下的預(yù)處理 :1)為了便于計(jì)算 ,13 個(gè)屬性數(shù)據(jù)又按照德國(guó)個(gè)人信用數(shù)據(jù)庫(kù)數(shù)據(jù)結(jié)構(gòu)被轉(zhuǎn)換為數(shù)值變量 ,并且 ,對(duì)屬 性數(shù)據(jù)中的分類變量進(jìn)行二值編碼將其轉(zhuǎn)換為啞變量
20、 ,以“是否外籍勞工”指標(biāo)為例 ,分為兩類用一個(gè)變量表示 :用 0 表示“是外籍勞工”,用 1 表示“不是外籍勞工”;分為三類的用兩個(gè)變量表示. 而對(duì)有序變量則不再進(jìn)行處理 ,最后得到 24 個(gè)預(yù)測(cè)變量.2)因?yàn)閭€(gè)別數(shù)值較大的特征在分類過(guò)程中會(huì)占據(jù)主導(dǎo)地位 ,為了避免一些特征值范圍過(guò)大而另一些 特征值范圍過(guò)小 ,也為了避免在訓(xùn)練時(shí)由于計(jì)算核函數(shù)而計(jì)算內(nèi)積的時(shí)候引起數(shù)值計(jì)算的困難 ,又為消除各個(gè)指標(biāo)量綱不同帶來(lái)的影響 ,對(duì)輸入變量進(jìn)行標(biāo)準(zhǔn)化變換. 假設(shè) n 個(gè)樣本具有 p 個(gè)不同的特征變量 ,經(jīng)過(guò) 1)處理的特征指標(biāo)用下面的公式進(jìn)行標(biāo)準(zhǔn)化處理 :2 x ij - ma x x ij - mi n
21、 x ij i i xij =ma x x ij - mi n x ij , i = 1 , 2 , n ; j = 1 , 2 , p .ii3)對(duì)目標(biāo)變量 ,用 y = 1 表示沒(méi)有違約的 700 條好客戶 ;在線性判別分析 ,Lo gi stic 回歸分析 ,半?yún)?shù)廣義可加模型中 ,用 y = 0 表示違約的 300 條壞客戶 ,在最小二乘支持向量機(jī)模型中 ,用 y = - 1 表示違約的300 條壞客戶 ,用 L S2SV M 回歸機(jī)來(lái)預(yù)測(cè) y ,分類規(guī)則為 : G( x) = si g n ( y) .2 . 2 研究樣本的劃分與評(píng)估標(biāo)準(zhǔn)從模型的實(shí)用價(jià)值出發(fā) ,以模型對(duì)測(cè)試樣本的預(yù)測(cè)
22、正確率 (模型的泛化能力) 作為評(píng)價(jià)模型優(yōu)劣的主要 標(biāo)準(zhǔn). 使用五折交叉驗(yàn)證來(lái)測(cè)試各個(gè)模型的分類效果 ,最終的結(jié)果是五次測(cè)試的平均值. 具體做法如下 :在經(jīng)過(guò)數(shù)據(jù)預(yù)處理之后的樣本數(shù)據(jù)集中 , 將 700 條好客戶隨機(jī)劃分為大小相等且彼此不相交的 5 個(gè)部 分 , 記為 g1 、g2 、g3 、g4 、g5 , 同樣也將 300 條壞客戶隨機(jī)劃分為大小相等且彼此不相交的 5 個(gè)部分 , 記為 b1 、 b2 、b3 、b4 、b5 , 然后把 g2 、g3 、g4 、g5 與 b2 、b3 、b4 、b5 合并在一起 , 作為一個(gè)訓(xùn)練樣本集 , 把 g1 與 b1 合并在一 起 , 作為與其對(duì)應(yīng)
23、的測(cè)試樣本集; 同樣將 g2 與 b2 合并在一起 , 作為測(cè)試樣本集 , 其余的組成與其對(duì)應(yīng)的訓(xùn)練樣本集; 對(duì)兩類客戶余下的三部分做同樣的處理 , 這樣得到了 5 個(gè)訓(xùn)練樣本集 , 每個(gè)訓(xùn)練樣本集有一個(gè)對(duì)應(yīng) 的測(cè)試樣本集. 每個(gè)訓(xùn)練樣本集包含 560 個(gè)正常樣本和 240 個(gè)違約樣本 ; 每個(gè)測(cè)試樣本集包含 140 個(gè)正常樣 本和 60 個(gè)違約樣本.使用統(tǒng)計(jì)中的一類精度 ,二類精度和總精度來(lái)度量各個(gè)模型的最終分類效果. 這三個(gè)評(píng)價(jià)規(guī)則定義如下 :一類精度 = 實(shí)際正??蛻舯荒P驼_判為正??蛻舻臄?shù)量/ 實(shí)際正常客戶數(shù)量.二類精度 = 實(shí)際違約客戶被模型正確判為違約客戶的數(shù)量/ 實(shí)際違約客戶數(shù)
24、量.總精度 = 實(shí)際正?;蜻`約客戶被模型正確判別的數(shù)量/ 被測(cè)樣本總數(shù)量.2 . 3模型建立2 . 3 . 1變量選擇由于判斷客戶信用的特征變量眾多 ,為提高分類的計(jì)算效率 ,首先利用 Lo gi stic 回歸分析來(lái)選擇變量 , 接著又利用半?yún)?shù)廣義可加模型在這些變量中再進(jìn)行選擇 ,其中 X2 、X 4 、與 X 10 這 3 個(gè)連續(xù)型數(shù)值變量以 非參數(shù)光滑函數(shù)的形式進(jìn)入模型 ,其余的 13 個(gè)變量以線性形式進(jìn)入模型. 所有的參數(shù)及非參數(shù)函數(shù)形式都 通過(guò)了檢驗(yàn) ( = 0 . 1 ) .2 . 3 . 2訓(xùn)練樣本、測(cè)試樣本的處理首先 ,在上一節(jié)劃分好的研究樣本中去掉變量選擇過(guò)程中沒(méi)有選入模型
25、的變量. 然后 ,對(duì)每個(gè)訓(xùn)練樣本 進(jìn)行標(biāo)準(zhǔn)化處理 ,并把它們所對(duì)應(yīng)的測(cè)試樣本也做同樣的處理.2 . 3 . 3模型選擇在 L S2SV M 模型中 ,固定 = 6 ,對(duì) 5 組訓(xùn)練樣本用基于 GCV 準(zhǔn)則和 Newto n2Rap h so n 算法的正則化參 數(shù)快速選擇方法分別選取. 由于 Newto n2Rap h so n 算法所得到的往往是最優(yōu)化問(wèn)題的局部最優(yōu)解而不是全局最優(yōu)解 ,所以計(jì)算結(jié)果可能會(huì)嚴(yán)重地依賴于初始值的選擇 ,這使得計(jì)算結(jié)果不穩(wěn)定. 為檢驗(yàn)?zāi)P瓦x擇的穩(wěn)定性 ,選擇不同的初值 ,重復(fù)上述實(shí)驗(yàn) 20 次 ,一共得到 100 組最優(yōu)參數(shù)值 ,表 1 列出了所得到的參數(shù)選擇結(jié)果
26、及迭代步數(shù) ( No . st ep ) .表 1 L S2SV M 模型選擇的參數(shù)值Tab. 1 Pa rameter val ue s selected fo r L S2SV Mmea nmaxmi nmedia nsd0 . 538 647 51 . 883 286 00 . 100 000 00 . 100 000 00 . 647 313 9 No . st ep 5 . 720 000 0 14 . 000 000 0 2 . 000 000 0 3 . 000 000 0 5 . 206 118 8 從表 1 可以看出 , GCV 方法選擇參數(shù)的最大迭代步數(shù)為 14 ,最小為
27、2 ,平均 5 步多 ,且所選擇的正則化參數(shù)也比較穩(wěn)定.根據(jù) Lo gi stic 變量篩選的結(jié)果 ,Lo gi stic 回歸模型為 :P ( Y = 1 | X) =e xp (),1 + e xp ()其中 , = 1 . 170 65 + 0 . 724 04 X1 - 0 . 482 48 X2 + 0 . 372 59 X3 + 0 . 377 94 X5 +0 . 168 82 X6 + 0 . 142 45 X7 - 0 . 182 66 X9 + 0 . 224 45 X11 + 0 . 255 44 X15 -0 . 277 86 X16 + 0 . 268 88 X17
28、- 0 . 299 62 X18 - 0 . 272 33 X19 - 0 . 190 23 X20 .這里 ,所有參數(shù)都通過(guò)了檢驗(yàn) ( = 0 . 1) . 當(dāng) P 大于等于 0 . 5 時(shí) ,將對(duì)應(yīng)的客戶劃為第一類 ,即正??蛻?,否則 歸為第二類 ,即違約客戶.半?yún)?shù)廣義可加模型中 ,連接函數(shù)采用 lo git 函數(shù) , X2 、X4 以非參數(shù)光滑函數(shù)的形式進(jìn)入模型 ,另外的 變量 X1 、X3 、X5 、X6 、X7 、X9 、X11 、X15 、X16 、X17 、X18 、X19 、X20 以線性形式進(jìn)入模型. 其中 ,模型中的光滑參數(shù)均采用 GCV 方法來(lái)選擇. 對(duì)于一組選定的光
29、滑參數(shù) ,使用一個(gè)以三次樣條光滑子 ( Cubic sp li ne smo t h2er) 為基本構(gòu)件的 Bac kfit ti ng 迭代算法來(lái)估計(jì)模型中的系數(shù)及各個(gè)函數(shù) f j .2 . 4模型評(píng)估2 . 4 . 1 試驗(yàn)結(jié)果用上面建立的各種模型分別對(duì)測(cè)試樣本進(jìn)行測(cè)試. 為了檢驗(yàn)?zāi)P皖A(yù)測(cè)精度的穩(wěn)定性 ,五折交叉驗(yàn)證均被 重復(fù)實(shí)驗(yàn) 20 次 ,總共得到 100 個(gè)預(yù)測(cè)值 ;為了對(duì)上述幾種模型的預(yù)測(cè)效果進(jìn)行比較 ,所有的實(shí)驗(yàn)均使用同樣 的訓(xùn)練集數(shù)據(jù)和測(cè)試集數(shù)據(jù). 表 2 給出了各種模型在測(cè)試樣本上判別精度的平均值. F2L DA 、Lo git 、GA M 、GCV2L S2SV M 分別表
30、示 Fi she r 線性判別分析、Lo gi stic 回歸 、半?yún)?shù)廣義可加、基于 GCV 準(zhǔn)則選擇正則化 參數(shù)的最小二乘支持向量機(jī)模型.表 2 測(cè)試樣本上判別精度的平均值Ta b. 2 Mean val ue s of di stinctio n accuracy o n testing sa mple模型精度/ %排名精度/ %排名精度/ %排名F2L DA64 . 75714480 . 26667169 . 410004Lo git91 . 90000134 . 83333474 . 780003GA M90 . 97143242 . 16667376 . 330002一類精度二類精
31、度總精度 GCV2L S2SV M 89 . 27143 3 50 . 70000 2 77 . 70000 1 2 . 4 . 2比較分析從表 2 可以得到如下重要結(jié)論 :1) 從總精度來(lái)看 ,基于 GCV 準(zhǔn)則的正則化參數(shù)優(yōu)化所得到的 L S2SV M 模型的分類效果最好 , GA M 次 之 ,Lo git 第三 , F2L DA 最差. 這說(shuō)明 GCV2L S2SV M 在信用分類任務(wù)中有較好的靈活性 ,可以捕捉到數(shù)據(jù)之 間復(fù)雜的非線性關(guān)系 ,能夠產(chǎn)生較好的分類結(jié)果 ; 而 L DA 模型僅是一個(gè)線性的判別模型 ,對(duì)非線性數(shù)據(jù)處理能力有限 ; GCV2L S2SV M 比 GA M 還要好 ,這可能是因?yàn)槟P秃?jiǎn)單、空間復(fù)雜比模型復(fù)雜 、空間簡(jiǎn)單要好.2) 對(duì)于二類精度 , F2L DA 的總是最高 , GCV2L S2SV M 的次之 ,且遠(yuǎn)遠(yuǎn)小于前者 , GA M 的第三 ,Lo git 的 最小 ;而對(duì)于一類精度 ,Lo git 的總是最高 , F2L DA 的總是最低. 盡管 F2L DA 的一類精度總是最差 ,但它的二類
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 財(cái)務(wù)投資者出資證明書(shū)(7篇)
- 春天郊游小學(xué)作文范文300字11篇
- 神奇的小探險(xiǎn)想象作文7篇范文
- 小學(xué)生該不該上網(wǎng)450字13篇
- 單砂體識(shí)別方法研究-以定邊地區(qū)長(zhǎng)4+5為例
- 六年級(jí)書(shū)信說(shuō)說(shuō)心里話650字(8篇)
- 酒店業(yè)減少一次性用品使用措施
- 農(nóng)業(yè)科技創(chuàng)新支持措施
- 比亞迪環(huán)境會(huì)計(jì)信息披露及財(cái)務(wù)效應(yīng)研究
- 基于游客感知的七彩丹霞旅游景區(qū)高質(zhì)量發(fā)展研究
- 中心城區(qū)供熱更新改造項(xiàng)目風(fēng)險(xiǎn)分析與管理
- 寧夏新希望賀蘭山牧業(yè)有限公司良種奶牛繁育基地建設(shè)項(xiàng)目環(huán)境影響報(bào)告書(shū)
- 養(yǎng)殖場(chǎng)安全教育培訓(xùn)
- 心源性猝死的預(yù)防和急救
- 教師交通安全法規(guī)
- 2025-2030年中國(guó)蛭石市場(chǎng)發(fā)展前景及投資策略分析報(bào)告
- 江蘇省淮安市(2024年-2025年小學(xué)六年級(jí)語(yǔ)文)統(tǒng)編版期末考試(下學(xué)期)試卷及答案
- 文創(chuàng)產(chǎn)品設(shè)計(jì)課件
- 土地平整工程施工方案與技術(shù)措施
- 基層數(shù)字化治理能力提升的內(nèi)在邏輯與創(chuàng)新路徑
- 《公路橋梁阻尼模數(shù)式伸縮裝置》
評(píng)論
0/150
提交評(píng)論