機器學習算法分享-《SVD》教學課件_第1頁
機器學習算法分享-《SVD》教學課件_第2頁
機器學習算法分享-《SVD》教學課件_第3頁
機器學習算法分享-《SVD》教學課件_第4頁
機器學習算法分享-《SVD》教學課件_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

SVD特征值奇異值12SVD特征值12NetflixPrize背景介紹目標:懸賞100萬美元,將Netflix的推薦算法預測準確度提高10%。數(shù)據(jù)結(jié)構(gòu):用戶ID、電影名稱、日期、分數(shù)(1-5之間的整數(shù))訓練數(shù)據(jù):48萬用戶對兩萬部電影的上億條評分包括一個與測試數(shù)據(jù)集分布相同的probe數(shù)據(jù)集,包含06年附近140多萬條的數(shù)據(jù)點,每個用戶至少對9部電影進行了打分,服從正態(tài)分布。測試數(shù)據(jù):280萬個數(shù)據(jù)點(隱藏的,參賽選手不能獲得,并且參賽選手自己也不能獲得自己模型作用在測試數(shù)據(jù)集上的最終效果)評測標準:均方誤差根CineMatch精度:0.95122022/11/25NetflixPrize背景介紹目標:22022/11/2數(shù)據(jù)示例132022/11/25數(shù)據(jù)示例132022/11/22數(shù)據(jù)示例2

movie1movie2movie3movie4movie5movie6movie7movie8movie9movie10user11212442231user22211111321user31222341122user42431133114user54112132344user64133234444user71444211124user83142212231user92212344411user104332242123黃色數(shù)據(jù)點代表probe數(shù)據(jù)集,用于參賽選手自己做測試用藍色數(shù)據(jù)點代表最終的測試數(shù)據(jù),對參賽的人來說是隱藏的42022/11/25數(shù)據(jù)示例2movie1movie2movie3movie4矩陣運算(1)52022/11/25矩陣運算(1)52022/11/22矩陣運算(2)m×nn×mm×mn×mm×nn×n62022/11/25矩陣運算(2)m×nn×mm×mn×mm×nn×n62022矩陣運算(3)72022/11/25矩陣運算(3)72022/11/22線性空間線性空間:“客觀”存在的一種空間,對加法和數(shù)乘具有封閉性。向量:既有大小又有方向的量,同時沒有起點線性空間的基:描述空間內(nèi)向量的一組“特殊”的向量,空間內(nèi)的所有向量都能被一組基的線性組合表示。舉例:直線就是一維的線性空間,平面就是二維線性空間,三維立體空間就是三維線性空間。82022/11/25線性空間線性空間:“客觀”存在的一種空間,對加法和數(shù)乘具有封線性空間的基x=(1,0),y=(0,1),c(5,3)=5x+3y,則c在基x,y下的坐標為(5,3);a=(1.5,1.5),b=(2,0),c=(5,3)=2a+b,則c基a,b下的坐標為(2,1);基實際就是一組人為規(guī)定的參照物,用來描述空間內(nèi)的其他向量92022/11/25線性空間的基基實際就是一組人為規(guī)定的參照物,用來描述空間內(nèi)的線性映射&線性變換空間內(nèi)的線性映射稱之為線性變換。102022/11/25線性映射&線性變換空間內(nèi)的線性映射稱之為線性變換。10202線性變換的矩陣表示112022/11/25線性變換的矩陣表示112022/11/22線性變換二維空間上,對(x,y)做變換:對應矩陣A122022/11/25線性變換二維空間上,對(x,y)做變換:對應矩陣A12202求解特征值132022/11/25求解特征值132022/11/22求解特征向量142022/11/25求解特征向量142022/11/22特征值的幾何意義(1)152022/11/25特征值的幾何意義(1)152022/11/22特征值的幾何意義(2)162022/11/25特征值的幾何意義(2)162022/11/22特征值的幾何意義(3)172022/11/25特征值的幾何意義(3)172022/11/22對角化變換(特征值分解)如果線性變換的特征向量可以構(gòu)成線性空間的一組基,那么有表示線性變換(矩陣)可以由其特征根和特征向量還原182022/11/25對角化變換(特征值分解)如果線性變換的特征向量可以構(gòu)成線性空方陣還原矩陣維度相當大時,可以用對角化變化的方法來逼近矩陣:特征向量:矩陣的特征特征值:各特征所占的權重192022/11/25方陣還原矩陣維度相當大時,可以用對角化變化的方法來逼近矩陣:思考1特征值分解使用條件有限,僅適用于方陣,且要求是實對稱矩陣。試想:如果需要分析的矩陣不是方陣(事實經(jīng)常如此),該怎樣處理呢?202022/11/25思考1特征值分解使用條件有限,僅適用于方陣,且要求是實對稱矩SVD簡介SVD:奇異值分解SVD可以看做是特征值分解的一種推廣,或者說特征值分解可以看作是SVD的一種特例。當矩陣不是方陣時同樣適用,應用很廣。212022/11/25SVD簡介SVD:奇異值分解212022/11/22SVD分解(1)非零奇異值,從大到小依次排序左奇異向量右奇異向量222022/11/25SVD分解(1)非零奇異值,從大到小依次排序左奇異向量右奇異SVD分解(2)奇異值從大到小依次排序232022/11/25SVD分解(2)奇異值從大到小依次排序232022/11/2SVD分解(3)奇異值從大到小依次排序242022/11/25SVD分解(3)奇異值從大到小依次排序242022/11/2SVD算法解析

可以看作是矩陣A的“平方”,而奇異值又是A“平方”陣的特征根的開方,因此奇異值可以看作是矩陣A的“偽特征向量”,左奇異向量可以看作矩陣A的“行特征向量”,右奇異向量可以看作是矩陣A的“列特征向量”。奇異值從大到小依次排序252022/11/25SVD算法解析可以看作是矩陣A的“平方”,而奇異值又SVD矩陣近似(1)奇異值從大到小依次排序262022/11/25SVD矩陣近似(1)奇異值從大到小依次排序262022/11SVD矩陣近似(2)272022/11/25SVD矩陣近似(2)272022/11/22SVD應用—推薦算法會員電影喜劇恐怖偏好ID宿醉東成西就大話西游八星報喜午夜兇鈴咒怨林中小屋寂靜嶺喜劇至尊寶44552323.75小小寶55542231流氓兔54452312霹*靂54553212中原不敗45542132恐怖魂飛魄散123253.87555荒村少年31224544憨豆豆21324545怪大叔22315554美味僵尸13214545282022/11/25SVD應用—推薦算法會員電影喜劇恐怖偏好ID宿醉東成西就大話SVD——矩陣變換44552323.7555542231544523125455321245542132123253.875553122454421324545223155541321454545554132214544521123554553233254554222112223254454323213.875555523113544543.75122254545126115133121909584881151171291138890868813312915113111111410711212111313112186907988908811186123128119125959011490128142124135848610779119124122122888811288125135122134292022/11/25SVD——矩陣變換44552323.755554223154SVD——求奇異值由于奇異值(特征的權重)下降的速度非??欤砻骶仃嚨男畔⒘考蟹植荚谇皫讉€較大的特征值中,本例中提取前2個特征。302022/11/25SVD——求奇異值由于奇異值(特征的權重)下降的速度非???,SVD——右奇異向量解析可以看作電影的本身的精彩程度的特征可以看做有關電影影片類型的特征影片類型片名特征1(29.7)特征2(11.4)得分均值喜劇宿醉0.340.393.20東成西就0.330.343.10大話西游0.400.293.70八星報喜0.330.403.10恐怖午夜兇鈴0.35-0.313.30咒怨0.37-0.373.49林中小屋0.34-0.343.20寂靜嶺0.36-0.373.38312022/11/25SVD——右奇異向量解析可以看作電影的本身的精彩程度的特征可SVD——左奇異向量解析可以看做是會員的打分習慣特征可看做是會員對影片類型偏好的特征偏好ID特征1(29.7)特征2(11.4)打分平均值喜劇至尊寶0.340.233.59小小寶0.320.343.38流氓兔0.310.323.25霹*靂0.320.353.38中原不敗0.310.313.25恐怖魂飛魄散0.32-0.333.36荒村少年0.30-0.273.13憨豆豆0.31-0.313.25怪大叔0.32-0.343.38美味僵尸0.30-0.343.13322022/11/25SVD——左奇異向量解析可以看做是會員的打分習慣特征可看做是SVD——模型打分(1)··29.711.4宿醉午夜兇鈴東成西就寂靜嶺大話西游八星報喜各部分得分權重計算至尊寶對《寂靜嶺》的評分至尊寶0.340.23小小寶0.320.34流氓兔0.310.32霹*靂0.320.35中原不敗0.310.31魂飛魄散0.32-0.33荒村少年0.30-0.27憨豆豆0.31-0.31怪大叔0.32-0.34美味僵尸0.30-0.340.340.330.400.330.350.370.340.360.390.340.290.40-0.31-0.37-0.34-0.37咒怨林中小屋影片相對客觀分數(shù)影片類型適應度得分得分332022/11/25SVD——模型打分(1)··29.711.4宿醉午夜兇鈴東成SVD——模型打分(2)··29.711.4宿醉午夜兇鈴東成西就寂靜嶺大話西游八星報喜影片相對客觀分數(shù)影片類型適應度得分得分各部分得分權重計算魂飛魄散對《咒怨》的評分至尊寶0.340.23小小寶0.320.34流氓兔0.310.32霹*靂0.320.35中原不敗0.310.31魂飛魄散0.32-0.33荒村少年0.30-0.27憨豆豆0.31-0.31怪大叔0.32-0.34美味僵尸0.30-0.340.340.330.400.330.350.370.340.360.390.340.290.40-0.31-0.37-0.34-0.37咒怨林中小屋342022/11/25SVD——模型打分(2)··29.711.4宿醉午夜兇鈴東成SVD結(jié)果簡要測評至尊寶的觀影歷史顯示其對喜劇類的電影評分較高,對恐怖電影普遍評分較低,因此可以推測他應該是不喜歡看《寂靜嶺》的,模型給出的打分為2.6,與實際情況是相符的?;觑w魄散的觀影歷史顯示其對恐怖類的電影評分較高,對喜劇電影普遍評分較低,因此可以推測他應該是很喜歡看《寂靜嶺》的,模型給出的打分為4.9,與實際情況是相符的。偏好ID宿醉東成西就大話西游八星報喜午夜兇鈴咒怨林中小屋寂靜嶺喜劇至尊寶44552322.6恐怖魂飛魄散123254.955352022/11/25SVD結(jié)果簡要測評至尊寶的觀影歷史顯示其對喜劇類的電影評分較SVD特征值奇異值362SVD特征值12NetflixPrize背景介紹目標:懸賞100萬美元,將Netflix的推薦算法預測準確度提高10%。數(shù)據(jù)結(jié)構(gòu):用戶ID、電影名稱、日期、分數(shù)(1-5之間的整數(shù))訓練數(shù)據(jù):48萬用戶對兩萬部電影的上億條評分包括一個與測試數(shù)據(jù)集分布相同的probe數(shù)據(jù)集,包含06年附近140多萬條的數(shù)據(jù)點,每個用戶至少對9部電影進行了打分,服從正態(tài)分布。測試數(shù)據(jù):280萬個數(shù)據(jù)點(隱藏的,參賽選手不能獲得,并且參賽選手自己也不能獲得自己模型作用在測試數(shù)據(jù)集上的最終效果)評測標準:均方誤差根CineMatch精度:0.951372022/11/25NetflixPrize背景介紹目標:22022/11/2數(shù)據(jù)示例1382022/11/25數(shù)據(jù)示例132022/11/22數(shù)據(jù)示例2

movie1movie2movie3movie4movie5movie6movie7movie8movie9movie10user11212442231user22211111321user31222341122user42431133114user54112132344user64133234444user71444211124user83142212231user92212344411user104332242123黃色數(shù)據(jù)點代表probe數(shù)據(jù)集,用于參賽選手自己做測試用藍色數(shù)據(jù)點代表最終的測試數(shù)據(jù),對參賽的人來說是隱藏的392022/11/25數(shù)據(jù)示例2movie1movie2movie3movie4矩陣運算(1)402022/11/25矩陣運算(1)52022/11/22矩陣運算(2)m×nn×mm×mn×mm×nn×n412022/11/25矩陣運算(2)m×nn×mm×mn×mm×nn×n62022矩陣運算(3)422022/11/25矩陣運算(3)72022/11/22線性空間線性空間:“客觀”存在的一種空間,對加法和數(shù)乘具有封閉性。向量:既有大小又有方向的量,同時沒有起點線性空間的基:描述空間內(nèi)向量的一組“特殊”的向量,空間內(nèi)的所有向量都能被一組基的線性組合表示。舉例:直線就是一維的線性空間,平面就是二維線性空間,三維立體空間就是三維線性空間。432022/11/25線性空間線性空間:“客觀”存在的一種空間,對加法和數(shù)乘具有封線性空間的基x=(1,0),y=(0,1),c(5,3)=5x+3y,則c在基x,y下的坐標為(5,3);a=(1.5,1.5),b=(2,0),c=(5,3)=2a+b,則c基a,b下的坐標為(2,1);基實際就是一組人為規(guī)定的參照物,用來描述空間內(nèi)的其他向量442022/11/25線性空間的基基實際就是一組人為規(guī)定的參照物,用來描述空間內(nèi)的線性映射&線性變換空間內(nèi)的線性映射稱之為線性變換。452022/11/25線性映射&線性變換空間內(nèi)的線性映射稱之為線性變換。10202線性變換的矩陣表示462022/11/25線性變換的矩陣表示112022/11/22線性變換二維空間上,對(x,y)做變換:對應矩陣A472022/11/25線性變換二維空間上,對(x,y)做變換:對應矩陣A12202求解特征值482022/11/25求解特征值132022/11/22求解特征向量492022/11/25求解特征向量142022/11/22特征值的幾何意義(1)502022/11/25特征值的幾何意義(1)152022/11/22特征值的幾何意義(2)512022/11/25特征值的幾何意義(2)162022/11/22特征值的幾何意義(3)522022/11/25特征值的幾何意義(3)172022/11/22對角化變換(特征值分解)如果線性變換的特征向量可以構(gòu)成線性空間的一組基,那么有表示線性變換(矩陣)可以由其特征根和特征向量還原532022/11/25對角化變換(特征值分解)如果線性變換的特征向量可以構(gòu)成線性空方陣還原矩陣維度相當大時,可以用對角化變化的方法來逼近矩陣:特征向量:矩陣的特征特征值:各特征所占的權重542022/11/25方陣還原矩陣維度相當大時,可以用對角化變化的方法來逼近矩陣:思考1特征值分解使用條件有限,僅適用于方陣,且要求是實對稱矩陣。試想:如果需要分析的矩陣不是方陣(事實經(jīng)常如此),該怎樣處理呢?552022/11/25思考1特征值分解使用條件有限,僅適用于方陣,且要求是實對稱矩SVD簡介SVD:奇異值分解SVD可以看做是特征值分解的一種推廣,或者說特征值分解可以看作是SVD的一種特例。當矩陣不是方陣時同樣適用,應用很廣。562022/11/25SVD簡介SVD:奇異值分解212022/11/22SVD分解(1)非零奇異值,從大到小依次排序左奇異向量右奇異向量572022/11/25SVD分解(1)非零奇異值,從大到小依次排序左奇異向量右奇異SVD分解(2)奇異值從大到小依次排序582022/11/25SVD分解(2)奇異值從大到小依次排序232022/11/2SVD分解(3)奇異值從大到小依次排序592022/11/25SVD分解(3)奇異值從大到小依次排序242022/11/2SVD算法解析

可以看作是矩陣A的“平方”,而奇異值又是A“平方”陣的特征根的開方,因此奇異值可以看作是矩陣A的“偽特征向量”,左奇異向量可以看作矩陣A的“行特征向量”,右奇異向量可以看作是矩陣A的“列特征向量”。奇異值從大到小依次排序602022/11/25SVD算法解析可以看作是矩陣A的“平方”,而奇異值又SVD矩陣近似(1)奇異值從大到小依次排序612022/11/25SVD矩陣近似(1)奇異值從大到小依次排序262022/11SVD矩陣近似(2)622022/11/25SVD矩陣近似(2)272022/11/22SVD應用—推薦算法會員電影喜劇恐怖偏好ID宿醉東成西就大話西游八星報喜午夜兇鈴咒怨林中小屋寂靜嶺喜劇至尊寶44552323.75小小寶55542231流氓兔54452312霹*靂54553212中原不敗45542132恐怖魂飛魄散123253.87555荒村少年31224544憨豆豆21324545怪大叔22315554美味僵尸13214545632022/11/25SVD應用—推薦算法會員電影喜劇恐怖偏好ID宿醉東成西就大話SVD——矩陣變換44552323.7555542231544523125455321245542132123253.875553122454421324545223155541321454545554132214544521123554553233254554222112223254454323213.875555523113544543.75122254545126115133121909584881151171291138890868813312915113111111410711212111313112186907988908811186123128119125959011490128142124135848610779119124122122888811288125135122134642022/11/25SVD——矩陣變換44552323.755554223154SVD——求奇異值由于奇異值(特征的權重)下降的速度非???,表明矩陣的信息量集中分布在前幾個較大的特征值中,本例中提取前2個特征。652022/11/25SVD——求奇異值由于奇異值(特征的權重)下降的速度非???,SVD——右奇異向量解析可以看作電影的本身的精彩程度的特征可以看做有關電影影片類型的特征影片類型片名特征1(29.7)特征2(11.4)得分均值喜劇宿醉0.340.393.20東成西就0.330.343.10大話西游0.400.293.70八星報喜0.330.403.10恐怖午夜兇鈴0.35-0.313.30咒怨0.37-0.373.49林中小屋0.34-0.343.20寂靜嶺0.36-0.373.38662022/11/25SVD——右奇異向量解析可以看作電影的本身的精彩程度的特征可SVD——左奇異向量解析可以看做是會員的打分習慣特征可看做是會員對影片類型偏好的特征偏好ID特征1(29.7)特征2(11.4)打分平均值喜劇至尊寶0.340.233.59小小寶0.320.343.38流氓兔0.310.323.25霹*靂0.320.353.38中原不敗0.310.313.25恐怖魂飛魄散0.32-0.333.36荒村少年0.30-0.273.13憨豆豆0.31-0.313.25怪大叔0.32-0.343.38美味僵尸0.30-0.343.13672022/11/25SVD——左奇異向量解析可以看做是會員的打分習慣特征可看做是SVD——模型打分(1)··29

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論