統(tǒng)計學(xué)習(xí)精要.docx_第1頁
統(tǒng)計學(xué)習(xí)精要.docx_第2頁
統(tǒng)計學(xué)習(xí)精要.docx_第3頁
統(tǒng)計學(xué)習(xí)精要.docx_第4頁
統(tǒng)計學(xué)習(xí)精要.docx_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記系列課程教材:The Elements of Statistical Learning/tibs/ElemStatLearn/授課人:復(fù)旦大學(xué)計算機(jī)學(xué)院 吳立德教授統(tǒng)計學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記(一)前兩天微博上轉(zhuǎn)出來的,復(fù)旦計算機(jī)學(xué)院的吳立德吳老師在開?統(tǒng)計學(xué)習(xí)精要(The Elements of Statistical Learning)?這門課,還在張江.大牛的課怎能錯過,果斷請假去蹭課.為了減輕心理壓力,還拉了一幫同事一起去聽,eBay浩浩蕩蕩的十幾人殺過去好不壯觀!總感覺我們的人有超過復(fù)旦本身學(xué)生的陣勢,五六十人的教室坐的滿滿當(dāng)當(dāng),壯觀啊。這本書正好前陣子一直在看,所以才會屁顛屁顛的跑過去聽。確實是一本深入淺出講data mining models的好書。作者網(wǎng)站上提供免費的電子版下載,爽!/tibs/ElemStatLearn/從這周開始,如無意外我會每周更新課堂筆記。另一方面,也會加上自己的一些理解和實際工作中的感悟。此外,對于data mining感興趣的,也可以去coursera聽課貌似這學(xué)期開的machine learning評價不錯。我只在coursera上從眾選了一門 Model Thinking,相對來說比較簡單,但是相當(dāng)?shù)膬?yōu)雅!若有時間會再寫寫這門課的上課感受。筆記我會盡量用全部中文,但只是盡量.-課堂筆記開始-第一次上課,主要是導(dǎo)論,介紹這個領(lǐng)域的關(guān)注興趣以及后續(xù)課程安排。對應(yīng)本書的第一章。1. 統(tǒng)計學(xué)習(xí)是?從數(shù)據(jù)中學(xué)習(xí)知識。簡單地說,我們有一個想預(yù)測的結(jié)果(outcome),記為Y,可能是離散的也可能是連續(xù)的。同時,還有一些觀察到的特征(feature),記為X,X既可能是一維的也可能是多維的。對于每一個觀測個體,我們都會得到一個行向量(x1,.,xp),對應(yīng)它的p個特征的觀測值,以及一個觀測到的結(jié)果值y。如果總共有N個個體,那么我們對于每個個體都會得到這些值,則有(y1,.,yn)T為觀測結(jié)果的列向量以及X (n*p)矩陣。這樣的數(shù)據(jù)稱之為訓(xùn)練數(shù)據(jù)集(training set)。這里更多是約定一些notation。2. 統(tǒng)計學(xué)習(xí)分類?一般說來,我們有個觀測到的結(jié)果Y,然后找到一個適合的模型根據(jù)X預(yù)測Y,這樣的稱之為有監(jiān)督的學(xué)習(xí)(supervised learning)。而有些時候,Y是無法觀測到的,那么只是通過X來學(xué)習(xí),稱之為無監(jiān)督的學(xué)習(xí)(unsupervised learning)。這本書主要側(cè)重有監(jiān)督的學(xué)習(xí)。3. 回歸和分類器。這個主要和Y有關(guān)。如果Y為離散,比如紅黃藍(lán)不同顏色,則稱之為分類器(學(xué)習(xí)模型);反之,若Y為連續(xù),比如身高,則稱之為回歸(學(xué)習(xí)模型)。這里更多只是稱謂上的區(qū)別。4. 統(tǒng)計學(xué)習(xí)的任務(wù)?預(yù)測。通過什么來預(yù)測?學(xué)習(xí)模型(learning models)。按照什么來學(xué)習(xí)?需要一定的準(zhǔn)則,比如最小均方誤差MSE,適用于分類器的0-1準(zhǔn)則等。基于這些準(zhǔn)則、優(yōu)化過的實現(xiàn)方法稱之為算法。5. 統(tǒng)計學(xué)習(xí)舉例?分類器:依據(jù)郵件發(fā)信人、內(nèi)容、標(biāo)題等判斷是否為垃圾郵件;回歸:前列腺特異抗原(PSA)水平與癌癥等因素的關(guān)系;圖形識別:手寫字母的識別;聚類:根據(jù)DNA序列判斷樣本的相似性,如親子鑒定。6. 課程安排順序?第二章,是對于有監(jiān)督的學(xué)習(xí)模型的概覽。第三章和第四章將討論線性回歸模型和線性分類器。第五章將討論廣義線性模型(GLM)。第六章涉及kernel方法和局部回歸。第七章是模型評價與選擇。第八章是測側(cè)重算法,比如最大似然估計,bootstrap等。本學(xué)期預(yù)計講到這里。所以后面的我就暫時不列出了。目測第二節(jié)開始將變得越來越難,前陣子自學(xué)第二章痛苦不已啊.一個LASSO就折磨了我好久。當(dāng)時的讀書筆記見:降維模型若干感悟-10.15補(bǔ)充-上周寫的時候只是憑著記憶,筆記沒在身邊。今天重新翻了翻當(dāng)時記下的課堂筆記,再補(bǔ)充一些吧。第九章是可加模型,即f(x1,.,xp)=f(x1)+.+f(xp)第十章是boosting模型第十一章討論神經(jīng)網(wǎng)絡(luò)第十二章討論支持向量機(jī) (Support Vector Machine)第十三章設(shè)計原型方法(Prototype)第十四章從有監(jiān)督的學(xué)習(xí)轉(zhuǎn)到無監(jiān)督的學(xué)習(xí)(即有X有Y-有X無Y)第十五章討論隨機(jī)森林模型(Random Forest)第十六章是集群學(xué)習(xí)第十七章結(jié)構(gòu)圖模型第十八章高維問題(我最近一直念叨的curse of dimensionality.今年搞笑諾貝爾獎也多少與此有關(guān),見/article/344117/,還有一篇相關(guān)的paper)ps. 吳老師對于隨機(jī)森林等等模型的評論也挺有意思的,大致是,大家都沒搞清隨機(jī)森林為什么效果這么好.而且這一類模型都是computatoinal intensive的,即有一個非常簡單的idea然后借助大量的計算來實現(xiàn)。此外,這類方法更多有“猜”的感覺,無法知道來龍去脈,在現(xiàn)實中顯得不那么intuitive.(不像econometrics那般致力于causality呢)。統(tǒng)計學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記(二)繼續(xù)一周一次的課堂筆記:D昨天去晚了站著聽講,感覺好好啊,注意各種集中。想想整個教室里面就是我和老師是站著的,自豪感油然而生。第二次課講的東西依舊比較簡單,是這本書第二章的前半部分。作為一個好久之前已經(jīng)預(yù)習(xí)過的孩子,我表示萬分的得意(最小二乘法難道不是三四年前就學(xué)過的?話說以后我再面人的時候,就讓他推導(dǎo)最小二乘估計量,嘻嘻.考驗一下基本功)。-原諒我的廢話,筆記開始-簡單預(yù)測方法:最小二乘法(以下沿用計量經(jīng)濟(jì)學(xué)的習(xí)慣,簡稱OLS)OLS實在是太普遍了,我就不贅述細(xì)節(jié)了。OLS的思想就是,基于已有的樣本信息,找出一條直線,讓預(yù)測值與真實值之間的殘差平方和最小,即n(yy)2最小。其中,y為真實的樣本觀測值(已有樣本),而y是OLS的預(yù)測值。用圖來講的話,X為一維向量的時候,就是用一條直線來最好的擬合各個樣本點。這里就很明顯了,首先OLS假設(shè)是一條直線。那么就是一個參數(shù)模型,即我們需要假設(shè)一個未知的參數(shù),構(gòu)成一個線性方程y=x,然后再去估計的值。然后呢,直線會有很多條,所以我們要找到一個目標(biāo)比如這里,就是最小化殘差平方和RSS。換言之,我們尋找的就是最優(yōu)的向量使得RSS最小。解這個最優(yōu)化問題很簡單,我就不重復(fù)了。最后解得的最優(yōu)估計量為:=(XX)1XY這里寫成矩陣形式,比較簡單。X為一維向量的時候,可以改寫成形式,我個人不大喜歡,就不展開了。簡單預(yù)測方法:K近鄰(k nearest neighbor)K近鄰的思想就更簡單了。不就是想預(yù)測某個點x對應(yīng)的y么?那么就把它的鄰居都找來,平均一下好了。不是有句話叫做什么“一個人的收入就大概是他的圈子收入的平均值么?”所以y=mean(yi|xiNk(x),這里Nk(x)表示點x的K近鄰。至于這個近鄰怎么定義嘛,嘻嘻,很簡單啊,歐幾里德距離就可以嘛評語:吳老師對于這兩個算法的直觀評價是,OLS呢就是勤奮的學(xué)生,預(yù)測前先做足功課,預(yù)測的時候只要知道X,噼里啪啦一下子y就估計出來了。然而knn則是一個臨時抱佛腳的學(xué)生,預(yù)測的時候開始找自己的k近鄰,然后把它們平均一下就好了。哈哈,大意如此,大家可以體會一下這種精神。我個人感覺呢,OLS屬于以不變應(yīng)萬變的,而knn則是見機(jī)行事的。統(tǒng)計決策理論(Statistical Decision Theory)說了這么多,這個模型好不好到底怎么判讀呢?凡事總得有個標(biāo)準(zhǔn)呢。這一系列的標(biāo)準(zhǔn)或者說準(zhǔn)則,就是統(tǒng)計決策理論了。首先呢,大致我們需要對X,Y有個分布上的描述:用P(X,Y)記作向量(X,Y)的聯(lián)合分布,然后p(X,Y)為其對應(yīng)的密度函數(shù)。之后為了估計Y,我們會有很多很多模型,即各種f(X),而這些f(X)組成的函數(shù)空間記為F。然后我們定義一個損失函數(shù),比如在均方誤差意義下,L(Y,f(X)=(Yf(X)2,這樣就有了一個選擇的標(biāo)準(zhǔn)使得損失函數(shù)的期望最小:EPE(f)=E(Yf(X)2=yf(x)2P(dx,dy)。接下來就是,到底在F空間里面,哪一個f最符合這個標(biāo)準(zhǔn)呢?首先自然是把聯(lián)合分布變?yōu)闂l件分布。這個idea顯而易見我們總是知道X的(原諒我吧,全中文確實比較難寫,偶爾穿插英文一下 _)。所以conditional on X,我們就有了EPE(f)=yf(x)2P(dx,dy)=xyyf(x)2p(y|x)dyp(x)dx去解最小化問題,最終我們得到的就是在每個點X上,f(X)=E(y|X=x)。通俗的講就是,對于每個點預(yù)測,把和它X向量取值一樣的樣本點都找出來,然后取他們的平均值就可以了。很直觀的不是么?這里也有點最大似然的想法呢比如預(yù)測一個男孩的身高,最保險的就是把和它同齡的其他男孩的身高平均一下,不是么?但是說來簡單啊,很多時候P(X,Y)都是未知的,根本無法計算嘛。所以只能近似: 回憶一下knn,就是放松了兩點:1)xk取的是x的近鄰,而不一定是x; 2)用樣本平均數(shù)代替了期望 而OLS呢,也是最后在E()=E(XX)1XY這里,用樣本平均代替了期望。近似嘛,自然有好的近似和不好的近似。很顯然的,當(dāng)樣本比較大、尤其是比較密集的時候,x的鄰居應(yīng)該都離x很近,所以這個誤差可以減小;此外,當(dāng)樣本很大的時候,根據(jù)大數(shù)定律,平均數(shù)收斂于期望。所以,這兩種算法應(yīng)該說,都在大樣本下會有更好的效果。模型選擇、訓(xùn)練誤差與測試誤差、過擬合這里講的比較簡單。模型選擇就是F的選擇,即選擇哪一類函數(shù)空間F,然后再其中找/估計最優(yōu)的f(X)。很顯然,如果只有若干個有限的樣本,我們總能把各個樣本用直線或者曲線依次連起來,這樣的話就有無數(shù)個f可以作為此問題的解。顯然這不是我們想要的這樣的稱為“不設(shè)定問題”,即可能無解、可能多個解、還可能因為一點點X的變化導(dǎo)致整個解的解答變化。因此我們需要先設(shè)定一個解的類別。訓(xùn)練誤差:預(yù)測模型估計值與訓(xùn)練數(shù)據(jù)集之間的誤差。RSS就是一個典型的訓(xùn)練誤差組成的殘差平方和。測試誤差:用訓(xùn)練集以外的測試數(shù)據(jù)集帶來的誤差,顯然我們更關(guān)心的是測試誤差訓(xùn)練總能訓(xùn)練的很好,讓損失函數(shù)期望最小,然而測試集則不一定這樣。一般說來,測試誤差訓(xùn)練誤差。過擬合:選擇一個很復(fù)雜的f,使得訓(xùn)練誤差很小,而實際的測試誤差不一定小。最極端的就是剛才說的,把訓(xùn)練集的點一個個依次連起來.訓(xùn)練誤差肯定是0是不是?我們關(guān)心的自然是怎么降低測試誤差。顯然這東西會跟訓(xùn)練誤差有關(guān),但是它還跟f的復(fù)雜度有關(guān)。最最棘手的就是,f的復(fù)雜度是一個難以衡量的問題。早期的研究有用自由度來衡量這個復(fù)雜度的,但是也不是那么的靠譜.后面的有人鼓搗出來PAC(使得近似正確的概率最大吳老師原話),還有一個VC來衡量復(fù)雜度但幾乎實踐中無法計算,沒幾個計算出來的。嗯,水很深哇。統(tǒng)計學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記(三)照例文章第一段跑題,先附上個段子(轉(zhuǎn)載的哦):I hate CS people. They dont know linear algebra but want to teach projective geometry. They dont know any probability but want to use graphical models. They dont understand stats at all but still do machine learning like crazy.喵,最近被問了好幾次machine learning 和statistical learning的區(qū)別在哪里,我覺得大致如上吧。這也是為什么,對后面這個詞我的好感稍稍好于前面那個的原因.科學(xué)總是有意義的嘛,不能總是依靠強(qiáng)力亂猜是不是嘛。免責(zé)聲明:以下個人見解部分局限于我個人的見識和思考范圍,不適用于所有場景。請大家棄糟粕取精華,不可一言全信之。-筆記+隨想開始-高維空間問題這一段主要是說大名鼎鼎的維數(shù)災(zāi)難。我們都知道有兩個數(shù)字決定著OLS中X矩陣的大小,這就是 觀測數(shù)目N 和觀測變量的個數(shù)p 。一般說來,我們都喜歡N比較大,這樣可以很容易的應(yīng)用大數(shù)定律什么的。然而對于p,卻是既愛又恨我們當(dāng)然喜歡可以觀察到個體的很多個特征,但是所謂亂花漸欲迷人眼,特征越多噪音也越多,搞不好預(yù)測的時候就會有麻煩(關(guān)于變量的選擇問題,應(yīng)該是下一節(jié)課的內(nèi)容。心急的可以先看看我以前的一篇自學(xué)筆記)。為什么維數(shù)增多的時候會麻煩呢?這里主要是隨著維數(shù)增多帶來的高維空間數(shù)據(jù)稀疏化問題。簡單地說: p=1,則單位球(簡化為正值的情況)變?yōu)橐粭l0,1之間的直線。如果我們有N個點,則在均勻分布的情況下,兩點之間的距離為1/N。其實平均分布和完全隨機(jī)分布的兩兩點之間平均距離這個概念大致是等價的,大家可稍微想象一下這個過程。 p=2,單位球則是邊長為1的正方形,如果還是只有N個點 ,則兩點之間的平均距離為1N。換言之,如果我們還想維持兩點之間平均距離為1/N,那么則需N2個點。 以此類題,在p維空間,N個點兩兩之間的平均距離為N1/p,或者需要Np個點來維持1/N的平均距離。由此可見,高維空間使得數(shù)據(jù)變得更加稀疏。這里有一個重要的定理:N個點在p為單位球內(nèi)隨機(jī)分布,則隨著p的增大,這些點會越來越遠(yuǎn)離單位球的中心,轉(zhuǎn)而往外緣分散。這個定理源于各點距單位球中心距離的中間值計算公式:d(p,N)=(121/N)1/p當(dāng)p時,d(p,N)1。(很顯然,當(dāng)N變大時,這個距離趨近于0。直觀的理解就是,想象我們有一堆氣體分子,p變大使得空間變大,所以這些分子開始遠(yuǎn)離彼此;而N變大意味著有更多氣體分子進(jìn)來,所以兩兩之間難免更擠一些。看過三體的,大概會覺得這個很熟悉的感覺吧.四維空間下的水滴再也不完美的無懈可擊,而一張一維的紙片就毀滅了整個地球呢。)這個距離公式的推導(dǎo)就暫時不寫了,好麻煩.大致是利用了各個點獨立同分布的特性(完全隨機(jī)情況下),把median距離變?yōu)橐?/2概率大于中位數(shù)的概率集合公式,再進(jìn)一步展開為單點距離累乘公式。比如當(dāng)p=10, N=500的時候,d(p,N)約為0.52,也就意味著有一半多的點離中心的距離大于1/2。高維問題為什么是問題呢?回顧一下K近鄰算法,我們用x的鄰居來代替x,這樣就希望他的鄰居們不要離他太遠(yuǎn)。顯然高維空間使得點和點之間越來越遠(yuǎn)。所以說,knn更適合小p大N即低維多觀測量的情況,而在高維空間下可能會變得很麻煩。這樣,statistical learning的主要兩個問題就總結(jié)完了: 過擬合:為了控制預(yù)測誤差,我們要選擇適合的函數(shù)類。 高維空間:隨著維數(shù)的增多,我們面臨著維數(shù)災(zāi)難。這對很多算法都有波及,主要體現(xiàn)在高維數(shù)據(jù)稀疏化?;貧w的線性方法這里主要是一些linear regression的東西,作為被計量經(jīng)濟(jì)學(xué)折磨了這么多年的孩子,我表示很淡定.此外還加上我們俗稱的generalized linear models,即GLM。一些線性變換而已,無傷大雅。這里一定要強(qiáng)調(diào)的是,在這里我們親愛的X居然不是隨機(jī)變量!多大的一個坑啊,我就華麗麗的掉下去了還問老師為什么無偏性不需要假設(shè)均值獨立什么的. X不是隨機(jī)變量意味著什么呢?X是人為設(shè)定或者決定的,比如我一天澆200 ml 或者500 ml水,然后看對于植物生長的影響。當(dāng)時我真的是想一口老血噴出來,這也太舒服了吧!要知道大多數(shù)情況下X也是隨機(jī)變量哇,比如身高體重什么的。如果它不是隨機(jī)變量而只有擾動項是獨立的隨機(jī)變量的話,整個計量經(jīng)濟(jì)學(xué)怕是要刪掉好多篇幅了呢。我想說的只有,這群搞statistical learning的好幸福.X不是隨機(jī)變量的時候,為了滿足無偏性的假設(shè),只需要擾動項不相關(guān)且期望方差存在就可以了。期望不為0不要緊,回歸的時候放進(jìn)去常數(shù)項就可以了。此外,對于任意一個正定陣W,我們都可以直接在回歸方程兩邊乘以W,從而=(XWWX)1XWY。也就是說,我們可以給X進(jìn)行加權(quán)處理,加權(quán)矩陣W之后可以進(jìn)行新的OLS估計,且可能會有對應(yīng)的優(yōu)良性質(zhì)。加權(quán)最小二乘法我就不在這里復(fù)習(xí)了,學(xué)過計量的應(yīng)該很熟悉,比如處理異方差什么的。再就是我們可以給加上一些約束條件,這樣的話最小化問題后面就可以簡單的使用拉格朗日乘子法來解。這次的收獲之一就是OLS估計量的計算。在實踐中,我們計算OLS估計值并不是直接使用=(XX)1XY,而是會事先進(jìn)行QR分解(利用特征值來算)。即,我們把X分解為化為正交(酉)矩陣Q與實(復(fù))上三角矩陣R的乘積。這樣一來,=(XX)1XY=(RQQR)1RQY=R1(QY)這樣可解R=QY,計算時候的穩(wěn)定性比直接求逆矩陣來的好很多,因為計算機(jī)必竟有數(shù)字長度的限制,各種位數(shù)帶來的精度損耗最后會累積到估計量上。最后就是高斯-馬爾科夫定理,就是我們常說的BLUE估計量。我就直接拷貝這個定理了:在誤差零均值,同方差,且互不相關(guān)的線性回歸模型中,回歸系數(shù)的最佳無偏線性估計(BLUE)就是最小方差估計。一般而言,任何回歸系數(shù)的線性組合的最佳無偏線性估計就是它的最小方差估計。在這個線性回歸模型中,誤差既不需要假定正態(tài)分布,也不需要假定獨立(但是需要不相關(guān)這個更弱的條件),還不需要假定同分布進(jìn)一步的,如果假設(shè)擾動項服從正態(tài)分布,比如白噪聲,那么的估計值也服從正態(tài)分布,y的預(yù)測值也服從正態(tài)分布,因此可以直接做一系列基于正態(tài)分布的假設(shè)檢驗。特別的,在大樣本情況下,就算擾動項不是正態(tài)分布,我們也還是可以利用大數(shù)定律和中心極限定理.事實上一般也是這么做的。本節(jié)課到此結(jié)束。老師沒有一一推導(dǎo)無偏性最小方差這些性質(zhì),我倒是覺得對回歸方法感興趣的還是直接去看計量經(jīng)濟(jì)學(xué)吧。這東西水還是蠻深的。統(tǒng)計學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記(四)照例繼續(xù)本周筆記。這次我沒啥廢話了.-筆記開始-投影矩陣與消滅矩陣首先是上次沒證的若干OLS性質(zhì)?;径际枪健N揖驼粘瓉韊conometrics做的筆記了。權(quán)當(dāng)復(fù)習(xí)了.對計量有興趣的、線性代數(shù)還不錯的,建議去看Microeconometrics- Methods and Applications(?A. Colin Cameron / Pravin K. Trivedi )。先定義兩個矩陣,這兩個矩陣會在某種程度上save your life while learning econometrics.投影矩陣和消滅矩陣。復(fù)習(xí)一下,OLS估計量是=(XX)1XY,然后對應(yīng)的Y估計量是Y=X=X(XX)1XY。所以,我們定義投影矩陣P為P=X(XX)1X,這樣就有了Y=PY。也就是說,我們對Y進(jìn)行了一次投影,然后得到了一個估計值。當(dāng)然定義投影矩陣并不僅僅是寫起來比那堆X簡單,而是投影矩陣本身有著一系列良好的性質(zhì)。我們先來看把P投在X上會怎么樣。顯然,PX=X(XX)1XX=X,也就是說P不會改變X的值(本來就是把一個東西投到X上嘛自己投自己怎么會有變化的嘛)。然后呢,對P進(jìn)行轉(zhuǎn)置,則P=(X(XX)1X)=P,所以接下來P2=PP=X(XX)1XX(XX)1X=P。再定義消滅矩陣M。很簡單,我們定義M為M=IP=IX(XX)1X,其中I為單位陣(對角線元素為1,其他為0)。這樣M又有什么性質(zhì)呢?顯然MY=(IP)Y=YY=,也就是說M對Y的效果是得到誤差項。而與此同時,M對于X的作用就是MX=(IP)X=XX=0,所以稱為消滅矩陣嘛。繼續(xù),進(jìn)行轉(zhuǎn)置,則M=(IP)=IP=M,所以我們還有M2=MM=(IP)(IP)=IPP+P=IP=M。OLS估計值的方差再次友情提醒,X不是隨機(jī)變量,所以不要跟我糾結(jié)為什么沒有條件期望公式之類的東西.擾動項服從N(0,)時,或者大樣本下,OLS估計量的方差為:Var()=E()()=E(XX)1X(XX)1X=(XX)1E()=s21(XX)1這里=s21為樣本方差,所以其分布為:N(,s21(XX)1)。這樣一來,就有了一個t檢驗:t=0s21(XX)1tNK1。大樣本下,就直接用正態(tài)檢驗好了。此外,如果我們進(jìn)一步的有更多的同時檢驗的約束條件,那就是聯(lián)合檢驗F。這個就不贅述了.高斯-馬爾可夫定理順便還證了一下高斯-馬爾可夫定理.這個不像OLS,每次我可記不住他的證明,每次都是現(xiàn)翻書.我就直接抄wiki了。選擇另外一個線性估計量=CY,然后C可以寫為(XX)1X+D,則D為k*n的非空矩陣。那么這個估計量的期望是 :E(CY)=E(XX)1X+D)(X+)=(XX)1X+D)X+(XX)1X+D)E()0=(XX)1XX+DX=(Ik+DX).(1)(2)(3)(4)所以,為了保證無偏,則必有DX=0.繼續(xù)求方差:V()=V(CY)=CV(Y)C=2CC=2(XX)1X+D)(X(XX)1+D)=2(XX)1XX(XX)1+(XX)1XD+DX(XX)1+DD)=2(XX)1+2(XX)1(DX0)+2DX0(XX)1+2DD=2(XX)1V()+2DD.(5)(6)(7)(8)(9)DD是一個半正定矩陣,V()肯定要比V()大得證。變量選擇與收縮方法為了降低測試誤差(減少函數(shù)的復(fù)雜度),有時候會放棄無偏性而進(jìn)行變量選擇。這里首先就是Ridge OLS(嶺回歸)。還是算一下這個東西好了。嶺回歸就是對估計量另外加一個約束條件,所以很自然的想到拉格朗日乘子法。ridge regression的目標(biāo)函數(shù)為,=argmin(yy)2s.t.2k可以重寫為=argmin(yy)2+(2k)記L=(yy)2+(2k)這樣我們就得到兩個一階條件:L=X(XY)+=0和L=2k=0,所以有:=(XX+I)1XY這里還可以看出,的取值都是對應(yīng)k的。Lasso則是把L2改成L1,已經(jīng)沒有解析解了.至于為什么叫收縮方法,可以將X進(jìn)行奇異值分解,然后可以得出Yridge的方差將變小.我就不寫證明了,感覺這一塊兒講的也不是很透徹。統(tǒng)計學(xué)習(xí)精要(The Elements of Statistical Learning)課堂筆記(五)鑒于我上周寫的筆記(四)讓很多人反映太枯燥、太無聊(全是公式.可是這就是筆記嘛,又不是寫科普文),我努力讓這周的筆記除了公式之外多一點直覺和應(yīng)用層面的點評。其實筆記(一)到(二)中說了很多回歸和分類器的不同了,那么在經(jīng)歷了線性回歸方法之后,就來說說分類器好了。我原來一直覺得回歸和分類器沒有什么本質(zhì)不同的.主要是最常用的分類器logit和probit都是我在學(xué)計量的時候?qū)W的,那個時候老師只是簡單的說,這兩個和OLS都是一致的,只是我們想讓預(yù)測值在01之內(nèi)所以做一下變換。而且我們那個時候也不叫他們分類器,而是叫他們“離散被解釋變量模型”。前幾個月的時候,看data mining的東西,看得暈暈乎乎的,就跑去問精通此類模型的同事MJ,讓他跟我科普了一下午為什么這兩個模型大家更經(jīng)常稱之為分類器.汗顏啊,那個時候我才知道原來machine learning是先分supervised learning and unsupervised learning,然后才是 regression v.s. classification, and clustering.疏通了脈絡(luò)之后,再看The Elements of Statistical Learning這本書,就覺得順暢多了。以前只是零零散散的接觸一個個孤立的模型,沒有找出一個脈絡(luò)串起來過,自然也就不知道分別適用于什么場景。其實我挺想說的是,從econometrics到data mining,遠(yuǎn)遠(yuǎn)沒有想象的那么簡單。數(shù)學(xué)工具上或許很順暢,但是思維上的轉(zhuǎn)變還是需要時間和實踐的。真是為難壞了我這個學(xué)經(jīng)濟(jì)學(xué)出身的孩子(其實話說回來,我好好的不去研究經(jīng)濟(jì)學(xué),好奇什么data mining呀只能聊以一句“殊途同歸”來搪塞自己,對嘛,反正都是doctor of philosophy, 只要是科學(xué),本質(zhì)的思考方式應(yīng)該是相通的)。不過搞清楚之后,還是覺得很好玩的以前是霧里看花,覺得什么都漂亮;現(xiàn)在漸漸的能夠分清楚這些美麗之間的差異了,也算是個小進(jìn)步吧。再有個小廢話.記得上小學(xué)的時候,老師問大家“長大了想做什么呀?”,我們總是會特別有出息的回答“科學(xué)家”。那個時候有門課叫做自然,老師總給我們講各種各樣的發(fā)明,讓我們一度覺得這個世界上的問題都被解決完了,還當(dāng)什么科學(xué)家啊。然后老師就給我們講哥德巴赫猜想,大意是世間還有那么幾個懸而未決的皇冠問題,等待大家長大了去攻克。后來,越讀書越發(fā)現(xiàn),有那么多問題人們是不知道答案的,只是從 ambiguity - uncertainty - possibility - probability - certainty (law)一步步的走下去。有那么多問題,其實都是懸而未決的哲學(xué)問題,等待著聰明的大腦去回答。這也是越讀書越覺得興奮的緣故吧,越來越多的時候老師會被問倒,然后說“不知道”.然后好奇心就又開始勃勃生長.然后又發(fā)現(xiàn)更多的很好玩但沒有答案的問題.周而復(fù)始,有意思的很。-滿足大家的八卦之心之后,筆記開始-線性分類器對應(yīng)原書第四章。先是來一點直覺上的東西:分類器顧名思義,就是把一堆樣本歸到不同的類別中去。那么這類模型的幾何直覺是什么呢?很簡單,空間分割嘛。最直白的,我們有一群人,組成了一個大的群體。然后現(xiàn)在要把大家歸為男女兩類,那么空間自然就是被分割為兩個子空間男和女了。線性分類器是什么呢?分割男和女的時候,可能分割是三個一群,五個一簇的,所以非要畫分割的界限的話,八成是山路十八彎的.我們以前說過,這類的模型問題就是可能復(fù)雜度比較高(比如參數(shù)的個數(shù)較多),導(dǎo)致就算訓(xùn)練誤差小,測試誤差不一定小。所以呢,我們希望這個分割界限是直線的(二維平面下)、或者平面的(三維空間中),或者超平面的(高位空間中),這樣就比較清晰明了的感覺了。線性分類器:logit模型(或稱logistic regression)這里也不完全是按照吳老師上課講的東西了,因為回頭再看這本書會發(fā)現(xiàn)書中還有一些很好玩的直覺很強(qiáng)的東西。錯過不免可惜,一并收納。首先換一下記號我們在前面都用Y代表被解釋變量,從現(xiàn)在開始對于分類問題,我們改用G。logit模型下,考慮最簡單的分為兩類,我們有Pr(G=1|X=x)=exp(X)1+exp(X)Pr(G=2|X=x)=11+exp(X)所以有l(wèi)ogPr(G=1|X=x)Pr(G=2|X=x)=X這樣,分別屬于這兩組之間的比例就可以找到一個線性的邊界了(注:log為單調(diào)變換不影響結(jié)果)。這樣變換的目的其實無非是,保證Pr(G=1|X=x)+Pr(G=2|X=x)=1,而且兩個比例之間存在著一種線性的、或者可以通過單調(diào)變換成為線性的關(guān)系。類似的當(dāng)然是大名鼎鼎的probit模型,思路是類似的。損失函數(shù)顯然線性分類器下,在有很多類的情況中,損失函數(shù)定義為OLS的殘差平方和是沒有多大意義的分類取值只是一個名義量。所以,這里用0-1損失函數(shù):如果G=f(x)=G,那么損失函數(shù)=0;否則,就是沒預(yù)測準(zhǔn),損失函數(shù)=1。寫為數(shù)學(xué)形式,就是損失函數(shù)L定義為:L(G,f(x)=01G=f(x)Gf(x)所以我們的目標(biāo)就是,最小化損失函數(shù)的期望:minE(L)=ExEG|x(L(G,f(x)|x)=1Pr(G|x)(條件期望迭代)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論