版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
畢業(yè)設計(論文)--文獻綜述綜述題目機器學習之邏輯斯蒂回歸專業(yè)信息與計算科學姓名學號指導教師機器學習之邏輯斯蒂回歸摘要:二十一世紀,我們已經(jīng)步入人工智能的時代,所以機器學習,已經(jīng)漸漸深入到我們的日常生活中了,而且起到至關重要的作用,在生活中的許多領域,我們已經(jīng)在使用機器學習給我?guī)淼谋憷?,就像你淘寶購物,淘寶給你的推薦,你最近瀏覽的商品,你在醫(yī)院所留下的數(shù)據(jù),醫(yī)院也會對你的身體健康狀態(tài)的有個數(shù)值哦,本文介紹機器學習,以及邏輯斯蒂回歸模型,學習它們,讓技術更豐富我們的生活。關鍵詞:機器學習,算法,邏輯斯蒂回歸YuanJiankang(Hefei,AnhuiUniversityofArchitectureandArchitecture)Abstract:Inthetwenty-firstcentury,wehaveenteredtheeraofartificialintelligence,somachinelearninghasgraduallypenetratedintoourdailylife,andplayedavitalroleinmanyareasoflife,wehaveUsethemachinetolearntobringmetheconvenience,asyouTaobaoshopping,Taobaotoyourrecommendation,yourecentlybrowsethegoods,youleftinthehospitaldata,thehospitalwillbeonyourhealthstatusofavalueOh,thisarticledescribesmachinelearning,aswellastheLogisticregressionmodel,learningthem,makingtechnologyricherourlives.Keywords:machinelearning,algorithm,logicalregression一 機器學習1.一個故事說明機器學習定義這個例子來源于我真實的生活經(jīng)驗,我在思考這個問題的時候突然發(fā)現(xiàn)它的過程可以被擴充化為一個完整的機器學習的過程,因此我決定使用這個例子作為所有介紹的開始。這個故事稱為“等人問題”【1】。我相信大家都有跟別人相約,然后等人的經(jīng)歷?,F(xiàn)實中不是每個人都那么守時的,于是當你碰到一些愛遲到的人,你的時間不可避免的要浪費。我就碰到過這樣的一個例子。對我的一個朋友小Y而言,他就不是那么守時,最常見的表現(xiàn)是他經(jīng)常遲到。當有一次我跟他約好3點鐘在某個麥當勞見面時,在我出門的那一刻我突然想到一個問題:我現(xiàn)在出發(fā)合適么?我會不會又到了地點后,花上30分鐘去等他?我決定采取一個策略解決這個問題。要想解決這個問題,有好幾種方法。第一種方法是采用知識:我搜尋能夠解決這個問題的知識。但很遺憾,沒有人會把如何等人這個問題作為知識傳授,因此我不可能找到已有的知識能夠解決這個問題。第二種方法是問他人:我去詢問他人獲得解決這個問題的能力。但是同樣的,這個問題沒有人能夠解答,因為可能沒人碰上跟我一樣的情況。第三種方法是準則法:我問自己的內心,我有否設立過什么準則去面對這個問題?例如,無論別人如何,我都會守時到達。但我不是個死板的人,我沒有設立過這樣的規(guī)則。事實上,我相信有種方法比以上三種都合適。我把過往跟小Y相約的經(jīng)歷在腦海中重現(xiàn)一下,看看跟他相約的次數(shù)中,遲到占了多大的比例。而我利用這來預測他這次遲到的可能性。如果這個值超出了我心里的某個界限,那我選擇等一會再出發(fā)。假設我跟小Y約過5次,他遲到的次數(shù)是1次,那么他按時到的比例為80%,我心中的閾值為70%,我認為這次小Y應該不會遲到,因此我按時出門。如果小Y在5次遲到的次數(shù)中占了4次,也就是他按時到達的比例為20%,由于這個值低于我的閾值,因此我選擇推遲出門的時間。這個方法從它的利用層面來看,又稱為經(jīng)驗法。在經(jīng)驗法的思考過程中,我事實上利用了以往所有相約的數(shù)據(jù)。因此也可以稱之為依據(jù)數(shù)據(jù)做的判斷【2】。2.機器學習的定義從廣義上來說,機器學習是一種能夠賦予機器學習的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用數(shù)據(jù),訓練出模型,然后使用模型預測的一種方法。3.機器學習的范圍其實,機器學習跟模式識別,統(tǒng)計學習,數(shù)據(jù)挖掘,計算機視覺,語音識別,自然語言處理等領域有著很深的聯(lián)系。從范圍上來說,機器學習跟模式識別,統(tǒng)計學習,數(shù)據(jù)挖掘是類似的,同時,機器學習與其他領域的處理技術的結合,形成了計算機視覺、語音識別、自然語言處理等交叉學科。因此,一般說數(shù)據(jù)挖掘時,可以等同于說機器學習。同時,我們平常所說的機器學習應用,應該是通用的,不僅僅局限在結構化數(shù)據(jù),還有圖像,音頻等應用【3】。4.算法4.1回歸算法在大部分機器學習課程中,回歸算法都是介紹的第一個算法。原因有兩個:一.回歸算法比較簡單,介紹它可以讓人平滑地從統(tǒng)計學遷移到機器學習中。二.回歸算法是后面若干強大算法的基石,如果不理解回歸算法,無法學習那些強大的算法?;貧w算法有兩個重要的子類:即線性回歸和邏輯回歸【4】。線性回歸就是我們前面說過的房價求解問題。如何擬合出一條直線最佳匹配我所有的數(shù)據(jù)?一般使用“最小二乘法”來求解?!白钚《朔ā钡乃枷胧沁@樣的,假設我們擬合出的直線代表數(shù)據(jù)的真實值,而觀測到的數(shù)據(jù)代表擁有誤差的值。為了盡可能減小誤差的影響,需要求解一條直線使所有誤差的平方和最小。最小二乘法將最優(yōu)問題轉化為求函數(shù)極值問題。函數(shù)極值在數(shù)學上我們一般會采用求導數(shù)為0的方法。但這種做法并不適合計算機,可能求解不出來,也可能計算量太大。
邏輯回歸是一種與線性回歸非常類似的算法,但是,從本質上講,線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數(shù)值問題,也就是最后預測出的結果是數(shù)字,例如房價。而邏輯回歸屬于分類算法,也就是說,邏輯回歸預測結果是離散的分類,例如判斷這封郵件是否是垃圾郵件,以及用戶是否會點擊此廣告等等。實現(xiàn)方面的話,邏輯回歸只是對對線性回歸的計算結果加上了一個Sigmoid函數(shù),將數(shù)值結果轉化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來說并不直觀,你只需要理解對數(shù)值越大,函數(shù)越逼近1,數(shù)值越小,函數(shù)越逼近0),接著我們根據(jù)這個概率可以做預測,例如概率大于0.5,則這封郵件就是垃圾郵件,或者腫瘤是否是惡性的等等。4.2神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡(也稱之為人工神經(jīng)網(wǎng)絡,ANN)算法是80年代機器學習界非常流行的算法,不過在90年代中途衰落。現(xiàn)在,攜著“深度學習”之勢,神經(jīng)網(wǎng)絡重裝歸來,重新成為最強大的機器學習算法之一。讓我們看一個簡單的神經(jīng)網(wǎng)絡的邏輯\o"大型網(wǎng)站架構知識庫"\t"/baidu_24256693/article/details/_blank"架構。在這個網(wǎng)絡中,分成輸入層,隱藏層,和輸出層。輸入層負責接收信號,隱藏層負責對數(shù)據(jù)的分解與處理,最后的結果被整合到輸出層。每層中的一個圓代表一個處理單元,可以認為是模擬了一個神經(jīng)元,若干個處理單元組成了一個層,若干個層再組成了一個網(wǎng)絡,也就是"神經(jīng)網(wǎng)絡"[5]。在神經(jīng)網(wǎng)絡中,每個處理單元事實上就是一個邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預測結果作為輸出傳輸?shù)较乱粋€層次。通過這樣的過程,神經(jīng)網(wǎng)絡可以完成非常復雜的非線性分類。進入90年代,神經(jīng)網(wǎng)絡的發(fā)展進入了一個瓶頸期。其主要原因是盡管有BP算法的加速,神經(jīng)網(wǎng)絡的訓練過程仍然很困難。因此90年代后期支持向量機(SVM)算法取代了神經(jīng)網(wǎng)絡的地位。4.3SVM(支持向量機)支持向量機算法是誕生于統(tǒng)計學習界,同時在機器學習界大放光彩的經(jīng)典算法。支持向量機算法從某種意義上來說是邏輯回歸算法的強化:通過給予邏輯回歸算法更嚴格的優(yōu)化條件,支持向量機算法可以獲得比邏輯回歸更好的分類界線。但是如果沒有某類函數(shù)技術,則支持向量機算法最多算是一種更好的線性分類技術。但是,通過跟高斯“核”的結合,支持向量機可以表達出非常復雜的分類界線,從而達成很好的的分類效果。“核”事實上就是一種特殊的函數(shù),最典型的特征就是可以將低維的空間映射到高維的空間[6]。4.4聚類算法前面的算法中的一個顯著特征就是我的訓練數(shù)據(jù)中包含了標簽,訓練出的模型可以對其他未知數(shù)據(jù)預測標簽。在下面的算法中,訓練數(shù)據(jù)都是不含標簽的,而算法的目的則是通過訓練,推測出這些數(shù)據(jù)的標簽。這類算法有一個統(tǒng)稱,即無監(jiān)督算法(前面有標簽的數(shù)據(jù)的算法則是有監(jiān)督算法)。無監(jiān)督算法中最典型的代表就是聚類算法。4.5降維算法降維算法也是一種無監(jiān)督學習算法,其主要特征是將數(shù)據(jù)從高維降低到低維層次。在這里,維度其實表示的是數(shù)據(jù)的特征量的大小,例如,房價包含房子的長、寬、面積與房間數(shù)量四個特征,也就是維度為4維的數(shù)據(jù)??梢钥闯鰜?,長與寬事實上與面積表示的信息重疊了,例如面積=長×寬。通過降維算法我們就可以去除冗余信息,將特征減少為面積與房間數(shù)量兩個特征,即從4維的數(shù)據(jù)壓縮到2維。于是我們將數(shù)據(jù)從高維降低到低維,不僅利于表示,同時在計算上也能帶來加速。4.6推薦算法推薦算法是目前業(yè)界非?;鸬囊环N算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運用。推薦算法的主要特征就是可以自動向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益[7]。
二.邏輯斯蒂回歸模型1.簡介Logit模型(Logitmodel,也譯作“評定模型”,“分類評定模型”,又作Logisticregression,“邏輯回歸”)是離散選擇法模型之一,屬于多重變量分析范疇,是社會學、生物統(tǒng)計學、臨床、數(shù)量心理學、計量經(jīng)濟學、市場營銷等統(tǒng)計實證分析的常用方法。邏輯分布(Logisticdistribution)公式P(Y=1│X=x)=exp(x'β)/(1+exp(x'β))其中參數(shù)β常用極大似然估計[8]。Logit模型是最早的離散選擇模型,也是目前應用最廣的模型。Logit模型是Luce(1959)根據(jù)IIA特性首次導出的;Marschark(1960)證明了Logit模型與最大效用理論的一致性;Marley(1965)研究了模型的形式和效用非確定項的分布之間的關系,證明了極值分布可以推導出Logit形式的模型;McFadden(1974)反過來證明了具有Logit形式的模型效用非確定項一定服從極值分布。此后Logit模型在心理學、社會學、經(jīng)濟學及交通領域得到了廣泛的應用,并衍生發(fā)展出了其他離散選擇模型,形成了完整的離散選擇模型體系,如Probit模型、NL模型(NestLogitmodel)、MixedLogit模型等。模型假設個人n對選擇枝j的效用由效用確定項和隨機項兩部分構成:Logit模型的應用廣泛性的原因主要是因為其概率表達式的顯性特點,模型的求解速度快,應用方便。當模型選擇集沒有發(fā)生變化,而僅僅是當各變量的水平發(fā)生變化時(如出行時間發(fā)生變化),可以方便的求解各選擇枝在新環(huán)境下的各選擇枝的被選概率。根據(jù)Logit模型的IIA特性,選擇枝的減少或者增加不影響其他各選擇之間被選概率比值的大小,因此,可以直接將需要去掉的選擇枝從模型中去掉,也可將新加入的選擇枝添加到模型中直接用于預測[9]。Logit模型這種應用的方便性是其他模型所不具有的,也是模型被廣泛應用的主原因之一。2.相比其他模型的優(yōu)點
(1)模型考察了對兩種貨幣危機定義情況下發(fā)生貨幣危機的可能性,即利率調整引起的匯率大幅度貶值和貨幣的貶值幅度超過了以往的水平的情形,而以往的模型只考慮一種情況。(2)該模型不僅可以在樣本內進行預測,還可以對樣本外的數(shù)據(jù)進行預測。(3)模型可以對預測的結果進行比較和檢驗,克服了以往模型只能解釋貨幣危機的局限。3.相比其他模型的缺點
雖然Logit模型能夠在一定程度上克服模型事后預測事前事件的缺陷,綜合了FR模型中FR概率分析法和KLR模型中信號分析法的優(yōu)點,但是,它只是在利率、匯率等幾個主要金融資產(chǎn)或經(jīng)濟指標的基礎上預警投機沖擊性貨幣危機,與一般貨幣危機預警還有所差異。所以僅用幾個指標來定義貨幣危機從而判斷發(fā)生貨幣危機的概率就會存在一定問題,外債、進出口、外匯儲備、不良貸款等因素對貨幣危機的影響同樣非常重要。
三.總結機器學習是目前業(yè)界最為Amazing與火熱的一項技術,從網(wǎng)上的每一次淘寶的購買東西,到自動駕駛汽車技術,以及網(wǎng)絡攻擊抵御系統(tǒng)等等,都有機器學習的因子在內,同時機器學習也是最有可能使人類完成AIdream的一項技術,各種人工智能目前的應用,如微軟小冰聊天機器人,到計算機視覺技術的進步,都有機器學習努力的成分。作為一名當代的計算機領域的開發(fā)或管理人員,以及身處這個世界,使用者IT技術帶來便利的人們,最好都應該了解一些機器學習的相關知識與概念,因為這可以幫你更好的理解為你帶來莫大便利技術的背后原理,以及讓你更好的理解
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河北省唐山市灤南縣2024-2025學年七年級上學期10月期中生物試題(無答案)
- 2024年模塑絕緣制品項目資金需求報告代可行性研究報告
- 贛南師范大學《設計制圖》2022-2023學年第一學期期末試卷
- 阜陽師范大學《統(tǒng)計學》2021-2022學年第一學期期末試卷
- 阜陽師范大學《國際法》2023-2024學年第一學期期末試卷
- 蘇教版小學六年級科學下冊導學案
- 內分泌科實習生出科考核試題及答案
- 福建師范大學《信號與系統(tǒng)》2021-2022學年第一學期期末試卷
- 福建師范大學《廣播節(jié)目播音主持》2022-2023學年第一學期期末試卷
- 盲板抽堵作業(yè)安全管理分工表
- 部編版語文二年級上冊第五單元【集體備課】
- 對聯(lián)知識及練習題有答案
- 重度殘疾兒童送教上門
- 膀胱癌綜合治療新進展
- 重癥患者腸內營養(yǎng)安全輸注
- 物業(yè)安全檢查表
- 疏浚與吹填技術
- 胸腔積液病例討論-課件
- 井岡山斗爭和井岡山精神教學課件
- 高中英語-選修二Unit 3 Times Change教學課件設計
- 大學校園危機氛圍評估與分析
評論
0/150
提交評論