版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
畢業(yè)設(shè)計(論文)--文獻翻譯原文題目UseofLinearRegressioninMachineLearningforRanking譯文題目在機器學(xué)習(xí)中使用線性回歸進行排名專業(yè)信息與計算科學(xué)姓名學(xué)號指導(dǎo)教師摘要機器學(xué)習(xí)今天是AI的增長領(lǐng)域。我們討論在本文中使用被稱為回歸學(xué)習(xí)的監(jiān)督學(xué)習(xí)算法進行排名?;貧w學(xué)習(xí)被用作預(yù)測模型。因變量的值通過基于獨立變量值的回歸模型預(yù)測。通過回歸學(xué)習(xí)如果經(jīng)驗E后,程序提高其績效P,那么程序據(jù)說正在進行回歸學(xué)習(xí)。我們選擇使用線性回歸進行排名,并通過從知識中選擇最佳排名參數(shù)來進一步討論秩回歸模型構(gòu)建的方法,并通過在模型構(gòu)建期間執(zhí)行回歸分析來進一步確認其選擇。舉例說明。結(jié)果分析,我們討論了綜合回歸和排名方法,如何更好地利用線性回歸進行排名目的。我們總結(jié)并提出未來工作排名和回歸。關(guān)鍵詞:回歸學(xué)習(xí);排名;模型第一章引言本文介紹了機器學(xué)習(xí)中的回歸學(xué)習(xí)在排名中的應(yīng)用。機器學(xué)習(xí)是一個日益增長的領(lǐng)域,AI提供回歸學(xué)習(xí)作為監(jiān)督學(xué)習(xí)?;貧w模型可以是單個和多個變量單變量回歸Y=a+b*X(1)Y=DependentVariableX=IndependentVariableMultipleVariablesRegressionY=a+b1*X1+b2*X2+…bn*Xn(2)使用那里排名模型我們討論Rank模型建立的各種方法。讓我們首先了解如何用最佳參數(shù)和系數(shù)構(gòu)建回歸模型。如何找到回歸系數(shù)?1.特征小于10000時的正態(tài)方程。W=(XT*X)-1*XT*Y2.所有情況下的漸進下降。梯度下降算法重復(fù)直到收斂[5]{Forj=1ton{Tempj:=Mj+α*1/N∑Ni=1(Y(i)-H(M,X,i))*Xj}CorrectSimultaneousUpdateForj=1ton{Mj=Tempj}}[5]第二章LITERATURE調(diào)查A.所有可能的子集回歸選擇包含在考慮所有可能的獨立變量組合的回歸模型中的變量的方法。例如。4個變量。該技術(shù)將用1,2,3,4個變量估計所有可能的回歸模型。然后,該技術(shù)將以最佳預(yù)測精度識別模型。B.向后消除選擇包含在模型中的變量的方法,通過在模型中包含所有變量,然后消除那些對預(yù)測沒有顯著貢獻的變量。C.沒有獨立變量的預(yù)測因變量值的平均值給出了無獨立變量的預(yù)測值。D.由于更多的功能,適合圖1:過度擬合,因為生長的特點E.正規(guī)化,避免過度擬合L2Regularization:E(w)=1/2*∑n-0m-1(Yn-H(Xn,w))2+lambda/2*||w||2L1Regularization:E(w)=1/2*∑n-0m-1(Yn-H(Xn,w))2+lambda*|w|1L0Regularization:E(w)=1/2*∑n-0m-1(Yn-H(Xn,w))2+lambda∑n-0m-1del(w≠0)L0-regularizationisfeatureselectionforlinearmodels.L1-andL2-regularizationsapproximatefeatureselectionandregularizethefunction.L2RegularizedNormalEquation:W=(XT*X+lambda*I)-1XT*Y–[11]F.相關(guān)系數(shù)的作用1)決定系數(shù)R2測量變量的方差的比例,其平均值,這是解釋的指標(biāo)或預(yù)測變量,系數(shù)可以在0和1之間變化?;貧w模型是適當(dāng)?shù)墓烙嫼蛻?yīng)用更高的R2值,回歸方程的解釋力就越大,從而更好地預(yù)測因變量平方和回歸平方和2)調(diào)整后的測定系數(shù)(調(diào)整后R2)修正系數(shù)的測量,考慮到自變量包括在回歸方程和樣本大小的數(shù)目。雖然獨立的加入單獨的變量都會使測定上升系數(shù),調(diào)整后的決定系數(shù)可能如果添加的獨立變量沒有解釋力或者不落自由度變得太小。這個統(tǒng)計是相當(dāng)有用的方程之間的比較與不同數(shù)量的獨立變量,不同的樣本量。G自由度(DF)從觀測值總數(shù)減去估計參數(shù)數(shù)計算出的值。這些參數(shù)的解釋數(shù)據(jù)的限制,一旦做出決定,他們決定從這人口h數(shù)據(jù)被假定已繪制。如果自由度小,所得到的預(yù)測可能是不太廣義的,因為所有的,但一些意見納入預(yù)測。反之,大自由度值i指出預(yù)測是相當(dāng)穩(wěn)健,作為受訪者的總體樣本的代表性。H. P-value單獨使用P值1)通常研究者在不使用臨界值的情況下確定意義。下面的圖表是用來確定一個給定的P-統(tǒng)計意義的標(biāo)準(zhǔn)的一個例子是E.小于反對零假設(shè)的有力證據(jù),0.01很顯著0.01to0.05對零假設(shè)的一些證據(jù)大于證據(jù)不足0.05假設(shè)表1:給定p值的統(tǒng)計意義贊成這種方法的統(tǒng)計學(xué)家認為,由于沒有明確的意義水平,研究人員的負擔(dān)決定意義。I.通用回歸模型建立過程對于建立任何回歸模型,我們遵循的程序選擇最佳的參數(shù)模型。要建立回歸模型,需要對模型進行回歸參數(shù)的選擇,需要通過選擇自變量和自變量來建立模型。這個過程如下:我們選擇輸出參數(shù)是適合我們的目的的知識1.我們將選擇輸入?yún)?shù)的知識。我們通過知道輸出參數(shù)與輸入?yún)?shù)之間的關(guān)系來選擇輸入?yún)?shù)。2.回歸分析確定模型最佳參數(shù)3.我們從每個選定的參數(shù)建立單變量回歸模型。利用X、Y數(shù)據(jù)進行模型訓(xùn)練。我們注意到他們的P和R平方,調(diào)整后的平方。2.我們可以直接向后淘汰或所有可能的子集回歸得到最佳的模型,或我們建立多元變量回歸模型,從選定的變量在步驟3a。做培訓(xùn)檢查模型中的所有變量的值。我們也注意到過,即相關(guān)系數(shù)調(diào)整過。在這里,我們選擇從其P值<意義否則刪除變量模型的P值>意義模型的變量。如果某些變量下降然后我們做我們的模型的訓(xùn)練和看過的就是太多或少。如果過不降多少我們的最終模型的聲明。否則我們可能會瘦K的一些其他參數(shù),并考慮包括他們后,他們的評價討論1,2和3。如果我們有很好的變量在我們的模型為我們的模型所需的足夠的解釋力。然后,我們宣布它作為我們的最終回歸模型。注:1.如果P值=顯著-變量將產(chǎn)生顯著的回歸估計,否則估計將是錯誤的。2.如果相關(guān)說明因變量變化的模型為獨立變量目前的變化。.CorrelationSuggested%ChangeindependentCoefficientvariablebychangeinindependentR2variable/spresentinModelbyR20.0to0.2Veryweak0.2to0.4Weak0.4to0.7Medium0.7to0.9Strong0.9to1.0Verystrong表2:相關(guān)系數(shù)R2意義J.回歸建模線性回歸學(xué)習(xí)時使用的排名,我們需要考慮哪些參數(shù)排名是依賴。排名可能取決于單一或多個參數(shù)稱為排名參數(shù)。S哦,最初我們有兩個回歸模型如下:秩依單變量秩=A+B*RP模型-我RP=排名參數(shù)等級取決于多個變量等級=A+B1*RP1+B2×RP2+BN×RPN模式二RP1、RP2,RPN是排名參數(shù)模型這兩個模型將回歸模型來訓(xùn)練數(shù)據(jù)—等級取決于單變量訓(xùn)練<排名,RP>模型–我等級取決于多個變量梯度下降是用來減少錯誤,而訓(xùn)練得到最佳回歸系數(shù)。如果數(shù)據(jù)中我們使用批處理梯度如果數(shù)據(jù)量非常大,我們使用隨機梯度耳鼻喉科下降。排序模型的參數(shù)選擇最佳排名的直覺或知識進一步的模型可以評估使用回歸分析,根據(jù)回歸了訓(xùn)練回歸模型可選擇最終最佳回歸參數(shù)。這種訓(xùn)練將有助于獲得最佳的回歸系數(shù)模型的均方誤差最小化使用梯度下降算法。因此,我們的模型是完整的排名與培訓(xùn)?;貧w模型可以是完美的回歸模型,如果平均平方誤差為零。因此,用完美回歸模型對秩的預(yù)測是完美的。但是,這并不總是正確的,因為通常均方誤差不會為零。該模型可以是近乎完美的模型或錯誤。這是線性回歸的缺點時,用于排名。回歸中的誤差將導(dǎo)致在等級產(chǎn)生誤差。雖然誤差最小化,這樣的模型并不總是預(yù)測正確的行列。現(xiàn)在還有一件事,即當(dāng)我們需要預(yù)測排名,我們有模型,但沒有直接的排名參數(shù)的價值是我們。在這種情況下,我們需要構(gòu)建另一個回歸預(yù)測排名參數(shù)選擇最佳的獨立變量的具體排名參數(shù)取決于模型。因此,我們可以得到排名參數(shù)的預(yù)測值從t他的模型和提交的結(jié)果在我們的排名模型I或II。因此,排名將預(yù)測模型I或II。第三章相關(guān)的工作A.回歸參數(shù)選擇的探討讓我們討論任何回歸模型的最佳回歸參數(shù)選擇過程。建立回歸模型的參數(shù)選擇是直觀的,知識淵博的任務(wù),其次是培訓(xùn)和回歸分析,以確定最佳的參數(shù)回歸。因此,參數(shù)選擇最初進行直觀和獨立變量依賴變量的依賴知識。和變量被選擇為回歸我們認為將有助于決定因變量的價值。第一步-我們建立單一回歸模型與選定的變量。我們做這些模型的訓(xùn)練和觀察值和調(diào)整過的。如果我們的選擇信心是說90%我們的意義將以100-90=10%。所以,我們選擇其P值小于10%,因為我們估計將滿足90%置信度準(zhǔn)則的變量。我們將如果選擇特定的變量進行回歸,則90%確定結(jié)果。否則,如果變量的值大于10%的估計是錯誤的,所以我們拒絕變E.第二步,我們建立多元回歸模型,如果選擇的變量,從步驟I是一個以上。我們觀察到的p值和調(diào)整變量R平方值。首先我們拒絕變異變量的值遠遠大于所需的意義。我們重新回歸訓(xùn)練和觀察值的變化和調(diào)整過的。我們拒絕該變量的值s大于所要求的意義。我們重新回歸,我們觀察到的p值和調(diào)整過的。現(xiàn)在我們需要看到調(diào)整過的很嚴重因為如果調(diào)整過的是倒下了太多的干擾去除略大于所需的意義,我們可以認為加入他們的回歸提高調(diào)整過提供ST后的變量標(biāo)準(zhǔn)誤差不起增加變量太多,P不要走遠比要求的意義。因此,我們完成我們選擇的最佳變量回歸。B.關(guān)于排序參數(shù)選擇的討論我們需要通過直覺和知識來選擇最佳的排名參數(shù),并進行回歸訓(xùn)練和回歸結(jié)果分析上面解釋,以保持最佳的排名參數(shù),我們的排名通過回歸模型。此外,我們可以建立回歸模型預(yù)測的排名參數(shù)的回歸。我們需要選擇最佳的獨立變量的直覺和知識的排名表看。我們做了回歸訓(xùn)練和結(jié)果分析上面解釋,并選擇最佳的回歸參數(shù),其中特定的排名參數(shù)取決于。我們建立回歸模型每個排序參數(shù)。我們現(xiàn)在將裝備使用線性回歸的任何東西,所以排名。我們應(yīng)該記住,我們需要使用的方法來解釋任何排名在現(xiàn)實生活中的例子。我們將現(xiàn)在用回歸法討論排序的例子,并做結(jié)果分析。第四章使用回歸排名A.排名取決于單變量排名取決于單變量秩=A+B*RP模型-我例子:等級=a+b*CGPA(1)在這里,分數(shù)排名僅參數(shù)即RP現(xiàn)在我們也需要選擇最佳的回歸參數(shù)預(yù)測分數(shù)為分數(shù)建立預(yù)測模型。直觀或知識我們可以認為分數(shù)取決于這些參數(shù)分數(shù)=A+B1*GateScore*健康++B2B3B4*+*出勤率avgu1+*+*avgendsemavgu2B6,B5(2)得分、衛(wèi)生、考勤、avgu1,avgu2,AvgENDSEM凡此種種,不一而足。我們建立了單回歸模型與每個單獨的參數(shù)選擇,并選擇這些參數(shù)其P值小于0.05即信心>=95%正確估計和記R2的所有參數(shù)。然后,我們建立多元回歸模型的所有選定的變量產(chǎn)生顯著的估計,并遵循落后淘汰方法。我們也可以直接使用淘汰落后沒有建筑每個參數(shù)的NG的單變量模型是可取的如果參數(shù)較少建立單變量模型和了解每個參數(shù)R2和P值的貢獻。這將有助于決定多元回歸模型中變量的包含。我們也可以使用所有可能的子集的方法來獲得最佳的模型,但當(dāng)功能更落后淘汰是首選。后面的任何一個落后的消除或所有子集的方法,我們建立M模型預(yù)測分數(shù)。應(yīng)用模型建立過程中,我們得到以下model…分數(shù)=A+*+*avgendsemavgu2B1B2(3)B.排名取決于多個變量等級=A+B1*RP1+B2×RP2++BN×RPN模型–II的例子:通過排序選擇部門的候選人。排名取決于許多排名參數(shù),如教育學(xué)校的水平1-iit2-nit三態(tài)政府4-privatea5-privateb度%>>=1=90–,80-30,型號:>=,>=60-4,<60-5課外國際國家狀態(tài)12345區(qū)聯(lián)校校際IIT/nit-2得分從100門分了100選擇排序參數(shù)的最終模型,等級=α+B1*eduschoollv+B2*度%+運動+B3B4*GateScore(1)圖1:加權(quán)排序模型排名取決于多個變量Rank=a+b1*w1*反相1+b2*2*2w反相!..。+BN×WN*RPN模型–三例:候選人的排名在部門分配權(quán)重排名參數(shù).排名取決于許多排名參數(shù),如教育學(xué)校的水平1-IIT2-NIT3-StateGOV4-PrivateA5-PrivateBDegree%>=90–1,>=80-2,>=75-3,>=60-4,<60-5ExtracurricularInternational-1National-2State-3District-4Interschool-5InterschoolIIT/NIT-2GateScore-outof100GatePercentile-outof100Finalmodelofselectedrankingparameters,Rank=alpha+b1*w1*EduSchoolLv+b2*w2*Degree%+b3*w3*sports+b4*w4*GateScore(1)C.回歸誤差影響排名回歸誤差影響排名,所以結(jié)合排名和回歸的方法來找到排名產(chǎn)生更好的結(jié)果。D.監(jiān)督回歸:這個總損失L(W,D)是由:L(Q,D)=/-D*∑((x,y,q)∈D)l(y,f(w,x))在這里,L(Y,y)是一個損失函數(shù)在一個單一的例子,定義在真正的目標(biāo)值y和預(yù)測值y,和F(W,x)返回的預(yù)測值y使用W表示的模型。也就是說,我們尋求一個線性模型表示的權(quán)重向量W,既最大限度地減少W的訓(xùn)練數(shù)據(jù)D的損失,也具有低模型的復(fù)雜性,所表示的權(quán)重的平方范數(shù)矢量.參數(shù)lambda控制正則化的量,調(diào)整這個參數(shù)交易(可能沖突)的目標(biāo),找到一個模型,很簡單,找到一個模型T帽子符合數(shù)據(jù)很少損失。E.監(jiān)督排序:有監(jiān)督的排序方法的目標(biāo)是學(xué)習(xí)一個模型,即在一組前所未見的數(shù)據(jù)損失小,采用預(yù)測函數(shù)f(w,x)為每一個以前看不到的特征向量R在集合中,相對于基于秩的損失函數(shù)。學(xué)習(xí)排名的一個簡單的和成功的方法是成對的方法,采用RankSVM。在這種成對的方法,訓(xùn)練樣本d的原始分布擴展到一組P候選對,和一組成對示例向量的學(xué)習(xí)所得。正式候選人對P暗示的固定數(shù)據(jù)集D組實例對的集合(一個,哎,QA),(B,Yb,QB)從D在亞6=Yb和QA=QB所有例子。當(dāng)亞鐿,然后優(yōu)于B(或等價地,排名優(yōu)于B)。一般固定D,|P|是O(|D|2),但分片查詢標(biāo)識符可以導(dǎo)致|P|€|D|2。與P定義,我們發(fā)現(xiàn)W優(yōu)化成對目標(biāo)函數(shù):在這里,損失函數(shù)L(W,P)被定義成對差向量P:L(W,P)=1/|P|∑((A,哎,QA),(B,Yb,QB))∈P)L(T(雅?Yb),F(xiàn)(W,一個?B))的變換函數(shù)T(Y)變換的差異的標(biāo)簽,并實例化不同的不同的損失函數(shù)。標(biāo)準(zhǔn)損失函數(shù)L(···)適用于這些成對差分向量,給出適當(dāng)?shù)淖儞QT(·)。平方損失:平方損失為一個單一的預(yù)測值Y′與真正的標(biāo)簽相比是由L(Y,Y′)=(Y?Y′)2。這個損失函數(shù)是凸的。關(guān)聯(lián)變換函數(shù)是恒等函數(shù)t(y)=y物流損失:Y€[0物流損失函數(shù),1]和Y′€[0,1]是L(Y,Y′)=yy′+(1?Y)日志(1?Y′)。這個損失函數(shù)是凸的。相關(guān)的預(yù)測函數(shù)是f(x)=w,一/(1+e?<w,x>).F.結(jié)合秩回歸CRR模型創(chuàng)建一個優(yōu)化問題的回歸損失L(W,D)和成對排名損失升(鎢,磷)。綜合CRR優(yōu)化問題:Minw€Rmα*L(Q,D)+(1α?)L(Q,P)+lambda/2*||W||22(3)在這里,參數(shù)α-歐元[0,1]權(quán)衡之間優(yōu)化回歸損失和優(yōu)化成對損失。請注意,設(shè)置α=1恢復(fù)標(biāo)準(zhǔn)的回歸問題,并設(shè)置α=0恢復(fù)t兩兩排序問題。設(shè)置α的中間值迫使優(yōu)化考慮回歸和排名損失條款..我們發(fā)現(xiàn),CRR不特定的過度敏感值A(chǔ)lpha.算法1結(jié)合回歸和排名給出:權(quán)衡參數(shù)α,正則化參數(shù)λ,訓(xùn)練數(shù)據(jù)d,迭代t。w0←anyinitialvaluesfori=1totdopickzuniformlyatrandomfrom[0,1]ifz<αthen(x,y,q)←RandomExample(D)else((a,ya,q),(b,yb,q))←RandomCandidatePair(P)x←(a?b)y←t(ya?yb)endifni←1/lambdawi←StochasticG
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度車展場地租賃與媒體合作合同3篇
- 2025年度農(nóng)產(chǎn)品出口質(zhì)量保障合同3篇
- 2025年度個人環(huán)保項目貸款合同(含環(huán)保指標(biāo)達標(biāo))4篇
- 二零二五年度承包工地食堂員工心理健康關(guān)愛合同3篇
- 汕尾2025年廣東汕尾陸河縣第一批城鎮(zhèn)公益性崗位招聘筆試歷年參考題庫附帶答案詳解
- 數(shù)字化時代的學(xué)生管理與德育工作變革
- 二零二五年度倉儲設(shè)施租賃與運輸服務(wù)合同3篇
- 普洱2024年云南普洱市科學(xué)技術(shù)局城鎮(zhèn)公益性崗位工作人員招聘筆試歷年參考題庫附帶答案詳解
- 昭通2025年云南昭通巧家縣人力資源和社會保障局零星選調(diào)工作人員筆試歷年參考題庫附帶答案詳解
- 社交媒體時代孩子的行為模式與心理變化
- JT-T-496-2018公路地下通信管道高密度聚乙烯硅芯塑料管
- 人員密集場所消防安全管理培訓(xùn)
- 《聚焦客戶創(chuàng)造價值》課件
- PTW-UNIDOS-E-放射劑量儀中文說明書
- JCT587-2012 玻璃纖維纏繞增強熱固性樹脂耐腐蝕立式貯罐
- 保險學(xué)(第五版)課件全套 魏華林 第0-18章 緒論、風(fēng)險與保險- 保險市場監(jiān)管、附章:社會保險
- 典范英語2b課文電子書
- 員工信息登記表(標(biāo)準(zhǔn)版)
- 17~18世紀意大利歌劇探析
- 春節(jié)工地停工復(fù)工計劃安排( 共10篇)
- 何以中國:公元前2000年的中原圖景
評論
0/150
提交評論