探究LTR各方法的優(yōu)劣性

上傳人：l*** IP屬地：天津上傳時間：2022-07-26 格式：DOCX 頁數(shù)：5 大小：12.72KB 積分：6 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、探究LTR （學(xué)習(xí)排序）各方法的優(yōu)劣性班級 12052311學(xué)號 12051238姓名XX2015.05.30前言隨著互聯(lián)網(wǎng)的快速發(fā)展，大數(shù)據(jù)時代的來臨，如何對數(shù)據(jù)進行高效的分類和檢索成為了一個重要的研究課題。現(xiàn)如今，我們網(wǎng)上在尋找資料的時候，一定會使用各式各樣的搜索引擎。一個好的搜索引擎，能夠讓用戶很方便快捷的找到需要的答案。那么，影響搜索引擎搜索速度和準(zhǔn)確度的關(guān)鍵點在哪呢？我們都知道, 搜索引擎的工作原理：先由網(wǎng)頁爬蟲抓取到足夠多的網(wǎng)頁；再處理這些網(wǎng)頁，例如，提取關(guān)鍵字，建立索引庫和索引等；然后是根據(jù)用戶輸入的查詢條件，在索引庫中快速的檢出文檔；最后是最關(guān)鍵的一步，搜索引擎中的評

2、分函數(shù)(ranking function)會對每一個檢出的文檔進行打分，然后根據(jù)打分的結(jié)果，對這些文檔進行排序，最后呈現(xiàn)在用戶面前的，就是一個和查詢條件的相關(guān)性從高到底排列的查詢結(jié)果。在最后一步中，排序的結(jié)果嚴(yán)重影響著用戶的查詢體驗。我們都使用過搜索引擎，而且都會有一個習(xí)慣，對于搜索引擎返回的幾十頁數(shù)據(jù)，我們只會點開前兒頁的搜索結(jié)果，而往往是這前兒頁的結(jié)果，凡乎完全決定著一個搜索引擎的好壞。在搜索引擎的演變過程中，出現(xiàn)過很多排序方法，例如傳統(tǒng)的人工打分排序，現(xiàn)在的Pointwise單文檔方法，Pairwise文檔對方法，Listwise文檔列表方法。而在這些方法中，Listwis

3、e依靠它的高性能，成為了現(xiàn)代搜索引擎領(lǐng)域研究的主流的排序方法。現(xiàn)如今，人們還在不斷尋找更好的模型和文檔評價標(biāo)準(zhǔn)，來進一步提高Listwise方法的排序效率。那么到底是什么原因讓Listwise方法和較于其他方法有如此高的先進性，以及該方法現(xiàn)在的瓶頸有哪些，下面，我便開始探充。主題傳統(tǒng)的排序方法比較簡單，通過構(gòu)造一個打分函數(shù)，該函數(shù)通過各個文檔和用戶查詢的相關(guān)度差異，對文檔進行排序。而影響相關(guān)度的因素有很多，例如查詢詞在文檔中的詞頻信息，查詢詞的IDF信息等等，而這些影響因數(shù)構(gòu)成了打分函數(shù)的參數(shù)，對于傳統(tǒng)的排序模型(人工標(biāo)注訓(xùn)練數(shù)據(jù))，如果參數(shù)過多，會使得經(jīng)驗方法的調(diào)參非常困難。

4、既然人工不行，于是，人們很自然的想到用機器學(xué) 習(xí)來解決這個問題。因此，就產(chǎn)生了我們要討論的學(xué)習(xí)排序(Learning to Rank)。目前，學(xué)習(xí)排序方法分為3種：單文檔方法、文檔對方法和文檔列表方法。單文檔方法比較簡單，該方法就像是知道兩個點的坐標(biāo)，確定一條直線的函數(shù)關(guān)系式一樣。對于一條查詢query,與其相關(guān)的文檔集合為：dlfd2f 然后，對這n個(queiy, 4)查詢-文檔對抽取特征并表示成特征向量，這里用X,YZ 表示抽取出的3個特征向量。然后對于“曲線函數(shù)Score(q, d)= aX+bY+cZ+d, 我們可以規(guī)定Score大于一個閥值時，認(rèn)為是相關(guān)的。帶入變量X,YZ,由這

5、些訓(xùn)練數(shù)據(jù)，可以確認(rèn)出最優(yōu)的常量a,b,c,cL到此，機器學(xué)習(xí)就結(jié)束了，打分函數(shù) 也確定了。以后，對于新的查詢和該查詢的相關(guān)文檔，我們就能用確定出來的打分函數(shù)來判斷查詢和文檔的相關(guān)性。但是，這種方法有很大的局限性，因為對于不同的查詢，他們的查詢-文檔對的特征向量可能相同，但他們的Score閥值卻是不同的，就像是一個點，它位于兩條線的交點上，雖然兩條線上都能確定這個點，但是點在兩條線上的含義卻是不一樣的。例如：點在a線上代表著年齡標(biāo)準(zhǔn)，而在b線上卻代表著身高標(biāo)準(zhǔn)。所以，這種方法是有前提的，它假設(shè)所有的相關(guān)度是查詢無關(guān)的，但事實說明了，并非如此。而且，對于Score相同的文檔，也無法

6、進行排序。文檔對方法則完全對同一個查詢里的文檔集生成訓(xùn)練樣本，它的主要思想是將Ranking問題形式化為二元分類問題。之所以被稱為文檔對方法，是因為這種機器學(xué)習(xí)方法的訓(xùn)練過程和訓(xùn)練目標(biāo)，是判斷任意兩個文檔組成的文檔對DOC1, D0C2是否滿足順序關(guān)系，即判斷是否D0C1應(yīng)該排在D0C2的前面。根據(jù)人工標(biāo)注的相關(guān)性得分，我們可以按照得分大小順序得到相應(yīng)的文檔對，將每個文檔對的文檔轉(zhuǎn)換為特征向量后，就形成了一個具體的訓(xùn)練實例。然后再由學(xué)習(xí)方法對這些實例進行學(xué)習(xí)。具體的學(xué)習(xí)方法有很多，在此就不贅述了。雖然文檔對方法不對相關(guān)度做獨立假設(shè)，但這種方法仍存在功能上缺點：(1). 這種方法只考慮

7、了兩個文檔之間的相對位置，判斷誰在誰的前面，并不考慮文檔在文檔列表上的位置。而在前言中我們說過，用戶只會對搜索結(jié)果的前兒頁數(shù)據(jù) 進行查看，這需要我們對文檔列表的前凡頁高相關(guān)性的文檔再做更好的區(qū)分。(2). 不同查詢的相關(guān)文檔集的大小也會影響排序模型的構(gòu)建結(jié)果，例如，a查詢只有 10條相關(guān)文檔，而b查詢有10000條相關(guān)文檔，那么模型兒乎會忽略掉a的10條文檔，使得模型對a查詢的區(qū)分度不高。還有一個重要的因素也會影響文檔對方法的排序性能。以Ranking SVM為例，它優(yōu)化的目標(biāo)是使得正負(fù)樣本之間Margin最大，而并非以排序性能為優(yōu)化目標(biāo)。就像BP神經(jīng)網(wǎng)絡(luò)以訓(xùn)練誤差為目標(biāo)優(yōu)化函數(shù)，從

8、而使得它很容易過擬合。優(yōu)化目標(biāo)本身的差異將導(dǎo)致模型本身的功能偏置。于是，基于這個特性，人們提出了文檔列表的方法。文檔列表方法和單文檔方法有些類似，但它的特別之處在于它是將一個查詢對應(yīng)的所有搜索結(jié)果列表整體作為一個訓(xùn)練實例。該方法是根據(jù)n個訓(xùn)練實例訓(xùn) 練得到最優(yōu)評分函數(shù)，對于一個新的查詢，函數(shù)會給每一個文檔打分，之后根據(jù) 打分結(jié)果排序。那么到底怎么樣才能獲得這個最優(yōu)的打分函數(shù)呢？首先，我們根據(jù)人工打分的方式，對部分樣本集進行打分，得到一個“正確” 的打分函數(shù)g,那么我們要做的工作就是找到一個函數(shù)，使得該函數(shù)對搜索結(jié)果的打分情況和函數(shù)g的打分情況相似，然后不斷迭代更新參數(shù)值，使得兩者的差異

9、更小。接下來的問題就是如何來判斷兩個函數(shù)的打分情況的接近程度？一種方法是抽取兩種排序的分值向量，求它們的余弦函數(shù)值，值越接近1,說明求得的該函數(shù)的打分情況和函數(shù)g的打分情況越接近。另一種方式是ListNet算法使用的正確排序與預(yù)測排序的排列概率分布之間的KL距離（交又炳）作為判定依據(jù)。那么Listwise方法現(xiàn)有的這些算法的問題出在哪呢？問題就在每次迭代更新參數(shù)的時候。我們都知道，現(xiàn)在是一個大數(shù)據(jù)時代，算法每一次的迭代都要從第一個查詢遍歷到最后一個查詢，這是很可怕的一件事情，這使得算法的運行時間完全依賴于訓(xùn)練集的大小。有的時候，數(shù)據(jù)會大到無法一次性讀入內(nèi)存，這個時候，該些算法就

10、不適用了。針對這個問題，我們可以尋找一個這樣的解決方案, 讓算法每次更新參數(shù)的時候不必遍歷整個訓(xùn)練集。所以，我們可以尋找一個新的算法模型例如SVM、神經(jīng)網(wǎng)絡(luò)模型等，或者新的訓(xùn)練算法來減少迭代遍歷的時間或者次數(shù)?？偨Y(jié)在這篇文章中，我大概地敘述了自己對現(xiàn)有的LTR方法的理解，描述了它們各自的優(yōu)缺點，以及在現(xiàn)有的LTR方法中，最具先進性的方法Listwise的改進方向和意見。由于本人對各類算法的認(rèn)知程度有限，無法更具體的談及如何改進, 希望在以后的學(xué)習(xí)中對此會有更深刻的認(rèn)識。參考文獻.一種基于隨機梯度下降的ListNet排序算法（鄭悅浩）.漫談 Learning to Rank （Jiang Feng）.L

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

探究LTR各方法的優(yōu)劣性

文檔簡介

溫馨提示

最新文檔

評論