探究LTR各方法的優(yōu)劣性_第1頁
探究LTR各方法的優(yōu)劣性_第2頁
探究LTR各方法的優(yōu)劣性_第3頁
探究LTR各方法的優(yōu)劣性_第4頁
探究LTR各方法的優(yōu)劣性_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、探究LTR (學(xué)習(xí)排序)各方法的優(yōu)劣性班級 12052311學(xué)號 12051238姓名XX2015.05.30前言隨著互聯(lián)網(wǎng)的快速發(fā)展,大數(shù)據(jù)時代的來臨,如何對數(shù)據(jù)進(jìn)行高效的分類和 檢索成為了一個重要的研究課題?,F(xiàn)如今,我們網(wǎng)上在尋找資料的時候,一定會 使用各式各樣的搜索引擎。一個好的搜索引擎,能夠讓用戶很方便快捷的找到需 要的答案。那么,影響搜索引擎搜索速度和準(zhǔn)確度的關(guān)鍵點(diǎn)在哪呢?我們都知道, 搜索引擎的工作原理:先由網(wǎng)頁爬蟲抓取到足夠多的網(wǎng)頁;再處理這些網(wǎng)頁,例 如,提取關(guān)鍵字,建立索引庫和索引等;然后是根據(jù)用戶輸入的查詢條件,在索 引庫中快速的檢出文檔;最后是最關(guān)鍵的一步,搜索引擎中的評

2、分函數(shù)(ranking function)會對每一個檢出的文檔進(jìn)行打分,然后根據(jù)打分的結(jié)果,對這些文檔 進(jìn)行排序,最后呈現(xiàn)在用戶面前的,就是一個和查詢條件的相關(guān)性從高到底排列 的查詢結(jié)果。在最后一步中,排序的結(jié)果嚴(yán)重影響著用戶的查詢體驗(yàn)。我們都使用過搜索 引擎,而且都會有一個習(xí)慣,對于搜索引擎返回的幾十頁數(shù)據(jù),我們只會點(diǎn)開前 兒頁的搜索結(jié)果,而往往是這前兒頁的結(jié)果,凡乎完全決定著一個搜索引擎的好 壞。在搜索引擎的演變過程中,出現(xiàn)過很多排序方法,例如傳統(tǒng)的人工打分排序, 現(xiàn)在的Pointwise單文檔方法,Pairwise文檔對方法,Listwise文檔列表方法。 而在這些方法中,Listwis

3、e依靠它的高性能,成為了現(xiàn)代搜索引擎領(lǐng)域研究的主 流的排序方法。現(xiàn)如今,人們還在不斷尋找更好的模型和文檔評價標(biāo)準(zhǔn),來進(jìn)一 步提高Listwise方法的排序效率。那么到底是什么原因讓Listwise方法和較于 其他方法有如此高的先進(jìn)性,以及該方法現(xiàn)在的瓶頸有哪些,下面,我便開始探 充。主題傳統(tǒng)的排序方法比較簡單,通過構(gòu)造一個打分函數(shù),該函數(shù)通過各個文檔和 用戶查詢的相關(guān)度差異,對文檔進(jìn)行排序。而影響相關(guān)度的因素有很多,例如查 詢詞在文檔中的詞頻信息,查詢詞的IDF信息等等,而這些影響因數(shù)構(gòu)成了打分 函數(shù)的參數(shù),對于傳統(tǒng)的排序模型(人工標(biāo)注訓(xùn)練數(shù)據(jù)),如果參數(shù)過多,會使 得經(jīng)驗(yàn)方法的調(diào)參非常困難。

4、既然人工不行,于是,人們很自然的想到用機(jī)器學(xué) 習(xí)來解決這個問題。因此,就產(chǎn)生了我們要討論的學(xué)習(xí)排序(Learning to Rank)。目前,學(xué)習(xí)排序方法分為3種:單文檔方法、文檔對方法和文檔列表方法。單文檔方法比較簡單,該方法就像是知道兩個點(diǎn)的坐標(biāo),確定一條直線的函 數(shù)關(guān)系式一樣。對于一條查詢query,與其相關(guān)的文檔集合為:dlfd2f 然后,對這n個(queiy, 4)查詢-文檔對抽取特征并表示成特征向量,這里用X,YZ 表示抽取出的3個特征向量。然后對于“曲線函數(shù)Score(q, d)= aX+bY+cZ+d, 我們可以規(guī)定Score大于一個閥值時,認(rèn)為是相關(guān)的。帶入變量X,YZ,由這

5、些 訓(xùn)練數(shù)據(jù),可以確認(rèn)出最優(yōu)的常量a,b,c,cL到此,機(jī)器學(xué)習(xí)就結(jié)束了,打分函數(shù) 也確定了。以后,對于新的查詢和該查詢的相關(guān)文檔,我們就能用確定出來的打 分函數(shù)來判斷查詢和文檔的相關(guān)性。但是,這種方法有很大的局限性,因?yàn)閷τ诓煌牟樵?,他們的查?文檔對 的特征向量可能相同,但他們的Score閥值卻是不同的,就像是一個點(diǎn),它位于 兩條線的交點(diǎn)上,雖然兩條線上都能確定這個點(diǎn),但是點(diǎn)在兩條線上的含義卻是 不一樣的。例如:點(diǎn)在a線上代表著年齡標(biāo)準(zhǔn),而在b線上卻代表著身高標(biāo)準(zhǔn)。 所以,這種方法是有前提的,它假設(shè)所有的相關(guān)度是查詢無關(guān)的,但事實(shí)說明了, 并非如此。而且,對于Score相同的文檔,也無法

6、進(jìn)行排序。文檔對方法則完全對同一個查詢里的文檔集生成訓(xùn)練樣本,它的主要思想是 將Ranking問題形式化為二元分類問題。之所以被稱為文檔對方法,是因?yàn)檫@種 機(jī)器學(xué)習(xí)方法的訓(xùn)練過程和訓(xùn)練目標(biāo),是判斷任意兩個文檔組成的文檔對DOC1, D0C2是否滿足順序關(guān)系,即判斷是否D0C1應(yīng)該排在D0C2的前面。根據(jù)人工 標(biāo)注的相關(guān)性得分,我們可以按照得分大小順序得到相應(yīng)的文檔對,將每個文檔 對的文檔轉(zhuǎn)換為特征向量后,就形成了一個具體的訓(xùn)練實(shí)例。然后再由學(xué)習(xí)方法 對這些實(shí)例進(jìn)行學(xué)習(xí)。具體的學(xué)習(xí)方法有很多,在此就不贅述了。雖然文檔對方法不對相關(guān)度做獨(dú)立假設(shè),但這種方法仍存在功能上缺點(diǎn):(1). 這種方法只考慮

7、了兩個文檔之間的相對位置,判斷誰在誰的前面,并不考慮文檔 在文檔列表上的位置。而在前言中我們說過,用戶只會對搜索結(jié)果的前兒頁數(shù)據(jù) 進(jìn)行查看,這需要我們對文檔列表的前凡頁高相關(guān)性的文檔再做更好的區(qū)分。(2). 不同查詢的相關(guān)文檔集的大小也會影響排序模型的構(gòu)建結(jié)果,例如,a查詢只有 10條相關(guān)文檔,而b查詢有10000條相關(guān)文檔,那么模型兒乎會忽略掉a的10條文 檔,使得模型對a查詢的區(qū)分度不高。還有一個重要的因素也會影響文檔對方法 的排序性能。以Ranking SVM為例,它優(yōu)化的目標(biāo)是使得正負(fù)樣本之間Margin最 大,而并非以排序性能為優(yōu)化目標(biāo)。就像BP神經(jīng)網(wǎng)絡(luò)以訓(xùn)練誤差為目標(biāo)優(yōu)化函 數(shù),從

8、而使得它很容易過擬合。優(yōu)化目標(biāo)本身的差異將導(dǎo)致模型本身的功能偏置。 于是,基于這個特性,人們提出了文檔列表的方法。文檔列表方法和單文檔方法有些類似,但它的特別之處在于它是將一個查詢 對應(yīng)的所有搜索結(jié)果列表整體作為一個訓(xùn)練實(shí)例。該方法是根據(jù)n個訓(xùn)練實(shí)例訓(xùn) 練得到最優(yōu)評分函數(shù),對于一個新的查詢,函數(shù)會給每一個文檔打分,之后根據(jù) 打分結(jié)果排序。那么到底怎么樣才能獲得這個最優(yōu)的打分函數(shù)呢?首先,我們根據(jù)人工打分的方式,對部分樣本集進(jìn)行打分,得到一個“正確” 的打分函數(shù)g,那么我們要做的工作就是找到一個函數(shù),使得該函數(shù)對搜索結(jié)果 的打分情況和函數(shù)g的打分情況相似,然后不斷迭代更新參數(shù)值,使得兩者的差 異

9、更小。接下來的問題就是如何來判斷兩個函數(shù)的打分情況的接近程度? 一種方 法是抽取兩種排序的分值向量,求它們的余弦函數(shù)值,值越接近1,說明求得的 該函數(shù)的打分情況和函數(shù)g的打分情況越接近。另一種方式是ListNet算法使用的 正確排序與預(yù)測排序的排列概率分布之間的KL距離(交又炳)作為判定依據(jù)。那么Listwise方法現(xiàn)有的這些算法的問題出在哪呢?問題就在每次迭代更新 參數(shù)的時候。我們都知道,現(xiàn)在是一個大數(shù)據(jù)時代,算法每一次的迭代都要從第 一個查詢遍歷到最后一個查詢,這是很可怕的一件事情,這使得算法的運(yùn)行時間 完全依賴于訓(xùn)練集的大小。有的時候,數(shù)據(jù)會大到無法一次性讀入內(nèi)存,這個時 候,該些算法就

10、不適用了。針對這個問題,我們可以尋找一個這樣的解決方案, 讓算法每次更新參數(shù)的時候不必遍歷整個訓(xùn)練集。所以,我們可以尋找一個新的 算法模型例如SVM、神經(jīng)網(wǎng)絡(luò)模型等,或者新的訓(xùn)練算法來減少迭代遍歷的時間 或者次數(shù)??偨Y(jié)在這篇文章中,我大概地敘述了自己對現(xiàn)有的LTR方法的理解,描述了它們各 自的優(yōu)缺點(diǎn),以及在現(xiàn)有的LTR方法中,最具先進(jìn)性的方法Listwise的改進(jìn)方 向和意見。由于本人對各類算法的認(rèn)知程度有限,無法更具體的談及如何改進(jìn), 希望在以后的學(xué)習(xí)中對此會有更深刻的認(rèn)識。參考文獻(xiàn).一種基于隨機(jī)梯度下降的ListNet排序算法(鄭悅浩).漫談 Learning to Rank (Jiang Feng).L

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論