




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、探究LTR (學(xué)習(xí)排序)各方法的優(yōu)劣性班級 12052311學(xué)號 12051238姓名XX2015.05.30前言隨著互聯(lián)網(wǎng)的快速發(fā)展,大數(shù)據(jù)時代的來臨,如何對數(shù)據(jù)進行高效的分類和 檢索成為了一個重要的研究課題。現(xiàn)如今,我們網(wǎng)上在尋找資料的時候,一定會 使用各式各樣的搜索引擎。一個好的搜索引擎,能夠讓用戶很方便快捷的找到需 要的答案。那么,影響搜索引擎搜索速度和準(zhǔn)確度的關(guān)鍵點在哪呢?我們都知道, 搜索引擎的工作原理:先由網(wǎng)頁爬蟲抓取到足夠多的網(wǎng)頁;再處理這些網(wǎng)頁,例 如,提取關(guān)鍵字,建立索引庫和索引等;然后是根據(jù)用戶輸入的查詢條件,在索 引庫中快速的檢出文檔;最后是最關(guān)鍵的一步,搜索引擎中的評
2、分函數(shù)(ranking function)會對每一個檢出的文檔進行打分,然后根據(jù)打分的結(jié)果,對這些文檔 進行排序,最后呈現(xiàn)在用戶面前的,就是一個和查詢條件的相關(guān)性從高到底排列 的查詢結(jié)果。在最后一步中,排序的結(jié)果嚴(yán)重影響著用戶的查詢體驗。我們都使用過搜索 引擎,而且都會有一個習(xí)慣,對于搜索引擎返回的幾十頁數(shù)據(jù),我們只會點開前 兒頁的搜索結(jié)果,而往往是這前兒頁的結(jié)果,凡乎完全決定著一個搜索引擎的好 壞。在搜索引擎的演變過程中,出現(xiàn)過很多排序方法,例如傳統(tǒng)的人工打分排序, 現(xiàn)在的Pointwise單文檔方法,Pairwise文檔對方法,Listwise文檔列表方法。 而在這些方法中,Listwis
3、e依靠它的高性能,成為了現(xiàn)代搜索引擎領(lǐng)域研究的主 流的排序方法。現(xiàn)如今,人們還在不斷尋找更好的模型和文檔評價標(biāo)準(zhǔn),來進一 步提高Listwise方法的排序效率。那么到底是什么原因讓Listwise方法和較于 其他方法有如此高的先進性,以及該方法現(xiàn)在的瓶頸有哪些,下面,我便開始探 充。主題傳統(tǒng)的排序方法比較簡單,通過構(gòu)造一個打分函數(shù),該函數(shù)通過各個文檔和 用戶查詢的相關(guān)度差異,對文檔進行排序。而影響相關(guān)度的因素有很多,例如查 詢詞在文檔中的詞頻信息,查詢詞的IDF信息等等,而這些影響因數(shù)構(gòu)成了打分 函數(shù)的參數(shù),對于傳統(tǒng)的排序模型(人工標(biāo)注訓(xùn)練數(shù)據(jù)),如果參數(shù)過多,會使 得經(jīng)驗方法的調(diào)參非常困難。
4、既然人工不行,于是,人們很自然的想到用機器學(xué) 習(xí)來解決這個問題。因此,就產(chǎn)生了我們要討論的學(xué)習(xí)排序(Learning to Rank)。目前,學(xué)習(xí)排序方法分為3種:單文檔方法、文檔對方法和文檔列表方法。單文檔方法比較簡單,該方法就像是知道兩個點的坐標(biāo),確定一條直線的函 數(shù)關(guān)系式一樣。對于一條查詢query,與其相關(guān)的文檔集合為:dlfd2f 然后,對這n個(queiy, 4)查詢-文檔對抽取特征并表示成特征向量,這里用X,YZ 表示抽取出的3個特征向量。然后對于“曲線函數(shù)Score(q, d)= aX+bY+cZ+d, 我們可以規(guī)定Score大于一個閥值時,認(rèn)為是相關(guān)的。帶入變量X,YZ,由這
5、些 訓(xùn)練數(shù)據(jù),可以確認(rèn)出最優(yōu)的常量a,b,c,cL到此,機器學(xué)習(xí)就結(jié)束了,打分函數(shù) 也確定了。以后,對于新的查詢和該查詢的相關(guān)文檔,我們就能用確定出來的打 分函數(shù)來判斷查詢和文檔的相關(guān)性。但是,這種方法有很大的局限性,因為對于不同的查詢,他們的查詢-文檔對 的特征向量可能相同,但他們的Score閥值卻是不同的,就像是一個點,它位于 兩條線的交點上,雖然兩條線上都能確定這個點,但是點在兩條線上的含義卻是 不一樣的。例如:點在a線上代表著年齡標(biāo)準(zhǔn),而在b線上卻代表著身高標(biāo)準(zhǔn)。 所以,這種方法是有前提的,它假設(shè)所有的相關(guān)度是查詢無關(guān)的,但事實說明了, 并非如此。而且,對于Score相同的文檔,也無法
6、進行排序。文檔對方法則完全對同一個查詢里的文檔集生成訓(xùn)練樣本,它的主要思想是 將Ranking問題形式化為二元分類問題。之所以被稱為文檔對方法,是因為這種 機器學(xué)習(xí)方法的訓(xùn)練過程和訓(xùn)練目標(biāo),是判斷任意兩個文檔組成的文檔對DOC1, D0C2是否滿足順序關(guān)系,即判斷是否D0C1應(yīng)該排在D0C2的前面。根據(jù)人工 標(biāo)注的相關(guān)性得分,我們可以按照得分大小順序得到相應(yīng)的文檔對,將每個文檔 對的文檔轉(zhuǎn)換為特征向量后,就形成了一個具體的訓(xùn)練實例。然后再由學(xué)習(xí)方法 對這些實例進行學(xué)習(xí)。具體的學(xué)習(xí)方法有很多,在此就不贅述了。雖然文檔對方法不對相關(guān)度做獨立假設(shè),但這種方法仍存在功能上缺點:(1). 這種方法只考慮
7、了兩個文檔之間的相對位置,判斷誰在誰的前面,并不考慮文檔 在文檔列表上的位置。而在前言中我們說過,用戶只會對搜索結(jié)果的前兒頁數(shù)據(jù) 進行查看,這需要我們對文檔列表的前凡頁高相關(guān)性的文檔再做更好的區(qū)分。(2). 不同查詢的相關(guān)文檔集的大小也會影響排序模型的構(gòu)建結(jié)果,例如,a查詢只有 10條相關(guān)文檔,而b查詢有10000條相關(guān)文檔,那么模型兒乎會忽略掉a的10條文 檔,使得模型對a查詢的區(qū)分度不高。還有一個重要的因素也會影響文檔對方法 的排序性能。以Ranking SVM為例,它優(yōu)化的目標(biāo)是使得正負(fù)樣本之間Margin最 大,而并非以排序性能為優(yōu)化目標(biāo)。就像BP神經(jīng)網(wǎng)絡(luò)以訓(xùn)練誤差為目標(biāo)優(yōu)化函 數(shù),從
8、而使得它很容易過擬合。優(yōu)化目標(biāo)本身的差異將導(dǎo)致模型本身的功能偏置。 于是,基于這個特性,人們提出了文檔列表的方法。文檔列表方法和單文檔方法有些類似,但它的特別之處在于它是將一個查詢 對應(yīng)的所有搜索結(jié)果列表整體作為一個訓(xùn)練實例。該方法是根據(jù)n個訓(xùn)練實例訓(xùn) 練得到最優(yōu)評分函數(shù),對于一個新的查詢,函數(shù)會給每一個文檔打分,之后根據(jù) 打分結(jié)果排序。那么到底怎么樣才能獲得這個最優(yōu)的打分函數(shù)呢?首先,我們根據(jù)人工打分的方式,對部分樣本集進行打分,得到一個“正確” 的打分函數(shù)g,那么我們要做的工作就是找到一個函數(shù),使得該函數(shù)對搜索結(jié)果 的打分情況和函數(shù)g的打分情況相似,然后不斷迭代更新參數(shù)值,使得兩者的差 異
9、更小。接下來的問題就是如何來判斷兩個函數(shù)的打分情況的接近程度? 一種方 法是抽取兩種排序的分值向量,求它們的余弦函數(shù)值,值越接近1,說明求得的 該函數(shù)的打分情況和函數(shù)g的打分情況越接近。另一種方式是ListNet算法使用的 正確排序與預(yù)測排序的排列概率分布之間的KL距離(交又炳)作為判定依據(jù)。那么Listwise方法現(xiàn)有的這些算法的問題出在哪呢?問題就在每次迭代更新 參數(shù)的時候。我們都知道,現(xiàn)在是一個大數(shù)據(jù)時代,算法每一次的迭代都要從第 一個查詢遍歷到最后一個查詢,這是很可怕的一件事情,這使得算法的運行時間 完全依賴于訓(xùn)練集的大小。有的時候,數(shù)據(jù)會大到無法一次性讀入內(nèi)存,這個時 候,該些算法就
10、不適用了。針對這個問題,我們可以尋找一個這樣的解決方案, 讓算法每次更新參數(shù)的時候不必遍歷整個訓(xùn)練集。所以,我們可以尋找一個新的 算法模型例如SVM、神經(jīng)網(wǎng)絡(luò)模型等,或者新的訓(xùn)練算法來減少迭代遍歷的時間 或者次數(shù)??偨Y(jié)在這篇文章中,我大概地敘述了自己對現(xiàn)有的LTR方法的理解,描述了它們各 自的優(yōu)缺點,以及在現(xiàn)有的LTR方法中,最具先進性的方法Listwise的改進方 向和意見。由于本人對各類算法的認(rèn)知程度有限,無法更具體的談及如何改進, 希望在以后的學(xué)習(xí)中對此會有更深刻的認(rèn)識。參考文獻.一種基于隨機梯度下降的ListNet排序算法(鄭悅浩).漫談 Learning to Rank (Jiang Feng).L
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025━2030年中國撕裂式排污泵項目投資可行性研究報告
- 2025-2035年全球及中國混合存儲器立方體(HMC)和高帶寬存儲器(HBM)行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2025-2035年全球及中國手機指紋生物識別行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2024年中國壓克力座鐘市場調(diào)查研究報告
- 2025年大功率多功能電子式電度表合作協(xié)議書
- 為未來而學(xué)為理解而教-以大概念為引領(lǐng)的小學(xué)語文教學(xué)研究報告【附模板】
- 過敏鼻炎治療原則
- 2025年體外震波碎石機合作協(xié)議書
- 軟皮筆記本批發(fā)企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 農(nóng)用金屬工具批發(fā)企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 中醫(yī)藥膳學(xué)(上篇總論)課件
- 勞動創(chuàng)造美好生活教案完整版精
- 6提高電纜線路施工質(zhì)量一次合格率QC成果
- 2021年福建省南平市第一醫(yī)院醫(yī)護人員招聘筆試試題及答案解析
- GB∕T 17587.1-2017 滾珠絲杠副 第1部分:術(shù)語和符號
- 土石壩設(shè)計畢業(yè)設(shè)計
- 【分享貼】2018AFP案例結(jié)業(yè)題目10:青年家庭限購政策下的公寓商鋪答案解析
- 三年級學(xué)生學(xué)情分析
- 高中化學(xué)競賽-中級無機化學(xué)--金屬原子簇word版本
- 沖壓工藝與模具設(shè)計拉深
- 水泥穩(wěn)定碎石配合比設(shè)計報告7頁
評論
0/150
提交評論