國家科技創(chuàng)新平臺規(guī)劃_第1頁
國家科技創(chuàng)新平臺規(guī)劃_第2頁
國家科技創(chuàng)新平臺規(guī)劃_第3頁
國家科技創(chuàng)新平臺規(guī)劃_第4頁
國家科技創(chuàng)新平臺規(guī)劃_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

信息獲取技術(shù)的評估

(RetrievalEvaluation)李曉明,北京大學(xué)信息科學(xué)技術(shù)學(xué)院2004年12月2日1提要引言常用的評估指標(biāo)評估的實踐(評測)2引言關(guān)于IR領(lǐng)域文本技術(shù)系統(tǒng)用戶(普通,大量)文本語義的豐富性(以及文本集合本身的變化),用戶需求的多樣性,模型的簡單化系統(tǒng)表現(xiàn)的終極評判在于它們所針對的用戶群的評價(大量,長時間)對系統(tǒng)的評估常常是基于對所包含各項技術(shù)評估基礎(chǔ)上的無論是從研究方法還是工程實踐的角度,我們都需要能夠評估各個單項技術(shù)對系統(tǒng)行為可能的貢獻更進一步地,若能將設(shè)計指標(biāo)和評價指標(biāo)結(jié)合起來則最好3System=t1+t2+…+tl系統(tǒng)包含若干技術(shù),t某人發(fā)明了一個新的t,評價它的方式:用它替換系統(tǒng)中的相應(yīng)技術(shù),看對總的效果的貢獻單獨在一個評測環(huán)境中評價前者往往代價較高(時間,費用)例如研究搜索引擎排序算法的不一定有機會擺弄真正的,有大規(guī)模用戶的搜索引擎后者可能和真實系統(tǒng)應(yīng)用有距離能對這距離有把握也行4評估(技術(shù),系統(tǒng))用戶關(guān)心(系統(tǒng)的):F={f1,f2,…,fn}相關(guān)性,新穎性,完整性,速度,…但代價等原因使完整的評估比較困難我們要確定(技術(shù)的):G={g1,g2,…,gm}較小的代價能完成對它們的測試對它們測試的結(jié)果和f1,f2,…,fn有很好的對應(yīng)最好還能有一套設(shè)計指標(biāo):P={p1,p2,…,pk}能使我們心里有數(shù):它們實現(xiàn)的程度對g1,g2,…,gm貢獻的關(guān)系(防止“irrelevance”)5汽車用戶關(guān)心:速度,啟動加速度,剎車距離,…發(fā)動機測試:轉(zhuǎn)速,扭矩,馬力發(fā)動機設(shè)計:排量,氣缸數(shù),點火方式,…汽車工業(yè)的實踐已經(jīng)證明了它們之間對應(yīng)關(guān)系的有效性(盡管不是100%)6計算機用戶關(guān)心:速度性能測試:SPEC設(shè)計:主頻,CPI,字長,Cache大小,…計算機工業(yè)的實踐也基本證明它們的對應(yīng)關(guān)系是有效的7大學(xué)用戶(社會)關(guān)心:培養(yǎng)能夠為人類社會的進步充分發(fā)揮潛能的人測試:政府高級官員的數(shù)量,大文豪、大科學(xué)家的數(shù)量,…設(shè)計的具體追求:得獎數(shù),發(fā)表論文數(shù)(影響因子),博士學(xué)位獲得者人數(shù),科研經(jīng)費數(shù),…實踐證明如何?8評估不斷地對現(xiàn)有的F,G,P(及其相互關(guān)系)提出疑問,提出改進,是研究評估的人們應(yīng)該考慮的基本任務(wù)我們需要了解現(xiàn)在的F,G,P是些什么(如何定義的,如何能得到),但僅此不夠。事物都是在一個“目的”和“手段”鏈中發(fā)展的,這種鏈接關(guān)系的緊密程度就決定了達到目的的優(yōu)化程度(效果、效率)9信息獲取技術(shù)評估的“森林”10以批判判的眼眼光看看Pr,Re,F“Precisionandrecallhavebeenusedextensivelytoevaluatetheretrievalperformanceofretrievalalgorithms.However,amorecarefulreflectionrevealsproblemswiththesetwomeasures.””(page81,ModernInformationRetrieval)11先回顧顧它們們的定定義和和計算算要評價價技術(shù)術(shù)T,,對于于給定定的查查詢,,q,總體體文檔檔集合合D記R:D中和和q相關(guān)文文檔的的集合合,|R|:R的大大小A:算算法T獲取取的文文檔集集合,,|A|::A的的大小小|Ra|::R和和A交交集的的大小小12查準(zhǔn)率率和召召回率率基礎(chǔ)礎(chǔ)定義義圖示示CollectionAnswerSet|A|RelevantDocs|R|RelevantDocsinAnswerSet|Ra|13需要考考慮的的幾個個問題題定義了了,不不等于于能算算了如何算算得針針對((Q,D))的Pr,Re??另外,,人們們認為為在一一定的的排序序意義義上考考察Pr,Re更更有意意義。?!啊皉ankedA”,,沿著著這個個rank,考考察““查準(zhǔn)準(zhǔn)率((精度度)隨隨召回回率變變化的的情況況”符合許許多IR系系統(tǒng)的的實際際情況況,通通常都都會在在結(jié)果果集合合上定定義一一個序序1415平均精精度對recall增加時時對應(yīng)的的精度度求平平均值值和“原原始定定義””的區(qū)區(qū)別??這樣的的“平平均精精度””有什什么不不好??16“針對對11點標(biāo)標(biāo)準(zhǔn)召召回率率的精精度””人們建建議在在一些些特殊殊的點點上給給出Re和和Pr的關(guān)關(guān)系Re=0%,10%,……,100%,對對應(yīng)的的Pr于是就就能很很方便便地講講“召召回率率為20%的時時候精精度為為X””之類類的結(jié)結(jié)論也還有有“3點標(biāo)標(biāo)準(zhǔn)””的說說法::25%,50%,75%如果D中相相關(guān)文文檔的的個數(shù)數(shù)是10的的倍數(shù)數(shù),且且如果算法給給出的的“RankedA””包含含了所所有相相關(guān)文文檔,,得到到這些些點就就會很很簡單單;否否則要要考慮慮如何何插值值的問問題17“省事事的””例子子D={d1,…,d1000},對對查詢詢q,,所有有相關(guān)關(guān)文檔檔集合合(共共10個元元素)):Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}查詢的的返回回結(jié)果果序::d123*,d84,d56*,d6,d8,d9*,d511,,d5*,,d39*,d129,,d187,d25*,,d38,,d44*,d57,d71*,,d48,,d250,d113,d3*,d200,d144,d11,d89*,d1Ranking:*^*^^*^**^^*^*^*^^^*^^^*^Recall:.1.1.2.2.2.3.3.4.5.5.5.6.6.7.7.8.8.8.8.9.9.9.911Precisio:1.5.67.5.4.5.43.5.55.5.45.5.46.5.46.5.47.5.42.45.43.41.39.42.41811standardrecalllevel其實只有10個點??19但實際上經(jīng)常常不是這樣得到的結(jié)果集集合不包含所所有的相關(guān)元元素實踐上常常只只是返回排序序較高的若干干元素因此不能得到到需要的recall值值D中相關(guān)元素素的個數(shù)不是是10的倍數(shù)數(shù)于是能直接得得到的recall值不不一定包含0%,10%,20%,30%,…,100%20例子所有相關(guān)文檔檔集合(共10個元素)):Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}只能得到5個個有效的recall值值:10%,,20%,30%,40%,50%對查詢q返回回的結(jié)果序:d123*d84d56*d6d8d9*d511d129d187d25*d38d48d250d113d3*2122插值(interpolation)目標(biāo)是在11個標(biāo)準(zhǔn)召回回率上都有精精度值可以想出各種種“合理的””方法(例如如將已知的點點連起來),,不同的方法法結(jié)果會不一一樣(因此做做比較時要講講清楚)P(rj)=maxP(r),rj≤r≤rj+1取在下一個標(biāo)標(biāo)準(zhǔn)召回率之之間的已知召召回率對應(yīng)的的最大精度值值P(rj)=maxP(r),rj≤r取往后的已知知召回率對應(yīng)應(yīng)的最大的精精度值(這得得到的是階梯梯函數(shù),單調(diào)調(diào)性。如何考慮返回回的結(jié)果不包包括所有相關(guān)關(guān)文檔?23我們最終關(guān)心心對Q的總體體情況ri取標(biāo)準(zhǔn)召回率率,Nq是所考察Q的的大小。這樣樣得到一個技技術(shù)(算法))在(Q,D)上精度的的宏觀表現(xiàn)24F指數(shù)用一個量來表表示precision和recall的綜合合效果How?人們們定義:為什么不是::25A(P,R)和H(P,R)并不一一致例如:P1=0.1,R1=0.83:A(P1,R1)=0.42,H(P1,R1)=0.197;P2=0.3,R2=0.3:A(P2,R2)=0.3,H(P2,R2)=0.3也就是說,A(P1,R1)>A(P2,R2),但H(P1,R1)<H(P2,R2)(當(dāng)然也可以以舉出它們一一致的例子))26指標(biāo)定義的傾傾向在P+R一定定的情況下,,希望它們接接近。換句話話說,這個指指標(biāo)不掩蓋P,R一個個方面特別的的不足27召回不足分子小精度不夠分分母大28基于P,R,F的評評估小結(jié)給定包含一個新算算法的IR系系統(tǒng)(測試)),一個測試文檔檔集合D,一個查詢集合合Q={q}一個事先確定定的相關(guān)集合合的集合G(Q)我們確定定這個算算法的P-R圖圖和F值值29流程對于Q的的每一個個元素q:得到一個個有序結(jié)結(jié)果集s(q)=<d1,d2,…dq>與G(q)對比比,依序序計算s(q)中元素素的r[i]和和p[i],i=1,2,……,q選擇一種種合適的的插值方方式,得得到p[i]在在r=0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1處處的插值值如果r[q]<>1,,則令它它其后的的標(biāo)準(zhǔn)點點上的p=0對Q的所所有元素素,在標(biāo)標(biāo)準(zhǔn)召回回點上求求p的平平均值給出平均均值的統(tǒng)統(tǒng)計表和和P-R圖3031還要算F:得出出一個數(shù)數(shù)對每一個個查詢q,得到標(biāo)準(zhǔn)準(zhǔn)召回點點上的F,即Fq(i)=2*p[i]*r(i)/(p(i)+r(i)),i=0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1在查詢內(nèi)內(nèi)求平均均(micro-average))Fq=∑Fq(i),i=0,.1,.2,…,.9,1進一步在在查詢間間求平均均(macro-average))F=∑Fq,q∈∈Q32困難與與不適適有可能能D和和Q太太大,,得出出G(Q)代價價太高高“相關(guān)關(guān)”的的含義義因人人而異異如此定定義的的P,R,F適適于““批處處理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論