版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1、習(xí)題6-10tf-idf = tf * idfcar的tf-idf值在三篇文檔中分別為:doc1:27*1.65= 44.55 ; doc2:4*1.65= 6.6; doc: 24*1.65= 39.6 ;auto的tf-idf值在三篇文檔中分別為:doc1:3*2.08= 6.24 ; doc2:33*2.08= 68.64 ; doc : 0*2.08= 0;insurance 的tf-idf 值在三篇文檔中分別為:doc1:0*1.62= 0; doc2:33*1.62= 53.46 ; doc : 29*1.62= 46.98 ;best的tf-idf值在三篇文檔中分別為:doc
2、1:14*1.5= 21.0 ; doc2:0*1.5= 0; doc : 17*1.5= 25.5 ;2、習(xí)題6-191/1.922 = 0.521301/1.922 = 0.677詞查詢(xún)文檔qi*d itfwfdfidfq i=wf-idftfwfd i=歸一化的wfdigital111000033110.521.56video0010000020110.520cameras11500002.3012.30121.3010.6771.558所用公式:wf = 1+ ?裨?w 0i0?idf?log ?歸一化: x2 + 12 + 1.301 2 = 1.922-可編輯修改-最后的相似度結(jié)果
3、為:1.56+1.558=3.1183、習(xí)題7-2勝者表是提出的一種更快獲取得分較高文檔的一種方法,基本思路是考慮r篇白tf tf值。但在實(shí)際應(yīng)用中,還應(yīng)考慮到文檔長(zhǎng)度以及用戶(hù)對(duì)搜索結(jié)果的關(guān)注程度等因素,并希望只關(guān)注那些不僅相關(guān)度高并且權(quán)威度也大的文檔。如果只根據(jù)tf值來(lái)選取最后的結(jié)果文檔,很可能導(dǎo)致的情況是,搜索結(jié)果和查詢(xún)雖然相關(guān),但會(huì)有文檔長(zhǎng)度過(guò)長(zhǎng)且不是用戶(hù)想得到的結(jié)果的問(wèn)題。因此在考慮到全局的情況下,引入了 g(d)和tf-idf來(lái)對(duì)勝者表進(jìn)一步擴(kuò)展和精確。這樣高分文檔更可能在倒排索引的前期出現(xiàn)。4、習(xí)題7-8-可編輯修改-5、習(xí)題8-8m 心詼l mizmn nnner 鴨相小而;nr
4、/jnr rrnmn 吵。4. ma匕=(t+ 4+ 尹告)忤 0。方十用十對(duì)/* n邨m牙修尸ob.系統(tǒng)1的返回結(jié)果中相關(guān)文檔比較集中,靠前兩個(gè),靠后兩個(gè)。系統(tǒng) 2的返回結(jié)果中相 關(guān)文檔比較分散。系統(tǒng) 1比系統(tǒng)2獲得較高的map值。排名靠前的相關(guān)文檔對(duì) map值影響較大,相關(guān)文檔位置越靠前,系統(tǒng)能獲得越高的map值。c. ri=2/4=0.5r2=1/4=0.25按照r正確性值來(lái)看,與 map的排序結(jié)果一致。6、習(xí)題9-34-3 以;l 股限。居0山,四-3): %:江+日看 自彼賒始有響丸” 3_加%脛根%!lq.。)十僅15k(w0.5 lq)0。球hr也。i)二(3玨50.波2山5.卜
5、0。兄.075小沙)二(卷 五二血l (?, 7510 _.斜陽(yáng)曲&闕變網(wǎng) 遍玳牛,祝由百7、習(xí)題9-7矩陣c里的元素表示該詞項(xiàng)是否在這些文檔中同時(shí)出現(xiàn),1表示同時(shí)出現(xiàn),0表示沒(méi)有同時(shí)出現(xiàn)。-可編輯修改-8、習(xí)題11-3(l-j mlj和型仕甘物ld蕈大返峽,gl撤既心) 烝卡力3)噌征林產(chǎn)務(wù)三九犀小利g -他心加-閨但會(huì)嘴也4l復(fù)扁f 帕-)叼產(chǎn)i s7r辟一者卜多抵二帚9、習(xí)題12-6d=(, , ,landed, 1, , , ,sensation, 1, ,martin, 1)a. p(the) = 2/11 = 0.182, p(martian) = 1/11 = 0.091b. p
6、(sensation|pop) = 1, p(pop|the) = 010、習(xí)題 12-7該文檔集的查詢(xún)似然模型為:clickgotheshearsboysmetalhere模型11/21/81/81/81/800模型21000000模型3000001/21/2模型41/4001/401/41/4文檔集模型7/161/161/162/161/162/162/16每篇文檔模型對(duì)應(yīng)的概率:p(d|q) 8p(d) n?r?(1 - ? + ?(?)-可編輯修改-querydoc1doc2doc3doc4click15/3223/327/3211/32shears2/161/161/163/16click shears15/25623/5127/51233/512p(click|doc1)=1/2*1/2+7/16*1/2=15/32,p(click|doc2)=1*1/2+7/16*1/2=23/32p(shears|doc1)=1/8*1/2+2/16*1/2=2/16,p(click shears|doc1)=15/32*2/16=15/256對(duì)于查詢(xún)click shear
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度高速公路養(yǎng)護(hù)出渣車(chē)輛勞務(wù)分包合同范本2篇
- 二零二五年度農(nóng)業(yè)科技創(chuàng)業(yè)項(xiàng)目合伙人股權(quán)分配與鄉(xiāng)村振興協(xié)議3篇
- 二零二五版特色餐廳食品安全與質(zhì)量管理體系建設(shè)合同3篇
- 2025輪胎購(gòu)銷(xiāo)合同樣本「標(biāo)準(zhǔn)版」
- 二零二五版智慧城市建設(shè)中的安防監(jiān)控安裝合同3篇
- 2025年打車(chē)軟件平臺(tái)與司機(jī)傭金結(jié)算合同4篇
- 2025年度環(huán)保科技創(chuàng)業(yè)項(xiàng)目合作框架4篇
- 2025版出口貿(mào)易磋商及合同訂立風(fēng)險(xiǎn)控制策略4篇
- 商場(chǎng)拆除施工方案
- 2025年度科技創(chuàng)新項(xiàng)目補(bǔ)充合同協(xié)議書(shū)范本2篇
- 《電影之創(chuàng)戰(zhàn)紀(jì)》課件
- 社區(qū)醫(yī)療抗菌藥物分級(jí)管理方案
- 開(kāi)題報(bào)告-鑄牢中華民族共同體意識(shí)的學(xué)校教育研究
- 《醫(yī)院標(biāo)識(shí)牌規(guī)劃設(shè)計(jì)方案》
- 夜市運(yùn)營(yíng)投標(biāo)方案(技術(shù)方案)
- (高清版)DZT 0282-2015 水文地質(zhì)調(diào)查規(guī)范(1:50000)
- 《紅樓夢(mèng)》禮儀研究
- 會(huì)議分組討論主持詞
- 動(dòng)火作業(yè)審批表
- 新能源汽車(chē)火災(zāi)事故處置程序及方法
- 教學(xué)查房及體格檢查評(píng)分標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論