版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
淺析網(wǎng)絡(luò)教育搜索引擎的智能化排序研究
搜索引擎的排序算法就是當(dāng)用戶輸入查詢關(guān)鍵詞后,迅速在索引庫(kù)中檢索出文檔,并將文檔按照一定的規(guī)則進(jìn)行合理排序,以使用戶需要的文檔盡可能排在前面幾頁(yè),以便用戶能快速查詢到自己需要的信息。對(duì)于基于關(guān)鍵詞檢索的搜索引擎,通過(guò)Robot收集并索引的信息資源量非常龐大,比如Google可以搜索的網(wǎng)頁(yè)高達(dá)33億頁(yè)。當(dāng)用戶進(jìn)行搜索時(shí),系統(tǒng)往往回返回?cái)?shù)量巨大的檢索結(jié)果,增加用戶的負(fù)擔(dān),也降低了搜索引擎的效率,因此排序算法研究在搜索引擎中占有一種核心的地位。一、現(xiàn)代搜索引擎的排序技術(shù)1.1傳統(tǒng)搜索引擎的排序技術(shù)傳統(tǒng)搜索引擎的排序算法是對(duì)提取的每個(gè)關(guān)鍵詞賦予一個(gè)權(quán)值,表示該網(wǎng)頁(yè)與關(guān)鍵詞之間的相關(guān)程度,不同的搜索引擎在計(jì)算權(quán)值時(shí)使用了不同的方法,但它們都以關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的位置和頻率為基本依據(jù):1、關(guān)鍵詞出現(xiàn)在標(biāo)題中的網(wǎng)頁(yè)可能比只出現(xiàn)在其它地方的網(wǎng)頁(yè)更符合要求;2、關(guān)鍵詞出現(xiàn)在網(wǎng)頁(yè)的前面可能比只出現(xiàn)在網(wǎng)頁(yè)的后面更符合要求;3、同一個(gè)關(guān)鍵詞的出現(xiàn)多次的網(wǎng)頁(yè)又可能比只出現(xiàn)一兩次的網(wǎng)頁(yè)更符合要求;把這些因素綜合起來(lái)考慮便可得出一個(gè)計(jì)算關(guān)鍵詞權(quán)值的公式。然而這種排序算法卻有其局限性,由于網(wǎng)絡(luò)資源的數(shù)量巨大,權(quán)值相同的兩個(gè)網(wǎng)頁(yè)質(zhì)量卻可能相差很遠(yuǎn),而且很多網(wǎng)頁(yè)設(shè)計(jì)者為了使網(wǎng)頁(yè)能排在檢索結(jié)果的前面,在其頁(yè)面上堆砌關(guān)鍵詞,或在重要的位置放置和網(wǎng)頁(yè)內(nèi)容無(wú)關(guān)卻很流行的詞匯,以達(dá)到增加瀏覽量的結(jié)果。1.2現(xiàn)代搜索引擎的排序技術(shù)現(xiàn)代搜索引擎為了達(dá)到較好的檢索結(jié)果都使用新的基于超鏈分析的排序技術(shù)。其中以L.Page等提出的PageRank最為經(jīng)典。PageRank算法由于在Google中得到成功的應(yīng)用而被美國(guó)《時(shí)代》雜志評(píng)為“1999年度十大網(wǎng)絡(luò)技術(shù)”之一。1、PageRank算法PageRank使利用網(wǎng)絡(luò)自身的超鏈接結(jié)構(gòu)給所有的網(wǎng)頁(yè)確定一個(gè)重要性的等級(jí)數(shù)[1],當(dāng)從網(wǎng)頁(yè)A鏈接到網(wǎng)頁(yè)B時(shí),就認(rèn)為“網(wǎng)頁(yè)A投了網(wǎng)頁(yè)B一票”,從而增加了網(wǎng)頁(yè)B的重要性,最后根據(jù)網(wǎng)頁(yè)的得票數(shù)評(píng)定其重要性,以此來(lái)幫助實(shí)現(xiàn)排序算法的優(yōu)化。同時(shí)PageRank還要分析為其投票的網(wǎng)頁(yè)的重要性,重要的網(wǎng)頁(yè)所投之票有助于增強(qiáng)其他網(wǎng)頁(yè)的“重要性”,也就是說(shuō)網(wǎng)頁(yè)的重要性決定著同時(shí)也依賴于其他網(wǎng)頁(yè)的重要性,而這個(gè)重要性的量化指標(biāo)就叫PageRank值。2、算法的實(shí)現(xiàn)當(dāng)搜索引擎接受到用戶的關(guān)鍵詞提問(wèn)后,對(duì)提問(wèn)式進(jìn)行分析并從索引庫(kù)中找到和搜索關(guān)鍵詞匹配的所有網(wǎng)頁(yè)信息,然后通過(guò)排序系統(tǒng)對(duì)網(wǎng)頁(yè)進(jìn)行相關(guān)性排序。3、PageRank算法的發(fā)展現(xiàn)在搜索引擎一般采用基于網(wǎng)頁(yè)內(nèi)容分析和基于超鏈分析相結(jié)合的方法進(jìn)行相關(guān)度分析,也就是排序系統(tǒng)將網(wǎng)頁(yè)的PageRank值與文檔分詞后的信息以及鏈接文件中的網(wǎng)頁(yè)描述信息相結(jié)合起來(lái)確定檢索結(jié)果排序的權(quán)值,這樣就能客觀地對(duì)網(wǎng)頁(yè)進(jìn)行排序,從而極大限度地保障搜索出來(lái)的結(jié)果與用戶的查詢相一致。二、網(wǎng)絡(luò)教育資源的特色對(duì)搜索引擎的要求網(wǎng)絡(luò)教育是建立在互聯(lián)網(wǎng)上的,但卻又不同于互聯(lián)網(wǎng),主要表現(xiàn)在教育資源的特點(diǎn)和學(xué)生的行為方式上。2.1網(wǎng)絡(luò)教育資源的特點(diǎn)[2]同互聯(lián)網(wǎng)上的信息一樣,網(wǎng)絡(luò)教育資源在數(shù)量上也是巨大的。但是,不同的網(wǎng)絡(luò)教育資源分布雖廣,但其內(nèi)容之間的關(guān)聯(lián)度和穩(wěn)定性卻是很強(qiáng)的,而且具有良好的可分類性。2.2學(xué)生學(xué)習(xí)行為的特點(diǎn):網(wǎng)絡(luò)教育中的學(xué)生獲取知識(shí)的主要來(lái)源是從網(wǎng)絡(luò)中查詢自己需要的教育資源,但是學(xué)生不同于一般的網(wǎng)絡(luò)用戶,具有自己的特色:1、學(xué)生處于學(xué)習(xí)狀態(tài),對(duì)專業(yè)知識(shí)了解少;2、學(xué)生對(duì)網(wǎng)絡(luò)的駕馭能力差,具有一定的盲目性;3、對(duì)于海量的信息資源,學(xué)生往往缺少耐性,不容易找到自己所需要的知識(shí)。2.3對(duì)搜索引擎的查詢排序要求1、搜索引擎要能從學(xué)生的查詢語(yǔ)言中提煉出學(xué)生的查詢要求,并能更加知識(shí)結(jié)構(gòu)對(duì)查詢要求進(jìn)行擴(kuò)展聯(lián)想,對(duì)所需資源進(jìn)行準(zhǔn)確定位。2、搜索引擎要能根據(jù)每個(gè)學(xué)生的學(xué)習(xí)特點(diǎn)對(duì)其提供資源,要能建立學(xué)生的興趣“檔案”,確定學(xué)生的興趣范圍,以便更準(zhǔn)確的將學(xué)生所需知識(shí)排在前面。三、一種基于興趣模型的排序方法研究3.1學(xué)科知識(shí)結(jié)構(gòu)的構(gòu)建在網(wǎng)絡(luò)教育環(huán)境中,學(xué)科領(lǐng)域知識(shí)的分類是相對(duì)穩(wěn)定而且準(zhǔn)確的,因此首先以此為基礎(chǔ)構(gòu)建一個(gè)學(xué)科知識(shí)分類結(jié)構(gòu)[3],這個(gè)結(jié)構(gòu)是用分類樹(shù)的方法建立各種學(xué)科知識(shí)概念之間的上下層關(guān)系,上層概念是其所有下層概念共同屬性的概括,下層概念則是對(duì)上層概念的細(xì)化。整個(gè)概念樹(shù)形成一個(gè)整體,每個(gè)概念節(jié)點(diǎn)都可以以學(xué)科分類代碼為基礎(chǔ)進(jìn)行概念編碼標(biāo)識(shí),并且每個(gè)概念都帶有一個(gè)集合,是該概念同義但不同描述元素組成的集合。集合可以根據(jù)需要進(jìn)行添加、刪除、修改等操作。每個(gè)概念可與其它概念建立相應(yīng)的關(guān)系,這種關(guān)系是不同于分類中上下層關(guān)系的橫向關(guān)系。3.2興趣模型的建立對(duì)于學(xué)生來(lái)說(shuō),其學(xué)習(xí)行為基本上是在本學(xué)科范圍之內(nèi)的,因此其興趣范圍較一般用戶穩(wěn)定,同時(shí)每個(gè)學(xué)生根據(jù)自身的學(xué)習(xí)特點(diǎn)不同,對(duì)知識(shí)概念以及概念之間的理解也不相同,這就構(gòu)成了每個(gè)學(xué)生的個(gè)人興趣所在。因此可以通過(guò)智能代理系統(tǒng)根據(jù)學(xué)生所表現(xiàn)出的興趣趨向去構(gòu)建學(xué)生的興趣模型。1、智能代理系統(tǒng)的研究1)智能代理的特點(diǎn)[4]智能代理技術(shù)是人工智能研究的新成果,是信息世界種的軟件機(jī)器人。它是代表用戶或其他程序,以主動(dòng)方式完成一組操作的機(jī)動(dòng)計(jì)算實(shí)體。智能代理的特點(diǎn)是具有不斷學(xué)習(xí)增長(zhǎng)智能、適應(yīng)信息和用戶興趣動(dòng)態(tài)變化的能力,從而提供個(gè)性化的服務(wù)。2)網(wǎng)絡(luò)教育中的智能興趣代理智能興趣代理[5]是通過(guò)對(duì)學(xué)生學(xué)習(xí)行為的分析和研究,了解和掌握學(xué)生學(xué)習(xí)的情況、需求、能力、進(jìn)度、興趣等,從而呈現(xiàn)符合個(gè)性的學(xué)習(xí)資源,使得每個(gè)學(xué)生身邊仿佛有了解針對(duì)自身特點(diǎn)進(jìn)行教學(xué)的“老師”而獲得個(gè)性化的教學(xué)服務(wù)。其智能化的表現(xiàn)在于不斷學(xué)習(xí),適應(yīng)學(xué)生興趣動(dòng)態(tài)變化的能力,從而實(shí)現(xiàn)查詢的個(gè)性化。智能興趣代理的基本思想是在概念樹(shù)的基礎(chǔ)上,通過(guò)學(xué)生對(duì)檢索結(jié)果的反饋信息,逐漸建立各概念節(jié)點(diǎn)的橫向聯(lián)系,采用對(duì)學(xué)生的學(xué)科概念子樹(shù)上的各節(jié)點(diǎn)及節(jié)點(diǎn)之間關(guān)系的等級(jí)計(jì)算,得到學(xué)生興趣點(diǎn)的概念和關(guān)聯(lián)等級(jí)排序。不僅可以得到學(xué)生感興趣的關(guān)鍵詞,還能得到學(xué)生所感興趣的一組相互有關(guān)聯(lián)的興趣詞,以此來(lái)確定學(xué)生的興趣趨向。2、興趣模型的建立當(dāng)學(xué)生在第一次使用該搜索引擎系統(tǒng)時(shí)先進(jìn)行基本信息的注冊(cè),包括個(gè)人信息、學(xué)科信息等。系統(tǒng)根據(jù)學(xué)生的基本信息,將概念網(wǎng)中相應(yīng)的學(xué)科類別記錄在學(xué)生的個(gè)人信息庫(kù)中。當(dāng)學(xué)生提出查詢請(qǐng)求時(shí),檢索模塊對(duì)學(xué)生的查詢請(qǐng)求進(jìn)行概念擴(kuò)展,并將檢索到的網(wǎng)頁(yè)按照與各關(guān)鍵詞的相關(guān)度進(jìn)行排序,并將結(jié)果返回后,智能興趣代理開(kāi)始對(duì)學(xué)生的反饋行為進(jìn)行分析,這里可采用學(xué)生打分及分析學(xué)生行為模式的方式:1)由于學(xué)生瀏覽網(wǎng)頁(yè)時(shí)具有一定的盲目性和偶然性,需要學(xué)生對(duì)其瀏覽的網(wǎng)頁(yè)進(jìn)行評(píng)分。興趣代理只關(guān)注評(píng)分及格以及學(xué)生進(jìn)行下載或復(fù)制部分內(nèi)容的網(wǎng)頁(yè)。對(duì)于這些網(wǎng)頁(yè),興趣代理提取出詞頻大于一定值的領(lǐng)域詞,在學(xué)生的個(gè)人學(xué)科子樹(shù)上將這些領(lǐng)域詞之間加上關(guān)聯(lián)等級(jí)值。2)在學(xué)生對(duì)一次檢索結(jié)果進(jìn)行遍歷后,將每個(gè)關(guān)聯(lián)邊的所有等級(jí)值相加,存入信息庫(kù)中。對(duì)學(xué)生的每一次檢索都重復(fù)上述過(guò)程,對(duì)關(guān)聯(lián)邊進(jìn)行等級(jí)值的疊加。這樣經(jīng)過(guò)疊加后,關(guān)聯(lián)邊的等級(jí)值越高,概念之間的關(guān)聯(lián)性越強(qiáng),如果多個(gè)概念之間的關(guān)聯(lián)性都很強(qiáng),則可認(rèn)為反映了學(xué)生的興趣趨向,構(gòu)建了學(xué)生的興趣模型。四、結(jié)束語(yǔ)參考文獻(xiàn)[1]曹軍,Google的PageRank技術(shù)剖析,情報(bào)雜志,2002.10,15-18[2]程智,《網(wǎng)絡(luò)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣安職業(yè)技術(shù)學(xué)院《英語(yǔ)(二)》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛州職業(yè)技術(shù)學(xué)院《組織行為學(xué)A》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛南衛(wèi)生健康職業(yè)學(xué)院《醫(yī)學(xué)生物化學(xué)與分子生物學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛東學(xué)院《酒店收益管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 《人力資源管理故事》課件
- 七年級(jí)科學(xué)上冊(cè)8.3安全使用溶液8.3.2使用酸堿溶液的正確方法學(xué)案無(wú)答案牛津上海版
- 七年級(jí)道德與法治上冊(cè)第二單元友誼的天空第四課友誼與成長(zhǎng)同行第2框深深淺淺話友誼教案新人教版
- 三年級(jí)數(shù)學(xué)上冊(cè)三加與減運(yùn)白菜說(shuō)課稿北師大版
- 三年級(jí)科學(xué)上冊(cè)第三單元天氣與我們的生活第十二課今天的天氣教案青島版
- 三年級(jí)科學(xué)下冊(cè)第四單元關(guān)心天氣第1課今天天氣怎么樣教案蘇教版
- 核心素養(yǎng)導(dǎo)向下小學(xué)信息科技課程單元設(shè)計(jì)與實(shí)踐策略研究
- 員工保密培訓(xùn)
- 小班防詐騙安全
- 2024-2025學(xué)年八年級(jí)化學(xué)滬科版(五四學(xué)制)全一冊(cè)上學(xué)期期末復(fù)習(xí)卷①
- 汽車保險(xiǎn)與理賠課件 7.3新能源汽車定損
- 當(dāng)代青年信仰研究報(bào)告
- GB/T 42455.2-2024智慧城市建筑及居住區(qū)第2部分:智慧社區(qū)評(píng)價(jià)
- 物流倉(cāng)儲(chǔ)設(shè)備維護(hù)保養(yǎng)手冊(cè)
- 農(nóng)商銀行小微企業(yè)續(xù)貸實(shí)施方案
- 2024年山西廣播電視臺(tái)招聘20人歷年高頻500題難、易錯(cuò)點(diǎn)模擬試題附帶答案詳解
- 2024山西太原文化局直屬事業(yè)單位招聘30人歷年高頻500題難、易錯(cuò)點(diǎn)模擬試題附帶答案詳解
評(píng)論
0/150
提交評(píng)論