




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
哈爾濱華德學(xué)院畢業(yè)設(shè)計(jì)(論文)PAGEI-哈爾濱工業(yè)大學(xué)畢業(yè)設(shè)計(jì)(論文)I-摘要隨著Internet網(wǎng)絡(luò)信息的快速發(fā)展,個(gè)性化信息服務(wù)已經(jīng)越來越成為信息檢索領(lǐng)域的熱點(diǎn),對(duì)于不同背景不同興趣愛好的人,要想找到自己想要的信息這是一項(xiàng)巨大的挑戰(zhàn),個(gè)性化信息檢索滿足了這一要求,而其中最難的就是用戶興趣模型的建立,能夠有效識(shí)別用戶興趣偏好是個(gè)性化服務(wù)的關(guān)鍵技術(shù);用戶興趣偏好挖掘需要解決的問題包括收集用戶信息、如何收集這些信息、收集到信息如何組織、表示和存儲(chǔ);如何在收集到的信息基礎(chǔ)上,采用合理的技術(shù)和模型進(jìn)行分析和處理以獲取用戶檢索偏好;用戶的信息和興趣如何自適應(yīng)的跟蹤、學(xué)習(xí)與更新等問題。我所設(shè)計(jì)的中心思想是,用戶注冊(cè)登錄到個(gè)性化搜索引擎,根據(jù)用戶注冊(cè)的興趣信息以及用戶提交的檢索查詢?cè)~來反映用戶的興趣,從而返回用戶感興趣的內(nèi)容。關(guān)鍵詞:個(gè)性化搜索引擎;用戶興趣挖掘;用戶模型AbstractWiththerapiddevelopmentofInternet,thenumberofaccessibleWebpagehasbeenexpontialgrowthontheInternet.Fordifferent
peopleofdifferentinterests,Inordertofind
theinformationtheywant
,thisis
ahugechallenge.Personalizedinformationretrieval
tomeet
thisrequirement,
anditis
themostdifficultofthe
user
interestmodel
establishment,thispagedesignsindentifygeneraluserpreferencecategoriesbutalsoindentifyuserprefereececategorythatbelongtodifferentcatetoryquery.Thispaperresearchthemethodofuserpreferencemining.Thecentralidea
ofmydesign,
userloginandregister
tothe
personalizedsearchengine,
to
reflecttheuser
interest
basedonuser
registration
information
andinterestin
theuser'sretrieval
querywords,
which
returnsthe
userinterestedcontent.Keywords:Personalizedsearch
engine
user
interestmining
usermodel目錄摘要 IAbstract II第1章緒論 11.1課題背景 11.2目的和意義 11.3國內(nèi)外研究現(xiàn)狀 2第2章搜索引擎概述 62.1個(gè)性化搜索引擎 62.2搜索引擎的工作原理 72.3搜索引擎的發(fā)展 8第3章用戶興趣挖掘 83.1用戶興趣挖掘流程 93.1.1用戶信息采集 93.1.2用戶信息表達(dá)方法 103.1.3用戶興趣分析建模 11第4章個(gè)性化搜索系統(tǒng)總體設(shè)計(jì) 134.1系統(tǒng)總體設(shè)計(jì) 144.1.1網(wǎng)絡(luò)爬蟲程序 144.1.2用戶端 154.2系統(tǒng)數(shù)據(jù)庫設(shè)計(jì) 16第5章系統(tǒng)實(shí)現(xiàn) 195.1系統(tǒng)流程設(shè)計(jì) 19第6章系統(tǒng)測(cè)試 22結(jié)論 27致謝 28參考文獻(xiàn) 29附錄1譯文 31附錄2英文參考資料 34第1章緒論1.1課題背景隨著Internet技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)中的信息量也大大的增多,這使得許多的用戶能夠享受豐富的網(wǎng)上資源信息,然而在如此多的信息量面前,不同的用戶的需求也會(huì)有所不同,這與用戶的個(gè)人信息以及背景、喜好都息息相關(guān)。傳統(tǒng)的檢索系統(tǒng)已經(jīng)無法滿足這些用戶的需求。因此,如何有效的識(shí)別用戶類別偏好,如何有效的提取用戶的個(gè)人以及興趣信息就十分的有必要。解決這些問題的關(guān)鍵在于從傳統(tǒng)的用戶單一提交搜索關(guān)鍵詞獲取到所需頁面變成用戶主動(dòng)的像瀏覽器提交個(gè)人信息,用戶個(gè)人的興趣取向,結(jié)合用戶提交的檢索關(guān)鍵詞,通過算法分析,總結(jié)出用戶的興趣度,返還給用戶感興趣的頁面信息。個(gè)性化服務(wù)要首先滿足用戶的需要,學(xué)習(xí)到網(wǎng)民的興趣所向,個(gè)性化搜索系統(tǒng)通過學(xué)習(xí)用戶興趣,來滿足用戶的所需,個(gè)性化的搜索能夠從分提高用戶的體驗(yàn),從而吸引來更多的使用用戶。個(gè)性化服務(wù)實(shí)現(xiàn)興趣對(duì)應(yīng)、按需求服務(wù)、信息推薦出去并減少用戶的負(fù)擔(dān),個(gè)性化搜索服務(wù)首先需要建立用戶個(gè)人信息庫,只有用戶的個(gè)人信息能夠很好的表達(dá)出來時(shí),個(gè)性化的搜索系統(tǒng)才能夠更多地被運(yùn)用。1.2目的和意義根據(jù)有效統(tǒng)計(jì),中國網(wǎng)民規(guī)模已經(jīng)達(dá)到了相當(dāng)龐大的數(shù)量,搜索引擎的應(yīng)用是用戶主要的信息獲取渠道之一。使用率在不斷的升高。搜索引擎的發(fā)展經(jīng)歷了目錄海量搜索、刪出垃圾網(wǎng)頁、專業(yè)、定向、高準(zhǔn)確性和匹配性等幾個(gè)階段,但搜索引擎的整體框架和所使用的技術(shù)并沒有根本性的改變。而搜索引擎缺乏個(gè)性化的弊端卻日益突出,具體表現(xiàn)在網(wǎng)絡(luò)信息日益增長(zhǎng),種類繁多,而傳統(tǒng)搜索引擎對(duì)所有用戶提供相同的界面和服務(wù),并且檢索的結(jié)果成千上萬、良莠不齊,用戶為找到真正感興趣的信息,這就需要消耗大量的時(shí)間和精力。
不同的個(gè)體體現(xiàn)出的特征和行為習(xí)慣都有所不同,人們所喜愛的事物也有所不同,他們對(duì)檢索關(guān)鍵詞的理解也不盡相同,不同的用戶對(duì)于縮減入的同一個(gè)詞語的反應(yīng)也不同。因?yàn)橐恍﹥?nèi)在或外在的因素,用戶在輸入同一個(gè)詞時(shí),得到的返回頁面都是一樣的,這樣會(huì)使用戶很難滿足自己的需求。用戶在鍵入關(guān)鍵詞時(shí),會(huì)有很多的前提條件,但由于個(gè)體的差異,用戶在想要得到自己想要得到的頁面信息時(shí)就出現(xiàn)了困難。本課題通過提取用戶個(gè)人的注冊(cè)信息,用戶的興趣信息,開發(fā)并實(shí)現(xiàn)了一個(gè)基于用戶興趣的個(gè)性化搜索引擎,提高搜索效率。其中,在本文中需要考慮到的問題:搜索引擎源數(shù)據(jù)的獲取:即如何從如此大量的網(wǎng)絡(luò)資源中獲取到信息,如何采集用戶的興趣,例如用戶喜好的興趣類別進(jìn)行歸納總結(jié),借助一些算法,生成用戶興趣模式,而在這其中最難辦到的就是學(xué)習(xí)算法的采用,即如何設(shè)計(jì)一個(gè)簡(jiǎn)單明了,又條理清晰的學(xué)習(xí)算法來計(jì)算出用戶對(duì)某一興趣的興趣度,這其中會(huì)涉及到很多的知識(shí),例如中文分詞技術(shù),自動(dòng)聚類技術(shù),頁面分類技術(shù)以及數(shù)學(xué)建模等等。1.3國內(nèi)外研究現(xiàn)狀在早期建立的個(gè)性化服務(wù),建模技術(shù)并沒有得到應(yīng)有的重視,大量的研究集中在實(shí)現(xiàn)個(gè)性化服務(wù)的一個(gè)特定的技術(shù),如推薦技術(shù),信息檢索技術(shù),用戶聚類技術(shù)等,用戶建模技術(shù)是在這些技術(shù)進(jìn)行了簡(jiǎn)單介紹,但隨著個(gè)性化服務(wù)的發(fā)展和研究的深入,研究者逐漸實(shí)現(xiàn)個(gè)性化服務(wù),質(zhì)量不僅取決于推薦技術(shù),具體的檢索技術(shù),興趣也取決于用戶的利益可以計(jì)算描述,后者是更重要的。因此,近年來,對(duì)用戶建模技術(shù)的研究開始傳播,作為個(gè)性化服務(wù)中的基礎(chǔ)技術(shù)來研究。目前,國外的一些大學(xué)研究機(jī)構(gòu)易經(jīng)研究出簡(jiǎn)單的用戶興趣模型了,例如Syskill&Webert,它是一個(gè)web導(dǎo)航工具,是針對(duì)單用戶的系統(tǒng),它可以搜集用戶對(duì)當(dāng)前瀏覽頁面的評(píng)價(jià),通過這些評(píng)價(jià)過的web頁面,逐漸學(xué)習(xí)用戶的興趣模型。系統(tǒng)要求用戶一開始要提交自己感興趣的主題,在瀏覽的過程中,系統(tǒng)不能檢測(cè)用戶新的興趣主題生成,必須由用戶手動(dòng)提交新的興趣主題,但隨著評(píng)價(jià)頁面的增多,個(gè)性化模型也都會(huì)不斷的更新,能夠適應(yīng)用戶的興趣變化。Letizia系統(tǒng)通過收集用戶在瀏覽器上的瀏覽行為,采用啟發(fā)式的規(guī)則集,對(duì)記錄的瀏覽行為建模,從而產(chǎn)生用戶的個(gè)性化模型。系統(tǒng)不要求用戶進(jìn)行顯示評(píng)價(jià),主要通過分析用戶的瀏覽行為來收集用戶的興趣取向。PersonalWebWatchers屬于個(gè)性化推薦系統(tǒng),系統(tǒng)通過記錄用戶瀏覽的頁面以及觀察用戶對(duì)超鏈接的選擇,推斷用戶瀏覽過的頁面屬于感興趣的興趣類,反之屬于不感興趣的類別,分別作為訓(xùn)練的正例或反例,而后通過計(jì)算單字與類別的互信息,選擇反映用戶模型的關(guān)鍵字,構(gòu)建用戶模型。國內(nèi)的研究者對(duì)用戶建模也展開了一些研究,一些文獻(xiàn)中提出根據(jù)用戶提交的實(shí)例文檔,通過考察特征、段落和類別的表達(dá)能力構(gòu)建用戶興趣模型?;蛘呤菍⒂脩舳鄠€(gè)感興趣的類別組合到一起的用戶建模技術(shù)。不過總的來說,作為個(gè)性化服務(wù)的基礎(chǔ)和核心技術(shù),用戶建模技術(shù)還處于起步間斷,還沒有形成完整的體系,還有許多的關(guān)鍵技術(shù)需要解決。與此同時(shí),用戶模型是推薦系統(tǒng)產(chǎn)生個(gè)性化搜索和推薦的主要知識(shí)源,其捕捉用戶真實(shí)偏好的能力在很大程度上決定了推薦的成功與否。從應(yīng)用要求看,用戶模型應(yīng)當(dāng)包含個(gè)體用戶的興趣模型和群體用戶的行為模型。顯然,個(gè)體用戶興趣模型側(cè)重于個(gè)體用戶的興趣發(fā)現(xiàn)和描述問題;群體用戶行為模型側(cè)重于群體用戶訪問行為以及群體用戶和資源對(duì)象或資源項(xiàng)目之間的關(guān)系或特征模式分析。基于用戶興趣模型,可以開展興趣資源推薦,即針對(duì)當(dāng)前訪問的某個(gè)特定用戶,主動(dòng)將跟該用戶興趣內(nèi)容一致或相似的資源對(duì)象呈現(xiàn)出來。基于群體用戶的訪問行為和用戶興趣模型可以開展協(xié)同資源推薦,幫助用戶發(fā)現(xiàn)新的、可能感興趣的資源。對(duì)社交網(wǎng)絡(luò)研究提供應(yīng)用價(jià)值。隨著個(gè)性化服務(wù)的發(fā)展和研究深入,研究者逐漸意識(shí)到個(gè)性化服務(wù)的質(zhì)量取決于用戶興趣和偏好等技術(shù),尤其是用戶模型質(zhì)量直接關(guān)系到個(gè)性化服務(wù)和個(gè)性化推薦技術(shù)的質(zhì)量。本文研究了怎么能夠通過用戶提交個(gè)人信息來學(xué)習(xí)用戶興趣進(jìn)行個(gè)性化搜索,進(jìn)一步改進(jìn)查詢精確度。意識(shí)到個(gè)性化搜索中用戶興趣挖掘研究的重要性問題后,大量重要技術(shù)問題需要強(qiáng)調(diào)。首先,本文需要開發(fā)一個(gè)能夠合理表明用戶搜索歷史的用戶興趣模型。用戶興趣能夠通過他的點(diǎn)擊歷史進(jìn)行學(xué)習(xí)。其次設(shè)計(jì)一個(gè)有效的方法,通過分析用戶點(diǎn)擊歷史來學(xué)習(xí)用戶興趣類別偏好。最后要考慮排序機(jī)制。很明顯,用戶查詢是最有效的能夠表明用戶搜索意圖的信息。絕大多數(shù)現(xiàn)有搜索系統(tǒng)僅僅依靠查詢來滿足用戶信息,但是,由于查詢串較短,存在歧義問題等等。有效解決該問題的方法是使用用戶提供相關(guān)反饋文檔即用戶對(duì)該信息滿意的文檔,通過相關(guān)反饋方法改進(jìn)用戶興趣模型。相關(guān)反饋方法對(duì)于改進(jìn)檢索精確度十分有效??傊脩襞d趣挖掘大體分為顯式用戶興趣挖掘和隱式用戶興趣挖掘兩種方法。顯式用戶興趣挖掘是通過用戶注冊(cè)信息或用戶提交檢索關(guān)鍵詞來進(jìn)行挖掘,要求用戶對(duì)推薦的資源進(jìn)行反饋和評(píng)價(jià),從而達(dá)到學(xué)習(xí)的目的,優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單,無需對(duì)系統(tǒng)進(jìn)行訓(xùn)練,可以快速得到用戶興趣;缺點(diǎn)是完全依賴用戶,用戶很難準(zhǔn)確、全面描述自己的興趣及其興趣度。隱式用戶興趣挖掘又可以分為日志挖掘和內(nèi)容及其相關(guān)反饋方法。具體的日志挖掘是在大規(guī)模日志基礎(chǔ)上進(jìn)行相關(guān)分析,分析用戶上網(wǎng)行為特點(diǎn),例如:瀏覽時(shí)間、保存、收藏、鼠標(biāo)滾動(dòng)、翻頁等相關(guān)行為。優(yōu)點(diǎn)是通過挖掘用戶日志,可以推測(cè)用戶興趣,基本不依賴用戶。缺點(diǎn)是瀏覽行為表示方法難于統(tǒng)一。相關(guān)反饋方法是通過用戶在瀏覽過程中對(duì)頁面標(biāo)注感興趣程度來進(jìn)行挖掘興趣,優(yōu)點(diǎn)實(shí)現(xiàn)簡(jiǎn)單,可以動(dòng)態(tài)更新用戶興趣;缺點(diǎn)是依賴用戶與系統(tǒng)的交互,降低了個(gè)性化服務(wù)質(zhì)量,移動(dòng)設(shè)備例如掌上電腦、移動(dòng)電話、個(gè)人數(shù)字助、無線網(wǎng)絡(luò)的個(gè)性化技術(shù)將是個(gè)性化搜索技術(shù)未來課題研究的挑戰(zhàn)。目前看來,個(gè)性化搜索以及個(gè)性化的一切服務(wù)的有關(guān)研究雖看起來突飛猛進(jìn),但具體來講,個(gè)性化的服務(wù)還沒有達(dá)到一個(gè)普及的地步,用戶在使用傳統(tǒng)的搜索引擎去挖掘網(wǎng)上的信息資源時(shí),得到的一切都是千人一面的結(jié)果,隨著網(wǎng)絡(luò)信息量的不斷增加,用戶在使用傳統(tǒng)搜索引擎的體驗(yàn)也大大降低了,用戶不能有效的根據(jù)自己的喜好得到自己想要的搜索結(jié)果。因此,國內(nèi)外的專家以及學(xué)者都在近幾年的時(shí)間里努力研究個(gè)性化服務(wù)的相關(guān)技術(shù),例如個(gè)性化推薦系統(tǒng)、個(gè)性化的微博系統(tǒng)、個(gè)性化的搜索引擎,總之,軟件已經(jīng)越來越向著面向用戶而發(fā)展,一切都是為了用不同的用戶能得到不同的自己想要的使用體驗(yàn),個(gè)性化的服務(wù)在國外已經(jīng)有所小成,但是國內(nèi)由于研究起步時(shí)間較晚,現(xiàn)在還處于出級(jí)階段,個(gè)性化的服務(wù)已經(jīng)不僅僅是專家學(xué)者需要探討研究的問題,它也是需要我們這些本專業(yè)的學(xué)生能夠積極地去探索,去發(fā)現(xiàn),并努力研究的課題,個(gè)性化的服務(wù)會(huì)使用戶的服務(wù)體驗(yàn)達(dá)到一個(gè)新的高度,用戶能夠根據(jù)個(gè)人的喜好自由選擇自己喜歡的類型,自己想要的搜索結(jié)果,總之,個(gè)性化的服務(wù)是未來搜索引擎以及諸多軟件發(fā)展的必然趨勢(shì)。
第2章搜索引擎概述2.1個(gè)性化搜索引擎?zhèn)€性化搜索引擎是一個(gè)基于用戶的檢索關(guān)鍵詞和個(gè)人興趣的信息的搜索引擎,根據(jù)用戶的搜索歷史,返回用戶感興趣的頁面。這些用戶的搜索歷史,曾經(jīng)所得到的的網(wǎng)站表示搜索結(jié)果,書簽等。掌握這些用戶信息對(duì)于搜索引擎的分析上很有幫助,在用戶搜索新的關(guān)鍵詞時(shí),可以返回更有針對(duì)性的搜索結(jié)果,從而提高用戶體驗(yàn)。這是對(duì)于技術(shù)和互聯(lián)網(wǎng)的一些策略以及發(fā)現(xiàn)的信息的理解,信息的提取與處理,為用戶提供服務(wù)的網(wǎng)絡(luò)搜索的搜索引擎有不同的分類方法。按照信息內(nèi)容的劃分,搜索引擎可分為綜合型搜索引擎,專業(yè)搜索引擎和特殊的搜索引擎;根據(jù)搜索工具劃分,搜索引擎可以分為單一的搜索引擎,元搜索引擎和集成搜索引擎;根據(jù)信息組織模式的分類,搜索發(fā)動(dòng)機(jī)可分為目錄式搜索引擎,全文搜索引擎和混合搜索引擎。
以下是按信息的組織方式劃分的三類搜索引擎:
(l)目錄式搜索引擎,或稱按主題查詢型搜索引擎,是將信息分門別類,按照傳統(tǒng)的分類方式分為各級(jí)目錄。它的特點(diǎn)是質(zhì)量和匹配精度較高,不足之處是搜索范圍較小,查全率較低。(2)全文搜索引擎,或稱按關(guān)鍵字查詢型搜索引擎,對(duì)各網(wǎng)站的每個(gè)頁面中的每個(gè)詞進(jìn)行搜索。它的特點(diǎn)是信息量很大,查全率較高。不足的是它提供的信息太多,反而降低了查準(zhǔn)率。
(3)混合型搜索引擎是針對(duì)全文和目錄搜索引擎的缺點(diǎn)而設(shè)計(jì)的。使用戶在分類目錄中瀏覽,保證了一定的查準(zhǔn)率,又可以使用戶進(jìn)行全文檢索,查找特定資源。2.2搜索引擎的工作原理搜索引擎大致可分為網(wǎng)絡(luò)爬蟲、索引器、檢索器和用戶接口四個(gè)部分組成。網(wǎng)絡(luò)爬蟲又稱為網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)爬蟲,又稱網(wǎng)絡(luò)機(jī)器人,它不停的從網(wǎng)絡(luò)上下載文檔并抽取出新的鏈接,循環(huán)的實(shí)現(xiàn)對(duì)萬維網(wǎng)的遍歷。它在一個(gè)完整的運(yùn)行周期內(nèi)可以下載超過千萬的網(wǎng)頁,并將這些文檔保存在本地文本數(shù)據(jù)庫,最后由索引器負(fù)責(zé)完成頁面內(nèi)容的全文索引。本程序中便會(huì)使用到網(wǎng)絡(luò)爬蟲程序。為分析收集回來的網(wǎng)頁索引,提取相關(guān)的信息(包括網(wǎng)頁的URL,編碼類型,頁面包含關(guān)鍵詞,關(guān)鍵詞位置,生成時(shí)間,大小,和其他網(wǎng)頁的鏈接關(guān)系),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜的計(jì)算,得到每個(gè)網(wǎng)頁和超鏈中的每一個(gè)關(guān)鍵詞的相關(guān)性,然后利用這些信息建立網(wǎng)頁索引數(shù)據(jù)庫。查詢器:從用戶的角度來看,查詢算法是一個(gè)搜索引擎的檢索質(zhì)量的最重要的決定因素。各種基本的數(shù)據(jù)庫查詢的搜索引擎索引數(shù)據(jù)庫的使用,如網(wǎng)頁的全文索引的數(shù)據(jù)庫,HTML標(biāo)簽庫,超鏈接分析的基礎(chǔ)上,查詢多個(gè)數(shù)據(jù)源的歷史數(shù)據(jù)庫,實(shí)現(xiàn)快速、準(zhǔn)確的匹配用戶輸入的關(guān)鍵詞。用戶接口提供一系列的查詢選項(xiàng)以滿足不同的查詢要求。一般的搜索引擎系統(tǒng)都支持布爾表達(dá)式操作、搜索域名范圍限制、查詢網(wǎng)頁的語種,甚至可以選擇文檔的類別。合理的設(shè)置查詢選項(xiàng)可以大大的減少搜索結(jié)果中的無效內(nèi)容,提高查詢效率。本系統(tǒng)所采用的爬蟲程序,根據(jù)所鍵入的網(wǎng)址,來爬去相關(guān)網(wǎng)址上的頁面信息,包括網(wǎng)頁的鏈接、網(wǎng)頁的標(biāo)簽信息、網(wǎng)頁的元信息等等,最后根據(jù)爬取到的信息在控制臺(tái)程序部分的分析器里進(jìn)行頁面的篩選分類,將處理完的頁面進(jìn)行索引建立,存儲(chǔ)到用戶的頁面數(shù)據(jù)庫中,等用戶使用本系統(tǒng)時(shí),系統(tǒng)會(huì)從數(shù)據(jù)庫中抓取出頁面作為返回結(jié)果返還給用戶。但爬蟲程序在運(yùn)行時(shí)需要大量的時(shí)間去挖掘數(shù)據(jù),這是一個(gè)弊端。2.3搜索引擎的發(fā)展萬維網(wǎng)搜索結(jié)果,目前幾乎是在一個(gè)列表的形式體現(xiàn)出來的,查詢的質(zhì)量不平衡,組織結(jié)構(gòu)不合理,但由于技術(shù)是有效的,成熟的,在未來一段時(shí)間內(nèi),這一技術(shù)也將在搜索領(lǐng)域占據(jù)絕對(duì)重要的地位。為了進(jìn)一步提高檢索質(zhì)量,未來的搜索引擎應(yīng)該在以下幾個(gè)方面有所突破:在輸入方面,使用自然語言輸入,使用更方便,用戶交互,使得用戶和搜索引擎更容易合作,能夠更大程度地表達(dá)用戶的查詢要求,這有助于提高查詢的準(zhǔn)確度。在返回的結(jié)果上,應(yīng)充分發(fā)揮搜索結(jié)果的預(yù)處理能力,在集成方面,考慮到人的個(gè)性差異,年齡,性別,地理方面的個(gè)體差異。一方面,搜索引擎通過不斷的學(xué)習(xí)來掌握用戶的喜好,通過挖掘搜索習(xí)慣和感興趣的內(nèi)容,自動(dòng)選擇合適的成員搜索引擎的搜索目的。另一方面,對(duì)用戶輸入的查詢其他方式,如語音,圖像,視頻等,實(shí)現(xiàn)智能查詢轉(zhuǎn)換函數(shù),從而得到預(yù)想的結(jié)果。專業(yè)搜索引擎是一個(gè)很好的概念,不僅是網(wǎng)絡(luò)資源可挖深比一般的搜索引擎更廣泛,搜索的負(fù)擔(dān)會(huì)很小。本章小結(jié)本章主要對(duì)于搜索引擎作了一個(gè)簡(jiǎn)單的概述,對(duì)于搜索引擎的基本分類,搜索引擎的大致組成以及搜索引擎的工作原理,搜索引擎各部分的功能以及重要性進(jìn)行了簡(jiǎn)單明了的闡述。同時(shí),對(duì)于搜索引擎的發(fā)展前景作了展望,搜索引擎的飛速發(fā)展使得用戶在瀏覽網(wǎng)頁信息時(shí)變得更加容易,在廣大網(wǎng)民的支持和有關(guān)專家的努力研究下,搜索引擎會(huì)步入一個(gè)嶄新的篇章,從傳統(tǒng)意義上簡(jiǎn)單的實(shí)現(xiàn)用戶與網(wǎng)上信息的交互溝通變得更加智能化、個(gè)性化、專業(yè)化。第3章用戶興趣挖掘個(gè)性化搜搜索引擎中一個(gè)重要的模塊就是用戶興趣模型的構(gòu)建,而用戶興趣模型構(gòu)建的重點(diǎn)在于挖掘用戶興趣喜好類別。如何采納一個(gè)好的學(xué)習(xí)算法表示用戶興趣類別就十分的具有難度。采用資源分類方法來表示用戶的興趣類別,本文應(yīng)爬蟲程序中分析其的分類技術(shù)在用戶興趣模型中,有效識(shí)別用戶興趣類別偏好。用戶輸入檢索關(guān)鍵詞給搜索引擎,搜索引擎返回搜索結(jié)果,如果用戶對(duì)某一類感興趣,用戶會(huì)對(duì)該類的文檔進(jìn)行瀏覽,通過用戶鍵入的檢索關(guān)鍵詞以及用戶注冊(cè)時(shí)填寫的興趣類信息,通過用戶模型將查詢映射到對(duì)應(yīng)類別體系。用戶興趣模型有效識(shí)別用戶興趣偏好類別后,對(duì)與之相關(guān)的資源進(jìn)行推薦、信息過濾等相關(guān)技術(shù)起到良好作用。3.1用戶興趣挖掘流程用戶興趣挖掘的大致過程可分為用戶信息數(shù)據(jù)的采集、用戶信息的表達(dá)方法、用戶興趣分析建模以及用戶興趣更新與學(xué)習(xí)四個(gè)方面。首先用戶需要有信息數(shù)據(jù)的采集工作,獲取到用戶信息后,就需要合理的表示用戶的信息,經(jīng)過分析用戶興趣偏好來構(gòu)建用戶的興趣模型,最后根據(jù)用戶的興趣變化規(guī)律,需要對(duì)用戶興趣進(jìn)行更新學(xué)習(xí)。3.1.1用戶信息采集用戶通過搜索引擎查詢,然后查看相關(guān)文檔,需要網(wǎng)絡(luò)爬蟲系統(tǒng)根據(jù)用戶點(diǎn)擊的URL下載網(wǎng)頁信息,然后通過正文抽取,抽取正文內(nèi)容。用戶信息的采集有多種方法包括:用戶自主提供,客戶端軟件跟蹤,服務(wù)器端跟蹤學(xué)習(xí)與信息挖掘等。用戶模型數(shù)據(jù)獲取方法大體可以包括顯式信息挖掘和隱式信息挖掘:顯式信息的收集由用戶給搜索系統(tǒng)提供相關(guān)信息表達(dá)其興趣、偏好、檢索意圖以及對(duì)檢索結(jié)果做出的評(píng)價(jià)和反饋的信息。顯式信息是由用戶主觀能動(dòng)提供給系統(tǒng)的信息,這些信息可能包括:用戶背景信息主要包括用戶提供的性別、年齡、學(xué)歷、專業(yè)和職務(wù)等。這些信息有利于了解用戶的興趣背景,并針對(duì)某些特定的領(lǐng)域,使用統(tǒng)計(jì)信息對(duì)用戶進(jìn)行聚類或分類,來挖掘用戶潛在的檢索偏好和意圖。用戶興趣偏好是指在特定的興趣分類的體系框架下,由用戶選定的自己感興趣的信息類別。這種方法能夠快速的收集用戶的興趣信息,比較準(zhǔn)確地反映用戶的需求和興趣。用戶檢索意圖不再僅僅局限在一個(gè)關(guān)鍵字或幾個(gè)關(guān)鍵字的邏輯組合,還可以引入更符合用戶習(xí)慣的自然語言查詢,增加用戶表達(dá)其檢索意圖的途徑,讓用戶提供盡可能多的語言信息。評(píng)價(jià)與反饋即基于相關(guān)反饋的技術(shù),通過用戶對(duì)返回的部分結(jié)果進(jìn)行標(biāo)定來確定用戶的興趣類別偏好,然后對(duì)搜索結(jié)果重新排序。隱式信息挖掘是指通過對(duì)用戶的瀏覽行為進(jìn)行跟蹤而得到的隱式信息。提出隱式用戶興趣挖掘,過程包括挖掘用戶行為、表示用戶行為特征、構(gòu)建用戶模型和識(shí)別用戶興趣模式。隱式信息的收集需要監(jiān)視用戶在WEB頁面的行為,例如采集用戶在某一頁面停留的時(shí)間、文檔的長(zhǎng)度、用戶訪問的URL地址和URL路徑的歷史等數(shù)據(jù),形成日志文件,通過分析該日志文件總結(jié)出用戶的特征數(shù)據(jù)。研究表明一定時(shí)間段的WEB訪問日志中蘊(yùn)含了用戶的穩(wěn)定興趣。這種方法對(duì)用戶透明,但用戶數(shù)據(jù)的收集往往需要一段較長(zhǎng)的時(shí)間。實(shí)驗(yàn)數(shù)據(jù)采用爬蟲程序收集網(wǎng)上信息到數(shù)據(jù)庫中,可收集各個(gè)搜索引擎中的網(wǎng)上資料。3.1.2用戶信息表達(dá)方法為了收集和存儲(chǔ)用戶信息,跟蹤用戶的興趣與行為,有必要為每個(gè)用戶建立一個(gè)用戶描述文件。用戶描述文件用來定義用戶信息在計(jì)算機(jī)內(nèi)的表達(dá)和存儲(chǔ)形式,刻畫用戶的興趣特征與用戶之間的關(guān)系。用戶信息表達(dá)方法為用戶建模服務(wù),如何有效表達(dá)用戶信息是用戶建模的核心技術(shù)問題,用戶搜索上網(wǎng)首先通過搜索引擎提交查詢串,搜索引擎系統(tǒng)返回給用戶相關(guān)文檔,用戶瀏覽相關(guān)文檔。本文將相關(guān)文檔放入用戶興趣庫,最后形成用戶興趣模型。用戶興趣隨著時(shí)間變化會(huì)發(fā)生變化。例如用戶對(duì)某類關(guān)注度很高,那么用戶在該類的興趣就會(huì)升高;人的情緒、環(huán)境等因素也影響用戶興趣變化,如果情緒低落等,用戶在某類的興趣可能減小,啟發(fā)本文要進(jìn)行用戶興趣更新學(xué)習(xí)。具體過程如圖3-1所示。網(wǎng)網(wǎng)頁文檔用戶用戶興趣模型搜索引擎系統(tǒng)互聯(lián)網(wǎng)資源互聯(lián)網(wǎng)資源用戶興趣庫用戶興趣庫圖3-1用戶興趣表示3.1.3用戶興趣分析建模用戶模型是用來表示和存儲(chǔ)在計(jì)算機(jī)用戶的形式化定義,描述用戶興趣特征和用戶興趣之間的關(guān)系,不同的用戶模型的個(gè)性化服務(wù)系統(tǒng)有其自身的特點(diǎn),采用用戶模型的形式往往與他們的數(shù)據(jù)源集合關(guān)聯(lián)。作為宏道用戶使用靜態(tài)信息來描述用戶背景;描述基于超鏈文件的加權(quán)關(guān)鍵詞向量個(gè)人WebWatcher方法;基于關(guān)鍵詞和表達(dá)語境關(guān)系的加權(quán)語義網(wǎng),描述用戶顯式和隱式反饋信息;PVA使用類型繼承。在該領(lǐng)域的知識(shí)來表達(dá)個(gè)人觀點(diǎn),描述代理日志信息;siteseer使用用戶的書簽和目錄結(jié)構(gòu)來描述自定義目錄類型。在一般情況下,從內(nèi)容的用戶模式可以分為兩類基于興趣和行為的基礎(chǔ)。用戶的興趣模型可以表示為一個(gè)加權(quán)矢量模型,類型層次結(jié)構(gòu)模型,加權(quán)語義網(wǎng)模型,書簽和目錄基于用戶模型結(jié)構(gòu);基于行為可以在瀏覽模式或用戶訪問模式表達(dá)。用戶興趣模型能否準(zhǔn)確有效地捕捉和描述用戶興趣并及時(shí)跟蹤反映其變化,將直接或間接決定過濾成功與否,由此可見用戶模型的重要性。用戶興趣模型是推薦系統(tǒng)中的一個(gè)模塊,是在計(jì)算機(jī)中建立的對(duì)用戶興趣特征的描述,能獲取、表示、存儲(chǔ)和修改用戶興趣偏好。能進(jìn)行推理,對(duì)用戶進(jìn)行分類和識(shí)別,幫助系統(tǒng)更好的理解用戶特征和類別,理解用戶的需求和任務(wù),從而更好的實(shí)現(xiàn)用戶所需要的功能。也就是說用戶興趣建模是從有關(guān)用戶興趣和行為的信息如訪問內(nèi)容、瀏覽行為、下載行為、背景知識(shí)等中歸納出可計(jì)算的用戶興趣表示的過程。用戶興趣建模的目的是為采集到的用戶信息提供形式化的描述手段;為基于用戶信息的分析和挖掘提供理論和方法;指導(dǎo)用戶信息在個(gè)性化信息檢索中的應(yīng)用。目前基于內(nèi)容的用戶興趣分析技術(shù)多為相關(guān)性分析技術(shù),通過建立的用戶興趣模型來計(jì)算用戶查詢和被檢索文檔的相關(guān)程度,達(dá)到個(gè)性化檢索和排序的目的。擬采取的研究方式內(nèi)容分析模型以向量空間模型為基礎(chǔ),研究基于用戶訪問的文本內(nèi)容的形式化描述手段和方法,并探索該模型在個(gè)性化信息檢索中的應(yīng)用,通過融合語言模型和相關(guān)性模型改進(jìn)向量模型忽視特征共現(xiàn)的缺點(diǎn),解決實(shí)際應(yīng)用中初始數(shù)據(jù)稀疏對(duì)用戶模型的影響。同時(shí)用戶建模通過向量空間模型構(gòu)建,可以把用戶預(yù)先給定的相關(guān)信息即用戶通過填表或上傳直接給定文本信息,或通過用戶在網(wǎng)絡(luò)上的訪問行為隱式獲取的文本信息,以及把用戶輸入的Query表示特征權(quán)重的向量空間,其中每個(gè)特征的權(quán)重通過TF*IDF進(jìn)行計(jì)算。然后采用向量空間夾角實(shí)時(shí)計(jì)算信息流與用戶模型的相關(guān)度,最后通過排序或設(shè)定閾值獲得相關(guān)信息。用戶的興趣并不是固定的,用戶模型是不固定的,用戶會(huì)因?yàn)橐恍﹤€(gè)人因素或外部因素,個(gè)人興趣也發(fā)生了改變,用戶模型應(yīng)該考慮更新模塊。這要求用戶模型根據(jù)用戶的變化來自適應(yīng)變化,隨時(shí)間的變化,用戶興趣的變化遵循一定的規(guī)則。本章小結(jié)本章主要對(duì)用戶興趣挖掘過程進(jìn)行了介紹,用戶興趣挖掘過程可以分為用戶興趣獲取,建立用戶信息和用戶模型的表達(dá)模式分析,用戶模型更新。其中,用戶信息的數(shù)據(jù)采集是收集用戶的在線信息,瀏覽的用戶的喜好,用戶偏好行為識(shí)別;用戶信息表達(dá)為用戶興趣建模服務(wù)的步驟,有效清晰的表達(dá)用戶信息是構(gòu)建高效用戶興趣模型的前提條件;用戶興趣分析與建模是核心部分,只有合理的用戶興趣模型才能反映出用戶的需求。第4章個(gè)性化搜索系統(tǒng)總體設(shè)計(jì)搜索技術(shù)中融入用戶興趣信息的采集,首先開發(fā)一個(gè)基于用戶的個(gè)性化搜索引擎系統(tǒng)。該系統(tǒng)能個(gè)性化的完成用戶的搜索行為,生成用戶興趣模式優(yōu)化搜索結(jié)果,優(yōu)先返回用戶感興趣的網(wǎng)頁內(nèi)容??傮w來說此系統(tǒng)的設(shè)計(jì)至少應(yīng)一該滿足以下幾點(diǎn)功能要求:用戶注冊(cè)登陸、用戶興趣錄入,得到搜索返回結(jié)果。生成特定用戶興趣模式,優(yōu)化搜索結(jié)果,優(yōu)先返回用戶感興趣的網(wǎng)頁內(nèi)容,提高檢索效率。4.1系統(tǒng)總體設(shè)計(jì)主要分為兩大部分,一個(gè)是控制臺(tái)程序,一個(gè)是用戶端,而每一部分都有其各自的功能,這些功能的詳細(xì)說明將在本章稍后闡明。4.1.1網(wǎng)絡(luò)爬蟲程序網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它是從萬維網(wǎng)搜索引擎進(jìn)行網(wǎng)頁下載,是搜索引擎的重要組成部分。傳統(tǒng)爬蟲從一個(gè)或多個(gè)初始網(wǎng)頁URL中得到初始的網(wǎng)頁,在網(wǎng)頁的抓取過程中,不斷從當(dāng)前頁的提取新的URL隊(duì)列,直到滿足系統(tǒng)必須停止條件。聚焦爬蟲的工作過程是更復(fù)雜的,根據(jù)一定的網(wǎng)頁分析算法過濾無關(guān)鏈接需要,保留有用的鏈接和放置在隊(duì)列中等待的URL捕獲。然后,它將根據(jù)一定的搜索策略選擇的網(wǎng)頁URL的隊(duì)列中檢索,并重復(fù)這個(gè)過程,直到達(dá)到系統(tǒng)停止?fàn)顟B(tài)。此外,所有被蜘蛛抓取的網(wǎng)頁將被存儲(chǔ),分析和篩選,并建立了索引,以便查詢和檢索;對(duì)聚焦爬蟲,通過這種方法得到的分析結(jié)果也可能是后反饋給在爬行過程的指導(dǎo)。網(wǎng)絡(luò)爬蟲的組成:在網(wǎng)絡(luò)爬蟲的體系框架中,主要由控制器,解析器,資源信息庫三部分的資源基礎(chǔ)組成。該控制器的主要工作是在多線程中分配工作任務(wù)負(fù)責(zé)執(zhí)行。分析器的主要工作是下載頁面,頁面處理,主要是一些JS腳本標(biāo)簽,CSS代碼內(nèi)容,空間特征,HTML標(biāo)簽,內(nèi)容處理,基本的工作是由解析器來完成。資源數(shù)據(jù)庫用于存儲(chǔ)下載的網(wǎng)站資源,一般由大型數(shù)據(jù)庫,如Oracle數(shù)據(jù)庫,并建立了索引??刂破骺刂破魇蔷W(wǎng)絡(luò)爬蟲的中央控制器,它主要是負(fù)責(zé)根據(jù)系統(tǒng)傳過來的URL鏈接,分配一線程,然后啟動(dòng)線程調(diào)用爬蟲爬取網(wǎng)頁的過程。解析器解析器是負(fù)責(zé)網(wǎng)絡(luò)爬蟲的主要部分,其負(fù)責(zé)的工作主要有:下載網(wǎng)頁的功能,對(duì)網(wǎng)頁的文本進(jìn)行處理,如過濾功能,抽取特殊HTML標(biāo)簽的功能,分析數(shù)據(jù)功能。資源庫主要是用來存儲(chǔ)網(wǎng)頁中下載下來的數(shù)據(jù)記錄的容器,并提供生成索引的目標(biāo)源。中大型的數(shù)據(jù)庫產(chǎn)品有:Oracle、SqlServer等。4.1.2用戶端本程序用戶端主要是用戶搜索界面,用戶的登錄,用戶的注冊(cè)的信息,用戶在注冊(cè)信息時(shí),所鍵入的興趣選擇信息,以及用戶提交搜索關(guān)鍵詞,最后,用戶得到經(jīng)過篩選之后與自己興趣相關(guān)的搜索結(jié)果。用戶端使用的是顯示興趣挖掘用戶的行為習(xí)慣,根據(jù)用戶的所選擇興趣來表示用戶的真實(shí)興趣,根據(jù)用戶的鍵入檢索關(guān)鍵詞和用戶所選擇的興趣來為用戶選擇相關(guān)的頁面內(nèi)容。下面通過個(gè)性化搜索的功能模塊圖來表示個(gè)性化搜索系統(tǒng)的相關(guān)功能,以及各模塊的組成部分。程序功能模塊圖如圖4-1所示。個(gè)性化搜索個(gè)性化搜索用戶端控制臺(tái)用戶端控制臺(tái)網(wǎng)絡(luò)資源重寫網(wǎng)絡(luò)資源重寫網(wǎng)絡(luò)資源下載網(wǎng)絡(luò)資源分析生成索引網(wǎng)絡(luò)資源存儲(chǔ)用戶登錄用戶注冊(cè)用戶興趣錄入提交檢索關(guān)鍵詞返回用戶查詢結(jié)果圖4-1功能結(jié)構(gòu)圖4.2系統(tǒng)數(shù)據(jù)庫的設(shè)計(jì)數(shù)據(jù)庫中含有四張表:用戶信息表、興趣信息與興趣名稱映射表、頁面信息表、用戶興趣映射表。接下來分別作介紹。1.用戶與用戶興趣映射表主要存儲(chǔ)指定用戶的所選興趣信息,包括了用戶ID,興趣ID兩方面的字段信息。如表4-1所示。表4-1用戶與用戶興趣映射表字段名稱字段類型字段說明UserIDint用戶idIntrestIDint興趣id2.頁面信息表主要是存儲(chǔ)頁面的各種信息,包括了網(wǎng)頁id、網(wǎng)頁主題、網(wǎng)頁鏈接、網(wǎng)頁內(nèi)容、網(wǎng)頁元信息等字段信息。如表4-2所示。表4-2頁面信息表字段名稱字段類型字段說明IDint網(wǎng)頁idTitleNvarchar(MAX)網(wǎng)頁主題UrlNvarchar(MAX)網(wǎng)頁鏈接ContentNvarchar(MAX)網(wǎng)頁內(nèi)容MetaNvarchar(MAX)頁面元信息3.用戶信息表主要是存儲(chǔ)用戶的個(gè)人信息,包括用戶登錄名、用戶密碼、用戶顯示名稱等字段信息。如表4-3所示。表4-3用戶信息表字段名稱字段類型字段說明UseNameNvchar(50)用戶登錄姓名PasswordNvchar(50)用戶密碼NickNameNvchar(50)用戶顯示名稱4.興趣id與興趣名稱映射表主要是存儲(chǔ)興趣類別的信息,包括興趣id,興趣名稱等字段信息。如表4-4所示。表4-4興趣id與興趣名稱映射表字段名稱字段類型字段說明IDint興趣idNameNvchar(50)興趣名稱如上的四張表為個(gè)性化搜索系統(tǒng)的數(shù)據(jù)庫表,其核心部分是用戶的ID,根據(jù)用戶的ID,表間關(guān)系聯(lián)系起來,用戶ID聯(lián)系著用戶在注冊(cè)時(shí)所選擇的興趣ID,興趣ID聯(lián)系著興趣類的名稱,從而形成了用戶興趣映射,根據(jù)這個(gè)映射,搜索系統(tǒng)可以優(yōu)先返回用戶選擇的興趣類以及檢索關(guān)鍵詞指向的頁面資源。數(shù)據(jù)庫E-R圖如圖4-2所示。屬于屬于屬于1屬于1n111圖4-2E-R圖本章小結(jié)本章主要對(duì)系統(tǒng)的總體設(shè)計(jì)進(jìn)行了闡述,系統(tǒng)主要分為控制臺(tái)部分和系統(tǒng)的用戶端部分,對(duì)于各部分的功能進(jìn)行了說明,控制臺(tái)部分主要用來抓取網(wǎng)上的資源信息,用戶端部分實(shí)現(xiàn)用戶通過興趣搜索得到想要的結(jié)果頁面。同時(shí),本章結(jié)尾處對(duì)于系統(tǒng)使用的數(shù)據(jù)庫4張表進(jìn)行了展示。
第5章系統(tǒng)實(shí)現(xiàn)5.1系統(tǒng)流程設(shè)計(jì)根據(jù)用戶登錄與否,程序時(shí)所得到的結(jié)果也會(huì)有所不同,用戶若不登錄,則不會(huì)出現(xiàn)興趣選擇;相反,若用戶提前登陸本系統(tǒng),用戶會(huì)先行進(jìn)行興趣選擇,用戶在使用本系統(tǒng)時(shí),系統(tǒng)會(huì)根據(jù)指定用戶的興趣選擇來選擇有限返還給用戶的網(wǎng)頁內(nèi)容。以下是系統(tǒng)各功能模塊的運(yùn)作流程:(1)用戶注冊(cè)、登錄訪問本搜索引擎的用戶可以以訪客,已注冊(cè)用戶身份來完成搜索功能,并且本系統(tǒng)可以對(duì)注冊(cè)用戶可以優(yōu)先返還用戶所選興趣的內(nèi)容。如圖5-1所示。開始開始用戶注冊(cè)用戶登錄用戶注冊(cè)用戶登錄數(shù)據(jù)庫中是否存在該用戶數(shù)據(jù)庫中是否存在該用戶?否密碼是否一致?是密碼是否一致?否是通過驗(yàn)證通過驗(yàn)證結(jié)束結(jié)束5-1用戶注冊(cè)、登錄流程圖(2)用戶搜索以下是用戶搜索的流程圖。用戶提交關(guān)鍵詞后,系統(tǒng)實(shí)現(xiàn)搜索功能,得到返回的搜索結(jié)果并且這些搜索結(jié)果會(huì)依據(jù)用戶興趣規(guī)則及時(shí)優(yōu)化處理,爭(zhēng)取達(dá)到優(yōu)先返回用戶感興趣的網(wǎng)頁內(nèi)容的效果。以下是用戶搜索流程圖,如圖5-2所示。開始開始用戶登錄用戶登錄用戶輸入檢索關(guān)鍵詞用戶輸入檢索關(guān)鍵詞用戶是否用戶是否已選擇感興趣的類?是否用戶用戶進(jìn)行興趣選擇根據(jù)用戶興趣返還搜索結(jié)果根據(jù)用戶興趣返還搜索結(jié)果結(jié)束結(jié)束圖5-2用戶搜索流程圖如上圖所示,用戶輸入檢索關(guān)鍵詞后,系統(tǒng)會(huì)判斷用戶感興趣類別的記錄,若沒有,則會(huì)返回用戶注冊(cè)界面,若有則會(huì)直接根據(jù)該關(guān)鍵詞返回給用戶相關(guān)的頁面,并根據(jù)用戶之前在注冊(cè)時(shí)選擇的興趣類,返回給用戶感興趣的內(nèi)容。本章小結(jié)本章主要對(duì)系統(tǒng)各部分的運(yùn)行過程做了簡(jiǎn)要的闡述,系統(tǒng)中用戶的登錄,注冊(cè)等功能,以及用戶在登陸與不登陸的執(zhí)行步驟都不一樣,用戶在登錄注冊(cè)后鍵入搜索關(guān)鍵字后系統(tǒng)所返回的內(nèi)容都是不一樣的,系統(tǒng)會(huì)優(yōu)先返回用戶在注冊(cè)是與用戶自身所選興趣有關(guān)的頁面,這樣會(huì)顯得更加個(gè)性化一些。用戶在注冊(cè)時(shí)會(huì)有選擇興趣類的選項(xiàng),該選項(xiàng)中的興趣類將會(huì)決定用戶在今后使用本系統(tǒng)時(shí),系統(tǒng)所返回的搜索結(jié)果。同時(shí),本系統(tǒng)所使用的一切網(wǎng)上資源,都是通過控制臺(tái)部分的爬蟲程序在網(wǎng)頁上抓取到網(wǎng)上的網(wǎng)頁資源,網(wǎng)絡(luò)信息則是由控制臺(tái)部分的網(wǎng)絡(luò)查詢分析器將抓取到的網(wǎng)站資源進(jìn)行分門別類,最后建立索引,匯總到用戶的網(wǎng)站資源數(shù)據(jù)庫表項(xiàng)中,用戶在使用本系統(tǒng)后,就會(huì)根據(jù)各自選擇的興趣類,得到不同的搜索結(jié)果集。第6章系統(tǒng)測(cè)試本章將演示系統(tǒng)運(yùn)行的界面以及用一些實(shí)驗(yàn)數(shù)據(jù)測(cè)試系統(tǒng)的運(yùn)行過程。首先演示本系統(tǒng)的控制臺(tái)部分:如下圖為爬蟲程序啟動(dòng),系統(tǒng)所需要的頁面都是通過此爬蟲程序從網(wǎng)上爬取到的,在這里用在淘寶網(wǎng)上抓取頁面為例。爬蟲程序的啟動(dòng)頁面如圖6-1所示。圖6-1控制臺(tái)啟動(dòng)界面爬蟲程序啟動(dòng)后,輸入想要抓取的網(wǎng)站鏈接,按下回車鍵,爬蟲程序就會(huì)開始運(yùn)行并從所輸入的網(wǎng)站中抓取頁面信息,,將抓取到的頁面保存到數(shù)據(jù)庫中。其抓取的信息包括網(wǎng)頁鏈接、網(wǎng)頁主題、網(wǎng)頁的標(biāo)簽以及網(wǎng)頁的元信息這些對(duì)于建立索引起著至關(guān)重要的作用。爬蟲程序的運(yùn)行界面如圖6-2所示。圖6-2控制臺(tái)運(yùn)行界面接著打開用戶端的界面,如圖6-3所示。圖6-3程序主界面打開程序的主界面后,需要用戶進(jìn)行登錄注冊(cè)個(gè)人信息以及個(gè)人的興趣選擇,注冊(cè)信息登錄名為xiaoli,系統(tǒng)所顯示的用戶名為“小李”,設(shè)置密碼并選擇用戶個(gè)人感興趣的類別,體育類。用戶注冊(cè)界面如圖6-4所示。圖6-4用戶注冊(cè)界面用戶注冊(cè)完個(gè)人信息后,系統(tǒng)會(huì)將用戶注冊(cè)的信息添加到用戶個(gè)人新信息數(shù)據(jù)庫中,并跳轉(zhuǎn)到用戶的登陸界面,允許用戶進(jìn)行登錄。在用戶進(jìn)行注冊(cè)時(shí),最好能將個(gè)人所喜歡的興趣類別選中,這樣更有利于用戶在今后的搜索過程中容易的得到自己想要的搜索結(jié)果。用戶登錄界面如圖6-5所示。圖6-5用戶登錄界面用戶登錄完成后,用戶在文本框中編輯要輸入的查詢?cè)~,系統(tǒng)將會(huì)返回給用戶所需要的頁面,系統(tǒng)返回給用戶的頁面集界面如圖6-6所示。圖6-6返回結(jié)果界面本章小結(jié)本章主要介紹了系統(tǒng)的運(yùn)行界面部分,系統(tǒng)分為控制臺(tái)和用戶端兩個(gè)部分,系統(tǒng)經(jīng)過控制臺(tái)來抓取到用戶所需的頁面,實(shí)驗(yàn)采用了淘寶網(wǎng)的部分頁面,由于網(wǎng)站資源信息量異常巨大,爬蟲在抓取頁面時(shí)需要相當(dāng)長(zhǎng)的時(shí)間才能夠足以體現(xiàn)出根據(jù)用戶的興趣來返回給搜索結(jié)果。實(shí)驗(yàn)采用的數(shù)據(jù)都為隨機(jī),用戶在登錄與非登錄狀態(tài)時(shí)使用本系統(tǒng)所得到的搜索結(jié)果時(shí)是完全不同的,所以為了用戶能夠更好地得到自己想要的信息,推薦用戶在使用本系統(tǒng)時(shí),能在注冊(cè)個(gè)人信息階段積極地向系統(tǒng)提交自己的興趣類,系統(tǒng)在運(yùn)行時(shí),會(huì)從控制臺(tái)抓取到的頁面集里找出用與用戶堅(jiān)如搜索詞有關(guān)的,以及與用戶注冊(cè)時(shí)提交的感興趣類別有關(guān)的頁面信息,當(dāng)然,如果抓取到的頁面中沒有有關(guān)用戶輸入的關(guān)鍵詞界面,系統(tǒng)就會(huì)返回與之相關(guān)的頁面,但有時(shí)系統(tǒng)將不會(huì)返回任何搜索結(jié)果。這就是本系統(tǒng)的最大弊端,就是所需要的網(wǎng)絡(luò)資源太大,很不穩(wěn)定,需要爬蟲程序在之前的環(huán)節(jié)中用相當(dāng)多的時(shí)間爬取足夠多的頁面,這樣才可以在用戶鍵入搜索關(guān)鍵詞時(shí)能夠最大化的利用網(wǎng)上資源,系統(tǒng)找到足夠多的頁面,并返回給用戶足夠多的信息,當(dāng)然我所設(shè)計(jì)的搜索系統(tǒng)與大型的類似百度、谷歌等搜索系統(tǒng)相比不值一提,但我會(huì)繼續(xù)努力,多上網(wǎng)查閱書籍、資料,多找一些有關(guān)搜索引擎的信息,爭(zhēng)取設(shè)計(jì)出更加細(xì)致,對(duì)用戶的個(gè)性化服務(wù)更加的完善,對(duì)用戶的搜索體驗(yàn)也更加的良好,尤其是用戶所需要的網(wǎng)站資源,如何更加合理有效的提取出并存入到自己制作的數(shù)據(jù)庫中去,這需要花很大的精力以及很長(zhǎng)的時(shí)間去研究、學(xué)習(xí)。結(jié)論隨著網(wǎng)絡(luò)信息量的指數(shù)級(jí)增長(zhǎng),面對(duì)信息增長(zhǎng)如此巨大和不穩(wěn)定的趨勢(shì),網(wǎng)絡(luò)用戶如何能夠從如此巨大的信息海洋中找到自己想要的信息資源就變得十分具有挑戰(zhàn)性,為此,產(chǎn)生了個(gè)性化的搜索系統(tǒng)。雖然傳統(tǒng)意義上的搜索系統(tǒng)能夠在用戶使用關(guān)鍵詞時(shí),系統(tǒng)返回給用戶的界面都是千人一面的,因此,搜索系統(tǒng)就是要發(fā)展成為能針對(duì)不同用戶不同需求,即用戶能夠根據(jù)不同的興趣選擇得到不同的返回結(jié)果。本文通過學(xué)習(xí)傳統(tǒng)的搜索引擎的相關(guān)技術(shù),開發(fā)一個(gè)簡(jiǎn)易的,根據(jù)用戶興趣返回響應(yīng)搜索結(jié)果的頁面集的搜索系統(tǒng)。本系統(tǒng)通過新用戶的注冊(cè)時(shí)提交的用戶興趣類選擇,來返還給用戶所需要的頁面,用戶在提交搜索關(guān)鍵詞時(shí),系統(tǒng)會(huì)根據(jù)用戶提交的關(guān)鍵詞以及用戶指定的感興趣類別從控制臺(tái)程序爬取到的網(wǎng)頁資源集中搜索與之相關(guān)的頁面并優(yōu)先返回給用戶感興趣的類別的頁面,本系統(tǒng)就是采取這種顯示挖掘方法來挖掘用戶感興趣的類,但這種方法也存在著諸多弊端,例如用戶的興趣隨著時(shí)間的流逝以及一些外在內(nèi)在的原因,用戶感興趣的事物會(huì)或多或少的發(fā)生變化,在感興趣的類別發(fā)生變化后,用戶的興趣在本系統(tǒng)中就得不到及時(shí)的更新,用戶在使用本系統(tǒng)時(shí)若興趣發(fā)生變化,只能通過新建的賬號(hào)重新選取自己新的感興趣的類別,這就變得十分麻煩,談到興趣變化,就不得不提到用戶的興趣也會(huì)分為長(zhǎng)期興趣和短期興趣,在研究用戶大額長(zhǎng)短期興趣時(shí),必然會(huì)接觸到用戶興趣模型的構(gòu)建,而其中涉及到的諸多學(xué)習(xí)算法就十分的復(fù)雜,尤其是如何構(gòu)建一個(gè)有效的表示用戶興趣的學(xué)習(xí)算法就變得十分具有挑戰(zhàn)性。由于本人能力有限,對(duì)于隱式挖掘用戶興趣的方法不是十分的了解,期間也查閱了大量的資料,看了很多的用戶興趣算法的執(zhí)行過程,甚是復(fù)雜,我會(huì)在今后的研究過程中繼續(xù)努力,努力學(xué)習(xí)用戶興趣建模方法,以及數(shù)學(xué)建模的方法,多多查閱有關(guān)這方面知識(shí)的資料。致謝感謝畢業(yè)設(shè)計(jì)這段時(shí)間導(dǎo)師以及各位指導(dǎo)教師對(duì)我的幫助,在老師孜孜不倦以及嚴(yán)謹(jǐn)求實(shí)的指導(dǎo)下,我才得以完成現(xiàn)在的課題內(nèi)容,雖然所選課題遠(yuǎn)遠(yuǎn)超出自身的能力范圍,但在我個(gè)人以及導(dǎo)師耐心的教導(dǎo)下,我也取得了成功,我不僅從一個(gè)學(xué)期時(shí)長(zhǎng)的畢業(yè)設(shè)計(jì)中學(xué)習(xí)并鞏固了扎實(shí)的扎實(shí)的專業(yè)知識(shí)基礎(chǔ),還從中學(xué)習(xí)到了做什么事都要有著一絲不茍,嚴(yán)謹(jǐn)求實(shí)的態(tài)度。畢業(yè)設(shè)計(jì)環(huán)節(jié)已接近了尾聲,雖然完成了課題的大體部分,但由于經(jīng)驗(yàn)的不足以及知識(shí)的匱乏,難免在設(shè)計(jì)中有很多考慮不周全的地方。多虧了導(dǎo)師們的悉心教導(dǎo)和同學(xué)的積極幫助,我才得以取得成功。最后,我要感謝四年以來對(duì)我悉心教導(dǎo)的各位老師,如果不是你們,我不可能學(xué)到如此豐富的專業(yè)知識(shí),更不會(huì)成功的步入社會(huì),感謝你們幫助我的畢業(yè)設(shè)計(jì)圓滿完成。參考文獻(xiàn)1張志達(dá).中國互聯(lián)網(wǎng)絡(luò)信息中心.啟蒙出版社.2012:17-292李愛明.個(gè)性化搜索引擎用戶模型研究.武漢師范大學(xué)研究生論文.2011:7-123張波.個(gè)性化Web搜索系統(tǒng)研究.秦皇島燕山大學(xué)本科生學(xué)位論文.2011:3-84龐杰.搜索引擎技術(shù)的研究與實(shí)現(xiàn).上海交通大學(xué)碩士學(xué)位論文.2013:11-145許文.HTML網(wǎng)頁信息抽取方法研究.北京機(jī)械學(xué)院碩士論文.2012:23-316張海濤,靖繼鵬.根據(jù)用戶瀏覽行為確定頁面等級(jí)的方法[J].情報(bào)學(xué)報(bào).2011.3(3):303-3067伊?xí)源?邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào).2002(10):2010-20118楊華.個(gè)性化模型構(gòu)建設(shè)計(jì)分析.黑龍江大學(xué)本科生論文.2011:25-429蕭若男.根據(jù)用戶行為分析的個(gè)性化模型構(gòu)建.南京本研究生文.2012:37-5510李玉峰.用戶興趣模型的構(gòu)建的設(shè)計(jì)分析.上海交通大學(xué)碩士論2010:9-2711ShuchihErnestChanga,SWesleyChangchicna.AssessingUsers’ProductSpecificKnowledgeforPersonalization[J].ExpertSystemswithApplications2011(30):682-69312ShuHiscnliao,ChihHaoWen,ArtificalNcuralNetworksClassifiticationandClustcringofMcthdologicsandApplicationsLicraturcAnalysisFrom2008to2011[J].ExpertSystemswithApplications.2013:4-1113EnriqueFriasMartinc,SaherryY.Chen,XiaohuiWang.InvestigationofBehaviorandPerccptionofDigitalLibraryUsers:ACognitiveStyle.2011(28):346-37714A.Georgakis.H.Li.UserBehaviorModcingandContentBasedSpecculativeWebPagePrefetching[J].Data&KnowledgeEngineering.2012(59):770-93215Feng-HsuWang,Hsiu-MeiShao.EffectivePersonalizedRecommedationonBasedonTime-FramedNavigationClusteringandAssociationMining[J].ExpertSystemswithApplications,2004(27):365-37716SaltonG.personalmodeforpeople’serversupport,2012:134-16717MoritaMShinodaY.Informationfilteringbasedonuserbehaviorusermodeonranalysis
and
best
match
text
retrieval[C].Proceedings
of
the17th
Annual
Internation
ACM
SIGIR
Conference
on
Research
and
Development
in
Information
Retrieval.Dublin.Ireland,2012:272-28118Du
Rui.Invertible
authentication[C].ProcSPIEpeacefulmodecaseonresultforSecurity
and
Watermarking
of
Multimedia
Contents.SanJose.California.Jan.2011:197-20819Salton
G,Wong
A,Personalnalitysystemsmodeofuser’contentforserachpersonalityvisualpopularservernationusermodebehaviorforusermodeonbasedYang
C
S.A
Vector
Space
Model
for
automatic
indexing[J].Communications
of
theACM.2013:613-620附錄1譯文個(gè)性化搜索模型概述聚焦爬蟲工作原理及關(guān)鍵技術(shù)概述
網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,獲
得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根
據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)
頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止,另外,所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查
詢和檢索;對(duì)于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對(duì)以后的抓取過程給出反饋和導(dǎo)。
相對(duì)于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個(gè)主要問題:
對(duì)抓取目標(biāo)的描述或定義;對(duì)網(wǎng)頁或數(shù)據(jù)的分析與過濾;
對(duì)URL的搜索策略。抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個(gè)部分的算法又是緊密相關(guān)的。抓取目標(biāo)描述現(xiàn)有聚焦爬蟲對(duì)抓取目標(biāo)的描述可分為基于目標(biāo)網(wǎng)頁特征、基于目標(biāo)數(shù)據(jù)模式和基于領(lǐng)域概念3種.基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲(chǔ)并索引的對(duì)象一般為網(wǎng)站或網(wǎng)頁。根據(jù)種子樣本獲取方式可分為:
預(yù)先給定的初始抓取種子樣本;預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對(duì)應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;
通過用戶行為確定的抓取目標(biāo)樣例,分用戶瀏覽過程中顯示標(biāo)注的抓取樣本;通過用戶日志挖掘得到訪問模式及相關(guān)樣本。其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征,等等。
現(xiàn)有的聚焦爬蟲對(duì)抓取目標(biāo)的描述或定義可以分為基于目標(biāo)網(wǎng)頁特征,基于目標(biāo)數(shù)據(jù)模式和基于領(lǐng)域概念三種。
基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲(chǔ)并索引的對(duì)象一般為網(wǎng)站或網(wǎng)頁。具體的方法根據(jù)種子樣本的獲取方式可以分為:預(yù)先給定的初始抓取種子樣
本;預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對(duì)應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;通過用戶行為確定的抓取目標(biāo)樣例。其中,網(wǎng)頁特征可以是
網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征等等?;谀繕?biāo)數(shù)據(jù)模式的爬蟲針對(duì)的是網(wǎng)頁上的數(shù)據(jù),所抓取的數(shù)據(jù)一般要符合一定的模式,或者可以轉(zhuǎn)化或映射為目標(biāo)數(shù)據(jù)模式。另一種描述方式是建立目標(biāo)領(lǐng)域的本體或詞典,用于從語義角度分析不同特征在某一主題中的重要程度。
網(wǎng)頁搜索策略網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會(huì)導(dǎo)致爬蟲的陷(trapped)問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。
廣度優(yōu)先搜索策略廣度優(yōu)先搜索策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單。在目前為覆蓋盡可能多的網(wǎng)頁,
一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率
很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點(diǎn)在于,隨著抓取網(wǎng)頁的
增多,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。
最佳優(yōu)先搜索策略。最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預(yù)測(cè)候選URL與目標(biāo)網(wǎng)頁的相似度,或與主題的相關(guān)性,并選取評(píng)價(jià)最好的一個(gè)或幾個(gè)URL進(jìn)行抓取。它
只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測(cè)為“有用”的網(wǎng)頁。存在的一個(gè)問題是,在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略,因?yàn)樽罴褍?yōu)先策略是一種局部最優(yōu)搜索算法。
因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進(jìn)行改進(jìn),以跳出局部最優(yōu)點(diǎn)。將在第4節(jié)中結(jié)合網(wǎng)頁分析算法作具體的討論。研究表明,這樣的閉環(huán)調(diào)整可以將無關(guān)網(wǎng)頁數(shù)量
降低30%~90%。網(wǎng)頁分析算法網(wǎng)頁分析算法可以歸納為基于網(wǎng)絡(luò)拓?fù)?、基于網(wǎng)頁內(nèi)容和基于用戶訪問行為三種類型?;诰W(wǎng)絡(luò)拓?fù)涞姆治鏊惴?/p>
基于網(wǎng)頁之間的鏈接,通過已知的網(wǎng)頁或數(shù)據(jù),來對(duì)與其有直接或間接鏈接關(guān)系的對(duì)象(可以是網(wǎng)頁或網(wǎng)站等)作出評(píng)價(jià)的算法。又分為網(wǎng)頁粒度、網(wǎng)站粒度和網(wǎng)頁塊粒度這三種。
網(wǎng)頁(Webpage)粒度的分析算PageRank和HITS算法是最常見的鏈接分析算法,兩者都是通過對(duì)網(wǎng)頁間鏈接度的遞歸和規(guī)范化計(jì)算,得到每個(gè)網(wǎng)頁的重要度評(píng)價(jià)。PageRank算法雖然考慮了用戶訪問行為的隨機(jī)性Sink網(wǎng)頁的存在,但忽略了絕大多數(shù)用戶訪問時(shí)帶有目的性,即網(wǎng)頁和鏈接與查詢主題的相關(guān)性。針
對(duì)這個(gè)問題,HITS算法提出了兩個(gè)關(guān)鍵的概念:權(quán)威型網(wǎng)頁(authority)和中心型網(wǎng)頁(hub)。
基于鏈接的抓取的問題是相關(guān)頁面主題團(tuán)之間的隧道現(xiàn)象,即很多在抓取路徑上偏離主題的網(wǎng)頁也指向目標(biāo)網(wǎng)頁,局部評(píng)價(jià)策略中斷了在當(dāng)前路徑上的抓取
行為。提出了一種基于反向鏈接(BackLink)的分層式上下文模型用于描述指向目標(biāo)網(wǎng)頁一定物理跳數(shù)半徑內(nèi)的網(wǎng)頁拓?fù)鋱D的中心為目標(biāo)網(wǎng)頁,將網(wǎng)頁依據(jù)指向目標(biāo)網(wǎng)頁的物理跳數(shù)進(jìn)行層次劃分,從外
層網(wǎng)頁指向內(nèi)層網(wǎng)頁的鏈接稱為反向鏈接。附錄2英文參考資料Personalizedsearch
modeloverviewFocusedcrawler
workingprincipleandkeytechnologyof
webcrawleruseronmodeis
anoverviewof
theautomaticextractionof
Webpage
program,
it
is
asearchenginetodownload
Webpage
onlinethefromInternet,
isanimportantpersonalitycomponent
ofsearchengine.
Thetraditionalcrawler
startssastifiyonepeacefulusermodeor
several
initial
Webpage
URL,obtained
initial
Webpage
onURL,
intheonfactorybasedonthe
process
of
grasping
Webpage,continuouslyfrom
thecurrentonpage
toextract
thenewwebpageURL
queue,
until
meetthesystem
must
stopusermodecondition.
Focusedcrawler
working
processismorecomplex,need
accordingtothe
certain
Webpage
,analysis
algorithmtopersonality,baseonthepersonalityonfilty.tofilter
irrelevantlinks,
retain
theusefullinksand
placedinthe
queue
waitingforcontinueURL
capture.Then,
it
willbebasedoncertain
searchstrategy
choiceonwebnet
pageURL
thenextstepisto
crawl
fromthequeue,
andrepeattheprocess,
inaddition
tostop,
untilit
reachesausermodecertain
conditionoftheusermodebasedpersonalitysystem,
all
be
spiderscrawlthe
Webpage
beprepareddownloaderstufftobe
stored,
analyzed,
filtering,
andsetuptheindex,
andthe
search
query
to
after;forthe
focusedoncrawler,
theanalysisresults
obtainedby
thisprocess
mayalsogivetomodethe
crawlingprocess
afterthe
feedbackand
guide.
Comparedtotheusermodegeneralwebcrawler,
focusedcrawler
alsoneeds
solvethreemainproblems:
to
graspthetarget
descriptionor
definition;
analysisandsolvedpeacefulasearchserverforbasedfiltering
of
Webpage
ordata
onURL
searchstrategy.
Descriptionanduseronmodedefinition
capturinguseronobject
is
decidedbased
Webpage
analysisonbasedpersomnalityalgorithmand
URLsearchstrategy.Makenomistakesforthesearchformake
the.And
Webpage
analysisalgorithm
andcandidate
URLsortalgorithm
isthekeytouserdecide
thesearchengine
providedbythe
serviceformsusermodepersonalityfacedontheserverand
crawler
Webpagegrasping
behavior
place.
Thetwo
partofthe
algorithmisalso
closelytorelatedtothe.
Traditionalfocusedonusercrawler
grabtarget
description
descriptionto
grasptheusertarget
canbepersonalitydivided
basedonthetarget
Webpage
characteristics,
basedonobjective
data
anduserbasedonthe
conceptof3kindsusermodepersonalitysufferplacefulservercenterbecontinuedof
mode
field.
ObjectWebpage
features
reptile
grabbing,
storage
andindexing
basedongeneral
isawebsiteor
Webpage.
Accordingtothe
seed
sampleacquisition
modecanbedividedwebpageinto:
given
theinitial
grasp
seedwebpagesamples;
Webpage
classificationdirectory
prebecauseduseronmodebereadytogiven
and
correspondingwiththe
classifiedcatalogueofthe
seedsamples,
suchasYahoo!
Classification
structure;
graspthetarget
sample
isdeterminedby
theusermodebehaviorofusercenterusers,
thedisplaylabel
tograb
samplemode
useronbrowsing
process;
getthe
access
modeandrelated
thesamplethrougha
userlogonmining.
Amongthem,
Webpage
characteristicscanonstructbe
Webpage
contentfeatures,
canalsobe
Webpage
linkusermodebehaviorpersonalityonuserbaseonstructure
characteristics,
etc..
Focusedcrawler
to
crawl
theexisting
target
descriptionsufferingonor
definition
canbedividedinto
thetarget
Webpage
basedonusermodefeature,
basedonusermodebasedpersonalityobjective
data
andbasedonbasedonpersonalitytheconceptofthreekindspersonalitymodebehaviorofofficeusermodemode
field.
Object
target
Webpage
features
reptilegrabbing,
storage
andpersonalonindexing
basedongeneral
isawebsiteor
Webpage.Specific
methodscanberesultforclassicalclassified
accordingtothe
wayofuserobtaining
the
initialseed
seedsamples:
grab
sample
givenincabbageroomusermodestrawonstructusermodeadvance;
Webpage
classificationdirectory
pregiven
and
correspondingwithonbasedthe
classifiedmissedcatalogueofthe
seedsamples,
suchassearchserverusermodeYahoo!
Classification
structure;
graspthefoucstarget
sampledeterminedby
useronbehavior.
Amongthem,
Webpage
characteristicscanterminalbeWebpage
contentonfeatures,
canalsobe
Webpage
link
structure
characteristicsandsoon.
Basedonthetarget
data
modelof
crawler
isaimedatthe
dataonawebpage,
the
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度直播平臺(tái)主播培訓(xùn)及管理合同
- 2025年度新能源汽車產(chǎn)業(yè)投資合作合同
- 二零二五年度商標(biāo)共營協(xié)議及跨國品牌合作合同
- 二零二五年度超市商品陳列與文化氛圍營造合同
- 2025年度民宿租賃合同終止及服務(wù)質(zhì)量協(xié)議
- 二零二五年度集體合同簽訂與新型學(xué)徒制實(shí)施
- 二零二五年度個(gè)人對(duì)個(gè)人科技成果轉(zhuǎn)化借款合同
- 2025年度機(jī)關(guān)炊事員食品安全培訓(xùn)聘用協(xié)議
- 日常行政管理事務(wù)處理指導(dǎo)書
- 日化用品行業(yè)供應(yīng)鏈優(yōu)化與市場(chǎng)拓展策略研究計(jì)劃
- 米伊林《十萬個(gè)為什么》導(dǎo)讀課課件
- 五年(2020-2024)高考?xì)v史真題分類匯編(山東)專題12 世界殖民體系的形成、瓦解與亞非拉民族民主運(yùn)動(dòng)(原卷版)
- 第六章-1八綱辨證
- 《中外城市建設(shè)史》考試復(fù)習(xí)題庫(附答案)
- 網(wǎng)絡(luò)平臺(tái)運(yùn)營合同三篇
- 《S品牌管理有限公司銷售人員績(jī)效考核問題及優(yōu)化建議(定量論文)》11000字
- 九年級(jí)語文下冊(cè) 第9課 魚我所欲也(分層作業(yè))(學(xué)生版)
- 2023年公務(wù)員多省聯(lián)考《申論》題(重慶二卷)及參考答案
- 如何自制固定翼航模
- 食堂延期合同模板(2篇)
- 2024至2030年中國小模數(shù)齒輪市場(chǎng)調(diào)查與行業(yè)前景預(yù)測(cè)專題研究報(bào)告
評(píng)論
0/150
提交評(píng)論