版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、尊孝投*學(xué)本科畢業(yè)論文題 目個性化搜索引擎的設(shè)計與實(shí)現(xiàn)姓 名學(xué) 號專 業(yè)計算機(jī)科學(xué)與技術(shù)指導(dǎo)教師職 稱講師中國武漢華中農(nóng)業(yè)大學(xué)本科畢業(yè)論文個性化搜索引擎的設(shè)計與實(shí)現(xiàn)Design and Implementation of Personal Search Engine學(xué)生姓名:學(xué)生學(xué)號:學(xué)生專業(yè):指導(dǎo)教師:華中農(nóng)業(yè)大學(xué)理學(xué)院 TOC o 1-5 h z 摘要IV HYPERLINK l bookmark10 o Current Document 關(guān)鍵詞IV HYPERLINK l bookmark16 o Current Document ABSTRACTV HYPERLINK l bookma
2、rk19 o Current Document KEY WORDSV1前言1 HYPERLINK l bookmark28 o Current Document 1.1研究背景1 HYPERLINK l bookmark31 o Current Document 1.2個性化搜索引擎的意義1 HYPERLINK l bookmark37 o Current Document 1.3個性化搜索引擎主要的研究問題1 HYPERLINK l bookmark43 o Current Document 2搜索引擎概述2 HYPERLINK l bookmark46 o Current Document
3、 2.1個性化搜索引擎2 HYPERLINK l bookmark51 o Current Document 2.2搜索引擎工作原理2 HYPERLINK l bookmark72 o Current Document 2.3個性化搜索引擎系統(tǒng)模型3 HYPERLINK l bookmark99 o Current Document 2.4未來搜索引擎的發(fā)展趨勢4 HYPERLINK l bookmark102 o Current Document 3個性化搜索引擎相關(guān)技術(shù)5 HYPERLINK l bookmark105 o Current Document 3.1信息抽取技術(shù)5 HYPER
4、LINK l bookmark108 o Current Document 3.2 Lucene 檢索工具包5 HYPERLINK l bookmark114 o Current Document 3.3中文分詞技術(shù)6 HYPERLINK l bookmark117 o Current Document 3.4自動聚類技術(shù)6 HYPERLINK l bookmark125 o Current Document 3.5用戶行為分析7 HYPERLINK l bookmark136 o Current Document 4個性化搜索引擎的總體設(shè)計7 HYPERLINK l bookmark139
5、o Current Document 4.1系統(tǒng)需求分析及總體設(shè)計7 HYPERLINK l bookmark143 o Current Document 4.2系統(tǒng)功能及架構(gòu)設(shè)計8 HYPERLINK l bookmark149 o Current Document 4.3系統(tǒng)流程設(shè)計8 HYPERLINK l bookmark154 o Current Document 4.4系統(tǒng)數(shù)據(jù)庫設(shè)計12 HYPERLINK l bookmark157 o Current Document 5個性化搜索引擎的具體實(shí)現(xiàn)135.1模塊設(shè)計13 HYPERLINK l bookmark163 o Curr
6、ent Document 5.2用戶界面模塊14 HYPERLINK l bookmark166 o Current Document 5.3搜索模塊16 HYPERLINK l bookmark211 o Current Document 5.4搜索結(jié)果優(yōu)化模塊19 HYPERLINK l bookmark238 o Current Document 5.5系統(tǒng)運(yùn)行結(jié)果及示例21 HYPERLINK l bookmark241 o Current Document 6總結(jié)22 HYPERLINK l bookmark244 o Current Document 參考文獻(xiàn):22致謝.23個性化
7、搜索引擎的設(shè)計與實(shí)現(xiàn)隨著I nternet技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)提供給人們的信息量越來越大。搜索引擎作為人們WW 上查找、獲取信息的重要手段之一,在各個領(lǐng)域都已得到了廣泛的應(yīng)用。為了給用戶提供個性化的 查詢服務(wù),個性化搜索引擎孕育而生。經(jīng)過眾多研究者的不懈努力,個性化搜索引擎技術(shù)已取得了 一些進(jìn)展。本文針對目前搜索引擎存在的不足以及當(dāng)前用戶個性化查詢的要求,在深入研究搜索引 擎及相關(guān)技術(shù)的基礎(chǔ)上,設(shè)計了一個基于用戶興趣挖掘的個性化搜索引擎模型。本文的主要工作是:(1)個性化模型的研究與實(shí)現(xiàn)本文深入分析了個性化搜索的特點(diǎn),研究了搜索引擎及相關(guān)技術(shù), 設(shè)計了一個基于用戶興趣挖掘的個性化模型。該模型從
8、用戶的歷史訪問頁面中提取用戶的興趣特征, 將興趣相同的頁面進(jìn)行歸類,并將用戶興趣按類管理;本文構(gòu)建了用戶興趣樹來動態(tài)地存儲用戶興 趣,并通過短期興趣和長期興趣相結(jié)合的方式來描述用戶興趣特征;為了及時地反映用戶的興趣變 化,本文采用了基于遺忘機(jī)制的興趣更新算法。(2)個性化搜索引擎(除個性化模型外)其他模塊的研究與實(shí)現(xiàn)本文還研究了與個性化搜索引 擎相關(guān)的其他模塊,包括:中文分詞、查詢擴(kuò)展、網(wǎng)絡(luò)蜘蛛、索引建立與更新以及結(jié)果排序。在綜 合考慮了技術(shù)的實(shí)現(xiàn)難度和用戶個性化查詢要求的基礎(chǔ)上,本文給出了以上各模塊的實(shí)現(xiàn)算法。(3)通過實(shí)驗(yàn)證明了本文設(shè)計的個性化搜索引擎的有效性。實(shí)驗(yàn)內(nèi)容包括兩方面:個性化模
9、型 的建立和個性化的搜索。關(guān)鍵詞個性化模型,用戶興趣挖掘,用戶興趣樹Design and Implementation of Personal Search EngineAbstractWith the rapid development of Internet technology,the network can providepeople more and more information.Search engine has been widely used in manyfields,which is treated as a tool that people can get infor
10、mation on World Wide Web.In order to provide personalized search service for users,personalized search enginecomes forth.Because of many researchers contribution,people have made greatprogress in personalized search engine.This paper points out the shortage of currentsearch engine and users requirem
11、ents of personalized search,does some research onsearch engine and its technology,and designs a personalized search engine model thatis based on users interests mining. The main tasks of the paper are as follows:Firstly,this paper researches and implements the personal model.This paper analyzes the
12、characters of personalized search,researches the searchengine and its technology,and designs a model that is based on users interests mining.The model gets users interests from the pages that he has visited before,classifies thepages according to the same interest,and manages the users interests acc
13、ording to theinterest types.As to the storage of users interests,this paper consults the ODP catalogstructure,establishes user interest tree to store the users interests,and uses the shortinterest and long interest to describe the users interest characters.In order to reflectuser s interests changin
14、g in time,this paper updates users interests using thealgorithm based on forgetting mechanism.Secondly,this paper researches and implements other modules of personalizedsearch engine besides the personal model.The modules include Chinese segmenting,search extending,network spider,index establishment
15、 and update and result ranking.This paper takes the implementing difficulty of related technology and usersrequirements of personalized search into account,and brings forward the algorithmsof the modules above.At last,experiments are conducted to verity the efficacy of the personalizedsearch engine
16、designed above.The contents of the experiment include two parts:the establishment of personal model and the personalized search.Key wordspersonal model; users interests mining; userinterest tree。1前言1.1研究背景隨著internet的迅速發(fā)展,如何在浩瀚的網(wǎng)絡(luò)信息資源中查詢自己想要的信息變得越來越重要。 為此,出現(xiàn)了專門提供網(wǎng)絡(luò)搜索服務(wù)的網(wǎng)站,比如Google、Baidu、Yahoo、搜狐、北大天網(wǎng)
17、等。然 而隨著網(wǎng)絡(luò)信息的更新與擴(kuò)充,傳統(tǒng)的單一搜索引擎存在著覆蓋率有限,查準(zhǔn)率低,用戶相關(guān)性差 的缺點(diǎn),使得為解決上述不足的元搜索引擎開始成為研究的熱點(diǎn)。元搜索引擎是指在統(tǒng)一的用戶接口與信息反饋下,通過調(diào)用多個獨(dú)立的搜索引擎享有多個資源 庫為用戶提供信息服務(wù)的系統(tǒng)。早期的元搜索引擎,雖然大大增加了傳統(tǒng)搜索引擎的覆蓋率,但在 某些方面仍舊和傳統(tǒng)的搜索引擎一樣,對每個用戶的檢索要求都給出相同的檢索結(jié)果,并沒有考慮 用戶個性化的需求對檢索予以重組、過濾。如何能夠更有效、更準(zhǔn)確地找到自己感興趣的信息,濾 除與自己的需求無關(guān)的信息,真正做到“各取所需”,成為基于I nterne t的網(wǎng)絡(luò)信息檢索的熱點(diǎn)問
18、題。 隨著用戶行為分析、自動聚類、事例推理、互動學(xué)習(xí)等技術(shù)的引入,搜索引擎開始走向個性化、智 能化、專業(yè)化。1.2個性化搜索引擎的意義根據(jù)第24次中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報告,截至2009年6月底,中國網(wǎng)民規(guī)模達(dá)到3.38億人,搜 索引擎的應(yīng)用是用戶獲取信息的主要渠道之一,使用率達(dá)到73.2%(美國達(dá)到92%)1,并有上升的趨 勢。搜索引擎的發(fā)展經(jīng)歷了目錄海量搜索、海量搜索、剔出垃圾網(wǎng)頁、專業(yè)、定向、高準(zhǔn)確性和匹 配性等幾個階段,但搜索引擎的框架結(jié)構(gòu)和基本技術(shù)并沒有實(shí)質(zhì)性的突破。而搜索引擎缺乏個性化 的局限性卻日益突出,具體表現(xiàn)在2:網(wǎng)絡(luò)信息覆蓋面廣,形式各異,而傳統(tǒng)搜索引擎對所有用戶提供相同的
19、界面和服務(wù),并且檢 索的結(jié)果成千上萬、良芳不齊,用戶為找到真正感興趣的信息,往往要耗費(fèi)大量的時間和精力。人們由于年齡、性別、職業(yè)、愛好等不同,各自感興趣的領(lǐng)域也隨之不同,各自對詞義的理 解也不盡相同,不同的用戶對同一檢索請求得到的檢索結(jié)果常常有不同的評價。用戶在不同時期或階段對同一檢索請求,所得到的仍是完全相同的檢索結(jié)果,對用戶不具有 自適應(yīng)能力。用戶使用搜索引擎時帶有一定的目的性,但由于領(lǐng)域知識的不足和搜索引擎的查詢接口的局 限性而無法明確表達(dá)自己的搜索意圖1.3個性化搜索引擎主要的研究問題本課題通過學(xué)習(xí)用戶滿意度反饋信息,挖掘用戶隱藏興趣,開發(fā)并實(shí)現(xiàn)了一個基于用戶反饋的 個性化搜索引擎系統(tǒng)
20、,并提出在此搜索引擎中引入自動聚類技術(shù)的改進(jìn)方案,提高搜索效率。本文的主要研究內(nèi)容:搜索引擎源數(shù)據(jù)的獲取即如何獲取獨(dú)立搜索引擎返回的搜索結(jié)果。設(shè)計一套合理的學(xué)習(xí)用戶反饋信息的方法即通過學(xué)習(xí)用戶反饋信息,把隱藏在用戶操作之下的信息,如用戶的興趣愛好,用戶的搜索傾 向等進(jìn)行歸納總結(jié),借助學(xué)習(xí)算法,生成用戶興趣模式?;谟脩舴答伒膫€性化搜索引擎系統(tǒng)的實(shí)現(xiàn)即設(shè)計并實(shí)現(xiàn)一個基于用戶反饋的個性化搜索引擎系統(tǒng)。此系統(tǒng)的最大特點(diǎn)是引入評分制度獲 取用戶反饋信息,學(xué)習(xí)用戶反饋,挖掘用戶興趣,依據(jù)用戶興趣優(yōu)化搜索結(jié)果,優(yōu)先返回特定用戶 感興趣的網(wǎng)頁內(nèi)容并向用戶推薦其他用戶的興趣模式,使搜索結(jié)果“面向用戶具有特定性
21、和針對 性,提高檢索效率。個性化搜索引擎系統(tǒng)中引入自動聚類即如何將學(xué)習(xí)用戶反饋信息、信息檢索與數(shù)據(jù)挖掘中的 自動聚類技術(shù)相結(jié)合,通過對用戶和搜索結(jié)果的聚類處理,使用戶能更加快捷的找到所需網(wǎng)頁。2搜索引擎概述2.1個性化搜索引擎?zhèn)€性化搜索引擎指的是搜索引擎根據(jù)用戶搜索的歷史記錄,來返回更適合這個用戶的搜索結(jié)果。 這些搜索歷史記錄包括用戶所搜索的關(guān)鍵詞,在搜索結(jié)果中的點(diǎn)擊情況,在各個網(wǎng)站的訪問情況, 書簽情況等。搜索引擎掌握了這些用戶資料后進(jìn)行分析,在用戶搜索新的關(guān)鍵詞時,能返回更有針 對性的搜索結(jié)果,從而提高用戶體驗(yàn)。而搜索引擎3,它就是以一定的技術(shù)和策略在互聯(lián)網(wǎng)中搜集、 發(fā)現(xiàn)信息,并對信息進(jìn)行
22、理解、提取和處理,為用戶提供Web搜索的服務(wù).搜索引擎有各種不同的分類方法。按照信息內(nèi)容劃分,搜索引擎可分為綜合型搜索引擎、專業(yè) 型搜索引擎和特殊型搜索引擎;按照搜索工具的數(shù)量劃分,搜索引擎可分為獨(dú)立搜索引擎、元搜索引 擎和集成搜索引擎;按照信息的組織方式劃分,搜索引擎可分為目錄式搜索引擎、全文搜索引擎和混 合型搜索引擎。以下是按信息的組織方式劃分的三類搜索引擎:目錄式搜索引擎5,或稱按主題查詢型搜索引擎,是將信息分門別類,按照傳統(tǒng)的分類方式 分為各級目錄。它的特點(diǎn)是質(zhì)量和匹配精度較高,不足之處是搜索范圍較小,查全率較低。全文搜索引擎5,或稱按關(guān)鍵字查詢型搜索引擎,對各網(wǎng)站的每個頁面中的每個詞
23、進(jìn)行搜索。 它的特點(diǎn)是信息量很大,查全率較高。不足的是它提供的信息太多,反而降低了查準(zhǔn)率?;旌闲退阉饕?是針對全文和目錄搜索引擎的缺點(diǎn)而設(shè)計的。使用戶在分類目錄中瀏覽, 保證了一定的查準(zhǔn)率,又可以使用戶進(jìn)行全文檢索,查找特定資源。2.2搜索引擎工作原理如圖2.1所示,一個完整的搜索引擎系統(tǒng)一般由網(wǎng)絡(luò)爬蟲、索引器、檢索器和用戶接口四個部分 組成,不同搜索引擎具體的模塊可能會有不同,但都是建立在這四個基本模塊的基礎(chǔ)之上。用戶接口網(wǎng)絡(luò)爬蟲4(WebCrawler)網(wǎng)絡(luò)爬蟲,又稱網(wǎng)絡(luò)機(jī)器人,它不停的從網(wǎng)絡(luò)上下載文檔并抽取出新的鏈接,循環(huán)的實(shí)現(xiàn)對萬 維網(wǎng)的遍歷。它在一個完整的運(yùn)行周期內(nèi)(比如半個月可以
24、下載超過千萬的網(wǎng)頁,并將這些文檔保存 在本地文本數(shù)據(jù)庫,最后由索引器負(fù)責(zé)完成頁面內(nèi)容的全文索引。索引器(Indexer)索引器對收集回來的網(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息、(包括網(wǎng)頁所在uRL、編碼類型、頁面內(nèi) 容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算 法進(jìn)行大量復(fù)雜計算,得到每一個網(wǎng)頁(針對頁面內(nèi)容)及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性), 然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。查詢器4(Seareher)從使用者角度來看,查詢算法是決定一個搜索引擎檢索質(zhì)量最重要的因素。搜索引擎的查詢器 就是利用索引數(shù)據(jù)庫提供的各類基本數(shù)據(jù)庫,如頁面全文索引庫
25、、HTML標(biāo)簽庫、超鏈接分析庫、 查詢歷史庫等多個數(shù)據(jù)源,實(shí)現(xiàn)對用戶輸入關(guān)鍵字的準(zhǔn)確、快速的匹配。用戶接口 4(User)用戶接口提供一系列的查詢選項以滿足不同的查詢要求。一般的搜索引擎系統(tǒng)都支持布爾表達(dá) 式操作、搜索域名范圍限制、查詢網(wǎng)頁的語種,甚至可以選擇文檔的類別。合理的設(shè)置查詢選項可 以大大的減少搜索結(jié)果中的無效內(nèi)容,提高查詢效率。元搜索引擎6將現(xiàn)有的多個搜索引擎看成一個整體,為用戶提供一個統(tǒng)一的查詢界面,用戶的 查詢請求由元搜索引擎根據(jù)知識庫中的信息,轉(zhuǎn)換為多個搜索引擎所能識別的格式,然后分別發(fā)送 給調(diào)用的各獨(dú)立搜索引擎,由這些搜索引擎完成實(shí)際的信息檢索,最后元搜索引擎再把各搜索引擎
26、 返回的結(jié)果收集起來,進(jìn)行比較分析,剔除冗余信息,以一定的格式返回給用戶元搜索引擎是指在統(tǒng)一的用戶查詢接口與信息反饋形式下,共享多個搜索引擎的資源庫為用戶 提供信息服務(wù)的系統(tǒng)。圖2.2為元搜索引擎體系結(jié)構(gòu)圖7:圖2.2元搜索引擎體系結(jié)構(gòu)圖元搜索引擎系統(tǒng)各模塊分別介紹如下:用戶接口模塊7 該模塊負(fù)責(zé)接收用戶的查詢請求并顯示查詢結(jié)果。調(diào)度模塊7其決定主要的搜索策略,根據(jù)用戶的輸入必須決定查詢哪一個成員搜索引擎, 以及按照不同成員搜索引擎的要求修改用戶輸入的查詢請求。調(diào)度模塊為元搜索引擎系統(tǒng)結(jié)果處理模塊7元搜索引擎的結(jié)果處理模塊從成員搜索引擎中獲取網(wǎng)頁結(jié)果,并根據(jù)返回網(wǎng) 頁的不同格式提取元搜索引擎需
27、要的內(nèi)容,并對結(jié)果進(jìn)行去重、合并、輸出處理等。2.3個性化搜索引擎系統(tǒng)模型隨著網(wǎng)絡(luò)信息爆炸似的增長,人們通過搜索引擎檢索到的信息不是太少,而是太多了,且大多 數(shù)都是與查詢請求無關(guān)的信息。傳統(tǒng)搜索引擎及一般的元搜索引擎系統(tǒng)已經(jīng)越來越不能滿足人們的 需求,因而個性化技術(shù)日益成為檢索領(lǐng)域研究的熱點(diǎn)問題。個性化搜索引擎將個性化信息服務(wù)的概念引入到搜索引擎中,使其能夠更好的適應(yīng)于網(wǎng)絡(luò)信息 的發(fā)展。個性化搜索引擎的目的在于能夠根據(jù)用戶的背景、興趣愛好、研究方向、檢索目的等,向 用戶提供相應(yīng)的需求信息。個性化Web元搜索引擎系統(tǒng)模型如圖2.33 所示:其中個性化搜索引擎中各模塊功能如下:用戶接口 3該模塊為
28、用戶提供可視化的查詢輸入和結(jié)果輸出界面。在查詢輸入界面中用戶可輸入一系列關(guān) 鍵詞、一系列布爾操作符;在輸出界面中,搜索引擎將檢索結(jié)果展現(xiàn)為一個線性的文檔列表。用戶描述文件庫3該庫根據(jù)一定的用戶興趣模型,存放用戶興趣知識。好的用戶興趣模型不僅要求客觀、全面表 達(dá)用戶興趣知識,而且還要具備良好的后期興趣評估可操作性。查詢分析器3根據(jù)用戶興趣庫知識對用戶查詢請求進(jìn)行概念、語義分析,并在此基礎(chǔ)上對查詢輸入進(jìn)行擴(kuò)展 形成新的更長、更準(zhǔn)確的查詢,這樣可以幫助搜索引擎弄清用戶確切所指。Web處理接口 3Web處理接口通過并行的方式調(diào)用多個搜索引擎,把所有的結(jié)果集中到一起。結(jié)果預(yù)處理3對來自不同搜索引擎的結(jié)果
29、進(jìn)行整合,如剔除重復(fù)、統(tǒng)一格式、檢驗(yàn)鏈接有效性和分類等。查詢過濾器3對返回的結(jié)果進(jìn)行個性化處理,比如根據(jù)用戶興趣權(quán)值等重要性尺度重新進(jìn)行相關(guān)度排序,并 將結(jié)果提交給用戶。此模塊是信息過濾系統(tǒng)的核心部分。2.4未來搜索引擎的發(fā)展趨勢當(dāng)前的萬維網(wǎng)檢索結(jié)果幾乎都是以列表形式表現(xiàn),查詢質(zhì)量良養(yǎng)不齊、組織結(jié)構(gòu)也不合理,但 是由于該項技術(shù)高效、成熟的特點(diǎn),在未來的一段時間內(nèi),這項技術(shù)還將在搜索領(lǐng)域占據(jù)絕對重要 的位置。為了進(jìn)一步改善檢索質(zhì)量,未來的搜索引擎應(yīng)該在以下幾方面有所突破10:.個性化在輸入方面,使用自然語言輸入,更加方便用戶的使用,更易于用戶與搜索引擎的交互,更能 貼近地表達(dá)用戶的查詢需求,從而
30、有利于提高查詢的精度。在返回結(jié)果方面,應(yīng)該充分發(fā)揮預(yù)處理 和搜索結(jié)果集成方面的能力,考慮人的性別、年齡、地域等方面的差別給出個性的搜索結(jié)果。.智能化一方面,元搜索引擎通過不斷學(xué)習(xí)來掌握用戶的喜好,通過對用戶搜索習(xí)慣和興趣的挖掘,達(dá) 到自動選擇合適的成員搜索引擎的目的,從而進(jìn)行搜索。另一方面,可對用戶其它方式的輸入查詢 如聲音、圖像、視頻等,實(shí)現(xiàn)智能的查詢轉(zhuǎn)換功能,從而得到預(yù)想的結(jié)果。.專業(yè)化專業(yè)化元搜索引擎是個很好的概念,不但網(wǎng)絡(luò)資源可以比普通元搜索引擎挖得更深更多,搜索負(fù)擔(dān)還小得多,應(yīng)該是很符合網(wǎng)絡(luò)發(fā)展方向的。3個性化搜索引擎相關(guān)技術(shù)3.1信息抽取技術(shù)信息抽取技術(shù)11,簡稱IE技術(shù),是通過抽
31、取、過濾無關(guān)信息,使文本信息以用戶關(guān)心的形式得 以再組織,實(shí)現(xiàn)高效重組。信息抽取原來的目標(biāo)是從自然語言文檔中找到特定的信息,是自然語言 處理領(lǐng)域特別的一個子領(lǐng)域。信息抽取利用語言學(xué)的知識,主要是詞語知識和篇章結(jié)構(gòu)的知識,從 文中抽取出特定的內(nèi)容,從而避免對全文進(jìn)行深入的理解。信息抽取主要有兩大方法一是知識工程 方法,二是自動訓(xùn)練方法。知識工程方法主要靠手工編制規(guī)則使系統(tǒng)能處理特定知識領(lǐng)域的信息抽 取問題。這種方法要求編制規(guī)則的知識工程師對該知識領(lǐng)域有深入的了解。自動訓(xùn)練方法11不一定 需要如此專業(yè)的知識工程師。系統(tǒng)主要通過學(xué)習(xí)己經(jīng)標(biāo)記好的語料庫獲取規(guī)則。任何對該知識領(lǐng)域 比較熟悉的人都可以根據(jù)
32、事先約定的規(guī)范標(biāo)記語料庫。經(jīng)訓(xùn)練后的系統(tǒng)能處理沒有見過的新文本。 這種方法要比知識工程方法快,但需要足夠數(shù)量的訓(xùn)練數(shù)據(jù),才能保證其處理質(zhì)量。IE技術(shù)所要抽取的文本可分為:自由式文本、結(jié)構(gòu)化文本和半結(jié)構(gòu)化文本。自由式文本11:信息 抽取最初的目的是開發(fā)實(shí)用系統(tǒng),從自由文本中析取有限的主要信息。需要經(jīng)過的處理步驟包括句 法分析、語義標(biāo)注、專有對象的識別:如人物、公司)和抽取規(guī)則。結(jié)構(gòu)化文本11:此種文本是一種數(shù) 據(jù)庫里的文本信息,或者是根據(jù)事先規(guī)定的嚴(yán)格格式生成的文本。從這樣的文本中抽取信息是非常 容易的,準(zhǔn)確度也高,通過描述其格式即可達(dá)到目的。半結(jié)構(gòu)化文本11這是一種界于自由文本和結(jié) 構(gòu)化文本之
33、間的數(shù)據(jù),通常缺少語法,也沒有嚴(yán)格的格式,對于半結(jié)構(gòu)化文本不能使用傳統(tǒng)的田技 巧,而用來處理結(jié)構(gòu)化文本的簡單的規(guī)則處理方法也不能奏效。3.2 Lucene檢索工具包Lucen e是一個高性能的,可擴(kuò)展的全文索引工具包,是一個細(xì)ava實(shí)現(xiàn)的成熟、自由、開源的 軟件項目。它不是一個完整的全文索引應(yīng)用,而是一個用Java寫的全文索引工具包。它可以方便的 嵌入到各種應(yīng)用中實(shí)現(xiàn)針對應(yīng)用的全文索引和檢索功能。Lucene的系統(tǒng)結(jié)構(gòu)與源代碼結(jié)構(gòu):Lucene由于具有開放源代碼、功能強(qiáng)大、可以跨平臺使用等各種優(yōu)點(diǎn),近年來在世界各地被廣 泛使用。Lucene的系統(tǒng)結(jié)構(gòu)圖5如下:索引文件查詢語句查詢結(jié)果索引文件對
34、外接口 基礎(chǔ)結(jié)構(gòu)封裝圖3.1 Lucene的系統(tǒng)結(jié)構(gòu)由圖3.1可以看到,Lucene的系統(tǒng)由基礎(chǔ)結(jié)構(gòu)封裝、索引核心、接口三大部分組成,其中直接操 作索引文件的索引核心又是系統(tǒng)的重點(diǎn)。是一個完全使用JZSE實(shí)現(xiàn)的全文檢索引擎工具包。3.3中文分詞技術(shù)英文是由空格和標(biāo)點(diǎn)符號隔開的單詞組成的,每一個單詞都有意義。因此對于英文文檔的處理, 標(biāo)準(zhǔn)分析模塊可以先將每個字母轉(zhuǎn)換成小寫后暫存在緩存中,遇到一個空格或標(biāo)點(diǎn)符號后返回以前 的所有字母,然后與停止詞表對比,發(fā)現(xiàn)有停止詞,立即忽略掉這個詞。如果不是停止詞則可存入 倒排索引文件中。但中文句子沒有空格作為分隔,所以這種分詞方法對于中文來說是不適用的12。
35、從20世紀(jì)70年代開始,我國一直有大量學(xué)者致力于中文自動分詞的研究,至今己獲得許多可喜的成 果,一些分詞標(biāo)引和檢索技術(shù)已投入使用12。但是,分詞技術(shù)作為中文信息檢索的瓶頸,仍然具有 很多有待克服的問題,如專有名詞以及復(fù)合詞的切分、同形異義字的區(qū)分等。目前最常用的中文分 詞技術(shù)主要分為字表法、二分法和詞庫分詞三大類:.字表法(單漢字切分方法)字表法12是對每個單字的出現(xiàn)位置進(jìn)行索引,并依據(jù)單字的位置信息進(jìn)行檢索的方法。由于漢 語是由獨(dú)立的漢字組成的,因而可以和處理英文單詞一樣處理每一個漢字,這樣可以避開分詞歧義 等難點(diǎn)問題。.二分法(二元切分方法)二分分詞法12是對單漢字索引法的一種演進(jìn),這種方
36、法是將每兩個字進(jìn)行一次切分。例如對詞 組“中華人民共和國”進(jìn)行二分法切分,則結(jié)果如下:中華/華人/人民/民共/共和/和國這種切分方法完 全不考慮詞義、語境,機(jī)械地對語句進(jìn)行處理。按這種分詞方式建立起來的索引會存有大量的無實(shí) 際意義或無檢索意義的垃圾詞匯,因此,它也不是一種最好的分詞方法。. 詞庫分詞詞庫分詞13是將能表達(dá)一定意義的詞作為基本檢索單位,并根據(jù)詞的出現(xiàn)位置進(jìn)行索引和檢索 的中文分詞方法。詞庫分詞包括最大匹配法、最佳匹配法等,這類算法分詞的正確性很大程度上取 決于所建立的詞庫。通常的做法是先構(gòu)造一個最小完備詞庫,然后在其基礎(chǔ)上進(jìn)行擴(kuò)展,建立一個 較完全的詞庫。3.4自動聚類技術(shù)聚類,
37、就是將一個數(shù)據(jù)單位的集合分割成幾個稱為簇或類別的子集,每個類中的數(shù)據(jù)都有相似 性。聚類分析依據(jù)的原則是使同一聚簇中的對象具有盡可能大的相似性,而不同聚簇中的對象具有 盡可能大的相異性。聚類分析稱為無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)不依靠事先確定的數(shù)據(jù)類別及標(biāo)有數(shù)據(jù) 類別的學(xué)習(xí)訓(xùn)練樣本集合,需要由聚類學(xué)習(xí)算法自動計算,不需要人工干預(yù)。聚類技術(shù)通過比較數(shù) 據(jù)的相似性和差異性,能發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在特征及分布規(guī)律,從而獲得對數(shù)據(jù)更深刻的認(rèn)識和理解。目前,聚類分析的方法主要有五類:劃分聚類方法、層次聚類方法、度聚類方法、基于網(wǎng)格聚類 方法和基于模型聚類方法。劃分方法15:首先創(chuàng)建!彳劃分,k為要創(chuàng)建的對象劃分個數(shù);然后
38、利用一個循環(huán)定位技術(shù)通過 將對象從一個劃分移到另一個劃分來幫助改善劃分質(zhì)量。層次方法日15:創(chuàng)建一個層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下 而上(合并)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合并經(jīng)常要與其它聚類方法相結(jié)合,如循 環(huán)定位。基于密度方法15:根據(jù)密度完成對象的聚類。它根據(jù)對象周圍的密度不斷增長聚類?;诰W(wǎng)格方法15:首先將對象空間劃分為有限個單元以構(gòu)成網(wǎng)格結(jié)構(gòu),然后利用網(wǎng)格結(jié)構(gòu)完 成聚類。STING(Statistica1 Information Grid)就是一個利用網(wǎng)格單元保存的統(tǒng)計信息進(jìn)行基于網(wǎng)格聚類 的方法?;谀P头椒?5:它假設(shè)每個聚類的模型并
39、發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。典型的基于模型方法 包括:統(tǒng)計方法C OBWEB:是一個常用的且簡單的增量式概念聚類方法。它們都不適合對大數(shù)據(jù)庫進(jìn) 行聚類處理。3.5用戶行為分析用戶既是搜索引擎的直接使用者,也是服務(wù)質(zhì)量好壞的最終評判者。對用戶使用搜索引擎行為 的調(diào)查是搜索引擎優(yōu)化尤為需要的,而搜索引擎為用戶找尋信息提供了指南。但搜索引擎給網(wǎng)絡(luò)用 戶帶來巨大便捷的同時也暴露出了不少問題,若要及時地解決這些問題,對搜索引擎進(jìn)行優(yōu)化,那 么則需要大量的用戶信息。尤其要關(guān)注用戶在使用搜索引擎時滿意和不滿意的方面,并通過相關(guān)的 軟件技術(shù)對用戶使用搜索引擎的行為進(jìn)行跟蹤,制定出優(yōu)化搜索引擎的措施。下面是通過用戶
40、行為分析反映出的一般特征:用戶瀏覽的選擇性15用戶每次搜索時,搜索引擎都會返回成百上千個查詢結(jié)果如果用戶點(diǎn)擊一個查詢結(jié)果,就可認(rèn) 為用戶視此查詢結(jié)果質(zhì)量較高;被用戶點(diǎn)擊瀏覽的頁面無疑就是用戶認(rèn)為質(zhì)量較高的頁面。用戶瀏覽的局部性15北大天網(wǎng)搜索引擎的統(tǒng)計數(shù)據(jù)顯示,用戶點(diǎn)擊的URL相當(dāng)集中。大部分用戶點(diǎn)擊都落在前面幾 頁,像第一頁的用戶點(diǎn)擊率占總點(diǎn)擊的47%,而前面5頁的點(diǎn)擊率占總點(diǎn)擊的75%以上。不到總量1/3 的頁面的點(diǎn)擊次數(shù)占到總點(diǎn)擊次數(shù)的2/314.15。這表明用戶點(diǎn)擊URL具有很強(qiáng)的局部性。用戶點(diǎn)擊率15由于網(wǎng)頁存在的時間越長,累計下來的訪問次數(shù)可能越多,故網(wǎng)頁被訪問的次數(shù)不能很好地反
41、映一個網(wǎng)頁內(nèi)容的質(zhì)量。所以,應(yīng)使用網(wǎng)頁的用戶點(diǎn)擊率來反映頁面的質(zhì)量。用戶點(diǎn)擊率是頁面被 訪問次數(shù)/頁面被搜索次數(shù)。雖然每次用戶點(diǎn)擊都是在某查詢項下的點(diǎn)擊,但研究結(jié)果表明,在大部 分的查詢項下,URL的點(diǎn)擊頻率和在所有查詢項URL的點(diǎn)擊頻率基本一致。因此,在計算用戶點(diǎn)擊 率時就不必考慮該點(diǎn)擊次數(shù)是在什么項目下的點(diǎn)擊次數(shù)。4個性化搜索引擎的總體設(shè)計4.1系統(tǒng)需求分析及總體設(shè)計本課題以傳統(tǒng)搜索引擎和元搜索引擎為背景,在搜索引擎技術(shù)中融入用戶反饋信息的采集,首 先開發(fā)一個基于用戶反饋的個性化搜索引擎系統(tǒng)。該系統(tǒng)能個性化的完成用戶的搜索行為通過學(xué)習(xí) 用戶滿意度反饋,生成用戶興趣模式優(yōu)化搜索結(jié)果,優(yōu)先返回
42、用戶感興趣的網(wǎng)頁內(nèi)容并向用戶推薦 其他用戶的興趣模式??傮w來說此系統(tǒng)的設(shè)計至少應(yīng)一該滿足以下幾點(diǎn)功能要求.用戶注冊登陸.用戶提交搜索請求,得到搜索返回結(jié)果.根據(jù)用戶提交的反饋信息,生成特定用戶興趣模式,優(yōu)化搜索結(jié)果,優(yōu)先返回用戶感興趣的網(wǎng) 頁內(nèi)容并向用戶推薦其他用戶的興趣模式,提高檢索效率Java EE技術(shù)是近幾年來研究與應(yīng)用的熱點(diǎn),Java EE平臺最大的改變是對Web服務(wù)的全面支持。 瀏覽器端向用戶提供友好的訪問操作界面,服務(wù)器端完成搜索引擎系統(tǒng)的業(yè)務(wù)邏輯,接收瀏覽器端 的輸入,處理瀏覽器端的搜索請求,并將搜索返回結(jié)果輸出給瀏覽器端。本文在設(shè)計過程中,服務(wù) 器端采用Java EE系統(tǒng)架構(gòu)。
43、采用這種方式,可保證開發(fā)的企業(yè)應(yīng)用可以部署到任何一個lava EE 的應(yīng)用服務(wù)器上。服務(wù)器端使用Windows Server2003操作系統(tǒng)、jdk-1.5.0_13、Apache Tomcat5.5.25。 數(shù)據(jù)庫系統(tǒng)負(fù)責(zé)存儲系統(tǒng)邏輯處理所需的數(shù)據(jù),本系統(tǒng)中使用MYSQL數(shù)據(jù)庫。作為一款開源軟件, MYSQL適應(yīng)于所有平臺。同時,它還具有使用簡便、管理方便、運(yùn)行速度快等優(yōu)點(diǎn),完全滿足本系 統(tǒng)的開發(fā)應(yīng)用。在集成開發(fā)環(huán)境(IDE)方面,本系統(tǒng)采用開源的Eclipseo Eclipse是IBM提出的下一代 IDE開發(fā)環(huán)境,它目標(biāo)不僅僅是成為專門開發(fā)Java程序的IDE環(huán)境,根據(jù)Eclipse的體系
44、結(jié)構(gòu),通過開 發(fā)插件,它還能擴(kuò)展到任何語言的開發(fā),甚至能成為圖片繪制的工具。個性化搜索引擎系統(tǒng)開發(fā)過程中需解決的關(guān)鍵問題如下:基于用戶反饋的個性化搜索引擎系統(tǒng)的實(shí)現(xiàn),其中包括四個關(guān)鍵問題.如何獲得搜索引擎源數(shù)據(jù).獲取用戶滿意度反饋信息的方式.基于用戶滿意度反饋信息,生成用戶興趣模式的學(xué)習(xí)算法.基于用戶興趣模式的搜索結(jié)果優(yōu)化算法基于用戶反饋的個性化搜索引擎系統(tǒng)中引入自動聚類技術(shù)的改進(jìn)方案用戶聚類的簡單設(shè)計思 想搜索結(jié)果聚類的設(shè)計思想4.2系統(tǒng)功能及架構(gòu)設(shè)計本課題通過學(xué)習(xí)用戶滿意度反饋,挖掘隱形信息,生成用戶興趣模式,對搜索引擎返回的搜索 結(jié)果進(jìn)行加工處理,開發(fā)出實(shí)用的基于用戶反饋的個性化搜索引擎
45、系統(tǒng),并在此基礎(chǔ)上提出引入自 動聚類的改進(jìn)方案,從而使用戶能享受高效的個性化查詢,提高用戶的搜索效率。本系統(tǒng)的主要功能包括:友好的系統(tǒng)界面使得用戶可以方便的實(shí)現(xiàn)注冊、登陸、檢索、評價等。 完成用戶的搜索請求本系統(tǒng)能根據(jù)用戶輸入的搜索關(guān)鍵詞,及時返回搜索結(jié)果。學(xué)習(xí)用戶反饋信息, 向用戶返回針對性的搜索結(jié)果,開發(fā)出基于用戶反饋的個性化搜索引擎,用戶對本搜索引擎的返回 結(jié)果進(jìn)行滿意度評價后,系統(tǒng)會對用戶的滿意度反饋信息進(jìn)行學(xué)習(xí)分析,提高檢索效率。本文將系統(tǒng)結(jié)構(gòu)模型劃分為三層,分別是表示層、業(yè)務(wù)邏輯層和數(shù)據(jù)持久層。利用三層模式, 可以保證用戶訪問不直接接觸后臺應(yīng)用以及數(shù)據(jù)資源,而是通過訪問中間層,來獲
46、取后臺的數(shù)據(jù)資 源,這樣即可以保證后臺數(shù)據(jù)的安全性,又可以保證處理的一致性。下面是本課題的系統(tǒng)結(jié)構(gòu)圖表示層Web瀏覽器HTTP協(xié)議圖4.1系統(tǒng)結(jié)構(gòu)圖基于語義Web搜索引擎的系統(tǒng)框架:搜索引擎工作的基本思想是:使用Robot來遍歷Web,#Web 上分布的信息下載到本地文檔庫;然后對檔內(nèi)容進(jìn)行自動分析并建立索引,添加到倒排索引庫:對于用 戶提出的檢索請求,搜索引擎通過檢查索引庫找出匹配的文檔,返回用戶。而基于語義Web的搜索 引擎所有的工作都是建立在語義Web基礎(chǔ)之上的,特別是在建立索引和檢索過程中。4.3系統(tǒng)流程設(shè)計本系統(tǒng)接收來自瀏覽器端的用戶搜索請求,調(diào)用相應(yīng)的業(yè)務(wù)方法,訪問數(shù)據(jù)持久層的數(shù)據(jù)
47、資源, 并將所需要的數(shù)據(jù)返回瀏覽器端,即響應(yīng)用戶的請求。同時,本搜索引擎系統(tǒng)的最大特點(diǎn)就是,根 據(jù)用戶提交的滿意度反饋信息,調(diào)用相應(yīng)的業(yè)務(wù)方法生成用戶興趣優(yōu)化搜索結(jié)果,優(yōu)先返回用戶感 興趣的網(wǎng)頁內(nèi)容。本系統(tǒng)實(shí)現(xiàn)過程中,主要由四個步驟組成:(1)用戶注冊、登陸;(2 )用戶提交搜索關(guān) 鍵詞,實(shí)現(xiàn)搜索得到返回結(jié)果;(3)根據(jù)用戶對搜索結(jié)果的滿意度反饋信息,生成用戶興趣規(guī)則;(4 )根 據(jù)用戶興趣規(guī)則優(yōu)化搜索結(jié)果,及時將用戶感興趣的網(wǎng)頁返回給用戶。以下是這四個步驟的流程圖用戶注冊、登陸以一下是用戶注冊、登陸的流程圖。訪問本搜索引擎的用戶可以以訪客,已注冊用戶身份來完成搜 索功能,并且本系統(tǒng)調(diào)用MDS
48、加密技術(shù),對已注冊用戶的密碼進(jìn)行加密,保證了用戶信息的安全性。(2)用戶搜索以下是用戶搜索的流程圖。用戶提交關(guān)鍵詞后,系統(tǒng)實(shí)現(xiàn)搜索功能,得到返回的搜索結(jié)果并且 這些搜索結(jié)果會依據(jù)用戶興趣規(guī)則及用戶反饋信息(用戶滿意度評價)及時優(yōu)化處理,爭取達(dá)到優(yōu)先返 回用戶感興趣的網(wǎng)頁內(nèi)容的效果。圖4.3用戶搜索流程圖生成用戶興趣規(guī)則以下是根據(jù)用戶滿意度反饋信息生成用戶興趣規(guī)則的流程圖。通過本文自定義的一套學(xué)習(xí)用戶 反饋信息的方法,生成特定用戶對特定搜索關(guān)鍵詞的興趣規(guī)則。圖4.4生成用戶興趣規(guī)則流程圖優(yōu)化搜索結(jié)果以下是依據(jù)用戶興趣規(guī)則對待返回的搜索結(jié)果進(jìn)行優(yōu)化的流程圖。通過計算待返回的搜索結(jié)果 與用戶興趣規(guī)則
49、的相似度,對返回結(jié)果降序排序,優(yōu)先返回用戶感興趣的網(wǎng)頁內(nèi)容。圖4.5優(yōu)化搜索結(jié)果流程圖4.4系統(tǒng)數(shù)據(jù)庫設(shè)計本課題開發(fā)一個基于用戶反饋的個性化搜索引擎系統(tǒng),服務(wù)器端主要設(shè)計了如下幾個數(shù)據(jù)庫表 user_info用戶基本信息表:用來存儲已注冊用戶的基本信息。search_record搜索記錄表:用來存儲歷史搜索記錄。storerecord搜索結(jié)果存儲表:用來存儲返回的搜索結(jié)果。rule_record用戶興趣規(guī)則表:用來存儲生成的用戶興趣規(guī)則。user_rule用戶與規(guī)則關(guān)聯(lián)表:用來關(guān)聯(lián)特定用戶與特定興趣規(guī)則。rule_result搜索結(jié)果分值表:用來存儲搜索結(jié)果與用戶興趣規(guī)則的相似度。表4.1用戶
50、基本信息表字段名稱字段類型字段說明UserlgidVarchar(50)用戶名PasswordVarchar(50)用戶密碼EmailVarchar(50)郵箱MobileVarchar(15)手機(jī)號碼loginipVarchar(15)最后一次登陸IPRegtimeDatetime注冊時間LogintimeDatetime最后一次登陸時間MemoVarchar(50)備注useridIng(10)用戶序號表4.2搜索記錄表字段名稱字段類型字段說明SearchedInt(10)搜索序號UseridInt(10)用戶序號KeywordsVarchar(200)搜索關(guān)鍵詞resultsInt(10
51、)搜索結(jié)果數(shù)searchtimedatetime搜索時間表4.3搜索結(jié)果存儲表字段名稱字段類型字段說明StoriedBigint(19)搜索結(jié)果序號KeywordsVarchar(50)搜索關(guān)鍵詞urlMediumtext搜索結(jié)果鏈接地址TitleMediumtext搜索結(jié)果標(biāo)題ContestMediumtext搜索結(jié)果摘要PagesizeVarchar(20)搜索結(jié)果網(wǎng)頁頁面大小PagedateVarchar(20)搜索結(jié)果更新日期SegmenterMediumtext搜索結(jié)果分詞集合flagInt(10)標(biāo)志位DowntimeDatetime搜索結(jié)果存儲時間pageidInt(10)頁面號
52、表4.4用戶興趣規(guī)則表字段名稱字段類型字段說明IdBigint(19)規(guī)則序號KeywordsVarchar(20)規(guī)則關(guān)鍵詞PageidInt(10)產(chǎn)生規(guī)則的頁號AdddateDatetime規(guī)則生成時間Segmentermediumtext興趣規(guī)則分詞及權(quán)重RulevalueInt(10)規(guī)則的權(quán)重countsInt(10)規(guī)則的使用次數(shù)表4.5用戶與規(guī)則關(guān)聯(lián)表字段名稱字段類型字段說明IdBigint(19)序號UseridDecimal用戶序號ruleidDecimal規(guī)則序號表4.6搜索結(jié)果分值表字段名稱字段類型字段說明IdBigint(19)序號ResultedDecimal搜索結(jié)
53、果序號Ruleiddecimal規(guī)則序號PagenumInt(10)搜索結(jié)果所在頁號HitsInt(10)搜索結(jié)果點(diǎn)擊數(shù)MarkInt(10)搜索結(jié)果評分WeightInt(10)搜索結(jié)果權(quán)重resultvalueInt(10)搜索結(jié)果與興趣規(guī)則相似度5個性化搜索引擎的具體實(shí)現(xiàn)5.1模塊設(shè)計基于上一章的功能分析和總體設(shè)計,本搜索引擎系統(tǒng)可分為四個模塊來實(shí)現(xiàn)。它們分別是用戶 界面模塊、搜索模塊、學(xué)習(xí)用戶反饋模塊、搜索結(jié)果優(yōu)化處理模塊。下面是本系統(tǒng)的功能模塊圖用戶界面模塊:用戶與搜索引擎系統(tǒng)交互的界面。用戶界面的主要功能有用戶注冊、登陸、提 交搜索關(guān)鍵詞、顯示搜索結(jié)果、提交反饋信息等。搜索模塊:根
54、據(jù)用戶輸入的搜索關(guān)鍵詞,獲得搜索結(jié)果并經(jīng)過相關(guān)預(yù)處理后存入搜索結(jié)果數(shù)據(jù) 庫。學(xué)習(xí)用戶反饋模塊:根據(jù)用戶提交的滿意度反饋信息,挖掘隱藏信息,結(jié)合學(xué)習(xí)算法,生成用 戶興趣規(guī)則并存入用戶興趣規(guī)則數(shù)據(jù)庫。搜索結(jié)果優(yōu)化模塊:根據(jù)用戶的興趣規(guī)則,計算搜索結(jié)果與用戶興趣規(guī)則的相似度,將待返回 搜索結(jié)果按相似度降序排列,優(yōu)先返回用戶感興趣的網(wǎng)頁內(nèi)容。下面分章節(jié)詳細(xì)闡述這四個模塊的 實(shí)現(xiàn)方法及核心代碼:5.2用戶界面模塊所有來訪用戶均可通過本搜索引擎系統(tǒng)完成搜索功能。其中,未注冊用戶以訪客身份登陸實(shí)現(xiàn) 搜索,新用戶可填寫注冊信息實(shí)現(xiàn)注冊,已注冊用戶通過提交正確的用戶名和密碼登陸后可進(jìn)行搜 索。用戶登陸后再搜索的
55、益處在于,可以有針對性的采集用戶的反饋信息一主要是用戶的滿意度評 價信息,有助于生成用戶興趣規(guī)則,優(yōu)化搜索結(jié)果,從而優(yōu)先向用戶返回其感興趣的網(wǎng)頁內(nèi)容。也 就是說,對于不同用戶輸入相同搜索關(guān)鍵詞時,本搜索引擎可以根據(jù)用戶的興趣模式向特定用戶返 回有針對性的搜索結(jié)果。同時,本系統(tǒng)在實(shí)現(xiàn)過程中,調(diào)用MDS加密技術(shù),對用戶密碼進(jìn)行加密, 保證了用戶信息的安全性。下面是用戶界面模塊的幾個組成部分圖5.2用戶界面模塊組成圖由上圖可知,用戶界面模塊主要由:用戶注冊界面、用戶登陸界面、搜索提交界面、搜索結(jié)果返 回界面組成。下面給出了用戶注冊、用戶登陸功能的核心代碼而搜索提交與搜索結(jié)果返回界面的相 關(guān)功能代碼將
56、在后續(xù)相應(yīng)章節(jié)中給出。用戶注冊功能核心代碼Datedate=newDate():TimestamPregtime=newTimestamP(date.getTime() if(request.getParameter(Submit”)!=null)if(request.getParameteruid)!=null)uid=newString(request.getParalneter(uid”).getBytes(iso-8859-1”), ”gb2312”);if(request.getParameter(email)!=null) email=newString(request.getPa
57、rameter(“email).getBytes(iso-8859-l), ” gb2312”);if(request.getParameter(Password)!null)Password=newString(request.getParameter(Password”).getBytes(iso-8859-l”),” gb2312”): if(request.getParameter(mobile”)!=null)mobile=newString(request.getParameter(mobile”).getBytes(iso-8859-l”),”gb2312”):striP=new
58、String(request.getRemoteAddr().getBytes(“iso-8859-l”),” gb2312”):MDSEneodestrMDS=newMDSEncode():UserlnfBeanuinfobean=newUserlnfBean();if(!uinfobean.ifexist-userlgid(uid)Userlnfuinfo=newUserInf():uinfo.setuserlgid(uid);uinfo.setemail(email); uinfo.setname(uid);uinfo.setPassword(strMD5.getMD5ofStr(Pas
59、sword):uinfo.setlogintime(regtime);uinfo-setregtime(regtime);uinfo-setmobile(mobile): uinfo.setloginip(strip);uinfo.setmemo(”):uinfobean.add-userinfo(uinfo):elseUid=“注冊未成功。對不起,該用戶名已經(jīng)注冊了,請重新取名注冊!” ;(2)用戶登陸功能核心代碼:if(request.getParameter(Submi”)!=null)if(request.getParameter(uid”)!=null)uid=newString(r
60、equest.getParameter”uid”).getBytes(iso-8859-T), ”gh2312”):if(request.getParameter(Password”)!null)Password=newStril1g(request.getParametefPassword”).getBytes(iso-8859-l”),”gb2312”):MDSEneedestrMDS=newMDSEneode();UserlnfBeanuinfobean=newUserlnfBean();Userlnfuinfo=newUserInf();uinfo=uinfobean.getUseri
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年物業(yè)管理改善協(xié)議3篇
- 小班音樂教案錦集10篇
- 雙十一營銷活動方案大全10篇
- 醫(yī)院護(hù)士演講稿(合集15篇)
- 軍訓(xùn)心得高一范文5篇
- 邀請活動的邀請函八篇
- 感恩中學(xué)生演講稿三篇
- 會計的實(shí)習(xí)報告三篇
- 乒乓球比賽的作文400字合集7篇
- 保護(hù)水資源倡議書15篇
- DB32T 4353-2022 房屋建筑和市政基礎(chǔ)設(shè)施工程檔案資料管理規(guī)程
- 航空小鎮(zhèn)主題樂園項目規(guī)劃設(shè)計方案
- 保潔冬季防滑防凍工作措施
- 少兒美術(shù)課件-《我的情緒小怪獸》
- 拆除工程原始記錄
- 重視圍透析期慢性腎臟病患者的管理課件
- 預(yù)應(yīng)力鋼絞線張拉伸長量計算程序單端(自動版)
- 企業(yè)內(nèi)部審計情況報表
- 基坑監(jiān)測課件ppt版(共155頁)
- 露天臺階爆破設(shè)計
- 中式婚禮PPT幻燈片課件
評論
0/150
提交評論