下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 商業(yè)主題搜索引擎的研究一、引言互聯(lián)網(wǎng)對商業(yè) 發(fā)展 產(chǎn)生了巨大的推動作用,我國商業(yè)信息網(wǎng)站已經(jīng)發(fā)展到成千上萬家,在傳播商業(yè)政策和信息方面發(fā)揮了顯著作用。隨著 網(wǎng)絡 信息數(shù)量的迅猛增長,“信息過載”、“信息超載”現(xiàn)象引起了人們的重視。 如何高效、準確的獲得包含用戶所需的信息的網(wǎng)頁,日益成為需要迫切解決的 問題 。垂直搜索引擎是解決這一問題的一個有效 方法 。面向商業(yè)的中文專題垂直搜索引擎有針對性的搜索網(wǎng)上商業(yè)專題信息,從而使商務人員高效檢索所需的信息。而隨著萬維網(wǎng)上的信息數(shù)量呈指數(shù)增長, 大量信息垃圾也混雜其中。如何向商業(yè)用戶提供質量好且數(shù)量適當?shù)臋z索結果成為垂直搜索引擎關注的方向之一。二、國內(nèi)
2、外現(xiàn)狀與發(fā)展趨勢垂直搜索引擎大都處于 研究 和試驗階段,利用其搜索的結果再加上專業(yè)人士的加工而形成的面向某一學科、領域的垂直門戶網(wǎng)站也已經(jīng)出現(xiàn)。 目前 在國外,對有關主題搜索引擎的研究已經(jīng)成為一大熱點,我國主題搜索引擎的研究則剛剛起步。目前面向主題的網(wǎng)絡搜索主要有兩種技術:一是基于 內(nèi)容 的搜索,這種搜索方式是傳統(tǒng)的信息檢索技術的延伸。它的主要方式就是在搜索引擎內(nèi)部建立一個針對主題的詞表,搜索引擎的爬行器根據(jù)其內(nèi)設的詞表對網(wǎng)上的信息進行索引。各個不同的系統(tǒng)詞表建設的復雜度也大不相同。二是基于鏈接 分析 的搜索。網(wǎng)頁之間的鏈接指引關系與傳統(tǒng)的引文索引非常相似,通過對鏈接進行分析,可以找出各個網(wǎng)頁
3、之間的引用關系。由于引用網(wǎng)頁與被引用網(wǎng)頁之間內(nèi)容上一般都比較相關,所以就可以很容易地按照引用關系對大量網(wǎng)頁分類。三、技術關鍵基于面向商業(yè)的垂直搜索引擎服務具有其自身的特性,下面列舉出實現(xiàn)商業(yè)信息垂直搜索引擎的四大關鍵技術。1.針對性、實時性和易于管理的網(wǎng)頁采集技術:面向商業(yè)的垂直搜索帶有專業(yè)性或行業(yè)性的需求和目標,所以只對局部來源的網(wǎng)頁進行采集,采集的網(wǎng)頁數(shù)量適中,但其要求采集的網(wǎng)頁全面,必須達到更深的層級,采集動態(tài)網(wǎng)頁的優(yōu)先級也相對較高。在實際 應用 中,垂直搜索的網(wǎng)頁采集技術應能夠按需控制采集目標和范圍、按需支持深度采集及按需支持復雜的動態(tài)網(wǎng)頁采集,即采集技術要能達到更加針對性、實時性和易
4、于管理,并且網(wǎng)頁信息更新周期也更短,獲取信息更及時。2.結構化數(shù)據(jù)的網(wǎng)頁解析技術:由于面向商業(yè)的垂直搜索引擎服務的特殊性,往往要求按需提供時間、來源、作者及其他元數(shù)據(jù)解析,包括對網(wǎng)頁中特定內(nèi)容的提取。在商業(yè)垂直搜索服務中,要求對于作者、主題、地區(qū)、機構名稱、產(chǎn)品名稱以及特定行業(yè)用語進行提取,才能進一步提供更有價值的搜索服務。3.全文索引和聯(lián)合檢索技術:面向商業(yè)的垂直搜索由于在信息的專業(yè)性和使用價值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結果排序方式。另外,還要求按需支持結構化和非結構化數(shù)據(jù)聯(lián)合檢索,比如結合作者、內(nèi)容、分類進行組合檢索等。4.智能化的文本挖掘技術:面向商
5、業(yè)的垂直搜索是以結構化數(shù)據(jù)為最小單位?;诮Y構化數(shù)據(jù)和全文數(shù)據(jù)的結合,垂直搜索才能為用戶提供更加到位、更有價值的服務。整個結構化信息提取貫穿從網(wǎng)頁解析到網(wǎng)頁加工處理的過程。同時面對上述要求,垂直搜索還能夠按需提供智能化處理功能,比如自動分類、自動聚類、自動標引、自動重排,文本挖掘等等。這部分是垂直搜索乃至信息處理的前沿技術。 四、設計方案1.技術路線。采用如下的 研究 開發(fā)路線:(1)針對商業(yè)信息的分布特點以及用戶的實際需求,在充分調研的基礎上,詳細了解和比較其他研究人員在類似領域取得的一些重要而有一定創(chuàng)新性的成果,在此基礎上初步提出平臺的整體架構。(2)結合面向對象設計技術,對上一步設計出的
6、平臺進一步細化,從而明確對該項目所采用的具體設計模式。(3)根據(jù)設計模式所面臨的具體 問題 (例如,如何提高爬行速度問題、系統(tǒng)資源限制問題、網(wǎng)頁分類器問題、HTML文檔解析問題等)給出有效的解決方案。(4)將以上的方案付諸實施,形成一個面向商業(yè)的信息查詢與共享平臺;同時對系統(tǒng)的各種參數(shù)進行進一步測試,不斷地完善和優(yōu)化,最終形成一個界面友好、響應速度/查全率/查準率均符合用戶要求的面向商業(yè)的垂直搜索引擎。2.創(chuàng)新點。為達到商業(yè)信息搜索引擎預期的響應速度、查全率和查準率,在系統(tǒng)的開發(fā)中有如下創(chuàng)新點:(1)系統(tǒng)總體為模塊化結構,各個模塊之間高內(nèi)聚,低耦合。(2)系統(tǒng)使用面向對象語言開發(fā),能夠有效地重用系統(tǒng)部分代碼。(3)在設計過程中,使用面向對象的思想做指導,建立系統(tǒng)類圖,便于開發(fā)人員之間的交流。在編碼過程中,不斷重構代碼,使得代碼具有很高的運行效率,大大提高其重用性。(4)系統(tǒng)集成時,使用XML文檔作為模塊間傳遞信息的工具。(5)大量采用散列表來提高數(shù)據(jù)的查找速度,優(yōu)化系統(tǒng)性能。目前 ,對于搜索引擎的首要關注點已經(jīng)從如何找到更多的信息轉移到如何找到準確、有用的信息,查準率已經(jīng)成為眾多搜索引擎的首要目標。垂直搜索引擎從商業(yè)專題出發(fā),有針對性的搜索網(wǎng)上商業(yè)專題信息,從而使商務用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國電子紗行業(yè)全國市場開拓戰(zhàn)略制定與實施研究報告
- 關于煎餅的市場調查問卷
- 2024-2030年中國滾裝船行業(yè)市場全景監(jiān)測及投資前景展望報告
- 二年級數(shù)學計算題專項練習
- 天燃氣安全知識培訓課件
- 二零二五年度國有企業(yè)保安隊伍建設合同范本
- 二零二五年度孔瑤婚姻狀況變更協(xié)議書3篇
- 不忘井岡山精神黨史學習
- 二零二五年度房產(chǎn)買賣合同解析3篇
- 二零二五年度辦公室裝修與家具定制服務合同3篇
- 《生物安全培訓》課件-2024鮮版
- 老年患者跌倒的危險因素及護理研究進展
- 全過程工程咨詢作業(yè)指導書
- 機械設備租賃合同范本簡單版(9篇)
- 城市生活垃圾分選系統(tǒng)設計
- 綠色施工管理體系與管理制度管理辦法(新版)
- 機動車交通事故快速處理協(xié)議書(最新格式)
- 最新拉鏈廠安全操作規(guī)程
- 述職報告評分表
- 變壓器交接試驗報告(1250)
- LOI外貿(mào)采購意向(標準樣本)
評論
0/150
提交評論