




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
本講提綱搜索引擎的發(fā)展簡史搜索引擎的分類搜索引擎的技術(shù)原理搜索經(jīng)濟(jì)的誕生搜索引擎的未來發(fā)展趨勢1搜索引擎的發(fā)展簡史搜索引擎的鼻祖:Archie1990年由Montreal的McGillUniversity(麥吉爾大學(xué))學(xué)生AlanEmtage、PeterDeutsch、BillWheelan發(fā)明的Archie(ArchieFAQ)實(shí)際上是一個可搜索的FTP文件名列表現(xiàn)代搜索引擎的起源:Wanderer1993年MIT的學(xué)生MatthewGray開發(fā)了WorldWideWebWanderer,它是世界上第一個利用網(wǎng)頁之間的鏈接關(guān)系來監(jiān)測Web發(fā)展規(guī)模的機(jī)器人(Robot)程序。最開始只是用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,之后發(fā)展為也能捕獲網(wǎng)址。Yahoo1994.4美籍華人JerryYang(楊致遠(yuǎn))和DavidFilo完成了一套搜索軟件。最初Yahoo的數(shù)據(jù)是手工輸入的,實(shí)際上只是一個可搜索的目錄。1995年1月,正式成立Yahoo網(wǎng)站
第一個現(xiàn)代意義上的搜索引擎:Lycos1994.7CarnegieMellonUniversity的MichaelMauldin將JohnLeavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了Lycos.提供了前綴匹配和字符相近限制、網(wǎng)頁自動摘要、數(shù)據(jù)量相對較大。Infoseek1994年底,Infoseek推出,沿襲Yahoo!和Lycos的概念。友善的用戶界面、大量附加服務(wù)使其后來者居上。1995.12與Netscape的戰(zhàn)略性協(xié)議使它變得很強(qiáng)勢2001年2月,Infoseek改用Overture的搜索結(jié)果第一個元搜索引擎:
Metacrawler元搜索引擎(AMetaSearchEngineRoundup)。用戶提交搜索后,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來處理后再返回給用戶。第一個元搜索引擎,是Washington大學(xué)碩士生EricSelberg和OrenEtzioni開發(fā)的Metacrawler。第一個支持自然語言搜索的搜索引擎:
AltaVista1995年12月出現(xiàn)(AltaVistaPublicBetaPressRelease)。AltaVista是第一個支持自然語言搜索的搜索引擎。2003年AltaVista被Overture收購,后者是Yahoo的子公司。搜索引擎的后來之王:Google1995年,佩奇來到斯坦福讀博士,開始網(wǎng)絡(luò)鏈接結(jié)構(gòu)方面的研究項(xiàng)目BackRub。之后,他和布林提出了PageRank技術(shù),用于對網(wǎng)頁評級之后用于搜索引擎,改寫了搜索引擎的定義,建立了Google。搜索引擎的后來之王:GoogleGoogle在斯坦福引起了人們的關(guān)注。佩奇開始準(zhǔn)備出售該技術(shù),但是沒有成功。Sun公司創(chuàng)始人的投資,隨后成立公司。2000年和Yahoo合作,一飛沖天。2004年7月上市,市值250億,增長速度超過微軟。Google之特點(diǎn)專注、進(jìn)取、樸素、低調(diào)、神話般的創(chuàng)業(yè)故事中文搜索引擎老大:百度2000.1李彥宏創(chuàng)立了百度。2001.8發(fā)布百度測試版。目前是最大的中文搜索引擎MP3搜索特色百度的特點(diǎn)專注于技術(shù)專注于中文搜索北大天網(wǎng)由北大計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開發(fā),于1997年10月29日正式在CERNET上提供服務(wù)。利用教育網(wǎng)優(yōu)勢,有強(qiáng)大的FTP搜索功能。中國互聯(lián)網(wǎng)使用率
使用率
使用率信息渠道生活助手
網(wǎng)絡(luò)新聞77.3%
網(wǎng)絡(luò)求職15.2%搜索引擎74.8%
網(wǎng)絡(luò)教育24.0%寫博客19.1%
網(wǎng)絡(luò)購物25.5%交流工具
網(wǎng)絡(luò)銷售4.3%即時通信69.8%
網(wǎng)上旅行預(yù)訂3.9%電子郵件55.4%網(wǎng)上銀行
20.9%娛樂工具
網(wǎng)上炒股14.1%網(wǎng)絡(luò)音樂68.5%
網(wǎng)絡(luò)影視61.1%
網(wǎng)絡(luò)游戲47.0%
——2007年7月中國互聯(lián)網(wǎng)信息中心第20次網(wǎng)絡(luò)調(diào)查報告2搜索引擎的分類目錄搜索引擎以人工方式或半自動方式搜集信息信息準(zhǔn)確、導(dǎo)航質(zhì)量缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時機(jī)器人搜索引擎由一個稱為蜘蛛(Spider)的機(jī)器人程序自動搜索信息優(yōu)點(diǎn):信息量大、更新及時、無需人工干預(yù)缺點(diǎn):返回信息過多,有很多無用信息。元搜索引擎利用其他搜索引擎返回統(tǒng)一的搜索結(jié)果。返回信息量更大、更全。缺點(diǎn)是不能充分使用所有搜索引擎的功能其他搜索產(chǎn)品建站時間1999.5世界排名20站長年齡22歲收購前月收入100萬收購價格,號稱5000萬,實(shí)際可能1000萬3搜索引擎的技術(shù)原理搜索引擎的基本要求接受用戶提交的關(guān)鍵字,然后在一個可以接受的時間內(nèi)返回一個和該用戶查詢匹配的網(wǎng)頁信息列表搜索引擎工作流程網(wǎng)頁搜集預(yù)處理查詢服務(wù)網(wǎng)頁搜集網(wǎng)頁數(shù)據(jù)庫的基本策略:1)定期搜集:2)增量搜集:網(wǎng)頁的抓取策略:1)“爬取”策略:2)維護(hù)URL:定期搜集定期搜索,隔一段時間后對整個網(wǎng)頁重新搜集一遍,替換以前的內(nèi)容。優(yōu)點(diǎn):實(shí)現(xiàn)起來較簡單缺點(diǎn):開銷較大,兩次搜集的時間間隔不會很短,“時新性(freshness)”不高增量搜集開始時搜集一遍,然后:1.搜集新出現(xiàn)的網(wǎng)頁2.搜集更新了的網(wǎng)頁3.發(fā)現(xiàn)有網(wǎng)頁已經(jīng)不存在,則從庫中刪除“爬取”策略將Web看作是一個有向圖,搜集過程從給定的起始url集合S開始,沿著網(wǎng)頁中的鏈接,按照一定的策略(先深/先寬/others)遍歷。這個過程象蜘蛛(spider)在蜘蛛網(wǎng)(Web)上爬行WWW工作原理客戶端新浪服務(wù)器端發(fā)出請求發(fā)回網(wǎng)頁爬取策略維護(hù)URL系統(tǒng)進(jìn)行第一次全面的網(wǎng)頁搜集之后,維護(hù)相應(yīng)的URL集合,以后的搜索基于此集合。每搜到一個網(wǎng)頁,如果它發(fā)生變化并有新的URL,就將新URL也放到集合中。人工添加網(wǎng)站擁有者主動向搜索引擎提交自己的網(wǎng)址系統(tǒng)在一定時間內(nèi)定向向那些網(wǎng)站派出“蜘蛛”程序,掃描并收集有關(guān)信息。存儲網(wǎng)頁搜集到的網(wǎng)頁將存儲到知識庫(repository)中。知識庫包含每個網(wǎng)頁的docID,長度,URL以及網(wǎng)頁的全部HTML。由于網(wǎng)頁數(shù)量會很多,所以,網(wǎng)頁在存入知識庫時要進(jìn)行壓縮處理。預(yù)處理關(guān)鍵詞的提取重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除鏈接分析網(wǎng)頁重要程度的計算關(guān)鍵詞的提取什么是倒排文件(invertedfile)?需要從網(wǎng)頁源文件中提取出能夠代表它的內(nèi)容的一些特征,而關(guān)鍵詞就是這種特征最好的代表。其中涉及到英文的分詞和中文的分詞。對一篇網(wǎng)頁來說,有效的詞語數(shù)量一般是200左右。重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除據(jù)2003年的有關(guān)數(shù)據(jù)表示,互聯(lián)網(wǎng)上網(wǎng)頁的重復(fù)率平均大約為4。在預(yù)處理階段,要將重復(fù)或轉(zhuǎn)載網(wǎng)頁消除掉。鏈接分析鏈接是分析網(wǎng)頁重要的信息1.鏈接描述文字準(zhǔn)確的反映了網(wǎng)頁的內(nèi)容2.網(wǎng)頁之間的鏈接關(guān)系,反映了網(wǎng)頁的重要程度(PageRankGoogle)網(wǎng)頁重要程度計算PageRank(Google)指向一個網(wǎng)頁的鏈接越多,說明這個網(wǎng)頁越重要。把整個web結(jié)構(gòu)看作一個矩陣。N個網(wǎng)頁就形成一個n×n的矩陣。查詢服務(wù)查詢方式和匹配結(jié)果排序文檔摘要查詢方式和匹配查詢方式指的是系統(tǒng)允許用戶提交查詢的方式。查詢短語分詞對查詢短語進(jìn)行分詞匹配將查詢關(guān)鍵詞與倒排文件的索引詞進(jìn)行匹配結(jié)果排序按照某種評價方式,將搜索結(jié)果以某種順序顯示出來。評價方式相關(guān)性早期采用基于詞匯出現(xiàn)頻度的方法詞在不同文檔中出現(xiàn)的頻率PageRank在預(yù)處理階段形成重要性指標(biāo),和查詢階段的相關(guān)性指標(biāo)相結(jié)合。文檔摘要靜態(tài)生成方式預(yù)處理階段生成,如取網(wǎng)頁的前512個字節(jié),或者取每一段的第一句話。動態(tài)生成方式在查詢時,根據(jù)查詢關(guān)鍵詞的位置動態(tài)生成。搜索引擎系統(tǒng)的體系結(jié)構(gòu)4搜索經(jīng)濟(jì)的誕生互聯(lián)網(wǎng)的重心發(fā)展歷程網(wǎng)絡(luò)溝通內(nèi)容搜索注意力經(jīng)濟(jì)(眼球經(jīng)濟(jì))提供網(wǎng)上圖片等各種信息注重提供免費(fèi)信箱、聊天室等各種服務(wù)吸引人來,注重會員數(shù)。從眼球經(jīng)濟(jì)到拇指經(jīng)濟(jì)被動主動搜索力經(jīng)濟(jì)拇指變成了十指,被動變成了主動搜索成了網(wǎng)絡(luò)經(jīng)濟(jì)的引擎和發(fā)動機(jī)搜索引擎的盈利模式搜索引擎最初并沒有顯示出價值,只是一個免費(fèi)的附加服務(wù)。PageRank算法的誕生,使得網(wǎng)絡(luò)盈利成為可能根據(jù)搜索結(jié)果顯示相應(yīng)的廣告,這是網(wǎng)絡(luò)廣告的真正創(chuàng)新搜索引擎的盈利模式競價排名1998年Overture推出收費(fèi)競價排名服務(wù),誰出的錢多,誰排前面,搜索引擎成了搖錢樹。搜索與購物網(wǎng)站綁定時長競價排名按天競價消除惡意點(diǎn)擊搜索等于搜錢2007年中國搜索引擎市場規(guī)模達(dá)29.0億元,比上一年增長108.3%——艾瑞咨詢中國搜索引擎市場份額中美日市場規(guī)模對比重構(gòu)搜索力2003年8月,搜索引擎重新回到Y(jié)ahoo首頁的突出位置。并不完全是搜索引擎可以賺錢了關(guān)鍵是它還可以整合其現(xiàn)有的業(yè)務(wù)資源2004年8月,搜狐推出了搜索引擎搜狗。2003年開始,微軟重組MSN部門,并希望在下一代操作系統(tǒng)中集成搜索。亞馬遜推出了A9網(wǎng)站,專注于購物搜索搜索引擎大戰(zhàn)微軟數(shù)次提出要收購Google.結(jié)果被Google挖走李開復(fù)IBM也推出了自己的搜索技術(shù)搜索引擎和門戶網(wǎng)站之爭養(yǎng)虎為患不得不養(yǎng)復(fù)雜的競爭合作關(guān)系中國搜索用戶的首選中國高端搜索用戶的首選“百度”視頻/v_show/id_cj00XMjA4NzY0NTY=.html
“Google”視頻/v_playlist/ca00f711381o9p5.html
群狼共舞搜索鳥網(wǎng)絡(luò)世界的未來統(tǒng)治者?目前,Google是當(dāng)之無愧的世界老大?但是未來呢?Google在中國呢?5搜索引擎的未來發(fā)展趨勢搜索引擎自身的發(fā)展趨勢專業(yè)化主題化垂直搜索引擎?zhèn)€性化搜索工具條桌面搜索智能化本地化基于位置的搜索服務(wù)技術(shù)更復(fù)雜,應(yīng)用更簡單搜索引擎所引發(fā)的互聯(lián)網(wǎng)變化搜索引擎的革命引發(fā)互聯(lián)網(wǎng)應(yīng)用模式、商務(wù)模式和業(yè)務(wù)形態(tài)的革命搜索將成為一個網(wǎng)站的必備配置搜索引擎的綜合化基于搜索引擎的信息增值業(yè)務(wù)——競爭情報系統(tǒng)、商務(wù)搜索、8848的購物搜索、Google信箱搜索引擎的重要性從內(nèi)容為王到搜索為王從搜索服務(wù)到搜索平臺基于搜索平臺的搜索增值服務(wù)我的體會搜索引擎中的土和洋。搜索引擎是一個技術(shù)性很強(qiáng)的東西,但是又需要很多技術(shù)之外的東西搜索引擎是一個很容易
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程資料員承包合同
- 仿古建設(shè)工程施工合同書
- 2024屆高考語文寫作指導(dǎo)家鄉(xiāng)風(fēng)俗
- 2025年四川貨運(yùn)從業(yè)資格證模擬版本
- 中外合資經(jīng)營企業(yè)合同常用版樣書8篇
- 2025年安徽貨運(yùn)從業(yè)資格證題
- 2025年寧德道路運(yùn)輸從業(yè)資格證考試
- 數(shù)據(jù)模型構(gòu)建表-模型構(gòu)成
- 醫(yī)院對口支援協(xié)議書
- 2025年南寧從業(yè)資格貨運(yùn)資格考試題庫答案大全
- 2025年山東泰山財產(chǎn)保險股份有限公司招聘筆試參考題庫含答案解析
- 初中物理競賽及自主招生講義:第7講 密度、壓強(qiáng)與浮力(共5節(jié))含解析
- 高中主題班會 梁文鋒和他的DeepSeek-由DeepSeek爆火開啟高中第一課-高中主題班會課件
- 污水處理設(shè)施運(yùn)維服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 一年級下冊書法教案 (一)
- 《浙江省應(yīng)急管理行政處罰裁量基準(zhǔn)適用細(xì)則》知識培訓(xùn)
- 2024年全國職業(yè)院校技能大賽高職組(康復(fù)治療技術(shù)賽項(xiàng))考試題庫(含答案)
- 2025年山東健康集團(tuán)招聘筆試參考題庫含答案解析
- 《中外廣播電視史》課件
- 微信公眾號運(yùn)營
- DLT 593-2016 高壓開關(guān)設(shè)備和控制設(shè)備
評論
0/150
提交評論