北大情報(bào)學(xué)考研資料-現(xiàn)代信息檢索_第1頁
北大情報(bào)學(xué)考研資料-現(xiàn)代信息檢索_第2頁
北大情報(bào)學(xué)考研資料-現(xiàn)代信息檢索_第3頁
北大情報(bào)學(xué)考研資料-現(xiàn)代信息檢索_第4頁
北大情報(bào)學(xué)考研資料-現(xiàn)代信息檢索_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息檢索概述問題:什么是信息檢索?主要有哪些類型?試分析闡述信息檢索的基本原理信息檢索主要經(jīng)歷了哪些不同的發(fā)展時(shí)期?各時(shí)期特點(diǎn)和人們關(guān)注主要問題是什么?信息檢索領(lǐng)域主要研究問題有哪些?它主要涉及到哪些相關(guān)學(xué)科和研究領(lǐng)域?當(dāng)前信息檢索領(lǐng)域的前沿問題有哪些?信息檢索廣義上是信息存儲(chǔ)與檢索,是指按照一定的方式組織和存儲(chǔ)起來,并能根據(jù)用戶的需求要找出其中相關(guān)信息的過程。因此從本質(zhì)上,信息檢索是一種有目的和組織化的信息存取活動(dòng)。“存”:面向來自各種渠道的大量甚至海量信息資源而進(jìn)行的高度組織化的存儲(chǔ)“取”:要求面向隨機(jī)出現(xiàn)的各種用戶信息需求所進(jìn)行的高度選擇性的查找,并且尤其強(qiáng)調(diào)查找的快速與便利。早期的信息檢索分為:文獻(xiàn)檢索、事實(shí)檢索、數(shù)據(jù)檢索文獻(xiàn)檢索:以文獻(xiàn)(包括文摘、題錄、全文)為檢索對(duì)象的一類信息查詢活動(dòng)。是一種“相關(guān)性檢索”,相關(guān)性是指系統(tǒng)不直接解答用戶所提出的問題本身,而只是提供與問題相關(guān)的文獻(xiàn)供用戶參考。直接提供用戶所需要的事實(shí)檢索:針對(duì)從文獻(xiàn)中提取出來的各種事實(shí)(或知識(shí)項(xiàng))所進(jìn)行的檢索活動(dòng)。數(shù)據(jù)檢索:針對(duì)經(jīng)過選擇、整理、鑒定的各種數(shù)據(jù)信息。事實(shí)/數(shù)據(jù)檢索是一種“確定性檢索”,確定性的含義是系統(tǒng)直接提供用戶所需要的確切的數(shù)據(jù)或事實(shí)。當(dāng)前信息檢索出現(xiàn)了新的三分方法:文本檢索、數(shù)值檢索、音頻與視頻檢索文本檢索:以各種自然語言符號(hào)系統(tǒng)所表示的信息作為主要檢索對(duì)象的信息檢索活動(dòng)。是傳統(tǒng)(文獻(xiàn))檢索方式的延續(xù),目前在信息檢索領(lǐng)域仍占據(jù)主要地位并不斷獲得新的發(fā)展。數(shù)值檢索:針對(duì)數(shù)值型數(shù)據(jù)的查詢而發(fā)展起來的一類較有特色的信息檢索活動(dòng)。數(shù)值檢索不僅能檢索出符合特定需求的數(shù)據(jù)信息,而且可以在此基礎(chǔ)上提供一定的數(shù)據(jù)運(yùn)算與推到能力,以及制表、繪圖功能。音頻與視頻檢索:針對(duì)各種數(shù)字化音頻與視頻信息而進(jìn)行查詢的一類新興的信息檢索操作。信息檢索的基本原理:對(duì)信息資源集合與信息需求集合的匹配與選擇信息資源集合:有關(guān)某一領(lǐng)域的、經(jīng)選擇性采集和組織加工的信息集合體。信息資源集合是一種公共知識(shí)結(jié)構(gòu),它可以彌補(bǔ)某個(gè)特定用戶的知識(shí)結(jié)構(gòu)缺陷,即可以向用戶提供所需要的信息,知識(shí)或獲取知識(shí)的線索,或者提供某種信息區(qū)激活人腦中存儲(chǔ)的知識(shí)。信息需求集合:眾多用戶不同形態(tài)的信息需求的匯集,早就了信息需求集合的存在。匹配與選擇匹配機(jī)制主要功能是能夠把信息需求集合與信息資源集合依據(jù)某種相似性標(biāo)準(zhǔn)進(jìn)行比較與判斷,進(jìn)而選出符合用戶需要的信息。匹配機(jī)制至少包含2個(gè)要素:匹配標(biāo)準(zhǔn)(即相似性標(biāo)準(zhǔn))、執(zhí)行匹配的動(dòng)因?yàn)榱吮U闲畔z索的快速與高效,匹配操作還要求在檢索匹配之前,分別對(duì)信息資源集合和信息需求進(jìn)行某種形式化的加工,形成它們的特征化表示。同時(shí),對(duì)用戶的信息需求也要進(jìn)行類似的加工處理,即分析需求的內(nèi)容,提出主題概念或其他屬性,并利用與信息資源集合相同的表示系統(tǒng)(即檢索語言)來表示需求中所包含的概念和屬性,從而得到用戶需求的特征化表示結(jié)果——提問式。信息檢索主要研究問題:信息檢索活動(dòng)設(shè)計(jì)信息資源的采集、整理、存儲(chǔ)與查找,其研究范圍包括了一切與信息存儲(chǔ)和檢索相關(guān)的系統(tǒng)、過程、理論和方法。信息檢索理論:檢索語言(分類語言、主題語言、引文語言、代碼語言)、檢索模型(集合論模型、代數(shù)論模型、概率論模型)、標(biāo)引理論(有關(guān)自動(dòng)標(biāo)引的理論和方法)、相關(guān)性理論(關(guān)于匹配標(biāo)準(zhǔn)的理論)、知識(shí)組織與表示理論(概念檢索、語義檢索與推理需要解決的理論問題,設(shè)計(jì)到知識(shí)的形式化表示方法、知識(shí)單之間的語義關(guān)聯(lián)和邏輯推理)信息檢索工具/系統(tǒng):是有序化的信息資源、設(shè)備、檢索技術(shù)和檢索方法等組成的有機(jī)整體,構(gòu)成實(shí)現(xiàn)信息檢索活動(dòng)的物質(zhì)基礎(chǔ)。主要設(shè)計(jì)信息檢索系統(tǒng)的結(jié)構(gòu)、功能、設(shè)計(jì)開發(fā)、管理運(yùn)營(yíng)、應(yīng)用評(píng)價(jià)。信息資源極其收集、加工:目的是建立和形成可供檢索服務(wù)的各類機(jī)讀數(shù)據(jù)庫。檢索技術(shù)與方法:網(wǎng)絡(luò)信息自動(dòng)采集技術(shù)、網(wǎng)頁超鏈接分析技術(shù)、搜索結(jié)果排序技術(shù)、元搜索技術(shù)以及各種網(wǎng)絡(luò)挖掘與個(gè)性化服務(wù)技術(shù)用戶研究與檢索策略:系統(tǒng)的研制開發(fā)、管理維護(hù)、功能和服務(wù)的擴(kuò)展,還是系統(tǒng)評(píng)價(jià)等,離不開用戶研究工作。需要研究用戶的查詢心理,檢索需求以及類型、用戶查詢信息的行為特征等,以便建立用戶模型,制定系統(tǒng)等額設(shè)計(jì)依據(jù)、營(yíng)銷方略以及用戶培訓(xùn)計(jì)劃。主要內(nèi)容包括用戶信息需求分析、檢索式構(gòu)造、相關(guān)反饋方法、檢索過程調(diào)整與控制等。其他密切相關(guān)的自動(dòng)化處理技術(shù):目前研究比較豐富,具體設(shè)計(jì)到自動(dòng)聚類與分類、自動(dòng)摘要、信息可視化、信息過濾、信息提取、機(jī)器翻譯、人機(jī)交互。相關(guān)學(xué)科及領(lǐng)域:計(jì)算機(jī)科學(xué)、數(shù)學(xué)、系統(tǒng)科學(xué)、語言學(xué)與計(jì)算語言學(xué)、認(rèn)知心理學(xué)信息檢索的發(fā)展歷史手工檢索時(shí)期:以印刷文獻(xiàn)為主要檢索對(duì)象;以各類文摘、題錄和目錄型工具書為可利用的主要檢索工具;以圖書館的參考咨詢部門為開展信息檢索負(fù)的中心機(jī)構(gòu);計(jì)算機(jī)化檢索時(shí)期:以各類機(jī)讀數(shù)據(jù)庫為檢索對(duì)象;各類情報(bào)所、聯(lián)機(jī)服務(wù)中心作為新興的信息服務(wù)部門而存在;信息檢索用戶逐漸由專業(yè)檢索人員向個(gè)人終端用戶轉(zhuǎn)移和擴(kuò)散,信息檢索的社會(huì)普及化程度日益提高。脫機(jī)批處理檢索階段:“國(guó)際科學(xué)情報(bào)會(huì)議”的召開、KWIC索引的編制與應(yīng)用、MEDLARS系統(tǒng)的研制聯(lián)機(jī)實(shí)時(shí)檢索階段:信息檢索中心的主機(jī)借助于電話線與遠(yuǎn)距離檢索終端相連,形成聯(lián)機(jī)實(shí)時(shí)檢索系統(tǒng),用戶通過檢索終端與檢索系統(tǒng)進(jìn)行對(duì)話,并可以再中高端屏幕上及時(shí)獲得檢索結(jié)果。聯(lián)機(jī)網(wǎng)絡(luò)化與多元化檢索階段:家庭化檢索的出現(xiàn)、光盤檢索的發(fā)展、聯(lián)機(jī)系統(tǒng)的購(gòu)并與產(chǎn)權(quán)轉(zhuǎn)移網(wǎng)絡(luò)化檢索階段網(wǎng)絡(luò)化:新興的基于WEB的搜索引擎系統(tǒng),伴隨著網(wǎng)絡(luò)資源的爆炸性增長(zhǎng),不斷問世并獲得日益廣泛的需求,且新技術(shù)層出不窮,發(fā)展進(jìn)步迅速;傳統(tǒng)的聯(lián)機(jī)檢索系統(tǒng)、各類數(shù)據(jù)庫檢索系統(tǒng)及其信息服務(wù)業(yè)務(wù),也逐漸擴(kuò)展、轉(zhuǎn)移到具有分布式網(wǎng)絡(luò)結(jié)構(gòu)特性的web平臺(tái)上。網(wǎng)絡(luò)搜索引擎的興起于發(fā)展:競(jìng)價(jià)排名、網(wǎng)絡(luò)廣告、股票發(fā)型與上市等商業(yè)因素滲透?jìng)鹘y(tǒng)聯(lián)機(jī)檢索系統(tǒng)的網(wǎng)絡(luò)化發(fā)展:首先是改進(jìn)和優(yōu)化自設(shè)的聯(lián)機(jī)服務(wù)功能與質(zhì)量;其次是數(shù)據(jù)庫生產(chǎn)商由單純的數(shù)據(jù)加工生產(chǎn)逐漸向數(shù)據(jù)加工生產(chǎn)和聯(lián)機(jī)檢索服務(wù)于一身發(fā)展的方向。網(wǎng)絡(luò)化時(shí)期面臨的主要研究問題:超文本/超媒體技術(shù)的應(yīng)用、基于內(nèi)容檢索與多媒體信息檢索系統(tǒng)的開發(fā)、自然語言理解/處理、海量規(guī)模的網(wǎng)絡(luò)信息組織與檢索、語義檢索與推理、知識(shí)檢索與服務(wù)、語義化檢索時(shí)期。信息檢索的數(shù)學(xué)模型數(shù)學(xué)模型:為了某種特定目的或研究需要,對(duì)現(xiàn)實(shí)世界的某一特定事物或現(xiàn)象通過進(jìn)行一些必要的簡(jiǎn)化與假設(shè),并用適當(dāng)?shù)臄?shù)學(xué)工具加以表達(dá)而得到的一種數(shù)學(xué)結(jié)構(gòu)。信息檢索的數(shù)學(xué)模型:就是運(yùn)用數(shù)學(xué)語言和工具,對(duì)信息檢索系統(tǒng)中的關(guān)鍵要素及重要操作(例如信息資源集合的表示、用戶信息需求表示、匹配選擇)等進(jìn)行抽象和編碼而建立起來的某種數(shù)學(xué)表達(dá)模式。信息檢索數(shù)學(xué)模型的分類(根據(jù)用戶查詢信息的基本方式不同,分為檢索型和瀏覽型)檢索型模型:基于文檔內(nèi)容特征的檢索模型(集合論模型、代數(shù)論模型、概率論模型)和基于文檔結(jié)構(gòu)特性的檢索模型(非重疊鏈表、臨近節(jié)點(diǎn))。瀏覽型數(shù)學(xué)模型:平面、結(jié)構(gòu)導(dǎo)航、超文本信息資源集合(D)文檔邏輯視圖:從文檔中抽取的、能表達(dá)文檔內(nèi)容的特征項(xiàng)(如索引詞)所構(gòu)成的,是文檔的一種形式化表示。文檔邏輯視圖的生成可以通過施加不同的文本操作(或轉(zhuǎn)換)來實(shí)現(xiàn)。例如:剔除停用詞、識(shí)別并使用名詞與名詞性詞組、進(jìn)行詞干提取與加工用戶信息需求集合(Q)用戶信息需求的產(chǎn)生是信息檢索活動(dòng)與信息檢索系統(tǒng)存在的基礎(chǔ),而滿足用戶需求,則是建立信息檢索系統(tǒng)的出發(fā)點(diǎn)潛在真實(shí)需求(RIN)——意識(shí)或感知到的需求(PIN)——表達(dá)出的需求(Request)——提問(Query)信息資源與信息需求的匹配處理框架(F):信息檢索的根本任務(wù)就是D和Q之間基于某種相似度規(guī)則的匹配處理,匹配處理框架(F)正式在尋求二者之間建立一種溝通規(guī)則與聯(lián)系機(jī)制,提供對(duì)文檔視圖、提問式以及它們之間關(guān)系進(jìn)行模型化處理的框架和規(guī)則。布爾模型:匹配規(guī)則為二值相關(guān)性判斷,匹配運(yùn)算主要基于集合論的集合基本運(yùn)算。向量空間模型:匹配規(guī)則為多值相關(guān)性判斷,匹配處理建立在代數(shù)論的多維向量空間操作基礎(chǔ)之上概率模型:依賴集合論、概率運(yùn)算和Bayes法則來完成檢索匹配處理,其匹配規(guī)則也是多值性相關(guān)性判斷。匹配函數(shù)(R(dj,q)):用于計(jì)算任一文檔dj(djD)與任一提問q(qQ)形成的文檔-提問對(duì)(dj,q)之間的相似度大小。一般的,R(dj,q)的函數(shù)值為一實(shí)數(shù),其區(qū)間取值為[0,1]。從數(shù)學(xué)上來講,匹配函數(shù)的選取,要求能具備以下特點(diǎn):計(jì)算方法簡(jiǎn)單,計(jì)算量小;函數(shù)值在取值區(qū)間分布均勻針對(duì)某一提問所獲取的相關(guān)文檔集合,能夠?qū)崿F(xiàn)合理的排序輸出集合論檢索模型布爾模型:建立在經(jīng)典集合論和布爾代數(shù)基礎(chǔ)上,簡(jiǎn)單易理解,簡(jiǎn)潔的形式,但是存在精確匹配問題和表達(dá)用戶信息需求能力的問題模糊集合模型擴(kuò)展布爾模型:是常規(guī)布爾檢索精確匹配的嚴(yán)格性和向量處理模式提問的無結(jié)構(gòu)性的折中,它用代數(shù)距離方式來解釋并放松了布爾操作的要求,因而有效地融合了傳統(tǒng)的布爾、向量等檢索模型的處理思想。主要特點(diǎn):與傳統(tǒng)布爾檢索中倒排文檔技術(shù)相兼容,支持使用標(biāo)準(zhǔn)布爾邏輯表達(dá)的提問式結(jié)構(gòu);允許在文檔和提問式中進(jìn)行加權(quán)處理;支持按相似度的大小排序輸出檢索結(jié)果;通過調(diào)整參數(shù)P的取值,可以靈活選擇得到不同的檢索結(jié)果。代數(shù)論檢索模型向量空間模型源于文本信息檢索實(shí)踐,將非結(jié)構(gòu)化的文本信息表示成向量形式采用部分匹配策略,使得在算法層面上基于多值相關(guān)性的判斷處理得以實(shí)現(xiàn);采用基于統(tǒng)計(jì)學(xué)方法的詞加權(quán)處理模式,使檢索效果得到顯著改善;采用對(duì)檢索結(jié)果排序輸出的策略,使對(duì)檢索結(jié)果數(shù)量的控制欲調(diào)整具有相當(dāng)大的彈性與自由度。基于VSM理論的文本信息處理主要包括以下幾個(gè)分支領(lǐng)域:文本檢索、文本分類、文本過濾、文本挖掘、文本瀏覽與可視化隱含語義索引模型神經(jīng)網(wǎng)絡(luò)模型概率論檢索模型:經(jīng)典概率模型、推理網(wǎng)絡(luò)模型、信念網(wǎng)絡(luò)模型經(jīng)典概率模型基本指導(dǎo)思想:給定一個(gè)用戶提問,檢索系統(tǒng)中存在著一個(gè)與該提問相關(guān)的理想命中結(jié)果集合(R)。如果能已知集合R的主要特征及其描述,則用戶的檢索要求便不難實(shí)現(xiàn)。但是一開始用戶并不知道這個(gè)集合的特性,為此需要在檢索伊始進(jìn)行猜測(cè),根據(jù)反饋信息,系統(tǒng)可以再后續(xù)的檢索處理中不斷做出優(yōu)化與改進(jìn),從而多次交互操作之后使檢索逐步接近該提問的理想命中結(jié)果集合R。關(guān)鍵是如何進(jìn)行初始的猜測(cè)以及如何通過相關(guān)反饋與交互來不斷調(diào)整,改善檢索性能。推理網(wǎng)絡(luò)模型信念網(wǎng)絡(luò)模型信念網(wǎng)絡(luò)模型有一個(gè)清晰定義的樣本空間,并采用集合論觀點(diǎn)看待信息檢索的排序問題,而推理網(wǎng)絡(luò)模型卻沒有定義這樣的空間由于文檔部分和提問部分被分開,將有利于對(duì)以往的提問和相關(guān)信息的統(tǒng)計(jì)/經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行綜合處理并建模由于文檔/提問空間的分離,信念網(wǎng)絡(luò)模型能夠再現(xiàn)推理網(wǎng)絡(luò)模型中產(chǎn)生的各種排序策略,但反過來不行。其他檢索模型與數(shù)學(xué)理論都建立在對(duì)信息內(nèi)容特征的標(biāo)引與匹配上。隨著信息資源類型的不斷豐富,信息就愛你所的匹配機(jī)制與標(biāo)準(zhǔn)液在不斷發(fā)展。除傳統(tǒng)的信息內(nèi)容特征外,信息的結(jié)構(gòu)特征及其提取成為建立新型信息檢索系統(tǒng)的另一種可供選擇的匹配標(biāo)準(zhǔn)。另外,隨著WWW網(wǎng)絡(luò)環(huán)境的日益普及,信息檢索的方式也發(fā)生著變化與調(diào)整。在超文本技術(shù)下,用戶的信息檢索處理通過索引文檔的查詢與快速匹配外,瀏覽方式再度興起并流行。另外,在計(jì)算機(jī)科學(xué)領(lǐng)域中,有關(guān)遺傳算法和粗糙集理論的研究和應(yīng)用活動(dòng)非?;钴S。結(jié)構(gòu)化檢索模型:綜合考慮了文檔內(nèi)容和文檔結(jié)構(gòu)兩方面特征匹配的檢索模型成為“結(jié)構(gòu)化(文本)檢索模型”?;诜侵丿B鏈表的模型基本思想:把每個(gè)文檔的全部文本劃分為非重疊的文本區(qū)域,并用鏈表把這些文本區(qū)域連接起來。因?yàn)橛卸喾N不同方法把文檔劃分為非重疊的區(qū)域,所以,對(duì)于同一文檔來說,會(huì)產(chǎn)生許多不同的鏈表。同一鏈表中,各文本區(qū)域沒有重疊,不同鏈表中,各文本區(qū)域可能重疊在非重疊鏈表中,為了同時(shí)支持對(duì)文本內(nèi)容(索引詞)和文本區(qū)域(結(jié)構(gòu)性單元)的查找,除了傳統(tǒng)的索引詞倒排文檔之外,還需要建立一個(gè)結(jié)構(gòu)性單元的倒排文檔。在這個(gè)結(jié)構(gòu)倒排文檔中,每個(gè)結(jié)構(gòu)性單元都是一個(gè)索引款目項(xiàng),與它相聯(lián)系的出處項(xiàng),則包含一系列文本區(qū)域。基于臨近節(jié)點(diǎn)的模型基本思想:允許在同一文檔上定義獨(dú)立的(非平坦)等級(jí)索引結(jié)構(gòu)。在這樣的結(jié)構(gòu)中,結(jié)構(gòu)性單元被稱為“節(jié)點(diǎn)”,它們之間相互連接,構(gòu)成一個(gè)嚴(yán)格的等級(jí)結(jié)構(gòu)。并且,每個(gè)節(jié)點(diǎn)都與一個(gè)文本區(qū)域相關(guān)聯(lián),不過,兩個(gè)不同的等級(jí)(或?qū)哟危┙Y(jié)構(gòu)可能涉及到重疊的文本區(qū)域。該模型允許用戶構(gòu)造更為復(fù)雜的查詢提問式。為了加快提問式的匹配處理速度,每次僅在鄰近節(jié)點(diǎn)中進(jìn)行搜索,這對(duì)檢索結(jié)果來說,是增加了一種限制。瀏覽模型:檢索和瀏覽是用戶查找和發(fā)現(xiàn)信息資源的兩種結(jié)拜呢手段。一般情況下,檢索方式需要通過特征提取和索引機(jī)制來實(shí)現(xiàn),在用戶的信息需求比較明確時(shí),可以直接從檢索系統(tǒng)中獲取檢索結(jié)果,檢索效率高;而瀏覽方式則主要依靠系統(tǒng)中預(yù)定義的某種信息組織和導(dǎo)航機(jī)制,通過用戶的訪問和探尋,來發(fā)現(xiàn)一些相關(guān)的或未曾預(yù)料的有用信息。因此,檢索是“系統(tǒng)主導(dǎo)”方式,瀏覽是“用戶主導(dǎo)”方式。平面式瀏覽:用戶對(duì)平面化組織和文檔結(jié)構(gòu)進(jìn)行探尋結(jié)構(gòu)導(dǎo)航式瀏覽:把眾多文檔或信息資源組織到一個(gè)樹狀類目等級(jí)體系中,用戶在查找信息時(shí)可以在這樣的類目引導(dǎo)下,從上到下,從寬泛到具體,逐步接近或找到所需要的有用信息。超文本式瀏覽:主要指基于超文本技術(shù)的交互性瀏覽模式,一般地,超文本被看做是一種由節(jié)點(diǎn)相互鏈接而形成的有向圖結(jié)構(gòu)。對(duì)于導(dǎo)航問題提出的解決方案已有很多,如:宏觀結(jié)構(gòu)導(dǎo)航法、魚眼視圖法、瀏覽路標(biāo)法、附加檢索機(jī)制的方法。遺傳算法和粗糙集理論遺傳算法操作算子:選擇或復(fù)制;交叉;變異基本要素:參數(shù)編碼、初始群體的設(shè)定、適應(yīng)度函數(shù)的設(shè)計(jì)、遺傳操作設(shè)計(jì)、控制參數(shù)設(shè)定粗糙集是一種新的處理模糊性與不確定性問題的數(shù)學(xué)工具,其基本特征是將分類與知識(shí)聯(lián)系在一起,使用等價(jià)關(guān)系來形式化地表示分類;在保持分類能力不變的前提下,通過知識(shí)約簡(jiǎn),導(dǎo)出問題的決策或分類規(guī)則。信息檢索系統(tǒng)及其構(gòu)成信息檢索系統(tǒng)的特性:整體性、關(guān)聯(lián)性、層次性、目的性、適應(yīng)性信息檢索系統(tǒng)的定義:具有信息存儲(chǔ)和信息查詢功能的一類信息服務(wù)設(shè)施或工具。其更為精確的定義有明確的目標(biāo)、不可缺少的資源、技術(shù)裝備、方法與措施、功能。信息檢索系統(tǒng)的類型按照設(shè)備劃分書本式檢索系統(tǒng):文摘雜志、題錄或索引刊物、書本式目錄、參考工具書卡片式檢索系統(tǒng):包括一切以普通卡片存儲(chǔ)和查找信息的工具穿孔卡片系統(tǒng):是一種長(zhǎng)方形卡片,通過在其邊緣或中央部分穿孔來表示和記錄信息,并借助手工活及其對(duì)穿孔卡片集合進(jìn)行分揀(檢索)??s微式檢索系統(tǒng):以縮微照相制品等感光材料為信息存儲(chǔ)介質(zhì)的檢索系統(tǒng)。計(jì)算機(jī)化檢索系統(tǒng):使用電子計(jì)算機(jī)來處理和查找信息的自動(dòng)化檢索系統(tǒng),通常由計(jì)算機(jī)、數(shù)據(jù)庫、檢索軟件、檢索終端及其他外部設(shè)備構(gòu)成。網(wǎng)絡(luò)檢索系統(tǒng)趨勢(shì):信息標(biāo)識(shí)的代碼化;掃描匹配過程逐漸變成由檢索機(jī)具獨(dú)立完成的過程,逐漸同人的參與相分離;檢索策略相對(duì)固定化、形式化及可運(yùn)算化,即逐漸由人腦存儲(chǔ)記憶轉(zhuǎn)為可由機(jī)器來分部執(zhí)行的運(yùn)算式。按照功能劃分文獻(xiàn)檢索系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)自動(dòng)問答系統(tǒng)管理信息系統(tǒng)決策支持系統(tǒng)信息檢索系統(tǒng)的物理結(jié)構(gòu):硬件部分、軟件部分、信息資源集合(多為數(shù)據(jù)庫:參考數(shù)據(jù)庫、源數(shù)據(jù)庫、混合數(shù)據(jù)庫;文字?jǐn)?shù)據(jù)庫、數(shù)值型數(shù)據(jù)庫、圖像型數(shù)據(jù)庫;集中式檢索系統(tǒng)、分布式檢索系統(tǒng))常見信息資源的類型:依據(jù)存儲(chǔ)載體的不同,可供檢索系統(tǒng)采集、加工的信息資源主要有印刷型和電子型兩種。印刷型信息資源主要是指以紙張為存儲(chǔ)介質(zhì)、以手寫或印刷為記錄而產(chǎn)生的一類傳統(tǒng)信息資源;印刷型信息資源主要有圖書、期刊、報(bào)紙、會(huì)議錄、學(xué)位論文、科技報(bào)告、專利文獻(xiàn)、技術(shù)標(biāo)準(zhǔn)、政府出版物等不同類型。電子型信息資源是指以數(shù)字化存儲(chǔ)技術(shù),把文字、圖形、圖像、聲頻、視頻等多種形式的信息存放在光、電、磁等非印刷型介質(zhì)上,以電信號(hào)、光信號(hào)的形式傳輸,并通過相應(yīng)的計(jì)算機(jī)和其他外部設(shè)備再現(xiàn)出來的一類信息資源。電子信息資源的特征:系統(tǒng)依賴性、復(fù)雜性、共享性、不安全性信息標(biāo)引處理標(biāo)引是對(duì)信息資源的各種檢索特征進(jìn)行分析并使之顯性化,以便為存儲(chǔ)和檢索這兩個(gè)環(huán)節(jié)提供某種連接的一種重要的信息加工操作。標(biāo)引將決定著數(shù)據(jù)庫的標(biāo)引深度和檢索點(diǎn),并直接影響到系統(tǒng)的檢索方式和檢索功能。所謂“標(biāo)引深度”,又稱“網(wǎng)羅度”,是衡量標(biāo)引詳盡性的指標(biāo),其含義是標(biāo)引詞對(duì)數(shù)據(jù)庫每條記錄各方面內(nèi)容表達(dá)和識(shí)別的詳盡程度。衡量標(biāo)引工作質(zhì)量和有效性的另一個(gè)指標(biāo)是“專指度”,用于衡量標(biāo)引詞對(duì)信息記錄特定內(nèi)容描述的精細(xì)程度。網(wǎng)羅度越高,越有利于提高檢索的查全率;專指度越高,則越有利于提高檢索的查全率。要求是全面準(zhǔn)確簡(jiǎn)潔。標(biāo)引可以區(qū)別為自動(dòng)抽詞標(biāo)引和自動(dòng)賦詞標(biāo)引自動(dòng)抽詞標(biāo)引:利用計(jì)算機(jī)直接從文獻(xiàn)的題名、文摘或正文中抽取關(guān)鍵詞來標(biāo)識(shí)文獻(xiàn)內(nèi)容,并自動(dòng)生成關(guān)鍵詞索引文檔(或倒排檔)。自動(dòng)標(biāo)引中的詞語加權(quán)方案:絕對(duì)詞頻法、逆文檔頻率法、詞區(qū)分值法中文自動(dòng)標(biāo)引研究:詞典切分法(主題詞表法、關(guān)鍵詞詞典法、部件詞典法)、切分標(biāo)記法、單漢字法、N-gram法自動(dòng)賦詞標(biāo)引:讓計(jì)算機(jī)模仿標(biāo)引員的賦詞標(biāo)引方法,通過分析文獻(xiàn)內(nèi)容,從詞表中選取與文獻(xiàn)主題相符或密切相關(guān)的詞語符號(hào)做索引詞。賦詞標(biāo)引不是簡(jiǎn)單的、機(jī)械的詞語抽取與切分,而是涉及到概念的識(shí)別、映射和轉(zhuǎn)換。數(shù)據(jù)庫主文檔MF:主文檔索引MX:倒排文檔IF:主要反映詞典文檔中包含的每個(gè)檢索詞在文獻(xiàn)中的出現(xiàn)位置信息,這種安排可以使系統(tǒng)在倒排文檔檢索階段就能實(shí)現(xiàn)比較完備的位置檢索功能。詞典文檔IX:檢索系統(tǒng)利用“停用詞表”進(jìn)行自動(dòng)抽詞標(biāo)引后生成的文檔,可由全體可檢特征構(gòu)成。信息查詢各功能模塊用戶檢索接口基于兩個(gè)基本假定:用戶的信息需求是靜態(tài)不變的;信息查詢是一個(gè)對(duì)提問式不斷修改并逐步獲取理性檢索結(jié)果的過程。用戶與檢索系統(tǒng)之間的主要交互任務(wù)/需求:查詢提問式的表達(dá)與提交、檢索結(jié)果的獲取與評(píng)價(jià)、相關(guān)反饋與提問式修改用戶(檢索)接口模塊的基本構(gòu)成:用戶模型(由檢索系統(tǒng)設(shè)計(jì)人員簡(jiǎn)歷的用戶認(rèn)知模型)、信息顯示(檢索系統(tǒng)以屏幕顯示形式提供給用戶的各種操作信息)、交互語言(系統(tǒng)提供給用戶使用的檢索命令集合和其他對(duì)話工具)、反饋機(jī)制(檢索系統(tǒng)對(duì)用戶操作及其反饋信息所作出的一種反應(yīng)機(jī)制)對(duì)于檢索系統(tǒng)接口來說特別重要的設(shè)計(jì)原則主要有:提供信息反饋(提問式與被檢索文檔之間的關(guān)系、檢索結(jié)果集合中文檔與文檔之間的關(guān)系、檢索結(jié)果文檔與描述該文檔的元數(shù)據(jù)之間的關(guān)系)、減輕記憶負(fù)擔(dān)、為不同用戶提供不同接口提問處理與檢所匹配:接受并處理用戶輸入的檢索詞或提問式,將它們與數(shù)據(jù)庫倒排索引文檔中存儲(chǔ)的數(shù)據(jù)項(xiàng)進(jìn)行匹配運(yùn)算,然后把運(yùn)算結(jié)果返回給用戶。表展開法:在脫機(jī)批處理檢索時(shí)期提出并應(yīng)用,這種方法通過“前處理”和“后處理”將布爾邏輯提問式轉(zhuǎn)換成展開表,該表規(guī)定了檢所匹配的走向和是否命中的判斷,具體檢索時(shí)不需要建立倒排文檔,而是用展開表的內(nèi)容直接針對(duì)數(shù)據(jù)庫的主文檔(順排文檔)進(jìn)行檢索匹配。逆波蘭法:把提問式(中綴形式)變換為等價(jià)的逆波蘭式(后綴形式),然后依此形成檢索指令表,并在倒排文檔中進(jìn)行檢索匹配。準(zhǔn)波蘭法:基于逆波蘭的一種改進(jìn)。析取范式變換法:依據(jù)數(shù)據(jù)邏輯基本原理,先將布爾提問式變換為等價(jià)的析取范式,然后再在倒排文檔中進(jìn)行檢索匹配?;诓紶柲P偷臋z索系統(tǒng),其采用的匹配策略通常是精確匹配;以向量空間模型為基礎(chǔ)的檢索系統(tǒng),其采用的匹配策略是部分匹配?!爸R(shí)組織與管理工具”模塊處在一個(gè)極其重要的位置上,作為聯(lián)系信息存儲(chǔ)與信息查詢的橋梁和中介,它同時(shí)對(duì)“信息標(biāo)引處理”、“用戶(檢索)接口”、“提問處理與檢索匹配”直至“檢索結(jié)果”等多個(gè)處理流程產(chǎn)生作用和影響。事實(shí)上,對(duì)于一個(gè)信息檢索系統(tǒng)來說,擁有何種知識(shí)組織與管理工具,以及如何使用這些知識(shí)組織與管理工具對(duì)檢索流程進(jìn)行控制和管理,將從根本上決定該檢索服務(wù)系統(tǒng)的功能與效率。知識(shí)組織與管理工具類型集合或線性結(jié)構(gòu)工具樹形結(jié)構(gòu)工具:樹形結(jié)構(gòu)工具強(qiáng)調(diào)知識(shí)單元或概念術(shù)語之間的某種單一關(guān)系的反映,例如等同關(guān)系E(同義詞表)或等級(jí)關(guān)系H(網(wǎng)絡(luò)分類表、范疇表、詞族表、利用文本聚類技術(shù)生成的類目體系)。網(wǎng)(圖)狀結(jié)構(gòu)工具:大型分類表、敘詞表、語義網(wǎng)絡(luò)、本體檢索類型劃分的好處如果檢索系統(tǒng)中只擁有和使用集合或線性結(jié)構(gòu)類型的工具,那么大多只能實(shí)現(xiàn)或完成常規(guī)的關(guān)鍵詞檢索與匹配,因?yàn)樗鼈兤毡槿狈?duì)概念或?qū)儆谥g關(guān)系的表示。對(duì)于樹形結(jié)構(gòu)的知識(shí)組織與管理工具來說,由于工具中包含有對(duì)概念或術(shù)語之間等級(jí)關(guān)系的反映,因此可以支持概念檢索,如基于概念上位類替換的擴(kuò)展檢索和基于概念下位類替換的限制檢索。這些檢索功能可以有效得改善檢索操作的查全率或查準(zhǔn)率。作為強(qiáng)結(jié)構(gòu)典型代表的各種網(wǎng)(圖)狀結(jié)構(gòu)工具,由于它們不僅涵蓋了信息檢所語料中涉及到的概念或術(shù)語,而且還全面反映了這些概念之間的多種語義關(guān)系,因此擁有這類工具的檢索系統(tǒng)不僅可以實(shí)現(xiàn)功能強(qiáng)大的概念檢索,而且還可以針對(duì)某些概念之間的語義關(guān)系進(jìn)行查詢和匹配,或者完場(chǎng)一定的邏輯推理功能,從而真正實(shí)現(xiàn)知識(shí)級(jí)檢索。知識(shí)組織與管理工具的應(yīng)用方式經(jīng)典應(yīng)用方式:在信息標(biāo)引階段和信息查詢階段都會(huì)使用敘詞表(“全控制方式”)標(biāo)引應(yīng)用方式:只在信息標(biāo)引階段使用敘詞表(“先控制方式”)查詢應(yīng)用方式:只在信息查詢階段使用敘詞表(“后控制方式”)無表應(yīng)用方式:整個(gè)信息檢索系統(tǒng)實(shí)行自然語言標(biāo)引和關(guān)鍵詞查詢,完全不使用敘詞表。全控制方式是敘詞表工具的一種理想應(yīng)用方式,同時(shí)在信息標(biāo)引階段和信息查詢階段使用敘詞表工具,能使敘詞表的作用得到最大程度的發(fā)揮,不僅有利于標(biāo)引人員或標(biāo)引程序在系統(tǒng)后臺(tái)對(duì)信息的概念標(biāo)引處理,提高標(biāo)引的一致性,而且有助于用戶在系統(tǒng)前臺(tái)的信息查找,保證其查詢質(zhì)量。是一種理想的方式,但是應(yīng)用方式需要較大的代價(jià)先控制方式是指將敘詞表僅用于信息查詢過程。這種應(yīng)用模式在實(shí)踐中一般較少出現(xiàn)或采用。文本信息檢索技術(shù)與方法文本是基于一定的語言符號(hào)系統(tǒng)而形成的一個(gè)有限符號(hào)序列。詞匯的頻率與齊普夫分布模型詞匯的數(shù)量與Heaps分布模型文本信息預(yù)處理文本詞匯分析:所謂“文本詞匯分析”,主要是指對(duì)文檔中的文本(字符)進(jìn)行識(shí)別或轉(zhuǎn)換為詞的過程,這些詞可以作為標(biāo)引詞的候選對(duì)象。停用詞去除:停用詞又稱為嗓音詞,可以通過建立一個(gè)停用詞集合來完成。詞干提取:英文檢索系統(tǒng)中,經(jīng)常會(huì)出現(xiàn)文本中包含用戶查詢?cè)~的變異詞,將造成在檢索匹配過程中兩者不能完全匹配。詞干是指去掉詞的附加部分所剩下的部分,提取詞干操作可以把許多變異詞都映射到一個(gè)公共的概念詞上,以此來建立索引,不僅可以減少索引文檔的體積,而且可以明顯改善檢索的性能。名詞(或名詞性短語)識(shí)別布爾檢索:以索引倒排文檔為基礎(chǔ),通過布爾邏輯算符對(duì)檢索詞或檢索代碼進(jìn)行組配,形成檢索提問式,進(jìn)而以此提問式作為匹配依據(jù)完成對(duì)倒排文檔的匹配處理并獲取查詢結(jié)果。截詞檢索:截詞是檢索者將檢索詞匯在他認(rèn)為合適的地方截?cái)?,而截詞檢索是指使用被截?cái)嗟脑~匯進(jìn)行檢索匹配,并認(rèn)為凡滿足這個(gè)詞局部中的所有字符串要求的記錄,都為命中結(jié)果。使用*表示無限截?cái)?,使用?表示有限截?cái)唷O拗茩z索:為了提高或保證檢索的準(zhǔn)確率,常提供一些縮小或約束結(jié)果的檢索技術(shù),稱為限制檢索。最主要的是通過限制檢索詞在命中結(jié)果記錄中的出現(xiàn)位置來實(shí)現(xiàn)的,因此被稱為字段檢索。表達(dá)文獻(xiàn)內(nèi)容特征的主題字段和表達(dá)文獻(xiàn)外部(或形式)特征的非主題字段。主題字段(或主要字段)又稱為“基本檢索字段”,具體包括標(biāo)題、主題詞、關(guān)鍵詞、文摘、分類號(hào);非主題字段也叫“輔助檢索字段”,包括作者、作者工作單位、連續(xù)出版物編號(hào)、以及代碼、文獻(xiàn)類型、使用語言、出版者聯(lián)機(jī)檢索時(shí),用戶的某一檢索要求通過指定檢索詞在主題字段和非主題字段的出現(xiàn)情況,即可實(shí)現(xiàn)字段檢索。字段檢索的實(shí)現(xiàn)技術(shù)比較簡(jiǎn)單,只需要在布爾檢索的基礎(chǔ)上稍作改進(jìn)即可。具體的措施是:對(duì)于采用混合型倒排索引文檔的檢索系統(tǒng),在標(biāo)引處理過程中,不僅要記錄下所提取的檢索詞出現(xiàn)的文獻(xiàn)編號(hào),還應(yīng)該記錄該檢索詞出現(xiàn)的字段位置編號(hào)或代碼,以支持檢索時(shí)的字段位置匹配。當(dāng)然,在有些文本檢索系統(tǒng)中,采用的是對(duì)不同字段信息分別建立各自倒排索引文檔的處理方法,那么,檢索時(shí)只要根據(jù)用戶的查詢要求,到相應(yīng)字段的倒排索引文檔中匹配就可以了,并不需要在標(biāo)引時(shí)做特別處理。位置檢索:是一類針對(duì)自然語言文本檢索詞與檢索詞之間特定位置關(guān)系而進(jìn)行的檢索匹配技術(shù)。位置檢索允許用戶使用自然語言作為檢索入口,并可深入到原文的章、節(jié)、段、句等文本范圍內(nèi)進(jìn)行信息的查找和匹配,因此這種檢索技術(shù)可以顯著提高文本信息的檢索精度,改善布爾檢索等既有技術(shù)對(duì)特定信息的篩選能力。又被稱為原文檢索、全文檢索、自由文本檢索。聚類檢索相關(guān)反饋是系統(tǒng)中的一種人機(jī)交互機(jī)制。系統(tǒng)可以根據(jù)初始檢索結(jié)果的相關(guān)性判斷,對(duì)用戶的檢所要求或提問式進(jìn)行適當(dāng)?shù)男薷牡男薷暮蛿U(kuò)展,并據(jù)此再次進(jìn)行檢索,從而得到改進(jìn)的查詢結(jié)果。相關(guān)反饋的實(shí)現(xiàn)主要有兩類方式:一類是需要檢索用戶主動(dòng)配合和參與的方式,另一類則不需要用戶的參與,可以由系統(tǒng)通過自動(dòng)分析技術(shù)來完成。前者可稱為顯示相關(guān)反饋(用戶反饋法),后者是隱式相關(guān)反饋(系統(tǒng)自動(dòng)反饋)。實(shí)現(xiàn):增加新的查詢特征或詞語,擴(kuò)展原始提問;重新計(jì)算或調(diào)整提問式中各查詢項(xiàng)或檢索詞的權(quán)值?;谟脩舴答伔ǖ奶釂柺綌U(kuò)展:基于向量空間模型的提問式擴(kuò)展、經(jīng)典概率模型的相關(guān)反饋與提問式擴(kuò)展;基于局部自動(dòng)分析的提問式擴(kuò)展:基于局部策略的相關(guān)反饋和基于全局策略的相關(guān)反饋。信息可視化包括:數(shù)據(jù)變換、可視化映射、試圖變換多媒體信息檢索技術(shù)與方法什么是多媒體?它有哪些基本特征?從技術(shù)角度來理解,多媒體是指利用計(jì)算機(jī)及相關(guān)信息技術(shù)對(duì)多重媒體進(jìn)行一體化處理并實(shí)現(xiàn)交互應(yīng)用的技術(shù),它具有繼承性、交互性和獨(dú)立性等基本特性。集成性:表現(xiàn)為對(duì)多重類型信息與數(shù)據(jù)的集成化處理以及處理各種媒體設(shè)備的集成。多媒體的內(nèi)涵不僅僅在于信息與數(shù)據(jù)類型的多種多樣,重要的是各種類型的信息與數(shù)據(jù)在計(jì)算機(jī)內(nèi)不是孤立和分散存在的,它們之間存在著密切的相互關(guān)聯(lián)。交互性:多媒體最重要的特性是人機(jī)交互性。多媒體技術(shù)是向用戶提供更有效的使用和控制多媒體信息的手段,用戶面對(duì)計(jì)算機(jī)時(shí),不但可以充分享受其提供的豐富的信息資源,還能主動(dòng)進(jìn)行檢索、提問與回答。獨(dú)立性:是指多媒體系統(tǒng)中使用的各媒體是相對(duì)獨(dú)立的。音頻信息的檢索特征有哪些?其主要查詢方式有哪些?檢索特征:音頻信息在計(jì)算機(jī)內(nèi)部以文件格式存儲(chǔ),文件屬性包括文件名、創(chuàng)建時(shí)間、創(chuàng)建者、文件格式,這些都屬于音頻信息的外部特征。外部特征大多以元數(shù)據(jù)方式出現(xiàn),需要人工著錄或者使用元數(shù)據(jù)標(biāo)準(zhǔn)由程序自動(dòng)生成。物理層聲學(xué)特征層:音強(qiáng)、基音、音調(diào)典型的音樂特性:節(jié)奏、事件、樂器標(biāo)識(shí)語義層:語音識(shí)別、檢測(cè)的結(jié)果、音樂旋律和敘事的說明、對(duì)音頻對(duì)象及其概念的描述。查詢方式圖像信息的檢索特征有哪些?其主要查詢方式有哪些?檢索特征:創(chuàng)建日期、創(chuàng)建設(shè)備、文件格式、數(shù)據(jù)大小。物理層:顏色特征、紋理特征、形狀特征邏輯層:包含圖像的邏輯屬性(表示圖像所描述的對(duì)象以及對(duì)象之間的空間關(guān)系)和圖像的邏輯結(jié)構(gòu)(邏輯屬性的轉(zhuǎn)換)語義層:圖像的語義層特征主要用于表達(dá)作者的創(chuàng)作意圖、圖像描述主題或用戶需要檢索的語義內(nèi)容等。查詢方式:通過人工或自動(dòng)的方式的著錄、加工,把它們作為圖像檢索的外部特征入口。另外,對(duì)于圖像描述的對(duì)象、對(duì)象的空間關(guān)系和邏輯結(jié)構(gòu)、圖像所揭示的予以內(nèi)容以及作者的創(chuàng)作意圖等深層次特征信息,在傳統(tǒng)文本檢索環(huán)境下,也可以通過人工的標(biāo)引處理,形成文本數(shù)據(jù)庫,并以文本檢索方式來實(shí)現(xiàn)或滿足用戶的查詢請(qǐng)求。對(duì)圖像語義特征的提取和描述,可以加工成知識(shí)庫,提供智能性的檢索服務(wù)。視頻信息的基本結(jié)構(gòu)是什么?其檢索特征有哪些?視頻信息的基本結(jié)構(gòu):幀、鏡頭、場(chǎng)景檢索特征:對(duì)于視頻的外部特征,可以使用與音頻、圖像同樣的處理方法,利用元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行著錄。幀級(jí)鏡頭和場(chǎng)景級(jí)視頻級(jí)多媒體信息基于內(nèi)容檢索(CBR)的基本思想是什么?CBR主要針對(duì)多媒體信息,其含義是指根據(jù)多媒體對(duì)象的聽、視覺特征及其中的內(nèi)容和語義特征進(jìn)行檢索,并希望能夠借助模式識(shí)別、語音識(shí)別、圖像理解等相關(guān)領(lǐng)域的研究成果,對(duì)多媒體數(shù)據(jù)的聽、視覺特征和語義進(jìn)行自動(dòng)的分析表達(dá)和組織。主要研究數(shù)據(jù)模型、特征處理和語義獲取、用戶接口模式、索引結(jié)構(gòu)及性能、壓縮域檢索與基于內(nèi)容的編碼、性能評(píng)價(jià)基本框架對(duì)象標(biāo)識(shí):通過工具箱的輔助,以全自動(dòng)或半自動(dòng)的方式對(duì)音頻、靜態(tài)圖像、視頻鏡頭等數(shù)據(jù)中包含的對(duì)象進(jìn)行標(biāo)識(shí),以便針對(duì)對(duì)象進(jìn)行特征提取、描述和查詢。對(duì)象標(biāo)識(shí)屬于局部特征處理,如果是針對(duì)多媒體數(shù)據(jù)進(jìn)行整體內(nèi)容檢索,通常只需要提取全局特征,而不需要用對(duì)象標(biāo)識(shí)功能,因此,對(duì)象標(biāo)識(shí)模塊是可選的。特征提?。褐笇?duì)音頻、視頻、圖像等多媒體數(shù)據(jù)自動(dòng)或半自動(dòng)地提取用戶感興趣的、合適檢索要求的特征。數(shù)據(jù)庫:主要是媒體庫、特征庫和知識(shí)庫等組成。其中,媒體庫存儲(chǔ)具體的多媒體原始數(shù)據(jù),特征庫中既包含人工著錄的文本描述特征,也包含預(yù)處理過程中自動(dòng)獲取的感知特征和內(nèi)容特征;而知識(shí)庫則包含一些領(lǐng)域知識(shí)和通用知識(shí),其中的只是表達(dá)可以更換,以便適應(yīng)不同領(lǐng)域的應(yīng)用要求。檢索接口:應(yīng)提供適當(dāng)?shù)?、便于用戶使用的人際交互形式,其中,以示例查詢和模糊描述等可視查詢形式最為重要。檢索引擎:主要是利用特征之間的距離函數(shù)或其他匹配標(biāo)準(zhǔn)來進(jìn)行相似性匹配,并模仿人類的認(rèn)知過程,得到盡可能理想的檢索結(jié)果輸出序列。索引和過濾器:旨在是檢索引擎達(dá)到快速匹配與檢索的目的,以便適應(yīng)大型的多媒體數(shù)據(jù)庫。其中,過濾器作用于全部數(shù)據(jù),過濾出的數(shù)據(jù)集合再用高維(數(shù)據(jù)含有屬性較多的)特征匹配來檢索;索引則用于低維特征,索引結(jié)構(gòu)可以選擇R樹索引等形式,以加快檢索進(jìn)程。語音信息有何特點(diǎn)?其檢索技術(shù)主要有哪些不同的研究類型?語音識(shí)別技術(shù)及其研究現(xiàn)狀:詞匯表大小、講述方式、服務(wù)對(duì)象、其他常見的語音檢索方法:利用大詞匯語音識(shí)別技術(shù)進(jìn)行檢索、基于子詞單元進(jìn)行檢索、基于關(guān)鍵詞確認(rèn)進(jìn)行檢索、基于說話人辨認(rèn)進(jìn)行語音分割和索引。圖像信息基于內(nèi)容檢索的主要類型有哪些?圖像信息基于內(nèi)容檢索的主要查詢方式:示例、描繪、屬性和特征說明、瀏覽基于顏色特征的圖像檢索:顏色模型/顏色空間及其選擇、顏色特征的分析與表達(dá)、顏色特征的匹配?;诩y理特征的圖像檢索:統(tǒng)計(jì)法、頻譜法和結(jié)構(gòu)法基于形狀特征的圖像檢索基于空間關(guān)系的圖像檢索基于組合特征的額圖像檢索視頻信息基于內(nèi)容檢索的主要類型有哪些?基于關(guān)鍵幀的檢索基于運(yùn)動(dòng)特征的檢索基于語義特征的檢索當(dāng)前比較著名或有影響力的圖像檢索實(shí)驗(yàn)或示范系統(tǒng)有哪些?請(qǐng)通過搜索引擎進(jìn)行調(diào)查,并實(shí)際使用這些系統(tǒng)進(jìn)行圖像查詢。QBIC、哥倫比亞大學(xué)的WebSeek、上海交大音樂數(shù)據(jù)庫檢索系統(tǒng)、國(guó)防科技大學(xué)的多媒體數(shù)據(jù)庫檢索系統(tǒng)Web與網(wǎng)絡(luò)搜索引擎請(qǐng)簡(jiǎn)述WWW網(wǎng)信息資源的主要特點(diǎn)海量規(guī)模分散無序:網(wǎng)絡(luò)信息資源分散在服務(wù)器中,服務(wù)器分散在世界的各個(gè)角落,由用戶驅(qū)動(dòng)的網(wǎng)絡(luò)信息資源原本就缺乏統(tǒng)一的控制,這種地域上的分散更加加劇了網(wǎng)絡(luò)信息資源的無序與混亂。動(dòng)態(tài)更新(不穩(wěn)定性)種類/形式多種多樣(多媒體性)非結(jié)構(gòu)化或半結(jié)構(gòu)化:體例格式、表述方法缺乏統(tǒng)一語義冗余和質(zhì)量控制缺乏:由于鏡像技術(shù)的使用和信息的廣泛傳播復(fù)制,web信息一般重復(fù)率較高;另一方面,信息發(fā)布主要由用戶驅(qū)動(dòng),并且來源復(fù)雜,大量虛假錯(cuò)誤陳舊低劣的信息有可能不經(jīng)任何篩選和過濾即可提交,造成信息資源質(zhì)量控制的損失。需求與使用方式個(gè)性化:網(wǎng)絡(luò)用戶數(shù)量眾多,年齡不同,職業(yè)和文化背景千差萬別,信息需求五花八門,對(duì)信息資源的檢索和使用特備強(qiáng)調(diào)個(gè)性化服務(wù)。再加上網(wǎng)絡(luò)資源的海量規(guī)模,如何有針對(duì)性地向用戶提供他們感興趣的信息成為一項(xiàng)迫切的任務(wù)。網(wǎng)絡(luò)搜索引擎的發(fā)展經(jīng)歷了哪幾個(gè)不同的階段?搜索引擎的前身:FTP類檢索工具早期的搜索引擎:關(guān)鍵詞檢索方式、分類目錄瀏覽方式全文搜索引擎的普及:由于標(biāo)題搜索引擎只能通過標(biāo)題、URL等信息進(jìn)行檢索,新一代的機(jī)器人程序開始關(guān)注網(wǎng)頁全文的自動(dòng)采集與索引問題,以便支持全文檢索。元搜索引擎的出現(xiàn):使用元搜索引擎時(shí),用戶主要依賴與其他獨(dú)立搜索引擎而存在,但它們集成了不同性質(zhì)和不同風(fēng)格的搜索引擎,且發(fā)展了一些新的查詢功能,因此逐漸成為用戶喜愛的一種新型網(wǎng)絡(luò)檢索工具。元搜索引擎主要依賴與其他獨(dú)立搜索引擎而存在,但它們集成了不同性質(zhì)和不同風(fēng)格的搜索引擎,且發(fā)展了一些新的查詢功能。垂直搜索引擎的發(fā)展搜索代理系統(tǒng)的研制搜索引擎主要有哪些不同類型?按照檢索機(jī)制不同劃分:關(guān)鍵詞檢索型搜索引擎和目錄瀏覽型搜索引擎按照數(shù)據(jù)收錄范圍不同劃分:綜合型搜索引擎和垂直型搜索引擎按照包含檢索工具的數(shù)量不同劃分:獨(dú)立搜索引擎和元搜索引擎按照開發(fā)背景不同劃分:學(xué)術(shù)型搜索引擎和商業(yè)型搜索引擎什么是獨(dú)立搜索引擎?簡(jiǎn)述它的基本結(jié)構(gòu)和工作原理獨(dú)立搜索引擎就是通常意義上我們所說的搜索引擎,主要通過自身的數(shù)據(jù)采集于標(biāo)引機(jī)制、數(shù)據(jù)組織機(jī)制和數(shù)據(jù)檢索機(jī)制提供網(wǎng)絡(luò)信息的檢索服務(wù)?;窘Y(jié)構(gòu):數(shù)據(jù)采集(人工采集質(zhì)量高、速度慢、覆蓋窄、無法及時(shí)更新;多為自動(dòng)采集)、數(shù)據(jù)分析與標(biāo)引(人工方式主要用于目錄瀏覽型搜索引擎,而自動(dòng)方式即利用自動(dòng)標(biāo)引軟件對(duì)收集到的網(wǎng)頁信息進(jìn)行內(nèi)容分析,從中提取有檢索或查詢價(jià)值的特征項(xiàng)——網(wǎng)頁關(guān)鍵詞等,并將它們組織成倒排索引文檔)、數(shù)據(jù)檢索(數(shù)據(jù)檢索模塊主要負(fù)責(zé)通過用戶界面的人機(jī)交互,根據(jù)用戶的信息查詢請(qǐng)求,或者去索引數(shù)據(jù)庫進(jìn)行查詢匹配,或者利用分類目錄結(jié)構(gòu)進(jìn)行瀏覽選擇,最后將獲取的符合用戶需要的WWW信息顯示輸出)、信息挖掘(源于用戶對(duì)個(gè)性化服務(wù)的迫切需求)工作原理:從網(wǎng)絡(luò)分層的宏觀結(jié)構(gòu)上看,獨(dú)立搜索引擎系統(tǒng)是處于應(yīng)用層(即用戶層)和網(wǎng)絡(luò)層(即WWW層)之間的一個(gè)中間層次。在這樣的體系結(jié)構(gòu)中,不妨把獨(dú)立搜索引擎看成是一個(gè)雙層的客戶機(jī)/服務(wù)器結(jié)構(gòu)體系。當(dāng)用戶訪問搜索引擎時(shí),用戶端為客戶機(jī),向搜索引擎發(fā)出尖鎖請(qǐng)求,搜索引擎為服務(wù)器,檢索自己的索引數(shù)據(jù)庫并將檢索結(jié)果以應(yīng)答形式提交給用戶;當(dāng)搜索引擎采集數(shù)據(jù)時(shí),搜索引擎為客戶機(jī),向WWW站點(diǎn)等實(shí)際資源系統(tǒng)提出頁面搜索請(qǐng)求,各類實(shí)際資源系統(tǒng)為服務(wù)器,并將有關(guān)數(shù)據(jù)作為應(yīng)答提交給搜索引擎。Indexer工作過程分析:為了實(shí)現(xiàn)對(duì)采集到的海量規(guī)模信息的快速匹配與查詢,搜索引擎必須對(duì)它們進(jìn)行自動(dòng)分析與標(biāo)引,提取檢索標(biāo)識(shí),并把它們組織成倒排索引。對(duì)于一個(gè)indexer來說,其工作過程中主要考慮的問題有:全文標(biāo)引還是部分標(biāo)引是否過濾停用詞是否使用META標(biāo)記中的信息是否支持詞干提取技術(shù)是否對(duì)圖像標(biāo)記中的替換文本或頁面中的注解建立索引搜索引擎自動(dòng)采集軟件Robot的工作原理是什么?試分析說明設(shè)計(jì)中注意的事項(xiàng)(1)robot工作原理精選一批高質(zhì)量的URLs作為初始搜索地址,并將這些地址放入待搜索的地址列表中;取出待搜索地址列表中的第一項(xiàng),依據(jù)并遵循HTTP協(xié)議,向有關(guān)的WWW服務(wù)器發(fā)出請(qǐng)求,等待并抓取到相應(yīng)的HTML文件(網(wǎng)頁),下載到本地后進(jìn)行預(yù)處理,并在該HTNL文件中抽取指向其他HTML文件的超鏈接;對(duì)抽取出的超鏈接地址逐個(gè)進(jìn)行處理,按照是否已被搜索過分別放入近期已搜索的web站點(diǎn)列表和尚未搜索的地址列表中去;判斷程序是否結(jié)束,如果沒有結(jié)束,返回第二步繼續(xù)執(zhí)行。結(jié)束的條件是待搜索的站點(diǎn)地址列表為空,或抓取的HTML文件已經(jīng)達(dá)到了預(yù)訂的最大值或管理員強(qiáng)制終止。(2)設(shè)計(jì)robot程序考慮的問題遍歷策略的選擇(順序搜索、深度優(yōu)先搜索、廣度優(yōu)先搜索、深度-廣度結(jié)合搜索);優(yōu)化策略(興趣驅(qū)動(dòng)策略、流行驅(qū)動(dòng)策略、網(wǎng)址驅(qū)動(dòng)策略)Robotexclusion協(xié)議的遵守網(wǎng)頁采集效率與保持WWW服務(wù)器正常工作狀態(tài)的平衡機(jī)制鏡像站點(diǎn)的識(shí)別動(dòng)態(tài)網(wǎng)頁的困擾網(wǎng)頁更新問題中英文網(wǎng)頁信息的標(biāo)引處理有區(qū)別嗎?中文網(wǎng)頁標(biāo)引處理的難點(diǎn)在哪里?什么是元搜索引擎?請(qǐng)簡(jiǎn)述它的基本結(jié)構(gòu)和工作原理元搜索引擎就是通過一個(gè)統(tǒng)一的用戶界面幫助用戶在多個(gè)搜索引擎中選擇和利用合適的(甚至是同時(shí)利用若干個(gè))搜索引擎來實(shí)現(xiàn)檢索操作,是對(duì)分布于網(wǎng)絡(luò)的多種檢索工具的全局控制機(jī)制?;窘Y(jié)構(gòu):用戶接口(用戶瀏覽器與元搜索引擎交互的界面)、查詢代理(負(fù)責(zé)元搜索引擎與相應(yīng)的獨(dú)立搜索引擎的交互)、結(jié)果匯總輸出(結(jié)果匯總輸出負(fù)責(zé)收集各查詢代理送交來的檢索結(jié)果,并對(duì)這些結(jié)果進(jìn)行必要的加工與整理,去重、重排,再以標(biāo)準(zhǔn)的頁面形式呈獻(xiàn)給用戶)工作原理搜索引擎為何要將檢索結(jié)果按相關(guān)度大小排序輸出?計(jì)算相關(guān)度的主要依據(jù)是什么?基于web網(wǎng)頁內(nèi)容特征的方法:主要考慮用戶所查詢的關(guān)鍵詞在結(jié)果網(wǎng)頁中的出現(xiàn)情況,包括出現(xiàn)頻率(即詞頻)和出現(xiàn)位置等因素,并以此來評(píng)價(jià)命中網(wǎng)頁和用戶查詢請(qǐng)求的相關(guān)度大小,進(jìn)而作為結(jié)果輸出時(shí)的排序依據(jù)?;诰W(wǎng)頁鏈接結(jié)構(gòu)的方法:主要根據(jù)網(wǎng)頁被鏈接或被引用的情況來判斷頁面信息的權(quán)威性(或質(zhì)量),以此來優(yōu)化對(duì)搜索結(jié)果的排序,使排序結(jié)果能夠更加客觀和公正?;谟脩粜畔⑿枨蠛托枨笮袨榈姆椒ǎ褐饕ㄟ^跟蹤、統(tǒng)計(jì)并挖掘用戶的查詢需求和需求行為信息,例如:使用的查詢關(guān)鍵詞、對(duì)結(jié)果頁面的點(diǎn)擊行為、瀏覽網(wǎng)頁及瀏覽時(shí)間等,以發(fā)現(xiàn)和識(shí)別用戶的真正興趣和真實(shí)查詢意圖,進(jìn)而對(duì)搜索結(jié)果實(shí)施個(gè)性化排序。目前,主要有3個(gè)方式:檢索前主動(dòng)詢問用戶、利用用戶對(duì)搜索結(jié)果的評(píng)測(cè)與反饋、通過其他途徑較廣泛地收集用戶個(gè)人信息,建立用戶的偏好模型,進(jìn)行統(tǒng)計(jì)分析。基于付費(fèi)排序的方法請(qǐng)簡(jiǎn)述PageRank算法和HITS算法的基本思想,并比較兩者的異同PageRank算法的基本思想:如果一個(gè)頁面多次被使用,那么這個(gè)頁面可能很重要;如果一個(gè)頁面盡管沒有多次被引用,但卻被一個(gè)重要的頁面引用,那么這個(gè)頁面很可能是重要的;一個(gè)頁面的重要性被均分,并傳遞到它所用的頁面。HITS算法的基本思想:不是每一個(gè)鏈接都具有注解性,有些鏈接是為了其他目的而創(chuàng)建的。如果大部分鏈接具有注解性,才能用于頁面的權(quán)威性判斷?;谏虡I(yè)方面的考慮,很少web頁面會(huì)指向其競(jìng)爭(zhēng)領(lǐng)域的權(quán)威頁面。權(quán)威頁面很少有特別描述。相同點(diǎn):都是利用網(wǎng)頁之間的相互連接關(guān)系進(jìn)行遞歸計(jì)算,并賦予它們一定的重要性值,但兩者也存在顯著區(qū)別。不同點(diǎn)HITS算法是一種query-dependent算法,計(jì)算的網(wǎng)頁權(quán)威值只是相對(duì)于某個(gè)提問式的權(quán)重;而PageRank算法是一種query-independent算法,是獨(dú)立于檢索提問式的HITS算法是實(shí)時(shí)在線進(jìn)行的,僅為每個(gè)已執(zhí)行的查詢構(gòu)建根集合并擴(kuò)展,然后對(duì)其中的網(wǎng)頁進(jìn)行排序計(jì)算;PageRank算法而是預(yù)先離線進(jìn)行的,對(duì)數(shù)據(jù)庫中所有的網(wǎng)頁都計(jì)算權(quán)值,在結(jié)果排序時(shí)直接取用即可。從網(wǎng)頁權(quán)重值的傳播模型來看,HITS算法基于網(wǎng)頁的雙向鏈接,網(wǎng)頁權(quán)重會(huì)在權(quán)威頁面與hub頁面之間相互加強(qiáng);PageRank算法基于網(wǎng)頁的單向鏈接,網(wǎng)頁權(quán)重(PR值)只從一個(gè)頁面?zhèn)鬟f到另一個(gè)頁面。從算法的穩(wěn)定性上來看,HITS算法的計(jì)算只針對(duì)一個(gè)很小的子圖,并對(duì)該子圖的結(jié)構(gòu)非常敏感,子圖的微小改變可能會(huì)帶來最終結(jié)果的很大變化;而PageRank算法是對(duì)整個(gè)web的鏈接結(jié)構(gòu)圖進(jìn)行計(jì)算,算法的穩(wěn)定性相對(duì)而言要好得多。什么是個(gè)性化搜索?解決個(gè)性化搜索服務(wù)的主要適用技術(shù)有哪些?所謂個(gè)人化搜索,指的是不同用戶搜索相同的關(guān)鍵字,看到的排名不相同。技術(shù):用戶興趣模板的生成、PSA結(jié)構(gòu)及工作流程試對(duì)并行元搜索引擎的若干關(guān)鍵技術(shù)問題進(jìn)行分析和說明在一個(gè)小規(guī)模web網(wǎng)絡(luò)上,嘗試?yán)肞ageRank算法思想進(jìn)行編程,并調(diào)整衰減因子的值進(jìn)行對(duì)比試驗(yàn)。結(jié)合個(gè)人使用搜索引擎的體會(huì)和經(jīng)驗(yàn),試分析獨(dú)立搜索引擎目前存在的主要問題、產(chǎn)生根源及相關(guān)改進(jìn)措施。如何理解SemanticWeb的框架結(jié)構(gòu)?它對(duì)未來搜索引擎的發(fā)展會(huì)產(chǎn)生什么樣的影響?Web2.0時(shí)代基于標(biāo)簽技術(shù)產(chǎn)生了互聯(lián)網(wǎng)自由分類法,它對(duì)于網(wǎng)絡(luò)搜索問題會(huì)產(chǎn)生什么影響?請(qǐng)分析說明之。是否了解PeopleRank算法?信息檢索評(píng)價(jià)研究簡(jiǎn)述信息檢索評(píng)價(jià)研究的發(fā)展歷史及各階段的主要特點(diǎn)。(1)20世紀(jì)50年代——20世紀(jì)60年代中期:主要集中在對(duì)各種檢索寓言和標(biāo)引方法的比較和評(píng)測(cè)上。磁帶是信息存儲(chǔ)的主要載體,檢索處理結(jié)果一般不能立刻獲得,必須等待成批或定期的檢索匹配。(2)20世紀(jì)60年代——20世紀(jì)70年代:進(jìn)入聯(lián)機(jī)實(shí)時(shí)檢索時(shí)期,用戶可以通過檢索終端與系統(tǒng)進(jìn)行人機(jī)對(duì)話,并可在檢索屏幕上迅速瀏覽到檢索結(jié)果。(3)20世紀(jì)70年代——90年代初期:信息檢索進(jìn)入了網(wǎng)絡(luò)化和多元化檢索時(shí)期。(4)20世紀(jì)90年代至今:基于TREC平臺(tái)的評(píng)價(jià)檢索有效克服了以往評(píng)價(jià)研究中的諸多缺陷。同時(shí),web搜索引擎的發(fā)展和評(píng)價(jià)標(biāo)準(zhǔn)的研究。作為www網(wǎng)絡(luò)環(huán)境下的一種新型檢索系統(tǒng),搜索引擎評(píng)價(jià)有其獨(dú)特的要求和標(biāo)準(zhǔn),簡(jiǎn)單的沿用傳統(tǒng)的評(píng)價(jià)方法和指標(biāo)已經(jīng)不再適宜。另外,前一階段開始的旨在擺脫Cranfield模式籠罩、關(guān)注用戶在真實(shí)檢索環(huán)境與檢索與檢索過程中的作用與影響的評(píng)價(jià)研究。什么是相關(guān)性?信息檢索中的相關(guān)性判斷標(biāo)準(zhǔn)主要有哪些?相關(guān)性是信息檢索中的一個(gè)非?;镜母拍睿瑢?duì)這一概念的使用在各類研究文獻(xiàn)中也是隨處可見。簡(jiǎn)單的說,信息檢索的相關(guān)性是指檢索系統(tǒng)針對(duì)用戶的信息需求從文檔集合中檢索出的文檔與用戶需求之間的一種匹配關(guān)系。相關(guān)性評(píng)價(jià)的標(biāo)準(zhǔn):二值相關(guān)性判斷標(biāo)準(zhǔn)、多值相關(guān)性判斷標(biāo)準(zhǔn)、多維相關(guān)性判斷標(biāo)準(zhǔn)什么是信息檢索的查全率和查準(zhǔn)率?它們的計(jì)算公式分別是什么?查全率R是衡量系統(tǒng)在實(shí)施某一檢索作業(yè)時(shí)檢出相關(guān)文獻(xiàn)能力的一種測(cè)度指標(biāo),計(jì)算方法為R=檢索出的相關(guān)文獻(xiàn)量/檢索系統(tǒng)中的相關(guān)文獻(xiàn)量查準(zhǔn)率是衡量系統(tǒng)在實(shí)施某一檢索作業(yè)時(shí)檢索準(zhǔn)確度的一個(gè)測(cè)度指標(biāo),P=檢索的相關(guān)文獻(xiàn)量/檢出的文獻(xiàn)總數(shù)查全率無法計(jì)算,查準(zhǔn)率難以計(jì)算目前主要有哪些查全率和查準(zhǔn)率的替代性計(jì)算指標(biāo)?平均查全率和平均查準(zhǔn)率調(diào)和數(shù)F:F=2/(1/R+1/P)E測(cè)度指標(biāo):E=1-(1+B2)/(B2/R+1/P)面向用戶的性能評(píng)價(jià)指標(biāo):與用戶的知識(shí)狀態(tài)、待處理/解決的問題、任務(wù)及所處的情境或者用戶的目標(biāo)、動(dòng)機(jī)等眾多因素。這些指標(biāo)有涵蓋率、新穎率、相對(duì)查全率、查全努力信息檢索評(píng)價(jià)研究的基本方法和程序:確定評(píng)價(jià)范圍和目標(biāo)、選擇評(píng)價(jià)方式、設(shè)計(jì)或制定評(píng)價(jià)方案、實(shí)施評(píng)價(jià)方案、總結(jié)與評(píng)價(jià)結(jié)論的形成。搜素引擎的性能評(píng)價(jià)指標(biāo)主要有哪些?數(shù)據(jù)庫規(guī)模與內(nèi)容:收錄范圍、數(shù)據(jù)庫內(nèi)容、更新頻率、重復(fù)率、死鏈接率索引方法:索引方式、索引范圍與深度檢索功能:基本檢索功能(布爾檢索、截詞檢索、位置/短語檢索、限制檢索)和高級(jí)檢索功能(概念檢索、相似檢索、多語種檢索)檢索結(jié)果處理:排序方式、顯示內(nèi)容/格式、后處理功能(摘要、聚類、翻譯)分類功能:分類類目體系的深度、數(shù)量、合理性用戶界面:界面布局、聯(lián)機(jī)幫助、界面定制、界面廣告漢字處理:此與切分、多內(nèi)碼處理/轉(zhuǎn)換、中英文混合檢索等其他:響應(yīng)時(shí)間、系統(tǒng)穩(wěn)定性文本信息處理自動(dòng)化技術(shù)文本挖掘:從非結(jié)構(gòu)化的文本信息中抽取潛在的、用戶感興趣的重要模式(或知識(shí))的過程,目前大多基于web技術(shù)平臺(tái)從三個(gè)不同方向進(jìn)行研究,即文本內(nèi)容挖掘、文本結(jié)構(gòu)挖掘和文本使用記錄挖掘。文本聚類與文本分類有何區(qū)別和聯(lián)系?文本聚類是根據(jù)文本文檔內(nèi)容相關(guān)性來組織文檔集合,將整個(gè)聚集成若干個(gè)類,并使得屬于同一類別的文檔盡量相似,屬于不同類別的文檔差別明顯。是一種“無監(jiān)督的學(xué)習(xí)”,它的特點(diǎn)可以概括為“現(xiàn)有文檔后有類”。目前,常用的文本聚類技術(shù)主要有兩類,即基于系統(tǒng)樹狀圖的等級(jí)聚類技術(shù)和基于平面劃分的動(dòng)態(tài)聚類技術(shù)。主要應(yīng)用價(jià)值表現(xiàn)在以下三個(gè)方面:發(fā)現(xiàn)與某文檔相似的一批文檔,以幫助用戶發(fā)現(xiàn)相關(guān)知識(shí)可以將一個(gè)文檔集合聚集成若干個(gè)類,提供一種組織文檔集合的方法可以作為一種文本分類的輔助技術(shù),使用聚類技術(shù)可以生成用于文本自動(dòng)分類的類目體系表文本分類是在給定的分類體系下,根據(jù)文本的內(nèi)容自動(dòng)確定文本所屬類別的過程。由于事先已經(jīng)存在關(guān)于這些文本信息的可以使用的分類表,所以文本的分類處理常被看做是一種“有監(jiān)督的學(xué)習(xí)”,特點(diǎn)是“先有類后有文檔”。文本等級(jí)聚類算法的基本思想是什么?請(qǐng)用實(shí)例數(shù)據(jù)對(duì)其聚類過程進(jìn)行模擬指導(dǎo)?;舅枷耄和ㄟ^建立并逐步更新距離系數(shù)矩陣(或相似系數(shù)矩陣),找出并合并最接近的兩類,直到全部聚類對(duì)象被合并為一類為止。流程:計(jì)算文檔距離系數(shù)矩陣、合并兩個(gè)最相似的文檔類、更新相似矩陣聚合策略:最短距離法、最長(zhǎng)距離法、中間距離法、重心法、類平均法、離差平方和法(同類元素的離差平方和應(yīng)當(dāng)較小,類間的離差平方和應(yīng)當(dāng)較大)文本動(dòng)態(tài)聚類方法的基本思想是什么?其中有哪些問題需要特別關(guān)注?產(chǎn)生原因:等級(jí)聚類法在進(jìn)行文本聚類處理時(shí),其聚類策略建立在對(duì)待聚類文本集合的全面分析與統(tǒng)計(jì)基礎(chǔ)之上,要求各文檔對(duì)象相互獨(dú)立,彼此之間地位平等。雖然聚類的結(jié)果比較準(zhǔn)確,但當(dāng)文檔數(shù)量比較大時(shí),因?yàn)樾枰M(jìn)行全面的兩兩比較,往往導(dǎo)致相關(guān)的計(jì)算量十分巨大,有時(shí)甚至難以承受。基本思想:文本動(dòng)態(tài)聚類法又稱“逐步聚類法”,主要致力于在一個(gè)平面層次上分割所有的樣本點(diǎn),并通過算法的迭代執(zhí)行,得到一個(gè)比較合理的,有K個(gè)類的聚類結(jié)果。主要基于這樣的假設(shè),即類的中心可以代表整個(gè)類,并且一般由該類包含對(duì)象的平均值來描述。聚類中心或凝聚點(diǎn)可以理解為類的重心。剛開始時(shí),在參加聚類的文檔集合中選取若干有代表的文檔作為凝聚點(diǎn),相當(dāng)于把這些文檔單獨(dú)成類,然后按照一定的原則使其他文檔向凝聚點(diǎn)聚集,即合并于已有的類中,從而實(shí)現(xiàn)了文檔的初始聚類處理。注意初始聚類中心的選?。褐匦姆ā⒚芏确?、調(diào)用等級(jí)聚類法聚類參數(shù)K的選取與調(diào)整簡(jiǎn)述K-means聚類算法的基本思想。以空間中k個(gè)點(diǎn)為中心進(jìn)行聚類,對(duì)最靠近他們的對(duì)象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。在聚類的開始,使用隨機(jī)方式選擇K篇文檔作為初始的聚類中心,按照前

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論