文本信息處理技術(shù)_第1頁
文本信息處理技術(shù)_第2頁
文本信息處理技術(shù)_第3頁
文本信息處理技術(shù)_第4頁
文本信息處理技術(shù)_第5頁
已閱讀5頁,還剩88頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第三章文本信息處理技術(shù)第三章文本信息處理技術(shù)

自動標引技術(shù)

1

標引詞加權(quán)方法2

自動分類技術(shù)3第一節(jié)自動標引技術(shù)

自動標引的含義

自動標引的流程

中文自動標引

三一、自動標引的含義1.自動標引的定義文獻標引:指對所收集的文獻給出標識導引,這些標識包括文獻標題、作者名、分類號和主題詞等。文獻標引作業(yè)包括:文獻文本分析;特征信息(主題詞、關(guān)鍵詞及其他標識)的提取與描述:建立索引或倒排檔。自動標引(automaticindexing):“自動標引就是用機器抽取或賦予索引詞,一旦編制好程序和規(guī)則,就不需要人工干預?!?/p>

一、自動標引的含義2、自動標引的類型

從標引工作的自動化程度來說,自動標引分為:全自動標引(automaticindexing);半自動標引(機助標引:Automatedindexing)。半自動標引基本技術(shù)實現(xiàn)是:(1)文獻紀錄(題目等著錄項目)鍵入終端后顯示在熒光屏上;(2)操作人員移動光標從題目中抽取關(guān)鍵詞;(3)利用人機對話方式輸入與標題內(nèi)容有關(guān)的隱含概念詞,以保證主題標引的全面性;同時刪除計算機程序錯誤組配的詞。(4)根據(jù)詞庫中的參照系統(tǒng)將關(guān)鍵詞轉(zhuǎn)換成標準主題詞,進行上位登錄。詞庫是計算機輔助標引的核心。從標引詞的來源去劃分,自動標引分為:自動抽詞標引;自動賦詞標引一、自動標引的含義(3)自動抽詞標引(自由詞標引)定義:利用計算機直接從文獻題名、文摘或正文中自動抽出能表達文獻主題的詞作為標引詞,并自動生成關(guān)鍵詞索引或倒排檔。類別:主關(guān)鍵詞標引:要求計算機從抽出的全部關(guān)鍵詞中選出少量主要關(guān)鍵詞做索引詞。全關(guān)鍵詞標引:把除停用詞以外的全部關(guān)鍵詞抽出,直接做索引詞。抽詞標引的標引詞只能來源于文獻本身的文內(nèi)關(guān)鍵詞,所以也稱為自由詞標引。優(yōu)點:無需主題切換,接近自然語言。缺點:標引用詞不規(guī)范,影響查全率;同義詞檢索降低系統(tǒng)的時間效率;難以找出詞和詞之間的相互關(guān)系,很難進一步利用語義信息。一、自動標引的含義(4)自動賦詞標引(受控詞標引)定義:讓計算機模仿人的賦詞標引方法,分析文獻的內(nèi)容,選取與文獻主題相符或密切相關(guān)的語詞符號作為索引詞。其標引詞是由描述詞組成的,這些詞不一定來源于文獻本身所用的詞,而是選自預先編制的詞表,所以叫受控詞標引。優(yōu)點:規(guī)范化用詞詞表可以反映詞的“類-屬”關(guān)系。缺點:受控詞標引往往有一定的標引誤差;詞典面臨老化的問題;主題詞表對用戶來說往往是一個負擔;自動賦詞標引是在自動抽詞標引的基礎(chǔ)上發(fā)展起來的。最合理的標引方法:混合標引方法二、自動標引的流程在手工標引中,標引員的一般工作流程是:閱讀待標引文獻分析文獻內(nèi)容提取文獻主題概念用語詞符號或語句去表達主題概念使表達規(guī)范化(轉(zhuǎn)換為受控詞)編制索引款目將全部索引款目匯集和編輯為索引或文檔。二、自動標引的流程篇章語句語句段詞加權(quán)選詞規(guī)范化標點符號停用詞表詞頻閾值轉(zhuǎn)換123詞主題詞典索引生成三、中文自動標引1、漢語分詞與中文自動標引分詞:就是把一個句子按照其中詞的含義進行切分。抽詞:信息檢索系統(tǒng)中所涉及的“分詞”

——實際上是抽取代表主題概念的關(guān)鍵詞。目前比較常用的抽出自由詞的方法有兩種:詞典匹配標引法;單漢字標引法。詞典匹配標引法的步驟:利用停用詞表將語句分為語句段(子字串);利用主題詞典(或關(guān)鍵詞典)將語句段分為詞;三、中文自動標引2.停用詞表及其切分原理(1)停用詞及停用詞表的概念根據(jù)文本中詞的檢索意義,可以對它們做一個簡單的分類:檢索詞(檢索入口詞、入口詞、標引詞):表示具有檢索意義的詞,一般為實詞(多數(shù)是名詞、動詞等)。停用詞(禁用詞、非用詞):在文本中沒有檢索意義的詞,多是一些虛詞(如介詞、嘆詞、連詞等)。所謂停用詞表,是一種特殊的詞表,在這個詞表中含有冠詞、虛詞、嘆詞、連詞、介詞以及語義泛泛的詞等一切在上下文中沒有檢索意義的詞。三、中文自動標引2.停用詞表及其切分原理

(1)停用詞及停用詞表的概念對于特定專業(yè)而言,可以將停用詞表內(nèi)部的詞基本上可以分為兩大類:通用性較強的停用詞;通用性不強的停用詞。停用詞的特點:停用詞語義變化不大,數(shù)量小(<1/10),出現(xiàn)頻率高;停用詞表的搜集要堅持完備性原則。三、中文自動標引2.停用詞表及其切分原理

(2)利用停用詞表的切分原理利用停用詞表進行切分的基本原理:把停用詞表中的詞與要進行切分的文本各字段(標題、文摘、全文等)依次進行匹配,當文本中經(jīng)過這樣的處理后,刪除那些與停用詞匹配成功的詞,這樣文本自然就被切分成若干段。西文,切分以后的段就是檢索入口詞(標引詞)。中文:切分以后的段中包含著所有完整的詞或詞組。使用停用詞進行切分所完成的工作量大約占整個切分工作量的50%。三、中文自動標引2、抽詞詞典與抽詞方法(1)抽詞詞典詞典切分標引的實現(xiàn)思想是:構(gòu)造一個機內(nèi)詞典(有主題詞典、關(guān)鍵詞典等)然后設(shè)計各種算法用文獻數(shù)據(jù)去匹配詞典,文獻中的詞在詞典中出現(xiàn),即表示為標引詞,進行文獻的標引處理。根據(jù)機內(nèi)詞典的不同具體形式,詞典標引法又分為:主題詞表法;關(guān)鍵詞詞典法;三、中文自動標引2、抽詞詞典與抽詞方法(1)抽詞詞典詞典法的核心是構(gòu)造一個詞典。優(yōu)點::1)查全率、查準率高;2)可以擴檢、縮檢。缺點:1)由于收詞量巨大;2)收全所有可能的詞十分困難;3)占用存儲空間量大。根據(jù)詞典進行抽詞顯然它只適應(yīng)于某些特定的領(lǐng)域。三、中文自動標引2、抽詞詞典與抽詞方法(2)漢語抽詞詞方法機械抽詞(分詞)的基本思想是:對給定的待分詞的漢字串s,按照某種確定的原則切取s的子串,若該子串中與詞庫中的某詞條相匹配,則該子串是詞,繼續(xù)分割剩余的部分,直到剩余部分為空;否則,該子串不是詞,轉(zhuǎn)上重新切取S的子串進行匹配。機械匹配法中有三種基本成分:是切分的方向有正(或順)向和逆向之分;每輪匹配的結(jié)果是最大還是最小匹配;每一輪匹配是在不斷的增字或不斷的減字中完成的。三、中文自動標引2、抽詞詞典與抽詞方法(2)漢語抽詞詞方法正向最大匹配法(亦稱MM法);基本思想是:假定自動分詞詞典中的最長詞是x個漢字,則用被處理材料當前字串序列中的前x個字作為匹配字段,查找詞典,若詞典中存在這樣的一個x字詞,則匹配成功,匹配字段作為一個詞被切分出來,如果在詞典中找不到這樣一個x字詞,則匹配失敗,將匹配字段的最后一個字去掉,對剩下的字段重新進行匹配……如此進行下去,直到匹配成功,切分出一個詞為止。正向匹配、長度優(yōu)先。第二節(jié)標引詞加權(quán)方法一、加權(quán)概念和類型詞的權(quán)值一般表示該詞的重要程度。權(quán)值的特征:一般取值在0~1之間。將0~1之間的一個數(shù)值賦予特定的詞以表示其重要程度,就是“加權(quán)”。信息檢索中的詞的加權(quán)有兩種:檢索詞加權(quán);標引詞加權(quán)。

第二節(jié)標引詞加權(quán)方法一、加權(quán)概念和類型

標引詞加權(quán):就是根據(jù)標引用詞(符號)所代表的內(nèi)容在文獻中的地位和作用的大?。ɑ蛘f與文獻的親疏程度)給予這些詞(符號)以相應(yīng)的數(shù)值。詞頻加權(quán)法(絕對頻率加權(quán)法、相對頻率加權(quán)法);詞位置加權(quán)法;其他加權(quán)的方法。二、絕對頻率加權(quán)法1齊普夫定律——詞頻分布定律詞頻:是指某一個單詞在文章中出現(xiàn)的次數(shù)。Zipf定律:如果把一篇較長文章(>5000)中每個詞出現(xiàn)的頻率統(tǒng)計起來,按照高頻詞在前、低頻詞在后的遞減順序排列,并用自然語言給這些詞編上等級序號,即頻次最高的詞的等級為1,頻次次高的等級為2,……,頻次最小的詞等級為D(或L),若用f表示等級為r的詞在文獻中出現(xiàn)的相對頻次,則有:fr·r=C(C是一個常數(shù),大約等于0.1).齊普夫分布曲線:如果用橫坐標表示詞的等級序號r,縱坐標表示相應(yīng)的頻次fr,我們就可以得到一條雙曲線,即齊普夫分布曲線。二、絕對頻率加權(quán)法2Luhn的自動標引思想詞的分辨力的概念:它是指詞的識別文章內(nèi)容的能力。Luhn的思想:文獻中每一個詞都有一定的分辨能力,而這種能力與詞出現(xiàn)的頻率有密切的關(guān)系。一般講來:詞頻過高的詞一般多為僅起語法作用而無實際內(nèi)容的功能詞,或為一些語義泛泛而專指性不高的詞;而詞頻過低的詞,在文獻中很少出現(xiàn),其分辨能力也很低;只有詞頻適中的詞的分辨力較強,他們被稱為有效詞。I1:文本中僅出現(xiàn)一次的詞的數(shù)量。二、絕對頻率加權(quán)法2Luhn的自動標引思想基于盧恩思想的詞頻統(tǒng)計抽詞標引法的基本步驟為:(1)抽詞;(2)統(tǒng)計分析;(3)篩選。盧恩在自動標引中使用的文獻,長度在500~5000字之間,為每篇文獻選擇的標引詞數(shù)量定在10~24個詞之間。近似平均值為16。三、相對頻率加權(quán)法1、文內(nèi)相對頻率指某特定詞的絕對頻數(shù)與文中所有詞的絕對頻數(shù)之比。2、文外相對頻率加權(quán)法文外相對頻率:某特定詞在一批足夠多的文獻集合中的出現(xiàn)頻次的平均值。加權(quán)的步驟為:建立有關(guān)領(lǐng)域全部詞匯的文外相對頻率表;對待標引的文獻進行處理,排除停用詞,計算每個實詞在特定文獻中出現(xiàn)的相對頻率;將每個實詞在特定文獻中的文內(nèi)相對頻次與整個文獻集合中的文外相對頻率進行比較。三、相對頻率加權(quán)法三、相對頻率加權(quán)法3、反(逆)文獻頻率加權(quán)法一篇文獻的詞大致可以分為:特征詞:就是能反映文獻的主題內(nèi)容的詞;非特征詞:是不能反映文獻主題內(nèi)容的詞,只是為了語法或?qū)懽黠L格上的需要才出現(xiàn)的。詞k的文獻頻率:文獻集合中包含詞k的文獻篇數(shù)。特征詞與非特征詞的文獻頻率特點:非特征詞的文獻頻率一般較高;特征詞的文獻頻率一般較低一個詞如果文獻頻率較低,說明它是特征詞;若這個詞在某篇特定文獻中的出現(xiàn)頻率較高,則用這個詞可以較好地反映該文獻的主題內(nèi)容。三、相對頻率加權(quán)法3、反(逆)文獻頻率加權(quán)法逆文獻頻率加權(quán)法基于如下假設(shè):某詞的重要性與它在特定文獻中出現(xiàn)的頻次成正比,而與含有該詞的文獻量成反比。逆文獻頻率標引詞權(quán)重的設(shè)計如下:Fik為詞k在文獻i中的出現(xiàn)頻率;DFk為詞k的文獻頻率。標引詞的權(quán)與標引詞的文獻頻率有互逆關(guān)系,因此這種標引加權(quán)方法叫“逆文獻頻率加權(quán)法”,根據(jù)這種加權(quán)方法進行的標引叫“逆文獻頻率加權(quán)標引”。第二節(jié)標引詞加權(quán)方法四、詞的位置加權(quán)法根據(jù)詞的位置進行加權(quán)的方法稱為位置加權(quán)法。1)標題2)文摘3)首尾章節(jié)

4)章節(jié)的首尾段5)段落的首尾句部位權(quán)值主標題中詞匯2其他標題中詞匯1.8文摘中的詞匯1.6首尾章節(jié)詞匯1.3首尾段(句)詞匯1.1其他位置詞匯1.0五、其它加權(quán)的方法1)詞性2)詞本身的價值3)詞的長度4)詞的特定位置,如:文獻中用括號括起來的部分:ISDN(綜合業(yè)務(wù)數(shù)據(jù)網(wǎng));用破折號引出來的部分,“數(shù)據(jù)的自動識別輸入——條碼技術(shù)”;用“所謂”所引出的部分,如“所謂的預置關(guān)鍵詞”,其中的實詞往往也應(yīng)當給予特別的加權(quán)。5)詞的顏色、字體等第二節(jié)標引詞加權(quán)方法六、加權(quán)檢索技術(shù)

1檢索詞加權(quán)與檢索檢索詞加權(quán):檢索者根據(jù)檢索需求的理解確定檢索詞,同時給提問中的每一個檢索詞(概念)給定一個數(shù)值以表示其重要程度,即“權(quán)”。。檢索詞加權(quán)檢索:在檢索過程中,對每個檢索詞首先查找其檢索詞在數(shù)據(jù)庫記錄中是否存在,然后對存在的檢索詞計算權(quán)值總和。只有當數(shù)據(jù)庫記錄的權(quán)值之和達到或超過預先給定的閾值時,該記錄才是命中記錄。第二節(jié)標引詞加權(quán)方法六、加權(quán)檢索技術(shù)

1檢索詞加權(quán)與檢索例題:以“住房補貼政策”為檢索課題,給檢索詞分別賦以權(quán)值為:住房=4、補貼=5、政策=3,閾值T=5設(shè)有文獻如右:文獻號標引詞1住房,補貼,政策2住房,補貼3補貼,政策4住房,政策5補貼6住房7政策8第二節(jié)標引詞加權(quán)方法六、加權(quán)檢索技術(shù)

1檢索詞加權(quán)與檢索詞加權(quán)提問邏輯的優(yōu)點和不足分析:優(yōu)點:通過加權(quán),明確了各檢索詞的重要程度,使檢索更具有針對性;只需列出檢索詞,不必寫出提問式(不必定義檢索詞間的邏輯關(guān)系)。不足:權(quán)值、閾值的確定具有主觀性;加權(quán)是對概念加權(quán),而非對具體的詞進行加權(quán),故同義詞、相關(guān)詞權(quán)值的確定問題。第二節(jié)標引詞加權(quán)方法六、加權(quán)檢索技術(shù)

2、標引詞加權(quán)與檢索標引詞加權(quán):根據(jù)標引詞在文獻中重要程度不同,為它們附上不同的權(quán)值。具體內(nèi)容如上所述。標引詞加權(quán)檢索:在檢索時,檢索者給出檢索詞閾值和檢索閾值,對于那些滿足檢索閾值的檢索結(jié)果,按照權(quán)值之和從大到小依次輸出。設(shè)定檢索閾值:給每個檢索詞指定一個閾值;給總的檢索結(jié)果指定一個閾值。第二節(jié)標引詞加權(quán)方法六、加權(quán)檢索技術(shù)

2、標引詞加權(quán)與檢索例:設(shè)已知:用戶提問:①檢索詞為:A、B、C;②檢索詞閾值:A:0.3;B:0.2;C:0.2;③總閾值:0.5.數(shù)據(jù)庫:第三節(jié)自動分類技術(shù)

自動分類概述

自動聚類技術(shù)概述二

文本表示與相關(guān)矩陣計算三

等級聚類法、動態(tài)聚類法

模糊關(guān)系及其聚類方法

基于聚類文檔的檢索模型

六一、自動分類概述

1、文本分類的概念定義:自動分類(Automaticclassification)是指利用計算機對一批實體或?qū)ο筮M行分類,包括自動建立分類體系及其自動更新。發(fā)展:第一階段(1958~1964)進行自動分類的可行性研究;第二階段(1965~1974)進行自動分類的實驗研究;第三階段(1975年至今)進行實用化階段并在郵件分類、電子會議、信息過濾等方面取得較為廣泛的應(yīng)用。一、自動分類概述

2、文本分類的類別:自動聚類:從待分類對象中提出特征,然后將提出的全部特征進行比較,再根據(jù)一定的原則將具有相同或相近特征的對象定義為一類,并設(shè)法使各類中包含的對象大致相等;特點是“先有文檔后有類”。自動歸類:指在給定的分類體系下,分析被分類對象的特征,使之與各種類別中對象所具有的共同特征進行比較,然后將對象劃歸為特征最接近的一類并賦予相應(yīng)的分類號。特點是“先有類(表)后有文檔”。類號的自動轉(zhuǎn)換:針對多部分類法并存的現(xiàn)狀而提出的,有利于分類標準化。一、自動分類概述3、文本分類的步驟文本集合預處理文本標引文本表示特征選擇構(gòu)建分類器結(jié)果評價一、自動分類概述3、文本分類的步驟(1)文本預處理即將原始文本進行分詞處理并轉(zhuǎn)化為標準格式,需要刪除的套話和停用詞一般也在這個階段刪除。(2)文本標引通常選擇文本中的特征詞作為該文本的特征項。

自動分類是建立在自動標引的基礎(chǔ)(3)文本表示即選用什么樣的語言要素和用怎樣的數(shù)學形式組織這些語言要素來表征文本。一、自動分類概述3、文本分類的步驟(4)選擇合適的分類方法即:用什么方法建立從文本特征到文本類別的映射關(guān)系?,F(xiàn)有的主題分類技術(shù)主要有3種方法:基于統(tǒng)計的方法:如快速聚類、扁平聚類、層次聚類、支持向量機,等等;基于聯(lián)結(jié)的方法:即人工神經(jīng)網(wǎng)絡(luò);基于規(guī)則的方法:如決策樹、關(guān)聯(lián)規(guī)則等。(5)性能評估即如何評估分類方法和系統(tǒng)的性能。目前使用比較多的分類性能評估指標為查全率和查準率。二、自動聚類技術(shù)概述1、定義所謂“文本聚類”(textclustering),就是完全根據(jù)文本文檔的內(nèi)容相關(guān)性來組織文檔集合,將整個集合分成若干個類,并使得屬于同一類的文檔盡量地相似,屬于不同類的文檔差別明顯。聚類的定義:(文檔)聚類是將一系列文檔按照相似性聚團成子集或者簇(cluster)的過程簇內(nèi)文檔之間應(yīng)該彼此相似簇間文檔之間相似度不大聚類是一種最常見的無監(jiān)督學習(unsupervisedlearning)方法。聚類假設(shè):在考慮文檔和信息需求之間的相關(guān)性時,同一簇中的文檔表現(xiàn)互相類似。二、自動聚類技術(shù)概述2、類別(1)按照聚類所依據(jù)的文本特征基于詞語特征的自動聚類;基于非詞語特征的自動聚類?;谝牡木垲悾骸拔墨I耦合”:如果A和B兩篇文獻共同引證了一篇或多篇參考文獻,則稱A和B兩文獻具有引文的耦合關(guān)系。其耦合程度可以用“耦合強度”指標來衡量,“耦合強度”的度量單位是A和B共有的參考文獻的篇數(shù)?!拔墨I同被引”:是指兩篇文獻被別的文獻同時引用,并以共同引用它們的文獻數(shù)量作為測度,稱為“同被引強度”。二、自動聚類技術(shù)概述2、類別(2)按照聚類文本歸屬的不同硬聚類:每篇文檔僅僅屬于一個簇,很普遍并且相對容易實現(xiàn)。軟聚類:一篇文檔可以屬于多個簇,較復雜。軟聚類對于諸如瀏覽目錄之類的應(yīng)用來說很有意義,比如,將膠底運動鞋(sneakers)放到兩個簇中:體育服裝(sportsapparel)鞋類(shoes)二、自動聚類技術(shù)概述3、聚類步驟“文本聚類”:從待分類對象中提出特征,然后將提出的全部特征進行比較,再根據(jù)一定的原則將具有相同或相近特征的對象定義為一類,并設(shè)法使各類中包含的對象大致相等。由定義可知聚類的步驟:從待分類對象中提出特征——定義屬性(等同于自動標引,所以:自動標引是自動分類的基礎(chǔ));將提出的全部特征進行比較——計算相關(guān)性,形成相關(guān)矩陣(大多都是基于經(jīng)典的向量空間檢索模型);根據(jù)一定的原則將具有相同或相近特征的對象定義為一類,并設(shè)法使各類中包含的對象大致相等——聚類算法。文本聚類的流程圖目標文檔集合1、自動標引2、建立文檔向量3、構(gòu)建文檔相關(guān)矩陣4、聚類處理5、聚類輸出二、自動聚類技術(shù)概述4、文本聚類的應(yīng)用文本聚類是一種重要的文本挖掘技術(shù),在文本信息處理系統(tǒng)中,它的價值主要表現(xiàn)在以下幾個方面:聚類檢索:發(fā)現(xiàn)與某文檔相似的一批文檔,以幫助用戶發(fā)現(xiàn)相關(guān)知識,加快了搜索的速度;檢索結(jié)果聚類:可以將檢索結(jié)果文檔集合聚集成若干個類,使用滾迅速定位到所需要的信息。信息組織:文檔集聚類:提供一種組織文檔集合的方法,以便于有效地進行信息的展示(如:信息過濾、信息主動推薦等);生成分類體系:可以作為一種文本分類的輔助技術(shù),即使用聚類技術(shù)可以生成用于文本自動分類的分類體系表。三、文本表示與相關(guān)矩陣計算

20世紀60年代末期,GerardSalton(現(xiàn)代信息檢索的奠基人),SMART系統(tǒng)。向量空間檢索模型:VectorSpaceModel,簡稱VSM

向量空間模型是用提問詞和標引詞的向量空間來表示用戶的查詢要求和文檔信息,根據(jù)向量空間的相似度,排列查詢結(jié)果。向量空間方法的基本思想要點是:(1)文檔D用標引詞的向量表示;(2)查詢Q用提問詞的向量表示;(3)匹配方法:計算文檔向量和查詢向量之間的相似度;三、文本表示與相關(guān)矩陣計算1.文檔向量的構(gòu)造考慮到一個有n個記錄(文獻)的集合:D={d1,d2,……dn}

對一條屬于該集合的特定的文檔記錄di,可以用屬性向量把它表示成:di=(ti1,ti2,……tim)di就稱為文檔向量,其中:m:用于描述這些記錄的屬性的個數(shù),一般情況下,該屬性為主題詞;tij:表示文獻di中具有屬性tj(j=1,2,……m)的程度。把這種程度用數(shù)值的形式表示出來,就是人們常說的“加權(quán)”。最簡單的情況:若文獻di具有屬性tj,則tij=1;否則tij=0。我們稱向量di=(ti1,ti2……tim)為文檔向量。三、文本表示與相關(guān)矩陣計算1.文檔向量的構(gòu)造

cij的取值如前所述,可以簡單地用1、0來表示,也可以用〔1,0〕之間的數(shù)來表示。需要注意的是,如果是后者的話,一般應(yīng)該有:三、文本表示與相關(guān)矩陣計算2.相似度的計算量化地判斷系統(tǒng)文檔兩兩之間的相似程度文獻相關(guān)矩陣D較常采用的相似度計算指標是兩個向量夾角的余弦值:1)簡單匹配系數(shù):2)余弦系數(shù):三、文本表示與相關(guān)矩陣計算

文獻屬性相關(guān)矩陣

文獻相關(guān)矩陣:三、文本表示與相關(guān)矩陣計算文獻相關(guān)矩陣D:為了表示文獻之間的相關(guān)關(guān)系,分別計算C矩陣中第i行與第j行之間的相關(guān)系數(shù)dij,由〔dij〕構(gòu)成的一個n×n的矩陣就稱作文獻相關(guān)矩陣。當C矩陣中的值取1和0時,dij=k,說明這兩篇文獻中有k個相同的標引詞。矩陣中dij元可以理解成第i篇文獻與第j篇文獻包含的屬性詞的重復面的大小,dij越大,說明第i篇文獻與第j篇文獻包含的相同主題越多,因此兩篇文獻的相關(guān)程度也就越大。

三、文本表示與相關(guān)矩陣計算

2.相似度的計算在聚類分析中,對象相似性的指標大致可分為二類:距離指標:常用的距離指標有:絕對值距離、歐式距離和切比雪夫距離。相似系數(shù)。常用的相似性指標為:余弦系數(shù)、皮爾遜積差相關(guān)系數(shù)、重疊系數(shù)、雅克比系數(shù)等。四、等級聚類法和快速聚類法1等級聚類的概念等級聚類又稱為分層聚類、層次聚類、系統(tǒng)聚類、譜系聚類,是一種可以利用譜系結(jié)構(gòu)或樹狀結(jié)構(gòu)圖來描繪聚類過程的方法,也是進行聚類分析時應(yīng)用最多的方法。特別適用于對小樣本場合(樣本量在100以內(nèi)比較合適)。四、等級聚類法和快速聚類法1等級聚類的概念等級聚類可以分為分解法和凝聚法:分解法(Top-down):在聚類開始時,將所有的文獻都看成是一類,然后再根據(jù)距離或相似性,不斷進行分解,直到每篇文獻都自成一類為止。凝聚法(Bottom-up):聚類開始將每篇文獻看成一類,然后再根據(jù)距離或者相似性,不斷進行合并,直到將所有文獻都歸結(jié)為一類為止。四、等級聚類法和快速聚類法2凝聚法以凝聚法為例,分層聚類的主要步驟有:將每篇文獻視為一類,選擇度量距離的方法,計算點與點之間的距離,并將最近的兩篇文獻聚為一類;選擇計算類與類之間距離的方法,計算類與類之間的距離,并將最近的兩類進行合并;如果合并后的類數(shù)大于1,繼續(xù)進行類與類之間的合并,直到所有文獻合并為一類;繪制等級聚類的譜系圖,并根據(jù)研究目的、相關(guān)的專業(yè)理論等選擇確定最后的分類結(jié)果。上述整個合并的歷史是構(gòu)成一個二叉樹,四、等級聚類法和快速聚類法3類(簇)相似度的定義計算類與類之間的距離成為聚類法中的一個核心問題,常見的聚集方法有:最短距離法;最長距離法;中間距離法;組間平均距離法;重心法;組內(nèi)平均距離法;離差平方和法。四、等級聚類法和快速聚類法4、動態(tài)聚類動態(tài)聚類法又稱為:k-均值聚類、快速聚類。K—均值聚類是文本聚類的默認或基準算法。動態(tài)聚類的基本思想是:先對所要分類的事物作一個初始的分類,然后按照某種最優(yōu)的原則修改不合理的初始分類,直至分類被認為比較合理時為止,形成最終的聚類結(jié)果。處理流程圖如下:動態(tài)聚類流程圖算法開始確定聚類個數(shù)(凝聚點、質(zhì)心向量)將文檔分配給離它最近的質(zhì)心向量聚類合理聚類結(jié)果算法結(jié)束重新計算質(zhì)心向量YN例子6364例子:隨機選擇兩個種子(K=2)64例子:將文檔分配給離它最近的質(zhì)心向量(第一次)65例子:分配后的簇(第一次)66例子:重新計算質(zhì)心向量67例子:將文檔分配給離它最近的質(zhì)心向量(第二次)68例子:重新分配的結(jié)果69例子:重新計算質(zhì)心向量70例子:再重新分配(第三次)71例子:分配結(jié)果72例子:重新計算質(zhì)心向量73例子:再重新分配(第四次)74例子:分配結(jié)果75例子:重新計算質(zhì)心向量76例子:重新分配(第五次)77例子:分配結(jié)果78例子:重新計算質(zhì)心向量79例子:重新分配(第六次)80例子:分配結(jié)果81例子:重新計算質(zhì)心向量82例子:重新分配(第七次)83例子:分配結(jié)果84

例子:重新計算質(zhì)心向量85質(zhì)心向量和分配結(jié)果最終收斂86四、等級聚類法和快速聚類法4、動態(tài)聚類法優(yōu)點:動態(tài)聚類法具有方法簡單、計算量小、占用計算機內(nèi)存空間較少、聚類速度快等優(yōu)點,比較適用于大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論