版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Web搜索
郭軍
北京郵電大學(xué)
第2章文本檢索Web信息采集文本的保存與索引檢索模型網(wǎng)頁排序查詢重構(gòu)文本聚類文本分類特征選擇特征變換引言文本是最基本、同時也是最高級(抽象)的信息媒體文本檢索是Web搜索的起點也是重點文本檢索所涉及的問題Web信息的采集與組織文本的表示用戶查詢方法相關(guān)文檔排序文本聚類文本分類Web信息采集Crawler/Spider:利用hyperlink自動獲取網(wǎng)頁的URL利用HTTP進行網(wǎng)絡(luò)編程自動下載網(wǎng)頁Crawler的基本原理網(wǎng)頁采集過程是一個從WWW的某網(wǎng)頁出發(fā)不斷向前漫游的過程漫游的方向和路線是隨機的為了將隨機漫游變成有序的向外擴展,必須對其進行有效地控制Crawler的工作進程Crawler的工作效率多線程Crawler分布式Crawler:通過分散在不同地點的服務(wù)器實現(xiàn)Crawler的難題前沿URL的選擇廣度優(yōu)先/深度優(yōu)先?優(yōu)質(zhì)網(wǎng)頁優(yōu)先?無效URL問題同一網(wǎng)頁的多重訪問問題網(wǎng)頁的再訪問周期問題流行度高的網(wǎng)頁給予高頻訪問基于鏈接分析判斷網(wǎng)頁的活躍度文本的預(yù)處理與保存預(yù)處理網(wǎng)頁去重:基于消息摘要/鏈接結(jié)構(gòu)網(wǎng)頁解析:HTML/XML文檔的解析,取出其中的元數(shù)據(jù)、超鏈接、標題和文本內(nèi)容文本的保存文本通常以壓縮的形式保存網(wǎng)頁平均長度為10KB,壓縮后為2-4KB通用文件系統(tǒng)的存儲塊尺寸為4-8KB網(wǎng)頁存儲通常采用專門開發(fā)的文件系統(tǒng)大型商用搜索引擎需要在全球建立多個鏡像的文件系統(tǒng)骨干服務(wù)器文本的索引(1/2)建立索引就是制作標記來指示內(nèi)容的位置Web搜索通常情況下是全文搜索,即對網(wǎng)頁中包含的所有詞匯都建立索引倒排文件(invertedfile)詞匯表(vocabulary):文本中所有不同詞匯的集合位置表(occurrences):詞匯在文本中出現(xiàn)的地址列表(postinglist)、字地址、詞地址、文檔地址Heaps定律:v~O(Na
)a≈0.5Gb級文本、Mb級詞匯查詢步驟:查詢詞匯表位置表文檔或段落文本的索引(2/2)倒排索引的更新—批量更新主索引+新索引(stop-pressindex)新索引(d,t,s)三元組倒排(t,d,s)對一個用戶的查詢,主索引反饋文檔集D0,新索引返回文檔集D+和D-,返回給用戶D0∪D+\D-索引壓縮文檔的標識符壓縮:delta編碼索引詞的選取詞標識、去停詞(stopword)、詞干化(stemming)檢索模型文本檢索的本質(zhì)問題:用戶需求文本集中最相關(guān)(最切題)的文檔需解決的3個基本問題用戶如何提出需求簡單、便捷,關(guān)鍵詞的方式相關(guān)文檔如何定義和計算語法層相關(guān)/語義層相關(guān)檢索結(jié)果如何反饋URL地址清單段落檢索QABoolean模型查詢:由關(guān)鍵詞及邏輯關(guān)系符構(gòu)成的Boolean表達式文檔:索引詞的集合查詢與文檔相關(guān)的定義:索引詞的集合是否滿足查詢Boolean表達式二元決策,無相關(guān)程度的度量人們常常不容易用Boolean表達式描述查詢用戶往往只是同時輸入多個關(guān)鍵詞,隱含地應(yīng)用“與”邏輯VSM用索引詞出現(xiàn)的絕對或相對頻度來表達文檔和查詢所有m個不同的索引詞構(gòu)成m維的特征向量文檔dj的特征向量dj=[w1j,w2j,…,wmj]查詢q的特征向量q=[w1q,w2q,…,wmq]計算q和dj之間相關(guān)性或相似性有多種方法
相關(guān)性計算余弦相似度相關(guān)系數(shù)索引詞的權(quán)重TF:IDF:TF-IDF:查詢詞的權(quán)重:概率模型(1/2)給定一個用戶查詢q和一個文檔dj
,概率模型通過估計dj與q的相關(guān)的概率來判斷二者的相關(guān)性假設(shè)在所有文檔中存在一個對應(yīng)q的理想集合R,即R中的文檔都是q的相關(guān)文檔,R之外的文檔都是q的不相關(guān)文檔概率模型計算幾率比:P(djrelevanttoq)/P(djnon-relevanttoq)在概率模型中,索引詞的權(quán)重變量都是二值的,即wij
∈{0,1},wiq
∈{0,1}概率模型(2/2)取對數(shù)后簡化dj與q的相似性sim(dj,q)被定義為兩個概率的初始化
返回文檔集合V后的改進估計Bayesian推理網(wǎng)絡(luò)模型節(jié)點對應(yīng)文檔、檢索詞、概念、查詢等各類實體每個節(jié)點v都與一個隨機Boolean變量相聯(lián)系,給定父節(jié)點u1,…uk,P(v|u1,…uk)通常采用“或”邏輯,即只要有一個父節(jié)點的置信邏輯為“真”,則本節(jié)點就為“真”網(wǎng)頁排序基于文檔與查詢的相關(guān)性的排序基于網(wǎng)頁質(zhì)量的排序通過超鏈接分析來改進排序結(jié)果是Web文本檢索與數(shù)據(jù)庫文本檢索的一個十分重要的區(qū)別指向一個網(wǎng)頁的超鏈接的數(shù)量代表著網(wǎng)頁的流行度和質(zhì)量兩個網(wǎng)頁包含較多的相同的鏈接或被相同的網(wǎng)頁所指向常常意味著它們之間具有某種密切的關(guān)系PageRank模擬用戶在Web上可用Markov鏈建模的網(wǎng)頁瀏覽行為假設(shè)任意節(jié)點u對于節(jié)點v都有一條有向路徑,用戶以概率分布p0隨機地從一個節(jié)點出發(fā),pi為i時刻到達各節(jié)點的概率令Web鄰接矩陣(圖)為E,如果節(jié)點u和v之間存在超鏈接,則E(u,v)=1,否則為0(Nu是節(jié)點u的出度)令則p將收斂于LT的主特征向量PageRank的完善假設(shè)用戶在Web圖的每個節(jié)點上將進行兩種選擇以概率q隨機瀏覽Web上的任意一個網(wǎng)頁以概率1-q在所有的出鏈接中以均勻概率選擇一個,繼續(xù)前進則PageRank的近似解當N很大時,直接求解改進PageRank方程組是困難的簡單算法是先將p0的所有元素設(shè)為1/N,然后反復(fù)用因子(1-q)LT+q/N1N乘以pi,并將|pi|縮放至1。但此方法不能保證收斂。HITSHITS(HypertextInducedTopicSearch)與PageRank不同,是與查詢相關(guān)的網(wǎng)頁質(zhì)量評價算法收到查詢q后,系統(tǒng)返回一個網(wǎng)頁的集合RR中的任意節(jié)點(網(wǎng)頁)指向的節(jié)點和指向R中任意節(jié)點的節(jié)點構(gòu)成集合X,R與X共同構(gòu)成一個基本集合V構(gòu)造圖G
=(V,E),E為節(jié)點間的有向鏈接評價網(wǎng)頁的兩個測度:a(authority)和h(hub)賦初值a=h=1
迭代,
收斂后,a等于ETE的主特征向量
h等于EET的主特征向量查詢重構(gòu)用戶提出一個適當?shù)牟樵冋埱笸遣蝗菀椎目蓪⒂脩舻牡谝粋€查詢看作是初始的嘗試,通過對獲得的文檔的相關(guān)分析,對初始查詢進行重構(gòu)查詢重構(gòu)的三類方法基于用戶反饋信息的的方法基于對初始反饋文檔的局部分析的方法基于對全部文檔集合的全局分析的方法用戶相關(guān)反饋先將檢索出的文檔清單提交給用戶,用戶查閱后,對相關(guān)的文檔進行標記設(shè)D+為用戶標記的相關(guān)文檔的集合,D-為反饋文檔中非相關(guān)文檔的集合Rocchio公式α,β和γ都是可調(diào)參數(shù),簡單的設(shè)置是令它們都為1
在D-不好確定時,常令γ為0自動局部分析對于一個給定的查詢q,稱檢索出來的文檔集合Dl為局部文檔集合自動局部分析從Dl中查找查詢詞的近鄰詞近鄰的測度關(guān)聯(lián)度近鄰度間接相關(guān)度
或局部語境分析LCA基于由名詞詞組所構(gòu)成的“概念”進行查詢擴展概念的定義通?;谠~典進行步驟:1)將初始查詢檢索出的文檔分割成固定長度的段落,然后按與查詢的相關(guān)性對其排序,取出前n個2)計算各段落中每個概念c與查詢q之間的相似度sim(c,q)3)將相似度最大的前m個概念加到初始查詢之中關(guān)鍵是第二步,選擇一種合適的計算概念c和查詢q中包含的詞之間的相似度測度基于概念空間的全局分析尋找整個查詢的近鄰詞用文本集的所有N個文檔構(gòu)成一個概念空間,每個文檔是空間中的一個維度無論是檢索詞還是查詢,都被看作概念空間中的數(shù)據(jù)點,即概念,對于檢索詞ti(i=1,…,m),ti=(wi1,…,wiN),其中而查詢
通過計算q與各檢索詞的相關(guān)性進行查詢擴展基于同義詞辭典的全局分析辭典包含若干同義詞類每個類由通過文檔聚類算法獲得的若干檢索詞構(gòu)成采用全鏈接(completelink)的聚類算法,即類對之間的相似度被定義為所有文檔對的相似度的最小值Bottom-up的層次聚類通過設(shè)置以下參數(shù)進行同義詞類選擇Tsim:最小類內(nèi)相似度閾值Tnod:類內(nèi)最大文檔數(shù)閾值Tidf:倒文檔頻度閾值文本聚類在文本檢索中的作用非常廣泛和重要聚類一直是模式識別、機器學(xué)習、數(shù)據(jù)挖掘等領(lǐng)域中的一個重點課題無監(jiān)督學(xué)習(Unsupervisedlearning)目的是找到數(shù)據(jù)集合中潛在(latent)的聚合結(jié)構(gòu)兩大類聚類算法區(qū)分法(discriminativemethod)生成法(generativemethod)區(qū)分式聚類的基本思想給定一個(文檔)集合D={di|i=1,…,N}其中di=(di1,…,diM)為元素di的VSM定義sim(di,dj)為di和dj之間的相似度聚類問題可以定義為:將集合D劃分為k個子集D1,…Dk,使類內(nèi)的相似度總和S達到最大區(qū)分式聚類的方式區(qū)分性聚類也稱為分割聚類,核心操作是將集合中的元素排他式地劃歸到某個類中bottom-up方式初始將每個文檔作為一類,然后對最相似的類進行合并,直至類別數(shù)目或類內(nèi)相似度達到設(shè)定值top-down方式先將所有文檔放在一類,然后以增大類內(nèi)相似度為目標,對類進行分裂操作,直至類別數(shù)目或類內(nèi)相似度達到設(shè)定的閾值Bottom-up方式例Top-down方式例層次匯合聚類HAC算法1)令每個文檔d在一個單獨的組中,形成N個組nw2dagd2)令G為這N個組的集合3)while|G|>1do4)選擇u,v∈G,標準為合并它們將帶來最大的利益測度5)將u和v從G中移除6)令w=u∪v7)將w插入G8)endwhile隨著合并次數(shù)的增加,被合并類之間的相似度sim(u,v)會越來越低第4步的常用測度,S(w)的類內(nèi)相似度,w=u∪vk-means聚類給定數(shù)據(jù)集合{x1,…xN},每個數(shù)據(jù)是一個d維向量目標是把這個數(shù)據(jù)集合劃分為K個類(cluster)預(yù)設(shè)K個類的質(zhì)心μk(k=1,…,K)通過使下式最小化,迭代新質(zhì)心μk和類別歸屬rnkk-means聚類算法1)初始化k個組的質(zhì)心向量2)while
還可以繼續(xù)改進do3)
for
每個元素(文檔)d
do4)找出質(zhì)心向量與d最相似的組c5)將d調(diào)整到組c之中6)
endfor7)
for
每個組c
do8)重新計算質(zhì)心向量9)
endfor10)endwhile要點:預(yù)先確定類別數(shù)為k質(zhì)心與元素都用向量表示k-means聚類示意k-means聚類應(yīng)用軟k-means聚類硬k均值聚類:元素d要么屬于組c,要么不屬于組c,在計算質(zhì)心時,組內(nèi)所有元素都具有相同的權(quán)重軟k均值聚類:允許一個元素部分地分別屬于不同的組,但在計算組的質(zhì)心時各個元素的貢獻不同計算質(zhì)心的公式基于親和性消息的聚類在k均值聚類中,如果選用樣本數(shù)據(jù)為類中心,則稱為k中心法,稱被選為中心的數(shù)據(jù)為范例(exemplar),但初始范例選取困難基于消息傳播的聚類方法[Frey07]將所有樣本看作潛在范例,數(shù)據(jù)點通過已知的相似度被連成網(wǎng)絡(luò),相鄰節(jié)點通過反復(fù)地傳遞和修改兩個消息—responsibility和availability使范例涌現(xiàn)出來迭代更新a(i,k)和r(i,k)算法基于親和性消息的聚類算法1)輸入數(shù)據(jù)點間的相似度s(i,k),表示k作為i的范例的適當度2)為每個數(shù)據(jù)點輸入偏愛度s(k,k),該值越大k越可能為范例3)將所有可用性消息a(i,k)置為0,
a(i,k)是由k發(fā)給i的一個累積的“證據(jù)”,來證明k適合于作為i的范例4)更新依靠性消息r(i,k),這是由i發(fā)給候選范例k的(通過與其他候選范例比較的)一個累積的“證據(jù)”,證明k適于作為i的范例5)按如下規(guī)則分別更新可用性消息a(i,k)和a(k,k)6)對每個元素i計算
,如不滿足終止條件,轉(zhuǎn)4)繼續(xù)迭代生成式聚類每個文檔類別被看作對應(yīng)一個主題的文檔集合將文檔的產(chǎn)生看作隨機過程,每個主題類別有一個關(guān)于文檔的概率分布模型一個文檔應(yīng)該歸屬哪個類,決定于哪個類別的模型產(chǎn)生該文檔的概率最大關(guān)鍵是各個類別概率模型的估計二值概率模型文檔是二值元素的向量,每個元素對應(yīng)詞表W中的一個詞t假設(shè)詞的出現(xiàn)是相互獨立的事件,且只考慮詞是否出現(xiàn)而不管出現(xiàn)的次數(shù),則可得在概率參數(shù)集合Φ條件下文檔d生成的二值概率模型由于詞表中的詞數(shù)遠遠多于文檔中的詞數(shù),且的平均值低于0.5,使得該模型有利于短文本的生成,同時降低了實際出現(xiàn)可能性大的文檔的產(chǎn)生概率多值概率模型考慮詞在文檔中的出現(xiàn)次數(shù)假設(shè)文檔的總長度L符合一個概率分布P(l)文檔的產(chǎn)生過程是一個擲|W|個面的骰子的過程,每個面對應(yīng)詞表中的一個詞產(chǎn)生長度為ld的文檔的過程就等于投擲骰子ld次假設(shè)第t面出現(xiàn)了n(d,t)次,則文檔的生成概率概率模型的參數(shù)估計假設(shè)要處理的文檔集合共對應(yīng)m個話題,產(chǎn)生第i類話題的概率為αi,第i類話題中詞t的產(chǎn)生概率為θi,t將m類話題文檔的所有參數(shù)表示為:獲得多類模型的關(guān)鍵步驟是通過訓(xùn)練數(shù)據(jù)將模型中的參數(shù)估計出來,著名的EM算法可用來完成這個參數(shù)估計基于MLE準則的參數(shù)估計為了簡化描述,假設(shè)每個類別只有一個參數(shù)μi,即用x表示文檔,則其生成概率設(shè)有n個iid樣本構(gòu)成訓(xùn)練集合X={x1,…,xn},則可根據(jù)MLE準則通過對以下函數(shù)最大化來估計參數(shù)ΘEM算法(E步)EM算法的思想:初始值E步/M步迭代尋優(yōu)算法在不知各個樣本的類別Y={y1,…,yn}的情況下求解先對Θ給出初始“猜想”值Θ',令全數(shù)據(jù)似然度Q為X、Y和Θ'條件下logL的期望值
推導(dǎo)可得由于Q是Θ的對數(shù)似然度在Y的分布上獲得的期望,因此這一步被稱為E步EM算法(M步)怎樣才能在Θ'的基礎(chǔ)上獲得一個更好的Θ值呢,一種合理的方法是通過最大化Q來實現(xiàn),這一步被稱為M步Θ中包含α和μ兩類參數(shù),先以α為例介紹M步的更新算法因為有約束條件通過標準的Lagrange優(yōu)化,可得方程組
求解可得EM算法(M步)假設(shè)各類別的概率分布服從均值為μk的Poisson分布
Pr(x|μ)=e-μμx/x!求解可得文本分類分類是最基本最重要的智能活動之一模式識別系統(tǒng)的主要任務(wù)就是構(gòu)造性能優(yōu)良的分類器分類是靠有監(jiān)督的學(xué)習實現(xiàn)的,即通過有類別標注的樣本對分類器進行訓(xùn)練在Web搜索中的應(yīng)用網(wǎng)頁及文檔分類Spam檢測情感分類在線廣告
k-NN分類器利用k個與未知樣本最接近的已知樣本的類別來投票決定未知樣本的類別兩個步驟:尋找未知樣本的k個最近鄰(測度問題)利用k近鄰的類別對未知樣本的類別進行投票預(yù)測只需對訓(xùn)練樣本進行標注,不需要進行其他訓(xùn)練參數(shù)k的選擇是最大問題計算和存儲開銷通常很大Bayes分類器基于Bayes規(guī)則的分類器,理論與應(yīng)用均非常重要假設(shè)每個文檔只屬于一個類別,并按如下條件建模每個類c都有一個先驗概率P(c)對于每個類c,存在似然度函數(shù)P(d|c)則,生成類c中的文檔d的概率等于P(d|c)P(c),而給定文檔d,類c的(后驗)概率樸素Bayes模型假設(shè)樣本的各維特征之間是相互獨立的應(yīng)用在文本分類中,假設(shè)詞匯之間相互獨立以二值文檔概率模型為例為簡化計算,將上式改寫為上式的第二個乘積與d無關(guān)可以預(yù)先計算利用樸素Bayes模型需進行參數(shù)平滑,以防零概率事件Bayes網(wǎng)絡(luò)P(d|c)不再是所有詞的概率乘積,而成為條件概率的乘積X表示節(jié)點,x表示其取值最大熵原理最大熵原理:當需要對事物進行預(yù)測時,所做的預(yù)測應(yīng)當滿足全部已知的條件,而對未知的情況不要做任何主觀假設(shè)(以保證概率分布的信息熵最大)假設(shè)有訓(xùn)練數(shù)據(jù){(di,ci),i=1,…,n}P(c|d)的最大熵模型通過一些反映已知條件的特征函數(shù)來建立。作為最基本的特征函數(shù),每個特征fj的期望為假設(shè)訓(xùn)練數(shù)據(jù)無重復(fù)文檔且每個文檔只有一個標簽,可獲得如下約束:最大熵分類器在滿足已知約束條件下利用最大熵原理求解P(c|d)利用Lagrange乘子法,為對應(yīng)每個特征的約束設(shè)一個Lagrange乘子λi,所有乘子構(gòu)成集合Λ,構(gòu)造函數(shù)通過最大化G,可獲得:區(qū)分式分類器區(qū)分式分類器不去探究概率分布P(c|d),而是直接將文檔特征向量映射為類別標簽例如,一種構(gòu)造區(qū)分式二元分類器的方法是:在特征空間中找到一個向量α,使得文檔d的類別標簽等于sgn(α·di+b)線性最小二乘回歸是獲得上述分類器參數(shù)α和b的有效方法它利用訓(xùn)練數(shù)據(jù){(di,ci),i=1,…,n},通過最小化類標簽預(yù)測的均方誤差求解參數(shù),即最小化誤差SVM基本思想是最大化分類面兩側(cè)的樣本距超平面的最小距離建立在統(tǒng)計學(xué)習的結(jié)構(gòu)風險最小化原則基礎(chǔ)上文檔向量空間中線性判別函數(shù)的一般形式為g(d)=α·d+b分類面方程為α·d+b=0將判別函數(shù)歸一化,即使離分類面最近的樣本的|g(d)|=1,則分類間隔等于2/‖α‖SVM的優(yōu)化目標使間隔最大等價于使‖α‖最小而要求H對所有樣本正確分類,應(yīng)使引入正的松弛因子ξi允許錯分樣本的存在,則從而,尋找最優(yōu)分類面問題可表示為如下二次優(yōu)化問題SVM的求解利用Lagrange優(yōu)化方法,可將上式的優(yōu)化問題轉(zhuǎn)化為如下對偶問題上式的解中,只有少數(shù)λi不為零,它們所對應(yīng)的樣本就是支持向量,分類閾值b*可利用最優(yōu)分類面方程通過兩類中任意一對支持向量求得最終,文檔d的最優(yōu)分類函數(shù)為非線性SVM對于非線性可分的情況,可以用一個非線性映射Φ將樣本映射到高維特征空間中,使之在高維空間中線性可分文本在高維空間的內(nèi)積為Φ(di)·Φ(dj)問題是能否找到函數(shù)K,使得K(di,dj)=Φ(di)·Φ(dj),K被稱為核函數(shù)有了核函數(shù),非線性SVM的求解就變成最優(yōu)分類函數(shù)變?yōu)槌S煤撕瘮?shù)多項式核函數(shù)徑向基函數(shù)Sigmoid函數(shù)特征選擇文本聚類和文本分類都以詞作為基本特征來描述文檔高維文檔特征不僅帶來高額的運算開銷,而且會產(chǎn)生由訓(xùn)練樣本不足所導(dǎo)致的模型不可靠或失效的問題特征降維非常重要,特征選擇是方法之一兩類特征選擇算法包含算法:從空集開始選擇越來越多好的特征,直到適當為止排除算法:從初始特征集開始逐步排除差的特征,直到適當為止包含算法算法1)對每個詞,計算其類區(qū)分性測度2)按區(qū)分性測度對詞進行降序排序3)保留最好的n個詞作為特征用于表達文檔各個詞的類區(qū)分性一般是獨立計算的,因此這類算法具有貪心(greedy)的特點區(qū)分性測度是關(guān)鍵常用測度包括χ2、互信息、Fisher鑒別指數(shù)等χ2測度以二類問題為例,設(shè)k00,k01分別為不包含/包含詞t的類0中文檔數(shù)k10
,k11分別為不包含/包含詞t的類1中文檔數(shù)n=k00+k01+k10+k11P(C=0)=(k00+k01)/n…定義χ2越大,類與詞之間的相關(guān)性也越大互信息通過互信息計算文檔類與詞之間的相關(guān)性互信息通過P(x,y)對P(x)P(y)的偏離程度對隨機變量之間的依賴程度進行測量如果隨機變量X和Y相互獨立,則對于所有的取值x和yP(x,y)/P(x)P(y)=1因此,定義互信息為Fisher鑒別以二類學(xué)習問題為例,令X和Y分別表示一類向量的集合。向量的元素可以是令向量長度歸一的實數(shù)Fisher鑒別在尋找一種映射α*,它使得X和Y兩個數(shù)據(jù)集被映射到二者質(zhì)心間的距離相對集合內(nèi)數(shù)據(jù)的展開幅度達到最大的方向上,即令S=(SX+SY)/2,當S-1存在時,α=S-1(μX-μY)是一個解
Fisher鑒別指數(shù)Fisher鑒別是一種變換,具有破壞特征稀疏性的特點將每個詞t都看作為一個候選的方向,即令
αt=(0,…,1,…,0)T,即1只在詞t的位置出現(xiàn),定義t的Fisher鑒別指數(shù)為由于αt的特殊形式,上式可簡化為
對于多類問題
排除算法排除算法從全部詞特征集T開始逐步對“無用”特征進行排除,直至獲得一個滿意的特征子集F排除算法的核心思想是盡量保持P(C
|T)與P(C|F)的相似性,因為分類與聚類可以基于類(C)的后驗概率分布來設(shè)計算法P(C
|T)與P(C|F)的相似性可用KL距離來度量排除算法如果P(P=p|Q=q,R=r)=P(P=p|R=r),則稱P在R條件下獨立于Q排除算法的核心是尋找類與特征之間的條件獨立關(guān)系排除算法復(fù)雜度高,優(yōu)點是考慮了特征之間的相關(guān)性特征維數(shù)確認Validation:取多少維特征最佳普通確認訓(xùn)練數(shù)據(jù)被分為兩部分,分別用于特征排序和測試交叉確認:留一法(Leave-One-Out)訓(xùn)練數(shù)據(jù)較少時使用每次留出一個樣本用于測試特征變換通過數(shù)學(xué)變換對原始特征進行不同的線性或非線性組合,從新產(chǎn)生的組合中挑選好特征本質(zhì)是不同域或空間之間的映射目的是找到能用更低維度“緊湊”地表達文檔數(shù)據(jù)的空間,同時,在新空間中,文檔之間仍然保持在原空間的親疏關(guān)系只要能起到特征降維和保持文檔之間原有距離的效果的各種數(shù)學(xué)變換都可應(yīng)用于文檔特征變換Fourier、Wavelet、PCA、LDA、流形分析在文本聚類和分類中,SOM和LSI具有典型意義SOM(Self-OrganizingMap)輸入數(shù)據(jù)并聯(lián)地饋入到一維或二維排列的神經(jīng)元陣列,將多維連續(xù)數(shù)據(jù)空間映射到一維或二維離散數(shù)據(jù)空間神經(jīng)元間的拓撲距離代表使其興奮
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位管理制度集合大全人員管理篇十篇
- 單位管理制度集粹選集人事管理篇十篇
- 單位管理制度匯編大全人員管理十篇
- 《語文作業(yè)要求》課件
- 單位管理制度分享合集職工管理十篇
- 單位管理制度分享大合集職工管理
- 單位管理制度范文大合集職員管理十篇
- 單位管理制度范例匯編員工管理十篇
- 單位管理制度呈現(xiàn)匯編【人力資源管理】十篇
- 單位管理制度呈現(xiàn)大全員工管理十篇
- 礦大畢業(yè)設(shè)計-固定式帶式輸送機設(shè)計
- 《膽囊結(jié)石的護理》PPT
- 安徽云帆藥業(yè)有限公司原料藥生產(chǎn)項目環(huán)境影響報告
- 藥品質(zhì)量受權(quán)人管理規(guī)程
- 校本課程之《紅樓夢詩詞曲賞析》教案
- 熱動復(fù)習題材料熱力學(xué)與動力學(xué)
- 馬工程-公共財政概論-課程教案
- GB/T 38058-2019民用多旋翼無人機系統(tǒng)試驗方法
- GB/T 30902-2014無機化工產(chǎn)品雜質(zhì)元素的測定電感耦合等離子體發(fā)射光譜法(ICP-OES)
- GB/T 22638.2-2016鋁箔試驗方法第2部分:針孔的檢測
- GB/T 13275-1991一般用途離心通風機技術(shù)條件
評論
0/150
提交評論