相像度測(cè)度總結(jié)匯總_第1頁
相像度測(cè)度總結(jié)匯總_第2頁
相像度測(cè)度總結(jié)匯總_第3頁
相像度測(cè)度總結(jié)匯總_第4頁
相像度測(cè)度總結(jié)匯總_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本文格式為Word版,下載可任意編輯——相像度測(cè)度總結(jié)匯總1相像度文獻(xiàn)總結(jié)

相像度有兩種基本類別:

(1)客觀相像度,即對(duì)象之間的相像度是對(duì)象的多維特征之間的某種函數(shù)關(guān)系,譬如對(duì)象之間的歐氏距離;(2)主觀相像度,即相像度是人對(duì)研究對(duì)象的認(rèn)知關(guān)系,換句話說,相像度是主觀認(rèn)知的結(jié)果,它取決于人及其所處的環(huán)境,主觀相像度符合人眼視覺需求,帶有一定的模糊性[13]。

1.1客觀相像度

客觀相像度可分為距離測(cè)度、相像測(cè)度、匹配測(cè)度。它們都是衡量?jī)蓪?duì)象客觀上的相近程度。客觀相像度滿足下面的公理,假設(shè)對(duì)象A與B的相像度判別為?(A,B),有:

(1)自相像度是一個(gè)常量:所有對(duì)象的自相像度是一個(gè)常數(shù),尋常為1,即

?(A,A)??(B,B)?1

(2)極大性:所有對(duì)象的自相像度均大于它與其他對(duì)象間的相像度,即

?(A,B)??(A,A)和?(A,B)??(B,B)。

(3)對(duì)稱性:兩個(gè)對(duì)象間的相像度是對(duì)稱的,即?(A,B)??(B,A)。(4)唯一性:?(A,B)?1,當(dāng)且僅當(dāng)A?B。

1.1.1距離測(cè)度

這類測(cè)度以兩個(gè)矢量矢端的距離為基礎(chǔ),因此距離測(cè)度值是兩矢量各相應(yīng)分量之差的函數(shù)。設(shè)x??x1,x2,?,xn?,y??y1,y2,?,yn?表示兩個(gè)矢量,計(jì)算二者之間距離測(cè)度的具體方式有多種,最常用的有:

''1.1.1.1歐氏距離:EuclideanDistance-basedSimilarity

最初用于計(jì)算歐幾里德空間中兩個(gè)點(diǎn)的距離,假設(shè)x,y是n維空間的兩個(gè)點(diǎn),它們之間的歐幾里德距離是:

?n?d(x,y)?x?y???(xi?yi)2??i?1?1/2(1.1)

當(dāng)x,y是兩個(gè)直方圖時(shí),該方法可稱為直方圖匹配法。

可以看出,當(dāng)n=2時(shí),歐幾里德距離就是平面上兩個(gè)點(diǎn)的距離。當(dāng)用歐幾里德距離表示相像度,一般采用以下公式進(jìn)行轉(zhuǎn)換:距離越小,相像度越大。

(1.2)

范圍:[0,1],值越大,說明d越小,也就是距離越近,則相像度越大。

說明:由于特征分量的量綱不一致,尋常需要先對(duì)各分量進(jìn)行標(biāo)準(zhǔn)化,使其與單位無關(guān)。歐氏距離能夠表達(dá)個(gè)體數(shù)值特征的絕對(duì)差異,所以更多的用于需要從維度的數(shù)值大小中表達(dá)差異的分析。

優(yōu)點(diǎn):簡(jiǎn)單,應(yīng)用廣泛

缺點(diǎn):沒有考慮分量之間的相關(guān)性,表達(dá)單一特征的多個(gè)分量會(huì)干擾結(jié)果

1.1.1.2曼哈頓距離,絕對(duì)值距離(鄰居距離或Manhattan距離):

原理:曼哈頓距離來源于城市區(qū)塊距離,是將多個(gè)維度上的距離進(jìn)行求和后的結(jié)果。同歐式距離相像,都是用于多維數(shù)據(jù)空間距離的測(cè)度

范圍:[0,1],同歐式距離一致,值越小,說明距離值越大,相像度越大。說明:比歐式距離計(jì)算量少,性能相對(duì)高。

d(x,y)??xi?yi(1.3)

i?1n1.1.1.3切氏(Chebyshev)距離(棋盤距離/切比雪夫距離):

切比雪夫距離起源于國際象棋中國王的走法,我們知道國際象棋國王每次只能往周邊的8格中走一步,那么從棋盤中A格(x1,y1)走到B格(x2,y2)最少需要走幾步?

d(x,y)?maxxi?yi(1.3)

i1.1.1.4明氏(Minkowski)距離/閔可夫斯基距離:

?n?d(x,y)???(xi?yi)m??i?1?1/m

(1.4)

可以看出,(1.1)、(1.2)、(1.3)式實(shí)際上是(1.4)式當(dāng)m?2,1,?的特別狀況。在實(shí)際中較多地使用歐氏距離。顯然,在觀測(cè)量的量綱取定的條件下,兩個(gè)矢量越相像,距離d(?)就越小,反之亦然。值得注意的是,在使用上述距離測(cè)度描述具體對(duì)象時(shí),量綱選取不同會(huì)改變某特

征的判斷依據(jù),即改變?cè)撎卣鲗?duì)判斷貢獻(xiàn)的大小,嚴(yán)重的可造成錯(cuò)誤分類。這是由于改變特征矢量某分量的量綱,進(jìn)行比較的兩個(gè)矢量的相應(yīng)的兩個(gè)分量的數(shù)值也將改變。若變小,則其相應(yīng)的特征在距離測(cè)度中“影響作用比重〞將變小,即根據(jù)其判斷分類的作用變小,反之將增大,這樣便不能很好地反映事實(shí)。馬氏(Mahalanobis)距離是不受量綱影響的。

1.1.1.5馬氏距離(Mahalanobis):

馬氏距離定義如下:

設(shè)n維矢量xi和xj是矢量集?x1,x2,?,xn?中的兩個(gè)矢量,它們的馬氏距離d定義為

d2(xi,xj)?(xi?yi)'V?1(xi?yi)(1.5)

1n1n'式中,V?(xi?x)(xi?x),x??xi。V的含義是這個(gè)矢量集的協(xié)方差矩陣的?n?1i?1ni?1統(tǒng)計(jì)量。適用場(chǎng)合:

1)度量?jī)蓚€(gè)聽從同一分布并且協(xié)方差矩陣為C的隨機(jī)變量X與Y的差異程度

2)度量X與某一類的均值向量的差異程度,判別樣本的歸屬,此時(shí)Y為類均值向量。優(yōu)點(diǎn):

1)獨(dú)立于分量量綱

2)排除了樣本之間的相關(guān)性影響

缺點(diǎn):不同的特征不能區(qū)別對(duì)待,可能浮夸弱特征

1.1.1.6漢明距離(HammingDistance)

在信息論中,兩個(gè)等長(zhǎng)字符串之間的漢明距離是兩個(gè)字符串對(duì)應(yīng)位置的不同字符的個(gè)數(shù)。換句話說,它就是將一個(gè)字符串變換成另一個(gè)字符串所需要替換的字符個(gè)數(shù)。例如:

1011101與1001001之間的漢明距離是2。2143896與2233796之間的漢明距離是3?!皌oned〞與“roses〞之間的漢明距離是3。

1.1.1.7巴氏距離(Bhattacharyya)

巴氏距離常用于計(jì)算直方圖間相像度,定義如下:

dBhattacharyya[x,y]??xi?yi(1.6)

i?1n其中,x、y為歸一化數(shù)據(jù)向量。Bhattacharyya系數(shù)取值在0~1之間,越靠近1,表示兩個(gè)模型之間相像度越高。假使,x、y向量未歸一化,則巴氏系數(shù)的計(jì)算定義為:

dBhattacharyya(x,y)?1??i?1nxi?yi?x??yii?1i?1nn(1.7)

i1.1.1.8Hausdorff距離:

Hausdorff距離(Hausdorffdistance,HD)是一種定義于兩個(gè)點(diǎn)集上的最大最小距離,是描述兩組點(diǎn)集之間的相像程度的一種量度,x、y之間的Hausdorff距離定義為:

H(x,y)?max(h(x,y),h(y,x))(1.8)

式中,h(x,y)?maxminxi?yj為x到y(tǒng)的有向Hausdorff距離;

xi?xyj?yh(y,x)?maxminxi?yj為y到x的有向Hausdorff距離;?為某種定義在點(diǎn)集x、y上

yj?yxi?x的距離范數(shù)。常用的是歐幾里得范數(shù)。

假使定義d??min??yi,d??min??xi(?表示空間中的任意點(diǎn))則Hausdorff

yi?yxi?x^^距離可定義為H(x,y)?max(maxdxi,maxdyi),這里稱d?,d?分別為點(diǎn)集y和點(diǎn)集x在空

xi?xyi?y^間中的變化距離。

由于Hausdorff距離是度量?jī)蓚€(gè)點(diǎn)集之間最不匹配點(diǎn)的距離,因此它對(duì)遠(yuǎn)離中心的噪聲、漏檢點(diǎn)都十分敏感,而這一點(diǎn),在提取圖像特征點(diǎn)集特征時(shí)使不可避免的。為了戰(zhàn)勝這個(gè)缺點(diǎn),需要對(duì)Hausdorff距離的定義進(jìn)行擴(kuò)展。

1.1.1.9改進(jìn)的部分Hausdorff距離:

為獲得確鑿的匹配結(jié)果,Sim提出了改進(jìn)的部分Hausdorff距離(LTS-HD),它是用距離序列的線性組合來定義的:

1khLTS(x,y)??minx?y(i)(1.9)

ki?1式中,k???f1?p??,p為x內(nèi)點(diǎn)的個(gè)數(shù),f1為一個(gè)屬于[0,1]的百分?jǐn)?shù)。把點(diǎn)集x中的所有

點(diǎn)到點(diǎn)集y的距離按由小到大的順序排列,將序號(hào)為1~k的k個(gè)距離求和,再求平均。所以,該匹配方法不僅能消除遠(yuǎn)離中心的錯(cuò)誤匹配點(diǎn)的影響,而且對(duì)零均值高斯噪聲的消除能力明顯。因襲,采用LTS-HD用于圖像特征點(diǎn)集的匹配,力求在所有可能的變換空間中尋覓圖像特征點(diǎn)集之間的最優(yōu)變換,以便通過使LTS-HD最小化來獲得最優(yōu)匹配結(jié)果。設(shè)g為變換空間T(尋常由旋轉(zhuǎn)矩陣R、平移變換向量t、尺度c等變換組成)中的一個(gè)變換,則最優(yōu)匹配變換g0滿足

Mg0(x,y)?minH(x,gy)(1.10)

g?T1.1.1.10相關(guān)度距離

常用于計(jì)算直方圖間相像度,定義如下:

dcorrel(x,y)??x?yii?1nni(1.8)

2i?xi?1?yi21.1.1.11卡方系數(shù)

常用于計(jì)算直方圖間相像度,定義如下:

(xi?yi)2(1.9)dChi?square(x,y)??x?yi?1iin(備注:引自《基于混合圖結(jié)構(gòu)的圖像相像度的研究_莊小芳》,2023年福建師范大學(xué)碩士

學(xué)位論文第一章,2.2節(jié))

1.1.1.12(未命名)

常用于計(jì)算直方圖間相像度,定義如下:

(1.11)

其中,N表示圖像顏色樣點(diǎn)空間,比起前面幾個(gè)計(jì)算公式,該式在給出圖像相像度的計(jì)算中更為直接,操作也更加簡(jiǎn)便。

(備注:引自《基于混合圖結(jié)構(gòu)的圖像相像度的研究_莊小芳》,2023年福建師范大學(xué)碩士學(xué)位論文第一章,2.2節(jié))

1.1.1.13直方圖相交距離

直方圖相交距離是常用于顏色特征相像性度量的一種方法,常用于計(jì)算直方圖間相像度。假使有兩幅圖像X和Y,則它們的相交距離定義式如下:

S(X,Y)??min(f(X),f(Y))iii?1N?f(Y)ii?1N(1.12)

1.1.2相像測(cè)度

這類測(cè)度是以兩矢量的方向是否相近作為考慮的基礎(chǔ),矢量長(zhǎng)度并不重要,同樣設(shè)

x??x1,x2,?,xn?,y??y1,y2,?,yn?。

''1.1.2.1角度相像系數(shù)(夾角余弦)

原理:多維空間兩點(diǎn)與所設(shè)定的點(diǎn)形成夾角的余弦值。

范圍:[-1,1],值越大,說明夾角越大,兩點(diǎn)相距就越遠(yuǎn),相像度就越小。

說明:在數(shù)學(xué)表達(dá)中,假使對(duì)兩個(gè)項(xiàng)的屬性進(jìn)行了數(shù)據(jù)中心化,計(jì)算出來的余弦相像度和皮

爾森相像度是一樣的,所以皮爾森相像度值也是數(shù)據(jù)中心化后的余弦相像度。定義:矢量之間的相像度可用它們的夾角余弦來度量。兩個(gè)矢量x和y的夾角余弦定義如下:

x'yx'ycos(x,y)??1/2(1.6)''x?y??(xx)(yy)??與歐幾里德距離類似,基于余弦相像度的計(jì)算方法也是把特征點(diǎn)作為n-維坐標(biāo)系中的

一個(gè)點(diǎn),通過連接這個(gè)點(diǎn)與坐標(biāo)系的原點(diǎn)構(gòu)成一條直線(向量),兩個(gè)特征點(diǎn)之間的相像度值就是兩條直線(向量)間夾角的余弦值。由于連接代表特征點(diǎn)與原點(diǎn)的直線都會(huì)相交于原點(diǎn),夾角越小代表兩個(gè)特征越相像,夾角越大代表兩個(gè)特征的相像度越小。同時(shí)在三角系數(shù)中,角的余弦值是在[-1,1]之間的,0度角的余弦值是1,180角的余弦值是-1。借助三維坐標(biāo)系來看下歐氏距離和余弦相像度的區(qū)別:

從圖上可以看出距離度量衡量的是空間各點(diǎn)間的絕對(duì)距離,跟各個(gè)點(diǎn)所在的位置坐標(biāo)(即個(gè)體特征維度的數(shù)值)直接相關(guān);而余弦相像度衡量的是空間向量的夾角,更加的是表達(dá)在方向上的差異,而不是位置。假使保持A點(diǎn)的位置不變,B點(diǎn)朝原方向遠(yuǎn)離坐標(biāo)軸原點(diǎn),那么這個(gè)時(shí)候余弦相像度cos是保持不變的,由于夾角不變,而A、B兩點(diǎn)的距離顯然在發(fā)生改變,這就是歐氏距離和余弦相像度的不同之處。

應(yīng)用:Cosine相像度被廣泛應(yīng)用于計(jì)算文檔數(shù)據(jù)的相像度及數(shù)據(jù)挖掘類工作:特點(diǎn):余弦相像度用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小。相比距離度量,余弦相像度更加重視兩個(gè)向量在方向上的差異,而非距離或長(zhǎng)度上。它對(duì)于坐標(biāo)系的旋轉(zhuǎn)和尺度的縮放是不變的(因矢量的長(zhǎng)度已規(guī)格化),但對(duì)一般的線性變換和坐標(biāo)系的平移不具有不變性。

1.1.2.2調(diào)整余弦相像度——AdjustedCosineSimilarity

在余弦相像度的介紹中說到:余弦相像度更多的是從方向上區(qū)分差異,而對(duì)絕對(duì)的數(shù)值不敏感。因此沒法衡量每個(gè)維數(shù)值的差異,會(huì)導(dǎo)致這樣一個(gè)狀況:譬如用戶對(duì)內(nèi)容評(píng)分,5分制,X和Y兩個(gè)用戶對(duì)兩個(gè)內(nèi)容的評(píng)分分別為(1,2)和(4,5),使用余弦相像度得出的結(jié)果是0.98,兩者極為相像,但從評(píng)分上看X似乎不喜歡這兩個(gè)內(nèi)容,而Y比較喜歡,余弦相像度對(duì)數(shù)值的不敏感導(dǎo)致了結(jié)果的誤差,

需要修正這種不合理性,就出現(xiàn)了調(diào)整余弦相像度,即所有維度上的數(shù)值都減去一個(gè)均值,譬如X和Y的評(píng)分均值都是3,那么調(diào)整后為(-2,-1)和(1,2),再用余弦相像度計(jì)算,得到-0.8,相像度為負(fù)值并且差異不小,但顯然更加符合現(xiàn)實(shí)。

應(yīng)用:調(diào)整余弦相像度和弦相像度,皮爾遜相關(guān)系數(shù)在推薦系統(tǒng)中應(yīng)用較多。在基于項(xiàng)目的推薦中GroupLens有篇論文結(jié)果說明調(diào)整余弦相像度性能要由于余弦相像度和皮爾遜相關(guān)系數(shù)。

1.1.2.3相關(guān)系數(shù)

它實(shí)際上是數(shù)據(jù)中心化后的矢量夾角余弦。

r(x,y)?(x?x)'(y?y)?(x?x)(x?x)(y?y)(y?y)???''1/2(1.7)

此處將x,y視作兩個(gè)數(shù)據(jù)集的樣本,x和y分別是這兩個(gè)數(shù)據(jù)集的平均矢量。相關(guān)系數(shù)對(duì)于坐標(biāo)系的平移、旋轉(zhuǎn)和尺度縮放是不變的。

(備注:該節(jié)引自項(xiàng)德良,2023年國防科大碩士論文1.2節(jié)。)

1.1.2.4指數(shù)相像系數(shù)

指數(shù)相像系數(shù)定義如下:

?3(xi?yi)2?1n(1.8)e(x,y)??exp???2ni?1?i?4?2?i式中,為相應(yīng)分量的方差,n為矢量維數(shù)。它不受量綱變化的影響。從函數(shù)的構(gòu)造

上看屬于距離方式(類似于馬氏距離),但從測(cè)度值和相像關(guān)系看屬于相像測(cè)度。

(備注:該節(jié)引自項(xiàng)德良,2023年國防科大碩士論文1.2節(jié)。)

1.1.2.5對(duì)數(shù)似然相像度

TedDunning在1993年提出一種對(duì)數(shù)似然比的概念,主要應(yīng)用于自然文本語言庫中兩個(gè)詞的搭配關(guān)系問題。它是基于這樣一種思想,即統(tǒng)計(jì)假設(shè)可以確定一個(gè)空間的好多子空間,而這個(gè)空間是被統(tǒng)計(jì)模型的位置參數(shù)所描述。似然比檢驗(yàn)假設(shè)模型是已知的,但是模型的參數(shù)是未知的。

二項(xiàng)分布的對(duì)數(shù)似然比

對(duì)于二項(xiàng)分布的狀況,似然函數(shù)為

?n1??n2?H(p1,p2;k1,n1,k2,n2)?p1k1(1?p1)n1?k1??p1k2(1?p2)n2?k2??(1.1)

?k1??k2?式中:H——的統(tǒng)計(jì)模型,k1,n1,k2,n2——試驗(yàn)結(jié)果的參數(shù)。p1,p2——給定模型的參數(shù)。假設(shè)二項(xiàng)分布有一致的基本參數(shù)集合(p1,p2)p1?p2,那么對(duì)數(shù)似然比?就是

????maxpH(p,p;k1,n1,k2,n2)maxp1,p2H(p1,p2;k1,n1,k2,n2)(1.2)

式中:maxpH——當(dāng)p取得某值時(shí),統(tǒng)計(jì)模型H的最大值。

當(dāng)p1?k1kk?k,p2?2時(shí),分母取得最大值。當(dāng)p?12時(shí),分子取得最大值。n1n2n1?n2所以對(duì)數(shù)似然比簡(jiǎn)化為

??maxpL(p,k1,n1)L(p,k2,n2)maxp1,p2L(p1,k1,n1)L(p2,k2,n2)(1.3)

式中:L——二項(xiàng)分布,n——試驗(yàn)重復(fù)的次數(shù),p——某事發(fā)生的概率,k——該事件發(fā)生的次數(shù),L(p,k,n)?pk(1?p)n?k。

兩邊取對(duì)數(shù)可以將對(duì)數(shù)似然比的公式變形為:

?2log??2[logL(p1,k1,n1)?logL(p2,k2,n2)?logL(p,k1,n1)?logL(p,k2,n2)](1.4)

由于二項(xiàng)分布的對(duì)數(shù)似然比能夠合理的描述兩個(gè)事物的相像模型,所以常用對(duì)數(shù)似然比來計(jì)算兩個(gè)事物(用戶或物品)的相像度。對(duì)數(shù)似然相像度基于兩個(gè)用戶共同評(píng)估過的物品數(shù)目,但在給定物品總數(shù)和每個(gè)用戶評(píng)價(jià)的狀況下,其最終結(jié)果衡量的是兩個(gè)用戶有這么多共同物品的“不可能性〞,它是一種不考慮具體偏好值的方法。

譬如在用戶—物品偏好的二維矩陣中,我們可以將一個(gè)用戶對(duì)所有物品的偏好作為一個(gè)向量來計(jì)算用戶之間的相像度,或者將所有用戶對(duì)某個(gè)物品的偏好作為一個(gè)向量來計(jì)算物品之間的相像度。

備注:引自張明敏,張功萱《對(duì)數(shù)似然相像度算法的MapReduce并行化實(shí)現(xiàn)》《計(jì)算機(jī)工程與設(shè)計(jì)》2023,36卷,第5期。

1.1.2.6Levenshtein距離,又稱編輯距離

兩個(gè)字符串(鏈)的相像度可以用Levenshtein距離(Levenshteindistance)表示,該距離定義為將一個(gè)串變?yōu)榱硪粋€(gè)串所需的最小操作步數(shù),可能的操作有刪除、插入、替換[SchlesingerandHlavac,2023]。還可以給字符串元素變換賦一個(gè)變換代價(jià),從而使計(jì)算得到的相像度(距離)更靈活,更敏感。同樣的原理也可以用在圖相像度的計(jì)算上。下定義可能的結(jié)點(diǎn)和弧的變換(刪除、插入、替換、重新標(biāo)注)集合,再給每種變換賦一個(gè)變換代價(jià)。任一變換序列的代價(jià)用單個(gè)步驟代價(jià)的組合表示(類似代價(jià)步驟的和)。將一個(gè)圖變?yōu)榱硪粋€(gè)圖的所有變換集合中具有最小代價(jià)值的那個(gè)集合就定義了這兩幅圖間的距離[Niemann,1990]。

用途:常用于字符串距離,類似可用于計(jì)算圖的距離備注:引用于《圖像處理、分析與機(jī)器視覺(第三版)》MilanSonka,VaclavHlavac,RogerBoyle著,艾海舟,蘇延超譯P298,9.5.2圖的相像度

1.1.2.7統(tǒng)計(jì)相關(guān)系數(shù)--皮爾遜相關(guān)系數(shù)(PearsonCorrelation

Coefficient)

皮爾遜相關(guān)也稱積差相關(guān)(積矩相關(guān)),即相關(guān)分析中的相關(guān)系數(shù)r,分別對(duì)X與Y基于自身總體標(biāo)準(zhǔn)化后計(jì)算余弦向量的標(biāo)準(zhǔn)夾角。是英國統(tǒng)計(jì)學(xué)家皮爾遜于20世紀(jì)提出的一種計(jì)算直線相關(guān)的方法。皮爾遜相關(guān)系數(shù)一般用來反映兩個(gè)變量線性相關(guān)程度,它的取值在

[-1,+1]之間。相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)性越強(qiáng)。

假設(shè)有兩個(gè)變量X,Y,那么;兩個(gè)變量間的皮爾遜相關(guān)系數(shù)可以通過以下公式計(jì)算:

公式一:

?X,Y?cov(X,Y)?X?Y?E((X??X)(Y??Y))?X?Y?E(XY)?E(X)E(Y)E(X)?E(X)E(Y)?E(Y)2222

公式二:

?X,Y?公式三:

N?XY??X?YN?X?(?X)22N?Y?(?Y)22

?X,Y?公式四:

?(X?X)(Y?Y)?(X?X)(Y?Y)22?X,Y??XY???X2?(?X)N2X?YN(?Y)N2

?Y2?以上列出四個(gè)公式等價(jià),其中E是數(shù)學(xué)期望,cov表示方差,N表示變量取值的個(gè)數(shù)。適用范圍:當(dāng)兩個(gè)變量對(duì)的標(biāo)準(zhǔn)差都不為0時(shí),相關(guān)系數(shù)才有定義,皮爾遜系數(shù)適用于:

(1)兩個(gè)變量之間是線性關(guān)系,都是連續(xù)數(shù)據(jù)

(2)兩個(gè)變量的總體是正態(tài)分布,或接近正態(tài)的單峰分布(3)兩個(gè)變量的觀測(cè)值是成對(duì)的,每對(duì)觀測(cè)值之間相互獨(dú)立特點(diǎn):(1)當(dāng)兩個(gè)變量的線性關(guān)系加強(qiáng)時(shí),相關(guān)系數(shù)趨于1或-1;

(2)當(dāng)一個(gè)變量增大,另一個(gè)變量也增大時(shí),說明它們之間是正相關(guān)的,相關(guān)系數(shù)大于0;

(3)假使一個(gè)變量增大,另一個(gè)變量卻減小,說明它們之間是負(fù)相關(guān)的,相關(guān)系數(shù)小于0;

(4)假使相關(guān)系數(shù)等于0,說明它們之間不存在線性相關(guān)關(guān)系。

1.1.2.8統(tǒng)計(jì)相關(guān)系數(shù)--斯皮爾曼相關(guān)(Spearman秩相關(guān))系數(shù)

--SpearmanCorrelation

(1)簡(jiǎn)介

在統(tǒng)計(jì)學(xué)中,斯皮爾曼等級(jí)相關(guān)系數(shù)以CharlesSpearman命名,并經(jīng)常用希臘字母?表示其值。斯皮爾曼等級(jí)相關(guān)系數(shù)用來估計(jì)兩個(gè)變量X、Y之間的相關(guān)性,其中變量間的相關(guān)性可以用單調(diào)函數(shù)來描述。假使兩個(gè)變量取值的兩個(gè)集合中均不存在一致的兩個(gè)元素,那么,當(dāng)其中一個(gè)變量可以表示為另一個(gè)變量的很好的單調(diào)函數(shù)時(shí)(即兩個(gè)變量的變化趨勢(shì)一致),兩個(gè)變量之間的?可以達(dá)到+1或-1。

假設(shè)兩個(gè)隨機(jī)變量分別為X、Y(也可以看做是兩個(gè)集合),它們的元素個(gè)數(shù)均為N,兩個(gè)隨機(jī)變量取的第i個(gè)值分別用Xi、Yi表示。對(duì)X、Y進(jìn)行排序(同為升序或降序),得到兩個(gè)元素排行集合x、y,其中元素xi、yi分別為Xi在X中的排行以及Yi在Y中的排行。將集合x、y中的元素對(duì)應(yīng)相減得到一個(gè)排行差分集合d,其中di?xi?yi,1?i?N。隨機(jī)變量X、Y之間的斯皮爾曼等級(jí)相關(guān)系數(shù)可由x、y或d計(jì)算得到,其計(jì)算方式如下:公式一:由排行差分集合d計(jì)算而得():

??1?6?di2i?1nN(N2?1)

公式二:由排行集合x、y計(jì)算而得(斯皮爾曼等級(jí)相關(guān)系數(shù)同時(shí)也被認(rèn)為是經(jīng)過排行的兩個(gè)隨機(jī)變量的皮爾遜相關(guān)系數(shù),以下實(shí)際是計(jì)算x、y的皮爾遜相關(guān)系數(shù)):

???(x?x)(yii?1n2nii?1i?1ni?y)2?y)i?(x?x)?(y變量Xi10.21.31.310以下是一個(gè)計(jì)算集合中元素排行的例子(僅適用于斯皮爾曼等級(jí)相關(guān)系數(shù)的計(jì)算)

元素的位置(依降序排列)54321變量的排行(xi)45(2+3)/2=2.5(2+3)/2=2.51這里需要注意:當(dāng)變量的兩個(gè)值一致時(shí),它們的排行是通過對(duì)它們的位置進(jìn)行平均得到的。(2)適用范圍

斯皮爾曼等級(jí)相關(guān)系數(shù)對(duì)數(shù)據(jù)條件的要求沒有皮爾遜相關(guān)系數(shù)嚴(yán)格,只要兩個(gè)變量的觀測(cè)值是成對(duì)的等級(jí)評(píng)定資料,或者是由連續(xù)變量觀測(cè)資料轉(zhuǎn)化得到的等級(jí)資料,不管兩個(gè)變量的整體分布形態(tài)、樣本容量的大小如何,都可以用斯皮爾曼等級(jí)相關(guān)系數(shù)來進(jìn)行研究。

原理:Spearman秩相關(guān)系數(shù)尋常被認(rèn)為是排列后的變量之間的Pearson線性相關(guān)系數(shù)。

(3)取值范圍:{-1.0,1.0},當(dāng)一致時(shí)為1.0,不一致時(shí)為-1.0。

(4)說明:計(jì)算十分慢,有大量排序。針對(duì)推薦系統(tǒng)中的數(shù)據(jù)集來講,用Spearman秩相關(guān)

系數(shù)作為相像度量是不適合的。一般用于學(xué)術(shù)研究或者是小規(guī)模的計(jì)算。(5)Spearman相關(guān)系數(shù)的特點(diǎn):

Spearman相關(guān)是根據(jù)等級(jí)資料研究?jī)蓚€(gè)變量間相關(guān)關(guān)系的方法。它是依據(jù)兩列成對(duì)等級(jí)的各對(duì)等級(jí)數(shù)之差來進(jìn)行計(jì)算的,所以又稱為“等級(jí)差數(shù)法〞

1,Spearman相關(guān)系數(shù)對(duì)原始變量的分布不做要求,屬于非參數(shù)統(tǒng)計(jì)方法。因此

它的適用范圍比Pearson相關(guān)系數(shù)要廣的多。即使原始數(shù)據(jù)是等級(jí)資料也可以

計(jì)算Spearman相關(guān)系數(shù)。對(duì)于聽從Pearson相關(guān)系數(shù)的數(shù)據(jù)也可以計(jì)算Spearman相關(guān)系數(shù),

2,統(tǒng)計(jì)效能比Pearson相關(guān)系數(shù)要低一些(不簡(jiǎn)單檢測(cè)出兩者事實(shí)上存在的相關(guān)

關(guān)系)。

3,spearman只要兩個(gè)變量的觀測(cè)值是成對(duì)的等級(jí)評(píng)定資料,或者是由連續(xù)變量觀

測(cè)資料轉(zhuǎn)化得到的等級(jí)資料,不管兩個(gè)變量的總體分布形態(tài)、樣本容量的大小如何,都可以用斯皮爾曼等級(jí)相關(guān)來進(jìn)行研究。

注:spearman與pearson:

1.連續(xù)數(shù)據(jù),正態(tài)分布,線性關(guān)系,用pearson相關(guān)系數(shù)是最恰當(dāng),當(dāng)然用spearman相關(guān)系數(shù)也可以,就是效率沒有pearson相關(guān)系數(shù)高。

2.上述任一條件不滿足,就用spearman相關(guān)系數(shù),不能用pearson相關(guān)系數(shù)。3.兩個(gè)定序測(cè)量數(shù)據(jù)之間也用spearman相關(guān)系數(shù),不能用pearson相關(guān)系數(shù)。

4.只要在X和Y具有單調(diào)的函數(shù)關(guān)系的關(guān)系,那么X和Y就是完全Spearman相關(guān)的,這與Pearson相關(guān)性不同,后者只有在變量之間具有線性關(guān)系時(shí)才是完全相關(guān)的。

1.1.2.9統(tǒng)計(jì)相關(guān)系數(shù)--KendallRank(肯德爾等級(jí))相關(guān)系數(shù)

(1)簡(jiǎn)介

在統(tǒng)計(jì)學(xué)中,肯德爾相關(guān)系數(shù)是以MauriceKendall命名的,并經(jīng)常用希臘字母?(tau)表示其值??系聽栂嚓P(guān)系數(shù)是一個(gè)用來測(cè)量?jī)蓚€(gè)隨機(jī)變量相關(guān)性的統(tǒng)計(jì)值。一個(gè)肯德爾檢驗(yàn)是一個(gè)無參假設(shè)檢驗(yàn),它使用計(jì)算而得的相關(guān)系數(shù)去檢驗(yàn)兩個(gè)隨機(jī)變量的統(tǒng)計(jì)依靠性??系聽栂嚓P(guān)系數(shù)的取值范圍在-1到1之間,當(dāng)?為1時(shí),表示兩個(gè)隨機(jī)變量擁有一致的等級(jí)相關(guān)性,當(dāng)?為-1時(shí),表示兩個(gè)隨機(jī)變量擁有完全相反的等級(jí)相關(guān)性,當(dāng)?為0時(shí),表示兩個(gè)隨機(jī)變量是相互獨(dú)立的。

假設(shè)兩個(gè)隨機(jī)變量分別為X、Y(也可以看做是兩個(gè)集合),它們的元素個(gè)數(shù)均為N,兩個(gè)隨機(jī)變量取的第i個(gè)值分別用Xi、Yi表示。X、Y中的對(duì)應(yīng)元素組成一個(gè)元素對(duì)集合

XY,其包含的元素為(Xi,Yi)。當(dāng)集合XY中任意兩個(gè)元素(Xi,Yi)與(Xj,Yj)的排行一致

時(shí)(也就是說當(dāng)出現(xiàn)狀況1或2時(shí);狀況1:Xi?Xj且Yi?Yj,狀況2:Xi?Xj且Yi?Yj),這兩個(gè)元素就被認(rèn)為是一致的。當(dāng)出現(xiàn)狀況3或4時(shí)(狀況3:Xi?Xj且Yi?Yj,狀況4:,這兩個(gè)元素就被認(rèn)為是不一致的。當(dāng)出現(xiàn)狀況5或6時(shí)(狀況5:Xi?Xj,Xi?Xj且Yi?Yj)

狀況6:Yi?Yj),這兩個(gè)元素既不是一致也不是不一致的。

這里有三個(gè)公式計(jì)算肯德爾相關(guān)系數(shù)的值:公式一:

??a?C?D1N(N?1)2

其中C表示XY中擁有一致性的元素對(duì)數(shù)(兩個(gè)元素為一對(duì)),D表示XY中擁有不一致

性的元素對(duì)數(shù)。

注意:這一公式僅適用于集合X與Y中不存在一致元素的狀況(集合中各個(gè)元素唯一)公式二:

??b?C?D(N3?N1)(N3?N2)注意:這一公式適用于集合X或Y中存在一致元素的狀況(當(dāng)然,假使X或Y中均不存在一致的元素時(shí),公式二便等同于公式一)。

其中C、D與公式一一致;

ss111N3?N(N?1);N1??Ui(Ui?1);N2??Vi(Vi?1)

2i?12i?12N1、N2分別是針對(duì)集合X、Y計(jì)算的,現(xiàn)在以計(jì)算N1為例,給出N1的由來(N2的計(jì)

算可以類推):

將X中的一致元素分別組合成小集合,s表示集合X中擁有的小集合數(shù)(例如X包含元素:1234332,那么這里得到的s則為2,由于只有2、3有一致的元素),Ui表示第i個(gè)小集合所包含的元素?cái)?shù)。N2在集合Y的基礎(chǔ)上計(jì)算而得。

公式三:

??c?C?D

12M?1N2M注意:這一公式中沒有再考慮集合X、或者Y中存在一致元素給最終的統(tǒng)計(jì)值帶來的

影響。公式三的這一計(jì)算形式僅適用于用表格表示的隨機(jī)變量X、Y之間相關(guān)系數(shù)的計(jì)算(下面會(huì)介紹),參數(shù)M稍后會(huì)做介紹。

以上都是圍繞用集合表示的隨機(jī)變量而計(jì)算肯德爾相關(guān)系數(shù)的,下面所講的則是圍繞用表格表示的隨機(jī)變量而計(jì)算肯德爾相關(guān)系數(shù)的。

尋常人們會(huì)將兩個(gè)隨機(jī)變量的取值制作成一個(gè)表格,例如有10個(gè)樣本,對(duì)每個(gè)樣本進(jìn)行兩項(xiàng)指標(biāo)些事X、Y(指標(biāo)X、Y的取值均為1到3)。根據(jù)樣本的X、Y指標(biāo)取值,得到以下二維表格(表1):

表123SumX1Y123sum11022215012334310由表1可以得到X及Y的可以以集合的形式表示為:

X?{11,,2,2,2,2,2,3,3,3};Y?{1,2,11,,2,2,3,2,3,3};

得到X、Y的集合形式后就可以使用以上的公式一或公式二計(jì)算X、Y的肯德爾相關(guān)

系數(shù)了(注意公式一、公式二的適用條件)

當(dāng)然假使給定X、Y的集合形式,那么也是很簡(jiǎn)單得到它們的表格形式的。這里需要注意的是:公式二也可以用來計(jì)算表格形式表示的二維變量的肯德爾相關(guān)系是,不過它一般用來計(jì)算由正方形表格表示的二維變量的肯德爾相關(guān)系數(shù),公式三則只是用來計(jì)算由長(zhǎng)方形表格表示的二維變量的Kendall相關(guān)系數(shù)。這里給出公式三種字母M的含義,M表示長(zhǎng)方形表格中行數(shù)與列數(shù)中較小的一個(gè)。表1的行數(shù)及列數(shù)均為三。(2)適用范圍

肯德爾相關(guān)系數(shù)與斯皮爾曼相關(guān)系數(shù)對(duì)數(shù)據(jù)的條件要求一致。

1.1.2.10Tanimoto系數(shù)(TanimotoCoefficient)

Tanimoto系數(shù)也稱為廣義Jaccard系數(shù),是Cosine相像度的擴(kuò)展,尋常應(yīng)用于x、y為布爾向量,即各分量只取0或1的時(shí)候,此時(shí)表示的是x、y的公共特征占x、y具有的所有特征的比例。其實(shí)質(zhì)就是集合交集與并集的比。也多用于計(jì)算文檔數(shù)據(jù)的相像度,或兩個(gè)集合之間的相像程度。

范圍:[0,1],越接近1說明越相像。

1.1.2.11Jaccard系數(shù)

Jaccard系數(shù)主要用于計(jì)算符號(hào)度量或布爾值度量的個(gè)體間的相像度,由于個(gè)體的特征屬性都是由符號(hào)度量或者布爾值標(biāo)識(shí),因此無法衡量差異具體值的大小,只能獲得“是否一致〞這個(gè)結(jié)果,所以Jaccard系數(shù)只關(guān)心個(gè)體間共同具有的特征是否一致這個(gè)問題。假使比較

X與Y的Jaccard相像系數(shù),只比較xi和yi中一致的個(gè)數(shù),

公式如下:

也就是關(guān)聯(lián)的交集除以關(guān)聯(lián)的并集。

范圍:其值介于[0,1]之間,假使兩個(gè)個(gè)體間的特征完全一致,交集等于并集,值為1;假使沒有任何關(guān)聯(lián),交集為空,值為0。

1.1.3匹配測(cè)度

(備注:該節(jié)引自項(xiàng)德良,2023年國防科大碩士論文1.2節(jié)。)

這種測(cè)度常用于醫(yī)學(xué)和生物的分類中。在有些狀況下,特征只有兩個(gè)狀態(tài),對(duì)象或具有此特征或不具有此特征。此時(shí),若對(duì)象具有此特征,則相應(yīng)分量定義為1,而相應(yīng)分量為0表示對(duì)象無此特征,這就是所謂的二值特征。對(duì)于給定的二值特征矢量x和y中的某兩個(gè)相應(yīng)分量xi和yi,若xi?1和yi?1,則稱xi和yi是(1-1)匹配,若xi?1和yi?0,則稱xi和yi是(1-0)匹配;若xi?0和yi?1,則稱xi和yi是(0-1)匹配;若yi?0和xi?0,則稱xi和yi是(0-0)匹配,令

a??xiyib??yi(1?xi)

iic??xi(1?yi)d??(1?xi)(1?yi)(1.9)

ii則a等于兩矢量x和y的(1-1)匹配的特征的數(shù)目,b等于x和y的(0-1)匹配的特征的數(shù)目,c等于x和y的(1-0)匹配的特征的數(shù)目,e等于x和y的(0-0)匹配的特征的數(shù)目。對(duì)于二值n維特征矢量可定義如下相像性測(cè)度:

1.1.3.1Tanimoto測(cè)度

ax'y(1.10)s(x,y)??a?b?cx'x?y'y?x'y可以看出,s(x,y)等于x和y都具有的特征的數(shù)目與x和y分別具有的特征種類總數(shù)之比。這里只考慮(1-1)匹配而不考慮(0-0)匹配。

1.1.3.2Rao測(cè)度

ax'ys(x,y)??(1.11)

a?b?c?en上式等于(1-1)匹配特征數(shù)目和所選用的特征數(shù)目之比。

1.5.5小結(jié)

hash方法的相像度計(jì)算的主要應(yīng)用場(chǎng)景,一般是針對(duì)大規(guī)模數(shù)據(jù)進(jìn)行壓縮,在保證效果損失可接受的狀況下,節(jié)省存儲(chǔ)空間,加快運(yùn)算速度,針對(duì)該方法的應(yīng)用,在目前的大規(guī)模的互聯(lián)網(wǎng)處理中,好多相像度的計(jì)算都是基于這種近似性的計(jì)算,并取得了比較好的效果。設(shè)隨機(jī)排列為43201(edcab),對(duì)于C1列,第一次出現(xiàn)1的行是R4,所以h(C1)=3,同理有h(C2)=2,h(C3)=4,h(C4)=3。

通過屢屢抽取隨機(jī)排列得到n個(gè)minhash函數(shù)h1,h2,…,hn,依此對(duì)每一列都計(jì)算n個(gè)minhash值。對(duì)于兩個(gè)集合,看看n個(gè)值里面對(duì)應(yīng)相等的比例,即可估計(jì)出兩集合的Jaccard相像度??梢园衙總€(gè)集合的n個(gè)minhash值列為一列,得到一個(gè)n行C列的簽名矩陣。由于n可遠(yuǎn)小于R,這樣在壓縮了數(shù)據(jù)規(guī)模的同時(shí),并且仍能近似計(jì)算出相像度。

1.6基于主題的相像度計(jì)算

Bag-of-Words模型是NLP和IR領(lǐng)域中的一個(gè)基本假設(shè)。在這個(gè)模型中,一個(gè)文檔

(document)被表示為一組單詞(word/term)的無序組合,而忽略了語法或者詞序的部分。BOW在傳統(tǒng)NLP領(lǐng)域取得了巨大的成功,在計(jì)算機(jī)視覺領(lǐng)域(ComputerVision)也開始嶄露頭角,但在實(shí)際應(yīng)用過程中,它卻有一些不可避免的缺陷,譬如:

?稀疏性(Sparseness):對(duì)于大詞典,特別是包括了生僻字的詞典,文檔稀疏性不可避

免;

?多義詞(Polysem):一詞多義在文檔中是常見的現(xiàn)象,BOW模型只統(tǒng)計(jì)單詞出現(xiàn)的

次數(shù),而忽略了他們之間的區(qū)別;

?同義詞(Synonym):同樣的,在不同的文檔中,或者在一致的文檔中,可以有多個(gè)

單詞表示同一個(gè)意思;

從同義詞和多義詞問題我們可以看到,單詞可能不是文檔的最基本組成元素,在單詞與文檔之間還有一層隱含的關(guān)系,我們稱之為主題(Topic)。我們?cè)趯懳恼聲r(shí),首先想到的是文章的主題,然后才根據(jù)主題選擇適合的單詞來表達(dá)自己的觀點(diǎn)。主題的概念的引入,主要是在原有的基本特征粒度的基礎(chǔ)上,引入了更為豐富的隱含層特征,提高了相像性計(jì)算的效果,常用的主題分析方法包括LatentSemanticAnalysis(LSA)、ProbabilitisticLatentSemanticAnalysis(PLSA)、LatentDirichletAllocation(LDA)。這些方法在分類,聚類、檢索、推薦等領(lǐng)域都有著好多的應(yīng)用,并取得了比較好的效果。下面就LSA及PLSA方法進(jìn)行簡(jiǎn)要介紹。

1.6.1LSA(LatentSemanticAnalysis)簡(jiǎn)介

LSA的基本思想就是,將document從稀疏的高維Vocabulary空間映射到一個(gè)低維的向量空間,我們稱之為隱含語義空間(LatentSemanticSpace).

LSA最初是用在語義檢索上,為了解決一詞多義和一義多詞的問題:

1.一詞多義:美女和PPMM表示一致的含義,但是單純依靠檢索詞“美女〞來檢索文檔,很可能喪失掉那些包含“PPMM〞的文檔。

2.一義多詞:假使輸入檢索詞是多個(gè)檢索詞組成的一個(gè)小document,例如“清澈孩子〞,那我們就知道這段文字主要想表達(dá)concept是和道德相關(guān)的,不應(yīng)當(dāng)將“春天到了,小河多么的清澈〞這樣的文本包含在內(nèi)。

為了能夠解決這個(gè)問題,需要將詞語(term)中的concept提取出來,建立一個(gè)詞語和概念的關(guān)聯(lián)關(guān)系(t-crelationship),這樣一個(gè)文檔就能表示成為概念的向量。這樣輸入一段檢索詞之后,就可以先將檢索詞轉(zhuǎn)換為概念,再通過概念去匹配文檔。

LSA[6,7]模型認(rèn)為特征之間存在某種潛在的關(guān)聯(lián)結(jié)構(gòu),通過特征-對(duì)象矩陣進(jìn)行統(tǒng)計(jì)計(jì)算,將高維空間映射到低維的潛在語義結(jié)構(gòu)上,構(gòu)建出LSA空間模型,從而提取出潛在的語義結(jié)構(gòu),并用該結(jié)構(gòu)表示特征和對(duì)象,消除了詞匯之間的相關(guān)性影響,并降低了數(shù)據(jù)維度。加強(qiáng)了特征的魯棒性

LSA利用SVD分解的數(shù)學(xué)手段來進(jìn)行計(jì)算,數(shù)學(xué)過程可以表述如下:對(duì)于m?n的矩陣A,其中m為特征數(shù),n為樣本數(shù)。令

k??min(m,n),rank(A)?r,k?r,經(jīng)過奇異值分解,矩陣A可分解成3個(gè)矩陣的乘積:

A?U?Vt

其中,U、V是m?r和n?r的正交矩陣,分別稱為矩陣A的奇異值對(duì)應(yīng)的左、右奇異向量,

?是包含A所有奇異值的r?r的對(duì)角矩陣,稱為A的奇異標(biāo)準(zhǔn)形,其對(duì)角元素為矩陣A

的奇異值。奇異值依照遞減的排列構(gòu)成對(duì)角矩陣

?,取

?中前k個(gè)最大奇異值構(gòu)成

?k的,取U和V最前面的k列構(gòu)成m?k的Uk和n?k的Vk,構(gòu)建A的k-秩矩陣Ak(m?n)。(LSA降維的方式就是只取最大的K個(gè)奇異值,而其他置為0,于是得到了共生矩陣的近似。)

Ak?Uk?VkT

k其中,Uk和Vk中的行向量分別作為特征向量和對(duì)象向量,k是降維后的維數(shù)。

下圖形象的展示了LSA的過程:

LSA的優(yōu)點(diǎn)

?低維空間表示可以刻畫同義詞,同義詞會(huì)對(duì)應(yīng)著一致或相像的主題;?降維可去除部分噪聲,是特征更魯棒;?充分利用冗余數(shù)據(jù);?無監(jiān)視/完全自動(dòng)化;?與語言無關(guān);LSA的不足

?沒有刻畫term出現(xiàn)次數(shù)的概率模型;?無法解決多義詞的問題;

?SVD的優(yōu)化目標(biāo)基于L-2norm或者是FrobeniusNorm的,這相當(dāng)于隱含了對(duì)數(shù)據(jù)的高

斯噪聲假設(shè)。而term出現(xiàn)的次數(shù)是非負(fù)的,這明顯不符合Gaussian假設(shè),而更接近Multi-nomial分布;

?對(duì)于countvectors而言,歐式距離表達(dá)是不適合的(重建時(shí)會(huì)產(chǎn)生負(fù)數(shù));?特征向量的方向沒有對(duì)應(yīng)的物理解釋;

?SVD的計(jì)算繁雜度很高,而且當(dāng)有新的文檔來到時(shí),若要更新模型需重新訓(xùn)練;?維數(shù)的選擇是ad-hoc的;

1.6.2plas介紹

PLSA和LSA基礎(chǔ)思想是一致的,都是希望能從term中抽象出概念,但是具體實(shí)現(xiàn)的方法不一致。PLSA使用了概率模型,并且使用EM算法來估計(jì)P(t|c)和P(c|d)矩陣。PLSA[8,9]模型是由Hofmann提出的用于文本檢索的概率生成模型,與相比較于LSA,PLSA是基于概率模型的,并直接引入了潛在class變量z∈Z={Z1…Zk},下面的用文本處理語言來描述該模型。dzw圖4-1PLS模型選定一篇文檔的概率p(d),每篇文檔以概率p(z|d)屬于一個(gè)主題,而給定一個(gè)主題,每一個(gè)詞以概率p(w|z)產(chǎn)生。將這個(gè)過程形成聯(lián)合的概率模型表達(dá)式:p(d,w)?p(d)p(w|d)(7)

p(w|d)??z?Zp(w|z)p(z|d)(8)

則:

p(d,w)??z?Zp(z)p(w|z)p(d|z)(9)

在PLSA實(shí)際的使用過程中,存在著overfit的風(fēng)險(xiǎn),一般訓(xùn)練過程是通過EM算法,進(jìn)行模型參數(shù)訓(xùn)練,獲得p(z|d)、p(w|z)概率。

PLSA和其相關(guān)的變形,在分類、聚類、檢索等方面,特征相關(guān)性計(jì)算等方面,獲得了廣泛的應(yīng)用,并取得了比較好的效果。

pLSA的優(yōu)勢(shì)

?定義了概率模型,而且每個(gè)變量以及相應(yīng)的概率分布和條件概率分布都有明確的物

理解釋;

相比于LSA隱含了高斯分布假設(shè),pLSA隱含的Multi-nomial分布假設(shè)更符合文本特性;

?pLSA的優(yōu)化目標(biāo)是是KL-divergence最小,而不是依靠于最小均方誤差等準(zhǔn)則;?可以利用各種modelselection和complexitycontrol準(zhǔn)則來確定topic的維數(shù);pLSA的不足

?概率模型不夠完備:在document層面上沒有提供適合的概率模型,使得pLSA并不

是完備的生成式模型,而必需在確定documenti的狀況下才能對(duì)模型進(jìn)行隨機(jī)抽樣;?隨著document和term個(gè)數(shù)的增加,pLSA模型也線性增加,變得越來越巨大;?當(dāng)一個(gè)新的document來到時(shí),沒有一個(gè)好的方式得到$p(d_i)$;?EM算法需要反復(fù)的迭代,需要很大計(jì)算量;

?

針對(duì)pLSA的不足,研究者們又提出了各種各樣的topicbasedmodel,其中包括大名鼎鼎的LatentDirichletAllocation(LDA)。

1.6.3小結(jié)

主題方法的引入,在一定程度上彌補(bǔ)了BOW的假設(shè)的獨(dú)立性,在工業(yè)中,主題的方法也越來越多的應(yīng)用到實(shí)際的機(jī)器學(xué)習(xí)中,包括在圖像處理領(lǐng)域、傳統(tǒng)的分類、聚類、檢索等方面,都取得了比較好的效果。

相像度的計(jì)算在數(shù)據(jù)挖掘方面有著廣泛的應(yīng)用,根據(jù)不同的應(yīng)用場(chǎng)景,各種方法各有其優(yōu)劣特點(diǎn),對(duì)于相像度效果的影響,除了方法本身之外,合理有效的特征的選擇和使用也是至關(guān)重要的,同時(shí),根據(jù)應(yīng)用場(chǎng)景的不同,選擇合理的方法,對(duì)于解決問題,有著重要的作用。

1.7圖像相像度相關(guān)分類

1.7.1圖像相像度的概念

圖像相像度的概念可以總結(jié)如下

1-1.圖像的相像度取決于圖像上具體內(nèi)容的相像程度,如通過像素級(jí)比較或某些特定點(diǎn)的比較和分析得到相像度。

1-2.基于語義相像度的圖像相像度計(jì)算,通過圖像空間上下文和情景上下文的聯(lián)系,得到圖像的一些基本信息進(jìn)行比較,它是圖像目標(biāo)實(shí)體的高層聯(lián)系,抽象程度高,理論還不成熟。

1-3.計(jì)算將一個(gè)圖轉(zhuǎn)換成另一個(gè)圖的花費(fèi),即預(yù)先定義各種變換的操作集合,將兩個(gè)圖之間的最小變化步驟定義為兩圖的相像度,即圖像編輯距離。

1-4.將圖像結(jié)構(gòu)化,通過計(jì)算公式得出兩圖的最大公共子圖,該公共子圖能最大的表達(dá)兩個(gè)圖的共有信息,定義最大公共子圖為兩圖的相像度。

1-5.定義一個(gè)大圖可以同時(shí)包含兩個(gè)圖像,稱為兩圖的最大關(guān)聯(lián)圖,從關(guān)聯(lián)圖中獲得最大子團(tuán)表示兩圖的相像度。

1-6.將圖像分解成若干部分,分別計(jì)算各個(gè)部分的相像度,再綜合得到整個(gè)圖像的相像度。

1.7.2圖像相像度的分類

根據(jù)相像度計(jì)算參考的原理不同,可將圖像相像度算法分為三大類。1、基于像素灰度相關(guān)的相像度算法,如直方圖法等。2、基于圖像特征點(diǎn)的相像度算法:該算法抗干擾能力強(qiáng)。

3、基于特定理論的圖像相像度算法:這一類的算法在圖像拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上進(jìn)行,但沒有一個(gè)特定的定義。如基于相像度矩陣的算法,利用圖節(jié)點(diǎn)區(qū)域的相像度,迭代計(jì)算得出總體相像度;基于最大子圖或關(guān)聯(lián)圖的相像度算法等,這類算法因所處理的圖像類型的不同而各有優(yōu)劣,圖像拓?fù)浣Y(jié)構(gòu)作為圖像穩(wěn)定性特征之一,使得這類算法具有較好的魯棒性,關(guān)于這一方面的研究還仍有待繼續(xù)努力。

1.7.2.1直方圖匹配。

譬如有圖像A和圖像B,分別計(jì)算兩幅圖像的直方圖,HistA,HistB,然后計(jì)算兩個(gè)直方圖的歸一化相關(guān)系數(shù)(巴氏距離,直方圖相交距離)等等。

這種思想是基于簡(jiǎn)單的數(shù)學(xué)上的向量之間的差異來進(jìn)行圖像相像程度的度量,這種方法是目前用的比較多的一種方法,第一,直方圖能夠很好的歸一化,譬如尋常的256個(gè)bin條的。那么兩幅分辯率不同的圖像可以直接通過計(jì)算直方圖來計(jì)算相像度很便利。而且計(jì)算量比較小。

這種方法的缺點(diǎn):

1、直方圖反映的是圖像像素灰度值的概率分布,譬如灰度值為200的像素有多少個(gè),但是對(duì)于這些像素原來的位置在直方圖中并沒有表達(dá),所以圖像的骨架,也就是圖像內(nèi)部終究存在什么樣的物體,形狀是什么,每一塊的灰度分布式什么樣的這些在直方圖信息中是被省略掉得。那么造成的一個(gè)問題就是,譬如一個(gè)上黑下白的圖像和上白下黑的圖像其直方圖分布是一模一樣的,其相像度為100%。

2、兩幅圖像之間的距離度量,采用的是巴氏距離或者歸一化相關(guān)系數(shù),這種用分析數(shù)學(xué)向量的方法去分析圖像本身就是一個(gè)很不好的方法。

3、就信息量的道理來說,采用一個(gè)數(shù)值來判斷兩幅圖像的相像程度本身就是一個(gè)信息壓縮的過程,那么兩個(gè)256個(gè)元素的向量(假定直方圖有256個(gè)bin條)的距離用一個(gè)數(shù)值表示那么確定就會(huì)存在不確鑿性。

改進(jìn):

1,F(xiàn)ragTrack算法,其對(duì)圖像分成橫縱的小塊,然后對(duì)于每一個(gè)分塊探尋與之最匹配的直方圖。來計(jì)算兩幅圖像的相像度,融入了直方圖對(duì)應(yīng)位置的信息。但是計(jì)算效率上很慢。2,計(jì)算一個(gè)圖像外包多邊形,得到跟蹤圖像的前景圖后計(jì)算其外包多邊形,根據(jù)外包多邊形做Delauny三角形分解,然后計(jì)算每個(gè)三角形內(nèi)部的直方圖,對(duì)于這兩個(gè)直方圖組進(jìn)行相像距離計(jì)算。這樣就融入了直方圖的位置信息

1.7.2.2基于矩陣分解的方法

方法描述:將圖像patch做矩陣分解,譬如SVD奇異值分解和NMF非負(fù)矩陣分解等,然后再做相像度的計(jì)算。

方法思想:由于圖像本身來講就是一個(gè)矩陣,可以依靠矩陣分解獲取一些更加魯棒的特征來對(duì)圖像進(jìn)行相像度的計(jì)算。

基于SVD分解的方法優(yōu)點(diǎn):奇異值的穩(wěn)定性,比例不變性,旋轉(zhuǎn)不變性和壓縮性。即奇異值分解是基于整體的表示,不但具有正交變換、旋轉(zhuǎn)、位移、鏡像映射等代數(shù)和幾何上的不變性,而且具有良好的穩(wěn)定性和抗噪性,廣泛應(yīng)用于模式識(shí)別與圖像分析中。對(duì)圖像進(jìn)行奇異值分解的目的是得到唯一、穩(wěn)定的特征描述,降低特征空間的維度,提高抗干擾能力?;赟VD分解的方法缺點(diǎn)是:奇異值分解得到的奇異矢量中有負(fù)數(shù)存在,不能很好的解釋其物理意義。

基于NMF分解的方法:將非負(fù)矩陣分解為可以表達(dá)圖像主要信息的基矩陣與系數(shù)矩陣,并且可以對(duì)基矩陣賦予很好的解釋,譬如對(duì)人臉的分割,得到的基向量就是人的“眼睛〞、“鼻子〞等主要概念特征,源圖像表示為基矩陣的加權(quán)組合,所以,NMF在人臉識(shí)別場(chǎng)合發(fā)揮著巨大的作用。

基于矩陣特征值計(jì)算的方法還有好多,譬如Trace變換,不變矩計(jì)算等。

1.7.2.3基于特征點(diǎn)方法

方法描述:統(tǒng)計(jì)兩個(gè)圖像patch中匹配的特征點(diǎn)數(shù),假使相像的特征點(diǎn)數(shù)比例最大,則認(rèn)為最相像,最匹配

方法思想:圖像可以中特征點(diǎn)來描述,譬如sift特征點(diǎn),LK光流法中的角點(diǎn)等等。這樣相像度的測(cè)量就轉(zhuǎn)變?yōu)樘卣鼽c(diǎn)的匹配了。

以前做過一些試驗(yàn),關(guān)于特征點(diǎn)匹配的,對(duì)一幅圖像進(jìn)行仿射變換,然后匹配兩者之間的特征點(diǎn),選取的特征點(diǎn)有sift和快速的sift變形版本surf等。

方法優(yōu)點(diǎn):能被選作特征點(diǎn)的大致要滿足不變性,尺度不變性,旋轉(zhuǎn)不變等。這樣圖像的相像度計(jì)算也就具備了這些不變性。

方法缺點(diǎn):特征點(diǎn)的匹配計(jì)算速度比較慢,同時(shí)特征點(diǎn)也有可能出現(xiàn)錯(cuò)誤匹配的現(xiàn)象。

1.7.2.4基于峰值信噪比(PSNR)的方法

當(dāng)我們想檢查壓縮視頻帶來的微弱差異的時(shí)候,就需要構(gòu)建一個(gè)能夠逐幀比較差視頻差異的系統(tǒng)。最常用的比較算法是PSNR(Peaksignal-to-noiseratio)。這是個(gè)使用“局部均值誤差〞來判斷差異的最簡(jiǎn)單的方法,假設(shè)有這兩幅圖像:I1和I2,它們的行列數(shù)分別是i,j,有c個(gè)通道。每個(gè)像素的每個(gè)通道的值占用一個(gè)字節(jié),值域[0,255]。注意當(dāng)兩幅圖像的一致的話,MSE的值會(huì)變成0。這樣會(huì)導(dǎo)致PSNR的公式會(huì)除以0而變得沒有意義。所以我們需要單獨(dú)的處理這樣的特別狀況。此外由于像素的動(dòng)態(tài)范圍很廣,在處理時(shí)會(huì)使用對(duì)數(shù)變換來縮小范圍。

在考察壓縮后的視頻時(shí),這個(gè)值大約在30到50之間,數(shù)字越大則說明壓縮質(zhì)量越好。假使圖像差異很明顯,就可能會(huì)得到15甚至更低的值。PSNR算法簡(jiǎn)單,檢查的速度也很快。但是其浮現(xiàn)的差異值有時(shí)候和人的主觀感受不成比例。所以有另外一種稱作結(jié)構(gòu)相像性的算

法做出了這方面的改進(jìn)。

1.7.2.5圖像模板匹配

一般而言,源圖像與模板圖像patch尺寸一樣的話,可以直接使用上面介紹的圖像相像度測(cè)量的方法;假使源圖像與模板圖像尺寸不一樣,尋常需要進(jìn)行滑動(dòng)匹配窗口,掃面?zhèn)€整幅圖像獲得最好的匹配patch。

在OpenCV中對(duì)應(yīng)的函數(shù)為:matchTemplate():函數(shù)功能是在輸入圖像中滑動(dòng)窗口尋覓各個(gè)位置與模板圖像patch的相像度。相像度的評(píng)價(jià)標(biāo)準(zhǔn)(匹配方法)有:CV_TM_SQDIFF平方差匹配法(相像度越高,值越小),CV_TM_CCORR相關(guān)匹配法(采用乘法操作,相像度越高值越大),CV_TM_CCOEFF相關(guān)系數(shù)匹配法(1表示最好的匹配,-1表示最差的匹配)。CV_TM_SQDIFF計(jì)算公式:

CV_TM_CCORR計(jì)算公式:

有一種新的用來計(jì)算相像度或者進(jìn)行距離度量的方法:EMD,EarthMover'sDistancesEMDisdefinedastheminimalcostthatmustbepaidtotransformonehistogramintotheother,wherethereisa“grounddistance〞betweenthebasicfeaturesthatareaggregatedintothehistogram。

光線變化能引起圖像顏色值的漂移,盡管漂移沒有改變顏色直方圖的形狀,但漂移引起了顏色值位置的變化,從而可能導(dǎo)致匹配策略失效。而EMD是一種度量準(zhǔn)則,度量怎樣將一個(gè)直方圖轉(zhuǎn)變?yōu)榱硪粋€(gè)直方圖的形狀,包括移動(dòng)直方圖的部分(或全部)到一個(gè)新的位置,可以在任意維度的直方圖上進(jìn)行這種度量。

在OpenCV中有相應(yīng)的計(jì)算方法:cvCalcEMD2()。結(jié)合著opencv支持庫,計(jì)算直方圖均衡后與原圖的HSV顏色空間直方圖之間的EMD距離。

1.7.2.6基于特定理論的圖像相像度算法

這一類的相像度算法大都是建立在圖結(jié)構(gòu)的基礎(chǔ)上進(jìn)行的。假定分割后的圖像其區(qū)域都具有獨(dú)立性和唯一性,那么通過屬性特征提取和區(qū)域空間關(guān)系的描述,就可以把圖像對(duì)應(yīng)地描述成圖結(jié)構(gòu)。因此,對(duì)圖結(jié)構(gòu)的相像度計(jì)算就可以從一定程度上代表圖像之間的相像狀況。

1.7.2.6.1相像度傳播法

為了計(jì)算圖的相像度,文獻(xiàn)[34]提出了這樣一個(gè)理論,假使兩個(gè)圖節(jié)點(diǎn)的鄰居節(jié)點(diǎn)是相像的,則這兩個(gè)節(jié)點(diǎn)也是相像的。換句話說,這兩個(gè)節(jié)點(diǎn)的相像度的一部分傳播給了它們各自的

鄰居。這樣經(jīng)過一系列的迭代,這種相像度就會(huì)傳遍整個(gè)圖,從而我們就可以得出兩個(gè)圖的最終整體相像度。因此,根據(jù)這種相像度觀點(diǎn),可以對(duì)兩個(gè)圖構(gòu)造出一個(gè)相像度矩陣,將圖中兩兩節(jié)點(diǎn)間的相像度都當(dāng)成矩陣的一個(gè)元素,然后通過矩陣的相關(guān)運(yùn)算,得出最終的一個(gè)相像度計(jì)算公式。其過程可為如下所示:

相像度矩陣是用于描述圖結(jié)構(gòu)的相像程度的一個(gè)整體狀況的有效工具,最早是在UUman的算法中進(jìn)行定義,而在隨后的各種算法中也得到了很好的應(yīng)用。相像度傳播算法是基于矩陣的基本運(yùn)算來進(jìn)行的,矩陣運(yùn)算是單純的數(shù)學(xué)運(yùn)算,從數(shù)學(xué)運(yùn)算的角度上去比較兩個(gè)圖之間的相像度,雖然簡(jiǎn)便了好多,但同時(shí)也簡(jiǎn)單丟失圖像的信息。因此,該算法確鑿性方面還不夠。

1.7.2.6.2基于關(guān)聯(lián)圖的相像度算法

1.7.2.6.3基于最大公共子圖的相像度算法

1.7.2.6.4節(jié)點(diǎn)迭代匹配算法

參照整體相像度等于各部分相像度之和的原則,節(jié)點(diǎn)迭代匹配算法提出了圖像匹配錯(cuò)誤等于節(jié)點(diǎn)錯(cuò)誤和對(duì)應(yīng)邊錯(cuò)誤之和的思想_。該算法將匹配過程進(jìn)行了K次的迭代,K由圖節(jié)點(diǎn)

數(shù)決定。通過k次的迭代,可以獲得匹配錯(cuò)誤最小的兩圖之間的節(jié)點(diǎn)匹配,并計(jì)算出其匹配錯(cuò)誤。

首先必需定義幾個(gè)矩陣分別用來表示節(jié)點(diǎn)的錯(cuò)誤差,可能的節(jié)點(diǎn)匹配對(duì)等。接著還要定義節(jié)點(diǎn)匹配錯(cuò)誤的計(jì)算公式和邊匹配錯(cuò)誤計(jì)算公式,最終依據(jù)匹配錯(cuò)誤的大小來確定兩個(gè)圖的相像度。將這種圖匹配算法應(yīng)用于圖像檢索,取得了很好的試驗(yàn)效果如圖1-7所示的是兩個(gè)圖像的屬性圖結(jié)構(gòu)。

通過計(jì)算可以得到圖1-7例如中兩幅圖像的匹配錯(cuò)誤,并依此進(jìn)行圖像的探尋或匹配。但同時(shí)可以發(fā)現(xiàn)該算法存在不足之處,它無法給出兩幅圖像的確鑿的相像度,僅能給出其匹配錯(cuò)誤,無法定量的描述其相像程度,這也是該算法應(yīng)要進(jìn)一步改善的地方

1.8基于本體的語義相像度測(cè)度算法

基于本體的語義相像度算法主要包括概念信息量法,語義距離法、基于屬性的語義相像度、混合式語義相像度等方法。

1.8.1概念信息量法:

概念信息量法以信息論和概率統(tǒng)計(jì)為基礎(chǔ),需要進(jìn)行大量的文集統(tǒng)計(jì)工作。

1.8.2基于概念屬性的相像度計(jì)算

在本體結(jié)構(gòu)中,概念的屬性是決定語義相像度的重要因素[14]。當(dāng)兩個(gè)概念擁有的一致屬性越多,說明這兩個(gè)概念間的語義相像度越大。概念屬性的相像度計(jì)算公式為:

SimAtt(S,F)?Count(att(S)?att(F))(1)

Count(att(S)?att(F))其中,att(S)表示實(shí)體S屬性的集合;att(F)表示實(shí)體F屬性的集合;Count()表示統(tǒng)計(jì)

出的屬性個(gè)數(shù)。若實(shí)體的某種相應(yīng)的性質(zhì)不存在時(shí),則不用表示S、F在該性質(zhì)上的相像度。

1.8.3語義距離

語義距離是指本體結(jié)構(gòu)中任意兩個(gè)概念節(jié)點(diǎn)之間的最短路徑長(zhǎng)度。

基本假設(shè)如下:兩概念的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論