信息內(nèi)容安全復(fù)習(xí)_第1頁(yè)
信息內(nèi)容安全復(fù)習(xí)_第2頁(yè)
信息內(nèi)容安全復(fù)習(xí)_第3頁(yè)
信息內(nèi)容安全復(fù)習(xí)_第4頁(yè)
信息內(nèi)容安全復(fù)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信息內(nèi)容安全:如何利用計(jì)算機(jī)從包含海量信息且迅速變化的網(wǎng)絡(luò)中,對(duì)與特定安全主題相關(guān)信息進(jìn)行自動(dòng)地獲取和分析的技術(shù)。2、 信息類型:文字、音頻、圖像/視頻3、 內(nèi)容安全的范疇:輿情監(jiān)測(cè);信息過(guò)濾;內(nèi)容分級(jí);信息隱藏4、 網(wǎng)絡(luò)信息獲?。海?)主動(dòng)獲取技術(shù):通過(guò)向網(wǎng)絡(luò)發(fā)出請(qǐng)求來(lái)獲取信息,特點(diǎn)是接入方式簡(jiǎn)單,能夠獲取更廣泛的信息內(nèi)容,但會(huì)對(duì)網(wǎng)絡(luò)造成額外的負(fù)擔(dān)。 網(wǎng)絡(luò)媒體信息獲取網(wǎng)頁(yè)具體形態(tài):7、網(wǎng)頁(yè)具體形態(tài):7、 (1) 靜態(tài)網(wǎng)頁(yè):頁(yè)面內(nèi)容事先由設(shè)計(jì)人員寫(xiě)好,內(nèi)容是固定不變的;靜態(tài)網(wǎng)頁(yè)每個(gè)網(wǎng)頁(yè)都有一個(gè)固定的URL,且網(wǎng)頁(yè)URL以.htm、.html、等常見(jiàn)形式為后綴,而不含有“?”和參數(shù);(2) 動(dòng)態(tài)網(wǎng)頁(yè):頁(yè)面內(nèi)容由后臺(tái)服務(wù)器根據(jù)對(duì)請(qǐng)求的處理結(jié)果自動(dòng)生成,請(qǐng)求不同,生成的結(jié)果就不同;動(dòng)態(tài)網(wǎng)頁(yè)常見(jiàn)后綴,.php、.asp、.jsp等(3) 共同處:不論靜態(tài)頁(yè)面或動(dòng)態(tài)頁(yè)面,它們到達(dá)瀏覽器后的表現(xiàn)形式都一樣,即HTML文檔;判斷:(1)動(dòng)態(tài)網(wǎng)頁(yè)的網(wǎng)頁(yè)上有各種動(dòng)畫(huà)、滾動(dòng)字幕等視覺(jué)效果。 (X)(2) 采用動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)的網(wǎng)站可以實(shí)現(xiàn)更多的功能,如用戶注冊(cè)、用戶登錄、在線調(diào)查、用戶管理、訂單管理等等。 (Y)(3)采用Javascript腳本語(yǔ)言實(shí)現(xiàn)網(wǎng)頁(yè)動(dòng)態(tài)效果的頁(yè)面是動(dòng)態(tài)頁(yè)面。(X)8、 媒體信息的特征表達(dá):是將媒體信息表示成計(jì)算機(jī)能夠高效計(jì)算的形式。9、 信息內(nèi)容識(shí)別:是指以特征表達(dá)為基礎(chǔ),對(duì)信息內(nèi)容進(jìn)行識(shí)別、分類,確定其是否為所需要的目標(biāo)內(nèi)容,識(shí)別的準(zhǔn)確度和速度是重要指標(biāo)。分類:文字、音頻、圖像/視頻。10、 搜索引擎:是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。

www.teos£!y^orn搜索引擎功能組件:用戶接口、搜索器、索引器、檢索器四個(gè)部分組成。www.teos£!y^orn內(nèi)容安全領(lǐng)域網(wǎng)絡(luò)媒體信息與 搜索引擎技術(shù)相通、目標(biāo)不同。詞臭直些-HTg或西,rfTTP/i.i詞臭直些-HTg或西,rfTTP/i.iHost:蕓盧時(shí)花;bnp;/IretG.xBcon>a^如=hnp戔甫=newssinQ.頂求応奪:,URIEL?]初始向壟地址舞會(huì) HTTP文本信息獲取范例罔琵起勻■HTTPR宜HTTPjl.LUKtOICHTTP■有皮mg{空行】HTTPN底勻.電推hnp://nars.slna.cancnf11、網(wǎng)絡(luò)媒體信息獲取分類: (1) 全網(wǎng)信息獲?。盒畔@取范圍涉及整個(gè)國(guó)際互聯(lián)網(wǎng)內(nèi)所有網(wǎng)絡(luò)媒體信息,保證信息全面性,耗時(shí)長(zhǎng),本地存儲(chǔ)信息量大。 (2) 定點(diǎn)信息獲取:信息獲取范圍限制在一定范圍內(nèi),更加注重實(shí)效性。 (3) 基于主題的信息獲?。好嫦蚰承┨囟ㄔ掝},在信息獲取過(guò)程中增加話題匹配環(huán)節(jié),本地存儲(chǔ)信息量小。 如何查看:緩存-查看cookie信息1 如何查看:緩存-查看cookie信息 ? 需身份認(rèn)證靜態(tài)媒體發(fā)布信息獲取基于Cookie ? 需身份認(rèn)證靜態(tài)媒體發(fā)布信息獲取基于Cookie機(jī)制實(shí)現(xiàn)認(rèn)證 基于網(wǎng)絡(luò)交互重構(gòu)實(shí)現(xiàn)信息獲取Cookie是您訪問(wèn)網(wǎng)站時(shí)該網(wǎng)站發(fā)送到您計(jì)算機(jī)中的小文件。 網(wǎng)站依靠Cookie來(lái)記住您的用戶名密碼等訪問(wèn)信息。網(wǎng)絡(luò)媒依信息萩恥身份認(rèn)證模撅39? 內(nèi)嵌腳本語(yǔ)言片段的動(dòng)態(tài)網(wǎng)頁(yè)信息獲取利用HTMLDOM樹(shù)提取動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)的腳本語(yǔ)言片段基于Rhino實(shí)現(xiàn)JavaScript動(dòng)態(tài)網(wǎng)頁(yè)信息提取主環(huán)內(nèi)杏豎収主環(huán)內(nèi)杏豎収利用開(kāi)源瀏覽器實(shí)現(xiàn)網(wǎng)絡(luò)媒體信息獲取。?基于瀏覽器模擬實(shí)現(xiàn)網(wǎng)絡(luò)媒體信息獲取MaScnpL丈車(chē)值息導(dǎo)出指勺堂互相,'昔膛門(mén)衛(wèi)庫(kù)庠錄說(shuō)網(wǎng)Ki應(yīng)也自動(dòng)蛾,:網(wǎng)而接軌.徒摟吶巾.丄網(wǎng)熱WiifiA證呸,I叫M發(fā)布俑志滿覽視,晉械I言也點(diǎn)艷+■/-worv対給槐體信息曲版 13、 網(wǎng)絡(luò)蜘蛛:是一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。 (1) 工作原理:網(wǎng)絡(luò)爬蟲(chóng)是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)網(wǎng)頁(yè)(通常是 首頁(yè))開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找 下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。 (2) 分類:1)傳統(tǒng)爬蟲(chóng):從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。 2)聚焦爬蟲(chóng):需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,將有用的鏈接放入等 待抓取的URL隊(duì)列,根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。14、 網(wǎng)頁(yè)搜索策略:(1)廣度優(yōu)先策略:在抓取過(guò)程中,在完成當(dāng)前層次的搜索后,才進(jìn) 行下一層次的搜索。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單。在目前為覆蓋盡可能多的網(wǎng)頁(yè),一 般使用廣度優(yōu)先搜索方法。(2)深度優(yōu)先策略 (3) 最佳優(yōu)先方法:按照一定的網(wǎng)頁(yè)分析算法,預(yù)測(cè)候選URL與目標(biāo)網(wǎng)頁(yè)的相似度,或與主題的相關(guān)性,并選取評(píng)價(jià)最好的一個(gè)或幾個(gè)URL進(jìn)行抓取。它只訪問(wèn)經(jīng)過(guò)網(wǎng)頁(yè)分析算法預(yù)測(cè)為“有用”的網(wǎng)頁(yè)。存在的一個(gè)問(wèn)題是,很多相關(guān)網(wǎng)頁(yè)可能被忽略,因?yàn)樽罴褍?yōu)先策略是一種局部最優(yōu)搜索算法。15、跨站廣告:Cookie,是網(wǎng)站在客戶端上存放的一小塊數(shù)據(jù)。他們都由某個(gè)域存放,只能被這個(gè)域訪問(wèn)。他們的區(qū)別其實(shí)并不是技術(shù)上的區(qū)別,而是使用方式上的區(qū)別。 一般,網(wǎng)站自身的Cookie被稱為第一方Cookie,而來(lái)自他站的Cookie生成或者訪問(wèn)被稱為第三方Cookie。而淘寶跨站廣告的本質(zhì)是第三方Cookie。16、 特征:指某一物質(zhì)自身所具備的特殊性質(zhì),是區(qū)別于其他物質(zhì)的基本征象和標(biāo)志 一幅圖像的特征:能夠充分表達(dá)該幅圖像所描述的內(nèi)容,以區(qū)別于其他圖像或其他不同 類型圖像 計(jì)算機(jī)提取的圖像特征:可計(jì)算、可高效計(jì)算 特征類型:顏色、紋理、形狀、空間關(guān)系17、 特征描述一就是用一組數(shù)值(特征向量、空間點(diǎn))或符號(hào),即特征描述子(descriptor), 來(lái)表征圖像、物體或圖像局部區(qū)域等的某些特征。18、 應(yīng)用:基于圖像內(nèi)容的檢索;基于圖像內(nèi)容的分類;目標(biāo)物分割;圖像填補(bǔ)、修復(fù);圖像拼接 19、 數(shù)字圖像的表示方法:灰度圖像(256級(jí)顏色,uint8):每個(gè)像素可以是0?255之間的任何一個(gè)值;二值圖像(黑白兩色,logical/boolean):圖中的每個(gè)像素的像素值用1位存儲(chǔ),它的值只有“0”或者“1”。

存儲(chǔ)量的計(jì)算:一幅640X480的灰度圖像就需要占據(jù)的存儲(chǔ)空間是? (300KB)答:640*480/1024=300KB一幅640X480的二值圖像需要占據(jù)的存儲(chǔ)空間是? (37.5KB)答:黑白圖像只有兩種顏色,每個(gè)像素點(diǎn)用一位二進(jìn)制數(shù)就可以表示,一個(gè)字節(jié)的二進(jìn)制數(shù)可以表示8個(gè)像素點(diǎn),所以需要的總字節(jié)數(shù)就是640x480-8=3840020、彩色圖像(RGB三通道,每通道256級(jí)顏色,三維數(shù)組,uint8)21、 圖像空間距離:22、 顏色特征:(1)顏色矩:21、 圖像空間距離:22、 顏色特征:(1)顏色矩:均登銖潅差*陽(yáng)巳彩晝圖憶等征ft亙;[riLr卩若.ULr寧一.爵呂,<>L-%,卜秘:-:L1l特征空間是240000維度,再來(lái)一幅,放縮到400*600,拉成向量,做比較可計(jì)算的,但計(jì)算效率高嗎?平移不變嗎?旋轉(zhuǎn)不變嗎?縮放不變嗎?不是4=特壺維教低」具有-定的葢別方可以應(yīng)對(duì)成蜂'尺度變化寫(xiě),V靛珀節(jié)描述方39(2)顏色直方圖:直方圖是一個(gè)二維圖,橫坐標(biāo)為圖像中各個(gè)像素點(diǎn)的灰度級(jí)別,縱坐標(biāo)表示具有各個(gè)灰度級(jí)別的像素在圖像中出現(xiàn)的次數(shù)或概率。資直方圖比較:a、卡方系數(shù)(值越小越相似):H1(D+H招)°ChiSqunreI"1jw2)=H1(D+H招)i-1b、 相關(guān)系數(shù)(絕對(duì)值越大越相似):心地應(yīng)珀,冊(cè))=-頑加血)%8仇〃",=攔匕]WH)-而)(W再),處1=帝f=J泌 盼Lc、直方圖相交法(值越大越相似): 可冊(cè)哈1風(fēng)5i,也)=Z施町⑴)(3)顏色聚合矢量:23、紋理特征:(1)灰度共生矩陣:A) 方向:0°、45°、90°、135°B) 偏移量:待統(tǒng)計(jì)的元素距離C) 級(jí)數(shù):當(dāng)圖像灰度值級(jí)數(shù)是N時(shí),灰度共生矩陣為N*N的矩陣.

D) 灰度矩陣二頻度矩陣/總頻次E) 共生矩陣反應(yīng)圖像灰度分布關(guān)于方向、局部鄰域和變化幅度的綜合信息。F) 能量特征:是灰度共生矩陣元素值的平方和,反映了圖像灰度分布均勻程度。如果共生矩陣的所有值均相等,則值小;相反,如果其中一些值大而其它值小,則值大。能量特征:R=£P(guān)(i,j)2,P(i,j)表示共生矩陣元素i,jG)若灰度共生矩陣值分布均勻,也即圖像近于隨機(jī)或噪聲很大,嫡會(huì)有較大值。嫡是圖像所具有的信息量的度量,是一個(gè)隨機(jī)性的度量,當(dāng)共生矩陣中所有元素有最大的隨機(jī)性、空間共生矩陣中所有值幾乎相等時(shí),共生矩陣中元素分散分布時(shí),嫡較大。它表示了圖像中紋理的非均勻程度或復(fù)雜程度。3.對(duì)比度特征:2.墉特征:我=&次(5。9眄)討4.共性特征:(2)LBP特征f/_yAl+li-;!L.J '對(duì)于每個(gè)像素,將其環(huán)形鄰域內(nèi)的8個(gè)點(diǎn)(也可以是環(huán)形鄰域多個(gè)點(diǎn).應(yīng)用LBP算法的三個(gè)鄰域示例所示)進(jìn)行順時(shí)針或逆時(shí)針的比較,如果中心像素值比該鄰點(diǎn)大,則將鄰點(diǎn)賦值為否則賦值為0,這樣每個(gè)點(diǎn)都會(huì)獲得一個(gè)8位二進(jìn)制數(shù)(通常轉(zhuǎn)換為十進(jìn)制數(shù))。旋轉(zhuǎn)不變:比較8位二進(jìn)制數(shù)排列中最小的可能。形狀特征的性能往往取決于圖像24、形狀特征:形狀特征相比顏色、紋理,鑒別力更高。形狀特征的性能往往取決于圖像分割和輪廓提取的效果。熵是圖像所具有的信息量的度量即圖像近于隨機(jī)或噪聲量,是一個(gè)隨機(jī)性的度量,當(dāng)共生矩陣中所有元素有最大的隨機(jī)性、共生矩陣中所有值幾乎相等時(shí),共生矩陣中元素分散分布時(shí),熵較大。表示了圖像中紋理的非均勻程度或復(fù)雜程度。若灰度共生矩陣值分布均勻,熵會(huì)有較大值。(1)目標(biāo)(輪廓)提?。红厥菆D像所具有的信息量的度量即圖像近于隨機(jī)或噪聲量,是一個(gè)隨機(jī)性的度量,當(dāng)共生矩陣中所有元素有最大的隨機(jī)性、共生矩陣中所有值幾乎相等時(shí),共生矩陣中元素分散分布時(shí),熵較大。表示了圖像中紋理的非均勻程度或復(fù)雜程度。若灰度共生矩陣值分布均勻,熵會(huì)有較大值。鏈碼 >(起始點(diǎn)不變)旋轉(zhuǎn)不變:差分碼不變用罠嗎至示結(jié)定目標(biāo)的迅畀時(shí),如果目標(biāo)平穢,償碼不會(huì)發(fā)生殳化,而如果目標(biāo)旅轉(zhuǎn),則毎瑪將會(huì)發(fā)生変化:反方題做2>-LH)J卜 AXW\A/vVVV3313303。用鐐?cè)跤?慚主分來(lái)重析構(gòu)供1個(gè)序列[L個(gè)表示原儀嗎各段之間方向変化的新序列),相當(dāng)于把鐲瑪進(jìn)2>-LH)J卜 AXW\A/vVVV3313303。,君1個(gè)有崗數(shù)瞄劇童邊骨程蝗特啟-頂註曲證生嗟it.怛耋白鵑笛有韭比(3R2Tf-L一葉葉*3wvvvwvD,君1個(gè)有崗數(shù)瞄劇童邊骨程蝗特啟-頂註曲證生嗟it.怛耋白鵑笛有韭比(3R2Tf-L一葉葉*3wvvvwv? 多邊形近似:要用盡可能少的線段,來(lái)代表邊界,并保持邊界的基本形狀1、 基于收縮的最小周長(zhǎng)多邊形法2、 基于聚合(merge)的最小均方差線段逼近法3、 基于分裂(split)的最小均方差線段逼近法:原始邊界-〉按最大距離分割邊界-〉連接

垂直點(diǎn)-〉最后的多邊形(2)邊界描述的形狀特征?周長(zhǎng)是邊界的全局特征,指輪廓的周長(zhǎng)。區(qū)域R的邊界B是由R的所有邊界點(diǎn)按4-方向或8-方向連接組成的,區(qū)域的其它點(diǎn)稱為區(qū)域的內(nèi)部點(diǎn)對(duì)于區(qū)域R而言,它的每1個(gè)邊界點(diǎn)P都應(yīng)滿足2個(gè)條件:(DP本身屬于區(qū)域R;(2)P的鄰域中有象素不屬于區(qū)域R如果區(qū)域R的內(nèi)部點(diǎn)用8-方向連通來(lái)判斷,貝IJ得到的邊界為4-方向連通的,如果用4-方向連通來(lái)判斷,則得到的邊界為8-方向連通的3)目標(biāo)區(qū);(b)將內(nèi)部點(diǎn)用4方向連通判斷,則粉色區(qū)域點(diǎn)為內(nèi)部點(diǎn),其余綠色區(qū)域點(diǎn)構(gòu)成4-方向連通邊界,{。)方向連通來(lái)判斷,則得到的邊界為8-方向連通的3)目標(biāo)區(qū);(b)將內(nèi)部點(diǎn)用4方向連通判斷,則粉色區(qū)域點(diǎn)為內(nèi)部點(diǎn),其余綠色區(qū)域點(diǎn)構(gòu)成4-方向連通邊界,{。)將內(nèi)部點(diǎn)用4-方向連通判斷,則此時(shí)區(qū)域內(nèi)部點(diǎn)和8-方向連通邊界如囹?所示。區(qū)域的邊界點(diǎn)和內(nèi)部點(diǎn)要采用不同的連通性來(lái)定義,否則會(huì)出現(xiàn)歧義I|B||=#(k|(xk+]mi)f.^>P4(xk}+[k|(ik4.ieND(xt,yk)))gJ lt_L. 對(duì)■應(yīng)2個(gè)象I'云由.中陌奎伯?dāng)?shù)艾R+]螂

^KttW財(cái)也個(gè)象素間直編段討應(yīng)】個(gè)寂素摘對(duì)痢魏段如果邊界用單位長(zhǎng)鏈碼表示,則水平和垂直碼的個(gè)數(shù)加上”2乘以對(duì)角碼的個(gè)數(shù)=》邊界長(zhǎng)度,將邊界的所有點(diǎn)從0排到K-1(設(shè)邊界點(diǎn)共K個(gè)),則邊界長(zhǎng)度計(jì)算式為:?形狀數(shù):1個(gè)邊界的形狀數(shù)是這些差分中其值最小的1個(gè)序列,也就是說(shuō),形狀數(shù)是值最小的(鏈碼)差分碼每個(gè)形狀數(shù)都有1個(gè)對(duì)應(yīng)的階(order),階定義為:形狀數(shù)序列的長(zhǎng)度(即碼的個(gè)數(shù))。Order4Order6匸向Cheiincode-03Z10^32215h<f>eOrder4Order6匸向Cheiincode-03Z10^32215h<f>em.:"OMOmj尋咁缶u季>□mmimmOrder&形狀數(shù)提供了1種有用的形狀度量方法,對(duì)每個(gè)階是唯一的,不隨邊界的旋轉(zhuǎn)和尺度的變化而改變計(jì)算形狀數(shù)步驟:1、 從所有滿足給定階要求的矩形中選取其長(zhǎng)短軸比例最接近給定邊界如圖a的矩形,如圖b所示2、 根據(jù)給定階將選出的矩形劃分為如圖c所示的多個(gè)等邊正方形(18階)3、 求出與邊界最吻合的多邊形,如將面積的50%以上包在邊界內(nèi)的正方形劃入內(nèi)部得到d圖4、 計(jì)算鏈碼、差分碼以及形狀數(shù):Chaincode:000030032232221211Difference:300031033013003130Shapeno.:000310330130031303對(duì)2個(gè)區(qū)域邊界而言,它們之間形狀上的相似性可借助它們的形狀數(shù)進(jìn)行描述:從小到大逐步計(jì)算兩個(gè)邊界的各階形狀數(shù),并相互比較,直到找到最大階的相等形狀數(shù),即2個(gè)區(qū)域邊界之間的相似度用它們的最大公共形狀數(shù)來(lái)衡量

(3)區(qū)域描述的形狀特征1、區(qū)域面積:描述區(qū)域的大小,對(duì)屬于區(qū)域的象素計(jì)數(shù),面積公式為:(3)區(qū)域描述的形狀特征1、區(qū)域面積:描述區(qū)域的大小,對(duì)屬于區(qū)域的象素計(jì)數(shù),面積公式為:A=E(x,y)eX=丄,XA_ (X,y)gR丄,y=厶yA,…(X,y)eR重心:區(qū)域重心一根據(jù)所有屬于區(qū)域的點(diǎn)計(jì)算拓?fù)洌簩?duì)1個(gè)給定平面區(qū)域而言,區(qū)域內(nèi)的rR

步孔數(shù)H和區(qū)域的連通成分C都是常用的拓?fù)湫再|(zhì),可進(jìn)一步來(lái)定義歐拉數(shù)rR

步例如:A:1個(gè)孔,1個(gè)連通成分,歐拉數(shù)為0;B:2個(gè)孔,1個(gè)連通成分,歐拉數(shù)為-1B2?形狀參數(shù):根據(jù)區(qū)域的周長(zhǎng)和區(qū)域的面積計(jì)算的:f=yL4nA區(qū)域?yàn)閳A形時(shí)F為1,其它形狀時(shí),F(xiàn)>1,即當(dāng)區(qū)域?yàn)閳A時(shí),F(xiàn)為最小。對(duì)數(shù)字圖像而言,邊界按4-連通計(jì)算,則對(duì)正八邊形區(qū)域F最小。邊界按8-連通計(jì)算,則對(duì)正菱形F最小。形狀參數(shù)在一定程度上描述了區(qū)域的緊湊性,無(wú)量綱,對(duì)尺度變化不敏感,如果去除由于離散區(qū)域旋轉(zhuǎn)帶來(lái)的誤差,它對(duì)旋轉(zhuǎn)也不敏感。偏心度:區(qū)域的偏心度是區(qū)域形狀的重要描述,度量偏心度常用的一種方法是采用區(qū)域主軸和輔軸的比。如圖所示,即為A/B。圖中, ~、主軸與輔軸相互垂直,且是兩方向上的最長(zhǎng)值。 二忑拓展:幾種簡(jiǎn)單的幾何矩:令平面上點(diǎn)坐標(biāo)為P(x,y),重心為C(x!,y!),二階行距:rowMoment=[ECx-x!)*(x-x!)]/A二階列距:colMoment=[E(y-y!)*(y-y!)]/AA為點(diǎn)的個(gè)數(shù)。25、 SIFT:應(yīng)用:物體識(shí)別、圖像拼接、筆跡鑒定、三維建模26、 圖像分割一一意義;基于分割后圖像的描述更具區(qū)分力;分割后的圖像是場(chǎng)景理解和基于場(chǎng)景理解的應(yīng)用的基礎(chǔ);后續(xù)計(jì)算的復(fù)雜度將降低10倍;圖像合成、影視制作、三維重建27、 分割所用基本線索灰度/顏色/紋理:判斷像素(或超像素)、區(qū)域相似性統(tǒng)計(jì)模型(類簇、直方圖、混合高斯):判斷像素(或超像素)與統(tǒng)計(jì)模型的相似性。在已知前背景或分割目標(biāo)區(qū)域的部分信息時(shí),可對(duì)其建立統(tǒng)計(jì)模型(類簇、直方圖、混合高斯),并依此計(jì)算未標(biāo)記像素與各自統(tǒng)計(jì)模型之間的距離判斷其標(biāo)記。K-means:算法接受輸入量k;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小。步驟:1) 從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;2) 根據(jù)每個(gè)聚類對(duì)象的均值(中心對(duì)象),計(jì)算每個(gè)對(duì)象與中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分;3) 重新計(jì)算每個(gè)(有變化)類簇均值(中心對(duì)象)

4)循環(huán)2)到3)直到每個(gè)聚類不再發(fā)生變化為止3.相鄰像素(或超像素)之間的約束:相鄰像素分割標(biāo)記的一致性、相鄰像素分割標(biāo)記的梯度相關(guān)性 28、分割方法z*僅僅考慮了灰度(顏色/紋理)信息,忽略了相鄰像素之間的約束(1)基于閾值的分割一一通過(guò)閾值對(duì)不同物體進(jìn)行分割(物體與背景具有較強(qiáng)區(qū)別的圖像分割有效)步驟:1、確定需要的分割閾值2、將分割閾值與象素值比較以劃分象素閾值分割利用圖像中要提取的目標(biāo)物與其背景在灰度/顏色/紋理特性上的差異,選取一個(gè)合適的閾值,以確定圖像中每個(gè)象素點(diǎn)應(yīng)該屬于目標(biāo)還是背景區(qū)域,從而產(chǎn)生相應(yīng)的二值圖像(分別表示目標(biāo)和背景)?;叶仁侵饕褂玫奶匦裕罄m(xù)以灰度特性為例則分割后的圖像g(x,y),可由下式表示:或「IL設(shè)原始圖像f(x,y),以一定的準(zhǔn)則在f(x,y)則分割后的圖像g(x,y),可由下式表示:或「IL另外,還可以將閾值設(shè)置為一個(gè)灰度范圍[t1,t2],凡是灰度在范圍內(nèi)的象素都變?yōu)?,否則皆變?yōu)?,即 :ri9(XfV)=r其它半分割法:某種特殊情況下,高于閾值t的象素保持原灰度級(jí),其它象素都變?yōu)?,稱為半閾值法,分割后的圖像可表示為:9啊=閾值t的選取是閾值分割技術(shù)得關(guān)鍵,若是暗背景上存在亮物體,如果t過(guò)高,則:過(guò)多的目標(biāo)點(diǎn)被誤歸為背景;如果閾值過(guò)低,則會(huì)出現(xiàn)相反的情況閾值法,分割后的圖像可表示為:9啊=? 閾值選取方法(1)雙峰直方圖閾值(全局閾值):如果灰度級(jí)直方圖呈明顯的雙峰狀,則選取兩峰之間的谷底所對(duì)應(yīng)的灰度級(jí)作為閾值。如何確定閾值:谷底所對(duì)應(yīng)的灰度級(jí)作為閾值。1、 選取一個(gè)初值t2、 用t分割圖像得到兩組像素,C0是小于等于t的,C1大于t3、 計(jì)算C0和C1中像素的平均值u0和u14、 計(jì)算新閾值t=(u0+u1)/25、 迭代計(jì)算2~4,直至t的變化量小于某個(gè)預(yù)定值(2) Ostu閾值(全局閾值)移劫平均是按照,一幅圖像的掃描行i二算。掃描県2字形模式逐行執(zhí)行.令玨h波示步驟k+1掃捕序列中遇到的疙的灰度『這個(gè)新點(diǎn)處的移動(dòng)平均其中,n表示由于計(jì)算移劫平均的點(diǎn)數(shù).=n■由Ostu在1979年提出的最大類間方差法口該方法在類間方差最大的情況下能夠得到最優(yōu)的分割結(jié)果o最佳園值f-Ar^max的)類間方差/5任)-\尊T總方差勇5(貝-Q十叫(叫一尹庁認(rèn)、像素被分到玖的概率懐素祁盼到1醐葬 %十聽(tīng)二1%M&*C]像素的平均灰度值A(chǔ)r所有後素平均灰度值(3) 可變閾值(局部閾值)圖像分塊取閾值基于局部圖像特性(依賴于圖像局部的亮度均值和方差)移動(dòng)平均(4) 用圖像預(yù)處理改善閾值分割(2)基于區(qū)域的分割一一把各象素劃歸到各個(gè)物體或區(qū)域中區(qū)域生長(zhǎng)(種子象素的選取??山柚唧w問(wèn)題的特點(diǎn)進(jìn)行。)基本思想一根據(jù)預(yù)先定義的生長(zhǎng)準(zhǔn)則將像素或子區(qū)域組合為更大的區(qū)域的過(guò)程。每個(gè)區(qū)域包含具有相似性質(zhì)的象素集合。關(guān)鍵步驟:(1) 選擇或確定一組能正確代表所需區(qū)域的種子象素(2) 確定在生長(zhǎng)過(guò)程中能將相鄰象素包括進(jìn)來(lái)的準(zhǔn)則(3) 制定讓生長(zhǎng)過(guò)程停止的條件或規(guī)則(通常是再?zèng)]有滿足生長(zhǎng)準(zhǔn)則需要的象素時(shí)停止)'區(qū)域竺—生長(zhǎng)準(zhǔn)則的選取灰膨靛色相近D灰膨餵色變化-區(qū)域纜骨特性帽近(需犯圉像分成小區(qū)蟻)F薊色拒、直方囲、紋理捆述的差異Note:生長(zhǎng)棗考慮象麥間的連通性和鄒吾姻有時(shí)會(huì)出現(xiàn)無(wú)意義的分割結(jié)果11 5aW□HB□DS□HHgssss國(guó)T=1不考商一般生長(zhǎng)過(guò)程,在進(jìn)行到再?zèng)]有滿足生長(zhǎng)準(zhǔn)則需要的象素時(shí)停止,但常用的基于灰度、紋理、彩色的準(zhǔn)則大都是基于圖像中的局部性質(zhì),并沒(méi)有充分考慮生長(zhǎng)的“歷史”。為增加區(qū)域生長(zhǎng)的能力,常考慮一些尺寸、形狀等圖像和目標(biāo)的全局性質(zhì)有關(guān)準(zhǔn)則,在這種情況下,需對(duì)分割結(jié)果建立一定的模型或輔以一定的先驗(yàn)知識(shí)釆用的利斷準(zhǔn)如,詢黑所號(hào)虐的最覇與神于象鬻表度推差的制世小于蕖午門(mén)曜T.瓣格該盤(pán)香包鮑神子鑿費(fèi)陽(yáng)在的區(qū)域?區(qū)域分裂一合并方法基本思想:先從整幅圖像開(kāi)始通過(guò)不斷分裂(四叉樹(shù)結(jié)構(gòu)),得到任意大小且不重疊的區(qū)域,然后再合并或分裂這些區(qū)域,以滿足分割的要求。在合并時(shí)中,常根據(jù)圖像的統(tǒng)計(jì)特性設(shè)定圖像區(qū)域?qū)傩缘囊恢滦詼y(cè)度日叉樹(shù)實(shí)現(xiàn)分裂合并皇歸圖鶴四叉樹(shù)實(shí)現(xiàn)分裂合并置R代去整個(gè)正方形囹悔區(qū)域,F(xiàn)日叉樹(shù)實(shí)現(xiàn)分裂合并皇歸圖鶴四叉樹(shù)實(shí)現(xiàn)分裂合并置R代去整個(gè)正方形囹悔區(qū)域,F(xiàn)代為醫(yī)域一戰(zhàn)性荊斷淮財(cái)*風(fēng)域皿開(kāi)敕,IBR連簽充裂成15末薑小的1V4的正方電于區(qū)域皿并的終,Pt叫-TRTER1加MR)-I 葛明律分成四尊好?如此圭推,白刑m為単十您去壩果麗許蛇用封履.燒后有可儲(chǔ)出皿PiRJL珂區(qū)頂1:£.但局討Ri養(yǎng)矗有晴成一御加f翕.為解在任如t裂后,.允g■黃,只吉井R咨招?勃且會(huì)弄泗成的詰虎嫉瀆是一畋性推劇的醫(yī)域工*,?葡里混浴是"FRiIW>=TRL-Lrt#Ei?lRj臺(tái)井分裂合并算法步驟:對(duì)任一區(qū)域Ri,如果P(Ri)=FALSE,就將其分裂成不重疊的四等分對(duì)相鄰的兩個(gè)區(qū)域Ri和Rj(它們可以大小不同,即不在同一層),如果條件P(RiURj)=TRUE,就將它們合并如果進(jìn)一步的分裂或合并都不可能,則結(jié)束分水嶺分割(形態(tài)學(xué))一一地形方法基于目標(biāo)函數(shù)優(yōu)化的分割一一通過(guò)優(yōu)化目標(biāo)函數(shù)實(shí)現(xiàn)分割定義目標(biāo)函數(shù),通過(guò)最優(yōu)化目標(biāo)函數(shù)實(shí)現(xiàn)分割。目標(biāo)函數(shù)可包含像素信息或區(qū)域統(tǒng)計(jì)信息,以及相鄰像素的光滑約束、邊界的光滑約束、以及梯度約束。其他一一基于邊緣的分割(難以生成連貫的目標(biāo)物邊界);基于機(jī)器學(xué)習(xí)的方法(受限于訓(xùn)練用的數(shù)據(jù)庫(kù),只能針對(duì)少數(shù)幾種類型的目標(biāo)物做分割)運(yùn)動(dòng)圖像分割:差分方法:當(dāng)前圖像與固定背景圖像之間的差分稱為減背景法當(dāng)前連續(xù)兩幅圖像(時(shí)間間隔At)之間的差分稱為相鄰幀差分法。(由于不同時(shí)刻風(fēng)吹、光照變化、陰影等影響,通常難以得到干凈的前景)光流方法:光流(opticalflow)是指圖像亮度模式的表觀(或視在)運(yùn)動(dòng)(apparentmotion)在光流場(chǎng)中,不同的物體會(huì)有不同的速度,這為具有不同速度的其它運(yùn)動(dòng)物體的分割提供了方便。(適合相對(duì)靜止環(huán)境中的運(yùn)動(dòng)物體分割)(7)29、信息隱藏加密:對(duì)信息本身進(jìn)行保護(hù),但是信息的傳遞過(guò)程是暴露的偽裝:掩蓋信息存在的事實(shí)載體可以是任何一種多媒體數(shù)據(jù),如音頻、視頻、圖像、甚至文本、數(shù)據(jù)等被隱藏的信息也可以是任何形式(全部作為比特流)利用人類感知系統(tǒng)以及計(jì)算機(jī)處理系統(tǒng)的冗余30、實(shí)現(xiàn)信息隱藏的基本要求:載體對(duì)象是正常的,不會(huì)引起懷疑;對(duì)偽裝對(duì)象的正常處理,不應(yīng)破壞隱藏的信息31、信息隱藏的應(yīng)用——數(shù)字水印水?。捍嬖谟诩垙?、紙幣中,用于標(biāo)識(shí)真?zhèn)螖?shù)字水?。菏怯谰描偳对跀?shù)字作品中,具有可鑒別性的數(shù)字信號(hào)或模式,并且不影響數(shù)字作品的可用性數(shù)字水印作用:確定、鑒別作者的版權(quán)聲明、追蹤盜版、拷貝保護(hù)(1) 用于版權(quán)保護(hù)的數(shù)字水印:將版權(quán)所有者的信息,嵌入在要保護(hù)的數(shù)字多媒體作品中,從而防止其他團(tuán)體對(duì)該作品宣稱擁有版權(quán)(2) 用于盜版跟蹤的數(shù)字指紋:同一個(gè)作品被不同用戶買(mǎi)去,售出時(shí)不僅嵌入了版權(quán)所有者信息,而且還嵌入了購(gòu)買(mǎi)者信息,如果市場(chǎng)上發(fā)現(xiàn)盜版,可以識(shí)別盜版者(3) 用于拷貝保護(hù)的數(shù)字水印:水印與作品的使用工具相結(jié)合(如軟硬件播放器等),使得盜版的作品無(wú)法使用?數(shù)字水印三要素:水印本身(版權(quán)所有者、合法使用者等具體信息、圖標(biāo));水印嵌入算法;水印檢測(cè)算法水印嵌入模型水印提取模型(1)數(shù)字水印分類——從載體上分類圖像水印圖像是使用最多的一種多媒體數(shù)據(jù),也是經(jīng)常引起版權(quán)糾紛的一類載體?彩色/灰度圖像,卡通,設(shè)計(jì)圖,二值圖像(徽標(biāo)、文字),等視頻水印保護(hù)視頻產(chǎn)品和節(jié)目制作者的合法利益音頻水印保護(hù)MP3、CD、廣播電臺(tái)的節(jié)目?jī)?nèi)容等文檔水印 確定文檔數(shù)據(jù)的所有者

(2) 數(shù)字水印分類一一從外觀上分類可見(jiàn)水?。刹煊X(jué)水印)其目的在于明確標(biāo)識(shí)版權(quán),防止非法的使用,降低了資料的商業(yè)價(jià)值不可見(jiàn)水?。ú豢刹煊X(jué)水?。? 水印在視覺(jué)上不可見(jiàn),目的是為了將來(lái)起訴非法使用者。不可見(jiàn)水印往往用在商業(yè)用的高質(zhì)量圖像上(3) 數(shù)字水印分類——從水印特性上分類 健壯性數(shù)字水印要求水印能夠經(jīng)受各種常用的操作,包括無(wú)意的或惡意的處理 只要載體信號(hào)沒(méi)有被破壞到不可使用的程度,都應(yīng)該能夠檢測(cè)出水印信息 脆弱性數(shù)字水?。ㄍ耆嗳跣?半脆弱性) 要求水印對(duì)載體的變化很敏感,根據(jù)水印的狀態(tài)來(lái)判斷數(shù)據(jù)是否被篡改過(guò) 特點(diǎn):載體數(shù)據(jù)經(jīng)過(guò)很微小的處理后,水印就會(huì)被改變或毀掉主要用于完整性保護(hù) 與穩(wěn)健性水印的要求相反 32、信息隱藏和水印算法舉例 (1) 在文件格式中隱藏信息 圖像文件都有一定的存貯格式 文件頭主要描述圖像文件的格式、文件大小、數(shù)據(jù)起始偏移地址、圖像數(shù)據(jù)大小等關(guān)鍵信息 利用圖像文件的這種特性,可以在圖像文件中隱藏秘密數(shù)據(jù) 特點(diǎn):Lena圖像文件增加的字節(jié)數(shù)正好等于所添加文檔的字節(jié)數(shù); 文件頭中文件長(zhǎng)度域的值增加的幅度也剛好等于所添加文檔的字節(jié)數(shù); 使用Windows的畫(huà)板程序可以將偽裝后的Lena圖像文件正常打開(kāi); 將圖像另存為一個(gè)新文檔后發(fā)現(xiàn),所隱藏的文檔數(shù)據(jù)完全丟失。 (2) 時(shí)域替換技術(shù) 任何多媒體信息,在數(shù)字化時(shí),都會(huì)產(chǎn)生物理隨機(jī)噪聲,而人的感官系統(tǒng)對(duì)這些隨機(jī)噪聲是不敏感的 替換技術(shù)就是利用這個(gè)原理,試圖用秘密信息比特替換掉隨機(jī)噪聲,以達(dá)到隱藏秘密信息的目的LSB順序嵌入LSB隨機(jī)嵌入 LSB方法的特點(diǎn):把信息隱藏在載體的最不重要部分;簡(jiǎn)單,易實(shí)現(xiàn),容量大;安全性不高,不能抵抗疊加噪聲、有損壓縮等破壞 (3) 變換域技術(shù) 在載體頻域中隱藏信息,比LSB方法能夠更好地抵抗攻擊,而且還保持了對(duì)人類感觀的不可察覺(jué)性 常用的變換域方法:離散余弦變換(DCT);離散小波變換(DWT);離散傅立葉變換(DFT)33、 33、全局特征:對(duì)整幅圖像或者整個(gè)前景目標(biāo)物進(jìn)行描述的顏色、紋理、形狀特征34、 34、局部特征:對(duì)圖像或目標(biāo)物局部進(jìn)行描述的顏色、紋理、形狀特征。(局部特征是圖像 中有別于其周?chē)牡胤?。局部特征通常是描述一塊區(qū)域,使其能具有高可區(qū)分度) 35、局部特征和全局特征,哪一種對(duì)一類數(shù)據(jù)更具描述力呢?(局部特征?。ㄓ?jì)算復(fù)雜度高))

36、詞級(jí)別特征和權(quán)重計(jì)算權(quán)重il算方式1:頃(t),Termfrequency(TF+詞頻)單詞t在文本d中出現(xiàn)的枚數(shù).-個(gè)文本中,t詞頻越肝,山-能其在樣本中的貢獻(xiàn)越大。?權(quán)重計(jì)算方式以Inversedocumentfrequency(IOF)逆文檔頻率n岫)=1叫而n(£)idocumentfrequency^檔頻率,包含特征詞i:的所有樣木文檔總數(shù)cn:文檔總數(shù)。t的文檔頻率越低.IDFti越高,t的重要性越高。?權(quán)重計(jì)算方式3:TF-IDF"5=tfd(t)log^綜合了上im兩種特征權(quán)重的性質(zhì)。1偵SQ)>00Otherwise權(quán)重計(jì)算方式4:1偵SQ)>00Otherwise"』代)=文本與圖像基于詞的表達(dá)的區(qū)別是什么?(詞、詞典、詞的匹配) 圖像詞級(jí)別特征:圖像中的詞匯不像文本文檔中的那樣是現(xiàn)成的,需要首先從圖像中提取出相互獨(dú)立的視覺(jué)詞匯。步驟:(1)特征檢測(cè)和表示(SIFI特征);(2)單詞本的生成;(3)利用單詞表中的詞匯表示圖像(K-means算法)1?高維的特征空間:例如一份普通的文本在經(jīng)過(guò)特征表示后,如果以詞為特征,特征空間維數(shù)將達(dá)到幾千,甚至幾萬(wàn)。大多數(shù)分類算法都無(wú)法處理如此大的維數(shù)2.將每個(gè)詞單獨(dú)對(duì)待,詞與詞之間的上下文語(yǔ)義關(guān)系完全忽略37、特征選擇特征選擇是為了能夠在保證分類性能的前提下,進(jìn)行特征的篩選,以降低特征空間的維數(shù)。即對(duì)每類構(gòu)造k個(gè)最有區(qū)別能力的term。對(duì)每類構(gòu)造k個(gè)最有區(qū)別能力的term。特征選擇方法:(1) 停用詞過(guò)濾(StopWordElimination)(僅適用于文本)英語(yǔ)中的冠詞、介詞、連詞、代詞,漢語(yǔ)中的助詞、虛詞等,對(duì)分類沒(méi)有貢獻(xiàn),可以濾除。停用詞詞表可以手工建立,也可以通過(guò)統(tǒng)計(jì)自動(dòng)生成。自動(dòng)生成:統(tǒng)計(jì)某一項(xiàng)特征項(xiàng)t在所有樣本中出現(xiàn)的頻率,例如出現(xiàn)特征項(xiàng)t的總的樣本數(shù),或者在所有樣本中,特征項(xiàng)t出現(xiàn)的總次數(shù)。(2) 文檔頻率閾值法(DFT,DocumentFrequencyThreshold)文檔頻率閾值法:用于去除樣本中出現(xiàn)頻率較低的特征項(xiàng)。對(duì)于特征t,如果包含它的樣本數(shù)n(t)小于某個(gè)閾值,則去除該特征?;炯僭O(shè):稀少的詞或者對(duì)于分類沒(méi)有幫助,或者不會(huì)影響整體性能。優(yōu)缺點(diǎn):最簡(jiǎn)單的降低特征空間維數(shù)的方法稀少的詞往往具有更多的信息,因此不宜用DF大幅度地刪除詞特征項(xiàng)頻率-逆文本頻率(TF-IDF,TermFrequency-InverseDocumentFrequency)TF-IDF考慮兩項(xiàng):出現(xiàn)次數(shù)較多的特征項(xiàng)對(duì)分類貢獻(xiàn)較大;如果一個(gè)特征項(xiàng)在樣本集中的大多數(shù)樣本中出現(xiàn),則該特征項(xiàng)對(duì)分類貢獻(xiàn)不大,應(yīng)該去除。H'!-’丿 n(t)――包含特征t的樣本數(shù);n-一所有樣本總數(shù)信噪比(SNR,Signal-to-NoiseRatio)JSNR(signal-to-noise「atio,信噪比)■噪聲Noise[f)=—/ r):七國(guó)5^.r.—,門(mén),EWI hFrsn-i;ir-涂音的玄卓宜范目n方.所有祥車(chē)的個(gè)立『待跆均河會(huì)在名更有樣土?xí)r.鼻音點(diǎn)數(shù)回遷大■特征t性第中在云卩樣盆=E,驟有國(guó)労直垃b-話待征酢為唄戸的fW恍性,宀、SS牛(signal-to-nniiserati。,信噪比)SNRNoise=—>p(乩£)也[卩(乩匚)ShK(0=kigJjjCD-NoisefO特従項(xiàng)七以建右.新有土檔丿樣本=釣法數(shù)蘭三該當(dāng)棒征t春全新F樣本上均勻出制芭時(shí)慢.耳恥gM特壅頊應(yīng)T或也段y樣左曠.車(chē)國(guó)壬煎高.信息增益(InformationGain)特征項(xiàng)t為整個(gè)分類所能提供的信息量,不考慮特征t的熵和考慮該特征后的熵的差值。定義C為從訓(xùn)練樣本中隨機(jī)選取單個(gè)樣本時(shí),其所屬類別的隨機(jī)變量。對(duì)于隨機(jī)事件C,每次抽取到的樣本,可能包含特征項(xiàng)t,也可能不包含,定義T為該隨機(jī)變量。關(guān)于特征詞t的信息增益:IG(t)=E(C)-E(C|T)=-^P(Q)fogjQ(cJ十(p(oY夙部)如戒閂|日+洲)£p怎冋叩口(iin]i i

X2統(tǒng)計(jì)量'X準(zhǔn)計(jì)量■他統(tǒng)計(jì)量:度量?jī)烧?特征詞和類別)獨(dú)立性程度一’,'£)=(一’,'£)=(試+頃應(yīng)+円乂】+占乂。+刁)龍趙大,獨(dú)立性趙小,相關(guān)性趙大。若ADcBC,則t與畝由立€不JS于”體育L春錐包含“砌氣ABAh-E不包含“砌"E€DC+D尊數(shù)A+CB-+DN38、基于詞級(jí)別特征的分類實(shí)例介紹找出每篇新聞中的重要詞(特征選擇)“的、地、得”?“之乎者也”?實(shí)詞?對(duì)每個(gè)詞的重要性進(jìn)行度量(特征權(quán)重計(jì)算)采用TF—IDF用上述方式為每篇新聞稿計(jì)算一個(gè)特征向量(Featurevector),利用向量相似度度量,例如夾角余弦,計(jì)算新聞稿相似度。..|A|.|c|分析:由于向量中每個(gè)變量都是正數(shù),余弦取值為正余弦的取值范圍:[0,1],向量夾角取值范圍:[0,90]。余弦值等于1時(shí),向量夾角為0 兩條新聞完全相同;余弦值接近于1時(shí) 兩條新聞相似可合并歸為1類;(3)余弦值越小,夾角越大 兩條新聞越不相關(guān);(4)當(dāng)兩個(gè)向量正交時(shí)(90度),夾角余弦為零兩條新聞沒(méi)有相同的主題詞。(3)余弦值越小,夾角越大 兩條新聞越不相關(guān);(4)當(dāng)兩個(gè)向量正交時(shí)(90度),夾角余弦為零兩條新聞沒(méi)有相同的主題詞。合并實(shí)現(xiàn)分類: 計(jì)算所有新聞之間兩兩的余弦相似性,把相似性大于一個(gè)閾值的新聞合并成一個(gè)小類。如此,N篇新聞就被合并為N1個(gè)小類,N1<N;把每個(gè)小類中所有的新聞作為一個(gè)整體,計(jì)算小類的特征向量,再計(jì)算小類之間兩兩的余弦相似性,然后合并成大一點(diǎn)的小類,假如有N2個(gè),N2<N1;不斷重復(fù),類別越來(lái)越少,每個(gè)類越來(lái)越大。直到滿足迭代停止條件。(計(jì)算機(jī)自動(dòng)執(zhí)行以下Steps:1.對(duì)每一個(gè)新的新聞稿按前述方法計(jì)算一個(gè)特征向量;2.用該向量與聚類后的每個(gè)類向量做相似度計(jì)算;3.選擇最相似的類向量所屬類作為自己的類標(biāo)簽。)

39、特征重構(gòu)(1) 詞干(僅適用于文本)將詞形變換后的詞與其原形式合并為單個(gè)特征項(xiàng)詞干處理對(duì)系統(tǒng)性能提高有限(2) 知識(shí)庫(kù)(僅適用于文本)知識(shí)庫(kù)從詞義角度進(jìn)行降維,合并同義詞、近義詞(3) 奇異值分解(SingularValueDecomposition,簡(jiǎn)稱SVD)M=l,000,000,N=500,000o第i行,第j列的元素,是字典中第i個(gè)詞在第j篇文章中出現(xiàn)的加權(quán)詞頻(比如,TF/IDF)o矩陣非常大,有五千億個(gè)元素。(SVD,SingularValueDecomposition)'0.7。丄廠""筍腭詞S.3I).瀉.三個(gè)更陣花非常淸命的劉理會(huì)義.eDecomposition)L01CU101.0

典皿WZZ林X:eDecomposition)L01CU101.0

典皿WZZ林心"1in口.駝ns?」二兵三?b坦博有非常港府的翳理會(huì)義.擔(dān)布文牟分類的莖票,另一列表示一個(gè)掉蘋(píng)文點(diǎn),魚(yú)一行對(duì)應(yīng)一個(gè)主理.何一列曲備十元素表示復(fù)列討應(yīng)的文盤(pán)在不同主理曲相關(guān)性.如果邑一列都陳窗最大偵.苴彖的都改為攀,所會(huì)毎一程文衣都校唯一曲分到了一髡主理中,B:詞的類和文章的類之間的相關(guān)性。40、 SVD降維過(guò)程(1) 將文檔庫(kù)表示成VSM模型的詞-文檔矩陣A,A是稀疏矩陣。(2) 利用奇異值分解SVD求A的只有r個(gè)正交因子的降秩矩陣。41、 分類方法(1)無(wú)監(jiān)督學(xué)習(xí)一一聚類在一堆數(shù)據(jù)中尋找一種“自然分組”(k組)。我們希望同組(類別)的樣本較為相似,而不同組的樣本間有明顯不同方法舉例。

聚類方法:?層次聚類在無(wú)標(biāo)注的樣本集合中建立樹(shù)狀

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論