版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
實(shí)用標(biāo)準(zhǔn)實(shí)用標(biāo)準(zhǔn)文案大全文案大全啟發(fā)式優(yōu)化算法綜述一、啟發(fā)式算法簡介1、定義由于傳統(tǒng)的優(yōu)化算法如最速下降法,線性規(guī)劃,動態(tài)規(guī)劃,分支定界法,單純形法,共軛梯度法,擬牛頓法等在求解復(fù)雜的大規(guī)模優(yōu)化問題中無法快速有效地尋找到一個合理可靠的解,使得學(xué)者們期望探索一種算法:它不依賴問題的數(shù)學(xué)性能,如連續(xù)可微,非凸等特性;對初始值要求不嚴(yán)格、不敏感,并能夠高效處理高維數(shù)多模態(tài)的復(fù)雜優(yōu)化問題,在合理時間內(nèi)尋找到全局最優(yōu)值或靠近全局最優(yōu)的值。于是基于實(shí)際應(yīng)用的需求,智能優(yōu)化算法應(yīng)運(yùn)而生。智能優(yōu)化算法借助自然現(xiàn)象的一些特點(diǎn),抽象出數(shù)學(xué)規(guī)則來求解優(yōu)化問題,受大自然的啟發(fā),人們從大自然的運(yùn)行規(guī)律中找到了許多解決實(shí)際問題的方法。對于那些受大自然的運(yùn)行規(guī)律或者面向具體問題的經(jīng)驗(yàn)、規(guī)則啟發(fā)出來的方法,人們常常稱之為啟發(fā)式算法(HeuristicAlgorithm)。為什么要引出啟發(fā)式算法,因?yàn)镹P問題,一般的經(jīng)典算法是無法求解,或求解時間過長,我們無法接受。因此,采用一種相對好的求解算法,去盡可能逼近最優(yōu)解,得到一個相對優(yōu)解,在很多實(shí)際情況中也是可以接受的。啟發(fā)式算法是一種技術(shù),這種技術(shù)使得在可接受的計(jì)算成本內(nèi)去搜尋最好的解,但不一定能保證所得的可行解和最優(yōu)解,甚至在多數(shù)情況下,無法闡述所得解同最優(yōu)解的近似程度。啟發(fā)式算法是和問題求解及搜索相關(guān)的,也就是說,啟發(fā)式算法是為了提高搜索效率才提出的。人在解決問題時所采取的一種根據(jù)經(jīng)驗(yàn)規(guī)則進(jìn)行發(fā)現(xiàn)的方法。其特點(diǎn)是在解決問題時,利用過去的經(jīng)驗(yàn),選擇已經(jīng)行之有效的方法,而不是系統(tǒng)地、以確定的步驟去尋求答案,以隨機(jī)或近似隨機(jī)方法搜索非線性復(fù)雜空間中全局最優(yōu)解的尋取。啟發(fā)式解決問題的方法是與算法相對立的。算法是把各種可能性都一一進(jìn)行嘗試,最終能找到問題的答案,但它是在很大的問題空間內(nèi),花費(fèi)大量的時間和精力才能求得答案。啟發(fā)式方法則是在有限的搜索空間內(nèi),大大減少嘗試的數(shù)量,能迅速地達(dá)到問題的解決。2、發(fā)展歷史啟發(fā)式算法的計(jì)算量都比較大,所以啟發(fā)式算法伴隨著計(jì)算機(jī)技術(shù)的發(fā)展,才能取得了巨大的成就??v觀啟發(fā)式算法的歷史發(fā)展史:40年代:由于實(shí)際需要,提出了啟發(fā)式算法(快速有效)。50年代:逐步繁榮,其中貪婪算法和局部搜索等到人們的關(guān)注。60年代:反思,發(fā)現(xiàn)以前提出的啟發(fā)式算法速度很快,但是解得質(zhì)量不能保證,而且對大規(guī)模的問題仍然無能為力(收斂速度慢)。70年代:計(jì)算復(fù)雜性理論的提出,NP問題。許多實(shí)際問題不可能在合理的時間范圍內(nèi)找到全局最優(yōu)解。發(fā)現(xiàn)貪婪算法和局部搜索算法速度快,但解不好的原因主要是他們只是在局部的區(qū)域內(nèi)找解,等到的解沒有全局最優(yōu)性。由此必須引入新的搜索機(jī)制和策略。Holland的遺傳算法出現(xiàn)了(GeneticAlgorithm)再次引發(fā)了人們研究啟發(fā)式算法的興趣。80年代以后:模擬退火算法(SimulatedAnnealingAlgorithm),人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork),禁忌搜索(TabuSearch)相繼出現(xiàn)。最近比較火熱的演化算法EvolutionaryAlgorithm),蟻群算法AntAlgorithms),擬人擬物算法,量子算法等。二、啟發(fā)式算法類型1、類型簡介大部分的算法都是仿生演變而來,如下:仿動物類的算法:粒子群優(yōu)化,蟻群算法,魚群算法,蜂群算法等;仿植物類的算法:向光性算法,雜草優(yōu)化算法等;仿人類的算法有:遺傳基因算法,和聲搜索算法,神經(jīng)網(wǎng)絡(luò);以及其他的理論成熟并被廣泛使用的算法如:模擬退火算法、禁忌搜索等等、粒子群算法粒子群優(yōu)化算法的基本思想是通過群體中個體之間的協(xié)作和信息共享來尋找最優(yōu)解.粒子群算法源于復(fù)雜適應(yīng)系統(tǒng)(ComplexAdaptiveSystem,CAS工CAS理論于1994年正式提出,CAS中的成員稱為主體。比如研究鳥群系統(tǒng),每個鳥在這個系統(tǒng)中就稱為主體。主體有適應(yīng)性,它能夠與環(huán)境及其他的主體進(jìn)行交流,并且根據(jù)交流的過程“學(xué)習(xí)”或“積累經(jīng)驗(yàn)”改變自身結(jié)構(gòu)與行為。整個系統(tǒng)的演變或進(jìn)化包括:新層次的產(chǎn)生(小鳥的出生);分化和多樣性的出現(xiàn)(鳥群中的鳥分成許多小的群);新的主題的出現(xiàn)(鳥尋找食物過程中,不斷發(fā)現(xiàn)新的食物)。設(shè)想這樣一個場景:一群鳥在隨機(jī)的搜索食物。在這個區(qū)域里只有一塊食物,所有的鳥都不知道食物在那。但是它們知道自己當(dāng)前的位置距離食物還有多遠(yuǎn)。那么找到食物的最優(yōu)策略是什么?最簡單有效的就是搜尋目前離食物最近的鳥的周圍區(qū)域。、蟻群算法蟻群算法(antcolonyoptimization,ACO),又稱螞蟻算法,是一種用來在圖中尋找優(yōu)化路徑的機(jī)率型算法。它由MarcoDorigo于1992年在他的博士論文中提出,其靈感來源于螞蟻在尋找食物過程中發(fā)現(xiàn)路徑的行為。螞蟻在運(yùn)動過程中,會留下一種稱為信息素的東西,并且會隨著移動的距離,播散的信息素越來越少,所以往往在家或者食物的周圍,信息素的濃度是最強(qiáng)的,而螞蟻?zhàn)陨頃鶕?jù)信息素去選擇方向,當(dāng)然信息素越濃,被選擇的概率也就越大,并且信息素本身具有一定的揮發(fā)作用。螞蟻的運(yùn)動過程可以簡單歸納如下:1當(dāng)周圍沒有信息素指引時,螞蟻的運(yùn)動具有一定的慣性,并有一定的概率選擇其他方向;2當(dāng)周圍有信息素的指引時,按照信息素的濃度強(qiáng)度概率性的選擇運(yùn)動方向;3找食物時,螞蟻留下家相關(guān)&A信息素,找家時,螞蟻留下食物相關(guān)的信息素,并隨著移動距離的增加,灑播的信息素越來越少;4隨著時間推移,信息素會自行揮發(fā);由上面4點(diǎn)原則構(gòu)成蟻群算法的核心規(guī)則。、遺傳基因算法遺傳算法(GeneticAlgorithm)又叫基因進(jìn)化算法,或進(jìn)化算法。生物只有經(jīng)過許多世代的不斷進(jìn)化(evolution,演化),才能更好地完成生存與繁衍的任務(wù)。遺傳算法也遵循同樣的方式,需要隨著時間的推移不斷成長、演化,最后才能收斂,得到針對某類特定問題的一個或多個解。遺傳算法是一種基于自然選擇和群體遺傳機(jī)理的搜索算法,它模擬了自然選擇和自然遺傳過程中的繁殖、雜交和突變現(xiàn)象。標(biāo)準(zhǔn)的遺傳算法包括四個組成部分:編碼(產(chǎn)生初始種群)。在利用遺傳算法求解問題時,首先要確定問題的目標(biāo)函數(shù)和解變量,然后對解變量進(jìn)行編碼,遺傳算法的所有操作都是基于這種實(shí)際變量的編碼。編碼是遺傳算法的一個重要環(huán)節(jié)。它不僅決定了染色體的組織方式,還影響到交叉、變異算子的執(zhí)行方式。不同的編碼策略對遺傳算法的運(yùn)行效率有較大的影響。問題的編碼一般應(yīng)滿足完備性、健全性和非冗長性H個原則,完備性是指問題空間中的所有點(diǎn)都能成為GA編碼空間中點(diǎn)的表現(xiàn)型;健全性是指GA編碼空間中染色體必須對應(yīng)問題空間中的某一潛在解;非冗長性是指染色體和潛在解必須一一對應(yīng)PS1。對于一個特定的問題,如何設(shè)計(jì)出一種高效的編碼方式是遺傳算法所面臨的難題之一,遺憾的是,研究者們至今也沒能找到一種通用的編碼策略。目前,工程優(yōu)化中多采用兩種常用的編碼方式,即二進(jìn)制編碼Psi和實(shí)數(shù)編碼PD1。二進(jìn)制編碼的染色體是由一個二值集合{0,1}所組成的二進(jìn)制符號串。作為GA算法的標(biāo)準(zhǔn)編碼方式該編碼方式尤其適用于能用二值向量描述的優(yōu)化問題如化學(xué)反應(yīng)P11、多用途過程規(guī)劃P3和最優(yōu)水流參數(shù)評估Psi等;實(shí)數(shù)編碼是指個體的每個基因值用某一范圍的一個浮點(diǎn)數(shù)表示,個體的編碼長度等于其決策變量(設(shè)計(jì)變量)的個數(shù)。這種編碼方式適用于精度要求較高的遺傳算法中,便于較大空間的遺傳搜索:改善了遺傳算法的計(jì)算復(fù)雜性,提高了運(yùn)算效率;便于遺傳算法和經(jīng)典優(yōu)化算法的混合使用:目前基于實(shí)數(shù)編碼的遺傳算法也被廣泛用于優(yōu)化問題中,如多目標(biāo)優(yōu)化IW,凸輪輪廓設(shè)汁等。選擇操作。選擇是指從群體中選擇優(yōu)良的個體并淘汰劣質(zhì)個體的操作。它建立在適應(yīng)度評估的基礎(chǔ)上,遺應(yīng)度楚大的個體,被選擇的可能性就越大,它的吁孫"在下一代的個數(shù)就越多。選擇出來的個體被放入配對庫中。目前常用的選擇方法有輪盤賭方法、最佳個體保留法、期望值法和排序選擇法等。)交叉操作。交叉是指兩個父代個體的部分結(jié)構(gòu)加W替換重組而生成新個體的操作,目的是為了能夠在下一代產(chǎn)生新的個體。通過交叉操作,遺傳算法的搜索能力得W提高。交叉是遺傳算法獲取新優(yōu)良個體最重要的手段,按照一定的交叉概率在配對庫中隨機(jī)地選取兩個個體進(jìn)行交叉,交叉的位置也是隨機(jī)確定的。4)變異。變異就是很小的變異概率隨機(jī)地改變?nèi)后w中個體的某些基因的值。變異操作中位置選取的基本過程如下:產(chǎn)生一個在0?1之間的隨機(jī)數(shù),如果小于Pm則進(jìn)行變異操作。④、模擬退火
模擬退火算法來源于固體退火原理,是一種基于概率的算法,將固體加溫至充分高,再讓其徐徐冷卻,加溫時,固體內(nèi)部粒子隨溫升變?yōu)闊o序狀,內(nèi)能增大,而徐徐冷卻時粒子漸趨有序,在每個溫度都達(dá)到平衡態(tài),最后在常溫時達(dá)到基態(tài),內(nèi)能減為最小。模擬退火算法新解的產(chǎn)生和接受可分為如下四個步驟:第一步是由一個產(chǎn)生函數(shù)從當(dāng)前解產(chǎn)生一個位于解空間的新解為;便于后續(xù)的計(jì)算和接受,減少算法耗時,通常選擇由當(dāng)前新解經(jīng)過簡單地變換即可產(chǎn)生新解的方法如,對構(gòu)成新解的全部或部分元素進(jìn)行置換互、換等,注意到產(chǎn)生新解的變換方法決定了當(dāng)前新解的鄰域結(jié)構(gòu),因而對冷卻進(jìn)度表的選取有一定的影響。第二步是計(jì)算與新解所對應(yīng)的目標(biāo)函數(shù)差因。為目標(biāo)函數(shù)差僅由變換部分產(chǎn)生所,第二步是計(jì)算與新解所對應(yīng)的目標(biāo)函數(shù)差因。為目標(biāo)函數(shù)差僅由變換部分產(chǎn)生所,以目標(biāo)函數(shù)差的計(jì)算最好按增量計(jì)算事。實(shí)表明,對大多數(shù)應(yīng)用而言,這是計(jì)算目標(biāo)函數(shù)差的最快方法。第三步是判斷新解是否被接受,判斷的依據(jù)是一個接受準(zhǔn)則,最常用的接受準(zhǔn)則是Metropolis準(zhǔn)則:若揖<0則接受S’作為新的當(dāng)前解5否則以概^xp(-AT/T腰受S’作為新的當(dāng)前解^第四步是當(dāng)新解被確定接受時,用新解代替當(dāng)前解,這只需將當(dāng)前解中對應(yīng)于產(chǎn)生新解時的變換部分予以實(shí)現(xiàn)同,時修正目標(biāo)函數(shù)值即可此。時,當(dāng)前解實(shí)現(xiàn)了一次迭代??稍诖嘶A(chǔ)上開始下一輪試驗(yàn)。而當(dāng)新解被判定為舍棄時,則在原當(dāng)前解的基礎(chǔ)上繼續(xù)下一輪試驗(yàn)。模擬退火算法與初始值無關(guān),算法求得的解與初始解狀態(tài)S(是算法迭代的起點(diǎn))無關(guān);模擬退火算法具有漸近收斂攵性,已在理論上被證明是一種以概率l收斂攵于全局最優(yōu)解的全局優(yōu)化算法;模擬退火算法具有并行性。2、設(shè)計(jì)良好的啟發(fā)式算法上述的啟發(fā)式算法都有一個共同的特點(diǎn):從隨機(jī)的可行初始解出發(fā),才用迭代改進(jìn)的策略,去逼近問題的最優(yōu)解。他們的基本要素:1)隨機(jī)初始可行解;2)給定一個評價函數(shù)(常常與目標(biāo)函數(shù)值有關(guān));3)鄰域,產(chǎn)生新的可行解;4)選擇和接受解得準(zhǔn)則;5)終止準(zhǔn)則。但在啟發(fā)式算法中,局部最優(yōu)值的陷入是無法避免。啟發(fā)式,本質(zhì)上是一種貪心策略,這也在客觀上決定了不符合貪心規(guī)則的更好(或者最優(yōu))解會錯過。那么如何避免陷入局部最優(yōu)呢?隨機(jī)。具體實(shí)現(xiàn)手段上,可以根據(jù)所采用的啟發(fā)式框架來靈活地加入隨機(jī)性。比如遺傳里面,可以在交叉變異時,可以在控制人口策略中,也可以在選擇父本母本樣本時;禁忌里面,可以在禁忌表的長度上體現(xiàn),也可以在解禁策略中使用,等等。這些都要結(jié)合具體問題特定的算例集,需要反復(fù)嘗試摸索才行。參數(shù)的敏感性是一個問題,建議不要超過3個參數(shù),參數(shù)越不敏感越好。不同算例集用不同種子運(yùn)行多次(100次左右才有統(tǒng)計(jì)意義),統(tǒng)計(jì)平均性能即可。需注意全局的隨機(jī)重啟通常來說不是一個好辦法,因?yàn)榈扔谥鲃臃艞壷八阉鹘Y(jié)果,萬不得已不要用,或者就是不用。三個原則應(yīng)該把握:越隨機(jī)越好;越不隨機(jī)越好;二者平衡最好。越隨機(jī)越好沒有隨機(jī)性,一定會陷入局部最優(yōu)。為了獲得更大的找到最優(yōu)解的期望,算法中一定要有足夠的隨機(jī)性。具體體現(xiàn)為魯棒性較好,搜索時多樣性較好。算法的每一步選擇都可以考慮加入隨機(jī)性,但要控制好概率。比如,某個貪心策略下,是以概率1做某一動作,可以考慮將其改為以概率0.999做之前的操作,以剩余概率做其他操作。具體參數(shù)設(shè)置需調(diào)試。越不隨機(jī)越好隨機(jī)性往往是對問題內(nèi)在規(guī)律的一種妥協(xié)。即沒有找到其內(nèi)在規(guī)律,又不知道如何是好,為了獲得更好的多樣性,逼不得已加入隨機(jī)。因此,對給定問題的深入研究才是根本:分辨出哪些時候,某個動作就是客觀上能嚴(yán)格保證最優(yōu)的——這點(diǎn)至關(guān)重要,直接決定了算法性能。最好的算法一定是和問題結(jié)構(gòu)緊密相連的,范范地套用某個啟發(fā)式的框架不會有出色的性能。當(dāng)然,如果不是追求性能至上,而是考慮到開發(fā)效率實(shí)現(xiàn)成本這些額外因素,則另當(dāng)別論。二者平衡最好通常情況下,做好第一點(diǎn),可以略微改善算法性能;做好第二點(diǎn),有希望給算法帶來質(zhì)的提高。而二者調(diào)和后的平衡則會帶來質(zhì)的飛躍。貪心是“自強(qiáng)不息”的精進(jìn),不放過任何改進(jìn)算法的機(jī)會;多樣性的隨機(jī)是“厚德載物”的一分包容,給那些目前看似不那么好的解一些機(jī)會。調(diào)和好二者,不偏頗任何一方才能使算法有出色的性能。要把握這種平衡,非一朝一夕之功,只能在反復(fù)試驗(yàn)反思中去細(xì)細(xì)品味。三、本領(lǐng)域應(yīng)用:基于深度神經(jīng)網(wǎng)絡(luò)的自然語言情感分析.深度神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)領(lǐng)域最早是由心理學(xué)家和神經(jīng)學(xué)家開創(chuàng)的,旨在開發(fā)和測試神經(jīng)的計(jì)算機(jī)模擬。粗略地說,神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,其中每個連接都與一個權(quán)重相關(guān)聯(lián)。在學(xué)習(xí)階段,通過調(diào)整這些權(quán)重,能夠預(yù)測輸入元組的正確類標(biāo)號。由于單元之間的連接,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)又稱連接者學(xué)習(xí)(ConnectionistLearning)。神經(jīng)網(wǎng)絡(luò)需要很長的訓(xùn)練時間,對于有足夠長訓(xùn)練時間的應(yīng)用更為合適。需要大量的參數(shù),通常主要靠經(jīng)驗(yàn)確定,如網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)常常因?yàn)榭山忉屝圆疃艿脚u。例如,人們很難解釋網(wǎng)絡(luò)中學(xué)習(xí)的權(quán)重和“隱含單元”的符號意義。然而,神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)包括其對噪聲數(shù)據(jù)的高承受能力,以及對未經(jīng)訓(xùn)練的數(shù)據(jù)模式分類能力。在缺乏屬性和類之間的聯(lián)系的知識時可以使用它們。不像大部分決策樹算法,它們非常適合連續(xù)值的輸入和輸出。神經(jīng)網(wǎng)絡(luò)算法是固有并行的,可以使用并行技術(shù)來加快計(jì)算過程。有許多不同類型的神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)算法,最流行的神經(jīng)網(wǎng)絡(luò)算法是后向傳播,它在20世紀(jì)80年代就獲得了聲望。L-a^erLs 回色rL3圖1神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖上圖描述的是一個目前研究最為成熟Shallow結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)(只含有單層隱藏層神經(jīng)元的結(jié)構(gòu))。第一層為輸入層(inputlayer),第二層稱為隱藏層(hiddenlayer),最后一層為輸出層(outputlayer)。神經(jīng)元之間都是由低層出發(fā),終止于高層神經(jīng)元的一條有向邊進(jìn)行連接,每條邊都有自己的權(quán)重。每個神經(jīng)元都是一個計(jì)算單元,如在Feed-forwardneuralnetwork中,除輸入層神經(jīng)元外,每個神經(jīng)元為一個計(jì)算單元,可以通過一個計(jì)算函數(shù)f(x)來表示,函數(shù)的具體形式可以自己定義,現(xiàn)在用的較多的是感知器計(jì)算神經(jīng)元,如果你對感知器有所了解的話,理解起來會容易很多??梢杂?jì)算此時神經(jīng)元所具有的能量值,當(dāng)該值超過一定閥值的時候神經(jīng)元的狀態(tài)就會發(fā)生改變,神經(jīng)元只有兩種狀態(tài),激活或未激活。在實(shí)際的人工神經(jīng)網(wǎng)絡(luò)中,一般是用一種概率的方式去表示神經(jīng)元是否處于激活狀態(tài),可以用h(f)來表示,f代表神經(jīng)元的能量值,h(f)代表該能量值使得神經(jīng)元的狀態(tài)發(fā)生改變的概率有多大,能量值越大,處于激活狀態(tài)的概率就越高。到這部分你已經(jīng)接觸到了關(guān)于神經(jīng)網(wǎng)絡(luò)的幾個基本術(shù)語,下面用更加規(guī)范的符號來表示,神經(jīng)元的激活值(activations)f(x),表示計(jì)算神經(jīng)元的能量值,神經(jīng)元的激活狀態(tài)h(f),h表示激活函數(shù)。激活函數(shù)有好幾種形式,這里列舉兩種如下:=1+&一以 f?=tftI倒a=深度神經(jīng)網(wǎng)絡(luò)有三個主要環(huán)節(jié):第一,用無監(jiān)督方式訓(xùn)練系統(tǒng),即用大量未標(biāo)注樣本逐層提煉,無導(dǎo)向自動形成特征。這一過程類似于人通過眼、耳等感官系統(tǒng)接收圖像、聲音信息后,自動在腦中形成不同類別信息印象。第二,調(diào)準(zhǔn)。這一過程用一些己標(biāo)注樣本對特征分類,并根據(jù)分類結(jié)果進(jìn)一步調(diào)整系統(tǒng)參數(shù),優(yōu)化系統(tǒng)在區(qū)分不同類別信息上的性能。第三,測試,用系統(tǒng)未見識過的樣本數(shù)據(jù)檢驗(yàn)系統(tǒng)學(xué)習(xí)效果,例如樣本正確分類率、質(zhì)量評估與主觀評估關(guān)聯(lián)度等。.自然語言處理之情感分析在自然語言處理領(lǐng)域中,其中一個重要的子研究模塊為情感分析。情感分析,也稱為觀點(diǎn)挖掘,指的是分析說話者在傳達(dá)信息時所隱含的情況狀態(tài)、態(tài)度、意見進(jìn)行判斷或者評估。目前,情感分析的主要研究方法還是一些基于機(jī)器學(xué)習(xí)的傳統(tǒng)算法,例如,SVM、信息熵CRF等。這些方法歸納起來有3類:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。而當(dāng)前大多數(shù)基于有監(jiān)督學(xué)習(xí)的研究取得了不錯的成績。但有監(jiān)督學(xué)習(xí)依賴于大量人工標(biāo)注的數(shù)據(jù),而且由于人的主觀理解不同,樣本標(biāo)注的標(biāo)注很難確立,也很難保證標(biāo)注樣本的質(zhì)量。相反的,無監(jiān)督學(xué)習(xí)不需要人工標(biāo)注數(shù)據(jù)訓(xùn)練模型,降低標(biāo)注的代價。.深度神經(jīng)網(wǎng)絡(luò)下的微博文本情感分析微博是手機(jī)短信、社交網(wǎng)站、博客等的集成者,它正在從各個方面滲透并影響人們的生活,包括大量的信息傳播、飛快的信息發(fā)現(xiàn),以及與世界的連接等。因而吸引了很多學(xué)者對微博的研究。而分析和監(jiān)測微博短文本內(nèi)容中所包含的情感信息,可以了解大眾對熱點(diǎn)事件的關(guān)注程度和情感變化,從而能夠輔助評估和掌握熱點(diǎn)事件的發(fā)展?fàn)顩r.然而,由于微博的短文本上下文信息數(shù)據(jù)是有限的,因而對于研究其情感具有挑戰(zhàn)性。為了能更有效地解決這一任務(wù),需要更加嚴(yán)謹(jǐn)?shù)姆绞綇奈⒉┨拥亩叹渥酉⒅谐槿〕鲂畔ⅰτ谝黄┛?,整篇的情感傾向性一般較明確,其中正向情感表示褒義類:贊揚(yáng)、喜悅、歌頌等;負(fù)向情感表示貶義類:貶斥、悲哀、嫉妒等。而篇章的每個句子的情感傾向性可能不同,因此本文提出的研究方案是使用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)避免顯式特征提取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)。.CNN模型情感分類過程現(xiàn)采用卷積神經(jīng)網(wǎng)絡(luò)CNN進(jìn)行情感分析的分類器訓(xùn)練。卷積神經(jīng)網(wǎng)絡(luò)是一個多層的神經(jīng)網(wǎng)絡(luò)每層都是一個變換(B映射)常用卷積convention變換和pooling池化變換,每種變換都是對輸入數(shù)據(jù)的一種處理,是輸入特征的另一種特征表達(dá);CNN網(wǎng)絡(luò)結(jié)構(gòu)主要由三部分組成:輸入層、隱層和輸出層。隱層主要分為2類:(1)卷積層,用于提取特征;(2)下采樣層,用于特征優(yōu)化選取。圖2所示為卷積神經(jīng)網(wǎng)絡(luò)用于對訓(xùn)練樣本進(jìn)行卷積的工作流程。調(diào)練旅睥杼率T崎機(jī)選取#.歸初I蛤化-——卷朝 X.'L抽樣制?—??ITi?」 )-;― N展向傳播.帙網(wǎng)緒極伯I 一與否癡■■足雷到達(dá)訓(xùn)嫌次戴「■■詼并小于限定跟江
廠-1
圖2卷積網(wǎng)絡(luò)工作流程給定一個微博短文本句子,ChrSeCNN為每個情感標(biāo)簽計(jì)算分值華丁,為了計(jì)算每一個短文本句子的分值,該網(wǎng)絡(luò)將每個漢字在句子中的序列作為輸入,并通過一個序列的層,抽取出特征。該網(wǎng)絡(luò)抽取的特征是從漢字級到句子級進(jìn)行抽取。文中提出的神
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海技術(shù)服務(wù)合同的賠償范圍
- 標(biāo)準(zhǔn)全款購房合同格式
- 網(wǎng)店服務(wù)合同的權(quán)益保護(hù)
- 項(xiàng)目服務(wù)合同范式
- 電纜購銷協(xié)議樣本
- 標(biāo)準(zhǔn)招標(biāo)文件的流程
- 簡單耗材采購合同格式
- 學(xué)生犯錯保證書撰寫要點(diǎn)
- 商業(yè)服務(wù)合同的物聯(lián)網(wǎng)整合
- 房產(chǎn)貸款抵押合同范本
- 2024年公共管理學(xué)考試題庫及答案
- 借用資質(zhì)簽合同模板
- 退休員工返聘審批表
- 鋁錠購銷合同鋁錠銷售合同2024年
- Unit 7 Careers Writing Workshop 申請信講解 教學(xué)設(shè)計(jì)-2023-2024學(xué)年高中英語北師大版2019 選擇性必修第三冊
- 醫(yī)藥行業(yè)藥品配送優(yōu)化服務(wù)方案
- 廣東省深圳市紅嶺中學(xué)2023-2024學(xué)年七年級上學(xué)期分班考試語文試題(解析版)
- 2024年新蘇教版五年級上冊科學(xué)全冊知識點(diǎn)
- Byk助劑說明手冊
- 建筑施工企業(yè)增值稅留抵稅額形成原因及對策建議
- 2024新外研版初一上英語單詞默寫表
評論
0/150
提交評論