基于層次注意力模型的文本分類研究分析 計算機科學(xué)與技術(shù)專業(yè)_第1頁
基于層次注意力模型的文本分類研究分析 計算機科學(xué)與技術(shù)專業(yè)_第2頁
基于層次注意力模型的文本分類研究分析 計算機科學(xué)與技術(shù)專業(yè)_第3頁
基于層次注意力模型的文本分類研究分析 計算機科學(xué)與技術(shù)專業(yè)_第4頁
基于層次注意力模型的文本分類研究分析 計算機科學(xué)與技術(shù)專業(yè)_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

目錄前言 [2]。文本表示模型結(jié)構(gòu)化自注意句嵌入結(jié)構(gòu)及計算模型結(jié)構(gòu)化自注意句嵌入的結(jié)構(gòu)及其提取模型如圖4.1所示。結(jié)構(gòu)化自注意句嵌入的提取模型是從句子的詞嵌入提取出句嵌入的計算模型。該模型的輸入是一個句子所含詞序列的詞嵌入向量序列,輸出是計算取得的結(jié)構(gòu)化自注意句嵌入矩陣。記詞嵌入為xt,則表示句子的詞嵌入序列SS首先,通過基于長短時記憶的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來計算句子中詞序列的隱含層狀態(tài),以獲取包含上下文信息的詞隱含狀態(tài)。在序列中,時序為t的詞隱含層狀態(tài)計算為:??通過連接組合獲取詞的隱含層狀態(tài)?t?整句所含詞序列的隱含層狀態(tài)序列則可表示為H:H此處,H的維度為n×2u。其中,u表示長短時記憶的單元數(shù)。由于采用了雙向長短時記憶進行循環(huán)神經(jīng)網(wǎng)絡(luò)計算,因此,每一個詞的隱含層狀態(tài)向量長度均為2u。注意力機制通過計算注意力權(quán)重實現(xiàn)對序列內(nèi)各詞不同的注意效果,注意力機制計算的注意力權(quán)重向量a的方式為:a其中,uw是詞序列級別的上下文向量,在訓(xùn)練中習(xí)得。此處,注意力機制產(chǎn)生的是1×n在結(jié)構(gòu)化自注意中,我們需要提取出多重含義,因此需要提取出多個注意力權(quán)重向量,即提取出注意力權(quán)重矩陣。假設(shè)提取r重注意力,那么注意力權(quán)重矩陣A可如下計算:A其中,Uw是以uw為參照的上下文矩陣。相較傳統(tǒng)注意力機制中,維度為1×da的注意力向量u,自注意結(jié)構(gòu)采用的注意力矩陣維度為r取得自注意權(quán)重矩陣后,即可與句子的詞序列隱含層狀態(tài)矩陣H相乘計算結(jié)構(gòu)化自注意句嵌入M:M至此,我們計算得到了結(jié)構(gòu)化自注意句嵌入的結(jié)果,其維度為r×2u,代表句子的r重語義。結(jié)構(gòu)化自注意句嵌入的懲罰項結(jié)構(gòu)化自注意句嵌入在模型訓(xùn)練時會遇到冗余問題。句嵌入矩陣中的各行如不采取措施控制,經(jīng)過訓(xùn)練會出現(xiàn)及其相似的情況,因此造成句嵌入矩陣所提取的多重語義信息高度重復(fù),造成冗余。為了解決結(jié)構(gòu)化自注意句嵌入的冗余問題,需要在代價函數(shù)中加入懲罰項,將對冗余度的懲罰計入損失。對注意力權(quán)重矩陣的冗余度的控制可以實現(xiàn)控制最終句嵌入矩陣冗余度的目的。對注意力權(quán)重矩陣的冗余度的量化可以通過如下計算實現(xiàn),懲罰項P為:P其中,A為注意力權(quán)重矩陣,I為單位矩陣(Identity/Unitmatrix),?F表示弗羅貝尼烏斯范數(shù)(Frobeniusnorm在層次注意力網(wǎng)絡(luò)中引入結(jié)構(gòu)化自注意句嵌入引入結(jié)構(gòu)化自注意句嵌入機制后,原層次注意力網(wǎng)絡(luò)模型中的句嵌入從向量形式變成了矩陣形式。對于相應(yīng)變?yōu)榫S度為r×2u的文本表示二維矩陣,將其視為r個長度為2u層面層面注意力αααv??v??v??udoc層面編碼器圖4.2層面編碼器與層面注意力結(jié)構(gòu)圖本文對層次注意力網(wǎng)絡(luò)的修改基于這樣的認(rèn)知假設(shè):一個句子具有多重語義含義,那么句子組成的文本也具有多重語義含義。文本的各重含義不是孤立存在的,不會相互保持獨立、毫無關(guān)聯(lián),而是互相影響。文本的整體語義由文本的各層面語義構(gòu)成,且各層面的語義對文本的整體語義重要性不同?;谶@樣的認(rèn)知假設(shè),我在句嵌入以上的上層結(jié)構(gòu)加入了層面級,包含層面編碼器和層面注意力,引入與層次注意力網(wǎng)絡(luò)中相同的編碼器、注意力機制實現(xiàn)對多層面語義的處理:層面編碼器層面編碼器的輸入是句注意力層輸出的文本表示矩陣,將其作為r個不同層面的文本表示向量,輸出是包含各層面上下文語義和自身層面語義的文本隱含狀態(tài)。處理方式與詞、句編碼器一致:???至此,計算得到了各層語義的隱含狀態(tài)?i層面注意力機制層面注意力機制的輸入是層面編碼器輸出文本的r個各層面的隱含狀態(tài),輸出是經(jīng)過注意力機制加權(quán)平均處理后的文本特征向量。uαdoc至此,計算得到了文本包含各層面語義信息的文本特征向量doc。分類器模型分類器部分在基于層次注意力網(wǎng)絡(luò)的文本分類實驗基礎(chǔ)上,因引入結(jié)構(gòu)化自注意句嵌入機制,需要進行相應(yīng)地修改。在損失函數(shù)中,我們需要加入懲罰項,并設(shè)置懲罰系數(shù)實現(xiàn)對懲罰度的調(diào)參控制。Loss此處,coefp是對應(yīng)與懲罰項P實驗基于層次注意力網(wǎng)絡(luò)的文本分類實驗整體的不同,引入結(jié)構(gòu)化自注意句嵌入機制后,模型復(fù)雜度增大,訓(xùn)練耗時增長。因此,為了平衡模型訓(xùn)練程度與時間代價,本文對實驗過程做了相應(yīng)調(diào)整。為了能夠與基于層次注意力網(wǎng)絡(luò)的文本分類進行對比,本文實驗同樣基于調(diào)整后的數(shù)據(jù)集、參數(shù)等,重新訓(xùn)練并取得了層次注意力模型的文本分類數(shù)據(jù)作為對照實驗。數(shù)據(jù)集數(shù)據(jù)集與第三章實驗一致,采用Yelpreview數(shù)據(jù)集和YahooAnswers數(shù)據(jù)集。考慮到Y(jié)elpreview包含4736897條點評文本,達到了470萬條的規(guī)模,較為龐大。結(jié)合實驗中的實際情況,在基于結(jié)構(gòu)化自注意句嵌入的層次注意力網(wǎng)絡(luò)模型文本分類實驗中,從Yelpreview數(shù)據(jù)中取50萬條以便縮短訓(xùn)練時間,加快模型迭代速度,更快地取得實驗數(shù)據(jù)以便研究分析。提取出的數(shù)據(jù)以隨機分布處理,按98%、3%、2%的比例劃分?jǐn)?shù)據(jù)集為訓(xùn)練集、開發(fā)集、測試集。YahooAnswers數(shù)據(jù)集為第三章實驗中提取的十主題分類的問答數(shù)據(jù),因提取后約150萬條的數(shù)據(jù)量規(guī)模適中,因此處理方式與基于層次注意力網(wǎng)絡(luò)的文本分類實驗中保持一致。訓(xùn)練、調(diào)參等實驗細(xì)節(jié)說明實驗中采用小批訓(xùn)練,每批包含64條文本。詞、句、層面各層神經(jīng)循環(huán)神經(jīng)網(wǎng)絡(luò)均采用門式循環(huán)單元,為加快迭代,設(shè)置單元數(shù)為50。為加快模型擬合速度,將學(xué)習(xí)率提高至0.01,采用學(xué)習(xí)率衰減機制,以指數(shù)學(xué)習(xí)率衰減隨訓(xùn)練步數(shù)縮小學(xué)習(xí)率,衰減率為0.9,衰減步長為200。為避免學(xué)習(xí)率衰減在大數(shù)據(jù)集上因訓(xùn)練步數(shù)較大而持續(xù)衰減至極小,實驗中在學(xué)習(xí)率衰減機制后通過TensorFlow框架的clip機制控制學(xué)習(xí)率衰減下限,具體使用clip_by_value方法并設(shè)置學(xué)習(xí)率衰減下限為0.0001。在詞、句及層面注意力機制輸出處均建立dropout機制以避免過擬合,留存率為0.5。在實驗過程中,發(fā)現(xiàn)如果懲罰系數(shù)設(shè)置過大,易在模型訓(xùn)練梯度下降時,出現(xiàn)數(shù)值nan錯誤(NotANumber)造成訓(xùn)練失效問題。因此調(diào)參時應(yīng)注意控制懲罰系數(shù)大小,懲罰項不應(yīng)過大??s小懲罰系數(shù)后,模型擬合即恢復(fù)正常。實驗結(jié)果及分析對Yelpreview數(shù)據(jù)集,實驗設(shè)置懲罰系數(shù)為0.2,學(xué)習(xí)率衰減步長100,在句嵌入層面數(shù)r=對YahooAnswers數(shù)據(jù)集根據(jù)Yelpreview數(shù)據(jù)集上的懲罰系數(shù)0.1,學(xué)習(xí)率衰減步長200進行實驗。表4.1基于層次注意力網(wǎng)絡(luò)(HAN)的文本分類及基于結(jié)構(gòu)化自注意句嵌入的層次注意力網(wǎng)絡(luò)(HAN-SA)文本分類實驗數(shù)據(jù)對比(數(shù)值為準(zhǔn)確率,單位為%;注:r=1時,HAN-SA模型無需懲罰冗余度,懲罰系數(shù)p-coef為0;HAN模型無r值,無冗余度懲罰項,學(xué)習(xí)率衰減步長lr-decayStep均按200設(shè)置)數(shù)據(jù)集p-coef/lr-decayStepHAN-SAr=1*HAN-SAr=5HAN-SAr=10HAN-SAr=15HAN*Yelpreview0.2/10064.1865.1365.9153.2167.110.1/20064.7865.0766.2965.95YahooAnswers74.0772.9773.2073.5474.93另外,作為本章結(jié)構(gòu)化自注意句嵌入改進實驗的對照組,設(shè)置標(biāo)準(zhǔn)層次注意力網(wǎng)絡(luò)模型訓(xùn)練時的學(xué)習(xí)率衰減步長為相同的200并進行實驗。圖4.3不同的層面數(shù)r在Yelpreview和YahooAnswers數(shù)據(jù)集上的文本分類表現(xiàn)(數(shù)值為準(zhǔn)確率,單位為%;注:懲罰系數(shù)p-coef為0.1,學(xué)習(xí)率衰減步長lr-decayStep為200)根據(jù)對懲罰項系數(shù)p-coef、學(xué)習(xí)率衰減步長lr-decayStep和層面數(shù)r的調(diào)參實驗對比,最終選取懲罰項系數(shù)0.1、學(xué)習(xí)率衰減步長200作為HAN和HAN-SA模型參數(shù),選取層面數(shù)10作為應(yīng)用于Yelpreview的HAN-SA模型的參數(shù),選取層面數(shù)15作為應(yīng)用于YahooAnswers的HAN-SA模型的參數(shù)。根據(jù)模型的調(diào)參結(jié)果,在測試集上對HAN-SA模型和HAN模型進行測試檢驗,實驗結(jié)果如表4.2。表4.2HAN-SA模型和HAN模型的調(diào)參結(jié)果對比測試(數(shù)值為準(zhǔn)確率,單位為%)測試模型YelpreviewYahooAnswersHAN-SA66.1273.39HAN67.2374.78結(jié)合實驗數(shù)據(jù)進行分析,如表4.1、表4.2和圖4.3,可以發(fā)現(xiàn):在HAN-SA的實驗數(shù)據(jù)對比中,層面數(shù)r值對文本分類表現(xiàn)的影響因數(shù)據(jù)集情況而異。對Yelpreview數(shù)據(jù)集,較大的層面數(shù)r值總體而言提升了文本分類準(zhǔn)確率。對YahooAnswers數(shù)據(jù)集,較大的層面數(shù)r值反而劣化了文本分類準(zhǔn)確率。Yelpreview數(shù)據(jù)集為餐飲、旅宿消費點評,屬于情感分類,YahooAnswers數(shù)據(jù)集為互聯(lián)網(wǎng)知識問答數(shù)據(jù),屬于主題分類。結(jié)構(gòu)化自注意句嵌入機制對句子語義的特征提取能力的提升需要結(jié)合實際使用場景進行分析和運用。在HAN與HAN-SA的實驗數(shù)據(jù)對比中,盡管在本次實驗的多組實驗數(shù)據(jù)中,HAN-SA模型的文本分類準(zhǔn)確率逼近HAN模型的文本分類水平,但以實際的實驗數(shù)據(jù)而言,HAN仍然保持更高的文本性能,且HAN模型結(jié)構(gòu)相比更簡單,計算更快,更利于機器學(xué)習(xí)訓(xùn)練迭代。引入結(jié)構(gòu)化自注意句嵌入模型作為本文在研究層次注意力網(wǎng)絡(luò)模型基礎(chǔ)之上的創(chuàng)新嘗試,相較于標(biāo)準(zhǔn)的層次注意力網(wǎng)絡(luò)模型,在實際的實驗中未能實現(xiàn)理想的文本分類準(zhǔn)確率提升效果。分析原因可能包含:實驗中對模型參數(shù)的調(diào)試可能仍有深入和提升的空間;引入結(jié)構(gòu)化自注意句嵌入模型后,對層次注意力網(wǎng)絡(luò)模型的結(jié)構(gòu)進行的相應(yīng)的增改可能未能契合文本本身的結(jié)構(gòu)特性,劣化了文本特征提取的性能;結(jié)構(gòu)化自注意句嵌入模型的特征提取性能建立在對句子多層面語義的提取和表示之上,對文本分類準(zhǔn)確率的實際影響可能與數(shù)據(jù)集的文本內(nèi)容有關(guān);結(jié)構(gòu)化自注意句嵌入模型的特征提取性能可能依賴于長短時記憶結(jié)構(gòu);結(jié)構(gòu)化自注意句嵌入模型可能不適用于層次注意力網(wǎng)絡(luò)模型,劣化了文本特征提取性能;總結(jié)與展望本章對本文的文本分類研究進行總結(jié),對未來的文本分類研究提出展望。總結(jié)文本分類問題作為自然語言處理領(lǐng)域的基礎(chǔ)性問題,對眾多領(lǐng)域應(yīng)用有著廣泛的影響。文本分類技術(shù)的研究水平很大程度上決定了情感分析、主題標(biāo)記、垃圾/有害信息攔截等諸多上層應(yīng)用的實現(xiàn)水平。本文概述了文本分類技術(shù)發(fā)展歷程,解釋了文本分類系統(tǒng)的主要結(jié)構(gòu),介紹了自基于統(tǒng)計的自然語言處理誕生以來,文本分類技術(shù)的主要類別及各類典型技術(shù),并依據(jù)近年相關(guān)研究的實驗數(shù)據(jù)統(tǒng)計,進行了對比與分析。本文主要研究基于層次注意力模型的文本分類方法,介紹了該模型的誕生背景和主要思想,闡述了該模型的多層結(jié)構(gòu)與計算原理,完成了基于該模型的文本分類實驗,并進一步實現(xiàn)了對層次注意力的可視化輸出與分析。在主要研究基于層次注意力網(wǎng)絡(luò)模型的文本分類基礎(chǔ)之上,本文嘗試了對層次注意力網(wǎng)絡(luò)模型進行改進,引入了結(jié)構(gòu)化自注意句嵌入模型,用于層次注意力模型的句嵌入。結(jié)合句嵌入模型的修改,本文對層次注意力網(wǎng)絡(luò)模型的結(jié)構(gòu)做了適應(yīng)性改進,并完成了基于該修改模型的文本分類實驗,給出了實驗數(shù)據(jù)對比與分析。展望文本表示的質(zhì)量,即文本特征提取的水平,是影響文本分類水平的核心因素。詞/句嵌入、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長短時記憶及循環(huán)神經(jīng)單元、注意力機制、層次結(jié)構(gòu)的不斷提出與流行逐步提升了文本特征提取的精細(xì)程度,提升了文本表示的質(zhì)量,推動了文本分類水平的提高。因此,未來對文本分類的研究可以關(guān)注于文本特征提取,在文本表示上嘗試創(chuàng)新,例如:引入對語句的句法信息的分析處理,以便在詞、句等注意力的學(xué)習(xí)過程中提供修正。本文所實現(xiàn)的基于結(jié)構(gòu)化自注意句嵌入的層次注意力網(wǎng)絡(luò)模型,在文本分類實驗中仍存在不足,未能超越層次注意力網(wǎng)絡(luò)模型的文本分類水平。結(jié)構(gòu)化自注意句嵌入機制的特征提取特性與合適的應(yīng)用場景值得進一步研究。在文本分類的分類器設(shè)計中,本文均使用的是多層感知器結(jié)構(gòu),具體為單隱含層的全連接神經(jīng)網(wǎng)絡(luò),是常見的分類器設(shè)計。未來對文本分類的研究也可以對分類器嘗試研究與創(chuàng)新,例如:是否可以通過更復(fù)雜的分類器模型實現(xiàn)對復(fù)雜分類問題實現(xiàn)更加精細(xì)、準(zhǔn)確的分類,并處理好復(fù)雜分類器模型可能存在的過擬合問題。參考文獻ZichaoYang,DiyiYang,ChrisDyer,XiaodongHe,AlexSmola,EduardHovy.Hierarchicalattentionnetworksfordocumentclassification[C]//Proceedingsofthe2016ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.2016:1480-1489.ZhouhanLin,MinweiFeng,CiceroNogueiradosSantos,MoYu,BingXiang,BowenZhou,YoshuaBengio.Astructuredself-attentivesentenceembedding[J].arXivpreprintarXiv:1703.03130,2017.WeAreSocial,Hootsuite.GlobalDigitalReport2018[EB/OL]./blog/2018/01/global-digital-report-2018.,2018.WeAreSocial,Hootsuite.Digitalin2017GlobalOverview[EB/OL]./special-reports/digital-in-2017-global-overview.,2017.WeAreSocial,Hootsuite.Digitalin2016[EB/OL]./special-reports/digital-in-2016.,2016.WeAreSocial,Hootsuite.DigitalSocialMobileWorldwide2015[EB/OL]./special-reports/digital-social-mobile-worldwide-2015.,2015.WeAreSocial,Hootsuite.DigitalSocialMobileWorldwide2014[EB/OL]./blog/2014/01/social-digital-mobile-worldwide-2014.,2014.DzmitryBahdanau,KyungHyunCho,YoshuaBengio.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[J].arXivpreprintarXiv:1409.0473,2014.MehranSahami,SusanDumais,DavidHeckerman,EricHorvitz.ABayesianapproachtofilteringjunke-mail[C]//LearningforTextCategorization:Papersfromthe1998workshop.1998,62:98-105.AndrewL.Maas,RaymondE.Daly,PeterT.Pham,DanHuang,AndrewY.Ng,ChristopherPotts.Learningwordvectorsforsentimentanalysis[C]//Proceedingsofthe49thannualmeetingoftheassociationforcomputationallinguistics:Humanlanguagetechnologies-volume1.AssociationforComputationalLinguistics,2011:142-150.SidaWangandChristopherD.Manning.Baselinesandbigrams:Simple,goodsentimentandtopicclassification[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:ShortPapers-Volume2.AssociationforComputationalLinguistics,2012:90-94.TomasMikolov,HyaSutskever,KaiChen,GregCorrado,JeffreyDean.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C]//Advancesinneuralinformationprocessingsystems.2013:3111-3119.SvetlanaKiritchenko,XiaodanZhu,SaifM.Mohammad.Sentimentanalysisofshortinformaltexts[J].JournalofArtificialIntelligenceResearch,2014,50:723-762.DuyuTang,FuruWei,NanYang,MingZhou,TingLiu,BingQin.Learningsentiment-specificwordembeddingfortwittersentimentclassification[C]//Procee

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論