電網(wǎng)文檔分類技術(shù)-基于循環(huán)注意力機(jī)制的文檔快速掃描定性方法

上傳人：1*** IP屬地：河北上傳時間：2023-11-20 格式：DOCX 頁數(shù)：8 大?。?3.60KB 積分：3.6 舉報 版權(quán)申訴

電網(wǎng)文檔分類技術(shù)-基于循環(huán)注意力機(jī)制的文檔快速掃描定性方法_第2頁

電網(wǎng)文檔分類技術(shù)-基于循環(huán)注意力機(jī)制的文檔快速掃描定性方法_第3頁

電網(wǎng)文檔分類技術(shù)-基于循環(huán)注意力機(jī)制的文檔快速掃描定性方法_第4頁

電網(wǎng)文檔分類技術(shù)-基于循環(huán)注意力機(jī)制的文檔快速掃描定性方法_第5頁

已閱讀5頁，還剩3頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

[全]電網(wǎng)文檔分類技術(shù)-基于循環(huán)注意力機(jī)制的文檔快速掃描定性方法自然語言處理(NLP)技術(shù)是計算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。目前NLP最流行的方法還是機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)，比如WordEmbedding(詞嵌入)、RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、LSTM(長短期記憶網(wǎng)絡(luò))、CNN(卷積神經(jīng)網(wǎng)絡(luò))等主流的深度神經(jīng)網(wǎng)絡(luò)在NLP中的應(yīng)用，這已經(jīng)是目前主流的研究方向。目前，在文檔定性分類方面，最經(jīng)典的結(jié)構(gòu)就是CNN(卷積神經(jīng)網(wǎng)絡(luò))，它的結(jié)構(gòu)比較簡單，使用長度不同的filter(濾波器)對文檔矩陣進(jìn)行卷積，filter的寬度等于詞向量的長度，然后使用max-pooling(最大池化)對每一個filter提取的向量進(jìn)行操作，最后每一個filter對應(yīng)一個數(shù)字，把這些filter拼接起來，就得到了一個表征該句子的向量，最后的預(yù)測都是基于該句子的。該模型作為一個經(jīng)典的模型，是很多其他領(lǐng)域論文里的實驗參照。但是對于文檔定性，比如CNN(卷積神經(jīng)網(wǎng)絡(luò))、LSTM(長短期記憶網(wǎng)絡(luò))等方法，大多數(shù)適用于短文檔。但對于長文檔，這些方法會導(dǎo)致模型變得非常龐大，并不適用。用關(guān)鍵詞方法檢索敏感信息，這種方法需要對全文進(jìn)行檢索，準(zhǔn)確性不高，效率低下，缺乏了上下文的關(guān)聯(lián)性，并且有些關(guān)鍵詞并不主導(dǎo)文檔的主要性質(zhì)。問題拆分獲取訓(xùn)練數(shù)據(jù)集，在預(yù)處理階段，將整個文檔轉(zhuǎn)換為詞向量矩陣，詞向量矩陣通過含有循環(huán)注意力機(jī)制的文檔檢測模型，包括卷積神經(jīng)網(wǎng)絡(luò)模塊、最大池化模塊、循環(huán)神經(jīng)網(wǎng)絡(luò)模塊，利用回報函數(shù)得出回報值reward，訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)，優(yōu)化模型參數(shù)，測試模型準(zhǔn)確率。本發(fā)明的方法基于注意力機(jī)制，引入了強(qiáng)化學(xué)習(xí)的訓(xùn)練方法，適應(yīng)性更強(qiáng)，并且不需要對全文進(jìn)行檢索，而是通過處理文檔中的局部信息，智能快速的預(yù)測出文檔中特定的位置，在有限的次數(shù)內(nèi)，快速掃描探索找出最能夠代表文檔特征的句子，即分類概率最大的句子，這些句子能夠最大化的表示該文檔的類型。問題解決通過若干次探索找出最能夠代表文檔特征的句子，即分類概率最大的句子，在給定的步數(shù)里面，最快的掃描檢測出含有標(biāo)簽的那些句子，從而對文檔作定性分析。本發(fā)明采用如下技術(shù)方案，一種基于循環(huán)注意力機(jī)制的文檔快速掃描定性方法，該方法首先需要訓(xùn)練一個由卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及強(qiáng)化學(xué)習(xí)結(jié)合起來的端到端的模型，所使用的訓(xùn)練數(shù)據(jù)是大量的文檔及其標(biāo)簽(該標(biāo)簽即為文檔的類別)，訓(xùn)練目標(biāo)是通過幾次對文檔的句子做探索，可以最大化的輸出最能夠代表該文檔特征的若干句子，這些句子能夠最大化的表示該文檔的性質(zhì)類型，其特征在于，具體步驟如下：(1)獲取訓(xùn)練數(shù)據(jù)集，擬定數(shù)據(jù)集中的文檔的標(biāo)簽；(2)在預(yù)處理階段，將文檔分成句子，再對句子進(jìn)行分詞，然后對每一個詞使用word2vec詞向量訓(xùn)練模型將其轉(zhuǎn)化為詞向量，由此將句子轉(zhuǎn)化成一個由詞向量組成的矩陣，從而將整個文檔轉(zhuǎn)換為詞向量矩陣；(3)詞向量矩陣通過含有循環(huán)注意力機(jī)制的文檔檢測模型，包括卷積神經(jīng)網(wǎng)絡(luò)模塊、最大池化模塊、循環(huán)神經(jīng)網(wǎng)絡(luò)模塊，具體步驟為：31)隨機(jī)選取一個位置t，利用一個一維的卷積神經(jīng)網(wǎng)絡(luò)來提取位置t的句子的每個詞的語義信息特征，再經(jīng)過最大池化降維，輸出每個句子的特征向量；32)將每個句子的特征向量和上個時間步驟輸出的隱含狀態(tài)ht-1一起輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中進(jìn)行編碼，然后輸出當(dāng)前時間的隱含狀態(tài)ht；33)將循環(huán)神經(jīng)網(wǎng)絡(luò)輸出的隱含狀態(tài)ht輸入到一個強(qiáng)化學(xué)習(xí)模塊，輸出對下一個位置的索引預(yù)測Lt+1；34)找到下一個位置t+1，將位置t+1的句子輸入一個一維的卷積神經(jīng)網(wǎng)絡(luò)，提取每個詞的特征，隨后經(jīng)過最大池化降維得到特征向量，然后，再將上一步輸出的位置索引預(yù)測Lt+1與特征向量通過一個RELU修正線性單元模塊進(jìn)行線性加和，再輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)之中；35)循環(huán)神經(jīng)網(wǎng)絡(luò)運(yùn)行到最后一步時，輸出的隱含狀態(tài)通過一個分類器，輸出整篇文檔的標(biāo)簽分布概率P；(4)利用回報函數(shù)得出回報值reward；(5)訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)，優(yōu)化文檔檢測模型參數(shù)；(6)獲取測試數(shù)據(jù)集，擬定測試數(shù)據(jù)集中的文檔的標(biāo)簽，測試文檔檢測模型準(zhǔn)確率。優(yōu)選地，步驟(3)中卷積神經(jīng)網(wǎng)絡(luò)的卷積核個數(shù)為256。優(yōu)選地，在步驟(4)中，回報函數(shù)的流程為：a)步驟(3)中輸出的P為一組和為1的數(shù)組，數(shù)組中較大的概率所對應(yīng)的下標(biāo)即為預(yù)測的文檔標(biāo)簽,同時輸出含有預(yù)測的文檔標(biāo)簽的句子，作為代表文檔特征的句子；b)將步驟a)中得到的預(yù)測的文檔標(biāo)簽與步驟(1)中的文檔的標(biāo)簽作比對，如果相同則回報值reward的值為1，不同則回報值reward的值為0。優(yōu)選地，步驟(5)中的訓(xùn)練優(yōu)化的目標(biāo)是最優(yōu)化目標(biāo)函數(shù)，最小化代價函數(shù)，代價函數(shù)包括分類的代價函數(shù)和強(qiáng)化學(xué)習(xí)的代價函數(shù)，具體步驟為：1)分類的代價函數(shù)為交叉熵函數(shù)：利用一組已知標(biāo)簽的樣本調(diào)整分類器的參數(shù)，使代價函數(shù)即交叉熵函數(shù)最小，利用預(yù)測的文檔標(biāo)簽和步驟(1)中文檔的標(biāo)簽，計算出交叉熵C，其中，x表示樣本，n表示樣本的總數(shù)，，y為期望的輸出，即文檔的標(biāo)簽值(0或者1)，a為神經(jīng)元實際輸出，即預(yù)測的文檔標(biāo)簽值(擬定文檔為某一類時標(biāo)簽為1，否則為0)，訓(xùn)練時將交叉熵對權(quán)重的偏導(dǎo)數(shù)反向傳播，更新文檔檢測模型參數(shù)；2)強(qiáng)化學(xué)習(xí)的代價函數(shù)為L(θ)＝logπ(a|s,θ)·(R-b),其中π(a|s)為神經(jīng)網(wǎng)絡(luò)擬合的策略，θ為參數(shù)；logπ(a|s,θ)是在狀態(tài)s下輸出動作a的概率的對數(shù)似然，用以表示智能體的策略，b為基線baseline，R為回報值reward；再利用自適應(yīng)矩估計Adam優(yōu)化器反向更新文檔檢測模型參數(shù)，優(yōu)化強(qiáng)化學(xué)習(xí)的代價函數(shù)，使代價函數(shù)最小化，回報值reward最大化。優(yōu)選地，訓(xùn)練文檔檢測模型時，設(shè)置步數(shù)step為100000步，樣本總數(shù)為1000，每一個分批處理mini_batch的樣本數(shù)量為10，訓(xùn)練開始時的學(xué)習(xí)率learningrate為10-3，設(shè)置衰減因子λ，在每一次訓(xùn)練完全部樣本之后，學(xué)習(xí)率learningrate按照衰減因子λ衰減，隨著訓(xùn)練進(jìn)行，最后學(xué)習(xí)率learningrate變?yōu)?0-4。優(yōu)選地，步驟(6)中，將得出的預(yù)測的文檔標(biāo)簽與測試數(shù)據(jù)集中的文檔的標(biāo)簽對比，如果相同則回報值reward為1，測試文檔之后得出一系列的回報值reward的加和，再除以文檔數(shù)量，得到整個測試文檔的分類準(zhǔn)確率。發(fā)明所達(dá)到的有益效果：本發(fā)明是一種基于循環(huán)注意力機(jī)制的文檔快速掃描定性方法，能夠解決長文檔檢測定性困難的問題，快速掃描定位文檔中敏感信息。與目前流行的基于CNN或者RNN的文檔定性分

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

電網(wǎng)文檔分類技術(shù)-基于循環(huán)注意力機(jī)制的文檔快速掃描定性方法

文檔簡介

溫馨提示

最新文檔

評論

電網(wǎng)文檔分類技術(shù)-基于循環(huán)注意力機(jī)制的文檔快速掃描定性方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔