《文本進行預(yù)處理的相關(guān)理論和技術(shù)綜述》7900字

上傳人：E*** IP屬地：湖北上傳時間：2024-12-31 格式：DOCX 頁數(shù)：14 大小：218.19KB 積分：15 舉報 版權(quán)申訴

《文本進行預(yù)處理的相關(guān)理論和技術(shù)綜述》7900字_第2頁

《文本進行預(yù)處理的相關(guān)理論和技術(shù)綜述》7900字_第3頁

《文本進行預(yù)處理的相關(guān)理論和技術(shù)綜述》7900字_第4頁

《文本進行預(yù)處理的相關(guān)理論和技術(shù)綜述》7900字_第5頁

已閱讀5頁，還剩9頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

文本進行預(yù)處理的相關(guān)理論和技術(shù)綜述目錄TOC\o"1-2"\h\u3281文本進行預(yù)處理的相關(guān)理論和技術(shù)綜述 1302211.1文本預(yù)處理 142761.1.1數(shù)據(jù)收集 1170501.1.2文本分詞 2226641.1.3文本去噪 3164621.1.4文本特征處理 4181731.1.5文本向量化 522631.2基于情感詞典的情感分類 7209341.3基于機器學(xué)習(xí)的情感分類 8232811.3.1支持向量機分類算法 895281.3.2樸素貝葉斯 1081931.3.3邏輯回歸 11168911.4基于深度學(xué)習(xí)的情感分類 1119171.4.1卷積神經(jīng)網(wǎng)絡(luò) 11198021.4.2循環(huán)神經(jīng)網(wǎng)絡(luò) 12本章主要介紹本文所涉及和使用的相關(guān)理論基礎(chǔ)，包括對文本進行預(yù)處理的相關(guān)理論和技術(shù)，基于興趣詞典的情感分類方法，基于機器學(xué)習(xí)的情感分類方法以及基于深度學(xué)習(xí)的情感分類方法。在文本預(yù)處理部分主要介紹了文本特點、數(shù)據(jù)收集、文本去噪、文本特征處理以及文本向量化所涉及的關(guān)鍵技術(shù)。情感分類是近年來自然語言處理領(lǐng)域中較為火熱的研究領(lǐng)域，加之深度學(xué)習(xí)理論的不斷發(fā)展和完善，運用深度學(xué)習(xí)的方法進行情感分類研究逐漸受到研究者的青睞。本章主要從興趣詞典方向、機器學(xué)習(xí)方向和當(dāng)下深度學(xué)習(xí)背景下情感分類使用到的主要方法與相關(guān)理論，包括支持向量機、樸素貝葉斯、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、長短時記憶神經(jīng)網(wǎng)絡(luò)（卷積神經(jīng)網(wǎng)絡(luò)）、以及循環(huán)神經(jīng)網(wǎng)絡(luò)。1.1文本預(yù)處理文本預(yù)處理主要作用是去除一些會影響分類器性能的無用文本并將輸入文本處理成可以識別的格式，而在目前自然語言處理領(lǐng)域中，這些步驟被劃分為正則化、分詞、去停用詞、特征處理以及文本向量化。下面將分別介紹這些步驟涉及的基本理論及主要方法。1.1.1數(shù)據(jù)收集巧婦難為無米之炊，數(shù)據(jù)的收集工作是進行自然語言處理相關(guān)研究的首要工作，可能也會耗費相當(dāng)長一段時間。獲得數(shù)據(jù)集的方式無非就是兩種，使用開源的數(shù)據(jù)集和自己構(gòu)建數(shù)據(jù)集。在進行機器學(xué)習(xí)或深度學(xué)習(xí)任務(wù)時大概率會遇到需要自建數(shù)據(jù)集的情況。自建數(shù)據(jù)集時，通常使用爬蟲的方式獲取原始數(shù)據(jù)，爬蟲的過程可以簡述為使用技術(shù)手段獲取帶有目標(biāo)數(shù)據(jù)的HTML原始數(shù)據(jù)，然后對HTML數(shù)據(jù)進行解析并提取出目標(biāo)數(shù)據(jù)。有很多開源的爬蟲工具庫可供使用，如分布式爬蟲框架Scrapy和解析工具BeautifulSoup庫。爬取到的數(shù)據(jù)比較原始，到形成數(shù)據(jù)集還需經(jīng)過多次文本處理操作。1.1.2文本分詞文本分詞即將語句切分成若干單元的過程，無論是基于哪種情感分類方法，都要先對語句進行一定的處理，將一句話轉(zhuǎn)換為多個詞語，是將自然語言轉(zhuǎn)化到數(shù)學(xué)語言進行處理的必要步驟。按照分詞的算法原理可以將分詞算法劃分為傳統(tǒng)的詞典匹配、基于概率統(tǒng)計的分詞算法和基于語義理解的分詞算法[8]?；谠~典的分詞方法簡單粗暴，在覆蓋度和靈活性上面欠佳?；诟怕式y(tǒng)計的分詞算法目前使用的最為廣泛，效果也很不錯，如常用的jieba分詞工具就是基于這種方法?；谡Z義理解的分詞算法，就是訓(xùn)練具有語義理解功能的算法模型，基于模型對語句語義的理解，切分出構(gòu)成語句的最小單元。Jieba分詞是一個國產(chǎn)的優(yōu)秀開源分詞工具，也是目前中文環(huán)境下最優(yōu)秀的分詞工具之一，該分詞工具基于Trie樹結(jié)構(gòu)來快速的構(gòu)建出所有可能的詞組合，并使用快速的路徑查找算法尋找出現(xiàn)頻率最高的詞組合。其分詞的過程可以做如下描述，jieba使用相關(guān)算法將輸入字符串切分出多種可能的詞序列，然后進行尋找最優(yōu)的詞組，數(shù)學(xué)表達如下：(1.1)計算條件概率和，然后將概率大的值作切分方案。由貝葉斯公式可得式（1.2）：(1.2)在求某個切分方案中，為了使最大，首先假設(shè)每個詞之間的概率上下無關(guān)，則可得式（1.3）：(1.3)對于不同的s，m的值也不同，即文本中分出的詞m越多，P（S）的概率越小，當(dāng)多個很小的概率相乘時，會出現(xiàn)向下溢出變?yōu)?的情況，因此需要取單調(diào)遞增函數(shù)，即如下式：(1.4)其中，，因此可得式（1.5）：(1.5)1.1.3文本去噪文本去噪是找到數(shù)據(jù)集中對于情感分類無意義的信息并刪除。由于情感分類技術(shù)是通過對于文本中的情感詞進行情感分類的，而直接獲取的文本中通常含有大量無用信息，如URL代碼以及無用標(biāo)簽等，或者是一些無用的標(biāo)點符號、無意義的助詞，這些信息不屬于情感詞，但是對于實際情感分類卻構(gòu)成了干擾，所以找到這些信息并去除十分必要。文本去噪目前主要包含以下步驟，去除標(biāo)點符號，去除停用詞，去除URL，去除不必要的標(biāo)簽。其中包含的各種方法如下：去除標(biāo)點符號：主要通過檢測各種非空格非漢字的字符，一旦檢測到便被去除，并將其用空格替換，并檢測經(jīng)過該處理后的空格是否連續(xù)，將連續(xù)空格進行合并。去除停用詞：在文本中存在著這么一類詞語，它們出現(xiàn)頻率高但卻對文本表達的含義沒有主要貢獻，只起到起承轉(zhuǎn)合或優(yōu)化結(jié)構(gòu)的作用，這類詞語在進行情感分類任務(wù)中大量存在會對任務(wù)帶來噪聲影響，因此需要通過一些手段將這些詞語過濾掉?；谕Ｓ迷~庫進行過濾是最常用的一種方式，其實現(xiàn)簡單且存在較多開源的停用詞庫可供使用。去除URL：由于URL的頭部具有明顯特征，只能是http或https，因此可通過正則表達式對URL進行匹配后去除并將其用空格替代。去除不必要的標(biāo)簽：對于不同的消息平臺，往往會有一些特殊形式的文本用于實現(xiàn)某個功能，如微博文本中的“＠+用戶ID”用來在文本中通知指定用戶，其并沒有含有任何情感信息，因此它也算是對情感分類過程中形成的干擾，可通過正則表達式進行匹配并去除。經(jīng)過文本分詞、去噪，數(shù)據(jù)集基本排除了影響情感分類的常見干擾，但分類器不能直接接受中文輸入，所以需要對分詞、去噪后的文本進行數(shù)字化，也就是文本向量化，下文將提到。1.1.4文本特征處理文本數(shù)據(jù)的特征處理是預(yù)處理過程中非常重要的步驟。雖然不能肯定文本中的某個詞語就能完全表達這篇文章的意思，但卻能在某種程度上表達該篇文章，常見的文本數(shù)據(jù)的特征處理方法有以下幾種：（1）基于頻率(DF)的方法按照對詞語統(tǒng)計的范圍和統(tǒng)計的維度，分為特征頻率(Termfrequency，TF)和文本頻率(Documentfrequency，DF)。特征頻率的統(tǒng)計范圍在當(dāng)前文檔中，每個詞語在當(dāng)前文檔中出現(xiàn)的次數(shù)決定其對文檔的影響程度，并決定了是否會被濾除。（2）基于TF-IDF的方法TF-TDF中兩個重要組成部分TF和IDF分別代表該詞語在當(dāng)前文檔中的表達能力和在外部文檔庫中的表達能力。該算法基于這樣一種假設(shè)：在當(dāng)前文檔和外部文檔庫中出現(xiàn)頻率都很高的詞匯能體現(xiàn)文檔的共性，而在當(dāng)前文檔中出現(xiàn)頻率高、在其他文檔出出現(xiàn)頻率低的詞匯能體現(xiàn)出當(dāng)前文檔的特點，則認(rèn)為這樣的詞匯在該文檔中的重要程度高。基于這樣一種思想，對于一個長序列文本，可以通過計算每個詞語的TF-IDF值，取數(shù)值最高的若干詞語代表整個文本，以達到提取特征的目的。TF和IDF的計算方式分別如公式（1.6）和公式（1.7）所示：（1.6）（1.7）其中代表的是詞語在文檔中的出現(xiàn)次數(shù)，分母為在文檔中所有詞語的出現(xiàn)次數(shù)之和。當(dāng)TF值較高的詞出現(xiàn)時，如果它在其他文檔中也頻繁出現(xiàn)，那么其IDF就很低，該詞的權(quán)重TF×IDF反而不高，從而它能全局識別高頻無意義詞并將其過濾掉，例如“他們”、“這些”。只有當(dāng)詞頻較高、而在其他文檔中不頻繁出現(xiàn)，那么該詞的權(quán)重就會很高，從而區(qū)分各詞的重要性。在計算文本之間的相似度的任務(wù)中，也可以通過提取文檔中TF-IDF值較高的詞語，然后比較各個文檔提取出的詞語的相似度，用來表示文檔之間的相似程度。在進行情感分類任務(wù)時，尤其是使用機器學(xué)習(xí)算法進行分類時，對輸入特征的要求較高，為保證輸入特征具有代表性，可以通過對各詞的TF-IDF值進行排序，然后抽取文本中最重要的詞作為輸入特征。通過分析TF-IDF的計算過程發(fā)現(xiàn)，該值與詞語的位置無關(guān)，也和上下文無關(guān)，因此用這種方法提取出的特征也是互相孤立的。（3）基于N-gram的方法N-gram是一種基于概率統(tǒng)計模型的算法，該算法以長度為N的窗口在文本上進行滑動并截取窗口下的片段，生成若干長度為N的字符片段，其中每個片段稱之為gram，將最終生成的所有g(shù)ram進行統(tǒng)計，基于出現(xiàn)頻率進行篩選生成gram列表，也隨即構(gòu)成特征空間。這種構(gòu)建特征空間的方法構(gòu)造過程簡單，對文本語言沒有要求。1.1.5文本向量化對自然語言進行處理時，不能直接以文本形式輸入至各種模型，需要將文本處理成數(shù)值的形式以進行后續(xù)的計算和分析。將文本進行數(shù)值化存在著多種方式，例如：one-hot編碼方法通過預(yù)先構(gòu)建全體詞匯的樣本序列，然后基于樣本序列，在對應(yīng)的位置使用0和1標(biāo)記出對應(yīng)的詞語，實現(xiàn)詞語向數(shù)值的映射，顯然這種方式生成的特征矩陣非常稀疏并且割斷了詞語之間的聯(lián)系，因此這種方式在文本情感分類中是不太合理的。詞向量模型的主要思想就是將詞語從上述的稀疏高維空間映射到固定的低維稠密的向量空間中來，每個詞向量在構(gòu)建的向量空間中具有數(shù)學(xué)意義，也就可以通過向量間的數(shù)學(xué)關(guān)系表示詞語間的聯(lián)系。word2Vec是一種被廣泛使用的以深度學(xué)習(xí)算法思想為基礎(chǔ)，進行詞向量模型訓(xùn)練的工具[5]。主要是利用神經(jīng)網(wǎng)絡(luò)計算模型，采用無監(jiān)督的方式，通過訓(xùn)練大量文本、語料，從大量文本中學(xué)習(xí)語義知識，將文本中的詞用向量形式表示。通過這種詞向量模型將詞語轉(zhuǎn)換成詞向量后，我們就可以通過計算兩個詞的詞向量之間的距離，從而得知兩個詞之間的聯(lián)系。Word2Vec的出現(xiàn)，提出了一種分布式的詞向量表示方法，將詞向量表達帶到了新的高度，與傳統(tǒng)構(gòu)建詞向量的方式相比，無論是在詞向量的空間維度上還是其攜帶的信息量上都是一個巨大的進步。Word2Vec是基于神經(jīng)網(wǎng)絡(luò)進行構(gòu)建詞向量模型的，準(zhǔn)確的說，這種詞向量模型其實是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的附產(chǎn)物，因為其獲取的只是訓(xùn)練神經(jīng)網(wǎng)絡(luò)過程中產(chǎn)生的權(quán)重，而不是輸出層的結(jié)果。Word2Vec根據(jù)模型的架構(gòu)劃分出了Skip-Gram(ContinuousSkip-GramModel)和CBOW(ContinuousBag-of-WordsModel)這兩種架構(gòu)，二者的主要差別在于對目標(biāo)詞的預(yù)測方式，二者的結(jié)構(gòu)示意圖分別下圖所示：圖1.1CBOW模型圖圖1.2Skip-Gram模型圖1.2基于情感詞典的情感分類使用情感詞典進行情感分類是比較早使用的一種情感分類方法。其進行分類的思路比較簡單，即使用語言學(xué)相關(guān)的知識形成某些規(guī)則，按照這些規(guī)則構(gòu)建出包含積極和消極兩類的詞語集合，最后基于該集合查找出目標(biāo)詞語的情感極性，最后按照某種計算方式將這些詞語的情感極性進行綜合，最后得出語句的情感極性[3]，其分類過程如圖1.3所示：圖1.3基于情感詞典的情感分類流程圖可以將基于情感詞典分類的方法分為兩種：一種是基于情感詞典統(tǒng)計出待分類語句中積極性詞匯和消極性詞匯的個數(shù)，然后由個數(shù)占優(yōu)勢的詞匯極性決定文本極性，這種方式簡單粗暴，往往會帶來比較大的偏差；相比于第一種的情感詞典，第二種中的情感詞典中加上了每個詞語的情感極性強度，以數(shù)值的形式進行表示，正數(shù)代表正向，負(fù)數(shù)代表負(fù)向，然后查找出待分類文本中每個詞語的情感極性強度數(shù)值，最后將每個詞語數(shù)值相加或者其他計算方式進行計算，使用計算結(jié)果代表文本的情感極性。在這種情感分類方法中，核心是情感詞典的構(gòu)建，情感詞典的構(gòu)建方法分為人工的構(gòu)建方式和自動化的構(gòu)建方式。人工構(gòu)建更多的是依靠人的語言學(xué)知識和經(jīng)驗，然后進行歸納和整理，這種人工的方式效率比較低且對人的專業(yè)要求較高。因此，更多的是使用算法技術(shù)進行自動化構(gòu)建，這種方式降低了人工的工作量，相對具有更強的擴展性[9]。1.3基于機器學(xué)習(xí)的情感分類相對于前述基于詞典的方法，機器學(xué)習(xí)算法會自動的從訓(xùn)練數(shù)據(jù)中獲得判斷情感極性的規(guī)則，而不是基于設(shè)定的規(guī)則?；跈C器學(xué)習(xí)的方法進一步的降低了人工的工作量，自動從歷史數(shù)據(jù)的特征中學(xué)習(xí)并訓(xùn)練出判斷模型，在準(zhǔn)確率上也更勝一籌。以下介紹了幾種在情感分類中常用到的機器學(xué)習(xí)算法。1.3.1支持向量機分類算法支持向量機是一種二分類模型，與其他分類算法所不同的是，支持向量機在整個分類過程中，沒有對數(shù)據(jù)進行必要的前提假設(shè)，其主要思想是尋找確定搜索空間中的分割線，以分割出不同的類別，以圖1.4為例，該算法的目的就是讓所有點到超平面的距離大于一定的距離，即讓所有的分類點要在各自類別的支持向量兩邊。如圖1.4所示：圖1.4支持向量機分類算法模型為了能夠使得黑色的曲線遠遠地偏離任意白球和黑球，使得兩者之間的距離達到最大化，我們必須找到一條最優(yōu)曲線。如果我們假設(shè)這些白色球不是放置在一張球桌上,而是被拋向空中，即在多維空間下，我們?nèi)匀粫枰獙⑵渲械陌浊蚝秃谇蚍珠_,這時就會需要一個超平面，而且我們還會因此需要這個超平面仍然能夠滿足跟所有任意一個白球和黑球的空中間距最大化的超平面。用數(shù)學(xué)公式表示為（1.8）:（1.8）一般情況下取函數(shù)間隔為1，這樣優(yōu)化函數(shù)的定義為（1.9）：（1.9）也就是說，在約束條件下，最大化可得支持向量，固定分子優(yōu)化分母，并且加上了支持向量機的限制條件。由于的最大化等同于的最優(yōu)化，于是我們就可以得到支持向量機的優(yōu)化函數(shù)（1.10）：（1.10）由于目標(biāo)函數(shù)是一個凸函數(shù)，又有約束條件加以限制，由凸優(yōu)化理論可知，使用拉格朗日函數(shù)將目標(biāo)函數(shù)進行轉(zhuǎn)換，成為無約束函數(shù)，即：（1.11）加入拉格朗日函數(shù)后，優(yōu)化目標(biāo)變?yōu)椋海?.12）根據(jù)拉格朗日對偶原理，可以將優(yōu)化問題轉(zhuǎn)化為等價的對偶問題求解，即要求：（1.13）由上式，先求基于w和b的極小值，即：（1.14）從上面可以看出，通過對w，b極小化以后，目標(biāo)優(yōu)化函數(shù)只有向量作參數(shù)，因此：（1.15）1.3.2樸素貝葉斯樸素貝葉斯算法是一種基于數(shù)學(xué)概率的算法，它的模型比較簡單，實現(xiàn)的前提是假設(shè)數(shù)據(jù)之間是相互獨立的，也因此比較穩(wěn)定。它的適用范圍比較廣泛，主要被用于人工智能機器學(xué)習(xí)系統(tǒng)中的分類問題，如對垃圾郵件進行分類、幫助醫(yī)生診斷病人種類、根據(jù)人體特征判斷性別等?；跇闼刎惾~斯的分類器訓(xùn)練過程也比較簡單易操作，先對訓(xùn)練數(shù)據(jù)集統(tǒng)計出先驗的數(shù)據(jù)，得到在各種特征情況下樣本的分布狀態(tài)，然后通過簡單的貝葉斯公式對其進行計算，就可以直接得到它想要的最優(yōu)解[3]，與復(fù)雜的梯度下降等算法相比，實現(xiàn)起來相對比較容易。其計算公式如下：(1.16)(1.17)其中（1.16）為條件概率公式，（1.17）為貝葉斯公式，P(A)是指A的先驗概率，即不用考慮B的任何情況下A的概率，P(B)為B的先驗概率，是指B發(fā)生后A發(fā)生的概率，后驗概率指B發(fā)生后A發(fā)生的概率。在貝葉斯分類算法中，樸素貝葉斯分類器算是比較簡單、穩(wěn)定的一種，正是基于這一點，在技術(shù)更新?lián)Q代如此快速的時代，樸素貝葉斯算法在分類算法中還能占據(jù)著重要的地位。它所需要的數(shù)據(jù)應(yīng)該相互獨立互不干涉，構(gòu)造出的算法也必須依賴于這一較強的假設(shè)，在實際應(yīng)用中這也是其最大的限制性。1.3.3邏輯回歸科學(xué)研究中，少不了和函數(shù)打交道，那必然就少不了對變量進行研究，變量之間的關(guān)系一般分為兩類，一類是直接可以用函數(shù)表達式來表達的，比如在物理學(xué)中的重力與質(zhì)量的關(guān)系，一個物體所受的重力只與它本身的質(zhì)量有關(guān)，這種關(guān)系是確定關(guān)系；除此之外變量間還有另外一種重要的關(guān)系，稱之為相關(guān)關(guān)系，有這種關(guān)系的變量之間往往受多種因素的影響，因此沒有辦法構(gòu)建確定的函數(shù)來表達。例如：房子的位置與房價的高低，位置越好房價越高，但是房價不僅僅受位置的影響?？傊?，變量之間相關(guān)關(guān)系的存在是普遍存在的，要想對兩個變量X、Y之間的相關(guān)關(guān)系進行全面的分析，必須要明確Y隨X取值變化而變化的情況。在一元邏輯回歸中，為它的表達式，其中c、d稱之為回歸系數(shù)，x為自變量。從數(shù)學(xué)角度來說，它表達了變量y與x的統(tǒng)計規(guī)律性。Logistic回歸可以是二分類，此時分類只有“0”和“1”兩個屬性，比如可以設(shè)置中獎為1，未中獎為0；也可以是多分類，如設(shè)置患者的病情嚴(yán)重程度，重度為1，中度為2，輕度為3等。通常來說，我們使用二分類的情況比較多。1.4基于深度學(xué)習(xí)的情感分類相對于基于機器學(xué)習(xí)的情感分類算法，深度學(xué)習(xí)最顯著的特點是自動提取數(shù)據(jù)特征，而不是通過人工、通過某些算法進行提取，并且可以提取到更深層次的特征，從而也是獲得了目前分類效果的最高水準(zhǔn)。深度學(xué)習(xí)的核心是其神經(jīng)網(wǎng)絡(luò)這一數(shù)學(xué)模型，也是能夠提取深層特征的關(guān)鍵。目前人們根據(jù)不同場景的特點，設(shè)計出了多種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，如CNN、RNN以及各種相關(guān)的變體。其中CNN具有較強的特征提取能力，RNN相關(guān)算法則注重解決長依賴問題，這兩種結(jié)構(gòu)在情感分類領(lǐng)域都有非常重要的應(yīng)用。1.4.1卷積神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork，ANN)是一種用于復(fù)雜計算的數(shù)學(xué)模型，該模型由三部分組成，分別是輸入層、隱藏層和輸出層。該模型以節(jié)點為計算單元，節(jié)點之間層層連接，構(gòu)建出一種類似于動物神經(jīng)的網(wǎng)絡(luò)結(jié)構(gòu)。在每個計算單元上有相應(yīng)的信息計算規(guī)則，即存在一個激活函數(shù)，對其他計算單元發(fā)送過來的信息進行運算，并將結(jié)果輸出，這種計算與結(jié)果傳遞的方式是人工神經(jīng)網(wǎng)絡(luò)進行復(fù)雜計算的基礎(chǔ)。卷積神經(jīng)網(wǎng)絡(luò)也是人工神經(jīng)網(wǎng)絡(luò)的一種，它不但可以進行非線性計算，而且并行處理能力也比較強大，在一些方面也比其他模型表現(xiàn)的更為優(yōu)秀，比如對數(shù)據(jù)進行特征提取更加精細(xì)和對結(jié)果進行預(yù)測更加準(zhǔn)確，目前卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)逐漸滲透到各個領(lǐng)域，并發(fā)揮著重要的作用。卷積神經(jīng)網(wǎng)絡(luò)相對于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型有兩個很大的不同之處，即神經(jīng)元的局部連接和參數(shù)共享。基于這兩個特點，卷積神經(jīng)網(wǎng)絡(luò)可以很大程度的簡化運算，降低模型的復(fù)雜程度。卷積神經(jīng)網(wǎng)絡(luò)的核心是在神經(jīng)網(wǎng)絡(luò)中引入了卷積運算，并引入了卷積核的概念，這個概念可以通俗的理解為進行卷積運算的窗口，它通過在數(shù)據(jù)上來回滑動，對所有的數(shù)據(jù)進行卷積運算，通過這樣一個過程產(chǎn)生的結(jié)果就是經(jīng)過卷積運算的一個更深層次的特征，由于其卷積時移不變性的特點，卷積運算之后的特征仍然對原數(shù)據(jù)有很強的表達性。通過分析其核心運算的計算方式可以發(fā)現(xiàn)，這種運算更適合在網(wǎng)格化的數(shù)據(jù)上，比如圖像、文本序列等。卷積神經(jīng)網(wǎng)絡(luò)最開始和最成功的應(yīng)用領(lǐng)域也是機器視覺領(lǐng)域，后來將這種技術(shù)引入到了自然語言處理的領(lǐng)域中，也被證明了其在自然語言處理上的有效性。在處理文本序列時，一般需要將卷積核的長度對應(yīng)于詞向量的長度，這從側(cè)面說明使用卷積神經(jīng)網(wǎng)絡(luò)進行文本數(shù)據(jù)處理時，詞向量的維度也決定了模型計算的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域中主要應(yīng)用在文本分類相關(guān)的任務(wù)中。1.4.2循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是對時序數(shù)據(jù)更加友好的結(jié)構(gòu)，時間序列數(shù)據(jù)是一種樣本間存在順序關(guān)系，每個樣本和它之前的樣本存在關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)。RNN與CNN相比，增加了記憶功能，可以記住“前輩”的輸出，因此它的用途也比較廣泛，包括語音識別如微信的語音轉(zhuǎn)文字功能、機器翻譯如騰訊翻譯、視頻識別行為等方面。而LSTM則是基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的改進，由Hochreiter提出，其目的是為了避免RNN由于長期依賴而造成的預(yù)測精度下降，

人人文庫> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《文本進行預(yù)處理的相關(guān)理論和技術(shù)綜述》7900字

文檔簡介

溫馨提示

最新文檔

評論

《文本進行預(yù)處理的相關(guān)理論和技術(shù)綜述》7900字

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔