版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
畢業(yè)設(shè)計外文資料翻譯學(xué)院:專業(yè)班級:學(xué)生姓名:學(xué)號:指導(dǎo)教師:外文出處:AConvolutionNeuralNetworkforModellingSentences附件:1.外文資料翻譯譯文;2.外文原文指導(dǎo)教師評語:該英文材料與畢業(yè)設(shè)計專業(yè)相關(guān)度高。專業(yè)術(shù)語、詞匯翻譯的準確率高,體現(xiàn)了較強的專業(yè)英語應(yīng)用水平。譯文準確,質(zhì)量較好,能正確表達出原文意思。簽名:Q2015年10月14日
1.外文資料翻譯譯文用于建模句子的卷積神經(jīng)網(wǎng)絡(luò)摘要能夠準確地代表句子是語言理解的核心。我們描述一個回旋的結(jié)構(gòu)被稱為動態(tài)卷積神經(jīng)網(wǎng)絡(luò)(DCNN),我們采用語義建模的句子。網(wǎng)絡(luò)使用動態(tài)k-max池、全球池操作在線性序列。網(wǎng)絡(luò)處理輸入可變長度的句子和誘發(fā)特性圖明確的句子能夠捕捉短期和長期的關(guān)系。網(wǎng)絡(luò)不依賴于一個解析樹,很容易適用于任何語言。我們在四個實驗:測試DCNN小規(guī)模二進制和多級情緒預(yù)測,六方問題分類和Twitter情緒預(yù)測到遙遠的監(jiān)督。網(wǎng)絡(luò)實現(xiàn)性能優(yōu)良的三個任務(wù),運用誤差減少25%在過去的任務(wù)對最強的基線。1介紹句子模型的目的是分析和表示一個句子的語義內(nèi)容為目的的分類或生成。這個句子建模的核心問題是許多任務(wù)涉及自然語言理解的程度。暗含這些任務(wù)包括情緒分析、解釋檢測、識別、概括、話語分析、機器翻譯、基礎(chǔ)語言學(xué)習(xí)和圖像檢索。因為單個句子很少或者根本不觀察觀察,一個人必須代表一個句子的功能取決于句子中的單詞和短字格經(jīng)常被觀察到。一個句子的核心模型包括一個功能函數(shù),定義了過程貓坐在紅色的墊子上圖1:特征圖的子圖在一個輸入句子在動態(tài)卷積神經(jīng)網(wǎng)絡(luò)。完整的誘導(dǎo)圖有多個這樣的子圖表現(xiàn)出了不同的邊緣;子圖可以在不同層合并。左側(cè)圖強調(diào)了匯聚節(jié)點。卷積過濾器的寬度分別為3和2。有了動態(tài)池,一個過濾器與小寬度較高圖層可以在輸入句子相距甚遠有關(guān)的短語由哪些句子的特征提取的特征的詞或字格。各種類型的模型的意義。成分為基礎(chǔ)的方法已經(jīng)應(yīng)用于矢量表示詞義獲得同現(xiàn)統(tǒng)計獲得向量時間短語。在某些情況下,組成由代數(shù)操作定義在詞義向量生成句子意思向量(Erk和Pado,2008;Mitchell和Lapata,2008;Mitchell和Lapata,2010;Turney,2012;Erk,2012;Clarke,2012)。在其他情況下,復(fù)合函數(shù)是學(xué)習(xí)和與特定的語法關(guān)系(Guevara,2010;Zanzottoetal.,2010)或特定詞類型(Baroni和Zamparelli,2010;Coeckeetal.,2010;Grefenstette和Sadrzadeh,2011;Kartsaklis和Sadrzadeh,2013;Grefenstette,2013)。另一種方法是句子的意義通過自動提取邏輯形式(Zettlemoyer和Collins,2005)。模型的核心類是基于神經(jīng)網(wǎng)絡(luò)。這些范圍從基本的神經(jīng)bag-of-words或bag-of-n-grams模型更加結(jié)構(gòu)化的遞歸神經(jīng)網(wǎng)絡(luò)和時滯神經(jīng)網(wǎng)絡(luò)基于卷積操作(Collobert和Weston,2008;Socheretal.,2011;Kalchbrenner和Blunsom,2013b)。神經(jīng)句子模型有許多優(yōu)勢。他們可以被訓(xùn)練來獲取通用矢量預(yù)測單詞和短語,例如,沙這個詞短語出現(xiàn)的上下文。通過監(jiān)督訓(xùn)練,神經(jīng)句子向量模型可以隨時調(diào)整這些設(shè)置特定于某個任務(wù)的信息。除了組成強大的分類器作為建筑的一部分,神經(jīng)句子模型可以用于條件神經(jīng)語言模型來逐字生成句子(Schwenk,2012;Mikolov和Zweig,2012;Kalchbrenner和Blunsom,2013a)。我們定義了一個卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)和應(yīng)用到句子的語義建模。網(wǎng)絡(luò)處理輸入可變長度的序列。在網(wǎng)絡(luò)層交錯一維卷積層和動態(tài)k-max池層。動態(tài)k-max池一般是最大池的算子。馬克斯池操作符是一個非線性二次抽樣函數(shù)返回一組值的最大(LeCunetal.,1998)。操作員是普遍在兩個方面。首先,k-max池在k的線性序列的值返回子序列中的最大值,而不是單一的最大價值。其次,池參數(shù)k可以動態(tài)地選擇通過k函數(shù)網(wǎng)絡(luò)或其他方面的輸入。應(yīng)用一維卷積層過濾器在句子中的功能矩陣的每一行。卷積同一過濾器語法的句子中每個位置允許特性提取獨立在句子中的位置。卷積的一層接著一個動態(tài)池層和一種非線性特性映射。的卷積網(wǎng)絡(luò)對象識別(LeCunetal.,1998),益智表示在第一層通過計算多個特征圖譜與不同的過濾器應(yīng)用于輸入的句子。后續(xù)層也有多個特征圖譜計算卷積過濾器的地圖從下面的層。在這些層形成一個權(quán)重然后張量。由此產(chǎn)生的建筑被稱為動態(tài)卷積神經(jīng)網(wǎng)絡(luò)。多層次的卷積和動態(tài)池操作引起輸入句子結(jié)構(gòu)特性圖。圖1說明了這樣一個圖。小過濾器在更高層次可以捕獲句法或語義關(guān)系遠的非連續(xù)短語輸入句子。功能圖誘發(fā)的層次結(jié)構(gòu)有點類似于在一個語法解析樹。不是與純粹的語法結(jié)構(gòu)關(guān)系和內(nèi)部的神經(jīng)網(wǎng)絡(luò)。我們與網(wǎng)絡(luò)實驗四個設(shè)置。前兩個實驗涉及預(yù)測影評的情緒(Socheretal.,2013b)。網(wǎng)絡(luò)優(yōu)于其他方法在二進制和多級實驗。第三個實驗涉及的分類問題在六個問題類型在TREC數(shù)據(jù)集(Li和Roth,2002)。網(wǎng)絡(luò)匹配其他先進的方法的準確性是基于大量工程特性和手工編碼的知識資源。第四次實驗涉及到預(yù)測Twitter發(fā)布使用的情緒遙遠的監(jiān)督(Goetal.,2009)。網(wǎng)絡(luò)訓(xùn)練160萬微博標簽自動根據(jù)發(fā)生在他們的表情符號。在手工標記的測試裝置,該網(wǎng)絡(luò)實現(xiàn)的預(yù)測誤差減少大于25%,相對于在Go等報道的最強單字組和兩字組基線(2009)。論文的大綱如下。第二部分描述了背景DCNN包括核心概念和相關(guān)神經(jīng)句子模式。第三節(jié)定義了相關(guān)的運營商和網(wǎng)絡(luò)的層。第四部分對誘導(dǎo)特性圖和其他網(wǎng)絡(luò)的性質(zhì)。第五節(jié)討論了實驗和探測器檢查學(xué)特性。2背景形成的層的DCNN卷積操作池操作緊隨其后。我們首先回顧相關(guān)的神經(jīng)句子模式。然后我們描述一維卷積和古典的操作時間延遲神經(jīng)網(wǎng)絡(luò)(TDNN)(Hinton,1989;Waibeletal.,1990)。通過添加一個最大匯聚層網(wǎng)絡(luò),TDNN可以作為一個句子模型(Collobert和Weston,2008)。2.1相關(guān)的神經(jīng)句子模型各種神經(jīng)句子模型描述?;揪渥拥囊话泐惸P褪巧窠?jīng)詞袋(NBoW)模型。這些通常由一個投影層映射的話,子詞單位或者n元模型高維映射進行;后者會結(jié)合特定組件的操作如求和。結(jié)果結(jié)合向量是通過一個或多個分類完全連接層。一個采用更一般的結(jié)構(gòu)提供的外部解析樹的模型就是遞歸神經(jīng)網(wǎng)絡(luò)(RecNN)(Pollack,1990;KiiuchlerandGoller,1996;Socheretal.,2011;HermannandBlunsom,2013)。在上下文樹中的每個節(jié)點的左和右孩子節(jié)點由古典結(jié)合層。層的權(quán)重在樹上所有節(jié)點共享。頂部的層計算節(jié)點表示句子。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是一個遞歸網(wǎng)絡(luò)的特殊情況,隨后的結(jié)構(gòu)是一個簡單的線性鏈(GersandSchmidhuber,2001;Mikolovetal.,2011)。RNN的主要用途是作為語言模型,但也可能被視為一個句子模型與線性結(jié)構(gòu)。層計算在最后一句話代表了句子。最后,進一步類模型是基于卷積操作和TDNN架構(gòu)(Collobert和Weston,2008;Kalchbrenner和Blunsom,2013b)。這些模型中使用某些概念核心DCNN接下來我們描述他們。2.2卷積一維卷積是一個操作之間的權(quán)重向量和向量輸入視為一個序列。向量m是卷積的過濾器。具體地說,我們認為作為輸入的句子,是一個特征值與句子中的第i個單詞聯(lián)系在一起。一維卷積背后的想法是矢量的點積米與句子中的每個m-gram秒獲得另一個序列c:(1)方程1產(chǎn)生兩種類型的卷積的范圍取決于該指數(shù)j。卷積的狹窄類型要求和產(chǎn)量圖2:狹窄和廣泛類型的卷積。過濾器尺寸m=5。序列與j從m到s。卷積的廣泛類型沒有要求或m和收益率序列的指數(shù)j范圍從1到s+m?1。超出范圍的輸入值,i<1或者i>s為零。然后箭頭卷積的結(jié)果是一個廣泛的卷積的結(jié)果的子序列。這兩種類型的一維卷積圖2中所示。過濾器的訓(xùn)練重量m對應(yīng)語言特征檢測器-gram,學(xué)會識別一個特定的類。這些語法刮胡子大小,m是濾波器的寬度。在廣泛應(yīng)用權(quán)重m卷積有一些優(yōu)勢應(yīng)用在一個狹窄的。廣泛卷積確保所有過濾器達到整個句子中的權(quán)重,包括單詞的利潤率。這是特別重要,當(dāng)m被設(shè)置為一個相對較大的值,如8或10。此外,寬卷積保證過濾器的應(yīng)用m輸入句子s總是產(chǎn)生一個有效的非空結(jié)果c,獨立于m和句子的長度寬度。我們接下來描述經(jīng)典的卷積TDNN層。2.3時延神經(jīng)網(wǎng)絡(luò)一個時延神經(jīng)網(wǎng)絡(luò)可變序列輸入的一組權(quán)重m。如TDNN因素識別(Waibeletal.,1990),序列s被視為有一個時間維度和時間維度應(yīng)用卷積。每個往往不是單個值,但一個向量這樣的d值有。同樣,m是一個矩陣的權(quán)重大小d×m。每一行的m是與相應(yīng)的行和卷積卷積通常是狹窄的類型。多重卷積層可能疊加的結(jié)果序列c作為下一層的輸入。Max-TDNN句子模型是基于的架構(gòu)TDNN(Collobert和Weston,2008)。在模型中,卷積的一層狹窄的類型是應(yīng)用于句子矩陣s,每一列對應(yīng)的特征向量詞的句子:(2)為了解決這一問題的不同句子長度,Max-TDNN以中的每一行的最大收益率產(chǎn)生的矩陣c值d的向量:(3)目的是捕獲最相關(guān)的特征,即。最高的價值,為每個生成的矩陣d行矩陣c。然后使用固定大小的向量作為輸入到一個完全連接層進行分類。最大時延神經(jīng)網(wǎng)絡(luò)模型有許多可取的屬性。是敏感詞的順序的句子,它不依賴于外部特定于語言的特性,比如依賴性或選區(qū)解析樹。很大程度上它也給統(tǒng)一的重要信號來自每個單詞的句子,除了文字邊緣,被認為是更少的時候在狹窄的卷積的計算。但該模型也有一些限制。功能探測器的范圍僅限于權(quán)重的跨度m。增加m或疊加的多個卷積層狹窄類型使得特征探測器的范圍更大,同時也加劇了忽視句子的利潤率,增加輸入句子的最小大小年代所需的卷積。因此高階和遠程功能探測器無法輕易納入模型。馬克斯池操作也有一些缺點。它不能區(qū)分是否發(fā)生相關(guān)特性的一個行只是一個或多個時間和忘記的順序發(fā)生的特性。更普遍的是,池因子的信號矩陣的減少同時對應(yīng)于s?m+1;即使是s池因子的值可以過度。下一節(jié)的目的是為了解決這些局限性,同時保留優(yōu)勢。3卷積神經(jīng)網(wǎng)絡(luò)與動態(tài)k-max池我們模型的句子使用卷積架構(gòu)廣泛回旋的交替層圖3:七個字的DCNN輸入句子。字嵌入大小d=4。網(wǎng)絡(luò)有兩個卷積層與兩個特征圖。過濾器在兩層的寬度分別為3和2。(動態(tài))k-max池5和3層的值k。與動態(tài)池層由動態(tài)k-max池。網(wǎng)絡(luò)中的功能映射在中間層的寬度變化取決于輸入句子的長度,由此產(chǎn)生的建筑是動態(tài)卷積神經(jīng)網(wǎng)絡(luò)。圖3表示一個DCNN。我們繼續(xù)詳細描述網(wǎng)絡(luò)。3.1寬的卷積給定一個輸入句子,獲得第一層的DCNN取嵌入句子中的每個單詞和句子構(gòu)造矩陣如Eq。2。中的值嵌入中參數(shù)優(yōu)化培訓(xùn)。卷積層網(wǎng)絡(luò)是通過卷積矩陣的權(quán)重矩陣的激活在下面一層。例如,第二層是通過應(yīng)用卷積矩陣s句子本身。維d和濾光片寬度m是網(wǎng)絡(luò)的超函數(shù)。我們的操作是寬2.2維運算中描述教派。由此產(chǎn)生的矩陣c維d×(s+m?1)。3.2k-Max池我們接下來描述池操作是一個概括的最大池在時間維度Max-TDNN句子中使用的模型和不同的當(dāng)?shù)刈畲蟪夭僮鲬?yīng)用卷積網(wǎng)絡(luò)對象識別(LeCunetal.,1998)。給定一個值k和序列長度,k-max池選擇k值最高的子序列p。中值的順序?qū)?yīng)于原來的順序。k-max池操作可以池pk最活躍的特性,可能是很多職位分開;它保留訂單的功能,但對他們的具體位置。它還可以辨別更精細的次數(shù)功能是高度激活p和的高激活功能的發(fā)展變化在p。k-max池運營商網(wǎng)絡(luò)中應(yīng)用后最上面的卷積層。這可以保證完全連接的輸入層獨立于輸入句子的長度。但是,正如我們看到的,在中間卷積層池參數(shù)k是不固定的,但是為了允許動態(tài)選擇順利提取高階和遠程功能。3.3動態(tài)的K-max池k-max池操作動態(tài)k-max池操作,我們讓k是一個句子的長度和深度的函數(shù)的網(wǎng)絡(luò)。盡管許多功能是可能的,我們只是模型池參數(shù)如下:(4)l是當(dāng)前卷積的層數(shù)應(yīng)用池和l是卷積的總數(shù)在網(wǎng)絡(luò)層;是最頂層的固定池參數(shù)卷積層(Sect.3.2)。例如,在一個網(wǎng)絡(luò)與卷積三層和=3,輸入句子的長度=18,池參數(shù)在第一層是,在第二層是池參數(shù);第三層有固定池參數(shù)。方程4是一個模型所需的值的數(shù)量描述11屆的發(fā)展秩序的相關(guān)部分功能在一個句子長度的s。在情緒預(yù)測為例,根據(jù)方程的一階特性如一個積極詞出現(xiàn)次數(shù)最多的一個句子長度s,而二階特性如一個否定短語或從句發(fā)生在大多數(shù)時候。3.4非線性特征函數(shù)(動態(tài))k-max池后應(yīng)用于卷積的結(jié)果,偏差和非線性函數(shù)g應(yīng)用特定組件的混合矩陣。為每一行有一個偏差值的混合矩陣。如果我們暫時忽略池層,我們可能狀態(tài)如何計算每個采用列的矩陣后得到的卷積和非線性層。定義M矩陣的對角線:(5)m的權(quán)重d過濾器的卷積。之后第一對卷積和非線性層,每個列的矩陣方法如下,對于一些指數(shù)j:(6)這里是一個列的一階特性。二階特性也同樣運用公式6的一階特性矩陣M0和另一個重量矩陣M0。除非池,公式6代表一個核心方面的特征提取功能,而一般形式就是我們下面的softmax。通過池、方差的特性函數(shù)引起的位置,使高階特征變量的范圍。3.5多個特征圖到目前為止,我們已經(jīng)描述了一個應(yīng)用廣泛的卷積,(動態(tài))k-max池層和非線性函數(shù)輸入句子矩陣獲得一階特征映射。三個操作可以重復(fù)產(chǎn)生特征圖增加增加深度的秩序和網(wǎng)絡(luò)。我們表示第i階特征圖。作為目標識別在卷積網(wǎng)絡(luò),增加了功能探測器的秩序,多個特征圖可能是并行計算在同一層。每個特性映射由卷積計算一組不同的過濾器安排在一個矩陣的每個特性的低階i?1地圖和加法的結(jié)果:(7)*表示寬卷積。權(quán)重形成一個然后張量。廣泛的卷積后,首先動態(tài)k-max池,然后應(yīng)用非線性函數(shù)分別對每個地圖。3.6折疊在制定網(wǎng)絡(luò)到目前為止,功能探測器應(yīng)用于單個句子的行矩陣s可以有多個訂單和創(chuàng)建復(fù)雜的依賴關(guān)系在多個特征圖在相同的行。功能探測器在不同的行,但是,是相互獨立的,直到完全連接層。完全依賴不同的行可以通過情商M。5完整矩陣而不是稀疏矩陣的對角線。這里我們探索一個更簡單的方法稱為折疊不引入任何額外的參數(shù)。卷積后層和前(動態(tài))k-max池、一個金額每兩行地圖特定組件的一個特征。的地圖d行,折返回一個地圖d/2行,因此減半的大小表示。折疊層,第i個秩序的特征檢測器現(xiàn)在取決于兩行特性值低的地圖i?1。這個結(jié)束DCNN的描述。4句子的屬性模型我們基于DCNN描述句子的一些屬性模型。我們描述的概念特性圖誘導(dǎo)在句子的連續(xù)卷積和匯聚層。我們簡要地與其他神經(jīng)句子模型的屬性。4.1單詞和語法基本屬性之一,是對輸入句子中的詞的順序。對于大多數(shù)應(yīng)用程序,為了學(xué)習(xí)細粒度特征探測器,它是有利于一個模型能夠辨別是否一個特定的語法出現(xiàn)在輸入。同樣,它有利于模型能夠告訴最相關(guān)的字格的相對位置。網(wǎng)絡(luò)是為了捕捉這兩個方面。過濾器米寬卷積的第一層可以識別特定的字格大小小于等于過濾器的寬度,在實驗中我們看到,在第一層通常是將一個相對較大的值,如10。字格中提取的子序列普遍池操作引起的方差的絕對位置,但維護秩序和相對位置。至于其他神經(jīng)句子模型,NBoW模型的類定義敏感字的排列順序加以調(diào)整。一個句子模型基于遞歸神經(jīng)網(wǎng)絡(luò)敏感詞,但它有一個偏向最新需要作為輸入的單詞(Mikolovetal.,2011)。這給了RNN在語言建模的優(yōu)秀性能,但t接頭適合馬上記住字格進一步回輸入句子。同樣,一個遞歸神經(jīng)網(wǎng)絡(luò)敏感詞順序,但傾向于樹中的最頂層節(jié)點;淺樹減輕這種影響在某種程度上(Socheretal.,2013)。見教派2.3,Max-TDNN詞序敏感,但馬克斯池只挑出一個句子的語法功能在每一行矩陣。4.2誘導(dǎo)特性圖一些句子使用內(nèi)部或外部結(jié)構(gòu)計算模型的表示輸入的句子。DCNN,卷積和池層引起的內(nèi)部特性圖的輸入。一個節(jié)點從一層連接到一個節(jié)點從上級層如果降低節(jié)點參與卷積計算的值較高的節(jié)點。節(jié)點不選擇池操作在一層從圖。最后池層后,剩余的節(jié)點連接到一個單一的頂部的根。誘導(dǎo)圖是一個連接,有向無環(huán)圖和加權(quán)邊緣和一個根節(jié)點,兩個相同的表示形式的誘導(dǎo)圖給出了圖1。在一個沒有折疊的DCNN層,每個句子的d行矩陣誘發(fā)其他子圖的子圖,連接只在根節(jié)點。每個子圖指出可能有不同的形狀,反映了子圖中發(fā)現(xiàn)的關(guān)系。折疊層的影響加入對來在下層的子圖根節(jié)點。卷積網(wǎng)絡(luò)對象識別輸入圖像也誘導(dǎo)特性圖。使功能圖的DCNN特殊的是全球范圍的集中操作。(動態(tài))k-max池操作符可以聚集特性,對應(yīng)詞很多職位分開的句子。高階特征高度可變范圍,可以是短而集中或全球和只要輸入句子。同樣,子圖在誘導(dǎo)圖的邊緣反映這些變化的范圍。子圖可以是局部的一個或多個部分的句子或更廣泛地擴散到整個句子。這個結(jié)構(gòu)是內(nèi)部網(wǎng)絡(luò)和定義的輸入通過網(wǎng)絡(luò)傳播。Max-TDNN中的子圖誘導(dǎo)模型有一個固定距離特性通過max池。遞歸神經(jīng)網(wǎng)絡(luò)是外部解析樹的結(jié)構(gòu)。特征變量范圍計算相結(jié)合在樹的每個節(jié)點樹的一個或多個孩子。與DCNN,訂單,一個學(xué)一個清晰的層次結(jié)構(gòu)特性在RecNN低階等功能的單個詞可以直接從整個條款結(jié)合高階特性計算。ADCNN許多RecNN的結(jié)構(gòu)方面的難題。特征提取函數(shù)公式6有比在RecNN更一般的形式,在m的值通常是2。同樣,誘導(dǎo)圖結(jié)構(gòu)一般DCNN是超過一個解析樹,它并不局限于語法聽寫短語;圖結(jié)構(gòu)可以捕捉短期或長期的語義關(guān)系不一定對應(yīng)的單詞語法解析樹的關(guān)系。DCNN內(nèi)部輸入依賴結(jié)構(gòu)和不依賴于外部提供的解析樹,這使得DCNN直接適用于硬解析句子如推砂從任何語言的句子。5實驗我們在四個不同的實驗測試網(wǎng)絡(luò)。我們開始通過指定方面的實現(xiàn)和網(wǎng)絡(luò)的訓(xùn)練。然后我們與實驗的結(jié)果,我們檢查了探測器的特性。5.1訓(xùn)練在每個實驗中,網(wǎng)絡(luò)的頂層有一個完全連接層后跟軟馬克斯非線性預(yù)測的概率分布在類給定輸入句子。網(wǎng)絡(luò)訓(xùn)練減少預(yù)測的叉和真實分布;目標包括規(guī)則化表1:情緒預(yù)測精度在電影評論數(shù)據(jù)集。前四個結(jié)果報告Socheretal.(2013b)?;€NB和BINB樸素貝葉斯分類器,分別非元模型特性和非元和二元特性。支持向量機是一種支持向量機與非元和二元特性。RECNTN是用基于張量的特征功能網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)依靠外部結(jié)構(gòu)特點的解析樹并執(zhí)行最佳RecNNs之一。一項參數(shù)。參數(shù)的集合包含嵌入的這個詞,過濾重砂完全連接層的權(quán)重。網(wǎng)絡(luò)訓(xùn)練與mini-batches基于反向傳播和梯度優(yōu)化執(zhí)行使用Adagrad更新規(guī)則(Duchietal.,2011)。使用眾所周知的卷積定理,我們可以快速計算一維線性曲線玲瓏的所有行輸入矩陣,利用快速傅里葉變換。開發(fā)的并行操作,我們訓(xùn)練網(wǎng)絡(luò)的GPU。Matlab實現(xiàn)處理多個數(shù)以百萬計的輸入句子每小時在一個GPU,這主要取決于網(wǎng)絡(luò)中所使用的層數(shù)。5.2電影評論的情緒預(yù)測前兩個實驗擔(dān)憂情緒的預(yù)測的影評斯坦福情緒樹圖資料庫(Socheretal.,2013b)。天下大同的二進制輸出變量在一個實驗中有五個其他可能的結(jié)果:消極的,有點消極,中性的,積極的,正面的。在二元的情況下,我們使用吉文斯分離之下6920年訓(xùn)練,872年開發(fā)和1821測試的句子。同樣,在細粒度的情況下,我們使用標準的8544/1101/2210分裂。La-belled短語出現(xiàn)的子部分的培訓(xùn)的句子被視為獨立的訓(xùn)練實例。詞匯量的大小是15448。表1實驗結(jié)果的細節(jié)。表2:六方的準確性在TREC問題分類數(shù)據(jù)集的問題。第二列詳細信息中使用的外部特性的各種方法。前四個結(jié)果分別從LiheRoth(2002),Blunsomet(2006),Huangetal(2008)和Silvaetal(2011)得出。在三個神經(jīng)句子Max-TDNN,NBoW和DCNN-詞向量模型,隨機初始化參數(shù);他們的維d設(shè)置為48。Max-TDNN有濾波器的寬度6在第一層狹窄的卷積;短短語墊為零向量。卷積層是緊隨其后的是一個非線性,最大池層和softmax分類層。NBoW這個詞向量和適用一個非線性會softmax分類層緊隨其后。采用非線性雙曲正切函數(shù)。的超參數(shù)DCNN如下。二進制的結(jié)果是基于DCNN卷積層后跟一個折疊層,一層動態(tài)k-max池和非線性;它有一個第二大回旋的層,后跟一個折疊層,一層k-max池和一個非線性。卷積過濾器的寬度是7和5,分別。的k值k-max池頂部是4。在第一個卷積層特征圖的數(shù)量是6;在第二個卷積層地圖的數(shù)量是14。網(wǎng)絡(luò)覆蓋softmax分類層。的DCNN細顆粒的結(jié)果具有相同的架構(gòu),但是過濾器10碼和7,前池參數(shù)k是5和地圖的數(shù)量,分別6和12。網(wǎng)絡(luò)使用雙曲正切非線性表3:在Twitter情緒數(shù)據(jù)集的精度。三個非神經(jīng)分類器是基于非n元模型和傳播有關(guān)三元功能;結(jié)果報告(Goetal.,2009)。函數(shù)。在訓(xùn)練時間,我們應(yīng)用后輟學(xué)到倒數(shù)第二層最后雙曲正切非線性(Hintonetal.,2012)。我們看到DCNN顯著優(yōu)于其他神經(jīng)和非神經(jīng)模型傳播有關(guān)。NBoW執(zhí)行類似于非神經(jīng)基于n元分類器傳播有關(guān)。Max-TDNN執(zhí)行比NBoW可能由于過度馬克斯池的池操作;后者丟棄的大部分輸入句子中的詞的情緒特征。除了RecNN使用外部解析器產(chǎn)生結(jié)構(gòu)特點為模型,其他模型使用基于n元或神經(jīng)功能,不需要外部資源或額外的注釋。在接下來的實驗中我們比較DCNN的性能與使用大量工程資源的方法。5.3問題類型分類作為一個援助問題回答,問題也許分類屬于許多問題類型之一。TREC問題數(shù)據(jù)集包括六個不同的問題類型,例如是否問題是關(guān)于一個位置,對一個人或一些數(shù)字信息(Li和Roth,2002)。訓(xùn)練數(shù)據(jù)集包括5452個標簽的問題,作為測試數(shù)據(jù)集包含500個問題。結(jié)果報道在選項卡。2。非神經(jīng)大數(shù)據(jù)方法使用分類器的手動工程特性和手工編碼的資源。例如,Blunsom等等。(2006)提出了最大熵模型依賴于包括非n元模型26集的句法和語義功能,三元,三元模型,POS標簽,命名實體標記,從20結(jié)構(gòu)關(guān)系解析和共發(fā)現(xiàn)的同義詞集。我們評估了三種神經(jīng)模型在這個數(shù)據(jù)集上大多超函數(shù)一樣在二進制的情緒圖4:前五7元模型的四個特征探測器在第一層網(wǎng)絡(luò)。實驗5.2。作為數(shù)據(jù)集,而小,我們用低維詞向量與嵌入的d=32,初始化訓(xùn)練predictcon文本出現(xiàn)的無監(jiān)督方法(Turianetal.,2010)。過濾器的DCNN使用一個卷積層8號和5特征圖。DCNN的性能的區(qū)別和其他高性能方法選項卡。2并不顯著(p<0.09)。鑒于唯一標簽信息用于訓(xùn)練網(wǎng)絡(luò)訓(xùn)練集本身,值得注意的是,網(wǎng)絡(luò)匹配的最先進的分類器的性能依賴于大量的工程特性和規(guī)則和手工編碼的資源。5.4遠程監(jiān)控的推特情緒預(yù)測在最后的實驗中,我們訓(xùn)練的模型在一個龐大的數(shù)據(jù)集上推特,推特在哪里自動貼上積極或消極取決于發(fā)生在它的表情符號。訓(xùn)練集由160萬條emoticon-based標簽和大約400的測試集的注解tweet。我們進行預(yù)處理后的tweet最低限度程序中描述的etal。(2009);此外,我們還小寫的所有令牌。這導(dǎo)致76643詞的詞匯類型。DCNN的架構(gòu)和其他神經(jīng)模型在第5.2中是一樣的教派中使用二進制實驗之一。隨機初始化字嵌入增加長度的維d=60。表3實驗結(jié)果報告。我們看到的性能大幅提高DCNN關(guān)于非神經(jīng)基于n元分類器;傳播有關(guān)的大量的訓(xùn)練數(shù)據(jù)這些分類器構(gòu)成特別強烈的基線。我們看到,能力訓(xùn)練情緒分類器自動提取情感為主的標簽上延伸到DCNN和結(jié)果高度精確的性能之間的性能差異DCNNNBoW進一步表明,DCNN同時捕獲特性的能力基于長n元模型和分層次組合這些特性是非常有益的。5.5可視化特征檢測器過濾器的DCNN與特征檢測器或神經(jīng)元學(xué)習(xí)在訓(xùn)練時要特別活躍了一個特定的序列輸入單詞。在第一層,從輸入句子序列是一個持續(xù)的語法,在更高的層次,序列可以由多個單獨的字格。我們想象的功能探測器在第一層網(wǎng)絡(luò)訓(xùn)練二進制情緒任務(wù)(第5.2)。自過濾器寬度為7,為每個288功能探測器我們排名7元模型發(fā)生在根據(jù)其激活驗證集和測試集的探測器。圖5.2給出了前五的7元模型四功能探測器。除了預(yù)期的探測器對積極和消極情緒,我們發(fā)現(xiàn)等粒子探測器“不”否定情緒,如“太”,加強情緒。我們發(fā)現(xiàn)探測器為多個其他值得注意的結(jié)構(gòu)包括“所有”、“或”、“與…”,“……“。特征探測器不僅識別單個字格,但模式在字格語法、語義和結(jié)構(gòu)意義。6結(jié)論我們已經(jīng)描述了一個動態(tài)的卷積神經(jīng)網(wǎng)絡(luò),使用動態(tài)k-max池操作符作為非線性子采樣功能。網(wǎng)絡(luò)引發(fā)的特性圖能夠捕捉不同大小的關(guān)系。網(wǎng)絡(luò)實現(xiàn)了高性能的問題和情緒分類不需要外部提供的特性解析器或其他資源。致謝我們感謝NandodeFreitasandYeeWhyeTeh論文大討論。這項工作是由施樂基金獎的支持,EPSRC編號EP/f042728/1,和EPSRC編號EP/k036580/1。參考文獻MarcoBaroniandRobertoZamparelli.2010.Nounsarevectors,adjectivesarematrices:Representingadjective-nounconstructionsinsemanticspace.InEMNLP,pages1183–1193.ACL.PhilBlunsom,KrystleKocik,andJamesR.Curran.2006.Questionclassi?cationwithlog-linearmodels.InSIGIR’06:Proceedingsofthe29thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,pages615–616,NewYork,NY,USA.ACM.DaoudClarke.2012.Acontext-theoreticframeworkforcompositionalityindistributionalsemantics.ComputationalLinguistics,38(1):41–71.BobCoecke,MehrnooshSadrzadeh,andStephenClark.2010.MathematicalFoundationsforaCompositionalDistributionalModelofMeaning.March.RonanCollobertandJasonWeston.2008.Auni?edarchitecturefornaturallanguageprocessing:Deepneuralnetworkswithmultitasklearning.InInternationalConferenceonMachineLearning,ICML.JohnDuchi,EladHazan,andYoramSinger.2011.Adaptivesubgradientmethodsforonlinelearningandstochasticoptimization.J.Mach.Learn.Res.,12:2121–2159,July.KatrinErkandSebastianPad′o.2008.Astructuredvectorspacemodelforwordmeaningincontext.ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing-EMNLP’08,(October):897.KatrinErk.2012.Vectorspacemodelsofwordmeaningandphrasemeaning:Asurvey.LanguageandLinguisticsCompass,6(10):635–653.FelixA.GersandJrgenSchmidhuber.2001.Lstmrecurrentnetworkslearnsimplecontext-freeandcontext-sensitivelanguages.IEEETransactionsonNeuralNetworks,12(6):1333–1340.AlecGo,RichaBhayani,andLeiHuang.2009.Twittersentimentclassi?cationusingdistantsupervision.Processing,pages1–6.EdwardGrefenstetteandMehrnooshSadrzadeh.2011.Experimentalsupportforacategoricalcompositionaldistributionalmodelofmeaning.InProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing,pages1394–1404.AssociationforComputationalLinguistics.EdwardGrefenstette.2013.Category-theoreticquantitativecompositionaldistributionalmodelsofnaturallanguagesemantics.arXivpreprintarXiv:1311.1539.EmilianoGuevara.2010.ModellingAdjective-NounCompositionalitybyRegression.ESSLLI’10WorkshoponCompositionalityandDistributionalSemanticModels.KarlMoritzHermannandPhilBlunsom.2013.TheRoleofSyntaxinVectorSpaceModelsofCompositionalSemantics.InProceedingsofthe51stAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers),So?a,Bulgaria,August.AssociationforComputationalLinguistics.Forthcoming.GeoffreyE.Hinton,NitishSrivastava,AlexKrizhevsky,IlyaSutskever,andRuslanSalakhutdinov.2012.Improvingneuralnetworksbypreventingco-adaptationoffeaturedetectors.CoRR,abs/1207.0580.GeoffreyE.Hinton.1989.Connectionistlearningpro-cedures.Artif.Intell.,40(1-3):185–234.ZhihengHuang,MarcusThint,andZengchangQin.2008.Questionclassi?cationusingheadwordsandtheirhypernyms.InProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing,EMNLP’08,pages927–936,Stroudsburg,PA,USA.AssociationforComputationalLinguistics.NalKalchbrennerandPhilBlunsom.2013a.Recurrentcontinuoustranslationmodels.InProceedingsofthe2013ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,Seattle,October.AssociationforComputationalLinguistics.NalKalchbrennerandPhilBlunsom.2013b.RecurrentConvolutionalNeuralNetworksforDiscourseCompositionality.InProceedingsoftheWorkshoponContinuousVectorSpaceModelsandtheirCompositionality,So?a,Bulgaria,August.AssociationforComputationalLinguistics.DimitriKartsaklisandMehrnooshSadrzadeh.2013.Priordisambiguationofwordtensorsforconstructingsentencevectors.InProceedingsofthe2013ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),Seattle,USA,October.AndreasK¨uchlerandChristophGoller.1996.Inductivelearninginsymbolicdomainsusingstructure-drivenrecurrentneuralnetworks.InG¨untherG¨orzandSteffenH¨olldobler,editors,KI,volume1137ofLectureNotesinComputerScience,pages183–197.Springer.YannLeCun,L′eonBottou,YoshuaBengio,andPatrickHaffner1998.Gradient-basedlearningappliedtodocumentrecognition.ProceedingsoftheIEEE,86(11):2278–2324,November.XinLiandDanRoth.2002.Learningquestionclassi?ers.InProceedingsofthe19thinternationalconferenceonComputationallinguistics-Volume1,pages1–7.AssociationforComputationalLinguistics.TomasMikolovandGeoffreyZweig.2012.Contextdependentrecurrentneuralnetworklanguagemodel.InSLT,pages234–239.TomasMikolov,StefanKombrink,LukasBurget,JanCernock′y,andSanjeevKhudanpur.2011.Extensionsofrecurrentneuralnetworklanguagemodel.InICASSP,pages5528–5531.IEEE.JeffMitchellandMirellaLapata.2008.Vector-basedmodelsofsemanticcomposition.InProceedingsofACL,volume8.JeffMitchellandMirellaLapata.2010.Compositionindistributionalmodelsofsemantics.CognitiveScience,34(8):1388–1429.JordanB.Pollack.1990.Recursivedistributedrepresentations.Arti?cialIntelligence,46:77–105.HolgerSchwenk.2012.Continuousspacetranslationmodelsforphrase-basedstatisticalmachinetranslation.InCOLING(Posters),pages1071–1080.JooSilva,LusaCoheur,AnaCristinaMendes,andAndreasWichert.2011.Fromsymbolictosubsymbolicinformationinquestionclassi?cation.Arti?cialIntelligenceReview,35(2):137–154.RichardSocher,JeffreyPennington,EricH.Huang,AndrewY.Ng,andChristopherD.Manning.2011.Semi-SupervisedRecursiveAutoencodersforPredictingSentimentDistributions.InProceedingsofthe2011ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).RichardSocher,QuocV.Le,ChristopherD.Manning,andAndrewY.Ng.2013a.GroundedCompositionalSemanticsforFindingandDescribingImageswithSentences.InTransactionsoftheAssociationforComputationalLinguistics(TACL).RichardSocher,AlexPerelygin,JeanWu,JasonChuang,ChristopherD.Manning,AndrewY.Ng,andChristopherPotts.2013b.Recursivedeepmodelsforsemanticcompositionalityoverasentimenttreebank.InProceedingsofthe2013ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,pages1631–1642,Stroudsburg,PA,October.AssociationforComputationalLinguistics.JosephTurian,LevRatinov,andYoshuaBengio.2010.Wordrepresentations:asimpleandgeneralmethodforsemi-supervisedlearning.InProceedingsofthe48thAnnualMeetingoftheAssociationforComputationalLinguistics,pages384–394.AssociationforComputationalLinguistics.PeterTurney.2012.Domainandfunction:Adual-spacemodelofsemanticrelationsandcompositions.J.Artif.Intell.Res.(JAIR),44:533–585.AlexanderWaibel,ToshiyukiHanazawa,GeofreyHinton,KiyohiroShikano,andKevinJ.Lang.1990.Readingsinspeechrecognition.chapterPhonemeRecognitionUsingTime-delayNeuralNetworks,pages393–404.MorganKaufmannPublishersInc.,SanFrancisco,CA,USA.FabioMassimoZanzotto,IoannisKorkontzelos,FrancescaFallucchi,andSureshManandhar.2010.Estimatinglinearmodelsforcompositionaldistributionalsemantics.InProceedingsofthe23rdInternationalConferenceonComputationalLinguistics,pages1263–1271.AssociationforComputationalLinguistics.LukeS.ZettlemoyerandMichaelCollins.2005.Learningtomapsentencestologicalform:Structuredclassi?cationwithprobabilisticcategoryalgrammars.InUAI,pages658–666.AUAIPress.
2.外文原文AConvolutionalNeuralNetworkforModellingSentencesNalKalchbrenner、EdwardGrefenstette、PhilBlunsomAbstractTheabilitytoaccuratelyrepresentsentencesiscentraltolanguageunderstanding.WedescribeaconvolutionalarchitecturedubbedtheDynamicConvolutionalNeuralNetwork(DCNN)thatweadoptforthesemanticmodelingofsentences.ThenetworkusesDynamick-MaxPooling,aglobalpoolingoperationoverlinearsequences.Thenetworkhandlesinputsentencesofvaryinglengthandinducesafeaturegraphoverthesentencethatiscapableofexplicitlycapturingshortandlong-rangerelations.Thenetworkdoesnotrelyonaparsetreeandiseasilyapplicabletoanylanguage.WetesttheDCNNinfourexperiments:smallscalebinaryandmulticlasssentimentprediction,six-wayquestionclassi?cationandTwittersentimentpredictionbydistantsupervision.Thenetworkachievesexcellentperformanceinthe?rstthreetasksandagreaterthan25%errorreductioninthelasttaskwithrespecttothestrongestbaseline.1IntroductionTheaimofasentencemodelistoanalyseandrepresentthesemanticcontentofasentenceforpurposesofclassi?cationorgeneration.Thesentencemodelingproblemisatthecoreofmanytasksinvolvingadegreeofnaturallanguagecomprehension.Thesetasksincludesentimentanalysis,paraphrasedetection,entailmentrecognition,summarisation,discourseanalysis,machinetranslation,groundedlanguagelearningandimageretrieval.Sinceindividualsentencesarerarelyobservedornotobservedatall,onemustrepresentasentenceintermsoffeaturesthatdependonthewordsandshortn-gramsinthesentencethatarefrequentlyobserved.Thecoreofasentencemodelinvolvesafeaturefunctionthatde?nestheprocessThecatsatontheredmatFigure1:SubgraphofafeaturegraphinducedoveraninputsentenceinaDynamicConvolutionalNeuralNetwork.Thefullinducedgraphhasmultiplesubgraphsofthiskindwithadistinctsetofedges;subgraphsmaymergeatdifferentlayers.Theleftdiagramemphasisesthepoolednodes.Thewidthoftheconvolutional?ltersis3and2respectively.Withdynamicpooling,a?lterwithsmallwidthatthehigherlayerscanrelatephrasesfarapartintheinputsentence.bywhichthefeaturesofthesentenceareextractedfromthefeaturesofthewordsorn-grams.Varioustypesofmodelsofmeaninghavebeenproposed.Compositionbasedmethodshavebeenappliedtovectorrepresentationsofwordmeaningobtainedfromco-occurrencestatisticstoobtainvectorsforlongerphrases.Insomecases,compositionisde?nedbyalgebraicoperationsoverwordmeaningvectorstoproducesentencemeaningvectors(ErkandPado,2008;MitchellandLapata,2008;MitchellandLapata,2010;Turney,2012;Erk,2012;Clarke,2012).Inothercases,acompositionfunctionislearnedandeithertiedtoparticularsyntacticrelations(Guevara,2010;Zanzottoetal.,2010)ortoparticularwordtypes(BaroniandZamparelli,2010;Coeckeetal.,2010;GrefenstetteandSadrzadeh,2011;KartsaklisandSadrzadeh,2013;Grefenstette,2013).Anotherapproachrepresentsthemeaningofsentencesbywayofautomaticallyextractedlogicalforms(ZettlemoyerandCollins,2005).Acentralclassofmodelsarethosebasedonneuralnetworks.Theserangefrombasicneuralbag-of-wordsorbag-of-n-gramsmodelstothemorestructuredrecursiveneuralnetworksandtotime-delayneuralnetworksbasedonconvolutionaloperations(CollobertandWeston,2008;Socheretal.,2011;KalchbrennerandBlunsom,2013b).Neuralsentencemodelshaveanumberofadvantages.Theycanbetrainedtoobtaingenericvectorsforwordsandphrasesbypredicting,forinstance,thecontextsinwhichthewordsandphrasesoccur.Throughsupervisedtraining,neuralsentencemodelscan?netunethesevectorstoinformationthatisspeci?ctoacertaintask.Besidescomprisingpowerfulclassi?ersaspartoftheirarchitecture,neuralsentencemodelscanbeusedtoconditionaneurallanguagemodeltogeneratesentenceswordbyword(Schwenk,2012;MikolovandZweig,2012;KalchbrennerandBlunsom,2013a).Wede?neaconvolutionalneuralnetworkarchitectureandapplyittothesemanticmodelingofsentences.Thenetworkhandlesinputsequencesofvaryinglength.Thelayersinthenetworkinterleaveone-dimensionalconvolutionallayersanddynamick-maxpoolinglayers.Dynamick-maxpoolingisageneralisationofthemaxpoolingoperator.Themaxpoolingoperatorisanon-linearsubsamplingfunctionthatreturnsthemaximumofasetofvalues(LeCunetal.,1998).Theoperatorisgeneralisedintworespects.First,k-maxpoolingoveralinearsequenceofvaluesreturnsthesubsequenceofkmaximumvaluesinthesequence,insteadofthesinglemaximumvalue.Secondly,thepoolingparameterkcanbedynamicallychosenbymakingkafunctionofotheraspectsofthenetworkortheinput.Theconvolutionallayersapplyone-dimensional?ltersacrosseachrowoffeaturesinthesentencematrix.Convolvingthesame?lterwiththen-gramateverypositioninthesentenceallowsthefeaturestobeextractedindependentlyoftheirpositioninthesentence.Aconvolutionallayerfollowedbyadynamicpoolinglayerandanon-linearityformafeaturemap.Likeintheconvolutionalnetworksforobjectrecognition(LeCunetal.,1998),weenrichtherepresentationinthe?rstlayerbycomputingmultiplefeaturemapswithdifferent?ltersappliedtotheinputsentence.Subsequentlayersalsohavemultiplefeaturemapscomputedbyconvolving?lterswithallthemapsfromthelayerbelow.Theweightsattheselayersformanorder-4tensor.TheresultingarchitectureisdubbedaDynamicConvolutionalNeuralNetwork.Multiplelayersofconvolutionalanddynamicpoolingoperationsinduceastructuredfeaturegraphovertheinputsentence.Figure1illustratessuchagraph.Small?ltersathigherlayerscancapturesyntacticorsemanticrelationsbetweennon-continuousphrasesthatarefarapartintheinputsentence.Thefeaturegraphinducesahierarchicalstructuresomewhatakintothatinasyntacticparsetree.Thestructureisnottiedtopurelysyntacticrelationsandisinternaltotheneuralnetwork.Weexperimentwiththenetworkinfoursettings.The?rsttwoexperimentsinvolvepredictingthesentimentofmoviereviews(Socheretal.,2013b).Thenetworkoutperformsotherapproachesinboththebinaryandthemulticlassexperiments.ThethirdexperimentinvolvesthecategorisationofquestionsinsixquestiontypesintheTRECdataset(LiandRoth,2002).Thenetworkmatchestheaccuracyofotherstate-of-the-artmethodsthatarebasedonlargesetsofengineeredfeaturesandhand-codedknowledgeresources.ThefourthexperimentinvolvespredictingthesentimentofTwitterpostsusingdistantsupervision(Goetal.,2009).Thenetworkistrainedon1.6milliontweetslabelledautomaticallyaccordingtotheemoticonthatoccursinthem.Onthehand-labelledtestset,thenetworkachievesagreaterthan25%reductioninthepredictionerrorwithrespecttothestrongestunigramandbigrambaselinereportedinGoetal.(2009).Theoutlineofthepaperisasfollows.Section2describesthebackgroundtotheDCNNincludingcentralconceptsandrelatedneuralsentencemodels.Section3de?nestherelevantoperatorsandthelayersofthenetwork.Section4treatsoftheinducedfeaturegraphandotherpropertiesofthenetwork.Section5discussestheexperimentsandinspectsthelearntfeaturedetectors.2BackgroundThelayersoftheDCNNareformedbyaconvolutionoperationfollowedbyapoolingoperation.Webeginwithareviewofrelatedneuralsentencemodels.Thenwedescribetheoperationofone-dimensionalconvolutionandtheclassicalTimeDelayNeuralNetwork(TDNN)(Hinton,1989;Waibeletal.,1990).Byaddingamaxpoolinglayertothenetwork,theTDNNcanbeadoptedasasentencemodel(CollobertandWeston,2008).2.1RelatedNeuralSentenceModelsVariousneuralsentencemodelshavebeendescribed.AgeneralclassofbasicsentencemodelsisthatofNeuralBag-of-Words(NBoW)models.Thesegenerallyconsistofaprojectionlayerthatmapswords,sub-wordunitsorn-gramstohighdimensionalembeddings;thelatterarethencombinedcomponent-wisewithanoperationsuchassummation.Theresultingcombinedvectorisclassi?edthroughoneormorefullyconnectedlayers.AmodelthatadoptsamoregeneralstructureprovidedbyanexternalparsetreeistheRecursiveNeuralNetwork(RecNN)(Pollack,1990;Kiiuch
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 豐子愷楊柳課件
- 孟子成語 課件
- 第二單元(復(fù)習(xí))-二年級語文上冊單元復(fù)習(xí)(統(tǒng)編版)
- 西京學(xué)院《融媒體新聞編輯》2023-2024學(xué)年第一學(xué)期期末試卷
- 西京學(xué)院《劇本創(chuàng)作》2021-2022學(xué)年第一學(xué)期期末試卷
- 西京學(xué)院《工程定額原理》2021-2022學(xué)年第一學(xué)期期末試卷
- 西華師范大學(xué)《語文學(xué)科教學(xué)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 《畫世界名畫》少兒美術(shù)教育繪畫課件創(chuàng)意教程教案
- 西華師范大學(xué)《數(shù)學(xué)物理方法》2021-2022學(xué)年第一學(xué)期期末試卷
- 西華師范大學(xué)《軟件及應(yīng)用》2022-2023學(xué)年期末試卷
- 田麥久《運動訓(xùn)練學(xué)》(第2版)配套題庫(含考研真題)
- 2016出資證明書(貨幣出資)(共1頁)
- 小學(xué)廣播體操比賽評分細則、評分表
- 20以內(nèi)加減法混合口算練習(xí)題(每頁100題)
- 商務(wù)英語教學(xué)課件:unit5 Travel and Visits
- 民航概論課程標準
- MACD二次綠柱縮短的選股公式.doc
- 尾礦庫閉庫工程施工組織設(shè)計方案范本
- 化工企業(yè)事故案例分析(中毒事故)
- 兒童日常習(xí)慣培養(yǎng)積分表
- 2021年勞資科三年工作總結(jié)
評論
0/150
提交評論