自然語言處理-西湖大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年

上傳人：題*** IP屬地：浙江上傳時間：2023-07-24 格式：DOCX 頁數(shù)：49 大小：26.79KB 積分：9.6 舉報 版權(quán)申訴

自然語言處理-西湖大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年_第2頁

自然語言處理-西湖大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年_第3頁

自然語言處理-西湖大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年_第4頁

自然語言處理-西湖大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年_第5頁

已閱讀5頁，還剩44頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

自然語言處理_西湖大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年下列哪些任務(wù)屬于計算語言學(xué)的研究范疇？

參考答案:

篇章結(jié)構(gòu)分析_成分句法分析

下列陳述正確的包括

參考答案:

基于事件的股市預(yù)測屬于文本挖掘任務(wù)_推薦系統(tǒng)是自然語言處理的一個分支

語言處理相關(guān)機器學(xué)習模型可以分為

參考答案:

線性模型和非線性模型_有監(jiān)督學(xué)習和無監(jiān)督學(xué)習

從機器學(xué)習的視角學(xué)習自然語言處理的優(yōu)勢，包括

參考答案:

同樣的機器學(xué)習方法可以解決很多不同的自然語言處理任務(wù)_自然語言處理任務(wù)動態(tài)變化，而背后的機器學(xué)習方法相對固定_機器學(xué)習算法有助于對深刻的語言學(xué)規(guī)律的研究

下列哪些任務(wù)使用文本生成技術(shù)？

參考答案:

機器翻譯_開放領(lǐng)域問答

下列哪些屬于信息抽取任務(wù)？

參考答案:

事件自動檢測_醫(yī)藥關(guān)系抽取_命名實體識別_機器閱讀理解

自然語言處理發(fā)展經(jīng)歷了哪些歷史階段？

參考答案:

基于規(guī)則的方法_統(tǒng)計方法_深度學(xué)習方法

依存句法分析任務(wù)用算法自動預(yù)測

參考答案:

詞與詞之間的句法關(guān)系

為什么要使用統(tǒng)計方法進行自然語言處理

參考答案:

統(tǒng)計方法有助于解決語言中的歧義

給定一段文字，判斷其蘊含的正面、負面情感的任務(wù)叫做

參考答案:

情感分類

下列哪些應(yīng)用背后包含自然語言處理技術(shù)？

參考答案:

搜索引擎_導(dǎo)航系統(tǒng)_語音輸入法

下列哪些結(jié)構(gòu)屬于語義分析的對象？

參考答案:

抽象語言義表達_層次短語結(jié)構(gòu)_對話意圖分析_一階謂詞邏輯

下列哪些方法可以解決預(yù)測訓(xùn)練詞匯表中沒有覆蓋的詞在下游任務(wù)中的使用挑戰(zhàn)？

參考答案:

在預(yù)訓(xùn)練詞表中加入〈UNK〉，并隨機將預(yù)訓(xùn)練數(shù)據(jù)中的低頻詞變?yōu)椤碪NK〉。_使用字符作為預(yù)測訓(xùn)練詞向量的基礎(chǔ)，實現(xiàn)char-based詞向量。_在下游任務(wù)訓(xùn)練中微調(diào)隨機初始化的詞向量，并將其加入總詞表

下列關(guān)于詞性嵌入（parts-of-speechembedding)的論述正確的有___。

參考答案:

參數(shù)量等于詞性標簽個數(shù)｜L｜與詞性嵌入向量長度d的乘積_Lookuptable與詞嵌入原理一致

下列對于反向傳播算法(backpropagation)最準確的描述

參考答案:

梯度計算方法，用于模型訓(xùn)練

隱馬爾科夫模型的訓(xùn)練

參考答案:

使用最大似然估算原則_使用相對頻率

Baum-Welch算法

參考答案:

是迭代算法_是無監(jiān)督學(xué)習_使用了動態(tài)規(guī)劃算法

使用隨機梯度下降(SGD)算法對于多層感知機(MLP)進行參數(shù)更新，前項計算的作用

參考答案:

為了計算每層參數(shù)的導(dǎo)數(shù)

關(guān)于模型參數(shù)的初始化，單層感知機(Singlelayerperceptron)___，而多層感知機(multi-layerperceptron)___。

參考答案:

可以全零初始化或隨機初始化，只能隨機初始化

詞嵌入(Wordembedding's)是___的___向量。

參考答案:

低維、稠密

下列哪個神經(jīng)網(wǎng)絡(luò)可以把一個向量序列(Alistofvectors)轉(zhuǎn)化為一個向量表示？

參考答案:

池化(pooling)

池化函數(shù)___參數(shù)，且___反向傳播訓(xùn)練

參考答案:

沒有，需要

一個用于文本分類問題的神經(jīng)網(wǎng)絡(luò)，由一個embedding層，一個CNN層，一個pooling層，以及一個output層組成。詞表共有V個詞，詞嵌入長度為d，CNN卷積窗口為3，隱層長度為h，輸出層使用softmax激活函數(shù)實現(xiàn)4分類。它的參數(shù)量為

參考答案:

Vd+3dh+4h

梯度消失(gradientdiminishing)是指神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中，某些參數(shù)的導(dǎo)數(shù)隨著神經(jīng)網(wǎng)絡(luò)總的層數(shù)___而發(fā)生___的現(xiàn)象

參考答案:

增加，減少

下列哪個技術(shù)可以有效解決梯度爆炸問題？

參考答案:

gradientclipping

殘差網(wǎng)絡(luò)(residualnetwork)可以解決

參考答案:

梯度消失

層正則化（layernormalization）的基本思路是通過計算___減小___變化對模型穩(wěn)定性的影響

參考答案:

均值與方差，網(wǎng)絡(luò)參數(shù)

Dropout是指神經(jīng)網(wǎng)絡(luò)___過程中隨機將一部分___置零的方法。

參考答案:

訓(xùn)練，向量

在SGDwithmomentum之中，momentum代表

參考答案:

當前更新大小

下列激活函數(shù)中，非線性的包括：

參考答案:

sigmoid_tanh_ReLU

下列關(guān)于卷積神經(jīng)網(wǎng)絡(luò)(CNN)說法正確的有

參考答案:

可以學(xué)習N元組(n-gram)特征_給定一個輸入，每個卷積操作(convolutionfilter)參數(shù)相同_卷積函數(shù)可以用單層感知機實現(xiàn)

以下哪些是判別式模型

參考答案:

感知機_條件隨機場(CRF)

樸素貝葉斯模型與隱馬爾可夫模型的關(guān)系，最像邏輯回歸模型與___的關(guān)系

參考答案:

條件隨機場

結(jié)構(gòu)支持向量機StructuredSVM和標準二分類的支持向量機相比

參考答案:

原理一致，但是使用動態(tài)規(guī)劃計算最優(yōu)序列

條件隨機場的訓(xùn)練和二分類對數(shù)線性模型的訓(xùn)練相比

參考答案:

原理一致，但是使用動態(tài)規(guī)劃計算邊緣概率

下列關(guān)于neuralCRF,說法正確的有：

參考答案:

可使用神經(jīng)網(wǎng)絡(luò)替換標準CRF的輸入輸出特征組合_可使用神經(jīng)網(wǎng)絡(luò)替換標準CRF的輸出特征_可使用神經(jīng)網(wǎng)絡(luò)替換標準CRF的輸入特征

對依存句法分析進行基于轉(zhuǎn)移對建模（transition-based),其關(guān)鍵之處在于給定當前狀態(tài)，對下步動作的預(yù)測。該任務(wù)可以看成分類問題，神經(jīng)網(wǎng)絡(luò)相比線性perceptron模型的主要優(yōu)勢包括：

參考答案:

對于動作歷史（actionhistory)可以使用sequence

encoder提取整體特征_對于棧（stack)元素可以使用sequence

encoder提取更復(fù)雜的抽象特征_對于輸入詞序列，可用sequenceencoder提取深層特征_分類層可使用多層感知機進行非線性建模

擲骰子，得到1~6這6個不同的點數(shù)。該問題所對應(yīng)的概率分布是

參考答案:

伯努利分布（Bernoullidistribution）

在一般意義上，建模過程中的參數(shù)化（parameterization）步驟是指

參考答案:

定義模型參數(shù)，實現(xiàn)從輸入到輸出的映射函數(shù)的過程

給定連續(xù)的兩個詞，計算第三個詞的條件概率。這樣的語言模型是

參考答案:

三元語言模型

用同樣的數(shù)據(jù)訓(xùn)練的語言模型，下列哪個更大？（提示：參數(shù)實例數(shù)量影響模型大?。?/p>

參考答案:

五元語言模型

樸素貝葉斯模型(NaiveBayesclassifiermodel)有幾個參數(shù)類別

參考答案:

關(guān)于超參數(shù)，下列哪些說法是正確的

參考答案:

一般來說，超參數(shù)的數(shù)量相對模型參數(shù)較少_超參數(shù)影響模型性能_超參數(shù)允許手工定義

關(guān)于概率鏈式法則與條件無關(guān)假設(shè)，下列說法正確的有

參考答案:

生成式概率模型，參數(shù)化過程中的重要工具_N元語言模型句子概率計算過程的推導(dǎo)手段_樸素貝葉斯模型建模過程中使用的重要技巧_最大似然估計推導(dǎo)過程中的必要步驟

下列哪些技術(shù)可以減少數(shù)據(jù)稀疏性對模型帶來的不利影響

參考答案:

回退（backoff）_平滑（smoothing）

如果有七元語言模型，那么它的主要技術(shù)挑戰(zhàn)包括

參考答案:

稀疏性強_內(nèi)存占用多_速度慢

樸素貝葉斯模型參數(shù)化的過程使用了

參考答案:

貝葉斯法則(bayesrule)_條件無關(guān)假設(shè)(Independenceassumption)_概率鏈式法則(probabilitychainrule)

下列關(guān)于概率正確的表達有

參考答案:

P(B,C|A)=P(B|A)P(C|B,A)_P(A)P(B|A)=P(B)P(A|B)_A與B條件無關(guān)，則B與A條件無關(guān)

對向量空間進行聚類所依賴的基本數(shù)學(xué)關(guān)系是？

參考答案:

空間距離關(guān)系

多分類支持向量機不再需要參數(shù)b的原因是

參考答案:

模型訓(xùn)練的目標函數(shù)改變，用正確類別和錯誤類別的相對分值而不是絕對分值進行決策

下列關(guān)于特征的陳述，哪些是正確的

參考答案:

分為特征類別和特征實例，后者經(jīng)常作為特征向量的一部分_是對具體信息的抽象數(shù)學(xué)表達_可以取整數(shù)值，也可以取實數(shù)值

下列哪些手段可以解決信息量低的高頻詞對于基于詞頻的文檔向量表示的不利影響

參考答案:

使用TF/IDF文檔向量_停用詞的排除

下列對于K-均值聚類正確的說法有

參考答案:

依賴于向量之間的空間距離度量_是一種迭代的算法

關(guān)于分類問題和聚類問題正確的說法有

參考答案:

分類問題比聚類問題對向量空間的切分可控，是因為相應(yīng)的模型參數(shù)更多_都是在向量空間尋找切分方式的算法_效果都受到特征類別定義的影響

關(guān)于支持向量機(supportvectormachine)和樸素貝葉斯模型，下列說法錯誤的是

參考答案:

都是二分類模型模型_都是概率模型_都是判別式模型

關(guān)于支持向量機(SVM)正確的說法有

參考答案:

模型參數(shù)可以被看成是一個超平面_利用點到超平面的距離定義訓(xùn)練目標_可以很自然地解決二分類問題，但不能直接解決多分類問題

關(guān)于感知機(perceptron)正確的說法有

參考答案:

給定一個輸入，模型分數(shù)大于一則判斷為正例，模型分數(shù)小于1則判斷為負例_是一種在線的學(xué)習算法_模型參數(shù)可以被看成是定義一個超平面

允許支持向量機和感知機用一個超平面完成多分類問題的關(guān)鍵因素包括

參考答案:

通過對輸入和輸出同時提取特征，對特征向量空間增維_將多分類問題轉(zhuǎn)換成正確類別和錯誤類別的二分類

多分類感知機與二分類感知機相同之處

參考答案:

都將向量空間分成兩個部分_都在訓(xùn)練數(shù)據(jù)上迭代多輪更新

線性模型在訓(xùn)練數(shù)據(jù)上能夠完全區(qū)分不同的樣本，取決于：

參考答案:

訓(xùn)練數(shù)據(jù)的線性可分性_模型特征定義的豐富程度

同階semiCRF的維特比算法和前項算法，表格結(jié)構(gòu)___，運算時間復(fù)雜度___

參考答案:

相同，相同

對數(shù)線性模型的訓(xùn)練目標函數(shù)是

參考答案:

最大似然Maximumlikelihood

在隨機梯度下降算法優(yōu)化對數(shù)線性模型的過程中，每一輪迭代針對當前樣本計算的是

參考答案:

當前樣本局部損失函數(shù)對于模型參數(shù)的導(dǎo)數(shù)。

關(guān)于多分類感知機和支持向量機的比較

參考答案:

感知機的訓(xùn)練目標函數(shù)和支持向量機相似，但是后者多了一項正則項。

0/1損失函數(shù)為什么不能用于定義模型的損失函數(shù)

參考答案:

這種損失函數(shù)無法對模型參數(shù)求導(dǎo)。

感知機支持向量機和對數(shù)線性模型的訓(xùn)練目標函數(shù)都可以看作是

參考答案:

最小化訓(xùn)練數(shù)據(jù)上的經(jīng)驗風險。

顯著性檢驗的p值Significancelevel具體代表

參考答案:

兩個模型內(nèi)在性能相同的概率。

關(guān)于對數(shù)線性模型，下列說法正確的有

參考答案:

二分類對數(shù)線性模型，又叫做邏輯回歸（Logisticregression）_對數(shù)線性模型屬于線性判別模型

下列關(guān)于梯度下降算法正確的說法有

參考答案:

是一種迭代算法_隨機梯度下降是梯度下降算法的一種近似，運行效率更高。_是一種數(shù)值優(yōu)化算法

感知機支持向量機和對數(shù)線性模型可以看成是一個一般感知機模型的不同特例，它們之間的不同之處在于

參考答案:

激活函數(shù)不同_正則項不同

L1正則和L2正則的相同之處不包括

參考答案:

都使得參數(shù)向量還有更多的零值。_都使得參數(shù)向量的模變小。_都不適用于邏輯回歸。

集成模型Ensemblemodel的概念

參考答案:

可以通過多個模型加權(quán)投票的方式進行。_和單模型相比可以降低泛化誤差。_可以通過多個模型堆疊（Stacking）的方式進行。

semiCRF模型計算邊緣概率(片段概率)所使用的算法是

參考答案:

前項后項算法

半馬爾可夫條件隨機場(Semi-MarkovConditionalRandomField))和條件隨機長(ConditonalRandomField)的隨機梯度下降(SGD)訓(xùn)練方法，單個樣本的導(dǎo)數(shù)在公式形式上___，其中計算期望的求和實現(xiàn)算法___

參考答案:

相同，不同

關(guān)于半監(jiān)督學(xué)習，說法錯誤的有

參考答案:

屬于無監(jiān)督訓(xùn)練。_屬于有監(jiān)督訓(xùn)練。_屬于自監(jiān)督訓(xùn)練。

關(guān)于co-training正確的說法是

參考答案:

需要未經(jīng)標注的數(shù)據(jù)。_是一種半監(jiān)督學(xué)習的方法。_是一種數(shù)據(jù)增廣的方式。_需要兩個模型。

多分類感知機和對數(shù)線性模型在隨機梯度下降訓(xùn)練過程中，相同的地方不包括

參考答案:

都考慮所有可能的輸出類別。_都考慮模型概率。_梯度更新都以正確輸出的特征向量和模型分數(shù)最高的輸出的特征向量的差為基礎(chǔ)。

關(guān)于生成式模型(generativemodel)，下列表述正確的有

參考答案:

建模的對象是聯(lián)合概率表達_具有較高的可解釋性，表達生成過程_一般難以處理(overlappingfeatures)特征

對于超參數(shù)選擇，正確說法的有

參考答案:

randomsearch可作為省時選擇_gridsearch相對更加耗時，但列可能找到較優(yōu)的超參數(shù)組合

半馬爾可夫條件隨機場(Semi-MarkovConditionalRandomField)、結(jié)構(gòu)支持向量機(structuredSVM)和結(jié)構(gòu)感知機(structuredperceptron)在解決序列切分問題時，

參考答案:

訓(xùn)練不同，解碼可以相同

如果對詞的長度進行最大限制，那么中文分詞的一階半馬爾科夫條件隨機場模型(firstordersemiCRF)動態(tài)規(guī)劃解碼對于輸入長度的時間復(fù)雜度為

參考答案:

線性復(fù)雜度

對于中文分詞，使用一階半馬爾科夫模型，其動態(tài)規(guī)劃解碼算法的時間復(fù)雜度對于輸入長度

參考答案:

三次方復(fù)雜度

使用一階半馬爾科夫模型進行中文分詞，對于輸出“〈s〉我吃了蘋果〈/s〉”，激活“連續(xù)兩個詞”特征模板，可以產(chǎn)生幾個特征實例？

參考答案:

五

對于序列切分問題，使用條件隨機場和維特比算法進行序列標注解決

參考答案:

是一種具有線性復(fù)雜度，但是片段特征受到限制的可行實現(xiàn)方式

用于序列標注的感知機structuredperceptron和標準二分類的感知機相比

參考答案:

原理一致，但是使用動態(tài)規(guī)劃計算最優(yōu)序列

中文分詞在機器學(xué)習視角屬于什么問題？下列最正確的描述

參考答案:

序列切分問題

關(guān)于不正確的訓(xùn)練樣本的代價(cost)，說法正確的有

參考答案:

影響結(jié)構(gòu)支持向量機的訓(xùn)練過程，改變其對負樣本的選擇_體現(xiàn)不同錯誤輸出之間的相對優(yōu)劣_量化指標容易融合到最大邊緣損失

下列有關(guān)平均感知機的說法正確的包括

參考答案:

對模型參數(shù)進行平均計算_通過類似集體學(xué)習的方式減少過擬合

Pointernetwork和copyingnetwork都是為了解決sequence-to-sequence建模中的____問題，其不同之處在于____使用atteation機制進行選詞

參考答案:

源端向目標端拷貝，前者

在自回歸（auto-regressive)的序列到序列（sequence-to-sequence)的解碼中，引入柱搜素（beam-search）的主要目的是

參考答案:

緩解貪婪（greedy)解碼的錯誤問題

在序列到序列（sequence-to-sequence)的LSTM模型中，加入target-to-sourceattention使解碼器每個步驟都得到編碼器隱層的加權(quán)平均值。這樣做的主要優(yōu)點在于

參考答案:

輸入輸出序列關(guān)聯(lián)更緊了

服從均勻分布的隨機數(shù)一共有52種可能，得到其中一個數(shù)字所消除的不確定性可以用多少個比特編碼？

參考答案:

5比特到6比特之間

籃子里邊有一個紅球，三個綠球和四個藍球，抓到藍色球所消除的不確定性是

參考答案:

1比特

信息和熵分別表示___和___的不確定性：

參考答案:

隨機事件的結(jié)果，隨機事件

關(guān)于點互信息(point-wisemutualinformation)，正確的說法是

參考答案:

與聯(lián)合概率和邊緣概率都有關(guān)

下列和最大熵原則有關(guān)的論述包括

參考答案:

最大似然估算_奧卡姆的剃刀_訓(xùn)練過程最大化目標變量的不確定性

下列描述兩個隨機變量的概念包括

參考答案:

條件熵_互信息

序列到序列（sequence-to-sequence)神經(jīng)網(wǎng)絡(luò)一般含有______兩個組件

參考答案:

編碼器（encoder)與解碼器（decoder）

使用神經(jīng)網(wǎng)絡(luò)進行成分句法分析（constituentparsing）自底向上包括詞嵌入層，biLSTM序列編碼層與局部（local)輸出層。其中，給定一個輸入W1，W2，…，Wn，局部輸出層以預(yù)測每個輸入片段是否構(gòu)成短語結(jié)構(gòu)（constituent)為主要任務(wù)。如果使用分類輸出層預(yù)測Wb,Wb+1,…We(b∈[1,…，n]，e∈[b,…，n])片段，那么該片段的特征可以怎樣表示？

參考答案:

biLSTM隱層hb,hb+1,…，he平均_biLSTM隱層hb與he拼接

使用神經(jīng)網(wǎng)絡(luò)進行依存句法分析（dependencyparsing）自底向上包括詞嵌入層，序列編碼層，與局部（local)輸出層。下列描述正確的有

參考答案:

輸出層可用softmax尋找每個詞的頭詞（head)_可以使用maximumspanningtree(MST)等算法解碼

對于基于字符嵌入（Characterembedding）的詞表示，下列論述正確的有___。

參考答案:

字符embeddingLookuptable原理上與詞嵌入相同_可以解決詞嵌入未登錄詞（OOV）的問題_需要序列編碼網(wǎng)絡(luò)（Sequenceeucoding)將字符序列轉(zhuǎn)為一個向量√_可以與詞嵌入（Wordembedding）拼接使用

最小化KL散度相當于

參考答案:

最小化模型困惑度_最大化數(shù)據(jù)似然_最小化交叉熵

端到端（end-to-end)模型可以解決______模型的信息融合缺少與錯誤蔓延問題

參考答案:

流水線（pipeline)

隱馬爾科夫模型(HMM)參數(shù)化的過程使用技巧

參考答案:

貝葉斯法則_概率鏈式法則_條件無關(guān)假設(shè)

一階隱馬爾科夫模型

參考答案:

每個標簽只依賴前一個標簽_是生成式模型

一個用于二分類問題的多層感知機(multilayerperceptron)，輸入向量100維，唯一的隱層長度100維，輸出層計算概率分布。該模型可能有多少個參數(shù)？

參考答案:

10100

給一個多分類任務(wù)的單層感知機加上隱層，使之變成多層感知機。假如添加的隱層使用identity激活函數(shù)，且輸入的特征向量保持不變，那么得到的多層感知機與原先的單層感知機相比，對于輸入特征向量空間的切分能力

參考答案:

沒有變化，仍然只能使用超平面切分輸入特征空間。

下邊關(guān)于熵和困惑度的描述正確的有

參考答案:

具有對數(shù)和指數(shù)的關(guān)系_描述多面色子，前者可以描述編碼的比特數(shù)，后者描述其對應(yīng)的色子面數(shù)_都描述隨機變量的統(tǒng)計特性

使用基于轉(zhuǎn)移（transition-based）方法解決結(jié)構(gòu)預(yù)測問題。在構(gòu)造全局（global)神經(jīng)網(wǎng)絡(luò)模型，配合柱搜索（beam-search)解碼時，模型用該怎樣計算分數(shù)？

參考答案:

對每個動作打分，加和得到全局分數(shù)，并進行全局概率歸一計算

下邊關(guān)于模型困惑度的描述正確的有

參考答案:

不會為負值_可以用于評價語言模型的質(zhì)量_可以用于定義損失函數(shù)

關(guān)于詞的向量表示，說法正確的有

參考答案:

可以用點互信息來取代詞匯表中的每一個詞與當前詞在特定上下文共同出現(xiàn)的頻率_理想狀態(tài)意思相近的詞在向量空間里邊的位置相近_可以用詞匯表中的每一個詞與當前詞在特定上下文共同出現(xiàn)的頻率作為當前詞的向量表示

關(guān)于條件隨機場的前項后項算法，說法正確的有

參考答案:

設(shè)計過程利用了全局特征向量可分解的性質(zhì)_可以計算序列中連續(xù)k個標簽的邊緣概率_前項和后項算法都與維特比算法框架相似，具有相同的時間復(fù)雜度_是針對指數(shù)求和的多項式時間簡化方法

下列關(guān)于條件隨機場的說法正確的有

參考答案:

建模過程中使用馬爾可夫假設(shè)_是一種判別模型_是一種概率模型_是一種結(jié)構(gòu)預(yù)測模型

最大熵馬爾科夫模型(MEMM)的訓(xùn)練過程使用了

參考答案:

隨機梯度下降_最大似然估算

多層感知機(MLP)與單層感知機在多分類問題的損失函數(shù)方面

參考答案:

可以選擇相同的損失函數(shù)

二階隱馬爾科夫模型之中，每一個輸出標簽概率依賴于幾個歷史標簽？

參考答案:

下列哪些任務(wù)屬于結(jié)構(gòu)預(yù)測任務(wù)

參考答案:

成分句法分析_中文分詞_詞性標注

隱變量(Hiddenvariable)指的是：

參考答案:

訓(xùn)練數(shù)據(jù)中不存在的變量

下列哪種算法可以對隱變量進行學(xué)習？

參考答案:

期望最大算法

本節(jié)課中K均值聚類里邊的隱變量是

參考答案:

向量對類別的歸屬

在運行無監(jiān)督樸素貝葉斯模型之前，需要事先隨機初始化：

參考答案:

模型參數(shù)

IBMmodel1有幾個參數(shù)類別？

參考答案:

兩個

IBMmodel1的隱變量

參考答案:

任務(wù)收入和任務(wù)輸出之外的變量

IBMModel1最后為翻譯的句間關(guān)系進行了哪些化簡

參考答案:

目標語言句子中的第一個單詞可以對應(yīng)源語言中的多個單詞。

隱變量在不同問題中可以包括

參考答案:

輸入輸出之外的其他變量_任務(wù)輸出

K均值聚類可以看成一種

參考答案:

化簡的期望最大算法_概率算法_迭代優(yōu)化算法

對于hardEM算法，下列正確的有

參考答案:

迭代的終止條件是隱變量和模型參數(shù)不再顯著改變_是期望最大算法的一種化簡形式_通過迭代的調(diào)整模型參數(shù)和隱變量來優(yōu)化數(shù)據(jù)似然

下列關(guān)于期望最大算法說法正確的有

參考答案:

參數(shù)化過程只需針對模型建模對象的聯(lián)合概率進行_建模對象是可觀測的變量和隱變量的聯(lián)合概率_是一種最大似然訓(xùn)練算法，考慮到隱變量_可以看成是一種坐標上升(coordinateascent)數(shù)值優(yōu)化算法

下列關(guān)于無監(jiān)督樸素貝葉斯模型說法正確的有

參考答案:

建模對象和參數(shù)設(shè)置與有監(jiān)督樸素貝葉斯模型相同_需要事先定義類別個數(shù)

IBMmodel1的參數(shù)化過程使用了哪些技術(shù)

參考答案:

條件無關(guān)假設(shè)_貝葉斯法則_概率鏈式法則

下列PLSA描述正確的有

參考答案:

是有隱變量的模型_是一種生成式概率模型_可以給文檔提供乘冪向量表示

隱馬爾科夫模型有幾個特征類別？

參考答案:

經(jīng)過二叉化(binarization)的成分句法樹

參考答案:

每個節(jié)點都含有一個或兩個子節(jié)點

標簽詞性標注任務(wù)的解碼過程

參考答案:

給定詞序列，預(yù)測相應(yīng)的詞性標簽序列

使用SWAP動作，基于轉(zhuǎn)移的依存句法系統(tǒng)分析長度為n的非投射句，總動作個數(shù)

參考答案:

n^2

詞性標注的輸出序列個數(shù)與輸入序列長度成

參考答案:

質(zhì)數(shù)關(guān)系

下列哪些可能是arc-standard依存句法分析動作？

參考答案:

left-arc-SBJ_shift

下列哪些可能是arc-eager依存句法分析動作？

參考答案:

Shift_Left-arc-SBJ_Right-arc-SBJ

下列哪些可能是shift-reduce成分句法分析的動作？

參考答案:

Shift_reduce-left-VP

與binarytreeLSTM相比，childsumtreeLSTM的主要特點是

參考答案:

處理任意的樹結(jié)構(gòu)

與pooling和CNN相比，RNN的重要優(yōu)點

參考答案:

編碼每個輸入單元的時侯可以抽取所有歷史上下文的特征

給定一個輸入，如果把RNN的計算過程按照時間序列展開，所得到的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類似于

參考答案:

MLP

LSTM的recurrentstep主要是

參考答案:

cell的計算

QKVattention與標準attention區(qū)別主要在于

參考答案:

將原h(huán)idden分為key與value

與childsumtreeLSTM相比，binarytreeLSTM的主要特點是

參考答案:

可以對于每個子結(jié)點使用不同參數(shù)進行編碼

BinarytreeLSTM可以看成是序列LSTM的一種擴展，其主要不同在于

參考答案:

對于每個結(jié)點，子結(jié)點數(shù)量增加了

GRN、GCN和GAT的主要區(qū)別

參考答案:

不同結(jié)點之間交換信息的方法不同

t-SNE是一種___算法，利用___不變的特性進行運算

參考答案:

高維向量降維可視化，相對距離

探針（probing）利用___任務(wù)，在___被分析模型參數(shù)的基礎(chǔ)上進行分析

參考答案:

外部，不改變

把treeCRF替換成neuraltreeCRF,可以將其__【圖片】分數(shù)替換成任意神經(jīng)網(wǎng)絡(luò)函數(shù)，而后者需要編碼___特征。

參考答案:

局部，輸入

biLSTM-CRF模型對于輸入可以抽取___特征，對于輸出可以抽取___特征。

參考答案:

全局，n-gram

去掉模型的某些組成部分，并且和原始模型進行性能對比，從而驗證被去掉的組成部分的重要性。上述實驗叫做

參考答案:

消融實驗

neuralCRF訓(xùn)練過程，CRF部分___看成一個神經(jīng)網(wǎng)絡(luò)層進行反向傳遞，而且___進行前向后向計算。

參考答案:

可以，需要

一個分類和一個序列標注神經(jīng)網(wǎng)絡(luò)詞嵌入層和序列編碼層完全相同，分類建模使用pooling+softmax輸出，序列標注模型使用softmax局部輸出。假如類別數(shù)量|C|和標簽數(shù)量|L|相同，那么兩個模型參數(shù)量

參考答案:

一樣大

對于序列標注問題，建立基于圖（graphbased）的模型線性離散特征CRF的優(yōu)勢有___，而biLSTM+局部標簽softmax神經(jīng)網(wǎng)絡(luò)的優(yōu)勢有___。

參考答案:

特征更可解釋，輸入序列深層全局特征

RMSProp與AdaGrad的最大不同在于

參考答案:

對最近的歷史導(dǎo)數(shù)更重視

AdaDelta比AdaGrad減速少的超參數(shù)是

參考答案:

初始學(xué)習率\ita

ADAM與AdaGrad的最大區(qū)別是

參考答案:

引入了一階慣性

給定一個句子，使用雙向RNN對其進行編碼，然后進行多分類任務(wù)。在RNN編碼層和輸出層之間可以怎樣連接？

參考答案:

可以使用自左向右的RNN最后一個隱層向量和自右向左的RNN最后一個隱層向量拼接，再連接到分類輸出層_使用pooling將所有詞的隱層加和，然后連接到分類輸出層

下列哪些方法可以緩解RNN訓(xùn)練過程中的梯度問題？

參考答案:

控制初始參數(shù)_使用GRU、LSTM等替換模型_限定back-propagationthroughtime(BPTT)步數(shù)

比起RNN，LSTM的主要優(yōu)勢包括

參考答案:

緩解訓(xùn)練過程中的梯度問題_統(tǒng)計性能往往更強

下列關(guān)于LSTM的說法正確的有

參考答案:

可以像RNN一樣進行雙向擴展_可以像RNN一樣進行多層疊加_使用gate機制，進行向量按位相乘

使用神經(jīng)網(wǎng)絡(luò)解決序列標注問題，網(wǎng)絡(luò)結(jié)構(gòu)包括輸入詞嵌層，序列編碼biLSTM層，以及每個詞上的獨立softmax標簽預(yù)測層。模型在訓(xùn)練過程中，每個輸入詞嵌入獲得的gradient,是從___反向傳播得到的。

參考答案:

所有輸入詞所對應(yīng)的softmax輸出

下列哪些函數(shù)可以將一個向量序列(arrayofvectors)轉(zhuǎn)化為一個向量？

參考答案:

pooling_attention

再重排序的過程中，reranker訓(xùn)練

參考答案:

可用最大似然估算_可用最大邊緣_可用jacknifing提升性能

treeCRF成分句法分析為何限制特征范圍？

參考答案:

降低訓(xùn)練復(fù)雜度_降低解碼時間復(fù)雜度

可以用于成分句法分析的判別模型

參考答案:

structuredSVM_structuredperceptron_treeCRF

詞匯化PCFG(lexicalizedPCFG)

參考答案:

比起PCFG特征更加豐富，有助于提升性能_解碼時間復(fù)雜度比起PCFG更高_與PCFG相比模型參數(shù)更多，更稀疏

下列關(guān)于PCFG訓(xùn)練，說法正確的有

參考答案:

使用相對頻率_使用最大似然估算

概率上下文無關(guān)文法(probabilisticcontextfreegrammar;PCFG)參數(shù)化的過程

參考答案:

使用概率鏈式法則_使用條件無關(guān)假設(shè)

dot-productattetion、scaleddot-productattention、generalattention和additiveattention的主要區(qū)別包括

參考答案:

輸入隱向量之間的權(quán)重計算方式不同_query向量和key/value隱向量之間的組合計算不同

下列哪些attentionfunction不需要模型參數(shù)？

參考答案:

dot-productattention_scaleddot-productattention

使用神經(jīng)網(wǎng)絡(luò)解決序列標注問題，網(wǎng)絡(luò)結(jié)構(gòu)包括輸入詞嵌入層，序列編碼biLSTM層，以及每個詞上的獨立softmax標簽預(yù)測層。這樣的模型沒有顯式建模標簽依存關(guān)系，為什么可以達到線性CRF的性能？

參考答案:

biLSTM連通所有輸入，隱式通過反向傳播訓(xùn)練（Backpropagationtraining）融入標簽序列特征。

分類問題的神經(jīng)網(wǎng)絡(luò)模型與結(jié)構(gòu)預(yù)測的神經(jīng)網(wǎng)絡(luò)模型，在設(shè)計方面最大的不同在于_____。

參考答案:

輸出層（Outputlayer）

條件隨機場與二分類的對數(shù)線性模型相比，訓(xùn)練過程最大的挑戰(zhàn)在于

參考答案:

二者都需要對參數(shù)向量求期望，但是由于輸出個數(shù)更多，期望計算更復(fù)雜

下列關(guān)于共享-私有網(wǎng)絡(luò)（shared-privatenetwork）描述正確的有：

參考答案:

假如有N個領(lǐng)域，那么模型有N+1套共享或私有參數(shù)。_可以通過adversarialtraining強化共享參數(shù)所合信息。_可以幫助多任務(wù)或跨領(lǐng)域聯(lián)合訓(xùn)練

與ELMo相比，GPT的優(yōu)勢包括：

參考答案:

給定一個句子，編碼速度更快_微調(diào)更新整個模型

預(yù)訓(xùn)練+微調(diào)的過程可以看成一種____過程，通過____實施。

參考答案:

遷移學(xué)習，參數(shù)共享

掩碼語言模型（MaskLanguageModel，MLM）的主要任務(wù)是____，并恢復(fù)輸入文本。

參考答案:

隨機掩蔽一定比例的輸入詞

BERT與GPT都使用Transformer，其模型架構(gòu)____相同，訓(xùn)練任務(wù)____。

參考答案:

不完全，不同

ELMo是一種基于____的預(yù)訓(xùn)練模型，它預(yù)訓(xùn)練的模型參數(shù)為____

參考答案:

LSTM,詞向量與LSTM參數(shù)

作為wordembedding的預(yù)測訓(xùn)練模型，Glove____神經(jīng)語言模型的簡化，它的訓(xùn)練目標是使詞匯中的兩個詞向量的內(nèi)積接近于___。

參考答案:

不是，二者共現(xiàn)次數(shù)的對數(shù)

Continuousbag-of-words(CBOW)語言模型結(jié)構(gòu)____，skipgram預(yù)測方向_____。

參考答案:

給定兩邊上下文預(yù)測當前詞，相反

Continuousbag-of-words(CBOW)和skip-gram是兩個訓(xùn)練wordembedding的方法，它們對于神經(jīng)語言模型進行了___簡化，而訓(xùn)練使用了___損失函數(shù)。

參考答案:

log-bilinearmodel,NCE

對于神經(jīng)n元語言模型進行簡化，Hierarchicalsoftmax減少了____參數(shù)，log-bilinearmodel減少了____參數(shù)

參考答案:

輸出層,

隱層

對于一個神經(jīng)n元語言模型進行NoiseContrastiveEstimation(NCE)訓(xùn)練，其訓(xùn)練目標是最大化____。

參考答案:

n-gram數(shù)據(jù)是否為噪聲由n元語言模型參數(shù)為參數(shù)

對于二元語言模型，傳統(tǒng)離散參數(shù)化與神經(jīng)網(wǎng)絡(luò)參數(shù)化，哪個模型參數(shù)多？

參考答案:

不一定

下列哪些attentionfunction要求query和hidden向量維度相同？

參考答案:

dot-productattention_scaleddot-productattention

與RNN相比，SAN的優(yōu)勢包括

參考答案:

每個輸入向量在進行編碼的時侯，可以直接和其它所有輸入向量進行信息交互_所有隱向量可以并行計算

圖循環(huán)神經(jīng)網(wǎng)絡(luò)（GRN）的時間步驟

參考答案:

與圖結(jié)點之間的結(jié)構(gòu)和順序無關(guān)_可以看成是圖神經(jīng)網(wǎng)絡(luò)的層數(shù)

使用QKVattention，如果Q包括nq個輸入向量，K包括nk個輸入向量，而V包括nv個向量，那么輸出序列含有___個向量。

參考答案:

雙向RNN對于每一個輸入單元所計算的隱層向量含有___信息

參考答案:

全局上下文

RNN訓(xùn)練的一個挑戰(zhàn)是

參考答案:

等價的MLP層數(shù)太多，可以導(dǎo)致訓(xùn)練過程梯度爆炸或者消失

給定一個n詞的句子，arc-eager依存句法分析，解碼過程動作個數(shù)

參考答案:

2n-1

非ym投射（non-projective）依存句法分析是指具有怎樣輸入的句法情景？

參考答案:

按序排布輸入，輸出有交叉弧

下列關(guān)于期望最大算法理論正確的說法有

參考答案:

E-step可以被認為是為了優(yōu)化訓(xùn)練目標尋找隱變量的后驗概率形式_使用了Jenseninequality推導(dǎo)_間接最大化了可觀測數(shù)據(jù)的似然

下列哪些是可能用于基于轉(zhuǎn)移的成分句法分析模型的特征？

參考答案:

棧頂元素的詞+下個動作_下個動作_之前兩個動作+下個動作

聯(lián)合模型的主要優(yōu)點包括

參考答案:

減少錯誤蔓延_不同任務(wù)特征相互融合

下列哪些可能是基于轉(zhuǎn)移的詞性標注和成分句法分析聯(lián)合模型的狀態(tài)轉(zhuǎn)移動作？

參考答案:

reduce-left-NP_shift-NN

為何transition-basedmodels適合構(gòu)建聯(lián)合模型？

參考答案:

模型架構(gòu)獨立于輸出結(jié)構(gòu)_特征相對靈活而且范圍不受限制_可以使用perceptron引導(dǎo)beamsearch保證解碼效率

arc-eager與arc-standard動作轉(zhuǎn)轉(zhuǎn)移過程動作集合___，相應(yīng)特特征集合___

參考答案:

不同，不同

給定一個語義結(jié)構(gòu)的GNN編碼輸出，如果后續(xù)要做分類任務(wù)，可以

參考答案:

可以先接入attentionlayer，再接分類輸出層_可以先進行池化（pooling），再接分類輸出層

AdaGrad與標準SGD的最大不同包括

參考答案:

每步學(xué)習率不同_使用歷史導(dǎo)數(shù)的均方根計算學(xué)習率的衰減速系數(shù)_每個參數(shù)學(xué)習率不同

MM、MEMM和CRF三個模型的維特比算法，制表過程中表格的結(jié)構(gòu)___，表內(nèi)元素的計算方法___

參考答案:

相同，不同

給定相同的特征模板，MEMM和CRF對于序列標注相同輸入

參考答案:

參數(shù)向量一樣長

什么是標簽偏置(labelbias)？

參考答案:

序列標注模型的輸出更傾向于含有較大轉(zhuǎn)移概率的片段

最大熵馬爾科夫模型經(jīng)典的解碼算法使用

參考答案:

動態(tài)規(guī)劃

二階HMM的維特比算法在時間復(fù)雜度方面與輸入長度成

參考答案:

線性關(guān)系

維特比(Viterbi)算法屬于

參考答案:

動態(tài)規(guī)劃算法

對于序列標注，前項后項算法所尋找的邊緣概率是

參考答案:

任意連續(xù)k個標簽的條件概率

對于序列標注問題，使用前項后項算法之后，可以直接(通過常數(shù)復(fù)雜度)獲得

參考答案:

任意位置的邊緣概率

前項后項(forwardbackward)算法

參考答案:

是動態(tài)規(guī)劃算法

最大熵馬可夫模型的參數(shù)化過程使用

參考答案:

與特征向量相應(yīng)的參數(shù)向量_概率的鏈式法則_條件無關(guān)假設(shè)

關(guān)于上下文無關(guān)文法(contextfreegrammar;CFG)

參考答案:

喬姆斯基范式生成二叉化樹_從定義層面區(qū)分根節(jié)點、葉子節(jié)點和其他節(jié)點_自頂向下的生成句法結(jié)構(gòu)

最大熵馬爾科夫模型的訓(xùn)練目標是計算___，解碼的目標是尋找___最大的序列

參考答案:

局部標簽概率，標簽序列概率

與左二叉化、右二叉化相比，頭二叉化()

參考答案:

得到的成分句法樹更符合語言學(xué)直覺_需要額外知識尋找每個成分的頭節(jié)點

Reranker解碼時間復(fù)雜度

參考答案:

筆記線系統(tǒng)更低

reranking為何能夠提升模型性能？

參考答案:

可以有效建?；€模型無法包含的復(fù)雜特征

StructureSVM對于序列標注問題和成分句法分析，訓(xùn)練目標形式___，復(fù)樣本求解算法___。

參考答案:

相同，不同

與分類任務(wù)log-linearmodel相比，threeCRF隨機梯度訓(xùn)練

參考答案:

梯度形式相同，但是期望計算的方法不同

同階PCFG和threeCRF的CKY算法，循環(huán)結(jié)構(gòu)___，分數(shù)計算___。

參考答案:

相同，不同

在感知機引導(dǎo)的柱搜索算法中，提前更新(earlyupdate)理解正確的有

參考答案:

作用是調(diào)整模型，引導(dǎo)搜索過程更加準確_更新后當前樣本的解碼過程立刻結(jié)束

使用一階半馬爾科夫模型解決中文分詞，可行的特征有

參考答案:

某個輸出詞中間連續(xù)三個字_連續(xù)兩個輸出詞中，每個詞的第一個字

下列哪些特征可以用于命名實體識別的條件隨機場模型？

參考答案:

輸入的第一個單詞和當前單詞_當前標簽和下一個單詞_當前單詞在外部命名實體識別詞典中的匹配關(guān)系

準確率(precision)和召回率(recall)的說法正確的有

參考答案:

前者是以模型輸出為基礎(chǔ)進行評價，后者是以黃金標準輸出為基礎(chǔ)進行評價_兩個比率指標，分子相同，分母不同

對于二階半馬爾可夫模型，進行柱搜索解碼，時間復(fù)雜度對于輸入長度

參考答案:

線性復(fù)雜度

對于序列標注和序列切分問題來說，結(jié)構(gòu)支持向量機進行訓(xùn)練時，損失函數(shù)形式___，負樣本求解方法___

參考答案:

相同，不同

對于句子長度，lexicalizedPCFG所對應(yīng)的CKY解碼算法時間復(fù)雜度為

參考答案:

五次方

PCFG解碼所使用的CKY算法復(fù)雜度

參考答案:

三次方

HMM的forwardbackward算法對應(yīng)PCFG的___算法

參考答案:

insideoutside

成分句法分析評價指標F-score的基本單元是

參考答案:

句法結(jié)構(gòu)中每個片段(可含成分標簽)

對于詞性標注，局部模型

參考答案:

可以看成零階馬爾科夫模型_不考慮輸

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

自然語言處理-西湖大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年

文檔簡介

溫馨提示

最新文檔

評論

自然語言處理-西湖大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔