2023學(xué)年完整公開(kāi)課版詞形歸一化_第1頁(yè)
2023學(xué)年完整公開(kāi)課版詞形歸一化_第2頁(yè)
2023學(xué)年完整公開(kāi)課版詞形歸一化_第3頁(yè)
2023學(xué)年完整公開(kāi)課版詞形歸一化_第4頁(yè)
2023學(xué)年完整公開(kāi)課版詞形歸一化_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

詞形歸一化教師:亢華愛(ài)北京信息職業(yè)技術(shù)學(xué)院目錄Contents詞干提取概述詞形還原1PART概述概述在英文中,一個(gè)單詞常常是另一個(gè)單詞的變種,比如looking是look這個(gè)單詞的一般進(jìn)行式,looked為一般過(guò)去式,這些都會(huì)影響語(yǔ)料庫(kù)學(xué)習(xí)的準(zhǔn)確度。一般在信息檢索和文本挖掘時(shí),需要對(duì)一個(gè)詞的不同形態(tài)進(jìn)行規(guī)范化,以提高文本處理的效率。概述詞形規(guī)范化過(guò)程主要包括兩種詞干提取詞形還原概述詞干提取(stemming)是指刪除不影響詞性的詞綴(包括前綴、后綴、中綴、環(huán)綴),得到單詞詞干的過(guò)程watching→watchwatched→watch概述詞形還原(lemmatization)與詞干提取相關(guān),不同的是能夠捕捉基于詞根的規(guī)范單詞形式better→goodwent→go2PART詞干提取詞干提取對(duì)于詞干提取來(lái)說(shuō),nltk.stem模塊中提供了多種詞干提取器,目前最受歡迎的就是波特詞干提取器,它是基于波特詞干算法來(lái)提取詞干的,這些算法都集中在PorterStemmer類(lèi)中。下面是基于PorterStemmer類(lèi)提取詞干的示例,具體如下。詞干提取詞干提取還可以用蘭卡斯特詞干提取器提取,它是一個(gè)迭代提取器,具有超過(guò)120條規(guī)則來(lái)具體說(shuō)明如何刪除或替換詞綴以獲得詞干。蘭卡斯特詞干提取器基于蘭卡斯特詞干算法,這些算法都集中在LancasterStemmer類(lèi)中。以下代碼顯示了LancasterStemmer類(lèi)提取詞干的用法,示例代碼如下。詞干提取還有一些其他的詞干器,比如SnowballStemmer,它除了支持英文以外,還支持其他13種不同的語(yǔ)言,用法示例如下。詞干提取注意:在創(chuàng)建SnowballStemmer實(shí)例時(shí),必須要傳入一個(gè)表示語(yǔ)言的字符串給language參數(shù)。3PART詞形還原詞形還原詞形還原的過(guò)程與詞干提取非常相似,就是去除詞綴以獲得單詞的基本形式,不過(guò),這個(gè)基本形式稱(chēng)為根詞,而不是詞干。根詞始終存在于詞典中,詞干不一定是標(biāo)準(zhǔn)的單詞,它可能不存在于詞典中NLTK庫(kù)中提供了一個(gè)強(qiáng)大的還原模塊,它使用WordNetLemmatizer類(lèi)來(lái)獲得根詞,使用前需要確保已經(jīng)下載了wordnet語(yǔ)料庫(kù)詞形還原WordNetLemmatizer類(lèi)里面提供了一個(gè)lemmatize()方法,該方法通過(guò)比對(duì)wordnet語(yǔ)料庫(kù),并采用遞歸技術(shù)刪除詞綴,直至在詞匯網(wǎng)絡(luò)中找到匹配項(xiàng),最終返回輸入詞的基本形式。如果沒(méi)有找到匹配項(xiàng),則直接返回輸入詞,不做任何變化。下面是一個(gè)基于WordNetLemmatizer的詞形還原示例,代碼如下。詞形還原從輸出結(jié)果可以看出,復(fù)數(shù)形式的單詞books已經(jīng)還原為book,不過(guò)單詞went與did都沒(méi)有還原,這主要是因?yàn)樗鼈冇卸喾N詞性,例如,went作為動(dòng)詞使用時(shí),代表單詞go的過(guò)去式,但是作為名詞使用的話(huà),它表示的是人名文特。為了解決這個(gè)問(wèn)題,可以直接在詞形還原時(shí)指定詞性,也就是說(shuō)在調(diào)用lemmatize()方法時(shí)將詞性傳入pos參數(shù),示例代碼如下。詞形還原從輸岀結(jié)果中可以看出,所有過(guò)去式的單詞已經(jīng)被還原為基本形式了。參考文獻(xiàn)[

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論