




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
詞形歸一化教師:亢華愛(ài)北京信息職業(yè)技術(shù)學(xué)院目錄Contents詞干提取概述詞形還原1PART概述概述在英文中,一個(gè)單詞常常是另一個(gè)單詞的變種,比如looking是look這個(gè)單詞的一般進(jìn)行式,looked為一般過(guò)去式,這些都會(huì)影響語(yǔ)料庫(kù)學(xué)習(xí)的準(zhǔn)確度。一般在信息檢索和文本挖掘時(shí),需要對(duì)一個(gè)詞的不同形態(tài)進(jìn)行規(guī)范化,以提高文本處理的效率。概述詞形規(guī)范化過(guò)程主要包括兩種詞干提取詞形還原概述詞干提取(stemming)是指刪除不影響詞性的詞綴(包括前綴、后綴、中綴、環(huán)綴),得到單詞詞干的過(guò)程watching→watchwatched→watch概述詞形還原(lemmatization)與詞干提取相關(guān),不同的是能夠捕捉基于詞根的規(guī)范單詞形式better→goodwent→go2PART詞干提取詞干提取對(duì)于詞干提取來(lái)說(shuō),nltk.stem模塊中提供了多種詞干提取器,目前最受歡迎的就是波特詞干提取器,它是基于波特詞干算法來(lái)提取詞干的,這些算法都集中在PorterStemmer類(lèi)中。下面是基于PorterStemmer類(lèi)提取詞干的示例,具體如下。詞干提取詞干提取還可以用蘭卡斯特詞干提取器提取,它是一個(gè)迭代提取器,具有超過(guò)120條規(guī)則來(lái)具體說(shuō)明如何刪除或替換詞綴以獲得詞干。蘭卡斯特詞干提取器基于蘭卡斯特詞干算法,這些算法都集中在LancasterStemmer類(lèi)中。以下代碼顯示了LancasterStemmer類(lèi)提取詞干的用法,示例代碼如下。詞干提取還有一些其他的詞干器,比如SnowballStemmer,它除了支持英文以外,還支持其他13種不同的語(yǔ)言,用法示例如下。詞干提取注意:在創(chuàng)建SnowballStemmer實(shí)例時(shí),必須要傳入一個(gè)表示語(yǔ)言的字符串給language參數(shù)。3PART詞形還原詞形還原詞形還原的過(guò)程與詞干提取非常相似,就是去除詞綴以獲得單詞的基本形式,不過(guò),這個(gè)基本形式稱(chēng)為根詞,而不是詞干。根詞始終存在于詞典中,詞干不一定是標(biāo)準(zhǔn)的單詞,它可能不存在于詞典中NLTK庫(kù)中提供了一個(gè)強(qiáng)大的還原模塊,它使用WordNetLemmatizer類(lèi)來(lái)獲得根詞,使用前需要確保已經(jīng)下載了wordnet語(yǔ)料庫(kù)詞形還原WordNetLemmatizer類(lèi)里面提供了一個(gè)lemmatize()方法,該方法通過(guò)比對(duì)wordnet語(yǔ)料庫(kù),并采用遞歸技術(shù)刪除詞綴,直至在詞匯網(wǎng)絡(luò)中找到匹配項(xiàng),最終返回輸入詞的基本形式。如果沒(méi)有找到匹配項(xiàng),則直接返回輸入詞,不做任何變化。下面是一個(gè)基于WordNetLemmatizer的詞形還原示例,代碼如下。詞形還原從輸出結(jié)果可以看出,復(fù)數(shù)形式的單詞books已經(jīng)還原為book,不過(guò)單詞went與did都沒(méi)有還原,這主要是因?yàn)樗鼈冇卸喾N詞性,例如,went作為動(dòng)詞使用時(shí),代表單詞go的過(guò)去式,但是作為名詞使用的話(huà),它表示的是人名文特。為了解決這個(gè)問(wèn)題,可以直接在詞形還原時(shí)指定詞性,也就是說(shuō)在調(diào)用lemmatize()方法時(shí)將詞性傳入pos參數(shù),示例代碼如下。詞形還原從輸岀結(jié)果中可以看出,所有過(guò)去式的單詞已經(jīng)被還原為基本形式了。參考文獻(xiàn)[
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 認(rèn)識(shí)三角形第4課時(shí)三角形的高 教學(xué)設(shè)計(jì)-2024-2025學(xué)年北師大版數(shù)學(xué)七年級(jí)下冊(cè)
- 600元美容館合同范本
- 受聘合同范本
- 勞務(wù)雇傭責(zé)任合同范本
- 雙方交付款合同范本
- 保證質(zhì)押合同范本
- 發(fā)廊股東入股合同范本
- 《送元二使安西》教案設(shè)計(jì)
- 勞務(wù)合同范本兼職
- 保定市電梯維保合同范本
- 《淞滬會(huì)戰(zhàn)》課件
- 《智能制造技術(shù)基礎(chǔ)》課件-第4章 加工過(guò)程的智能監(jiān)測(cè)與控制
- 初一家長(zhǎng)會(huì)課件96108
- 罪犯正常死亡報(bào)告范文
- 《企業(yè)文化概述》課件
- 某地源熱泵畢業(yè)設(shè)計(jì)
- (三級(jí))工業(yè)機(jī)器人運(yùn)用與維護(hù)理論考試復(fù)習(xí)題庫(kù)(含答案)
- 2024年廣東省公務(wù)員錄用考試《行測(cè)》真題及解析
- 高中英語(yǔ)必背3500單詞表(完整版)
- 房產(chǎn)中介居間服務(wù)合同模板樣本
- 海洋工程裝備保險(xiǎn)研究
評(píng)論
0/150
提交評(píng)論