




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
(1)分句SentenceSplitter:分句模型將一個段落通過”?!薄ⅰ??”、”!”等形式分開代碼:
frompyltpimportSentenceSplitter
sents=SentenceSplitter.split('由于父親此后前往哈佛大學求學。奧巴馬從小由母親撫養(yǎng)。')
forsentinsents:
print(sent)輸出:
由于父親此后前往哈佛大學求學。
奧巴馬從小由母親撫養(yǎng)。3.3.2案例分析(二)依存句法分析3.3將一個文檔通過”。”、”?”、”!”等形式分開代碼:
frompyltpimportSentenceSplitter#導入模塊
defsentence_splitter(file_name):#定義函數(shù),輸入:file_name文件名
out_sent=[]
file=open(file_name,"r",encoding='UTF-8')#以只讀的方式打開文件
sents=file.readlines()#讀取文件
forsentinsents:
sent=sent.rstrip('\n')#去掉換行符
single_sentence=SentenceSplitter.split(sent)
#分句
forsentenceinsingle_sentence:
out_sent.append(sentence)
print(out_sent)
returnout_sent#輸出:句子的列表(1)分句SentenceSplitter:分句模型3.3.2案例分析(二)依存句法分析3.3(2)分詞Segmentor:分詞模型代碼:
frompyltpimportSegmentor
segmentor=Segmentor()#初始化實例
segmentor.load('cws.model')#加載模型
words=segmentor.segment('由于父親此后前往哈佛大學求學,奧巴馬從小由母親撫養(yǎng)。')
forwordinwords:
print(word)
segmentor.release()#釋放模型輸出:
由于父親此后前往哈佛大學求學,奧巴馬從小由母親撫養(yǎng)。3.33.3.2案例分析(二)依存句法分析使用自定義字典
自定義字典:
哈佛大學代碼:
frompyltpimportSegmentor
segmentor=Segmentor()#初始化實例
segmentor.load_with_lexicon('cws.model','dic_path.txt')#dic_path是自定義字典
words=segmentor.segment('由于父親此后前往哈佛大學求學,奧巴馬從小由母親撫養(yǎng)。')
forwordinwords:
print(word)
segmentor.release()#釋放模型3.3(2)分詞Segmentor:分詞模型3.3.2案例分析(二)依存句法分析輸出:
由于父親此后前往哈佛大學求學,奧巴馬從小由母親撫養(yǎng)。注意:沒有自定義詞典:segmentor.load('cws.model')有自定義字典:segmentor.load_with_lexicon('cws.model',自定義字典名)3.3(2)分詞Segmentor:分詞模型3.3.2案例分析(二)依存句法分析(3)詞性標注Postagger:詞性標注模型代碼: frompyltpimportPostagger
postagger=Postagger()#初始化實例 postagger.load('pos.model')#加載模型 postags=postagger.postag(words)#詞性標注 forword,postaginzip(words,postags): print(word,postag) postagger.release()#釋放模型輸出:
由于p父親n此后nt前往v哈佛大學ni求學v,wp 奧巴馬nh從小d由p母親n撫養(yǎng)v。wp3.33.3.2案例分析(二)依存句法分析(4)實體命名識別NamedEntityRecognizer:實體命名模型Nh——人名,NS——地名,Ni——機構名B——實體開始詞,I——實體中間詞,E——實體結束詞,S——單獨成實體,O——不構成實體代碼:
frompyltpimportNamedEntityRecognizer
recognizer=NamedEntityRecognizer()#初始化實例 recognizer.load(ner_model_path)#加載模型 netags=recognizer.recognize(words,postags)#命名實體識別,用到了詞性標注的結果 forword,netaginzip(words,netags): print(word,netag)輸出:
由于O父親O此后O前往O哈佛大學S-Ni求學O,O
奧巴馬S-Nh從小O由O母親O撫養(yǎng)O3.3.2案例分析(二)依存句法分析3.3(5)依存句法分析Parser:語法分析模型依存關系字典:Tag關系類型Tag關系類型SBV主謂關系CMP動補結構VOB動賓關系COO并列關系IOB間賓關系POB介賓關系FOB前置賓語LAD左附加關系DBL兼語RAD右附加關系ATT定中關系IS獨立結構ADV狀中結構HED核心關系3.33.3.2案例分析(二)依存句法分析代碼: frompyltpimportParser parser=Parser()#初始化實例 parser.load('parser.model')#加載模型 arcs=parser.parse(words,postags)#句法分析,用到詞性標注的結果 print('\t'.join('%d:%s'%(arc.head,arc.relation)forarcinarcs))輸出:
12:ADV4:SBV 4:ADV 1:POB 4:VOB 4:COO 1:WP 12:SBV 12:ADV 12:ADV 10:POB0:HED 12:WP3.3(5)依存句法分析Parser:語法分析模型3.3.2案例分析(二)依存句法分析詞性分析結果:由于p父親n此后nt前往v哈佛大學ni求學v,wp奧巴馬nh從小d由p母親n撫養(yǎng)v。wp依存句法分析結果:12:ADV4:SBV4:ADV1:POB4:VOB4:COO1:WP12:SBV12:ADV12:ADV10:POB0:HED12:WP排序:0ROOT
1由于2父親3此后4前往5哈佛大學6求學7,8奧巴馬9從小10由11母親12撫養(yǎng)13。結果:ADV(由于,撫養(yǎng))SBV(父親,前往)ADV(此后,前往)POB(前往,由于)VOB(哈佛大學,前往)...(5)依存句法分析Parser:語法分析模型3.3.2案例分析(二)依存句法分析3.3代碼: rely_id=[arc.headforarcinarcs]#提取依存父節(jié)點 relation=[arc.relationforarcinarcs]#提取依存關系 heads=["root"ifid==0elsewords[id-1]foridinrely_id]#匹配依存父節(jié)點詞語 foriinrange(len(words)): print(relation[i]+'('+words[i]+','+heads[i]+')') parser.release()輸出:
ADV(由于,撫養(yǎng))SBV(父親,前往)
ADV(此后,前往)
POB(前往,由于)
VOB(哈佛大學,前往)
COO(求學,前往)
WP(,,由于)
SBV(奧巴馬,撫養(yǎng))
ADV(從小,撫養(yǎng))
ADV(由,撫養(yǎng))
POB(母親,由)
HED(撫養(yǎng),root)
WP(。,撫養(yǎng))(5)依存句法分析Parser:語法分析模型3.3.2案例分析(二)依存句法分析3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護理腫瘤病人禮儀培訓
- 江西省婺源縣2024-2025學年初三學生調研考試數(shù)學試題含解析
- 江蘇省永豐初級中學2024-2025學年七校聯(lián)考高考物理試題一模試卷含解析
- 中國計量大學現(xiàn)代科技學院《中醫(yī)藥學概論》2023-2024學年第二學期期末試卷
- 麗水職業(yè)技術學院《音樂文獻檢索與論文寫作》2023-2024學年第二學期期末試卷
- 渭南市澄城縣2024-2025學年五年級數(shù)學第二學期期末教學質量檢測模擬試題含答案
- 山西藥科職業(yè)學院《醫(yī)學細胞生物學討論》2023-2024學年第一學期期末試卷
- 江蘇省泰州市泰興市黃橋教育聯(lián)盟重點名校2025屆初三下學期聯(lián)考(二)語文試題試卷含解析
- 江蘇大學京江學院《校園音樂活動策劃》2023-2024學年第二學期期末試卷
- 內蒙古藝術學院《教你玩轉信息化學習》2023-2024學年第二學期期末試卷
- 觀光小火車方案
- 帶著思考去工作
- 教育教學研究項目效果實踐檢驗報告
- 提升員工的團隊協(xié)作與溝通能力
- 第三章 裝配式混凝土預制構件生產工藝
- 易燃液體罐式運輸半掛車合格證
- 齒輪泵泵體的加工工藝與專用夾具設計
- crystalball模擬基礎教程課件
- 夏商周考古-鄭州大學中國大學mooc課后章節(jié)答案期末考試題庫2023年
- 《全國非融資性擔保機構規(guī)范管理指導意見》
- 高溫下的安全生產教育培訓
評論
0/150
提交評論