![中文自然語言處理-商品評論情感判別_第1頁](http://file4.renrendoc.com/view/6f61783617e08c7ef102d09eb82ab0a8/6f61783617e08c7ef102d09eb82ab0a81.gif)
![中文自然語言處理-商品評論情感判別_第2頁](http://file4.renrendoc.com/view/6f61783617e08c7ef102d09eb82ab0a8/6f61783617e08c7ef102d09eb82ab0a82.gif)
![中文自然語言處理-商品評論情感判別_第3頁](http://file4.renrendoc.com/view/6f61783617e08c7ef102d09eb82ab0a8/6f61783617e08c7ef102d09eb82ab0a83.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、中文自然語言處理一商品評論情感判別1、數(shù)據(jù)集下載fromsklearn.model_selectionimporttrain_test_splitfromgensim.models.word2vecimportWord2Vecimportnumpyasnpimportpandasaspdimportjiebafromsklearn.externalsimportjoblibfromsklearn.svmimportSVC2、載入數(shù)據(jù),做預(yù)處理(分詞),切分訓(xùn)練集與測試集#載入數(shù)據(jù),做預(yù)處理(分詞),切分訓(xùn)練集與測試集defload_file_and_preprocessing():neg=pd
2、.read_excel(chinese_data/neg.xls,header=None,index=None)pos=pd.read_excel(chinese_data/pos.xls,header=None,index=None)cw=lambdax:list(jieba.cut(x)poswords=pos0.apply(cw)negwords=neg0.apply(cw)#use1forpositivesentiment,0fornegativey=np.concatenate(np.ones(len(pos),np.zeros(len(neg)#訓(xùn)練集:測試集=8:2x_train
3、,x_test,y_train,y_test=train_test_split(np.concatenate(poswords,negwords),y,test_size=0.2)#NumPy提供了多種文件操作函數(shù)方便存取數(shù)組內(nèi)容(npy格式以二進(jìn)制存儲數(shù)據(jù)的)np.save(pre_data/y_train.npy,y_train)np.save(pre_data/y_test.npy,y_test)returnx_train,x_test3、計算訓(xùn)練集和測試集每條評論數(shù)據(jù)的向量并存入文件#對每個句子的所有詞向量取均值,來生成一個句子的/ectordefbuild_sentence_vect
4、or(text,size,w2v_model):vec=np.zeros(size).reshape(1,size)count=0forwordintext:try:vec+=w2v_modelword.reshape(1,size)count+=1exceptKeyError:continueifcount!=0:vec/=countreturnvec#計算詞向量defget_train_vecs(x_train,x_test):n_dim=300#詞向量維度#試用Word2Vec建立詞向量模型w2v_model=Word2Vec(size=n_dim,window=5,sg=0,hs=0,
5、negative=5,min_count=10)w2v_model.build_vocab(x_train)#準(zhǔn)備模型詞匯表#在評論訓(xùn)練集上建模w2v_model.train(x_train,total_examples=w2v_model.corpus_count,epochs=w2v_model.iter)#川練詞向量#訓(xùn)練集評論向量集合train_vecs=np.concatenate(build_sentence_vector(z,n_dim,w2v_model)forzinx_train)np.save(pre_data/train_vecs.npy,train_vecs)#將訓(xùn)練集
6、保存到文件中print(train_vecs.shape)#輸出訓(xùn)練集的維度#在測試集上訓(xùn)練w2v_model.train(x_test,total_examples=w2v_model.corpus_count,epochs=w2v_model.iter)w2v_model.save(pre_data/w2v_model/w2v_model.pkl)test_vecs=np.concatenate(build_sentence_vector(z,n_dim,w2v_model)forzinx_test)np.save(pre_data/test_vecs.npy,test_vecs)prin
7、t(test_vecs.shape)4、獲得訓(xùn)練集向量和標(biāo)簽,測試集向量和標(biāo)簽#獲得訓(xùn)練集向量和標(biāo)簽,測試集向量和標(biāo)簽defget_data():train_vecs=np.1oad(pre_data/train_vecs.npy)y_train=np.load(pre_data/y_train.npy)test_vecs=np.1oad(pre_data/test_vecs.npy)y_test=np.load(pre_data/y_test.npy)returntrain_vecs,y_train,test_vecs,y_test5、訓(xùn)練SVM模型#訓(xùn)練SVM模型defsvm_train(
8、train_vecs,y_train,test_vecs,y_test):c1f=SVC(kerne1=rbf,verbose=True)c1f.fit(train_vecs,y_train)#艮據(jù)給定的訓(xùn)練數(shù)據(jù)擬合SVM模型job1ib.dump(c1f,pre_data/svm_mode1/mode1.pk1)#保存訓(xùn)練好的SVM模型print(c1f.score(test_vecs,y_test)#輸出測試數(shù)據(jù)的平均準(zhǔn)確度6、構(gòu)建待遇測句子的向量#構(gòu)建待遇測句子的向量defget_predict_vecs(words):n_dim=300w2v_mode1=Word2Vec.load(p
9、re_data/w2v_mode1/w2v_mode1.pk1)train_vecs=bui1d_sentence_vector(words,n_dim,w2v_mode1)returntrain_vecs7、對單個句子進(jìn)行情感判斷#對單個句子進(jìn)行情感判斷defsvm_predict(string):words=jieba.lcut(string)words_vecs=get_predict_vecs(words)clf=joblib.load(pre_data/svm_model/model.pkl)result=clf.predict(words_vecs)ifint(resultO)=1:print(string,positive)else:print(string,negative)if_name_=_main_:#x_train,x_test=loadile_and_preprocessing()#get_train_vecs(x_train,x_test)#train_vecs,y_train,test_vecs,y_test=get_data()#svm_train(train_vecs,y_train,test_v
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 股權(quán)抵押擔(dān)保協(xié)議書年
- 肥料農(nóng)藥采購合同樣本
- 編程語言與軟件開發(fā)職業(yè)規(guī)劃作業(yè)指導(dǎo)書
- 2025年贛州b2貨運資格證多少道題
- 2025年桂林貨運從業(yè)資格證模擬考試駕考
- 2025年洛陽貨車從業(yè)資格證考什么
- 2025年博爾塔拉下載貨運從業(yè)資格證模擬考試題
- 2025年安徽貨運車輛從業(yè)資格證考試題
- 疾病篩查服務(wù)合同(2篇)
- 2024-2025學(xué)年高中物理第14章電磁波第3節(jié)電磁波的發(fā)射和接收課后練習(xí)含解析新人教版選修3-4
- 2025年上半年中煤科工集團北京華宇工程限公司中層干部公開招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 會議室墻面隔音板施工方案
- 特朗普就職演說全文與核心要點
- 2025年教科版新教材科學(xué)小學(xué)一年級下冊教學(xué)計劃(含進(jìn)度表)
- 北京市海淀區(qū)2024-2025學(xué)年五年級上冊語文期末試卷(有答案)
- 2025年中國社會科學(xué)院世界歷史研究所科研人員招聘4人歷年高頻重點提升(共500題)附帶答案詳解
- 《中國地方戲曲簡介》課件
- 信息系統(tǒng)運行管理員(基礎(chǔ)知識、應(yīng)用技術(shù))合卷軟件資格考試(初級)試題與參考答案(2024年)
- 延安研學(xué)活動方案
- 2024年高考政治必修三《政治與法治》??疾牧项}考點梳理匯編
- 稀土材料技術(shù)基礎(chǔ)知識單選題100道及答案解析
評論
0/150
提交評論