文本數(shù)據(jù)分析 功能實現(xiàn)_第1頁
文本數(shù)據(jù)分析 功能實現(xiàn)_第2頁
文本數(shù)據(jù)分析 功能實現(xiàn)_第3頁
文本數(shù)據(jù)分析 功能實現(xiàn)_第4頁
文本數(shù)據(jù)分析 功能實現(xiàn)_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Python數(shù)據(jù)分析商務(wù)數(shù)據(jù)分析與應(yīng)用專業(yè)教學(xué)資源庫功能實現(xiàn)Python數(shù)據(jù)分析商務(wù)數(shù)據(jù)分析與應(yīng)用專業(yè)教學(xué)資源庫PAGE2/4功能實現(xiàn)功能實現(xiàn)亢華愛(北京信息職業(yè)技術(shù)學(xué)院)摘要:詞云就是對網(wǎng)絡(luò)文本中出現(xiàn)頻率比較高的“關(guān)鍵詞”予以視覺上的突岀,形成關(guān)鍵詞渲染,從而過濾掉大量的文本信息,使得瀏覽網(wǎng)頁的人一眼掃過文本就可以領(lǐng)略文本的主旨。關(guān)鍵詞:功能實現(xiàn);lcnt()函數(shù)功能實現(xiàn)使用Pandas中read_csv()函數(shù)讀取“商品評價信息.csv”文件,并轉(zhuǎn)換成DataFrame對象進行展示,具體代碼如下:從輸岀結(jié)果中可以看到,多條評價信息是沒用的且重復(fù)的,所以,這里可以使用pandas中的drop_duplicates()方法刪除重復(fù)的數(shù)據(jù),具體代碼如下:通過比較兩次輸出的行數(shù)可以看到,后面輸岀的數(shù)據(jù)明顯減少了100多行。刪除完重復(fù)的數(shù)據(jù)后,計算機仍然不能分析出這件商品的好壞,這主要是因為文本的信息量是比較龐大的,我們需要對這些文本進行分詞等預(yù)處理操作,以便統(tǒng)計詞頻。前期采集的評價文本大多是中文的,使用NLTK庫處理中文又比較麻煩,因此,這里換成用jieba分詞工具對評價文本進行前期處理,不過需要保證數(shù)據(jù)是字符串類型的。在這里,我們可以通過lcnt()函數(shù)進行分詞,該函數(shù)需要接收兩個參數(shù),第一個參數(shù)表示需要分詞的字符串,cut_all參數(shù)用來控制是否采用全模式分詞,這里采用精確模式即可,具體代碼如下從輸岀的列表中可以看出,分詞的結(jié)果中有很多諸如“了”“一個”“是”等字或詞,它們對于分析用戶的評價是沒有意義的,需要參考中文停用詞表,將這些沒有無意義的詞進行刪除。注意:由于中文的復(fù)雜性,大多數(shù)停用詞表中的停用詞并不是十分的齊全,所以,這里我們針對本案例中的文本稍微進行了一些調(diào)整,并整合到了“停用詞表.txt”文件中。這里,可以使用準(zhǔn)備好的停用詞表進行過濾,具體的做法就是遍歷分詞后的結(jié)果,如果某個詞或字在停用詞表中出現(xiàn),就直接刪除,否則就保留下來,具體代碼如下:在刪除停用詞之后,從輸出的結(jié)果中可以大致看出評價的特征信息,不過后期還是需要統(tǒng)計這些詞語出現(xiàn)的次數(shù),才能進一步知曉用戶對商品的喜惡。如果希望獲得每個詞語出現(xiàn)的次數(shù),則可以使用NLTK庫中的FreqDist類進行詞頻統(tǒng)計,具體代碼如下:從返回的統(tǒng)計詞頻中,可以很直接地找到具有代表性的詞語,比如“衣服”“喜歡”“挺舒服”等。根據(jù)上述用戶評價的特征信息,可以使用wordcloud模塊進行詞云展示,wordcloud模塊會將出現(xiàn)頻率高的詞語進行放大顯示,而出現(xiàn)頻率較低的詞語進行縮小顯示。要想使用wordcloud模塊,則需要在終端中使用pip命令進行安裝,具體命令如下:wordcloud模塊安裝完成之后,將分詞后的結(jié)果new_data使用wordcloud進行展示,具體代碼如下:運行結(jié)果如圖8-9所示。圖8-9運行結(jié)果從圖8-9中可以看出,“衣服”“比較”“喜歡”“挺舒服”這幾個詞是最為突出的,這表明用戶對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論