(中職)Python編程基礎(chǔ)與應(yīng)用電子課件文本處理庫(kù)的應(yīng)用_第1頁(yè)
(中職)Python編程基礎(chǔ)與應(yīng)用電子課件文本處理庫(kù)的應(yīng)用_第2頁(yè)
(中職)Python編程基礎(chǔ)與應(yīng)用電子課件文本處理庫(kù)的應(yīng)用_第3頁(yè)
(中職)Python編程基礎(chǔ)與應(yīng)用電子課件文本處理庫(kù)的應(yīng)用_第4頁(yè)
(中職)Python編程基礎(chǔ)與應(yīng)用電子課件文本處理庫(kù)的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、正版課件 內(nèi)容可修改(中職)Python編程基礎(chǔ)與應(yīng)用電子課件文本處理庫(kù)的應(yīng)用文本處理庫(kù)的應(yīng)用主講:Python編程基礎(chǔ)與應(yīng)用配套課件+contents目錄jieba的安裝和簡(jiǎn)介wordcloud的安裝和簡(jiǎn)介案例:可視化中文詞云項(xiàng)目列表的定義和索引訪問(wèn)01jieba的簡(jiǎn)介“結(jié)巴”中文分詞支持繁體分詞,支持自定義詞典,還支持四種分詞模式:1)精確模式,試圖將句子最精確地切開(kāi),適合文本分析。2)全模式,把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非???,但是不能解決歧義。3)搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞。4)paddle模式,利用Paddle

2、Paddle深度學(xué)習(xí)框架,訓(xùn)練序列標(biāo)注(雙向GRU)網(wǎng)絡(luò)模型實(shí)現(xiàn)分詞。jieba的安裝它的安裝方法很簡(jiǎn)單,可以直接使用PIP進(jìn)行安裝:jieba庫(kù)的常用函數(shù)范例11-1 jieba庫(kù)的三種分詞模式應(yīng)用jieba庫(kù)的三種分詞模式,對(duì)字符串“jieba是優(yōu)秀的中文分詞第三方庫(kù)”進(jìn)行分詞。范例11-1 jieba庫(kù)的三種分詞模式它的結(jié)果 如下wordcloud的安裝和簡(jiǎn)介02wordcloud的安裝和簡(jiǎn)介wordcloud庫(kù)把詞云當(dāng)作一個(gè)WordCloud對(duì)象。wordcloud.WordCloud()代表一個(gè)文本對(duì)應(yīng)的詞云,可以根據(jù)文本中詞語(yǔ)出現(xiàn)的頻率等參數(shù)繪制詞云,繪制詞云的形狀、尺寸和顏色都可

3、以設(shè)定。它的安裝方法很簡(jiǎn)單,可以直接使用PIP進(jìn)行安裝wordcloud的常用方法在生成詞云時(shí),它默認(rèn)會(huì)以空格或者標(biāo)點(diǎn)為分隔符對(duì)目標(biāo)文本進(jìn)行分詞處理,但是對(duì)于中文的文本,分詞處理需要我們提前處理好。一般的做法是先將中文文本進(jìn)行分詞,然后以空格或者標(biāo)點(diǎn)拼接,再調(diào)用wordcloud庫(kù)函數(shù)。范例11-2 wordcloud庫(kù)生成詞云應(yīng)用wordcloud庫(kù)對(duì)以下字符串“Python JAVA C# C+ ASP.NET Python and WordCloud Python”生成一個(gè)詞云,并保存為圖片。范例11-2 wordcloud庫(kù)生成詞云它生成了一張圖片pywordcloud.png,效果如

4、圖。從圖中看到“Python”文字比較大,這是因?yàn)樗脑~頻是字符串中最高的。生成指定形狀的詞云wordcloud也可以生成任何形狀的詞云,為了獲取形狀,需要提供一張相應(yīng)形狀的圖像。圖像最好以PNG格式的圖片,其它無(wú)關(guān)的輪廓或者內(nèi)容提前使用圖像處理軟件清除好。對(duì)于圖片的讀取可以使用imageio庫(kù)。imageio是一個(gè)Python庫(kù),它提供了一個(gè)簡(jiǎn)單的接口來(lái)讀取和寫入大量的圖像數(shù)據(jù),包括動(dòng)畫圖像、體積數(shù)據(jù)和科學(xué)格式。生成指定形狀的詞云wordcloud也可以生成任何形狀的詞云,為了獲取形狀,需要提供一張相應(yīng)形狀的圖像。圖像最好以PNG格式的圖片,其它無(wú)關(guān)的輪廓或者內(nèi)容提前使用圖像處理軟件清除好。

5、對(duì)于圖片的讀取可以使用imageio庫(kù)。imageio是一個(gè)Python庫(kù),它提供了一個(gè)簡(jiǎn)單的接口來(lái)讀取和寫入大量的圖像數(shù)據(jù),包括動(dòng)畫圖像、體積數(shù)據(jù)和科學(xué)格式。wordcloud的常用參數(shù)wordcloud處理中文時(shí),還可以指定用到的中文字體。中文字體文件需要與代碼存放在同一個(gè)目錄下。如果不放在同一個(gè)目錄下,中文字體文件即要提供完整路徑。范例11-3wordcloud庫(kù)生成一個(gè)心形詞云應(yīng)用wordcloud庫(kù)對(duì)素材中的“phthon.txt”文件中的文本生成一個(gè)詞云,并保存為圖片。這個(gè)文本也更換為其它的長(zhǎng)文本。原始參照?qǐng)D形如圖所示。范例11-3wordcloud庫(kù)生成一個(gè)心形詞云它的代碼如下范

6、例11-3wordcloud庫(kù)生成一個(gè)心形詞云它生成了一張圖片pywcloud.png,效果如圖9-5。它的寬是600,高是500,使用了圖片love.png的詞云形狀,背景顏色為白色white。單詞“Python”的詞頻最大,其次是“Tutorial”,從詞云中可以很直觀地看到那些是高頻單詞。案例:可視化中文詞云項(xiàng)目03案例描述扶貧是保障貧困戶的合法權(quán)益,取消貧困負(fù)擔(dān)。2020年11月23日,中國(guó)832個(gè)國(guó)家級(jí)貧困縣全部脫貧摘帽。我國(guó)脫貧攻堅(jiān)取得的成就,見(jiàn)證了“中國(guó)力量”。消除絕對(duì)貧困是一項(xiàng)對(duì)中華民族、對(duì)人類都具有重大意義的偉業(yè)!小劉在一間大數(shù)據(jù)技術(shù)應(yīng)用與開(kāi)發(fā)公司工作,是一名Python程序

7、員。他的項(xiàng)目經(jīng)理要求小劉對(duì)一篇關(guān)于中國(guó)的精準(zhǔn)扶貧的文章進(jìn)行中文分詞,并對(duì)高頻出現(xiàn)的一些詞語(yǔ)自動(dòng)生成一個(gè)詞云圖片。這個(gè)詞云圖將會(huì)應(yīng)用于一個(gè)大數(shù)據(jù)可視化大屏展示系統(tǒng)中。案例分析本項(xiàng)目可以用Python語(yǔ)言jieba結(jié)巴分詞庫(kù)對(duì)文章進(jìn)行中文分詞,統(tǒng)計(jì)出高頻的詞語(yǔ),然后結(jié)合wordcloud詞云庫(kù),自動(dòng)化地生成詞云。它的主要實(shí)施步驟為:1)使用IO函數(shù),對(duì)文本文件的讀取。2)應(yīng)用jieba進(jìn)行中文分詞。3)詞頻統(tǒng)計(jì)。4)對(duì)詞頻進(jìn)行排序。5)對(duì)高頻詞進(jìn)行輸出顯示,并對(duì)分詞使用空格拼接成字符串。6)讀取圖片,以生成詞云的形狀。7)設(shè)置wordcloud的參數(shù),自動(dòng)生成詞云圖片并保存。安裝imread 需要注意的是本案例要提前安裝imread ,如下:pip install imread如果直接安裝不成功,可以從網(wǎng)站/gohlke/pythonlibs/下載whl文件進(jìn)行安裝。代碼代碼代碼調(diào)試結(jié)果在代碼編輯區(qū)按“Shift+F10”或者右鍵直接選擇“運(yùn)行”,即可調(diào)試,效果圖如下所示,這是一個(gè)點(diǎn)贊的大拇指效果圖。從效果圖中可以看到詞頻最高的詞語(yǔ)的字體最大。試一試1)請(qǐng)你找一些其它中文文章生成詞云,看一下它的效果是如何的。比如

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論