《1.1 文字的處理與展示》參考課件_第1頁
《1.1 文字的處理與展示》參考課件_第2頁
《1.1 文字的處理與展示》參考課件_第3頁
《1.1 文字的處理與展示》參考課件_第4頁
《1.1 文字的處理與展示》參考課件_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1.1文字的處理與展示八年級(jí)信息技術(shù)活動(dòng)1:設(shè)計(jì)創(chuàng)意書簽

新學(xué)期開始了,語菲進(jìn)入了初二年級(jí)下學(xué)期。在新學(xué)期的第一課上,英語老師帶領(lǐng)同學(xué)們翻閱了書本的目錄,為了更加形象地展示這一學(xué)期英語課本的重點(diǎn)知識(shí),英語老師提出用詞云的方式制作創(chuàng)意書簽。可利用Python中wordcloud庫來創(chuàng)作你的創(chuàng)意書簽。請(qǐng)編寫程序,完成如右圖所示的創(chuàng)意書簽。課堂導(dǎo)入活動(dòng)1:設(shè)計(jì)創(chuàng)意書簽可參考下列步驟完成活動(dòng)任務(wù):

①可在網(wǎng)上搜索,完成初二下學(xué)期英語課本目錄的下載與存儲(chǔ),存儲(chǔ)為.txt格式。

②使用importwordcloud語句完成詞云庫的加載。

③根據(jù)需要配置詞云對(duì)象參數(shù)。

④加載詞云文本,即加載初二下學(xué)期的英語課本目錄文件。

⑤輸出詞云對(duì)象文件。課堂導(dǎo)入活動(dòng)2:分詞斷句

Jack是一位編程高手,成績(jī)優(yōu)秀的他作為交換生從美國(guó)來到中國(guó)交流。他對(duì)中文一竅不通,于是便想邊學(xué)習(xí)專業(yè)知識(shí)邊學(xué)習(xí)中文。中文的文字組詞對(duì)他來說很難記憶識(shí)別,中文斷句更是令他苦惱,如右圖所示。他希望能通過擅長(zhǎng)的專業(yè)知識(shí)幫助自己學(xué)習(xí)中文。Python語言的jieba分詞庫的分詞斷句幫了他的大忙。我們也一起來學(xué)一學(xué)吧!請(qǐng)編寫程序,完成一句話的分詞斷句。課堂導(dǎo)入活動(dòng)2:分詞斷句可參考下列步驟完成活動(dòng)任務(wù):

①使用importjieba語句完成jieba庫的加載。

②利用jieba庫分詞的精確模式,即jieba.cut(S)方法對(duì)句子進(jìn)行分詞。

③輸出分詞后的結(jié)果。課堂導(dǎo)入活動(dòng)3:智能統(tǒng)計(jì)關(guān)鍵詞

學(xué)習(xí)語文課文時(shí)總要提取本文的關(guān)鍵字,方便理解文章主旨。假定一篇文章中出現(xiàn)次數(shù)最多的詞語為本文的關(guān)鍵字。對(duì)于篇目較短的文章,我們可以閱覽整篇文章勾畫詞語進(jìn)行計(jì)數(shù),但是對(duì)于長(zhǎng)篇文章,這種勾畫計(jì)數(shù)方式效率太低。語菲在閱讀《三國(guó)演義》時(shí)就遇到了這樣的問題:她想了解小說中的主角到底有幾個(gè),出場(chǎng)的次數(shù)又是多少?請(qǐng)利用jieba分詞庫幫助語菲計(jì)算文章中出現(xiàn)頻率最高的前三位人物的姓名并計(jì)算出現(xiàn)的次數(shù)。請(qǐng)編寫程序,完成該功能。課堂導(dǎo)入活動(dòng)3:智能統(tǒng)計(jì)關(guān)鍵詞可參考下列步驟完成活動(dòng)任務(wù):

①使用importjieba語句完成jieba庫的加載。

②利用jieba庫分詞的精確模式,對(duì)文本進(jìn)行分詞。

③用之前學(xué)過的遍歷循環(huán)結(jié)構(gòu),統(tǒng)計(jì)每一個(gè)詞組在全文中出現(xiàn)的頻率。

④輸出統(tǒng)計(jì)的結(jié)果。課堂導(dǎo)入wordcloud庫的使用

jieba庫的使用中文分詞方法課堂活動(dòng)(1)詞云

“詞云”這個(gè)概念由美國(guó)西北大學(xué)新聞學(xué)副教授、新媒體專業(yè)主任里奇·戈登(RichGordon)提出?!霸~云”是對(duì)網(wǎng)絡(luò)文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,從而過濾掉大量的文本信息,使瀏覽網(wǎng)頁者只要一眼掃過文本就可以領(lǐng)略文本的主旨,以詞語為單位,更加直觀和藝術(shù)地展示文本。wordcloud庫的使用(2)wordcloud庫的安裝

安裝wordcloud庫與安裝其他第三方庫的方法一樣,打開海龜編輯器→選擇菜單欄中的庫管理→搜索wordcloud庫→單擊“安裝”。wordcloud庫的使用(3)wordcloud庫的基本使用

wordcloud庫統(tǒng)計(jì)文中單詞出現(xiàn)的次數(shù)并進(jìn)行過濾,出現(xiàn)頻率越高的單詞,最終顯示的字體越大。使用wordcloud庫生成詞云可分為以下3個(gè)步驟。

步驟1:配置詞云對(duì)象參數(shù)。

wordcloud庫把詞云當(dāng)作一個(gè)WordCloud對(duì)象。

——wordcloud.WordCloud()代表一個(gè)文本對(duì)應(yīng)的詞云。

——可以根據(jù)文本中詞語出現(xiàn)的頻率等參數(shù)繪制詞云。

——可以設(shè)定繪制詞云的形狀、尺寸和顏色等。

w=wordcloud.WordCloud(〈參數(shù)〉),具體見下表。wordcloud庫的使用(3)wordcloud庫的基本使用wordcloud庫的使用(3)wordcloud庫的基本使用

步驟2:加載詞云文本,具體見下表。wordcloud庫的使用(3)wordcloud庫的基本使用

例如:生成默認(rèn)參數(shù)的規(guī)則詞云,如下圖所示。wordcloud庫的使用(3)wordcloud庫的基本使用

又如:生成指定形狀的不規(guī)則詞云,如下圖所示。wordcloud庫的使用(1)中文分詞

中文分詞(ChineseWordSegmentation),即將一個(gè)漢字序列進(jìn)行切分,得到一個(gè)個(gè)單獨(dú)的詞。表面上看分詞很簡(jiǎn)單,但分詞的效果對(duì)信息檢索、實(shí)驗(yàn)結(jié)果有很大影響。根據(jù)分詞的特點(diǎn)可以將分詞算法分成基于規(guī)則的分詞方法、基于統(tǒng)計(jì)的分詞方法、基于語義的分詞方法、基于理解的分詞方法。jieba庫的使用(2)jieba庫

在使用jieba庫之前,先要進(jìn)行安裝,與安裝wordcloud庫的方法一樣。

jieba是一個(gè)中文分詞庫,它可以把中文句子劃分成詞組,以便進(jìn)一步進(jìn)行自然語言處理,它使用的是基于統(tǒng)計(jì)的分詞方法。其主要功能有分詞、添加自定義詞典、關(guān)鍵詞提取、詞性標(biāo)注、并行分詞、返回原文起始位置。jieba庫的使用(2)jieba庫

jieba的分詞過程與人對(duì)語句的分詞過程很類似。比如我們看到這句話:“語言學(xué)家參加學(xué)術(shù)會(huì)議”,會(huì)把它劃分為:“語言學(xué)家/參加/學(xué)術(shù)會(huì)議”。這個(gè)過程是瞬間完成的,它包含了三個(gè)步驟:分詞之前,大腦中已有一個(gè)“前綴詞典”,它包括語言、語言學(xué)、語言學(xué)家等各個(gè)詞條;大腦知道這句話確實(shí)存在多種分詞的可能;但它最后還是選出了那個(gè)最可能的結(jié)果,舍棄了諸如“語言學(xué)/家/參加/學(xué)術(shù)/會(huì)議”這樣的結(jié)果。jieba庫的使用(3)jieba庫的3種分詞模式

●精確模式:jieba.cut(S)。該方法試圖將句子最精確地切開,適合文本分析。該方法接受3個(gè)輸入?yún)?shù):需要分詞的字符串;cut_all參數(shù)用來控制是否采用全模式,cut_all參數(shù)默認(rèn)為False,即不采用全模式,采用精準(zhǔn)模式;HMM參數(shù)用來控制是否使用HMM模型。

●全模式:jieba.cut(S,cut_all=True)。該方法把句子中所有的可以成詞的詞語都掃描出來,速度非??欤遣荒芙鉀Q歧義。該方法與精確模式不同之處在于cut_all參數(shù)為True。

●搜索引擎模式:jieba.cut_for_search(S)。該方法是在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞。該方法接受兩個(gè)參數(shù):需要分詞的字符串;是否使用HMM模型。jieba庫的使用(3)jieba庫的3種分詞模式

下圖為3種模式對(duì)語句“我來到北京清華大學(xué)學(xué)習(xí)”進(jìn)行分詞的代碼:jieba庫的使用(3)jieba庫的3種分詞模式

下圖為3種分詞模式的結(jié)果:jieba庫的使用(3)jieba庫的3種分詞模式

利用數(shù)組、字典、列表、jieba庫,將《三國(guó)演義》中出現(xiàn)次數(shù)前三的人物進(jìn)行排名并統(tǒng)計(jì)出現(xiàn)的次數(shù),如下圖所示。jieba庫的使用基于規(guī)則的分詞方法基于統(tǒng)計(jì)的分詞方法基于語義的分詞方法基于理解的分詞方法中文分詞方法(1)基于規(guī)則的分詞方法

基于規(guī)則的分詞方法又稱機(jī)械分詞方法、基于字典的分詞方法,按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配。若在詞典中找到某個(gè)字符串,則匹配成功。該方法有3個(gè)要素,即分詞詞典、文本掃描順序和匹配原則。文本的掃描順序有正向掃描、逆向掃描和雙向掃描。匹配原則主要有最大匹配、最小匹配、逐詞匹配和最佳匹配。

此種方法的優(yōu)點(diǎn)是簡(jiǎn)單,易于實(shí)現(xiàn);但缺點(diǎn)有很多,如匹配速度慢、存在交集型和組合型歧義切分問題、詞本身沒有一個(gè)標(biāo)準(zhǔn)的定義、沒有統(tǒng)一標(biāo)準(zhǔn)的詞集、不同詞典產(chǎn)生的歧義也不同、缺乏自學(xué)習(xí)的智能性。中文分詞方法(2)基于統(tǒng)計(jì)的分詞方法

基于統(tǒng)計(jì)的分詞方法的主要思想:詞是穩(wěn)定的組合,在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。字與字相鄰出現(xiàn)的概率或頻率能較好地反映成詞的可信度。因此,可以對(duì)訓(xùn)練文本中相鄰出現(xiàn)的各個(gè)字的組合頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們之間的互現(xiàn)信息?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可以認(rèn)為此字組可能構(gòu)成了一個(gè)詞。該方法又稱為無字典分詞。

在實(shí)際應(yīng)用中,此類分詞算法一般是將其與基于詞典的分詞方法結(jié)合起來,既能發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。中文分詞方法(3)基于語義的分詞方法

基于語義的分詞法引入了語義分析,對(duì)自然語言自身的語言信息進(jìn)行更多的處理,如擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)法、知識(shí)分詞語義分析法、鄰接約束法、綜合匹配法、后綴分詞法、特征詞庫法、矩陣約束法、語法分析法等。中文分詞方法(4)基于理解的分詞方法

基于理解的分詞方法是通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論