《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件7.1.1 文件讀取和jieba分詞_第1頁(yè)
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件7.1.1 文件讀取和jieba分詞_第2頁(yè)
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件7.1.1 文件讀取和jieba分詞_第3頁(yè)
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件7.1.1 文件讀取和jieba分詞_第4頁(yè)
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件7.1.1 文件讀取和jieba分詞_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

處理新聞文本數(shù)據(jù)新聞文本聚類(lèi)——聚類(lèi)分析任務(wù)描述文本數(shù)據(jù)清洗是指對(duì)文本數(shù)據(jù)進(jìn)行處理,以去除其中的噪聲、錯(cuò)誤和無(wú)用信息,使得數(shù)據(jù)更加準(zhǔn)確、可靠和適合分析,在文本分析和挖掘領(lǐng)域中具有非常重要的意義。經(jīng)過(guò)清洗的數(shù)據(jù)有著更好的數(shù)據(jù)質(zhì)量,能夠使得后續(xù)的數(shù)據(jù)挖掘更加精準(zhǔn)有效,貫徹高質(zhì)量發(fā)展精神。本任務(wù)將對(duì)新聞文本數(shù)據(jù)進(jìn)行清洗,包括文本讀取、分詞、去停用詞和特征提取。任務(wù)要求使用withopen函數(shù)讀取文本文件。使用jieba庫(kù)進(jìn)行文本分詞。使用stoptxt停用詞表去停用詞。使用TfidfTransformer進(jìn)行文本特征提取。讀取文件jieba分詞去停用詞特征提取讀取文件怎么讀取文本文件呢?read_csv函數(shù)可用于讀取使用分割符分割的文本文件,這在實(shí)際應(yīng)用中存在很多限制。因此想要自由的處理文本文件,還需要其他的辦法。open是Python內(nèi)置的一個(gè)關(guān)鍵字,用于打開(kāi)文件,并創(chuàng)建一個(gè)上下文環(huán)境。open關(guān)鍵字的基本使用格式如下。

讀取文件open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None,closefd=True,opener=None)Open關(guān)鍵字常用參數(shù)及其說(shuō)明

讀取文件參數(shù)名稱(chēng)說(shuō)明file接收str,表示要打開(kāi)的文件的路徑和名稱(chēng),無(wú)默認(rèn)值mode接收str,表示文件的讀寫(xiě)模式,默認(rèn)為“r”buffering接收int,表示文件的緩沖區(qū)大小,默認(rèn)為-1encoding接收str,表示文件的編碼格式,默認(rèn)為None讀取文件參數(shù)名稱(chēng)說(shuō)明errors接收str,便是編碼錯(cuò)誤的處理方式,默認(rèn)為Nonenewline接收str,表示文本模式下的換行符,默認(rèn)為Noneclosefd接收bool,表示是否關(guān)閉文件描述符,默認(rèn)為T(mén)rueopener接收函數(shù),表示自定義的文件打開(kāi)器,默認(rèn)為NoneOpen關(guān)鍵字常用參數(shù)及其說(shuō)明

withopen可以說(shuō)是open的優(yōu)化用法或高級(jí)用法,相比open更加簡(jiǎn)潔、安全。open必須搭配close方法使用,先用open打開(kāi)文件,然后進(jìn)行讀寫(xiě)操作,最后用close釋放文件。withopen則無(wú)需close語(yǔ)句,比較簡(jiǎn)潔。json是一種輕量級(jí)、基于文本的、可讀的文件格式。文件中的部分關(guān)鍵詞及其出現(xiàn)頻率,儲(chǔ)存在詞頻.json中。讀取文件讀取文件對(duì)文本文件進(jìn)行文件讀取主要通過(guò)以下4個(gè)步驟實(shí)現(xiàn)。使用withopen或open打開(kāi)文件使用json.load讀取文件輸出讀取文件的值若使用open函數(shù)打開(kāi),還需要使用close函數(shù)關(guān)閉jieba分詞jieba是一個(gè)常用的中文分詞庫(kù),它能夠?qū)⒁欢沃形奈谋景凑赵~語(yǔ)進(jìn)行劃分,并且去除停用詞等無(wú)意義的符號(hào),輸出分好的詞語(yǔ)列表。jieba庫(kù)在Python中廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域,如文本挖掘、搜索引擎、信息檢索等。什么是jieba分詞?漢字是文化自信的基石,學(xué)習(xí)漢字,推進(jìn)文化自信自強(qiáng)。漢語(yǔ)是以漢字為基本書(shū)寫(xiě)單位,詞語(yǔ)之間沒(méi)有明顯的區(qū)分標(biāo)記,完整的句子很難進(jìn)行信息提取,因此在中文自然語(yǔ)言處理中通常是將漢語(yǔ)文本中的字符串切分成合理的詞語(yǔ)序列。jieba分詞jieba庫(kù)的主要作用有什么呢?一段中文文本進(jìn)行分詞,得到分好的詞語(yǔ)列表,方便后續(xù)的處理和分析。中文分詞jieba庫(kù)支持基于TF-IDF算法和TextRank算法的關(guān)鍵詞提取,可以提取出一段中文文本中的關(guān)鍵詞,用于文本摘要、信息檢索等。關(guān)鍵詞提取jieba庫(kù)支持中文詞性標(biāo)注,可以標(biāo)注出每個(gè)詞語(yǔ)的詞性,如名詞、動(dòng)詞、形容詞等,方便進(jìn)一步的文本分析和處理。詞性標(biāo)注jieba庫(kù)內(nèi)置了一些常用的停

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論