版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、自然語言理解和文本挖掘Python數(shù)據(jù)處理、分析、可視化與數(shù)據(jù)化運營08第1頁,共66頁。本章學(xué)習(xí)目標了解自然語言常見的數(shù)據(jù)特征掌握使用結(jié)巴分詞提取關(guān)鍵字的方法了解主題分析的特點以及應(yīng)用場景了解自動摘要提取和生成的主要方法掌握如何通過TextRank自動生成摘要并提取關(guān)鍵短語第2頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字分詞的基本概念算法引言分詞是將一系列連續(xù)的字符串按照一定邏輯分割成單獨的詞。在英文中,單詞之間是以空格作為自然分界符的;而中文只有字、句和段能通過明顯的分界符來簡單劃界,而詞卻沒有形式上的分界符。第3頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字TF-IDF算法
2、基本概念算法引言TF-IDF(term frequencyinverse document frequency)是一種針對關(guān)鍵字的統(tǒng)計分析方法,用來評估關(guān)鍵字或詞語對于文檔、語料庫和文件集合的重要程度。其基本思想是:如果某個關(guān)鍵字在一篇文檔中出現(xiàn)的頻率(TF,Term Frequency)高,并且在其他文檔中很少出現(xiàn)(IDF,Inverse Document Frequency),那么認為該關(guān)鍵字具有良好的區(qū)分不同文檔的能力,也就越重要。第4頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字案例背景描述案例背景用戶評論是消費者對企業(yè)商品、服務(wù)、品牌等方面的信息反饋,其中往往隱含了大量的關(guān)鍵特
3、征,尤其是消費者的特定傾向和喜好。因此,分析用戶評論并提取關(guān)鍵字是獲得用戶真實反饋并分析用戶特征的有效方式。第5頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字數(shù)據(jù)源直接通過爬蟲從外部網(wǎng)站獲取,保存在user_comment.txt中,評論共141條記錄,每條記錄都是一段用戶評論文本。例如:數(shù)據(jù)源概述goodpython處理大數(shù)據(jù)確實有優(yōu)勢,開始學(xué)習(xí)python了。案例講解第6頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字導(dǎo)入庫案例過程from pyecharts.charts import WordCloud # WordCloud 用來做詞云展示from pyecharts im
4、port options as opts import pandas as pd from jieba.analyse import extract_tags 第7頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字讀取數(shù)據(jù)案例過程with open(user_comment.txt,encoding=utf8) as fn: comment_data = fn.read()print(comment_data:50)第8頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字提取評論關(guān)鍵字案例過程tags_pairs = extract_tags(comment_data, topK=50, w
5、ithWeight=True, allowPOS=n, v, a) # print(tags_pairs:10) # comment_data為要提取的源文本,字符串類型topK設(shè)置提取的關(guān)鍵字的數(shù)量,數(shù)值型withWeight設(shè)置提取關(guān)鍵字時,同步將其對應(yīng)的權(quán)重提取出來,權(quán)重便于展示不同的關(guān)鍵字的重要性,以及做可視化展示時大小值的設(shè)置第9頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字提取評論關(guān)鍵字案例過程tags_pairs = extract_tags(comment_data, topK=50, withWeight=True, allowPOS=n, v, a) # print(
6、tags_pairs:10) # allowPOS設(shè)置要提取的關(guān)鍵所屬于的詞性分類,這里設(shè)置n、v、a分別對應(yīng)名詞、動詞和形容詞,這樣保留的結(jié)果只在這些類型里面,而其他的詞例如副詞、助詞、數(shù)量詞等就不提取第10頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字提取評論關(guān)鍵字(top10示例)案例過程第11頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字常用結(jié)巴分詞詞性分類案例過程一級分類二級分類名稱描述a形容詞取英語形容詞adjective的第1個字母ad副形詞直接作狀語的形容詞。形容詞代碼a和副詞代碼d并在一起ag形語素形容詞性語素。形容詞代碼為a,語素代碼g并在一起an名形詞具有名詞
7、功能的形容詞。形容詞代碼a和名詞代碼n并在一起b區(qū)別詞取漢字“別”的聲母c連詞取英語連詞conjunction的第1個字母第12頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字常用結(jié)巴分詞詞性分類案例過程一級分類二級分類名稱描述d副詞因其第1個字母已用于形容詞,所以取adverb的第2個字母dg副語素副詞性語素。副詞代碼為d,語素代碼g前面置以de嘆詞取英語嘆詞exclamation的第1個字母f方位詞取漢字“方” 的聲母g語素絕大多數(shù)語素都能作為合成詞的“詞根”,取漢字“根”的聲母h前接成分取英語head的第1個字母第13頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字常用結(jié)巴分詞詞
8、性分類案例過程一級分類二級分類名稱描述i成語取英語成語idiom的第1個字母j簡稱略語取漢字“簡”的聲母k后接成分l習(xí)用語習(xí)用語尚未成為成語,有點“臨時性”,取“臨”的聲母m數(shù)詞取英語numeral的第3個字母,n,u已有他用i成語取英語成語idiom的第1個字母第14頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字常用結(jié)巴分詞詞性分類案例過程一級分類二級分類名稱描述n名詞取英語名詞noun的第1個字母ng名語素名詞性語素。名詞代碼為n,語素代碼g前面置以nnr人名名詞代碼n和“人(ren)”的聲母并在一起ns地名名詞代碼n和處所詞代碼s并在一起nt機構(gòu)團體“團”的聲母為t,名詞代碼n和t
9、并在一起nz其他專名“?!钡穆暷傅牡?個字母為z,名詞代碼n和z并在一起第15頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字常用結(jié)巴分詞詞性分類案例過程一級分類二級分類名稱描述o擬聲詞取英語擬聲詞onomatopoeia的第1個字母p介詞取英語介詞prepositional的第1個字母q量詞取英語quantity的第1個字母r代詞取英語代詞pronoun的第2個字母,因p已用于介詞s處所詞取英語space的第1個字母t時間詞取英語time的第1個字母tg時語素時間詞性語素。時間詞代碼為t,在語素的代碼g前面置以t第16頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字常用結(jié)巴分詞詞性分
10、類案例過程一級分類二級分類名稱描述u助詞取英語助詞auxiliary 的第2個字母,因a已用于形容詞v動詞取英語動詞verb的第一個字母vd副動詞直接作狀語的動詞。動詞和副詞的代碼并在一起vg動語素動詞性語素。動詞代碼為v,在語素的代碼g前面置以Vvn名動詞指具有名詞功能的動詞。動詞和名詞的代碼并在一起x非語素字非語素字只是一個符號,字母x通常用于代表未知數(shù)、符號y語氣詞取漢字“語”的聲母z狀態(tài)詞取漢字“狀”的聲母的前一個字母第17頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字將關(guān)鍵字結(jié)果寫入文件案例過程with open(user_comment_tags.txt,w+) as fn:
11、 # for tag,weight in tags_pairs: # fn.write(tag) # fn.write(:) # fn.write(str(weight) # fn.write(n) # 使用with方法新建一個文本對象,文件名為user_comment_tags.txt,打開模式是w+即寫入模式(如果文件沒有新建)第18頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字將關(guān)鍵字結(jié)果寫入文件案例過程第19頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字展示Dataframe格式的評論信息分析用戶評論關(guān)鍵字keywords_pd = pd.DataFrame(tags_pa
12、irs,columns=keyword,weight)print(keywords_pd.head()第20頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字通過詞云展示關(guān)鍵字分布分析用戶評論關(guān)鍵字from pyecharts import options as optsfrom pyecharts.charts import WordCloudwc = WordCloud()wc.add(, list(i) for i in tags_pairs, word_size_range=15, 300)wc.set_global_opts(title_opts=opts.TitleOpts(ti
13、tle=詞云關(guān)鍵字展示)wc.render_notebook()第21頁,共66頁。8.1 使用結(jié)巴分詞提取用戶評論關(guān)鍵字通過詞云展示關(guān)鍵字分布分析用戶評論關(guān)鍵字第22頁,共66頁。8.2 使用LDA主題模型做新聞主題分析主題模型的基本概念算法引言主題模型是一個能夠挖掘語言背后隱含信息的利器,是語義挖掘、自然語言理解、文本解析和文本分析、信息檢索的重要組成部分。它采用非監(jiān)督式的學(xué)習(xí)方式,根據(jù)文檔集中的每篇文檔的詞的概率分布做主題劃分;在訓(xùn)練時不需要做數(shù)據(jù)標注,其工作機制類似于聚類算法第23頁,共66頁。8.2 使用LDA主題模型做新聞主題分析主題模型的應(yīng)用場景算法引言主題模型可以應(yīng)用到圍繞主題
14、產(chǎn)生的應(yīng)用場景中,例如搜索引擎領(lǐng)域、情感分析、輿情監(jiān)控、個性化推薦、社交分析第24頁,共66頁。8.2 使用LDA主題模型做新聞主題分析主題模型的常用算法算法引言(1)潛在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)。(2)概率潛在語義分析(ProbabilisticLatent Semantic Analysis,pLSA)。(3)其他基于LDA的衍生模型,如Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等。第25頁,共66頁。8.2 使用LDA主題模型做新聞主題分析案例背景描述案例背景本案例的背景是
15、基于目前獲得的新聞內(nèi)容數(shù)據(jù),建立相應(yīng)的主題模型,然后得到不同模型的主題特點,并通過對新文本的預(yù)測得到其可能的主題分類。第26頁,共66頁。8.2 使用LDA主題模型做新聞主題分析數(shù)據(jù)源通過爬蟲獲取,保存在news.csv中,每條數(shù)據(jù)記錄都是一條新聞內(nèi)容。如下是一條新聞記錄(由于內(nèi)容較多,中間內(nèi)容用省略號代替):數(shù)據(jù)源概述昨天清晨,購得首張單程票卡的韓先生通過自動檢票機。本報記者 周民 攝地鐵進入自動售檢票時代首張單程票卡由內(nèi)蒙古乘客購得 今日4000引導(dǎo)人員“助刷”本報訊 昨天清晨5時01分,隨著地鐵西直門站的自動售票機臨人力、財力等諸多方面的困難。(責(zé)任編輯:劉曉靜)第27頁,共66頁。8.
16、2 使用LDA主題模型做新聞主題分析導(dǎo)入庫案例過程import jieba.posseg as psegfrom gensim import corporafrom gensim.sklearn_api import LdaTransformer,TfIdfTransformer,Text2BowTransformerfrom sklearn.pipeline import Pipelinegensim中的corpora用于構(gòu)建詞庫gensim.sklearn_api中的LdaTransformer、TfIdfTransformer、Text2BowTransformer分別用于LDA主題建模
17、、TF-IDF詞頻統(tǒng)計以及文本轉(zhuǎn)詞袋的構(gòu)建第28頁,共66頁。8.2 使用LDA主題模型做新聞主題分析定義分詞功能函數(shù)案例過程def word_split(text): # words = pseg.cut(text) # return word.word for word in words if word.flag = n # 僅保留名詞詞性結(jié)果第29頁,共66頁。8.2 使用LDA主題模型做新聞主題分析讀取數(shù)據(jù)案例過程with open(news.csv,encoding=utf8) as fn: news_data = fn.readlines()print(news_data0:100
18、)第30頁,共66頁。8.2 使用LDA主題模型做新聞主題分析構(gòu)建詞庫案例過程words_list = word_split(each_data) for each_data in news_data # dic = corpora.Dictionary(words_list) # 構(gòu)建詞庫對于建模本身不是必須的,僅在最終展示每個主題內(nèi)容時,需要將每個詞的結(jié)果映射回去時才用到該部分內(nèi)容第31頁,共66頁。8.2 使用LDA主題模型做新聞主題分析構(gòu)建pipeline模型案例過程model_pipes = Pipeline(steps=(text2bow,Text2BowTransformer(t
19、okenizer=word_split), (tfidf,TfIdfTransformer(), (lda,LdaTransformer(num_topics=3, id2word=dic, random_state=3) # result = model_pipes.fit_transform(news_data) # (1)text2bow為生成詞袋過程,使用Text2BowTransformer(tokenizer=word_split)實現(xiàn),其中tokenizer指定為結(jié)巴分詞方法。如果不設(shè)置則會使用默認的gensim.utils.tokenize()方法。(2)Tfidf為詞頻統(tǒng)計過
20、程,直接使用TfIdfTransformer()方法。第32頁,共66頁。8.2 使用LDA主題模型做新聞主題分析構(gòu)建pipeline模型案例過程model_pipes = Pipeline(steps=(text2bow,Text2BowTransformer(tokenizer=word_split), (tfidf,TfIdfTransformer(), (lda,LdaTransformer(num_topics=3, id2word=dic, random_state=3) # result = model_pipes.fit_transform(news_data) # (3)Ld
21、a為主題建模,使用LdaTransformer(num_topics=3, id2word=dic, random_state=3)方法構(gòu)建,其中num_topics=3指定最終話題類別數(shù)量為3;id2word=dic設(shè)置上一步構(gòu)建的詞庫,用于還原關(guān)鍵字使用,若無分析需求可不必設(shè)置; random_state=3設(shè)置統(tǒng)一的隨機值,避免多次計算的結(jié)果受到隨機因素的影響。第33頁,共66頁。8.2 使用LDA主題模型做新聞主題分析用print(result)可打印每個數(shù)據(jù)記錄所屬的各個話題類別的概率分析主題結(jié)果print(result)第34頁,共66頁。8.2 使用LDA主題模型做新聞主題分析展
22、示每個類別的TOP關(guān)鍵字分析主題結(jié)果corpus = Text2BowTransformer(tokenizer=word_split).fit_transform(news_data) # corpus_tfidf = TfIdfTransformer().fit_transform(corpus) # topic_kw = model_pipes.steps21.gensim_model.top_topics(corpus_tfidf,topn=10) # LDA模型的gensim_model.top_topics方法,來獲得最高的10個分布概率的關(guān)鍵字print(topic_kw) #
23、第35頁,共66頁。8.2 使用LDA主題模型做新聞主題分析展示每個類別的TOP關(guān)鍵字分析主題結(jié)果# 類別1(0.0013826446, 小區(qū)), (0.001379973, 女排), (0.00089395104, 世界), (0.00086274336, 編號), (0.0008516237, 時間), (0.00081707275, 大獎賽), (0.0007950419, 體育訊), (0.0007267941, 公司), (0.0007040468, 人), (0.000686727, 平), -5.885689820103438), # 類別2(0.0015513123, 圖),
24、(0.0010907127, 時間), (0.0010224294, 體育訊), (0.0009499508, 小區(qū)), (0.00092686794, 編號), (0.0009198478, 精彩), (0.00081352255, 面積), (0.00080829725, 球員), (0.0007862203, 精彩圖片), (0.00078179734, 人), -8.139738142311833), # 類別3(0.0013802531, 民族), (0.0010815584, 災(zāi)區(qū)), (0.0010510021, 人), (0.0009867399, 地震), (0.000890
25、58396, 男排), (0.0008505483, 時間), (0.0008157716, 傳情), (0.0008147721, 記者), (0.0008002909, 魔鬼), (0.00079953944, 瞎說), -9.592828226511234)第36頁,共66頁。8.2 使用LDA主題模型做新聞主題分析如何分析不同的主題分析主題結(jié)果詞的分布呈現(xiàn)“長尾分布”模式,所以要做“長尾分析”詞的概率越高代表著其重要性越大,即越能說明該主題的話題傾向性。第37頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向文本分類的基本概念算法引言文本分類與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的分類應(yīng)用,在流程上類似,都
26、需經(jīng)過數(shù)據(jù)預(yù)處理、特征處理、分類建模、效果評估、新數(shù)據(jù)預(yù)測這幾個階段。差異點在于,數(shù)據(jù)預(yù)處理和特征處理時,由于不是結(jié)構(gòu)化數(shù)據(jù),因此處理方法、過程和應(yīng)用庫不同。第38頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向文本分類應(yīng)用場景算法引言文本分類是自然語言處理和文本挖掘中的一個重要課題,比較常見的領(lǐng)域包括垃圾郵件識別、情感分類、文檔(文本)類別劃分、評分分級等。第39頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向文本分類的常用算法算法引言在大多數(shù)文本分類應(yīng)用中,貝葉斯算法是最常用且最有效的算法之一本案例則使用隨機森林來實現(xiàn)文本分類,原因是在結(jié)構(gòu)化的分析過程中,隨機森林都會表現(xiàn)出良好的模型穩(wěn)
27、定性和一定的準確性,通常作為Benchmark模型使用,因此在文本分類中也可以嘗試。第40頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向案例背景描述案例背景本案例則使用隨機森林來實現(xiàn)文本分類,原因是在結(jié)構(gòu)化的分析過程中,隨機森林都會表現(xiàn)出良好的模型穩(wěn)定性和一定的準確性,通常作為Benchmark模型使用,因此在文本分類中也可以嘗試。第41頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向本案例的數(shù)據(jù)來自信息,數(shù)據(jù)文件包括三部分于爬蟲:數(shù)據(jù)源概述一是book_comment.txt中的訓(xùn)練集,該訓(xùn)練集共241條件記錄,包括評論文本和評分兩列數(shù)據(jù);二是stop_words.txt中的停用詞列表
28、字典,該字典用于從分詞中去除停用詞;三是book_comment_new.txt中的要預(yù)測的數(shù)據(jù)集,僅包含評論文本本身。第42頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向?qū)霂彀咐^程import jieba.posseg as psegimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizer from sklearn.pipeline import Pipelinefrom sklearn.ensemble import RandomForestClassifierfrom sklear
29、n.metrics import classification_reportsklearn.feature_extraction.text中的TfidfVectorizer用于使用TF-IDF方法計算詞頻并生成向量矩陣sklearn.metrics中的classification_report用于評估分類結(jié)果第43頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向sklearn.metrics中的classification_report用于評估分類結(jié)果案例過程def word_split(text): rule_words = ad, ag, an,a,i,j,l,v,vd,vg,vn wo
30、rds = pseg.cut(text) return word.word for word in words if word.flag in rule_words第44頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向讀取數(shù)據(jù)案例過程raw_data = pd.read_csv(book_comment.txt,sep=t)print(raw_data.head(3)第45頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向讀取停用詞案例過程with open(stop_words.txt,encoding=utf8) as fn: stop_words = fn.readlines()停用詞
31、本身代表了需要從分詞結(jié)果中去除或需要過濾掉的元素第46頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向手動拆分訓(xùn)練集和測試集案例過程x,y = raw_data評論,raw_data得分 # num = int(len(x)*0.7) # x_train,x_test = x:num,xnum: # y_train, y_test = y:num,ynum: # 70%的訓(xùn)練集,30%的檢驗集第47頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向構(gòu)建pipeline模型案例過程model_pipe = Pipeline(TfidfVectorizer,TfidfVectorizer(tok
32、enizer=word_split,stop_words=stop_words),(rf,RandomForestClassifier(class_weight =balanced)步驟一為由TfidfVectorizer構(gòu)建的TF-IDF模型,它可直接基于原始文本,調(diào)用自定義的word_split分詞器,結(jié)合自定義的停用詞列表stop_words,在分詞完成之后建立文本向量空間矩陣;步驟二為隨機森林建立的集成模型,指定class_weight =balanced目的是讓模型自己處理樣本間不均衡的問題第48頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向訓(xùn)練模型案例過程model_pipe.
33、fit(x_train,y_train) # pre_y=model_pipe.predict(x_test) # 第49頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向模型評估案例過程columns = str(i) for i in model_pipe.classes_ # print(classification_report(y_test, pre_y,target_names=columns) # 第50頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向讀取新的數(shù)據(jù)并預(yù)測預(yù)測新用戶的評分with open(book_comment_new.txt,encoding=utf8) a
34、s fn: # data_new = fn.readlines() # pre_result = model_pipe.predict(data_new) # for each_str,each_pre in zip(data_new,pre_result): # print(feach_str each_pre.replace(n,) # 第51頁,共66頁。8.3 使用隨機森林預(yù)測用戶評分傾向讀取新的數(shù)據(jù)并預(yù)測預(yù)測新用戶的評分第52頁,共66頁。8.4 使用TextRank自動生成文章摘要和關(guān)鍵短語自動摘要的基本概念算法引言自動摘要就是從文章內(nèi)容中找到能夠代表整體含義的句子,它是一段簡短的
35、描述信息。關(guān)鍵短語與關(guān)鍵字提取類似,但短語是關(guān)鍵字的組合,因此能代表更多的“詞語”信息。第53頁,共66頁。8.4 使用TextRank自動生成文章摘要和關(guān)鍵短語提取自動摘要的兩種思路和算法算法引言1. 抽取式抽取式即從文章內(nèi)容中找到“現(xiàn)成”的具有最多信息的句子,然后將其作為摘要提取出來,所以這種方式本質(zhì)上是一個將句子按信息重要性的“排序”的過程,由于實現(xiàn)簡單,因此是目前使用范圍最廣的方法。Text rank是這一領(lǐng)域內(nèi)的主要方法之一。第54頁,共66頁。8.4 使用TextRank自動生成文章摘要和關(guān)鍵短語提取自動摘要的兩種思路和算法算法引言2. 概括法這種方式?jīng)]有一個“現(xiàn)成”的句子可供使用
36、,而是要基于不同的單詞組成可用的句子,然后將該句子表示為摘要信息,這種方法其實更接近于AI的工作方法,即可以從一堆信息中“抽取”并“歸納”信息。但其實現(xiàn)方式難度較高,且大多數(shù)情況下效果不太理想。Google Brain于2014年提出的Sequence-to-Sequence方案是該領(lǐng)域的典型代表。第55頁,共66頁。8.4 使用TextRank自動生成文章摘要和關(guān)鍵短語案例背景描述案例背景本案例的基本背景是:通過對文本內(nèi)容的分析,使用TextRank自動生成文章摘要和關(guān)鍵短語。第56頁,共66頁。8.4 使用TextRank自動生成文章摘要和關(guān)鍵短語數(shù)據(jù)來自于本書的介紹信息,保存在文件text.txt中,部分信息預(yù)覽如下。數(shù)據(jù)源概述Python作為數(shù)據(jù)工作領(lǐng)域的關(guān)鍵武器之一,具有開源、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 負面情緒處理課程設(shè)計
- 2024年幼兒健康管理知識培訓(xùn)題庫(含答案)
- 二零二五版四荒地承包經(jīng)營權(quán)投資融資合同3篇
- 年度多用客房車市場分析及競爭策略分析報告
- 年度垃圾收轉(zhuǎn)裝備戰(zhàn)略市場規(guī)劃報告
- 2024版遠程教育平臺搭建合同3篇
- 二零二五年度門店租賃合同范本:環(huán)保節(jié)能標準版4篇
- 室外電氣工程施工方案
- 送水泵房的課程設(shè)計
- 2025年度個人電子設(shè)備買賣合同模板2篇
- 《面神經(jīng)炎護理措施分析》3900字(論文)
- 城市微電網(wǎng)建設(shè)實施方案
- 企業(yè)文化融入中華傳統(tǒng)文化的實施方案
- 9.1增強安全意識 教學(xué)設(shè)計 2024-2025學(xué)年統(tǒng)編版道德與法治七年級上冊
- 《化工設(shè)備機械基礎(chǔ)(第8版)》全套教學(xué)課件
- 人教版八年級數(shù)學(xué)下冊舉一反三專題17.6勾股定理章末八大題型總結(jié)(培優(yōu)篇)(學(xué)生版+解析)
- 2024屆上海高考語文課內(nèi)古詩文背誦默寫篇目(精校版)
- DL-T5024-2020電力工程地基處理技術(shù)規(guī)程
- 初中數(shù)學(xué)要背誦記憶知識點(概念+公式)
- 駕照體檢表完整版本
- 農(nóng)產(chǎn)品農(nóng)藥殘留檢測及風(fēng)險評估
評論
0/150
提交評論