基于Python的七貓小說文學網(wǎng)的數(shù)據(jù)采集與分析_第1頁
基于Python的七貓小說文學網(wǎng)的數(shù)據(jù)采集與分析_第2頁
基于Python的七貓小說文學網(wǎng)的數(shù)據(jù)采集與分析_第3頁
基于Python的七貓小說文學網(wǎng)的數(shù)據(jù)采集與分析_第4頁
基于Python的七貓小說文學網(wǎng)的數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

湖南商務職業(yè)技術學院畢業(yè)設計

目錄

1引言...............................................................1

1.1選題背景......................................................1

1.2開發(fā)環(huán)境與工具................................................1

1.2.1Python簡介..............................................1

1.2.2Tableau簡介.............................................2

1.2.3JupyterNotebook簡介....................................2

1.2.4Python第三方庫簡介......................................2

2需求分析...........................................................3

2.1可行性需求分析................................................3

2.2采集目標功能分析..............................................3

2.3關鍵技術分析..................................................3

2.3.1網(wǎng)絡爬蟲技術............................................3

2.3.2文件存取技術............................................4

2.3.3可視化技術..............................................5

3數(shù)據(jù)采集...........................................................5

3.1采集頁面分析..................................................5

3.2字段分析......................................................7

3.3編程實現(xiàn)......................................................7

4數(shù)據(jù)清洗與處理.....................................................8

4.1數(shù)據(jù)清洗......................................................8

4.2數(shù)據(jù)儲存......................................................9

5數(shù)據(jù)統(tǒng)計與分析....................................................10

5.1數(shù)據(jù)準備.....................................................10

5.2數(shù)據(jù)展示.....................................................13

5.2.1根據(jù)類別對小說進行數(shù)據(jù)的統(tǒng)計與分析.....................13

5.2.2根據(jù)根據(jù)字數(shù)來對比統(tǒng)計數(shù)據(jù).............................15

I

湖南商務職業(yè)技術學院畢業(yè)設計

5.2.3根據(jù)閱讀者搜索熱力值來對比.............................16

5.2.4根據(jù)分數(shù)對小說數(shù)據(jù)的分析...............................16

5.2.5根據(jù)作者創(chuàng)作的時長對小說數(shù)據(jù)的分析.....................17

5.2.6根據(jù)閱讀人數(shù)對小說數(shù)據(jù)的分析...........................18

6小結..............................................................19

參考資料............................................................21

II

湖南商務職業(yè)技術學院畢業(yè)設計

基于Python的七貓小說文學網(wǎng)的數(shù)據(jù)采集與分析

1引言

大數(shù)據(jù)或稱之為海量數(shù)據(jù)。一般指所含的數(shù)據(jù)集規(guī)模巨大,其在各個行業(yè)

的廣泛應用,使之關注熱度歷年來居高不下。當人們獲得大數(shù)據(jù)資源的時候,

大數(shù)據(jù)數(shù)據(jù)來源可以囊括我們從日常生活中可以普遍見到的上傳到網(wǎng)頁上的圖

像、視頻、錄音;高速公路上車輛與收費記錄、日常監(jiān)控錄像、醫(yī)院的治療病

例、高端的基因測序、天文學中通過望遠鏡收集的信息數(shù)據(jù)等。

在互聯(lián)網(wǎng)的影響下,互聯(lián)網(wǎng)小說行業(yè)也逐漸進入人們的視野,為讀者閱讀

小說提供了更便捷的途徑也為互聯(lián)網(wǎng)小說的發(fā)展奠定了基礎。

1.1選題背景

隨著互聯(lián)網(wǎng)技術的不斷普及,其每天所催生的巨量數(shù)據(jù)使得世間萬物不斷

走向數(shù)據(jù)化,數(shù)據(jù)量化的節(jié)奏也在不斷加快。在由“萬事皆物”過渡到“萬物

皆數(shù)”的過程中,互聯(lián)網(wǎng)每天所產(chǎn)生的數(shù)據(jù),對大數(shù)據(jù)時代的來臨有著關鍵性

作用。

互聯(lián)網(wǎng)的迅猛發(fā)展和快速普及,使得大量數(shù)據(jù)信息在采集、存儲、傳輸、

處理、管理等方面越來越便捷。同時互聯(lián)網(wǎng)的發(fā)展也使得數(shù)據(jù)類型越來越復雜

化。就大數(shù)據(jù)而言,在互聯(lián)網(wǎng)上一天,都會潛在的擁有眾多數(shù)據(jù)的“產(chǎn)生者”

和“發(fā)送者”,這些“產(chǎn)生者”和“發(fā)送者”每時每刻都貢獻出各種各樣,難

以計量的數(shù)據(jù)。這些接連不斷出現(xiàn)的數(shù)據(jù),催生著大數(shù)據(jù)浪潮的來臨。

我這次的畢業(yè)設計就是針對七貓小說文學網(wǎng)進行數(shù)據(jù)的清洗、采集和分析,

從小說網(wǎng)中比較有權威的七貓小說文學網(wǎng)采集有價值的信息并進行分析,可以

更好的了解當代互聯(lián)網(wǎng)小說行業(yè)的發(fā)展趨勢。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python的創(chuàng)始人是GuidovanRossum,創(chuàng)作于1989年。Python是一種十分

優(yōu)美的程序設計語言。它以其十分豐富的模塊和其他語言難于描述的列表、字

典等復雜數(shù)據(jù)類型,在近年來得到了廣泛的應用。Python語言具有開源、免費、

1

湖南商務職業(yè)技術學院畢業(yè)設計

功能強大、語法簡潔清晰、簡單、數(shù)據(jù)類型豐富、面向?qū)ο蟮忍攸c,非常適合

初學者學習。而且Python有十分豐富的程序包,無論用戶有什么需求,基本都

能找到一個程序包來滿足自己的要求,這也是Python的魅力所在。

1.2.2Tableau簡介

Tableau于2013年成立,由斯坦福大學研究,Tableau能夠改善分析流程

并讓人們能夠通過可視化使用數(shù)據(jù)。共同創(chuàng)始人ChrisStolte、PatHanrahan

和ChristianChabot開發(fā)出了Tableau的基礎技術VizQL并獲得專利,該技

術通過直觀的界面將拖放操作轉化為數(shù)據(jù)查詢,從而對數(shù)據(jù)進行可視化呈現(xiàn)。

自成立以來,我們一直以無與倫比的速度不斷進行研發(fā)投資,開發(fā)各種解決方

案來幫助所有需要使用數(shù)據(jù)的人更快地找到答案,發(fā)現(xiàn)意想不到的見解。

1.2.3JupyterNotebook簡介

JupyterNotebook是web應用程序,它包含支持代碼、文本和數(shù)學的包容

性和基于瀏覽器的內(nèi)容。從“IPython”項目中生產(chǎn)出來的,jupyter筆記型電

腦是開放原始碼的網(wǎng)路應用程式,可讓使用者建立和共用包含程式碼、方程式、

共用筆記型電腦:透過電子郵件、dropboxilla、githubilla以及筆記型電腦檢

視器與他人共用筆記型電腦。pandoja、scikit-learnia、ggplot2tensorflow

都支持相同的數(shù)據(jù)挖掘。

1.2.4Python第三方庫簡介

requests:是基于urllib編寫的,使用Apache2許可開源協(xié)議的HTTP庫。

用于Python爬取,最簡單的HTTP庫。

re:是正則表達式相比配的字符集合。

BeautifulSoup:解析從HTML或XML文件。

Pandas:Pandas是基于NumPy的工具,可以解決數(shù)據(jù)分析問題。Pandas中

的功能和方法使我們能夠快速舒適地處理數(shù)據(jù)。

Matplotlib:Matplotlib是一個流行的庫,可以上傳照片、分布圖像、圖

標、灰色圖像和3D圖像。Matplotlib的庫專門用于開發(fā)2D圖表,它是Python

2D攝影領域最大的用途。它允許用戶使用圖標使數(shù)據(jù)更容易,并提供不同的格

式。

Pyecharts:相對于Matplotlib更為簡便輕捷。

Numpy:為Python提供高級的數(shù)學算法。

2

湖南商務職業(yè)技術學院畢業(yè)設計

2需求分析

2.1可行性需求分析

1.技術可行性

Python從2015年開始興起,目前Python崗位超越Java、Web前端等崗位。

除此之外,Python語言的精簡可以說是Java語言很難與之相比的,所以從初學

者角度來看Python更通俗易懂,同時Python擁有更強大的框架。

2.社會可行性

現(xiàn)如今中國市場的流動性大,互聯(lián)網(wǎng)小說正在逐步代替大部分的紙質(zhì)小說,

越來越多的人依賴互聯(lián)網(wǎng)小說。在此背景下,互聯(lián)網(wǎng)小說也在一步步走向商業(yè)

化。在此基礎下,可以通過我所分析的數(shù)據(jù)來對互聯(lián)網(wǎng)上的小說網(wǎng)進行更進一

步的了解,同時也可以為讀者在網(wǎng)站上選取自己喜愛的小說時做一個簡單的參

考。

2.2采集目標功能分析

此次項目的數(shù)據(jù)集來源于七貓小說文學網(wǎng),是通過Python爬取七貓小說網(wǎng)

的數(shù)據(jù)信息。一共爬取50頁的數(shù)據(jù)信息,數(shù)據(jù)清洗后共736條記錄,以此盡可

能保證數(shù)據(jù)可靠性。

本次爬取七貓小說文學網(wǎng)主要獲得了以下信息:書本信息、作者創(chuàng)作時間、

創(chuàng)作作品的字數(shù)、書本的熱力值、書本的評分、閱讀人數(shù)以及書本的類別等。

通過我所爬取的實際數(shù)據(jù)來分析出七貓小說文學網(wǎng)中的所有屬性。也就是說我

們可以通過書本的信息來確認這本書是否為我們所需要的;通過作者創(chuàng)作時間

的長短來確認作者所花的心血;通過書本的熱力值來確認書本在此網(wǎng)站的知名

度、閱讀者的喜愛程度;通過書本評分來了解這本書在閱讀者心里的滿意度以

及書本在網(wǎng)站的地位;可以通過閱讀人數(shù)來確認書本的知名度、熱度等等。

2.3關鍵技術分析

2.3.1網(wǎng)絡爬蟲技術

在大數(shù)據(jù)的時代影響下,數(shù)據(jù)變得繁多且籠長,清理這些沒用的數(shù)據(jù)單靠

人力是遠遠不夠的,人力清洗數(shù)據(jù)不僅效率低、錯誤率高,而且成本也是相當

的大,為了解決這些問題,網(wǎng)絡爬蟲就隨之孕育而生了。

3

湖南商務職業(yè)技術學院畢業(yè)設計

網(wǎng)絡爬蟲是指按照一定的規(guī)則,抓取網(wǎng)頁的程序,然后對爬取的網(wǎng)頁進行

儲存。網(wǎng)絡爬蟲的原理是先從我們要爬取的網(wǎng)頁中找到網(wǎng)頁的URL,然后用URL

進行網(wǎng)頁的解析,如果解析完的URL還可以提取URL的話,我們就可以繼續(xù)用

提取后的URL繼續(xù)進行網(wǎng)頁解析。

網(wǎng)絡爬蟲分為傳統(tǒng)爬蟲和聚焦爬蟲:傳統(tǒng)爬蟲是指不斷從當前頁面上抽取

新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件,然后進行數(shù)據(jù)的保存;聚

焦爬蟲是指根據(jù)自己的要求來爬取數(shù)據(jù)并保存。網(wǎng)絡爬蟲的相關技術信息:反

爬蟲技術是指防止別人爬蟲自己網(wǎng)站而采取保護措施;反反爬蟲技術是指破解

反爬蟲技術,然后解析數(shù)據(jù)并保存;IP代理:相當于我們的一張名片,我們用

這張名片進行操作解析,一旦IP被反爬蟲封鎖則需要換一IP代理;Roboot協(xié)

議:也叫“君子協(xié)議”是指為了防止自己的網(wǎng)站被爬取而制定的協(xié)議,但是該

協(xié)議只是口頭協(xié)議,并不能采取強制措施;Ues-anget:是指網(wǎng)頁的身份標識,

用于網(wǎng)絡爬蟲解析。

2.3.2文件存取技術

當我們爬取數(shù)據(jù)之后我們就必須對數(shù)據(jù)進行保存,只有當我們保存好數(shù)據(jù)

之后才可以進行數(shù)據(jù)的清洗和處理。

Json文件處理數(shù)據(jù):是一種輕量級的數(shù)據(jù)處理方式,它獨立于編程的文本

格式來儲存數(shù)據(jù)。

csv文件儲存:我們通過Python代碼實現(xiàn)csv文件儲存,用Excel來查看

數(shù)據(jù)。

TXT文件儲存:用文本文件來查看數(shù)據(jù)。

MySQL數(shù)據(jù)庫存儲:是非常常見的Python關系型儲存數(shù)據(jù)庫。

我們采取的是csv文件的儲存方式,如圖2-1顯示。

圖2-1Python內(nèi)置方法

Pandas讀取csv文件方法如2-2所示。

4

湖南商務職業(yè)技術學院畢業(yè)設計

圖2-2Pandas模塊方法

2.3.3可視化技術

可視化是指我們將數(shù)據(jù)以圖形的方式來表達,以便于我們觀察數(shù)據(jù)信息。

探索式可視化庫包括:Matplotlib庫、Seaborn庫、Pyecharts庫、Missingno

庫。

Matplotlib庫:是基礎的Python可視化庫,繪圖功能十分強大。

Seaborn庫:是在Matplotlib庫的基礎上創(chuàng)建的,但是相對于Matplotlib

庫語法更為簡潔,作為Matplotlib庫的補充而不是代替物。

Pyecharts庫:實現(xiàn)Echarts與Python的對接,方便在Python中使用

Echarts圖表。

Missingno庫:可以通過使用視覺摘要來快速評估數(shù)據(jù)集的完整性。

交互式可視化庫包括:Ggplot庫、Plotly庫、Bokeh庫等

Ggplot庫:對組件進行分層以創(chuàng)建完整的繪圖。

Plotly庫:提供了一些在大多數(shù)庫中沒有的圖表,如等高線圖、樹狀圖和3D

圖表,它是一個高級的聲明性圖表庫。

Bokeh庫:支持流媒體和實時數(shù)據(jù),可以在Web瀏覽器中實現(xiàn)美觀的視覺效

果。

3數(shù)據(jù)采集

3.1采集頁面分析

打開QQ瀏覽器,搜索七貓小說文學網(wǎng),在導航欄類中找到并點擊書庫。

如圖3-1所示,由圖可知,該頁面的URL為:

/shuku/a-a-a-a-a-a-a-dick-1/;然后點擊頁面下方的

分頁按鈕,同時觀察URL,發(fā)現(xiàn)URL隨著頁碼改變發(fā)生變化,其變化為URL中

“dick-”后面的數(shù)字隨頁碼改變變化為新的頁碼,如圖3-2所示。

5

湖南商務職業(yè)技術學院畢業(yè)設計

圖3-1數(shù)據(jù)網(wǎng)址頁面1

圖3-2數(shù)據(jù)網(wǎng)址頁面2

右擊鼠標,點擊檢查選項調(diào)出開發(fā)者工具,刷新頁面,利用全局搜索工具

定位所需數(shù)據(jù)位置,在右側選擇Network,刷新頁面,點擊第一個文件,即可顯

示網(wǎng)址的URL、頭部信息、請求以及網(wǎng)址的Cookie。如圖3-3所示。通過圖3-3

我們得知:這是一個Get請求,Use-Anget為:Mozilla/5.0(WindowsNT10.0;

WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/77.0.3865.120

Safari/537.36Core/00QQBrowser/10.9.4624.400。

圖3-3頭部信息

6

湖南商務職業(yè)技術學院畢業(yè)設計

3.2字段分析

點擊檢查中的選中按鈕,選擇所要爬取的數(shù)據(jù)然后選擇我們要爬取的數(shù)據(jù)

點擊鼠標右鍵進行Xpath的復制用于解析網(wǎng)頁,如圖3-4所示。

圖3-4選取數(shù)據(jù)

3.3編程實現(xiàn)

導入所需庫,如圖3-5所示。

圖3-5導入所需庫

數(shù)據(jù)以csv形式進行保存,代碼如圖3-6所示。

圖3-6保存文件

用Get請求調(diào)取頭部信息、Cookie,用代碼爬取前50頁前15本書的數(shù)據(jù)

信息,包括:書名、作者名、評分、熱力值、閱讀人數(shù)、作者作品數(shù)、作者總

字數(shù)、書本標簽、創(chuàng)作時長以及書本簡介,然后保存在qimao_data.csv文件中,

7

湖南商務職業(yè)技術學院畢業(yè)設計

代碼如圖3-7所示。

圖3-7爬取網(wǎng)頁數(shù)據(jù)

4數(shù)據(jù)清洗與處理

在計算能力越來越強大的時代下,數(shù)據(jù)也逐漸成為最具有價值的資產(chǎn)之一。

無論是對大大小小的公司還是我們個人來說,數(shù)據(jù)給我們帶來的價值永遠是不

可估量的。也正是這個原因,隨著數(shù)據(jù)的挖掘,在我們利用數(shù)據(jù)的同時也會殘

留一些數(shù)據(jù)垃圾,也由于數(shù)據(jù)量過大過多,也會造成數(shù)據(jù)的不準確和不一致。

因此我們利用機器進行數(shù)據(jù)的清洗是十分有必要的,糾正錯誤數(shù)據(jù)和修復不完

整數(shù)據(jù)以及整理數(shù)據(jù),使得我們在查看數(shù)據(jù)的時候更加方便。

4.1數(shù)據(jù)清洗

導入庫,如圖4-1所示。

圖4-1導入庫

讀取qimao_data.csv文件,然后對文件進行去重,如圖4-2所示。

圖4-2讀取文件并去重

8

湖南商務職業(yè)技術學院畢業(yè)設計

4.2數(shù)據(jù)儲存

Python數(shù)據(jù)的儲存分為三種儲存方式:

第一種是文件儲存的方式:TXT文件儲存、JSON文件儲存、csv文件儲存

第二種是關系型數(shù)據(jù)庫:有MySQL等數(shù)據(jù)庫

第三種是非關系型數(shù)據(jù)庫:Mongodb等數(shù)據(jù)庫

現(xiàn)在我所使用的是to_csv()文件儲存的方式來保存數(shù)據(jù),編碼方式為gbk,

如圖4-3所示。

圖4-3保存文件

4.3編程實現(xiàn)

對qimao_data.csv文件進行分析,我們抽取書本字數(shù)、書本熱力值、書本

評分、書本標簽、作者創(chuàng)作時間以及閱讀人數(shù)的前十個數(shù)據(jù)進行抽樣分析;并

將數(shù)據(jù)進行保存,如圖4-4,圖4-5所示。

圖4-4分析數(shù)據(jù)

9

湖南商務職業(yè)技術學院畢業(yè)設計

圖4-5分析數(shù)據(jù)

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準備

導入庫,如圖5-1所示。

圖5-1導入庫

導入保存好的書本標簽文件,進行數(shù)據(jù)的清洗畫圖,然后將圖畫保存在網(wǎng)

頁中,如圖5-2所示。

10

湖南商務職業(yè)技術學院畢業(yè)設計

圖5-2繪畫餅圖

導入儲存好的書本前十字數(shù)最長的文件,進行繪圖分析,然后將繪圖結果

顯示在網(wǎng)頁中,如圖5-3所示。

圖5-3繪畫柱狀圖

導入書本熱力值的文件,進行詞云圖的繪畫,然后保存在網(wǎng)頁中,如圖5-4

所示。

11

湖南商務職業(yè)技術學院畢業(yè)設計

圖5-4繪畫詞云圖

導入書本評分最高的十本書文件,進行柱狀圖繪圖統(tǒng)計,然后保存在網(wǎng)頁

中,如圖5-5所示。

圖5-5繪畫柱狀圖

導入作者創(chuàng)作時長前十的文件,進行折線圖繪圖分析,然后保存在網(wǎng)頁中

顯示,如圖5-6所示。

圖5-6繪畫折線圖

導入閱讀人數(shù)前十的文件,進行折線圖繪圖分析,然后保存在網(wǎng)頁中顯示,

如圖5-7所示。

12

湖南商務職業(yè)技術學院畢業(yè)設計

圖5-7繪畫折線圖

將這些圖形都保存在同一網(wǎng)頁當中,如圖5-8所示。

圖5-8保存網(wǎng)頁

5.2數(shù)據(jù)展示

5.2.1根據(jù)類別對小說進行數(shù)據(jù)的統(tǒng)計與分析

運行出來的圖像為圖5-9所示。

13

湖南商務職業(yè)技術學院畢業(yè)設計

圖5-9主流小說類型占比統(tǒng)計分析餅狀圖

隨著時代的發(fā)展,現(xiàn)代小說創(chuàng)作中的類別愈演愈烈,這是文化多樣化共同

發(fā)展的結果,也是當前社會階層分化的表現(xiàn)。在我們閱讀一本書的時候,特別

是小說類字數(shù)比較多的情況下,我們大多數(shù)閱讀者都會采用快速閱讀來掃視是

本的信息,所以書本的分類標簽就相當于一本書的名片,閱讀者往往從類別中

就能判斷這本書書否為自己感興趣的書籍;同時書本標簽的多樣化也為閱讀者

提供了挑選的引導,提高閱讀者尋找自己心儀小說的效率;每個類別的小說也

有每個類別的閱讀方式,就比如說一些虛擬故事情節(jié)的小說,我們可以快速閱

讀,節(jié)約我們時間的同時有達到了閱讀的目的,一些講述生活常識、科普類的

小說,我們就可以仔細閱讀,加深印象,以便于日后可能會使用到。搭建分類

系統(tǒng)體系是十分有必要的。

我爬取的小說分類數(shù)據(jù),上圖所示;在所有類別中現(xiàn)代言情標簽的小說最

多,說明現(xiàn)代作家以現(xiàn)代言情為題材撰寫小說最多;總裁豪門,近段時間以總

裁豪門的故事情節(jié)的電視劇收視率不斷增加,直接把相當一部分的作者吸引寫

作小說,是近期不斷增長的類別小說;第二是都市人生,這一類小說大多貼近

生活,給人營造一種身臨其境的感覺,讓閱讀者看了也不會怎么感覺到膩,有

一種貼切感,因此都市人生系類的小說占比占比一直都會這么高;接著就是古

代言情,言情小說系列大多為年輕女性所喜愛追捧,加上疫情防控下封校的女

大學生閑暇時間多用閱讀小說,所以言情類小說也占比較高;緊接著就是大多

14

湖南商務職業(yè)技術學院畢業(yè)設計

為男生喜愛的玄幻類小說,此類小說腦洞較大,題材奇幻新穎,能夠引起讀者

的閱讀興趣;剩下的幾類小說占比都在2%到3.5%左右,這些類別的小說相對來

說比較的枯燥乏味所以瀏覽的的讀者較少自然這類小說的出產(chǎn)也較少占比也就

少了。綜上所述,小說類別的占比多少取決于受眾群體的范圍以及讀者的喜愛

程度。

5.2.2根據(jù)根據(jù)字數(shù)來對比統(tǒng)計數(shù)據(jù)

運行出來的圖像為圖5-10所示。

圖5-10總字數(shù)最長的十本書統(tǒng)計分析條形圖

一部長篇小說是否能夠受讀者青睞,能否得已流傳,其實并不在于它字數(shù)

的多少,而在于它的質(zhì)量,這是讀者和作者所公認的。但如果只是敘述一個人

物,敘述一場感情,敘述一個時代的巨變;這在過去是可以成為一部熱門作品

的,可是隨著文學作品的逐漸疊加,讀者和消費者的逐漸分化,寫作所承擔的

取樣人類精神和心理的任務也在逐漸增加。一部好的作品中,作者應該也有說

不完的故事和豐富的情感,就連莫言也曾在作品里提到“長篇就是要往長里

寫”,我們也可以從一部作品的字數(shù)中看出作者在這部作品中所注入的靈感和

時間,字數(shù)的多少也體現(xiàn)了這部小說內(nèi)容的得蕩起伏,當然也不排除一些爛尾

的小說,為了字數(shù)而湊流水賬。所以一片篇優(yōu)質(zhì)的長篇小說是需要作者付出不

少心血的。當代小說作者對于小說問題的思考沒有因為市場化和電子閱讀的沖

擊而停滯不前,這對于現(xiàn)如今漸離盛景的小說行業(yè)來說是希望之所在。

15

湖南商務職業(yè)技術學院畢業(yè)設計

在我所爬取的小說總字數(shù)數(shù)據(jù)中可以看到總字數(shù)最長的十本小說中,最長

的兩本小說《玄龍戰(zhàn)神》和《都市極品仙帝》達到了將近900萬字;其次則是

《逍遙小仙女》總字數(shù)有760.2萬字;《萌寶來襲爸比九塊九》、《絕品小神

醫(yī)》和《六欲仙緣》這三本小說也都有500萬字以上,剩下四本小說也都有4000

萬字以上。這十本小說分別屬于都市人生類、豪門總裁類、古代言情類和玄幻

奇幻類,這幾類小說在主流小說類型占比中也是占比較高的幾個類別。所以高

品質(zhì)的小說是擁有“濃度”的,不僅有大量的文字累積也有豐富多情感寄托。

5.2.3根據(jù)閱讀者搜索熱力值來對比

運行出來的圖像為圖5-11所示。

圖5-11小說熱力值統(tǒng)計分析詞云圖

一本書的熱力值代表的這本書的熱度,點擊率越高書本被閱讀者的關注力

度越大;點擊率(熱力值)越高,書本的影響力也越大,從側面反映出書本的

類型在符合大部分閱讀者的口味,也符合大部分閱讀者的審美等等;

通過解析出來的數(shù)據(jù)我們得知,《難纏》、《醫(yī)門千金帥炸了》、《毒妃

在上邪王寵妻無度》、《腹黑萌寶高冷爹》、《都市藥王醫(yī)仙》、《謀她之年》

這幾本小說的熱力值遠遠大于其他小說,說明這幾本小說無論從內(nèi)容題材、故

事情節(jié)都是特別符合小說閱讀者的胃口,也反映出作者所花費的心血也是非比

常人的,以及作者本身自帶的人氣才擁有如此之多的熱力值。

5.2.4根據(jù)分數(shù)對小說數(shù)據(jù)的分析

運行出來的圖像為圖5-12所示。

16

湖南商務職業(yè)技術學院畢業(yè)設計

圖5-12小說評分統(tǒng)計分析柱狀圖

小說的評分代表著小說的質(zhì)量,一部好的小說評分一定不會低;評分不僅

僅代表小說的身份地位,還是小說增加知名度最有力的憑證。

小說的評分也是小說價值的體現(xiàn),閱讀者對這本書的滿意度越好,評分會

給的更換高;評分就是小說各個方面的綜合評估對小說具有深遠意義。

通過上圖我們得知:《竹匠》的評分最高達到9.8分,說明這本小說在此

網(wǎng)站中是大多數(shù)閱讀者最滿意的一本小說,小說內(nèi)容也是大眾所喜歡的題材、

說明作者善于觀察閱讀者的心思;《我的少年班》、《擁抱星星的太陽》、《IP

殺手與鴿子精》、《云霄之眼》這幾本小說評分都為9.7分,說明他們這幾本

小說無論是題材還是內(nèi)容在大眾的眼里都是還不錯的;下面的小說以此類推。

5.2.5根據(jù)作者創(chuàng)作的時長對小說數(shù)據(jù)的分析

運行出來的圖像為圖5-13所示。

17

湖南商務職業(yè)技術學院畢業(yè)設計

圖5-13作者創(chuàng)作時長統(tǒng)計分析柱狀圖

一般情況下,作者創(chuàng)作時長往往與他是否看重這本小說、小說的質(zhì)量、作

者花費的心血都成正比;同時創(chuàng)作時長越多也反映出作者的一個創(chuàng)作水平,在

小說質(zhì)量好的前提下,花的時間越長,作者寫作效率越低,反之則效率越高。

通過上圖我們得知:《淮陰小侯》的創(chuàng)作時長最長,但是在評分以及閱讀

人數(shù)上不在上游水平,說明雖然作者創(chuàng)作時長最長,但由于作者創(chuàng)作的效率低

小,造成小說知名度低,不被人看好;其余前十名單全部都是這一情況,這些

小說的作者都需要自我反思,尋找靈感以及多在網(wǎng)上也閱讀者互動,以便于提

升后續(xù)作品的人氣以及知名度。

5.2.6根據(jù)閱讀人數(shù)對小說數(shù)據(jù)的分析

運行出來的圖像為圖5-14所示。

18

湖南商務職業(yè)技術學院畢業(yè)設計

+

圖5-14閱讀人數(shù)統(tǒng)計分析柱狀圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論