基于python的九酷音樂網(wǎng)站數(shù)據(jù)采集與分析_第1頁
基于python的九酷音樂網(wǎng)站數(shù)據(jù)采集與分析_第2頁
基于python的九酷音樂網(wǎng)站數(shù)據(jù)采集與分析_第3頁
基于python的九酷音樂網(wǎng)站數(shù)據(jù)采集與分析_第4頁
基于python的九酷音樂網(wǎng)站數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言............................................................................................................................1

1.1項(xiàng)目背景......................................................................................................2

1.2開發(fā)環(huán)境與工具..........................................................................................2

1.2.1Python簡介..........................................................................................2

1.2.2Pycharm簡介........................................................................................3

1.2.3JupyterNotebook簡介......................................................................3

2需求分析....................................................................................................................4

2.1可行性需求分析..........................................................................................4

2.2采集目標(biāo)功能分析......................................................................................5

2.3關(guān)鍵技術(shù)分析..............................................................................................6

2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................6

2.3.2文件存取技術(shù).......................................................................................7

2.3.3可視化技術(shù)...........................................................................................8

3數(shù)據(jù)采集....................................................................................................................9

3.1采集頁面分析..............................................................................................9

3.2字段分析....................................................................................................11

3.3編程實(shí)現(xiàn)....................................................................................................12

4數(shù)據(jù)清洗與處理......................................................................................................14

4.1數(shù)據(jù)清洗....................................................................................................15

4.2數(shù)據(jù)儲存....................................................................................................18

4.3編程實(shí)現(xiàn)....................................................................................................19

5數(shù)據(jù)統(tǒng)計(jì)與分析......................................................................................................20

5.1數(shù)據(jù)準(zhǔn)備....................................................................................................20

5.2數(shù)據(jù)展示....................................................................................................21

5.2.1依據(jù)歌手進(jìn)行統(tǒng)計(jì).............................................................................22

5.2.2依據(jù)評分分布進(jìn)行統(tǒng)計(jì).....................................................................22

5.2.3根據(jù)歌手上榜的歌曲量統(tǒng)計(jì)和分析.................................................24

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.3綜述............................................................................................................25

6小結(jié)..........................................................................................................................25

參考資料.........................................................................................................................26

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

基于Python的九酷音樂網(wǎng)站數(shù)據(jù)采集與分析

1引言

近年來,音樂排行榜已成為了人們獲取音樂信息的主要途徑之一,越來越

多的人關(guān)注和使用這些數(shù)據(jù)。而從大數(shù)據(jù)的角度來看,音樂排行榜數(shù)據(jù)也是一

種重要的數(shù)據(jù)資源。下面從以下幾個(gè)方面,探討音樂排行榜數(shù)據(jù)與大數(shù)據(jù)的聯(lián)

系。

首先,音樂排行榜數(shù)據(jù)包含了海量的音樂信息,這些信息具有很大的數(shù)據(jù)

量。對于大數(shù)據(jù)的相關(guān)研究與應(yīng)用,需要具有大規(guī)模、高維度和復(fù)雜變量的數(shù)

據(jù)資源。而音樂排行榜數(shù)據(jù)恰好符合這個(gè)特點(diǎn),可以被看作是一種典型的大數(shù)

據(jù)樣本。

其次,音樂排行榜數(shù)據(jù)為大數(shù)據(jù)的建模與分析提供了有價(jià)值的數(shù)據(jù)少量。

在音樂行業(yè)中,有著大量的數(shù)據(jù)處理需求,音樂銷售、用戶分析、用戶喜好等

各種業(yè)務(wù)都需要基于大數(shù)據(jù)的分析來實(shí)現(xiàn)。而音樂排行榜數(shù)據(jù)恰好涵蓋了音樂

銷售、用戶喜好等各種相關(guān)信息,可以為這些分析提供數(shù)據(jù)基礎(chǔ)。

此外,音樂排行榜數(shù)據(jù)也為大數(shù)據(jù)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)提供了可靠的數(shù)

據(jù)基礎(chǔ)。在當(dāng)今人工智能與大數(shù)據(jù)日益緊密聯(lián)系的背景下,機(jī)器學(xué)習(xí)和深度學(xué)

習(xí)技術(shù)被廣泛應(yīng)用于音樂情感識別、音樂分類等領(lǐng)域。而音樂排行榜數(shù)據(jù)包含

了大量的音樂樣本,可以為這些技術(shù)提供可靠的數(shù)據(jù)基礎(chǔ),支撐模型的訓(xùn)練和

應(yīng)用。

最后,大數(shù)據(jù)技術(shù)也可以為音樂排行榜數(shù)據(jù)的分析和應(yīng)用提供幫助。大數(shù)

據(jù)技術(shù)在數(shù)據(jù)存儲、處理與分析方面,具有突出的優(yōu)勢。音樂排行榜數(shù)據(jù)經(jīng)過

大數(shù)據(jù)技術(shù)的處理和分析,可以獲得更多的有價(jià)值信息。例如,可以基于音樂

排行榜數(shù)據(jù),搭建推薦系統(tǒng),提供精準(zhǔn)的歌曲推薦服務(wù),或者基于用戶喜好數(shù)

據(jù),進(jìn)行用戶畫像,實(shí)現(xiàn)更有針對性的音樂推送等等。

綜上所述,音樂排行榜數(shù)據(jù)與大數(shù)據(jù)有著廣泛的聯(lián)系與應(yīng)用。它為大數(shù)據(jù)

領(lǐng)域提供了可靠的數(shù)據(jù)資源,同時(shí)大數(shù)據(jù)技術(shù)也可以為音樂排行榜數(shù)據(jù)的分析

與應(yīng)用提供幫助。這種聯(lián)系與合作關(guān)系必將推動音樂產(chǎn)業(yè)與大數(shù)據(jù)領(lǐng)域的發(fā)展,

創(chuàng)造出更多的商業(yè)與社會價(jià)值。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

1.1項(xiàng)目背景

隨著互聯(lián)網(wǎng)和數(shù)字化技術(shù)的不斷發(fā)展,音樂排行榜已成為一個(gè)熱門的網(wǎng)站

類型,它能夠向用戶展示最受歡迎的音樂作品和藝術(shù)家,從而幫助用戶了解當(dāng)

前流行音樂的發(fā)展趨勢。對于音樂愛好者而言,他們可以通過音樂排行榜快速

地發(fā)現(xiàn)最新、最熱門的音樂作品,并與其他音樂愛好者交流分享相同的音樂喜

好和經(jīng)驗(yàn)。

而在當(dāng)今數(shù)字化時(shí)代,數(shù)據(jù)分析已經(jīng)成為各行各業(yè)的重要分析工具。音樂

排行榜數(shù)據(jù)也不例外,它能夠幫助從事音樂、媒體、廣告和營銷等領(lǐng)域的專業(yè)

人士深入了解音樂市場的趨勢和規(guī)律,進(jìn)而進(jìn)行市場推廣和銷售策略的制定,

提高商業(yè)收益和競爭力。

因此,本次畢業(yè)設(shè)計(jì)的主要目的是基于Python語言針對九酷音樂排行榜網(wǎng)

站的數(shù)據(jù)采集與分析,使用爬蟲技術(shù)獲取音樂排行榜的排名、歌名、歌手名、

評分以及好評率這些數(shù)據(jù),爬取后對數(shù)據(jù)進(jìn)行清洗、存儲、可視化和數(shù)據(jù)分析,

從而幫助大家更好地了解當(dāng)前音樂市場的熱點(diǎn)和趨勢,同時(shí)提高他們對音樂收

聽習(xí)慣和品味的審美水平。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python是一種簡單而優(yōu)雅的編程語言,具有易讀易寫、表達(dá)力強(qiáng)等特點(diǎn)。

它同時(shí)也是一種解釋型語言,因此不需要編譯就可以運(yùn)行。Python的庫和框架

非常豐富,適用于Web開發(fā)、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)等眾多領(lǐng)域。Python因其便

利性和廣泛應(yīng)用而成為音樂排行榜網(wǎng)站數(shù)據(jù)采集和分析的常用工具。

對于音樂排行榜網(wǎng)站數(shù)據(jù)采集,Python有許多庫和工具可供使用。最常用

的是Requests庫,該庫可用于從網(wǎng)頁中獲取HTML代碼,并將其解析為可操作

的Python對象。此外,etree和re等庫還能夠有效地實(shí)現(xiàn)網(wǎng)站數(shù)據(jù)抓取和處理。

Python還擁有一些易于使用的數(shù)據(jù)分析庫,例如Pandas和NumPy。這些庫

可以幫助將大量數(shù)據(jù)轉(zhuǎn)換為易于處理的格式,方便數(shù)據(jù)分析和可視化。

Matplotlib和Pyecharts等可視化庫還能夠?qū)?shù)據(jù)呈現(xiàn)出來,更直觀地展示數(shù)

據(jù)分析結(jié)果。

在使用Python進(jìn)行音樂排行榜網(wǎng)站數(shù)據(jù)采集和分析時(shí),需要了解一些基本

的Python知識和相關(guān)的庫和工具。Python的易學(xué)易用特性使其成為一種理想的

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

語言,可以通過在線教程和Python社區(qū)來快速入門和提高編程水平。

以下是本次畢設(shè)相關(guān)的Python第三方庫介紹:

Requests:簡潔易用,用于HTTP協(xié)議訪問和網(wǎng)絡(luò)爬蟲。

Re:提供了多種字符串匹配方法,用于正則表達(dá)式解析和處理。

Csv:內(nèi)置的模塊,能夠讀寫csv和txt格式數(shù)據(jù)。

NumPy:能高效處理數(shù)據(jù)類型相同的多維數(shù)組,優(yōu)于Python自帶的數(shù)據(jù)結(jié)

構(gòu)。

Pandas:基于NumPy的高層次應(yīng)用庫,提供易用的數(shù)據(jù)結(jié)構(gòu)和分析工具。

Matplotlib:用于二維繪圖的庫,包括折線圖、條形圖、扇形圖、散點(diǎn)圖

和直方圖等。

1.2.2Pycharm簡介

Pycharm是一款非常流行的Python集成開發(fā)環(huán)境(IDE),可以幫助開發(fā)者

更輕松、高效地編寫Python代碼。它具有許多實(shí)用的工具和功能,例如自動完

成、語法高亮、代碼搜索、代碼重構(gòu)等等,這些都可極大地提高編程效率。

與Pycharm聯(lián)系到爬取九酷音樂排行榜數(shù)據(jù),可以考慮使用Python的爬蟲

庫Xpath和正則表達(dá)式進(jìn)行網(wǎng)頁數(shù)據(jù)抓取,并將抓取到的音樂排行榜數(shù)據(jù)存儲

到txt文件中。

在Pycharm中,可以安裝爬蟲相關(guān)的Python庫,然后創(chuàng)建一個(gè)新的Python

項(xiàng)目,編寫相應(yīng)的代碼,就可以實(shí)現(xiàn)爬取九酷音樂排行榜數(shù)據(jù)的功能了,然后

通過Python再帶的文件存儲方式將獲取到的數(shù)據(jù)存到txt文件中。

最后,再通過安裝可視化技術(shù)的相關(guān)Python庫,編寫相應(yīng)的代碼,就可以

實(shí)現(xiàn)將爬取九酷音樂排行榜數(shù)據(jù)進(jìn)行圖表展示。

1.2.3JupyterNotebook簡介

爬取九酷音樂排行榜數(shù)據(jù)與JupterNotebook密切相關(guān)。JupterNotebook

是一種工具,可以在其中編寫和運(yùn)行Python代碼,并可創(chuàng)建和共享文檔,其中

可以包括代碼、圖表、文本和多媒體元素。

JupyterNotebook是一款非常流行的開源交互式筆記本程序,它能夠讓用

戶以一種更加直觀、易于理解的方式編寫Python代碼,進(jìn)行數(shù)據(jù)分析和可視化

操作,因此在數(shù)據(jù)清洗上也非常實(shí)用。獲取音樂排行榜數(shù)據(jù)后的數(shù)據(jù)清洗也是

需要用到Python代碼。

首先,需要將九酷音樂排行榜數(shù)據(jù)導(dǎo)入到JupyterNotebook中。這個(gè)過程

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

可以使用Python中的Pandas庫來實(shí)現(xiàn),Pandas庫提供了一些工具,可以方便

地讀取和處理各種格式的數(shù)據(jù),例如CSV、Excel、HTML等。在JupyterNotebook

中,可以把它們導(dǎo)入為數(shù)據(jù)幀,然后進(jìn)行清洗。例如,可以讀取一個(gè)txt文件

格式的音樂排行榜數(shù)據(jù),并將它轉(zhuǎn)換為Pandas中的數(shù)據(jù)幀,核心代碼如下。

importpandasaspd

df=pd.read_csv(r'D:\Desktop\9酷音樂畢業(yè)設(shè)計(jì)

\t_new_ranking.txt',sep='\t',engine='python',encoding='utf_8_sig')

接下來,可以查看一下這個(gè)數(shù)據(jù)幀的前幾行,以便了解數(shù)據(jù)的結(jié)構(gòu)。這時(shí)

候就可以對這個(gè)數(shù)據(jù)進(jìn)行清洗,刪除重復(fù)值、異常值、缺失值等。例如,有些

行可能會出現(xiàn)空值,可以使用Pandas的dropna()方法直接刪除這些行。

接下來對于數(shù)據(jù)進(jìn)行更加細(xì)致的清洗和整理,例如,可以將某些數(shù)據(jù)轉(zhuǎn)換

成指定的數(shù)據(jù)類型,或者將某些字段進(jìn)行分割和合并。例如,如果的數(shù)據(jù)中含

有歌曲的完整名稱和歌手的名稱,可以使用Pandas中的split()方法對這些字

段進(jìn)行分割。

最后,在完成清洗之后,可以將清洗后的數(shù)據(jù)保存為txt格式或者其他格

式,以便后續(xù)分析和可視化。

綜上所述,JupyterNotebook可以很好地與數(shù)據(jù)清洗進(jìn)行聯(lián)系。Jupyter

Notebook提供了一種交互式的、可重復(fù)的數(shù)據(jù)分析環(huán)境。使用Python的數(shù)據(jù)處

理庫(例如Pandas)可以輕松地清洗、整理和轉(zhuǎn)換數(shù)據(jù),使數(shù)據(jù)變得更加容易

理解和可視化。因此,JupyterNotebook和數(shù)據(jù)清洗之間具有密切的聯(lián)系,可

以通過編寫Python代碼來自動化處理數(shù)據(jù)。

2需求分析

2.1可行性需求分析

(1).目標(biāo)需求分析

首先,需要明確在爬取音樂排行榜數(shù)據(jù)的過程中要實(shí)現(xiàn)的目標(biāo)。這可能包

括要從哪些網(wǎng)站獲取數(shù)據(jù),要獲取哪些數(shù)據(jù)(比如歌曲名稱、歌手、播放次數(shù)

等),以及如何將這些數(shù)據(jù)清洗、整理和保存等。

(2).技術(shù)可行性分析

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

為了成功地實(shí)現(xiàn)爬取音樂排行榜數(shù)據(jù)的目標(biāo),需要確保所選用的技術(shù)和工

具都是可行的。這可能包括使用Web爬蟲技術(shù),如爬蟲框架BeautifulSoup

等,以及了解如何在Python中使用pandas、numpy和matplotlib等數(shù)據(jù)處理

和可視化工具。

(3).數(shù)據(jù)獲取可行性分析

爬取音樂排行榜數(shù)據(jù)的可行性還取決于數(shù)據(jù)的可訪問性和可獲取性??赡?/p>

需要對數(shù)據(jù)源進(jìn)行調(diào)查,以確定是否有很多網(wǎng)站提供相同或類似的數(shù)據(jù),或者

網(wǎng)站是否允許對其進(jìn)行自動化訪問。需求分析的結(jié)果應(yīng)該反映出能夠獲取的數(shù)

據(jù)量以及數(shù)據(jù)的品質(zhì)等。

(4).法律和道德可行性分析

在爬取音樂排行榜數(shù)據(jù)的項(xiàng)目中,還需要考慮法律和道德可行性。爬取數(shù)

據(jù)可能與網(wǎng)站的服務(wù)條款、數(shù)據(jù)保護(hù)法、版權(quán)法等有沖突,并且可能引起廣泛

的道德和隱私問題。因此,在開始這個(gè)畢業(yè)設(shè)計(jì)之前,首要任務(wù)之一是確保符

合法律和道德準(zhǔn)則,并尊重?cái)?shù)據(jù)隱私。

2.2采集目標(biāo)功能分析

本畢業(yè)設(shè)計(jì)的數(shù)據(jù)集來源于九酷排行榜網(wǎng)站,九酷排行榜上所有歌曲的信

息都是通過Python抓取的。選定的音樂排行榜是2023年歌曲周排行榜和2023

年歌曲月排行榜。獲得的目標(biāo)數(shù)據(jù)是排名、歌曲名稱、歌手、收聽率和支持率。

對獲得的數(shù)據(jù)執(zhí)行重復(fù)數(shù)據(jù)消除、過濾無效信息和格式轉(zhuǎn)換等操作,以生成標(biāo)

準(zhǔn)化的數(shù)據(jù)表。

經(jīng)過數(shù)據(jù)清理,總共有670條記錄。爬取后,盡量檢查數(shù)據(jù)的準(zhǔn)確性,確

保爬取數(shù)據(jù)準(zhǔn)確無誤,屬于九酷音樂實(shí)時(shí)排名歌曲信息。將獲取和處理的數(shù)據(jù)

保存到txt文件中,方便隨時(shí)調(diào)用和使用,用于后續(xù)分析。收集到的數(shù)據(jù)以詞

云圖、柱狀圖和餅圖的形式顯示,方便用戶查看和了解相應(yīng)的音樂排行榜信息。

從多個(gè)維度分析數(shù)據(jù)后,將其可視化,然后對數(shù)據(jù)表提供詳細(xì)的解釋。通

過詞云圖分析九酷音樂周排行榜上每首歌歌手的字段,以得到本周音樂最火的

歌手;可以通過每首歌的評分分布餅圖,分析網(wǎng)站上榜歌曲的評分分布;也可

以通過歌手的上榜歌曲數(shù)制作成柱狀圖來分析排行榜上的流行歌手的上榜歌曲

總數(shù)有多少。

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

隨著音樂的普及以及音樂平臺的崛起,音樂排行榜越來越受到關(guān)注,對于

諸多音樂愛好者而言,排行榜是他們選擇歌曲的重要參考。因此,當(dāng)想要分析

流行歌曲的背后現(xiàn)象和趨勢時(shí),爬取音樂排行榜數(shù)據(jù)成為了一項(xiàng)重要的工作。

爬取音樂排行榜數(shù)據(jù)需要使用網(wǎng)絡(luò)爬蟲技術(shù)。網(wǎng)絡(luò)爬蟲是一種自動化獲取

互聯(lián)網(wǎng)信息的技術(shù),它通過抓取網(wǎng)站上的信息,整理分析數(shù)據(jù),為用戶提供有

用的信息。爬取音樂排行榜數(shù)據(jù)是網(wǎng)絡(luò)爬蟲技術(shù)的一種典型應(yīng)用。

獲取音樂排行榜數(shù)據(jù)需要首先確定爬取的目標(biāo)網(wǎng)站。一般來說,網(wǎng)易云音

樂、QQ音樂、酷狗音樂和九酷音樂等平臺都提供了排行榜功能,這些網(wǎng)站的排

行榜頁面包含了各類熱門歌曲的信息。接著,需要通過代碼模擬網(wǎng)頁的訪問過

程,發(fā)送請求獲取網(wǎng)頁內(nèi)容。在獲取網(wǎng)頁內(nèi)容后,需要利用網(wǎng)頁解析技術(shù)進(jìn)行

數(shù)據(jù)提取,常見的技術(shù)手段包括XPath和正則表達(dá)式。

正則表達(dá)式可以匹配不同的數(shù)據(jù)類型,如字符、字符串、數(shù)字等。它們具

有很強(qiáng)的靈活性,并且引擎的實(shí)現(xiàn)簡潔高效。它可以快速處理大量數(shù)據(jù),并預(yù)

定義為模板,將來可以直接調(diào)用,以實(shí)現(xiàn)代碼重用。除了單字符匹配外,正則

表達(dá)式還可以用于處理字符集,例如匹配包含某些字符的字符串、匹配電子郵

件地址等等。對于在網(wǎng)頁上播放的音樂文件,可以從網(wǎng)頁代碼中提取出其url

地址后,從歌單地址中獲取更詳細(xì)的歌單信息,示例代碼如下。

defget_music_url(url):#獲取歌單地址

data=requests.get(url,headers=headers).text#爬取歌單id

music_ids=re.findall(r'<inputtype="checkbox"value="(.*?)"name="Url"class="check">',

data)

music_urls=['/play/{}.htm'.format(i.strip('@'))foriinmusic_ids]

returnmusic_urls

以上代碼為正則表達(dá)式獲取歌單地址

在進(jìn)行數(shù)據(jù)提取時(shí),可以根據(jù)網(wǎng)頁的HTML結(jié)構(gòu)進(jìn)行信息提取,比如利用

XPath提取出排行榜的名稱、更新時(shí)間、榜單類型等信息,然后再進(jìn)一步提取出

每首歌曲的基本信息,如歌曲名稱、演唱者、專輯名稱、曲目時(shí)長等。為了提

高效率,可以使用多線程技術(shù)進(jìn)行并發(fā)操作,同時(shí)下載多個(gè)歌曲。示例代碼如

下。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

defget_music_info():#獲取歌單歌曲信息

foriinrange(len(music_urls)):

try:

data=requests.get(music_urls[i],headers=headers).text

#print(music_urls[i])

html=etree.HTML(data)

rank=str(i+1)#排名

name=html.xpath('//*[@id="mydiv1"]/div[2]/div[1]/div[1]/h1/text()')[0]#歌名

singer=html.xpath('//*[@id="mydiv1"]/div[2]/div[1]/div[1]/h2/a/text()')[0]#歌手

score=html.xpath('//*[@id="rankNum"]/em/text()')[0]#評分

audience_rate=html.xpath('//*[@id="dingcount"]/text()')[0]#好評率

music_infos.append([rank,name,singer,score,audience_rate])#存儲數(shù)據(jù)

except:

print('歌單網(wǎng)址{}數(shù)據(jù)處理失敗'.format(music_urls[i]))

此外,可以考慮使用技術(shù)手段繞過網(wǎng)站的反爬蟲措施,如設(shè)置隨機(jī)的請求

頭、使用IP代理等??傊?,爬取音樂排行榜數(shù)據(jù)能夠?yàn)樘峁┯袃r(jià)值的數(shù)據(jù)和信

息,使更好地了解音樂市場的趨勢和流行程度。但是要注意在使用網(wǎng)絡(luò)爬蟲時(shí),

要遵守法律法規(guī)及網(wǎng)站的相關(guān)規(guī)定,保護(hù)相關(guān)數(shù)據(jù)的安全和隱私。

2.3.2文件存取技術(shù)

在爬取音樂排行榜數(shù)據(jù)的過程中,通常會使用txt文件進(jìn)行數(shù)據(jù)存儲。這

是因?yàn)閠xt文件具有簡單、通用、易讀易寫等特點(diǎn),同時(shí)也方便后續(xù)的數(shù)據(jù)處

理和分析。以下是爬取音樂排行榜數(shù)據(jù)與txt文件存儲技術(shù)的聯(lián)系:

(1).數(shù)據(jù)格式化存儲

在爬取音樂排行榜數(shù)據(jù)后,需要把數(shù)據(jù)保存到txt文件中。在保存之前,

需要對爬取到的數(shù)據(jù)進(jìn)行格式化處理,保證數(shù)據(jù)格式的一致性和可讀性。這樣

的數(shù)據(jù)格式應(yīng)該具有易讀性、易寫性、易分析性和易擴(kuò)展性。

(2).簡單易讀的文本存儲

txt文件是一個(gè)純文本文件,所以使用txt文件進(jìn)行存儲,具有文件格式簡

單易讀、體積小的優(yōu)點(diǎn)。這些優(yōu)點(diǎn)使得txt文件適合用于存儲中小型文本數(shù)據(jù),

如音樂排行榜數(shù)據(jù)。

(3).大數(shù)據(jù)處理便捷

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

大規(guī)模爬取的音樂排行榜數(shù)據(jù)量非常大,為了方便后續(xù)的分析處理,可以

采用將爬取到的數(shù)據(jù)分割成多個(gè)文件的方法,提高文件的讀寫速度,避免處理

大文件時(shí)出現(xiàn)性能問題。

(4).建立存儲索引

保存音樂排行榜數(shù)據(jù)時(shí),在txt文件中建立索引有利于數(shù)據(jù)的查找和訪問。

通常可以在txt文件中設(shè)置一些分隔符或其他標(biāo)志來區(qū)分不同的數(shù)據(jù),在處理

數(shù)據(jù)時(shí)可以根據(jù)這些標(biāo)志進(jìn)行快速地檢索和讀取數(shù)據(jù)。

(5).系統(tǒng)兼容性良好

txt文件的系統(tǒng)兼容性非常好,不同的操作系統(tǒng)和軟件都可以輕松地讀取和

處理txt文件,無需擔(dān)心數(shù)據(jù)的格式兼容性問題。

總之,爬取音樂排行榜數(shù)據(jù)與txt文件存儲技術(shù)密切相關(guān)。通過合理地使

用txt文件進(jìn)行數(shù)據(jù)存儲,可以方便地存儲、管理和分析爬取到的大量數(shù)據(jù)。

同時(shí),為了保證數(shù)據(jù)的安全性和完整性,也需要選擇合適的存儲方法和技術(shù),

對爬取到的數(shù)據(jù)進(jìn)行規(guī)范化處理和備份。示例代碼如下。

defput_txt(txt_name):#將獲取到的數(shù)據(jù)添加到文件中

withopen(txt_name,'w+',encoding='utf-8')asf1:

foriinmusic_infos:

ifi[-1]=='0'ori[-2]=='0':

continue

forjini:

ifj==i[-1]:

f1.write(j+'\n')

else:

f1.write(j+'\t')

2.3.3可視化技術(shù)

爬取九酷音樂排行榜數(shù)據(jù)是為了更好地理解音樂市場和了解流行趨勢,而

數(shù)據(jù)可視化是將數(shù)據(jù)進(jìn)行圖形化展示的過程,能夠更直觀地呈現(xiàn)數(shù)據(jù),并對數(shù)

據(jù)進(jìn)行更深入的分析和挖掘。因此,爬取音樂排行榜數(shù)據(jù)和數(shù)據(jù)可視化技術(shù)有

著密切聯(lián)系。以下是兩者之間的聯(lián)系:

(1).數(shù)據(jù)來源

數(shù)據(jù)可視化需要有數(shù)據(jù)作為基礎(chǔ),而爬取九酷音樂排行榜數(shù)據(jù)就是提供這

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

些基礎(chǔ)數(shù)據(jù)的途徑之一。通過對九酷音樂排行榜數(shù)據(jù)的爬取,可以獲得大量的

歌曲信息,并進(jìn)行統(tǒng)計(jì)和分析,從而進(jìn)一步探究音樂市場的運(yùn)行規(guī)律。

(2).數(shù)據(jù)處理

數(shù)據(jù)可視化需要對獲取的歌曲排行榜數(shù)據(jù)進(jìn)行規(guī)整和整理,從而使數(shù)據(jù)可

以被有效的繪制成各類圖表和圖形。同樣地,在爬取九酷音樂排行榜數(shù)據(jù)的過

程中,需要對數(shù)據(jù)進(jìn)行規(guī)范化和清洗,以便后續(xù)的可視化處理。

(3).可視化展示

數(shù)據(jù)可視化的最終目的是將數(shù)據(jù)呈現(xiàn)在圖表和圖形中,以便用戶更好地理

解數(shù)據(jù)。爬取九酷音樂排行榜數(shù)據(jù)后,可以通過利用各種可視化工具來展示數(shù)

據(jù),如詞云圖、柱狀圖、餅圖等。

總之,數(shù)據(jù)可視化是對爬取的九酷音樂排行榜數(shù)據(jù)進(jìn)行分析和展現(xiàn)的重要

應(yīng)用場景之一。

3數(shù)據(jù)采集

3.1采集頁面分析

首先,通過谷歌Chrome搜索九酷音樂2023歌曲周排行的官方網(wǎng)頁,然后

找到音樂排行榜的首頁,如圖3-1。

圖3-1數(shù)據(jù)網(wǎng)址頁面圖

然后往下滑動,發(fā)現(xiàn)網(wǎng)站沒有分頁,所以無需分頁爬取歌單地址,如圖

3-2。

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-2數(shù)據(jù)網(wǎng)址頁面圖

按F12調(diào)出開發(fā)者工具,刷新頁面,使用全局搜索工具定位所需的數(shù)據(jù)位

置,單擊開發(fā)人員工具上的Headers字段,分析此請求是什么,然后發(fā)現(xiàn)它是

一個(gè)GET請求,如圖3-3。

圖3-3開發(fā)者工具圖

選擇console,輸入命令“alert(document.lastModified);”,按Enter

鍵并在彈出窗口中記錄時(shí)間。多次刷新網(wǎng)頁,使用相同的輸入,比較彈出時(shí)間,

發(fā)現(xiàn)時(shí)間有所變化,所以為動態(tài)網(wǎng)頁,如圖3-4。

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-4網(wǎng)站彈出時(shí)間其一圖

為了爬取動態(tài)網(wǎng)頁數(shù)據(jù),先選擇點(diǎn)開幾個(gè)歌曲,分析他們的網(wǎng)址源代碼,

經(jīng)對比分析后發(fā)現(xiàn)源網(wǎng)址只有標(biāo)簽中的元素<input>保存了歌單的網(wǎng)址ID值,

而且經(jīng)爬取后不是空值,如圖3-5,3-6。

圖3-5歌單網(wǎng)址ID圖

圖3-6爬取歌單網(wǎng)址ID圖

3.2字段分析

進(jìn)入九酷音樂2023歌曲周排行榜二級歌單網(wǎng)頁,即歌單地址,如圖3-8。

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-7歌單地址圖

打開網(wǎng)站開發(fā)者工具,然后刷新頁面,選擇頁面元素標(biāo)簽的選擇欄,將選

擇欄定位到歌單信息的位置,如圖3-8所示。

圖3-8歌單信息圖

3.3編程實(shí)現(xiàn)

在分析了網(wǎng)站上收集頁面和頁面字段的細(xì)節(jié)后,準(zhǔn)備執(zhí)行編程要求并完成

數(shù)據(jù)收集功能。爬取音樂排行榜數(shù)據(jù)的第一件事就是導(dǎo)入爬取網(wǎng)站所需要的庫,

為爬取網(wǎng)站提供相應(yīng)的庫和方法,核心代碼如下。

importrequests

fromlxmlimportetree

importre

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

為了應(yīng)對網(wǎng)站可能存在的反爬機(jī)制,需要設(shè)置請求頭,模擬瀏覽器進(jìn)行網(wǎng)

站訪問,核心代碼如下。

headers={

'User-Agent':'User-Agent:Mozilla/5.0(WindowsNT6.1)AppleWebKit/537.36(KHTML,

likeGecko)Chrome/63.0.3239.132Safari/537.36'

}

配置網(wǎng)絡(luò)爬蟲的相關(guān)環(huán)境后,開始對網(wǎng)站的數(shù)據(jù)進(jìn)行編程實(shí)現(xiàn),代碼如下。

importrequests

fromlxmlimportetree

importre

headers={

'User-Agent':'User-Agent:Mozilla/5.0(WindowsNT6.1)AppleWebKit/537.36(KHTML,

likeGecko)Chrome/63.0.3239.132Safari/537.36'

}

lis=['t_w_hits','t_hits']#各排行榜網(wǎng)頁url

paihangbang_urls=['/music/{}.htm'.format(i)foriinlis]

txt_names=['t_w_hits_ranking.txt','t_hits_ranking.txt']

defget_music_url(url):#獲取歌單地址

data=requests.get(url,headers=headers).text#爬取歌單id

music_ids=re.findall(r'<inputtype="checkbox"value="(.*?)"name="Url"class="check">',

data)

music_urls=['/play/{}.htm'.format(i.strip('@'))foriinmusic_ids]

returnmusic_urls

defget_music_info():#獲取歌單歌曲信息

foriinrange(len(music_urls)):

try:

data=requests.get(music_urls[i],headers=headers).text

html=etree.HTML(data)

rank=str(i+1)#排名

name=html.xpath('//*[@id="mydiv1"]/div[2]/div[1]/div[1]/h1/text()')[0]#歌名

singer=html.xpath('//*[@id="mydiv1"]/div[2]/div[1]/div[1]/h2/a/text()')[0]#歌

score=html.xpath('//*[@id="rankNum"]/em/text()')[0]#評分

audience_rate=html.xpath('//*[@id="dingcount"]/text()')[0]#好評率

music_infos.append([rank,name,singer,score,audience_rate])#存儲數(shù)據(jù)

except:

print('該歌曲數(shù)據(jù)處理失敗'))

defput_txt(txt_name):#將獲取到的數(shù)據(jù)添加到文件中

withopen(txt_name,'w+',encoding='utf-8')asf1:

foriinmusic_infos:

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

ifi[-1]=='0'ori[-2]=='0':

continue

forjini:

ifj==i[-1]:

f1.write(j+'\n')

else:

f1.write(j+'\t')

if__name__=='__main__':

foriinrange(len(paihangbang_urls)):

music_urls=get_music_url(paihangbang_urls[i])

music_infos=[['排名','歌名','歌手','評分','好評率']]

get_music_info()

put_txt(txt_names[i])

4數(shù)據(jù)清洗與處理

爬取音樂排行榜數(shù)據(jù)時(shí),由于數(shù)據(jù)來源多樣、數(shù)據(jù)格式復(fù)雜,爬取的數(shù)據(jù)

可能存在重復(fù)、不規(guī)范或異常值等問題,也可能存在缺少或不完整的信息。因

此,在進(jìn)行數(shù)據(jù)分析和使用前,需要對音樂排行榜數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和處理,

以確保數(shù)據(jù)質(zhì)量和準(zhǔn)確性,同時(shí)為數(shù)據(jù)分析和研究提供更可靠的依據(jù)。下面是

爬取音樂排行榜數(shù)據(jù)時(shí)的數(shù)據(jù)清洗和處理方法:

(1).數(shù)據(jù)去重

在爬取音樂排行榜數(shù)據(jù)時(shí),常常會出現(xiàn)重復(fù)數(shù)據(jù)的問題,這會對后續(xù)的數(shù)

據(jù)分析和統(tǒng)計(jì)造成影響。為了去除重復(fù)的數(shù)據(jù),可以通過去重的技術(shù)手段,比

如利用數(shù)據(jù)庫的去重功能,在讀取數(shù)據(jù)時(shí)去掉重復(fù)數(shù)據(jù),或者使用Pandas等

Python數(shù)據(jù)分析庫的drop_duplicates()函數(shù)來去掉重復(fù)的數(shù)據(jù)。同時(shí),還應(yīng)

該對可能存在的異常數(shù)據(jù)進(jìn)行處理。

(2).數(shù)據(jù)格式化處理

不同的數(shù)據(jù)來源和解析方式會導(dǎo)致爬取的音樂排行榜數(shù)據(jù)格式不一,因此

需要進(jìn)行統(tǒng)一的數(shù)據(jù)格式化處理。例如,統(tǒng)一歌手、歌曲、專輯等名稱的詞序、

拼寫方式和分隔符,利用正則表達(dá)式匹配和替換文本內(nèi)容。同時(shí),將所有數(shù)據(jù)

轉(zhuǎn)換為指定的統(tǒng)一文件格式,以便與其他工具進(jìn)行整合和處理。對于時(shí)間格式、

數(shù)字格式等方面的問題也要進(jìn)行格式化處理,以確保數(shù)據(jù)具有可靠的可數(shù)和比

較性。

(3).數(shù)據(jù)填空

在爬取音樂排行榜數(shù)據(jù)時(shí),部分?jǐn)?shù)據(jù)可能會出現(xiàn)缺少信息的情況,比如演

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

唱者或?qū)]嫷刃畔⑷笔?。為了避免這種不完整數(shù)據(jù)的干擾,可以使用填空的方

法來補(bǔ)充缺失的數(shù)據(jù)。填空的方法包括從其他途徑獲取完整信息以及根據(jù)統(tǒng)計(jì)

規(guī)律推算有可能缺失的信息。

(4).數(shù)據(jù)合并

音樂排行榜數(shù)據(jù)可能來自不同的來源,比如網(wǎng)易云音樂、QQ音樂和九酷音

樂等,存在相同的歌曲信息,不同來源可能存在一些偏差??梢詫@些數(shù)據(jù)進(jìn)

行合并,以充分利用數(shù)據(jù)的完整性和盡量減少不準(zhǔn)確之處。

(5)數(shù)據(jù)統(tǒng)計(jì)分析

爬取音樂排行榜數(shù)據(jù)后,需要進(jìn)行一些常規(guī)的統(tǒng)計(jì)分析工作,以進(jìn)一步獲

得洞見和洞察。例如,統(tǒng)計(jì)每個(gè)地區(qū)的最受歡迎的音樂類型,或分析受歡迎程

度與售價(jià)的關(guān)系,分析網(wǎng)絡(luò)爆紅歌曲背后的原因等。

總之,爬取音樂排行榜數(shù)據(jù)需要進(jìn)行數(shù)據(jù)清洗、格式化和處理,以確保數(shù)

據(jù)質(zhì)量和準(zhǔn)確性,并為后續(xù)的數(shù)據(jù)分析和研究提供更可靠的依據(jù)。同時(shí),數(shù)據(jù)

處理的目的是最大限度地挖掘音樂排行榜數(shù)據(jù)的信息和價(jià)值,為的業(yè)務(wù)分析和

應(yīng)用提供更有力的支持。

4.1數(shù)據(jù)清洗

打開JupyterNotebook軟件,從存儲的txt文件中讀取數(shù)據(jù),并準(zhǔn)備進(jìn)行

數(shù)據(jù)清理,2023年歌曲周排行榜的數(shù)據(jù)讀取如圖4-1所示。

圖4-12023年歌曲周排行榜數(shù)據(jù)圖

使用pandas的duplicated()方法檢查數(shù)據(jù)是否存在重復(fù)值,如圖4-2。

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-2數(shù)據(jù)重復(fù)值檢查圖

經(jīng)檢查,發(fā)現(xiàn)數(shù)據(jù)無重復(fù)值,繼續(xù)對數(shù)據(jù)進(jìn)行缺失值檢查,使用pandas的

isnull()方法進(jìn)行數(shù)據(jù)檢查,如圖4-3。

圖4-3數(shù)據(jù)缺失值檢查圖

經(jīng)檢查,獲取的九酷音樂周排行榜數(shù)據(jù)也不存在缺失值,再次查看txt文

件后格式數(shù)據(jù)也不存在異常值、格式不對等問題,如圖4-4。

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-4其他檢查圖

經(jīng)過數(shù)據(jù)清洗后,發(fā)現(xiàn)2023年歌曲周排行榜以及2023年歌曲總排行榜數(shù)

據(jù)不存在數(shù)據(jù)缺失,錯(cuò)位還有空值等問題。

然后根據(jù)要求,對有效數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)劃,去除不必要的行和列數(shù)據(jù),避

免數(shù)據(jù)冗余。保留所需的行和列數(shù)據(jù),將其組織成原始網(wǎng)頁格式,并將其保存

在txt文件中,用于后續(xù)的統(tǒng)計(jì)分析和可視化目的,數(shù)據(jù)清洗的完成界面如圖

4-5。

17

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-52023年歌曲周排行榜數(shù)據(jù)清洗完成界面圖

4.2數(shù)據(jù)儲存

在爬取音樂排行榜數(shù)據(jù)的過程中,數(shù)據(jù)存儲是必不可少的。通過對爬取到

的數(shù)據(jù)進(jìn)行有效的存儲,可以方便對數(shù)據(jù)進(jìn)行整體的處理和分析,從而更好地

為音樂市場的研究和發(fā)展提供有力支撐。以下是爬取九酷音樂排行榜數(shù)據(jù)與數(shù)

據(jù)存儲的聯(lián)系:

(1).文件格式化處理

在爬取音樂排行榜數(shù)據(jù)后,往往需要將數(shù)據(jù)保存到文件中進(jìn)行存儲。在存

儲前,需要對爬取到的數(shù)據(jù)進(jìn)行格式化處理,從而使數(shù)據(jù)能夠按照一定的結(jié)構(gòu)

被存儲到文件中。為此,需要根據(jù)數(shù)據(jù)的類型和要存儲的文件格式,定義好每

一行數(shù)據(jù)的格式和結(jié)構(gòu),并根據(jù)設(shè)計(jì)好的規(guī)則來進(jìn)行數(shù)據(jù)的規(guī)范化和處理。

18

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

(2).數(shù)據(jù)存儲方式

在選擇數(shù)據(jù)存儲方式時(shí),一般要考慮到數(shù)據(jù)量和數(shù)據(jù)訪問的速度。如果面

對較大的數(shù)據(jù)量,那么就要考慮采用更高效的數(shù)據(jù)存儲方式,例如MySQL數(shù)據(jù)

庫。如果數(shù)據(jù)量較小,可以選擇用文本文件進(jìn)行存儲。另外,也可以將數(shù)據(jù)轉(zhuǎn)

化為JSON、XML等格式,存儲在云端或者服務(wù)器上。

(3).數(shù)據(jù)安全與備份

為保證數(shù)據(jù)存儲的安全性,一般需要進(jìn)行備份操作。在采取數(shù)據(jù)備份方案

時(shí),要充分考慮到數(shù)據(jù)量和業(yè)務(wù)等實(shí)際情況,采用可靠的存儲設(shè)備,并根據(jù)具

體需求設(shè)置相應(yīng)的備份策略,以充分保證數(shù)據(jù)的完整性和安全性。

總之,數(shù)據(jù)存儲是爬取音樂排行榜數(shù)據(jù)中不可忽視的一環(huán)。通過對爬取到

的數(shù)據(jù)進(jìn)行格式化的處理和存儲,可以為的數(shù)據(jù)分析和應(yīng)用提供更好的支持;

同時(shí),合理的數(shù)據(jù)存儲方案也能夠有效地提升數(shù)據(jù)訪問的效率和安全性。

本次畢業(yè)選擇簡單方便的txt文件將爬取的數(shù)據(jù)進(jìn)行存儲,選擇使用txt

文件存儲數(shù)據(jù)的原因有以下幾點(diǎn):

(1).簡單易用:txt文件是一種非常常用的文本文件格式,幾乎所有的操作

系統(tǒng)和程序都支持讀寫這種格式的文件。使用txt文件存儲數(shù)據(jù),不需要安裝

任何數(shù)據(jù)庫或軟件,直接使用Python內(nèi)置的文件I/O函數(shù)就可以實(shí)現(xiàn)數(shù)據(jù)的讀

寫。

(2).存儲空間低:相比較于數(shù)據(jù)庫或其他存儲方式,txt文件的存儲空間非

常小,僅占用磁盤空間的極小一部分。對于單個(gè)比較小的數(shù)據(jù)集,使用txt文

件存儲數(shù)據(jù)可以節(jié)省很多存儲空間。

(3).可讀性強(qiáng):txt文件的存儲格式非常簡單明了,一般是通過一行一行的

文本表示數(shù)據(jù)。這樣的存儲方式使得可以非常方便地打開txt文件,查看其中

的數(shù)據(jù)。

4.3編程實(shí)現(xiàn)

數(shù)據(jù)存儲為txt文件的核心代碼如下:

defput_txt(txt_name):#將獲取到的數(shù)據(jù)添加到文件中

withopen(txt_name,'w+',encoding='utf-8')asf1:

foriinmusic_infos:

ifi[-1]=='0'ori[-2]=='0':

continue

forjini:

ifj==i[-1]:

19

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

f1.write(j+'\n')

else:

f1.write(j+'\t')

總體來說,選擇使用txt文件進(jìn)行數(shù)據(jù)存儲是一種簡單、方便、自然的方

式,適合在數(shù)據(jù)量不是很大的情況下使用。在數(shù)據(jù)量較大或需要進(jìn)行高效查詢

和分析時(shí),可以選擇使用數(shù)據(jù)庫等更加高效的存儲方式。

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和分析使用的軟件是JupyterNotebook,效果預(yù)覽圖如圖5-1、

5-2。

圖5-1數(shù)據(jù)準(zhǔn)備頁面圖

圖5-2數(shù)據(jù)加載頁面圖

20

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

打開源文件2023新歌周排行榜數(shù)據(jù).txt,查看存儲數(shù)據(jù)文件,如圖5-3。

圖5-3txt存儲數(shù)據(jù)頁面圖

5.2數(shù)據(jù)展示

數(shù)據(jù)可視化是數(shù)據(jù)分析的關(guān)鍵一步,它可以將大量數(shù)據(jù)轉(zhuǎn)化為直觀、易懂

的圖表形式,從中發(fā)現(xiàn)規(guī)律、趨勢和相關(guān)性,為決策者提供有力的支持和參考。

隨著數(shù)據(jù)分析技術(shù)的飛速發(fā)展,越來越多的數(shù)據(jù)分析工具和可視化工具被研發(fā)

出來,數(shù)據(jù)可視化也變得日益重要。

在現(xiàn)代社會,所面臨的數(shù)據(jù)變得越來越復(fù)雜和龐大,從而增加了分析數(shù)據(jù)

的難度。因此,數(shù)據(jù)可視化的重要性和必要性已經(jīng)得到越來越廣泛的認(rèn)可。

通過可視化技術(shù),可以將九酷排行榜被爬取的歌曲數(shù)據(jù)呈現(xiàn)為易于理解和

理解的形式,從而幫助人們更好地理解數(shù)據(jù)和分析數(shù)據(jù),為決策制定提供幫助。

21

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.1依據(jù)歌手進(jìn)行統(tǒng)計(jì)

圖5-4參考代碼1圖

圖5-5為代碼運(yùn)行出的數(shù)據(jù)展示頁面圖

從圖5-5可以看出在九酷音樂網(wǎng)站中,歌手祁隆的字體最大,所以意味著

他在2023年歌曲周排行榜出現(xiàn)的頻率最高,其次就是鳳凰傳奇。

可以得到的結(jié)論是,本周最受歡迎的歌手是祁隆,鳳凰傳奇是第二受歡迎

的歌手。

5.2.2依據(jù)評分分布進(jìn)行統(tǒng)計(jì)

運(yùn)用pycharm軟件導(dǎo)入matplotlib包使用其中的pie繪制餅狀圖依據(jù)評

22

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

分分布進(jìn)行統(tǒng)計(jì),使用代碼如圖5-6。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論