飛豬網(wǎng)云南景點(diǎn)數(shù)據(jù)采集與分析_第1頁(yè)
飛豬網(wǎng)云南景點(diǎn)數(shù)據(jù)采集與分析_第2頁(yè)
飛豬網(wǎng)云南景點(diǎn)數(shù)據(jù)采集與分析_第3頁(yè)
飛豬網(wǎng)云南景點(diǎn)數(shù)據(jù)采集與分析_第4頁(yè)
飛豬網(wǎng)云南景點(diǎn)數(shù)據(jù)采集與分析_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄

1引言...........................................................................................................................1

1.1項(xiàng)目背景........................................................................................................1

1.2開(kāi)發(fā)環(huán)境與工具............................................................................................2

1.2.1Python簡(jiǎn)介........................................................................................2

1.2.2Python第三方庫(kù)簡(jiǎn)介........................................................................2

1.2.3MySQL簡(jiǎn)介..........................................................................................3

1.2.4NavicatPremium簡(jiǎn)介......................................................................3

1.2.5JypyterNotebook簡(jiǎn)介....................................................................3

2需求分析...................................................................................................................4

2.1可行性需求分析............................................................................................4

2.2采集目標(biāo)功能分析........................................................................................4

2.3關(guān)鍵技術(shù)分析................................................................................................4

2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù).....................................................................................4

2.3.2文件存取技術(shù).....................................................................................5

2.3.3可視化技術(shù).........................................................................................6

3數(shù)據(jù)采集...................................................................................................................7

3.1采集頁(yè)面分析................................................................................................7

3.2字段分析........................................................................................................8

3.3編程實(shí)現(xiàn)........................................................................................................9

4數(shù)據(jù)清洗與處理.....................................................................................................10

4.1數(shù)據(jù)清洗......................................................................................................10

4.2數(shù)據(jù)儲(chǔ)存......................................................................................................11

4.3編程實(shí)現(xiàn)......................................................................................................12

5數(shù)據(jù)統(tǒng)計(jì)與分析.....................................................................................................14

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.1數(shù)據(jù)準(zhǔn)備......................................................................................................14

5.2數(shù)據(jù)展示......................................................................................................15

5.2.1依據(jù)景點(diǎn)的月售進(jìn)行統(tǒng)計(jì)和分析...................................................15

5.2.2依據(jù)景點(diǎn)名稱(chēng)進(jìn)行統(tǒng)計(jì)和分析.......................................................16

5.2.3依據(jù)價(jià)位進(jìn)行統(tǒng)計(jì)和分析...............................................................17

5.2.4依據(jù)多日游和一日游的月售占比進(jìn)行統(tǒng)計(jì)與分析.......................18

6小結(jié).........................................................................................................................19

參考資料.....................................................................................................................20

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

飛豬網(wǎng)云南景點(diǎn)數(shù)據(jù)采集與分析

1引言

現(xiàn)在是一個(gè)高速發(fā)展的社會(huì),隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、社交網(wǎng)

絡(luò)等技術(shù)的發(fā)展,數(shù)據(jù)作為產(chǎn)物,其增長(zhǎng)速度可謂是成倍數(shù),如此龐大的數(shù)據(jù)

信息導(dǎo)致大數(shù)據(jù)技術(shù)的飛速發(fā)展,在給我們帶來(lái)便利的同時(shí)也伴隨著信息透明

化,在日常的生活中不經(jīng)意間就透露了自己的日常行跡以及身份信息,而我們

也不得不接受這個(gè)事實(shí),但是大數(shù)據(jù)技術(shù)誕生意義不在于收集的數(shù)據(jù)越多越好,

而是如何將含有意義的數(shù)據(jù)經(jīng)過(guò)一系列專(zhuān)業(yè)的處理,使其成為高質(zhì)量、可使用

的數(shù)據(jù),實(shí)現(xiàn)它價(jià)值上的一個(gè)增值。

數(shù)據(jù)的待開(kāi)發(fā)價(jià)值越來(lái)越大,而我們也正在進(jìn)入一個(gè)大數(shù)據(jù)時(shí)代,大數(shù)據(jù)

應(yīng)用也成為當(dāng)前最為熱門(mén)的信息技術(shù)應(yīng)用領(lǐng)域。在我們?nèi)粘I钪械教幎荚谙?/p>

受著大數(shù)據(jù)技術(shù)帶給我們的便利,比如網(wǎng)上購(gòu)物,在手機(jī)上就可以選擇我們需

要的物品不同的品牌型號(hào)一眼可知,讓我們不再是盲目逛街挑選,大幅縮短了

挑選的時(shí)間,大數(shù)據(jù)技術(shù)甚至?xí)鶕?jù)你注冊(cè)的賬號(hào)年齡、瀏覽記錄,搜索記錄

給你推送你想要購(gòu)買(mǎi)的商品,可以說(shuō),它比你自己都更了解自己。

自從互聯(lián)網(wǎng)的發(fā)展,旅游行業(yè)也隨之而起飛?,F(xiàn)如今,我們能夠在網(wǎng)絡(luò)上

查找、比較旅游價(jià)格、行程安排,并根據(jù)自己的需求進(jìn)行定制化旅游。當(dāng)我們

想出去旅游時(shí)不想浪費(fèi)時(shí)間在挑選景點(diǎn)時(shí)也可以通過(guò)爬蟲(chóng)爬取心儀的城市然后

快速得出該城市的熱門(mén)景點(diǎn)以及他的銷(xiāo)量和票價(jià)。

1.1項(xiàng)目背景

云南是一個(gè)擁有豐富旅游資源的省份,美麗的自然風(fēng)景和獨(dú)特的民俗文化

深深吸引了眾多游客前來(lái)觀(guān)光旅游。而隨著大數(shù)據(jù)技術(shù)的發(fā)展,它深刻地改變

了云南旅游業(yè)的發(fā)展和管理方式。

大數(shù)據(jù)技術(shù)在旅游業(yè)中的應(yīng)用,大大提高了旅游業(yè)的精準(zhǔn)化管理。通過(guò)數(shù)

據(jù)分析,我們能夠了解到游客的偏好和需求,從而為他們提供更個(gè)性化的服務(wù)。

大數(shù)據(jù)讓旅游網(wǎng)站能夠?qū)τ脩?hù)進(jìn)行更好的了解和識(shí)別,甚至是預(yù)測(cè)他們的需求。

通過(guò)使用大數(shù)據(jù)分析,旅游網(wǎng)站可以收集用戶(hù)的個(gè)人信息、瀏覽歷史、購(gòu)買(mǎi)行

為等數(shù)據(jù),將它們整合起來(lái),形成一個(gè)更加精確的用戶(hù)畫(huà)像。根據(jù)用戶(hù)畫(huà)像,

旅游網(wǎng)站可以根據(jù)用戶(hù)的偏好提供更加有針對(duì)性、個(gè)性化的服務(wù),例如精準(zhǔn)推

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

薦旅游路線(xiàn)、更方便的住宿和交通等。其次,大數(shù)據(jù)技術(shù)在旅游監(jiān)管和安全管

理上起到了重要的作用。通過(guò)數(shù)據(jù)分析,我們可以了解旅游過(guò)程中的風(fēng)險(xiǎn)點(diǎn),

從而通過(guò)預(yù)警和調(diào)度等方式進(jìn)行有效的管理和監(jiān)控。例如,云南的旅游公司可

以通過(guò)數(shù)據(jù)分析了解各個(gè)景點(diǎn)的客流情況,在高峰時(shí)期增派導(dǎo)游和安保人員,

同時(shí)通過(guò)智能監(jiān)控系統(tǒng)的布設(shè)及時(shí)掌握景區(qū)內(nèi)的安全狀況。

作為中國(guó)最受歡迎的在線(xiàn)旅游平臺(tái)(OTP)之一,阿里巴巴集團(tuán)旗下的飛豬

通過(guò)提供百萬(wàn)規(guī)模的旅游相關(guān)產(chǎn)品(如機(jī)票、酒店、旅行團(tuán)等等)。憑借著平

臺(tái)上提供的多樣性產(chǎn)品組合,平臺(tái)沉淀了用戶(hù)長(zhǎng)期的在線(xiàn)行為數(shù)據(jù)。通過(guò)對(duì)用

戶(hù)行為數(shù)據(jù)的分析,探尋用戶(hù)行為規(guī)律,找到用戶(hù)感興趣的旅游景點(diǎn),為營(yíng)銷(xiāo)

活動(dòng)提供參考依據(jù)。

我的畢業(yè)設(shè)計(jì)就是針對(duì)飛豬旅游網(wǎng)站對(duì)國(guó)內(nèi)云南省的景點(diǎn)分布及銷(xiāo)量采集

有價(jià)值的信息并進(jìn)行分析,可以很好地了解疫情放開(kāi)后云南省旅游業(yè)的復(fù)蘇情

況給想要去云南旅游的游客一個(gè)參考價(jià)值。

1.2開(kāi)發(fā)環(huán)境與工具

1.2.1Python簡(jiǎn)介

Python是一種結(jié)合了解釋性、編譯性、互動(dòng)性和面向?qū)ο蟮母邔幽_本語(yǔ)言。

Python的語(yǔ)法和動(dòng)態(tài)類(lèi)型,以及解釋性語(yǔ)言的本質(zhì),使其成為大多數(shù)平臺(tái)上編

寫(xiě)腳本和快速開(kāi)發(fā)應(yīng)用程序的編程語(yǔ)言。

它可應(yīng)用于網(wǎng)絡(luò)爬蟲(chóng)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析和可視化等多個(gè)領(lǐng)域。它的特

點(diǎn)是開(kāi)源(免費(fèi))、豐富的庫(kù)、簡(jiǎn)單易學(xué)、支持跨平臺(tái)而且可移植性強(qiáng)。

1.2.2Python第三方庫(kù)簡(jiǎn)介

Requests:簡(jiǎn)單高效處理HTTP請(qǐng)求的第三方庫(kù),通過(guò)簡(jiǎn)單的api實(shí)現(xiàn)

Python對(duì)HTML網(wǎng)頁(yè)請(qǐng)求的操作,多用于爬蟲(chóng)和接口測(cè)試。

Re:正則表達(dá)式解析和處理功能庫(kù),里面包含了多種字符串匹配的方法。

CSV:用于讀寫(xiě)文件的庫(kù),通過(guò)調(diào)用Reader、Writer等方法讀取和修改文

件內(nèi)容。

Time:用于獲取系統(tǒng)時(shí)間并精確計(jì)時(shí)的功能庫(kù)。

Json:用于存儲(chǔ)和交換數(shù)據(jù)信息的庫(kù),使用“名稱(chēng):內(nèi)容”的形式存儲(chǔ)數(shù)

據(jù),使用起來(lái)很方便。

Pandas:基于Numpy庫(kù)著重于服務(wù)數(shù)據(jù)分析的庫(kù),可以對(duì)數(shù)據(jù)進(jìn)行導(dǎo)入、

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

清洗、處理、統(tǒng)計(jì)和輸出。

Matplotlib:繪圖庫(kù),主要是偏向于二維繪圖包括折線(xiàn)圖、條形圖、扇形

圖、散點(diǎn)圖、直方圖等等。Matplotlib是一個(gè)比較重要的Python繪圖庫(kù),它基

于NunPy的數(shù)組運(yùn)算功能,繪圖功能非常強(qiáng)大,已經(jīng)成為Python中公認(rèn)的數(shù)據(jù)

可視化工具,通過(guò)Matplotlib可以很輕松地畫(huà)一些簡(jiǎn)單或者復(fù)雜的圖形,幾行

代碼即可生成線(xiàn)圖、直方圖、功率圖、條形圖、錯(cuò)誤圖、散點(diǎn)圖。

WordCloud:詞云圖,以詞語(yǔ)為單位,通過(guò)圖形可視化的方式,更加直觀(guān)的

展示文本。

Pylab:它能設(shè)置畫(huà)圖顯示中文出來(lái)。

1.2.3MySQL簡(jiǎn)介

MySQL被稱(chēng)為“最受歡迎的開(kāi)源數(shù)據(jù)庫(kù)”,其具有開(kāi)源數(shù)據(jù)庫(kù)速度快、易用

性好、支持SQL和網(wǎng)絡(luò)、可移植、費(fèi)用低等特點(diǎn),越來(lái)越成為中小企業(yè)應(yīng)用數(shù)

據(jù)庫(kù)的首選。此次項(xiàng)目我也會(huì)將爬取到的數(shù)據(jù)存到MySQL中以防丟失。

1.2.4NavicatPremium簡(jiǎn)介

NavicatPremium是一套數(shù)據(jù)庫(kù)管理工具,可同時(shí)連接到MySQL、Oracle、

SQLServer、MariaDB、SQLite等不同類(lèi)型的數(shù)據(jù)庫(kù),它與阿里云、騰訊云、華

為云、MicrosoftAzuRe、OracleCloud、MongoDBAtlas等云數(shù)據(jù)庫(kù)兼容。

用戶(hù)可以通過(guò)NavicatPremium對(duì)數(shù)據(jù)庫(kù)快速導(dǎo)入和導(dǎo)出DBase、Txt、

CSV、Excel、Xml、Json等格式的數(shù)據(jù),支持簡(jiǎn)單快速地在各個(gè)數(shù)據(jù)庫(kù)系統(tǒng)間傳

輸數(shù)據(jù),其還有數(shù)據(jù)遷移、操作工具、查詢(xún)編輯、數(shù)據(jù)庫(kù)設(shè)計(jì)器、數(shù)據(jù)可視化

工具、數(shù)據(jù)生成工具、安全連接等功能。

1.2.5JypyterNotebook簡(jiǎn)介

JupyterNotebook是一個(gè)以網(wǎng)頁(yè)的形式打開(kāi)的程序,可以直接在網(wǎng)頁(yè)中編

寫(xiě)代碼和操作代碼,代碼的操作結(jié)果將直接顯示在代碼塊下。如果您需要在編

程過(guò)程中編寫(xiě)描述文檔,您可以直接在同一頁(yè)面上編寫(xiě),以便及時(shí)解釋和解釋。

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

2需求分析

2.1可行性需求分析

1、技術(shù)可行性

Python編程語(yǔ)言通俗易懂、是一種動(dòng)態(tài)地面對(duì)對(duì)象的腳本語(yǔ)言。這讓它對(duì)

于爬蟲(chóng)領(lǐng)域有著巨大的明顯的優(yōu)勢(shì),是當(dāng)前爬蟲(chóng)的首選語(yǔ)言。本項(xiàng)目便是利用

Python編程語(yǔ)言采集數(shù)據(jù),將獲取的數(shù)據(jù)暫時(shí)通過(guò)CSV格式存儲(chǔ)起來(lái),然后通

過(guò)NavicatPremium來(lái)進(jìn)行數(shù)據(jù)清洗預(yù)處理,最后通過(guò)Matplotlib和Pycharts

來(lái)進(jìn)行數(shù)據(jù)可視化的展示。

2、項(xiàng)目可行性

本項(xiàng)目主要研究旅游中間商三大頭之一的飛豬旅游網(wǎng)中云南省2022年的

旅游業(yè)的發(fā)展情況,利用爬取網(wǎng)上飛豬網(wǎng)的相關(guān)的景點(diǎn)信息,通過(guò)一些統(tǒng)計(jì)描

述和分析,從各個(gè)景點(diǎn)中獲取需要的數(shù)據(jù),并進(jìn)行數(shù)據(jù)清洗和處理,最后將其

可視化,進(jìn)而為廣大游客提供一個(gè)旅游參考價(jià)值。

2.2采集目標(biāo)功能分析

此次項(xiàng)目的數(shù)據(jù)集來(lái)源于飛豬旅游網(wǎng)站,是通過(guò)Python爬取飛豬旅游網(wǎng)站

中云南景點(diǎn)的信息。爬取50頁(yè)的景點(diǎn)信息,數(shù)據(jù)清洗后共3029條記錄,以此

盡可能保證數(shù)據(jù)可靠性。

本次爬取飛豬旅游網(wǎng)中云南景點(diǎn)的數(shù)據(jù),主要獲得了以下信息:景點(diǎn)名稱(chēng)、

評(píng)分、票價(jià)、評(píng)論數(shù)量、月售、已售、出發(fā)地點(diǎn)、當(dāng)前景點(diǎn)的鏈接。主要目的

是通過(guò)實(shí)際數(shù)據(jù)給想去云南旅游的群眾一些建議以及云南旅游火爆的原因。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù)

爬蟲(chóng)技術(shù)可以從各種網(wǎng)站抓取用戶(hù)評(píng)論和評(píng)分等信息,幫助用戶(hù)更好地了

解景點(diǎn)的真實(shí)情況,提高用戶(hù)的旅游體驗(yàn)。在對(duì)云南景點(diǎn)數(shù)據(jù)爬取時(shí),我采用

了Requests庫(kù)來(lái)實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的請(qǐng)求。Re是指正則表示式,Python的Re模塊提

供各種正則表達(dá)式的匹配操作,在文本解析、復(fù)雜字符串分析和信息提取時(shí)是

一個(gè)非常有用的工具,Json是一種輕量級(jí)的數(shù)據(jù)交換格式,便于閱讀和書(shū)寫(xiě)同

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

時(shí)也方便機(jī)器進(jìn)行解析和生成。Time庫(kù)是Python中處理時(shí)間的標(biāo)準(zhǔn)庫(kù)。

Requests庫(kù)請(qǐng)求HTML。CSV文件儲(chǔ)存爬取的數(shù)據(jù)。如圖2-1所示。

圖2-1數(shù)據(jù)爬取

2.3.2文件存取技術(shù)

關(guān)于數(shù)據(jù)存取,我是定義一個(gè)名為path的CSV文件,取名為“飛豬數(shù)據(jù)爬

取.csv”將獲取到的數(shù)據(jù)暫存到里面,如圖2-2所示。

圖2-2文件存儲(chǔ)

同時(shí)以防數(shù)據(jù)丟失我也將數(shù)據(jù)存儲(chǔ)到了NavicatPremium中的MySQL數(shù)據(jù)庫(kù)

中,如圖2-3所示。

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖2-3連接數(shù)據(jù)庫(kù)

2.3.3可視化技術(shù)

可視化技術(shù)它可以幫助我們更好地理解數(shù)據(jù),更快速地做出決策??梢暬?/p>

技術(shù)的本質(zhì)就是把數(shù)據(jù)變成圖表,將抽象的數(shù)據(jù)轉(zhuǎn)化成能夠被我們?nèi)庋圩R(shí)別的

模式。

本項(xiàng)目將爬取下來(lái)的數(shù)據(jù)保存在CSV文件中,以防數(shù)據(jù)丟失也可以在

NavicatPremium中新建一個(gè)數(shù)據(jù)庫(kù),將爬取的數(shù)據(jù)存儲(chǔ)到其中,再用查詢(xún)語(yǔ)句

查找出我們需要的數(shù)據(jù),通過(guò)Matplotlib進(jìn)行數(shù)據(jù)分析。

Matplotlib庫(kù)將獲取的數(shù)據(jù)以圖表形式進(jìn)行數(shù)據(jù)分析。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

3數(shù)據(jù)采集

3.1采集頁(yè)面分析

打開(kāi)MicrosoftEdge瀏覽器,首先搜索飛豬旅游網(wǎng)站并登錄,在搜索欄中

輸入關(guān)鍵字:云南景點(diǎn),如圖3-1所示,其中URL為:

/index.htm?searchType=product&keyword

=%E4%BA%91%E5%8D%97%E6%99%AF%E7%82%B9。可以發(fā)現(xiàn)界面中有全部、跟團(tuán)游、

門(mén)票和一日游這幾種類(lèi)型。

圖3-1數(shù)據(jù)網(wǎng)址頁(yè)面

往下滑動(dòng)鼠標(biāo)到頁(yè)面底部,可以發(fā)現(xiàn)一共有100頁(yè),如圖3-2所示。

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-2數(shù)據(jù)頁(yè)面

按F12調(diào)出開(kāi)發(fā)者工具,刷新頁(yè)面,利用全局搜索工具定位所需數(shù)據(jù)位置,

點(diǎn)擊開(kāi)發(fā)者工具上面的Headers字段,分析這是個(gè)什么請(qǐng)求,發(fā)現(xiàn)這個(gè)是一個(gè)

get請(qǐng)求,那我們需要尋找它的FormData往下翻找,在最后找到了表單數(shù)據(jù)

FormData,如圖3-3所示。

圖3-3開(kāi)發(fā)者工具

3.2字段分析

先進(jìn)入飛豬旅游網(wǎng)站中的云南景區(qū)門(mén)票頁(yè)面,通過(guò)瀏覽器開(kāi)發(fā)者工具等工

具分析其網(wǎng)頁(yè)結(jié)構(gòu),找到需要爬取的數(shù)據(jù)所在的HTML標(biāo)簽及其屬性。景點(diǎn)名稱(chēng)、

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

評(píng)分、票價(jià)、評(píng)論數(shù)量、當(dāng)月銷(xiāo)量、已售、出發(fā)地點(diǎn)以及該景點(diǎn)的鏈接等數(shù)據(jù)

都會(huì)被包含在div標(biāo)簽中,如圖3-4所示。

圖3-4分析數(shù)據(jù)類(lèi)型頁(yè)面

3.3編程實(shí)現(xiàn)

打開(kāi)Pycharm,新建一個(gè)文件,導(dǎo)入所需庫(kù),如圖3-5所示。

圖3-5導(dǎo)入所需庫(kù)頁(yè)面

設(shè)置請(qǐng)求頭,偽裝成瀏覽器訪(fǎng)問(wèn)服務(wù)器,定義path存放所有云南景點(diǎn)數(shù)據(jù),

用于最后數(shù)據(jù)保存循環(huán)網(wǎng)頁(yè),提取100頁(yè)數(shù)據(jù),關(guān)鍵詞為“云南景點(diǎn)”。

使用Python語(yǔ)言中的爬蟲(chóng)框架Json和Requests訪(fǎng)問(wèn)目標(biāo)網(wǎng)站,把需要的

數(shù)據(jù)從HTML文檔中提取出來(lái),并存儲(chǔ)在CSV文件中并導(dǎo)入數(shù)據(jù)庫(kù)中。具體而言,

可以使用XPath或CSS選擇器等定位方式,將目標(biāo)標(biāo)簽的文本內(nèi)容或?qū)傩灾底?/p>

取下來(lái)。

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4數(shù)據(jù)清洗與處理

對(duì)于爬取到的數(shù)據(jù)進(jìn)行清洗和加工,去除重復(fù)項(xiàng)、空值和錯(cuò)誤數(shù)據(jù),并進(jìn)

行格式化、歸一化和標(biāo)準(zhǔn)化等處理,以便后續(xù)分析和可視化。比如可以使用

Pandas庫(kù)來(lái)進(jìn)行數(shù)據(jù)清洗和轉(zhuǎn)換也可以在MySQL里查找到需要的數(shù)據(jù)并通過(guò)手

動(dòng)清洗來(lái)獲取需要的數(shù)據(jù)。

在當(dāng)今信息化的時(shí)代,企業(yè)、政府、組織等各種機(jī)構(gòu)都在快速積累大量的

數(shù)據(jù)。這些數(shù)據(jù)包含著巨大的價(jià)值,對(duì)于市場(chǎng)調(diào)研、商業(yè)決策、政策制定等方

面都起到了至關(guān)重要的作用。然而,這些數(shù)據(jù)可能存在許多問(wèn)題與不規(guī)則性,

因此進(jìn)行數(shù)據(jù)清洗與處理變得尤為重要。

爬取到的數(shù)據(jù)不可避免地存在一些不完整、重復(fù)或錯(cuò)誤的情況,需要進(jìn)行

數(shù)據(jù)清洗。清洗的目的是減少噪音數(shù)據(jù)對(duì)結(jié)果的影響,提高數(shù)據(jù)的準(zhǔn)確性和可

靠性??梢圆捎肞ython數(shù)據(jù)處理庫(kù)(如Pandas)進(jìn)行數(shù)據(jù)清洗,包括去除重復(fù)

數(shù)據(jù)、填充缺失值、修改格式等。

本項(xiàng)目中爬取下來(lái)的月售和已售的數(shù)據(jù)都包含字符串不是單純的數(shù)值月售

中數(shù)據(jù),所以我在整理好格式問(wèn)題后在MySQL里面把里面的“月售”和“筆”

這兩個(gè)字段刪掉,只留下數(shù)字,這樣便于我之后的數(shù)據(jù)分析。

4.1數(shù)據(jù)清洗

導(dǎo)入CSV文件中的數(shù)據(jù)。觀(guān)察數(shù)據(jù)是否完整,格式有無(wú)問(wèn)題。如圖4-1所示。

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-1數(shù)據(jù)清洗準(zhǔn)備頁(yè)面

從上圖可以看出數(shù)據(jù)排列很亂,表頭和數(shù)據(jù)沒(méi)對(duì)齊容易造成錯(cuò)位,所以我們

需要調(diào)整一下數(shù)據(jù)之間的距離,景點(diǎn)名稱(chēng)過(guò)長(zhǎng)的設(shè)置自動(dòng)換行,以免數(shù)據(jù)太長(zhǎng)

無(wú)法全部展示,清洗好的數(shù)據(jù)如圖4-2所示。

圖4-2數(shù)據(jù)清洗完畢頁(yè)面

4.2數(shù)據(jù)儲(chǔ)存

爬蟲(chóng)通過(guò)解析網(wǎng)頁(yè)獲取頁(yè)面中的數(shù)據(jù)后,還需要將獲得的數(shù)據(jù)存儲(chǔ)下來(lái)以供

后續(xù)分析。

一般保存數(shù)據(jù)的方式有如下幾種:

文件:Txt、CSV、Excel、Json等,保存的數(shù)據(jù)量小。

關(guān)系型數(shù)據(jù)庫(kù):MySQL、Oracle等,保存的數(shù)據(jù)量大。

非關(guān)系型數(shù)據(jù)庫(kù):Mongodb、Redis等鍵值對(duì)的形式存儲(chǔ)數(shù)據(jù),保存的數(shù)據(jù)

量大。

二進(jìn)制文件:保存爬取的圖片、視頻、音頻等格式數(shù)據(jù)。

這里我用to_csv()方法保存清洗后的數(shù)據(jù),文件名為df,如圖4-3所示。

圖4-3數(shù)據(jù)存儲(chǔ)頁(yè)面

4.3編程實(shí)現(xiàn)

讀取源數(shù)據(jù)文件,如圖4-4所示。

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-4讀取數(shù)據(jù)頁(yè)面

顯示前5行數(shù)據(jù),調(diào)整一下格式,會(huì)發(fā)現(xiàn)第一行索引是從0開(kāi)始的,如圖4-5

所示。

圖4-5源數(shù)據(jù)頁(yè)面

數(shù)據(jù)清洗,數(shù)據(jù)可能存在缺失數(shù)據(jù)或異常數(shù)據(jù),清洗就是對(duì)缺失的數(shù)據(jù)和

異常的數(shù)據(jù)進(jìn)行處理。首先用notnull()函數(shù)判斷數(shù)據(jù)中是否存在空值或缺失值,

如圖4-6所示。

圖4-6判斷空值頁(yè)面

因?yàn)榕赖臄?shù)據(jù)量很大,所以難免有些數(shù)據(jù)是重復(fù)的或者不完整的這個(gè)時(shí)候

就可以用dropna()方法刪除含有空值或缺失值的行或列,如圖4-7所示。

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-7刪除空值或缺失值后的頁(yè)面

除此之外,我還在MySQL里面進(jìn)行了數(shù)據(jù)清洗,我先將數(shù)據(jù)拷貝一份到一

個(gè)新的表里面,在fliggy2里進(jìn)行清洗,這樣就保護(hù)了原始數(shù)據(jù),把月售那一

列數(shù)據(jù)中的“月售”和“筆”用空字符代替。另外將月售列是空的改成0這樣

放統(tǒng)計(jì)求和,如圖4-8所示。

圖4-8數(shù)據(jù)清洗頁(yè)面

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

導(dǎo)入MySQL和Matplotlib庫(kù),連接數(shù)據(jù)庫(kù),如圖5-1所示。

圖5-1數(shù)據(jù)準(zhǔn)備頁(yè)面

5.2數(shù)據(jù)展示

5.2.1依據(jù)景點(diǎn)的月售進(jìn)行統(tǒng)計(jì)和分析

圖5-2景點(diǎn)銷(xiāo)量表

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

從上圖可以看出香格里拉、玉龍雪山、熱帶植物園這三個(gè)景點(diǎn)的銷(xiāo)量是最

高,遠(yuǎn)高于其他景點(diǎn),說(shuō)明這幾個(gè)景點(diǎn)是去云南旅游的必打卡點(diǎn),也是云南的

最具特色的景點(diǎn)。排在后4位的分別是怒江、九龍瀑布、螺絲田、三江。這幾

個(gè)都是地理位置比較偏遠(yuǎn)的自然風(fēng)景,附件的住宿資源較少,選擇的人也較少。

這種自然景觀(guān)一般是不需要門(mén)票的所以這里的月銷(xiāo)售數(shù)據(jù)較少。

香格里拉位于云南省北部的藏區(qū)邊陲城市,被譽(yù)為“人間天堂”,獨(dú)特的

地理位置讓其坐擁雪山、峽谷、草原、森林等多種自然景觀(guān)還有獨(dú)特藏族文化。

吸引眾多游客前往。

5.2.2依據(jù)景點(diǎn)名稱(chēng)進(jìn)行統(tǒng)計(jì)和分析

圖5-3詞云圖

從圖5-3詞云圖中可以看出大理、麗江、西雙版納、昆明這幾個(gè)地方的字

體最大說(shuō)明這幾個(gè)地方的旅游資源最豐富,數(shù)量最多的也是最受歡迎的景點(diǎn)城

市。那是什么原因造就了這么得天獨(dú)厚的旅游資源呢,首先,這些地方擁有得

天獨(dú)厚的自然風(fēng)光。大理的洱海、麗江的玉龍雪山、昆明的石林和西雙版納的

熱帶雨林都是非常壯觀(guān)的景點(diǎn)。這些景點(diǎn)讓游客們可以感受到大自然的鬼斧神

工和美妙絕倫的景色,讓游客們?cè)诼糜沃械玫缴硇牡姆潘伞?/p>

其次,這些地方有獨(dú)特的文化。云南是中國(guó)少數(shù)民族文化的代表地區(qū),大

理和麗江有著淳樸的白族和納西族文化,西雙版納則是傣族文化的發(fā)源地,這

些文化各具特色。在這里,游客們可以親身感受少數(shù)民族的風(fēng)情和文化的獨(dú)特

魅力,這也是吸引眾多游客的重要因素之一。

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

此外,這些地方的美食也是讓游客流連忘返的重要原因。云南美食獨(dú)具特

色,有火鍋、過(guò)橋米線(xiàn)、砂鍋飯、牛肉粉等各種美食。這些美食的特色在國(guó)內(nèi)

外都很有名,吸引了大量的游客前來(lái)品嘗。

最后,這些地方的旅游基礎(chǔ)設(shè)施非常完善,旅游服務(wù)也非常到位。從住宿

到交通,從景區(qū)的管理到導(dǎo)游的服務(wù),這些地方的旅游服務(wù)都是一流的。這也

是讓游客們?cè)诼猛局心軌蛳硎艿绞孢m和便利的重要因素之一。

綜上所述,云南的大理、麗江、昆明和西雙版納之所以是最多人去旅游的

地方,是因?yàn)樗鼈儞碛械锰飒?dú)厚的自然風(fēng)光、獨(dú)特的文化、美味的美食以及完

善的旅游基礎(chǔ)設(shè)施和服務(wù)。這些元素共同構(gòu)成了一種非常吸引人的旅游氛圍,

吸引了越來(lái)越多的游客前來(lái)探索。

5.2.3依據(jù)價(jià)位進(jìn)行統(tǒng)計(jì)和分析

圖5-4價(jià)位銷(xiāo)量表

從圖5-4中可以得知價(jià)格在0-500的銷(xiāo)量最高,可以從兩個(gè)方面來(lái)分析原

因。

從消費(fèi)群體分析,消費(fèi)觀(guān)念的改變。在過(guò)去,人們認(rèn)為旅游是一種奢侈品,

只有富人才能享受。但是,隨著經(jīng)濟(jì)水平的提高和消費(fèi)觀(guān)念的改變,越來(lái)越多

的人開(kāi)始意識(shí)到旅游的重要性,并愿意花費(fèi)一定的費(fèi)用來(lái)享受旅游帶來(lái)的樂(lè)趣

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

和益處。此外,千元以?xún)?nèi)的旅游費(fèi)用也比較容易被接受,這也是導(dǎo)致越來(lái)越多

人選擇低消費(fèi)旅游的原因之一。

從云南當(dāng)?shù)氐穆糜钨Y源分析,云南的旅游業(yè)正在迅速發(fā)展。越來(lái)越多的旅

游項(xiàng)目被推出。云南優(yōu)越的地理位置旅游資源豐富,當(dāng)?shù)匚飪r(jià)水平不高,同時(shí),

各大旅游網(wǎng)站和平臺(tái)也不斷推陳出新,提供各種便利的旅游服務(wù),讓人們能夠

輕松地規(guī)劃旅游行程并預(yù)訂酒店和門(mén)票。

5.2.4依據(jù)多日游和一日游的月售占比進(jìn)行統(tǒng)計(jì)與分析

圖5-5一日游與多日游月售占比圖

從上圖可以看出選擇一日游的游客高達(dá)91.6%,而多日游只占8.4%,旅游

方式上,為什么一日游越來(lái)越受到了大家的青睞?首先一日游具有靈活性和高

效性。相對(duì)于多日游,一日游時(shí)間短、計(jì)劃簡(jiǎn)單、花費(fèi)低廉,可以滿(mǎn)足大家周

末短暫放松的需求,不會(huì)耗費(fèi)太多的時(shí)間和精力,因此備受歡迎。其次,一日

游可以更好地結(jié)合工作和休閑。在現(xiàn)代社會(huì)中,工作壓力越來(lái)越大,一些白領(lǐng)

想在繁忙的工作之余找到一些放松的機(jī)會(huì),一日游正好能夠滿(mǎn)足這一需求。短

時(shí)間的旅游可以讓人們更好地平衡工作和生活,減輕壓力,提高效率和創(chuàng)造力。

再者,一日游的行程安排多樣化,滿(mǎn)足不同人的需求。一些年輕人喜歡戶(hù)

外探險(xiǎn)、徒步旅行;一些年長(zhǎng)者喜歡觀(guān)賞美景、品嘗美食。而一日游通常會(huì)有

多個(gè)行程安排,旅游公司也會(huì)針對(duì)不同人群需求,制定不同的行程方案,滿(mǎn)足

不同人的興趣愛(ài)好。一日游能夠滿(mǎn)足現(xiàn)代人的短暫休閑需求、平衡工作和生活、

多樣化的行程安排等需求。因此,一日游越來(lái)越受到大家的青睞,成為現(xiàn)代人

放松、休閑、娛樂(lè)的重要方式。

17

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論