版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄
1引言...........................................................................................................................1
1.1項(xiàng)目背景........................................................................................................1
1.2開(kāi)發(fā)環(huán)境與工具............................................................................................2
1.2.1Python簡(jiǎn)介........................................................................................2
1.2.2Python第三方庫(kù)簡(jiǎn)介........................................................................2
1.2.3MySQL簡(jiǎn)介..........................................................................................3
1.2.4NavicatPremium簡(jiǎn)介......................................................................3
1.2.5JypyterNotebook簡(jiǎn)介....................................................................3
2需求分析...................................................................................................................4
2.1可行性需求分析............................................................................................4
2.2采集目標(biāo)功能分析........................................................................................4
2.3關(guān)鍵技術(shù)分析................................................................................................4
2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù).....................................................................................4
2.3.2文件存取技術(shù).....................................................................................5
2.3.3可視化技術(shù).........................................................................................6
3數(shù)據(jù)采集...................................................................................................................7
3.1采集頁(yè)面分析................................................................................................7
3.2字段分析........................................................................................................8
3.3編程實(shí)現(xiàn)........................................................................................................9
4數(shù)據(jù)清洗與處理.....................................................................................................10
4.1數(shù)據(jù)清洗......................................................................................................10
4.2數(shù)據(jù)儲(chǔ)存......................................................................................................11
4.3編程實(shí)現(xiàn)......................................................................................................12
5數(shù)據(jù)統(tǒng)計(jì)與分析.....................................................................................................14
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.1數(shù)據(jù)準(zhǔn)備......................................................................................................14
5.2數(shù)據(jù)展示......................................................................................................15
5.2.1依據(jù)景點(diǎn)的月售進(jìn)行統(tǒng)計(jì)和分析...................................................15
5.2.2依據(jù)景點(diǎn)名稱(chēng)進(jìn)行統(tǒng)計(jì)和分析.......................................................16
5.2.3依據(jù)價(jià)位進(jìn)行統(tǒng)計(jì)和分析...............................................................17
5.2.4依據(jù)多日游和一日游的月售占比進(jìn)行統(tǒng)計(jì)與分析.......................18
6小結(jié).........................................................................................................................19
參考資料.....................................................................................................................20
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
飛豬網(wǎng)云南景點(diǎn)數(shù)據(jù)采集與分析
1引言
現(xiàn)在是一個(gè)高速發(fā)展的社會(huì),隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、社交網(wǎng)
絡(luò)等技術(shù)的發(fā)展,數(shù)據(jù)作為產(chǎn)物,其增長(zhǎng)速度可謂是成倍數(shù),如此龐大的數(shù)據(jù)
信息導(dǎo)致大數(shù)據(jù)技術(shù)的飛速發(fā)展,在給我們帶來(lái)便利的同時(shí)也伴隨著信息透明
化,在日常的生活中不經(jīng)意間就透露了自己的日常行跡以及身份信息,而我們
也不得不接受這個(gè)事實(shí),但是大數(shù)據(jù)技術(shù)誕生意義不在于收集的數(shù)據(jù)越多越好,
而是如何將含有意義的數(shù)據(jù)經(jīng)過(guò)一系列專(zhuān)業(yè)的處理,使其成為高質(zhì)量、可使用
的數(shù)據(jù),實(shí)現(xiàn)它價(jià)值上的一個(gè)增值。
數(shù)據(jù)的待開(kāi)發(fā)價(jià)值越來(lái)越大,而我們也正在進(jìn)入一個(gè)大數(shù)據(jù)時(shí)代,大數(shù)據(jù)
應(yīng)用也成為當(dāng)前最為熱門(mén)的信息技術(shù)應(yīng)用領(lǐng)域。在我們?nèi)粘I钪械教幎荚谙?/p>
受著大數(shù)據(jù)技術(shù)帶給我們的便利,比如網(wǎng)上購(gòu)物,在手機(jī)上就可以選擇我們需
要的物品不同的品牌型號(hào)一眼可知,讓我們不再是盲目逛街挑選,大幅縮短了
挑選的時(shí)間,大數(shù)據(jù)技術(shù)甚至?xí)鶕?jù)你注冊(cè)的賬號(hào)年齡、瀏覽記錄,搜索記錄
給你推送你想要購(gòu)買(mǎi)的商品,可以說(shuō),它比你自己都更了解自己。
自從互聯(lián)網(wǎng)的發(fā)展,旅游行業(yè)也隨之而起飛?,F(xiàn)如今,我們能夠在網(wǎng)絡(luò)上
查找、比較旅游價(jià)格、行程安排,并根據(jù)自己的需求進(jìn)行定制化旅游。當(dāng)我們
想出去旅游時(shí)不想浪費(fèi)時(shí)間在挑選景點(diǎn)時(shí)也可以通過(guò)爬蟲(chóng)爬取心儀的城市然后
快速得出該城市的熱門(mén)景點(diǎn)以及他的銷(xiāo)量和票價(jià)。
1.1項(xiàng)目背景
云南是一個(gè)擁有豐富旅游資源的省份,美麗的自然風(fēng)景和獨(dú)特的民俗文化
深深吸引了眾多游客前來(lái)觀(guān)光旅游。而隨著大數(shù)據(jù)技術(shù)的發(fā)展,它深刻地改變
了云南旅游業(yè)的發(fā)展和管理方式。
大數(shù)據(jù)技術(shù)在旅游業(yè)中的應(yīng)用,大大提高了旅游業(yè)的精準(zhǔn)化管理。通過(guò)數(shù)
據(jù)分析,我們能夠了解到游客的偏好和需求,從而為他們提供更個(gè)性化的服務(wù)。
大數(shù)據(jù)讓旅游網(wǎng)站能夠?qū)τ脩?hù)進(jìn)行更好的了解和識(shí)別,甚至是預(yù)測(cè)他們的需求。
通過(guò)使用大數(shù)據(jù)分析,旅游網(wǎng)站可以收集用戶(hù)的個(gè)人信息、瀏覽歷史、購(gòu)買(mǎi)行
為等數(shù)據(jù),將它們整合起來(lái),形成一個(gè)更加精確的用戶(hù)畫(huà)像。根據(jù)用戶(hù)畫(huà)像,
旅游網(wǎng)站可以根據(jù)用戶(hù)的偏好提供更加有針對(duì)性、個(gè)性化的服務(wù),例如精準(zhǔn)推
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
薦旅游路線(xiàn)、更方便的住宿和交通等。其次,大數(shù)據(jù)技術(shù)在旅游監(jiān)管和安全管
理上起到了重要的作用。通過(guò)數(shù)據(jù)分析,我們可以了解旅游過(guò)程中的風(fēng)險(xiǎn)點(diǎn),
從而通過(guò)預(yù)警和調(diào)度等方式進(jìn)行有效的管理和監(jiān)控。例如,云南的旅游公司可
以通過(guò)數(shù)據(jù)分析了解各個(gè)景點(diǎn)的客流情況,在高峰時(shí)期增派導(dǎo)游和安保人員,
同時(shí)通過(guò)智能監(jiān)控系統(tǒng)的布設(shè)及時(shí)掌握景區(qū)內(nèi)的安全狀況。
作為中國(guó)最受歡迎的在線(xiàn)旅游平臺(tái)(OTP)之一,阿里巴巴集團(tuán)旗下的飛豬
通過(guò)提供百萬(wàn)規(guī)模的旅游相關(guān)產(chǎn)品(如機(jī)票、酒店、旅行團(tuán)等等)。憑借著平
臺(tái)上提供的多樣性產(chǎn)品組合,平臺(tái)沉淀了用戶(hù)長(zhǎng)期的在線(xiàn)行為數(shù)據(jù)。通過(guò)對(duì)用
戶(hù)行為數(shù)據(jù)的分析,探尋用戶(hù)行為規(guī)律,找到用戶(hù)感興趣的旅游景點(diǎn),為營(yíng)銷(xiāo)
活動(dòng)提供參考依據(jù)。
我的畢業(yè)設(shè)計(jì)就是針對(duì)飛豬旅游網(wǎng)站對(duì)國(guó)內(nèi)云南省的景點(diǎn)分布及銷(xiāo)量采集
有價(jià)值的信息并進(jìn)行分析,可以很好地了解疫情放開(kāi)后云南省旅游業(yè)的復(fù)蘇情
況給想要去云南旅游的游客一個(gè)參考價(jià)值。
1.2開(kāi)發(fā)環(huán)境與工具
1.2.1Python簡(jiǎn)介
Python是一種結(jié)合了解釋性、編譯性、互動(dòng)性和面向?qū)ο蟮母邔幽_本語(yǔ)言。
Python的語(yǔ)法和動(dòng)態(tài)類(lèi)型,以及解釋性語(yǔ)言的本質(zhì),使其成為大多數(shù)平臺(tái)上編
寫(xiě)腳本和快速開(kāi)發(fā)應(yīng)用程序的編程語(yǔ)言。
它可應(yīng)用于網(wǎng)絡(luò)爬蟲(chóng)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析和可視化等多個(gè)領(lǐng)域。它的特
點(diǎn)是開(kāi)源(免費(fèi))、豐富的庫(kù)、簡(jiǎn)單易學(xué)、支持跨平臺(tái)而且可移植性強(qiáng)。
1.2.2Python第三方庫(kù)簡(jiǎn)介
Requests:簡(jiǎn)單高效處理HTTP請(qǐng)求的第三方庫(kù),通過(guò)簡(jiǎn)單的api實(shí)現(xiàn)
Python對(duì)HTML網(wǎng)頁(yè)請(qǐng)求的操作,多用于爬蟲(chóng)和接口測(cè)試。
Re:正則表達(dá)式解析和處理功能庫(kù),里面包含了多種字符串匹配的方法。
CSV:用于讀寫(xiě)文件的庫(kù),通過(guò)調(diào)用Reader、Writer等方法讀取和修改文
件內(nèi)容。
Time:用于獲取系統(tǒng)時(shí)間并精確計(jì)時(shí)的功能庫(kù)。
Json:用于存儲(chǔ)和交換數(shù)據(jù)信息的庫(kù),使用“名稱(chēng):內(nèi)容”的形式存儲(chǔ)數(shù)
據(jù),使用起來(lái)很方便。
Pandas:基于Numpy庫(kù)著重于服務(wù)數(shù)據(jù)分析的庫(kù),可以對(duì)數(shù)據(jù)進(jìn)行導(dǎo)入、
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
清洗、處理、統(tǒng)計(jì)和輸出。
Matplotlib:繪圖庫(kù),主要是偏向于二維繪圖包括折線(xiàn)圖、條形圖、扇形
圖、散點(diǎn)圖、直方圖等等。Matplotlib是一個(gè)比較重要的Python繪圖庫(kù),它基
于NunPy的數(shù)組運(yùn)算功能,繪圖功能非常強(qiáng)大,已經(jīng)成為Python中公認(rèn)的數(shù)據(jù)
可視化工具,通過(guò)Matplotlib可以很輕松地畫(huà)一些簡(jiǎn)單或者復(fù)雜的圖形,幾行
代碼即可生成線(xiàn)圖、直方圖、功率圖、條形圖、錯(cuò)誤圖、散點(diǎn)圖。
WordCloud:詞云圖,以詞語(yǔ)為單位,通過(guò)圖形可視化的方式,更加直觀(guān)的
展示文本。
Pylab:它能設(shè)置畫(huà)圖顯示中文出來(lái)。
1.2.3MySQL簡(jiǎn)介
MySQL被稱(chēng)為“最受歡迎的開(kāi)源數(shù)據(jù)庫(kù)”,其具有開(kāi)源數(shù)據(jù)庫(kù)速度快、易用
性好、支持SQL和網(wǎng)絡(luò)、可移植、費(fèi)用低等特點(diǎn),越來(lái)越成為中小企業(yè)應(yīng)用數(shù)
據(jù)庫(kù)的首選。此次項(xiàng)目我也會(huì)將爬取到的數(shù)據(jù)存到MySQL中以防丟失。
1.2.4NavicatPremium簡(jiǎn)介
NavicatPremium是一套數(shù)據(jù)庫(kù)管理工具,可同時(shí)連接到MySQL、Oracle、
SQLServer、MariaDB、SQLite等不同類(lèi)型的數(shù)據(jù)庫(kù),它與阿里云、騰訊云、華
為云、MicrosoftAzuRe、OracleCloud、MongoDBAtlas等云數(shù)據(jù)庫(kù)兼容。
用戶(hù)可以通過(guò)NavicatPremium對(duì)數(shù)據(jù)庫(kù)快速導(dǎo)入和導(dǎo)出DBase、Txt、
CSV、Excel、Xml、Json等格式的數(shù)據(jù),支持簡(jiǎn)單快速地在各個(gè)數(shù)據(jù)庫(kù)系統(tǒng)間傳
輸數(shù)據(jù),其還有數(shù)據(jù)遷移、操作工具、查詢(xún)編輯、數(shù)據(jù)庫(kù)設(shè)計(jì)器、數(shù)據(jù)可視化
工具、數(shù)據(jù)生成工具、安全連接等功能。
1.2.5JypyterNotebook簡(jiǎn)介
JupyterNotebook是一個(gè)以網(wǎng)頁(yè)的形式打開(kāi)的程序,可以直接在網(wǎng)頁(yè)中編
寫(xiě)代碼和操作代碼,代碼的操作結(jié)果將直接顯示在代碼塊下。如果您需要在編
程過(guò)程中編寫(xiě)描述文檔,您可以直接在同一頁(yè)面上編寫(xiě),以便及時(shí)解釋和解釋。
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
2需求分析
2.1可行性需求分析
1、技術(shù)可行性
Python編程語(yǔ)言通俗易懂、是一種動(dòng)態(tài)地面對(duì)對(duì)象的腳本語(yǔ)言。這讓它對(duì)
于爬蟲(chóng)領(lǐng)域有著巨大的明顯的優(yōu)勢(shì),是當(dāng)前爬蟲(chóng)的首選語(yǔ)言。本項(xiàng)目便是利用
Python編程語(yǔ)言采集數(shù)據(jù),將獲取的數(shù)據(jù)暫時(shí)通過(guò)CSV格式存儲(chǔ)起來(lái),然后通
過(guò)NavicatPremium來(lái)進(jìn)行數(shù)據(jù)清洗預(yù)處理,最后通過(guò)Matplotlib和Pycharts
來(lái)進(jìn)行數(shù)據(jù)可視化的展示。
2、項(xiàng)目可行性
本項(xiàng)目主要研究旅游中間商三大頭之一的飛豬旅游網(wǎng)中云南省2022年的
旅游業(yè)的發(fā)展情況,利用爬取網(wǎng)上飛豬網(wǎng)的相關(guān)的景點(diǎn)信息,通過(guò)一些統(tǒng)計(jì)描
述和分析,從各個(gè)景點(diǎn)中獲取需要的數(shù)據(jù),并進(jìn)行數(shù)據(jù)清洗和處理,最后將其
可視化,進(jìn)而為廣大游客提供一個(gè)旅游參考價(jià)值。
2.2采集目標(biāo)功能分析
此次項(xiàng)目的數(shù)據(jù)集來(lái)源于飛豬旅游網(wǎng)站,是通過(guò)Python爬取飛豬旅游網(wǎng)站
中云南景點(diǎn)的信息。爬取50頁(yè)的景點(diǎn)信息,數(shù)據(jù)清洗后共3029條記錄,以此
盡可能保證數(shù)據(jù)可靠性。
本次爬取飛豬旅游網(wǎng)中云南景點(diǎn)的數(shù)據(jù),主要獲得了以下信息:景點(diǎn)名稱(chēng)、
評(píng)分、票價(jià)、評(píng)論數(shù)量、月售、已售、出發(fā)地點(diǎn)、當(dāng)前景點(diǎn)的鏈接。主要目的
是通過(guò)實(shí)際數(shù)據(jù)給想去云南旅游的群眾一些建議以及云南旅游火爆的原因。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
爬蟲(chóng)技術(shù)可以從各種網(wǎng)站抓取用戶(hù)評(píng)論和評(píng)分等信息,幫助用戶(hù)更好地了
解景點(diǎn)的真實(shí)情況,提高用戶(hù)的旅游體驗(yàn)。在對(duì)云南景點(diǎn)數(shù)據(jù)爬取時(shí),我采用
了Requests庫(kù)來(lái)實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的請(qǐng)求。Re是指正則表示式,Python的Re模塊提
供各種正則表達(dá)式的匹配操作,在文本解析、復(fù)雜字符串分析和信息提取時(shí)是
一個(gè)非常有用的工具,Json是一種輕量級(jí)的數(shù)據(jù)交換格式,便于閱讀和書(shū)寫(xiě)同
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
時(shí)也方便機(jī)器進(jìn)行解析和生成。Time庫(kù)是Python中處理時(shí)間的標(biāo)準(zhǔn)庫(kù)。
Requests庫(kù)請(qǐng)求HTML。CSV文件儲(chǔ)存爬取的數(shù)據(jù)。如圖2-1所示。
圖2-1數(shù)據(jù)爬取
2.3.2文件存取技術(shù)
關(guān)于數(shù)據(jù)存取,我是定義一個(gè)名為path的CSV文件,取名為“飛豬數(shù)據(jù)爬
取.csv”將獲取到的數(shù)據(jù)暫存到里面,如圖2-2所示。
圖2-2文件存儲(chǔ)
同時(shí)以防數(shù)據(jù)丟失我也將數(shù)據(jù)存儲(chǔ)到了NavicatPremium中的MySQL數(shù)據(jù)庫(kù)
中,如圖2-3所示。
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖2-3連接數(shù)據(jù)庫(kù)
2.3.3可視化技術(shù)
可視化技術(shù)它可以幫助我們更好地理解數(shù)據(jù),更快速地做出決策??梢暬?/p>
技術(shù)的本質(zhì)就是把數(shù)據(jù)變成圖表,將抽象的數(shù)據(jù)轉(zhuǎn)化成能夠被我們?nèi)庋圩R(shí)別的
模式。
本項(xiàng)目將爬取下來(lái)的數(shù)據(jù)保存在CSV文件中,以防數(shù)據(jù)丟失也可以在
NavicatPremium中新建一個(gè)數(shù)據(jù)庫(kù),將爬取的數(shù)據(jù)存儲(chǔ)到其中,再用查詢(xún)語(yǔ)句
查找出我們需要的數(shù)據(jù),通過(guò)Matplotlib進(jìn)行數(shù)據(jù)分析。
Matplotlib庫(kù)將獲取的數(shù)據(jù)以圖表形式進(jìn)行數(shù)據(jù)分析。
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
3數(shù)據(jù)采集
3.1采集頁(yè)面分析
打開(kāi)MicrosoftEdge瀏覽器,首先搜索飛豬旅游網(wǎng)站并登錄,在搜索欄中
輸入關(guān)鍵字:云南景點(diǎn),如圖3-1所示,其中URL為:
/index.htm?searchType=product&keyword
=%E4%BA%91%E5%8D%97%E6%99%AF%E7%82%B9。可以發(fā)現(xiàn)界面中有全部、跟團(tuán)游、
門(mén)票和一日游這幾種類(lèi)型。
圖3-1數(shù)據(jù)網(wǎng)址頁(yè)面
往下滑動(dòng)鼠標(biāo)到頁(yè)面底部,可以發(fā)現(xiàn)一共有100頁(yè),如圖3-2所示。
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-2數(shù)據(jù)頁(yè)面
按F12調(diào)出開(kāi)發(fā)者工具,刷新頁(yè)面,利用全局搜索工具定位所需數(shù)據(jù)位置,
點(diǎn)擊開(kāi)發(fā)者工具上面的Headers字段,分析這是個(gè)什么請(qǐng)求,發(fā)現(xiàn)這個(gè)是一個(gè)
get請(qǐng)求,那我們需要尋找它的FormData往下翻找,在最后找到了表單數(shù)據(jù)
FormData,如圖3-3所示。
圖3-3開(kāi)發(fā)者工具
3.2字段分析
先進(jìn)入飛豬旅游網(wǎng)站中的云南景區(qū)門(mén)票頁(yè)面,通過(guò)瀏覽器開(kāi)發(fā)者工具等工
具分析其網(wǎng)頁(yè)結(jié)構(gòu),找到需要爬取的數(shù)據(jù)所在的HTML標(biāo)簽及其屬性。景點(diǎn)名稱(chēng)、
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
評(píng)分、票價(jià)、評(píng)論數(shù)量、當(dāng)月銷(xiāo)量、已售、出發(fā)地點(diǎn)以及該景點(diǎn)的鏈接等數(shù)據(jù)
都會(huì)被包含在div標(biāo)簽中,如圖3-4所示。
圖3-4分析數(shù)據(jù)類(lèi)型頁(yè)面
3.3編程實(shí)現(xiàn)
打開(kāi)Pycharm,新建一個(gè)文件,導(dǎo)入所需庫(kù),如圖3-5所示。
圖3-5導(dǎo)入所需庫(kù)頁(yè)面
設(shè)置請(qǐng)求頭,偽裝成瀏覽器訪(fǎng)問(wèn)服務(wù)器,定義path存放所有云南景點(diǎn)數(shù)據(jù),
用于最后數(shù)據(jù)保存循環(huán)網(wǎng)頁(yè),提取100頁(yè)數(shù)據(jù),關(guān)鍵詞為“云南景點(diǎn)”。
使用Python語(yǔ)言中的爬蟲(chóng)框架Json和Requests訪(fǎng)問(wèn)目標(biāo)網(wǎng)站,把需要的
數(shù)據(jù)從HTML文檔中提取出來(lái),并存儲(chǔ)在CSV文件中并導(dǎo)入數(shù)據(jù)庫(kù)中。具體而言,
可以使用XPath或CSS選擇器等定位方式,將目標(biāo)標(biāo)簽的文本內(nèi)容或?qū)傩灾底?/p>
取下來(lái)。
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
4數(shù)據(jù)清洗與處理
對(duì)于爬取到的數(shù)據(jù)進(jìn)行清洗和加工,去除重復(fù)項(xiàng)、空值和錯(cuò)誤數(shù)據(jù),并進(jìn)
行格式化、歸一化和標(biāo)準(zhǔn)化等處理,以便后續(xù)分析和可視化。比如可以使用
Pandas庫(kù)來(lái)進(jìn)行數(shù)據(jù)清洗和轉(zhuǎn)換也可以在MySQL里查找到需要的數(shù)據(jù)并通過(guò)手
動(dòng)清洗來(lái)獲取需要的數(shù)據(jù)。
在當(dāng)今信息化的時(shí)代,企業(yè)、政府、組織等各種機(jī)構(gòu)都在快速積累大量的
數(shù)據(jù)。這些數(shù)據(jù)包含著巨大的價(jià)值,對(duì)于市場(chǎng)調(diào)研、商業(yè)決策、政策制定等方
面都起到了至關(guān)重要的作用。然而,這些數(shù)據(jù)可能存在許多問(wèn)題與不規(guī)則性,
因此進(jìn)行數(shù)據(jù)清洗與處理變得尤為重要。
爬取到的數(shù)據(jù)不可避免地存在一些不完整、重復(fù)或錯(cuò)誤的情況,需要進(jìn)行
數(shù)據(jù)清洗。清洗的目的是減少噪音數(shù)據(jù)對(duì)結(jié)果的影響,提高數(shù)據(jù)的準(zhǔn)確性和可
靠性??梢圆捎肞ython數(shù)據(jù)處理庫(kù)(如Pandas)進(jìn)行數(shù)據(jù)清洗,包括去除重復(fù)
數(shù)據(jù)、填充缺失值、修改格式等。
本項(xiàng)目中爬取下來(lái)的月售和已售的數(shù)據(jù)都包含字符串不是單純的數(shù)值月售
中數(shù)據(jù),所以我在整理好格式問(wèn)題后在MySQL里面把里面的“月售”和“筆”
這兩個(gè)字段刪掉,只留下數(shù)字,這樣便于我之后的數(shù)據(jù)分析。
4.1數(shù)據(jù)清洗
導(dǎo)入CSV文件中的數(shù)據(jù)。觀(guān)察數(shù)據(jù)是否完整,格式有無(wú)問(wèn)題。如圖4-1所示。
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-1數(shù)據(jù)清洗準(zhǔn)備頁(yè)面
從上圖可以看出數(shù)據(jù)排列很亂,表頭和數(shù)據(jù)沒(méi)對(duì)齊容易造成錯(cuò)位,所以我們
需要調(diào)整一下數(shù)據(jù)之間的距離,景點(diǎn)名稱(chēng)過(guò)長(zhǎng)的設(shè)置自動(dòng)換行,以免數(shù)據(jù)太長(zhǎng)
無(wú)法全部展示,清洗好的數(shù)據(jù)如圖4-2所示。
圖4-2數(shù)據(jù)清洗完畢頁(yè)面
4.2數(shù)據(jù)儲(chǔ)存
爬蟲(chóng)通過(guò)解析網(wǎng)頁(yè)獲取頁(yè)面中的數(shù)據(jù)后,還需要將獲得的數(shù)據(jù)存儲(chǔ)下來(lái)以供
后續(xù)分析。
一般保存數(shù)據(jù)的方式有如下幾種:
文件:Txt、CSV、Excel、Json等,保存的數(shù)據(jù)量小。
關(guān)系型數(shù)據(jù)庫(kù):MySQL、Oracle等,保存的數(shù)據(jù)量大。
非關(guān)系型數(shù)據(jù)庫(kù):Mongodb、Redis等鍵值對(duì)的形式存儲(chǔ)數(shù)據(jù),保存的數(shù)據(jù)
量大。
二進(jìn)制文件:保存爬取的圖片、視頻、音頻等格式數(shù)據(jù)。
這里我用to_csv()方法保存清洗后的數(shù)據(jù),文件名為df,如圖4-3所示。
圖4-3數(shù)據(jù)存儲(chǔ)頁(yè)面
4.3編程實(shí)現(xiàn)
讀取源數(shù)據(jù)文件,如圖4-4所示。
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-4讀取數(shù)據(jù)頁(yè)面
顯示前5行數(shù)據(jù),調(diào)整一下格式,會(huì)發(fā)現(xiàn)第一行索引是從0開(kāi)始的,如圖4-5
所示。
圖4-5源數(shù)據(jù)頁(yè)面
數(shù)據(jù)清洗,數(shù)據(jù)可能存在缺失數(shù)據(jù)或異常數(shù)據(jù),清洗就是對(duì)缺失的數(shù)據(jù)和
異常的數(shù)據(jù)進(jìn)行處理。首先用notnull()函數(shù)判斷數(shù)據(jù)中是否存在空值或缺失值,
如圖4-6所示。
圖4-6判斷空值頁(yè)面
因?yàn)榕赖臄?shù)據(jù)量很大,所以難免有些數(shù)據(jù)是重復(fù)的或者不完整的這個(gè)時(shí)候
就可以用dropna()方法刪除含有空值或缺失值的行或列,如圖4-7所示。
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-7刪除空值或缺失值后的頁(yè)面
除此之外,我還在MySQL里面進(jìn)行了數(shù)據(jù)清洗,我先將數(shù)據(jù)拷貝一份到一
個(gè)新的表里面,在fliggy2里進(jìn)行清洗,這樣就保護(hù)了原始數(shù)據(jù),把月售那一
列數(shù)據(jù)中的“月售”和“筆”用空字符代替。另外將月售列是空的改成0這樣
放統(tǒng)計(jì)求和,如圖4-8所示。
圖4-8數(shù)據(jù)清洗頁(yè)面
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5數(shù)據(jù)統(tǒng)計(jì)與分析
5.1數(shù)據(jù)準(zhǔn)備
導(dǎo)入MySQL和Matplotlib庫(kù),連接數(shù)據(jù)庫(kù),如圖5-1所示。
圖5-1數(shù)據(jù)準(zhǔn)備頁(yè)面
5.2數(shù)據(jù)展示
5.2.1依據(jù)景點(diǎn)的月售進(jìn)行統(tǒng)計(jì)和分析
圖5-2景點(diǎn)銷(xiāo)量表
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
從上圖可以看出香格里拉、玉龍雪山、熱帶植物園這三個(gè)景點(diǎn)的銷(xiāo)量是最
高,遠(yuǎn)高于其他景點(diǎn),說(shuō)明這幾個(gè)景點(diǎn)是去云南旅游的必打卡點(diǎn),也是云南的
最具特色的景點(diǎn)。排在后4位的分別是怒江、九龍瀑布、螺絲田、三江。這幾
個(gè)都是地理位置比較偏遠(yuǎn)的自然風(fēng)景,附件的住宿資源較少,選擇的人也較少。
這種自然景觀(guān)一般是不需要門(mén)票的所以這里的月銷(xiāo)售數(shù)據(jù)較少。
香格里拉位于云南省北部的藏區(qū)邊陲城市,被譽(yù)為“人間天堂”,獨(dú)特的
地理位置讓其坐擁雪山、峽谷、草原、森林等多種自然景觀(guān)還有獨(dú)特藏族文化。
吸引眾多游客前往。
5.2.2依據(jù)景點(diǎn)名稱(chēng)進(jìn)行統(tǒng)計(jì)和分析
圖5-3詞云圖
從圖5-3詞云圖中可以看出大理、麗江、西雙版納、昆明這幾個(gè)地方的字
體最大說(shuō)明這幾個(gè)地方的旅游資源最豐富,數(shù)量最多的也是最受歡迎的景點(diǎn)城
市。那是什么原因造就了這么得天獨(dú)厚的旅游資源呢,首先,這些地方擁有得
天獨(dú)厚的自然風(fēng)光。大理的洱海、麗江的玉龍雪山、昆明的石林和西雙版納的
熱帶雨林都是非常壯觀(guān)的景點(diǎn)。這些景點(diǎn)讓游客們可以感受到大自然的鬼斧神
工和美妙絕倫的景色,讓游客們?cè)诼糜沃械玫缴硇牡姆潘伞?/p>
其次,這些地方有獨(dú)特的文化。云南是中國(guó)少數(shù)民族文化的代表地區(qū),大
理和麗江有著淳樸的白族和納西族文化,西雙版納則是傣族文化的發(fā)源地,這
些文化各具特色。在這里,游客們可以親身感受少數(shù)民族的風(fēng)情和文化的獨(dú)特
魅力,這也是吸引眾多游客的重要因素之一。
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
此外,這些地方的美食也是讓游客流連忘返的重要原因。云南美食獨(dú)具特
色,有火鍋、過(guò)橋米線(xiàn)、砂鍋飯、牛肉粉等各種美食。這些美食的特色在國(guó)內(nèi)
外都很有名,吸引了大量的游客前來(lái)品嘗。
最后,這些地方的旅游基礎(chǔ)設(shè)施非常完善,旅游服務(wù)也非常到位。從住宿
到交通,從景區(qū)的管理到導(dǎo)游的服務(wù),這些地方的旅游服務(wù)都是一流的。這也
是讓游客們?cè)诼猛局心軌蛳硎艿绞孢m和便利的重要因素之一。
綜上所述,云南的大理、麗江、昆明和西雙版納之所以是最多人去旅游的
地方,是因?yàn)樗鼈儞碛械锰飒?dú)厚的自然風(fēng)光、獨(dú)特的文化、美味的美食以及完
善的旅游基礎(chǔ)設(shè)施和服務(wù)。這些元素共同構(gòu)成了一種非常吸引人的旅游氛圍,
吸引了越來(lái)越多的游客前來(lái)探索。
5.2.3依據(jù)價(jià)位進(jìn)行統(tǒng)計(jì)和分析
圖5-4價(jià)位銷(xiāo)量表
從圖5-4中可以得知價(jià)格在0-500的銷(xiāo)量最高,可以從兩個(gè)方面來(lái)分析原
因。
從消費(fèi)群體分析,消費(fèi)觀(guān)念的改變。在過(guò)去,人們認(rèn)為旅游是一種奢侈品,
只有富人才能享受。但是,隨著經(jīng)濟(jì)水平的提高和消費(fèi)觀(guān)念的改變,越來(lái)越多
的人開(kāi)始意識(shí)到旅游的重要性,并愿意花費(fèi)一定的費(fèi)用來(lái)享受旅游帶來(lái)的樂(lè)趣
16
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
和益處。此外,千元以?xún)?nèi)的旅游費(fèi)用也比較容易被接受,這也是導(dǎo)致越來(lái)越多
人選擇低消費(fèi)旅游的原因之一。
從云南當(dāng)?shù)氐穆糜钨Y源分析,云南的旅游業(yè)正在迅速發(fā)展。越來(lái)越多的旅
游項(xiàng)目被推出。云南優(yōu)越的地理位置旅游資源豐富,當(dāng)?shù)匚飪r(jià)水平不高,同時(shí),
各大旅游網(wǎng)站和平臺(tái)也不斷推陳出新,提供各種便利的旅游服務(wù),讓人們能夠
輕松地規(guī)劃旅游行程并預(yù)訂酒店和門(mén)票。
5.2.4依據(jù)多日游和一日游的月售占比進(jìn)行統(tǒng)計(jì)與分析
圖5-5一日游與多日游月售占比圖
從上圖可以看出選擇一日游的游客高達(dá)91.6%,而多日游只占8.4%,旅游
方式上,為什么一日游越來(lái)越受到了大家的青睞?首先一日游具有靈活性和高
效性。相對(duì)于多日游,一日游時(shí)間短、計(jì)劃簡(jiǎn)單、花費(fèi)低廉,可以滿(mǎn)足大家周
末短暫放松的需求,不會(huì)耗費(fèi)太多的時(shí)間和精力,因此備受歡迎。其次,一日
游可以更好地結(jié)合工作和休閑。在現(xiàn)代社會(huì)中,工作壓力越來(lái)越大,一些白領(lǐng)
想在繁忙的工作之余找到一些放松的機(jī)會(huì),一日游正好能夠滿(mǎn)足這一需求。短
時(shí)間的旅游可以讓人們更好地平衡工作和生活,減輕壓力,提高效率和創(chuàng)造力。
再者,一日游的行程安排多樣化,滿(mǎn)足不同人的需求。一些年輕人喜歡戶(hù)
外探險(xiǎn)、徒步旅行;一些年長(zhǎng)者喜歡觀(guān)賞美景、品嘗美食。而一日游通常會(huì)有
多個(gè)行程安排,旅游公司也會(huì)針對(duì)不同人群需求,制定不同的行程方案,滿(mǎn)足
不同人的興趣愛(ài)好。一日游能夠滿(mǎn)足現(xiàn)代人的短暫休閑需求、平衡工作和生活、
多樣化的行程安排等需求。因此,一日游越來(lái)越受到大家的青睞,成為現(xiàn)代人
放松、休閑、娛樂(lè)的重要方式。
17
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 雙十一勝局人資策略
- 2024年限定版農(nóng)業(yè)耕地承租協(xié)議版B版
- 農(nóng)產(chǎn)品逆襲雙十二
- 科技創(chuàng)新的領(lǐng)航者
- 外墻磚采購(gòu)合同(2篇)
- 多測(cè)合一合同(2篇)
- 2024車(chē)輛管理代理協(xié)議樣本版B版
- 2025年昌平區(qū)食堂食品安全風(fēng)險(xiǎn)評(píng)估與監(jiān)控合同3篇
- 專(zhuān)用陶瓷杯子采購(gòu)協(xié)議模板2024版B版
- 上海二手房代理居間合同2024年版版B版
- 附著式升降腳手架課件
- 重慶市渝北區(qū)六校聯(lián)盟2024-2025學(xué)年八年級(jí)上學(xué)期12月月考數(shù)學(xué)試題
- 2024年山東省聊城市中考英語(yǔ)真題含解析
- 成本經(jīng)理招聘面試題及回答建議(某大型央企)2025年
- 安徽省蕪湖市2023-2024學(xué)年高一上學(xué)期期末考試 地理 含答案
- 全新標(biāo)前協(xié)議書(shū)范本下載
- 企業(yè)反恐安全經(jīng)費(fèi)使用制度
- 痛風(fēng)課件教學(xué)
- 2024公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)實(shí)施方案
- 學(xué)校食堂從業(yè)人員培訓(xùn)制度
- 中國(guó)郵票JT目錄
評(píng)論
0/150
提交評(píng)論