房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析_第1頁
房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析_第2頁
房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析_第3頁
房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析_第4頁
房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

目錄

1引言1

1.1項目背景1

1.2開發(fā)環(huán)境與工具2

1.2.1Python簡介2

1.2.2Jypyternotebook簡介2

1.2.3Python第三方庫簡介3

2需求分析3

2.1可行性需求分析3

2.2采集目標功能分析4

2.3關(guān)鍵技術(shù)分析4

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)4

2.3.2文件存取技術(shù)5

2.3.3可視化技術(shù)6

3數(shù)據(jù)采集7

3.1采集頁面分析7

3.2字段分析9

3.3編程實現(xiàn)10

4數(shù)據(jù)清洗與處理13

4.1數(shù)據(jù)清洗13

4.2數(shù)據(jù)儲存14

5數(shù)據(jù)統(tǒng)計與分析15

5.1數(shù)據(jù)準備15

5.2數(shù)據(jù)展示16

5.2.1根據(jù)樓盤銷售狀態(tài)的數(shù)量進行統(tǒng)計16

5.2.2依據(jù)各銷售狀態(tài)的均價進行統(tǒng)計17

5.2.3據(jù)新房價格分布進行統(tǒng)計和分析18

5.2.4依據(jù)單價價格前20樓盤位置進行統(tǒng)計19

I

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

5.2.5根據(jù)戶型數(shù)量進行統(tǒng)計20

5.3本章小結(jié)21

6小結(jié)21

參考資料23

II

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析

1引言

21世紀已然過去20年,全球在這20年里發(fā)展迅速,我國也同樣進入信息

大爆炸時段,從以前的只聞耳邊事,到現(xiàn)在的知天下事??萍嫉难杆侔l(fā)展帶給

人們更便捷,更舒適的生活體驗。我國雖然1997年才介入互聯(lián)網(wǎng),到2017年

互聯(lián)網(wǎng)的普及率才過半,但經(jīng)過斷斷幾年的發(fā)展,我國從無到有,再到如今的

飛躍。同時隨著互聯(lián)網(wǎng)的發(fā)展,我國也以驚人的速度成長起來,成為大國。

個人的穿衣風格、食物喜好、娛樂選擇,匯聚為個人數(shù)據(jù),那么全球70億

人口的所有數(shù)據(jù)集合便是一個龐大無比的數(shù)據(jù)庫。從這個巨大的數(shù)據(jù)庫中觀察,

便可發(fā)現(xiàn)許多珍貴的信息,尤其是人們的衣食住行、衛(wèi)生醫(yī)療、娛樂項目等等,

其中的價值可開發(fā)性巨大。也因此,互聯(lián)網(wǎng)專業(yè)人才從幾年前的供不應(yīng)求的狀

態(tài)變成現(xiàn)在的飽和,正式人們看到了數(shù)據(jù)的未來的發(fā)展空間大。隨著發(fā)展,人

們的喜好會變,因此數(shù)據(jù)也會增加改變,發(fā)掘性也一直存在。

1.1項目背景

住房一直以來都是人們普遍關(guān)注的事,房子通常給人的感覺是溫暖、安全,

因此人們來到一個新城市的第一件事就是找到居住的房子。對于工作的年輕人,

通常都想在當?shù)負碛幸粋€屬于自己的房子,而擁有房子,也讓婚姻有了保障,

讓夫妻在此培養(yǎng)下一代。

沿海省份普遍比內(nèi)陸省份發(fā)展高,工作薪資一般也比內(nèi)陸高。如今人們生

活離不開住房,但近幾年的售房率卻大大下降。在以往,尋找工作的年輕人的

選擇一般都為沿海省份城市,找到工作,然后買一間自己的小屋,所以房地產(chǎn)

行業(yè)經(jīng)久不衰。對于購房者,買方需要滿足自己的需求,周圍環(huán)境、朝向、交

通、醫(yī)療距離,都是購房的考慮要素。

這也是我將這作為畢設(shè)的原因,生活離不開住房,對房屋的各項分析便于

人更加清晰的了解房子,從而作出自己的選擇,房產(chǎn)公司也可通過分析了解人

們的隱形需求,以便未來發(fā)展。

1

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python由荷蘭數(shù)學和計算機科學研究學會的吉多·范羅蘇姆于1990年代

初設(shè)計,作為一門叫做ABC語言的替代品。因為是從ABC發(fā)展起來的,因此受

到了Modula-3的影響,結(jié)合了UnixShell和C的習慣。

Python是一種十分優(yōu)美的語言,其豐富的模塊和其他語言難以描述的列表、

字典等復(fù)雜的數(shù)據(jù)類型,在近年得到廣泛運用。它具有開源、免費、功能強大、

語法簡潔清晰、簡單、數(shù)據(jù)類型豐富、面向?qū)ο蟮忍攸c。而且它還有十分豐富

的資源包,無論用戶要干什么,基本都能找到一個程序包滿足自己。

隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的信息被發(fā)布到互聯(lián)網(wǎng)上,信息含量越

來越密集。而大數(shù)據(jù)技術(shù)所設(shè)計的數(shù)據(jù)獲取、數(shù)據(jù)清洗、可視化處理里,都有

這python的存在,足以證明python的應(yīng)用廣泛性。在如今,python已經(jīng)成為

了最受歡迎的程序語言之一,在國外,很多做科學計算的科研機構(gòu)都會選擇使

用python,一些知名大學也采取了用python教授設(shè)計課程的措施。眾多開源的

科學計算軟件包都提供了python的調(diào)用接口。同時,NumPy、SciPy和

matplotlib這三個經(jīng)典的科學計算擴展庫為python提供了快速數(shù)組處理、數(shù)值

運算已經(jīng)繪圖功能,這是人們更加愿意使用python。

最后,python曾在2022年超越Java,在最新的榜單中,python在PYPL指

數(shù)榜中斬獲冠軍,成為最火熱的計算語言。并且隨著python的繼續(xù)開發(fā),從事

的工作崗位及內(nèi)容也增多。大數(shù)據(jù)技術(shù)的未來發(fā)展空間巨大,也正是因為python

在許多方面大有發(fā)揮之處,現(xiàn)在的python相關(guān)職位也炙手可熱。

1.2.2Jypyternotebook簡介

Jupyternotebook從本質(zhì)上來說是一個Web程序,便于創(chuàng)建和共享程序

文檔,支持實時代碼,教學方程,可視化和markdown的應(yīng)用程序其最大的優(yōu)點

是可以重現(xiàn)整個分析過程,并將說明文字、代碼、圖表。公式和結(jié)論都整合在

一個文檔中。用戶可以通過墊子郵件等方法將數(shù)據(jù)結(jié)構(gòu)分享給其他人。相較于

其他的數(shù)據(jù)清洗方式,jypyternotebook更加方便。它支持markdown語言,可

以在編輯代碼的同時,可以為代碼注釋。而且jypyternotebook執(zhí)行代碼不會

將注釋一起執(zhí)行,這使教學更加易懂,講解項目時也簡單明確。

對于大數(shù)據(jù)技術(shù)的工作人員,在收集了大量數(shù)據(jù)后,用jypyternotebook

2

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

來清洗數(shù)據(jù)十分廣泛,畢竟它除了可以清洗、處理數(shù)據(jù)外,還可以可視化,如

此方便、快捷的程序深受歡迎。

由于Anaconda中自帶jypyternotebook,所以用戶可以直接在當前的系統(tǒng)

中安裝Anaconda環(huán)境,這樣就默認擁有了了jypyternotebook,不需要另行下

載和安裝。當然如果不想要Anaconda,可直接前往官網(wǎng)安裝,都是可行的。

1.2.3Python第三方庫簡介

Requests庫:是一個原生的HTTP庫,比urllib3庫更容易使用,且無須手

動為URL添加查詢字符,也不需要對POST數(shù)據(jù)進行表單編碼。相較于urllib3

庫,它擁有完全自動化的Keep-Alive和HTTP連接池的功能。

Xpath:XML路徑語言是一門在XML文檔中查找信息的語言,Xpath的選擇

功能強大,它提供了非常簡潔明了的路勁選擇表達式,還提供了超過100個內(nèi)

建函數(shù),幾乎所有定位都可以用Xpath來選擇。

Csv:csv屬于python內(nèi)置模塊之一,它可以在python中讀取csv格式的

文件,也可以將數(shù)據(jù)存儲為csv可是文件。Csv文件是常見的數(shù)據(jù)存儲的文件格

式。

NumPy庫:具有矢量算術(shù)能力和復(fù)雜的廣播能力,可以進行部分科學計算。

而且它還擁有對高維數(shù)組的處理能力。比python標準款操作性更高。

pandas:基于MumPy的庫,專門解決數(shù)據(jù)分析任務(wù),它不僅加入了大量的

庫和一些標準模型,還提供了高效操作大型數(shù)據(jù)所需的工具。

pycharts:繪圖庫,可繪制柱狀圖、條形圖、餅圖、箱型圖等可視圖。

Bar、Pie、:生成柱狀圖、餅圖。

pylab:它能設(shè)置畫圖讓文字顯示中文。

2需求分析

2.1可行性需求分析

1、技術(shù)可行性

面向?qū)ο竦恼Z言中python相對其他計算機編程語言通俗易懂些,本次項目

用python編寫程序來獲取數(shù)據(jù),以及數(shù)據(jù)的清洗預(yù)處理和可視化。對網(wǎng)頁進行

數(shù)據(jù)獲取需要事先設(shè)置反爬,以防ip封禁。網(wǎng)頁為靜態(tài)網(wǎng)頁,因此不需要像動

態(tài)網(wǎng)頁那么復(fù)雜,通過向瀏覽器控制臺發(fā)生請求和獲取參數(shù),得到房天下杭州

3

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

新房網(wǎng)頁的數(shù)據(jù)返回值。再通過xpath路徑獲取所需的新房數(shù)據(jù),通過去空格、

保留所需字符等操作,將爬取出的數(shù)據(jù)存以csv格式文件,后續(xù)再進行數(shù)據(jù)預(yù)

處理清洗和可視化分析數(shù)據(jù)。

以上為本次項目的技術(shù)可行性,我將在接下來的工作中將以上步驟實現(xiàn)到

位,確保數(shù)據(jù)的準確性、有序性和安全性。

2、項目可行性

教育、住房、醫(yī)療一直是人民所關(guān)注的、關(guān)心的,也是我們國家發(fā)展的必要

領(lǐng)域。安小家成大家,生活中方方面面都涉及到住房,教育、醫(yī)療都離不開住

房。而我國人民一直都高度關(guān)注住房問題,尤其近幾年售房數(shù)有所下降。

此次項目收集群眾看房頻率較高的一家售房網(wǎng)站房天下網(wǎng)站,沿海城市杭

州的新房數(shù)據(jù)。我們將從目前正在銷售的新房和未來進入銷售行列的新房的數(shù)

量、價格、分布區(qū)域進行深度分析,得到有用的信息,然后可視化得到更為直

觀的信息結(jié)論。

2.2采集目標功能分析

此次項目的數(shù)據(jù)來源房天下網(wǎng)網(wǎng)站,通過用python爬取其網(wǎng)站下杭州城市

新房的數(shù)據(jù)信息。經(jīng)過數(shù)據(jù)清洗后留下了926條數(shù)據(jù),獲取的數(shù)據(jù)盡可能的檢

查數(shù)據(jù)的準確性,確保爬取的數(shù)據(jù)準確、一一對應(yīng)且的確為杭州新房的新房各

類數(shù)據(jù)的信息。

獲取房天下杭州新房的房產(chǎn)信息,確定我爬取的房產(chǎn)數(shù)據(jù)為樓盤名稱、戶

型、面積、價格、房屋類型、區(qū)域、地址、銷售狀態(tài),在對爬取后的原信息進

行處理后,對其進行多方面的分析。例如正處于在售和待售的新房數(shù)量,在售

及待售平均單價為多少,這樣可以看出該城市新房的平均單價處于哪個范圍,

購房者是否支撐得起購房所需的金額,查看每平米單價價格前二十的樓盤名稱,

以及它們多分布在城市的區(qū)域位置??煽闯鑫磥矸慨a(chǎn)發(fā)展方向及城市規(guī)劃,助

于人們未來居住區(qū)域的規(guī)劃。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

如今網(wǎng)上的東西繁多,在瀏覽自己喜歡或需要的網(wǎng)頁時,難免遇到要緩存

到本地的數(shù)據(jù),數(shù)量小還可以手動自己去下載保存,但遇到龐大的數(shù)據(jù)是,手

動保存費事費力,好幾個G甚至T的單位的數(shù)據(jù)若要進行手動幾乎難以實現(xiàn),

4

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

這時候爬蟲就體現(xiàn)了它的重要性,使用爬蟲自動獲取數(shù)據(jù)可比手動快,準確性

也高,哪怕發(fā)生錯誤,也可重新爬取,省時又省力。

網(wǎng)絡(luò)爬蟲素有網(wǎng)絡(luò)蜘蛛和網(wǎng)絡(luò)機器人之稱,是一個可實現(xiàn)自動化下載網(wǎng)頁

的計算機程序或者自動化腳本。只需編寫出正確的代碼,網(wǎng)絡(luò)蜘蛛就會如同一

只蜘蛛一樣在互聯(lián)網(wǎng)上爬行,去瀏覽那龐大的互聯(lián)網(wǎng),并且將網(wǎng)頁中的數(shù)據(jù)進

行精準、準確的采集。如今的網(wǎng)絡(luò)爬蟲大致分為四種:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)

絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲,其分類是按照系統(tǒng)的結(jié)構(gòu)和運作原

理劃分。

談起網(wǎng)絡(luò)爬蟲大多數(shù)人第一反應(yīng)是——黑客,但普通的網(wǎng)絡(luò)爬蟲不能與黑

客混為一談。黑客是屬于違法行為,那些黑客們違法獲取個人信息或者某些組

織的重要信息售賣進行營利。若要將大數(shù)據(jù)比作女友,那么普通的網(wǎng)絡(luò)爬蟲便

是通過正規(guī)追求方式并獲得首肯的男友,而黑客就是違法犯罪的掠奪,二者有

著本質(zhì)上的區(qū)別。當然在進行爬蟲是還要設(shè)置反爬或者設(shè)置睡眠緩沖時間,否

則以極高的頻率去重復(fù)訪問瀏覽器,會造成壓力,還會倍客戶端認為是惡意攻

擊行為,導致服務(wù)器自動關(guān)機或者ip封禁。

網(wǎng)絡(luò)爬蟲在不同的場景會發(fā)揮其不同的作用,例如大學生放假前的搶票、

追星人給喜愛的明星投票、購物促銷時的限時搶購、名額有限的報名等等。同

樣也有壞的影響,歌手演唱會惡意大量搶購然后高價售出的黃牛行為、持續(xù)不

斷地信息騷擾?;ヂ?lián)網(wǎng)有利有弊,爬蟲也是如此的,因此我們技術(shù)人員要知法、

守法,不要作出違法行為,哪怕技術(shù)高超,有著超越絕大多數(shù)人的能力,也要

控制自己,不要踏入罪惡的深淵。

有爬蟲就有反爬蟲,一家公司設(shè)計網(wǎng)頁時肯定想到過他人會爬取網(wǎng)頁,那

么就會設(shè)制防守機制,反爬就是繞過防守機制獲取自己所需商務(wù)數(shù)據(jù)。反爬策

略有多種,發(fā)送模擬User-Agent、調(diào)整訪問頻率、通過驗證碼校驗、應(yīng)對網(wǎng)站

結(jié)構(gòu)變化、通過賬號權(quán)限限制、通過代理IP規(guī)避等。這些反爬技術(shù)雖說會極大

寫工作量,但為了更好的獲取數(shù)據(jù),這些也在所難免。對于部分小網(wǎng)站,設(shè)置

一個簡單的反爬獲取數(shù)據(jù),既不會造成太大的成本也會使我們操作簡單些。

2.3.2文件存取技術(shù)

Python內(nèi)置csv模塊如圖2-1顯示:

5

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖2-1python內(nèi)置csv模塊及添加表頭

圖2-2python內(nèi)為csv文件

存儲數(shù)據(jù)內(nèi)容

2.3.3可視化技術(shù)

將爬取后的數(shù)據(jù)進行預(yù)處理后,我們?nèi)匀徊荒苤苯拥玫轿覀冃枰姆治鼋Y(jié)

果,因此我們?yōu)榱烁又庇^的得出結(jié)論,將數(shù)據(jù)可視化就能實現(xiàn)一目了然的分

析結(jié)論。

可視化就是將數(shù)據(jù)整理繪制出各類圖形,其主要數(shù)據(jù)都直接的顯示在圖中,

而一副圖可得出的信息不僅僅只有顯示出來的那些,一些隱含的數(shù)據(jù)也會在可

視圖中展露身影。

哪怕在我們預(yù)處理后的數(shù)據(jù)有序,但數(shù)據(jù)集龐大,幾百上千條的數(shù)據(jù)還是

各數(shù)據(jù)都在一起,若要盯著一條數(shù)值去看上上百條,也是繁冗枯燥的,何況要

分析得出結(jié)論,幾乎無法實現(xiàn)。為此,我們導入之后要利用到的第三方庫,將

數(shù)據(jù)提取出關(guān)鍵的數(shù)字、字符,然后根據(jù)提取出的數(shù)字、字符進行統(tǒng)計、排序,

然后思考選擇怎樣的幾何圖形才能更好的、直觀的表達我們所需要的信息,接

著編譯、繪制圖形。

隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量已經(jīng)擴大了50倍,如今哪怕單一數(shù)據(jù)集的規(guī)模

都達到了幾十TB到數(shù)PB不等,何況數(shù)據(jù)有復(fù)雜類型繁多,可視化技術(shù)也必須

隨之進步。這么多年來,可視化技術(shù)也發(fā)展成了三類:科學可視化、信息可視

化、可視化分析。本項目用到的是信息可視化,專門對非結(jié)構(gòu)、非幾何的數(shù)據(jù)

對象進行處理,減少由于數(shù)據(jù)復(fù)雜而混淆視覺的信息的干擾。

我們這次也僅是將數(shù)據(jù)簡單的用可視化技術(shù)來實現(xiàn)數(shù)據(jù)可視化,用到的是

python的第三方庫pyecharts庫來進行可視化分析,pyecharts內(nèi)有許多的庫,

除了本次使用到的餅圖、條形圖,還有柱狀圖、折線圖、箱型圖等,這寫都可

以快捷的將數(shù)據(jù)展示出來,它的圖形呈現(xiàn)的數(shù)據(jù)結(jié)果一目了然,分析然后得出

6

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

結(jié)論。

3數(shù)據(jù)采集

3.1采集頁面分析

我們首先利用谷歌瀏覽器搜索房天下網(wǎng)站網(wǎng)頁,接著找到杭州的新房頁面

觀察圖3-1,其URL為:/house/s/。

圖3-1數(shù)據(jù)網(wǎng)址頁面

找到并點擊頁面下方的分頁鍵,網(wǎng)頁更新后觀察URL,發(fā)現(xiàn)URL有所變化,觀

察圖3-2,頁面URL變?yōu)椋?house/s/b92/。

7

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖3-2第二頁的網(wǎng)址頁面

因此我們從分頁行列點擊上頁回到第一頁,發(fā)現(xiàn)URL只有最后一個數(shù)字的

變化,如圖3-3。

圖3-3第一頁網(wǎng)址頁面

右擊彈出窗口點擊檢查跳出開發(fā)者工具,刷新頁面,如圖3-4。

8

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖3-4開發(fā)者工具

因此我們進行爬蟲爬取網(wǎng)址根據(jù)換頁后的網(wǎng)址進行編寫。

3.2字段分析

前往網(wǎng)頁頁面在選項欄中選擇網(wǎng)頁,將欄目定位在新房信息處,刷新后再

開發(fā)者工具界面的上方選項欄中選擇Preview鍵,找到新房信息起始處,如圖

3-5,可以發(fā)現(xiàn)我們所要的房產(chǎn)數(shù)據(jù)信息網(wǎng)站是get響應(yīng)網(wǎng)站,這使我們接下來

的爬取數(shù)據(jù)提供了很大的方便,因此我們可以根據(jù)此特點,利用Requests中的

get請求來獲取網(wǎng)頁響應(yīng),再一一利用xpath爬取所需數(shù)據(jù)。

9

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖3-5分析數(shù)據(jù)類型頁面

將樓盤名稱、戶型、面積、價格、房屋類型、區(qū)域、地址、銷售狀態(tài)的數(shù)

據(jù)爬取,整理后將所有數(shù)據(jù)按照順序?qū)戇Mcsv格式的文件中,保證每條數(shù)據(jù)都

是準確對應(yīng)的。

圖3-6房屋字段內(nèi)容

3.3編程實現(xiàn)

導入所需要使用的庫

圖3-6導入所需要使用的庫頁面

設(shè)置請求頭,利用模擬User-Agent來通過瀏覽器的檢驗。

圖3-7請求頭內(nèi)容頁面

代碼實現(xiàn)如下:

importcsv

fromlxmlimportetree

importurllib3

10

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

importre

url='/house/s/b9{}/'

headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36

(KHTML,likeGecko)Chrome/Safari/537.36',

'cookie':"global_cookie=486nggyqlvkzehh1jmvkryzuk1tlee1au8i;engine_source_coo

kie=baidu;sf_source=baidu;__utma=147393320.1008477909.1676971114.16

76975563.1677054963.4;__utmc=147393320;__utmz=147393320.16770549

63.4.2.utmcsr=baidu|utmccn=(organic)|utmcmd=organic;__utmt_t0=1;__utmt

_t1=1;__utmt_t2=1;city=hz;csrfToken=dNkmJQKuYiS7ybIEHQ60Zo0E;

g_sourcepage=xf_lp^lb_pc';__utmt_t3=1;__utmt_t4=1;unique_cookie=U_ygp

fb7hzks3lc7lu8o1gydp2o11leff81d4*4;__utmb=147393367705496

3",

'referer':'/'}

##為csv文件添加表頭

header=('樓盤名稱','戶型','面積','價格','房屋類型','區(qū)域','地址','銷售狀態(tài)')

withopen('房天下.csv',mode='a',encoding='utf-8_sig',newline='')asf:

csv_writer=csv.writer(f)

csv_writer.writerow(header)

foriinrange(1,48):

url1=url.format(i)

http=urllib3.PoolManager()

res=http.request('GET',url1,headers=headers)

#print(res.status)

html=etree.HTML(res.data,parser=etree.HTMLParser(encoding='utf-8'))

a=html.xpath('//*[@class="nl_conclearfix"]/ul/li')

#print(a)

forjina:

##樓盤名稱

house_name=j.xpath('normalize-space(.//*[@class="nlcd_name"]/a/text())')

#print(house_name)

##房子戶型

h_type=j.xpath('.//*[@class="house_typeclearfix"]/a/text()')

house_type='-'.join(h_type)

#print(huxing)

##房子面積

h_area=j.xpath('.//*[@class="house_typeclearfix"]/text()')

h_area2=[x.strip()forxinh_areaifx.strip()!='\t']

11

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

ar=re.search('[\d~平米]+',str(h_area2))

ifar==None:

house_area='None'

else:

house_area=ar.group()

#print(house_area)

##房子價格

h_price=j.xpath('.//*[@class="nhouse_price"]/*/text()')

house_price='|'.join(h_price)

#print(house_price)

##房源

fy=j.xpath('.//*[@class="fangyuan"]/a/text()')

fangyuan='/'.join(fy)

#print(fangyuan)

##房子區(qū)域和地址

ar=j.xpath('normalize-space(.//*[@class="address"]/a/@title)')

ar2=re.sub('[a-zA-Z]','',str(ar))

h_address=str(ar2).strip('[]')

##區(qū)域

house_district=h_address[:2]

##地址

house_address=h_address[2:]

#print(house_address)

#print(house_district)

##銷售狀態(tài)

house_sale=j.xpath('normalize-space(.//*[@class="fangyuan"]/span/text())')

#print(house_sale)

#print(house_name,house_type,house_area,house_price,

#fangyuan,house_district,house_address,house_sale)

#withopen('房天下.csv',mode='a',encoding='utf-8_sig',newline='')asf:

#csv_writer=csv.writer(f)

#csv_writer.writerow([house_name,house_type,house_area,house_price,

#fangyuan,house_district,house_address,house_sale])

12

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

4數(shù)據(jù)清洗與處理

得到了大量的數(shù)據(jù)后,則需要對數(shù)據(jù)進行相關(guān)的處理,檢查獲取的數(shù)據(jù)是

否錯誤、以及是否有空值,行數(shù)據(jù)是否對應(yīng)。只有數(shù)據(jù)準確無誤,才能正確的

分析數(shù)據(jù),得出有用的結(jié)果。然后,將數(shù)據(jù)按要求整理,是它們有序性、清晰

性,這樣在后續(xù)的可視化中更方便的進行可視化,也使對數(shù)據(jù)進行調(diào)用開發(fā)的

人員同樣方便快捷、清晰易懂。

在此次項目中,我們要把數(shù)據(jù)和原網(wǎng)址的數(shù)進行比對,查看數(shù)值是否錯誤、

是否存在空缺、數(shù)據(jù)錯亂。并在對它們進行其對應(yīng)的修正措施,然后再根據(jù)我

們需要的分析目的進行處理。

4.1數(shù)據(jù)清洗

圖4-1數(shù)據(jù)清洗準備頁面

經(jīng)過數(shù)據(jù)比對和檢查后,發(fā)現(xiàn)數(shù)據(jù)沒有發(fā)生缺失,錯位以及空值,那么我們

接下來將有效的數(shù)據(jù)保留,將不要的數(shù)據(jù)去掉,以防發(fā)生數(shù)據(jù)的冗余,以及后

續(xù)分析過程的失誤。保留好整理后的數(shù)據(jù),重新存為列表,留以后續(xù)的統(tǒng)計分

析、可視化處理。

13

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖4-2數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲存

數(shù)據(jù)儲存方法有很多種類,例如我們常見txt儲存,也就是記事本格式儲存,

當然還有替他格式的存儲方法,例如數(shù)據(jù)庫、excel、json等儲存方式,對于數(shù)

據(jù)較多的儲存,數(shù)據(jù)庫雖然為一個不錯的選擇,但容易出現(xiàn)錯誤,以及容易發(fā)

生數(shù)據(jù)庫密碼忘記的記憶錯誤。因此此次采取的事通過python進行數(shù)據(jù)爬取后,

直接在python內(nèi)進行csv存儲,添加每列數(shù)據(jù)的表頭,一遍csv表中的數(shù)據(jù)明

了。本次使用到的項目是csv。

如圖4-3所示:

圖4-3數(shù)據(jù)存儲為csv儲存頁面

14

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖4-4數(shù)據(jù)存儲csv頁面

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準備

導入相關(guān)的要使用的庫,讀取csv文件,讀取前十條數(shù)據(jù),如圖5-1、5-2。

圖5-1數(shù)據(jù)準備頁面

15

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖5-2數(shù)據(jù)加載頁面

5.2數(shù)據(jù)展示

5.2.1根據(jù)樓盤銷售狀態(tài)的數(shù)量進行統(tǒng)計

圖5-3數(shù)據(jù)展示頁面

將在表格中價格待定的樓盤刪去,匯總成一個新的表格,將表格的銷售狀

態(tài)的字段數(shù)據(jù)進行匯總和處理然后將其統(tǒng)計出現(xiàn)的頻率,最后生成特定序列,通

16

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

過特定序列里面的數(shù)據(jù)參照頻率繪制出銷售狀態(tài)的數(shù)量圖。根據(jù)圖發(fā)現(xiàn),杭州

的新房待售的數(shù)量比在售的多,在后續(xù)的樓盤進一步開放售賣中,這些待售的

樓盤將是個房產(chǎn)行業(yè)的主要宣傳對象。

由于近年來可供房地產(chǎn)建新房的土地逐年下降,因此對于房產(chǎn)行業(yè)來說,

現(xiàn)有的待售的房產(chǎn)是保障未來繼續(xù)發(fā)展的保障,在得到新的可用于建房的土地

前,要計劃好手中的待售樓盤開放頻率。而對于購房者來說,待售樓盤也是考

慮范圍內(nèi)的,在人群居多的地方,各類生活服務(wù)也會緊隨而至,區(qū)域的經(jīng)濟便

會隨人數(shù)增多發(fā)展。

5.2.2依據(jù)各銷售狀態(tài)的均價進行統(tǒng)計

圖5-4數(shù)據(jù)展示頁面

由圖5-4可以看出,待售的每平米的平均單價比在售的每平米平均單價高,

在待售房比在售房多出91的數(shù)量上,在售的均價比待售的少了3500元左右。

由此可見,在售房雖然數(shù)量少,但價格普遍高,導致在低了近100的數(shù)量上只

低了4000不到。

在售的每平米的單價平均為27000元,但我國7億多勞動人口,月薪資達

到5000元的人數(shù)占比不到10%,每月的工資除去生活花費后,所能存下的數(shù)額

非常少,這讓現(xiàn)在的人們買方更加困難,哪怕有著房貸的存在,背負房貸的時

長長達數(shù)十年,這更加讓月薪不多的人們生活更加困難。同時由于可供建房的

土地減少,房產(chǎn)商們或許會因為土地減少而增加每平米單價。商家增加房子價

格,買家因高額的房價放棄買方,這會使購房率持續(xù)下降,形成惡性循環(huán)。

17

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

5.2.3據(jù)新房價格分布進行統(tǒng)計和分析

圖5-5數(shù)據(jù)展示頁面

圖5-5可以看出,新房的單價價格分布在20000~40000元區(qū)間,40000元以

上的房價較少,10000元至20000元的樓盤相對于40000元以上的多,而有的房

價甚至達到了12萬元每平米。

如上述所說,我國有90%的人每月薪資不足5000元,但新房市場上的房子

普遍在20000元每平米到40000元每平米,而對于這部分人來說,一年除去花

銷所攢下的金額不足5萬元,而一間房通常幾十平米,一年攢下的金額無法滿

足一個人的購房需求。近年來,購房率下降,房產(chǎn)行業(yè)面臨無人購房的處境,

與高房價、低薪資離不開關(guān)系,有人調(diào)查過,相對于8、90年代,房子的價格

上漲了將近500倍,而薪資卻漲了3倍,薪資漲幅于房價漲幅相差極大,導致

人們買方難。同時,因為生活物價上漲,年經(jīng)人生活普遍壓力大,導致結(jié)婚率

下降,買方的主力軍——婚姻下降,本來的因婚姻買方的占比下降,更是導致

購房率下降。

18

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

5.2.4依據(jù)單價價格前20樓盤位置進行統(tǒng)計

圖5-6數(shù)據(jù)展示頁面

我們將前20的樓盤的區(qū)域位置進行統(tǒng)計,發(fā)現(xiàn)有一半的樓盤建在上城區(qū),

西湖的有四個,其次就是拱墅的三個。由此可知,大多地產(chǎn)開發(fā)商都趨向于在

上城修建新房。

辦公區(qū)、學校、醫(yī)院周邊通常會成為房產(chǎn)商建設(shè)新房的目標,因為人們住

房都會選擇離工作近、交通方便的地方,有孩子的家庭則更多選擇學校附近,

而單價前20的樓盤有一半在上城,經(jīng)濟越是發(fā)達的區(qū)域,房價也是更高,由此

可看出,上城的經(jīng)濟發(fā)展高于其他地區(qū),周邊的衛(wèi)生條件、社區(qū)服務(wù)也是相對

會高于其他地區(qū)。西湖、拱墅數(shù)量相差一,其經(jīng)濟狀況或許比不過上城,但也

有較高水平,何況杭州作為沿海省份城市,城市經(jīng)濟相對較高。但由于高薪資

人群少,所以,哪怕上城有多處新房銷售,不同人家也是望文卻步。

19

湖南商務(wù)職業(yè)技術(shù)學院畢業(yè)設(shè)計

5.2.5根據(jù)戶型數(shù)量進行統(tǒng)計

圖5-5數(shù)據(jù)展示頁面

根據(jù)圖5-5數(shù)據(jù)可知,在這些樓盤總,絕大多數(shù)支持三居或四居的房屋室

內(nèi)戶型,而又100多個樓盤只支持三居室、四居室戶型,而排在前四的都是都

是支持多居室的戶型,而支持多類戶型的樓盤只有一兩個。

如今購房的目的多為婚姻家庭,購房者的家庭多為夫妻式家庭組合,因此

三居、四居的購房者居多,且人們普遍認為,婚姻要有新房才能有未來,房產(chǎn)

商們也正是抓住這點,建設(shè)的房屋多為家庭設(shè)戶型。但由于今年來結(jié)婚率下降,

青年人普遍單身,購房便不是必要選擇。再者,近年來女性購方率升高,女性

購方普遍為個人居住,因此,一居室、兩居室的戶型房將會受到大量青年人歡

迎。但不排除合租式居住,購房者將新房買下,將其出租給他人,合租人太多

易發(fā)生矛盾,因此三居、四居為主要選擇,所以三、四居式房屋仍不會無人訪

問。

五居房多為三代式家庭居住,但愿意與長輩居住一起的人甚少,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論