版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)應(yīng)用基礎(chǔ)項目四
Python應(yīng)用基礎(chǔ)04Python編程語言簡介
網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。
網(wǎng)絡(luò)爬蟲工具分類主要包括:Java網(wǎng)絡(luò)爬蟲工具和Python爬蟲工具。Python編程語言簡介
Python是一門開源免費(fèi)的腳本編程語言,它不僅簡單易用,而且功能強(qiáng)大。
隨著大數(shù)據(jù)和人工智能的興起,在2020年12月份世界編程語言排行榜中,Python排名第三,僅次于C和Java語言。
Python編程語言簡介
可以移植??梢员灰浦驳酱蠖鄶?shù)平臺下面。
解釋性。Python語言寫的程序不需要編譯成二進(jìn)制代碼。。面向?qū)ο?。Python既支持面向過程,又支持面向?qū)ο蟆?蓴U(kuò)展。可以混合使用像C語言、Java語言等編寫。豐富的第三方庫。由于Python的開源特性,第三方庫也非常多。
簡單?!皹O簡主義”,閱讀Python程序像是在讀英語。
易學(xué)。入手非???,直接通過命令行交互環(huán)境來學(xué)習(xí)。免費(fèi)/開源。Python的所有內(nèi)容都是免費(fèi)開源的。
自動內(nèi)存管理。Python內(nèi)存管理是自動完成的。Python優(yōu)點(diǎn)Python編程語言簡介
除了上面提到的各種優(yōu)點(diǎn),Python也是有缺點(diǎn)的。
運(yùn)行速度慢。Python速度慢不僅僅是因為一邊運(yùn)行一邊“翻譯”源代碼,還因為Python是高級語言,屏蔽了很多底層細(xì)節(jié)。
代碼加密困難。Python直接運(yùn)行源代碼,因此對源代碼加密比較困難。Python編程語言簡介
Python是大數(shù)據(jù)技術(shù)和數(shù)據(jù)科學(xué)職業(yè)領(lǐng)域不可或缺的技能之一。
Python的火熱,也帶動了工程師們的就業(yè)熱。
就業(yè)方向:Python開發(fā)人員、機(jī)器學(xué)習(xí)工程師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、BI分析師、數(shù)據(jù)工程師、數(shù)據(jù)架構(gòu)師。
實訓(xùn)一Python開發(fā)環(huán)境準(zhǔn)備1.Python軟件安裝。步驟1:下載Python軟件。
步驟2:安裝Python軟件。
安裝時建議不采用默認(rèn)安裝路徑,這樣不占用系統(tǒng)盤空間。
步驟3:Python安裝測試。
安裝完成后一定要測試是否安裝成功,出現(xiàn)提示符、能夠運(yùn)行,則表示Python軟件安裝配置成功。實訓(xùn)一Python開發(fā)環(huán)境準(zhǔn)備2.PyCharm軟件安裝。步驟1:下載PyCharm軟件。
步驟2:安裝PyCharm軟件。
安裝時建議不采用默認(rèn)安裝路徑,這樣不占用系統(tǒng)盤空間。
步驟3:PyCharm開發(fā)環(huán)境配置。
實訓(xùn)一Python開發(fā)環(huán)境準(zhǔn)備12341.引進(jìn)國外先進(jìn)技術(shù),認(rèn)真消化吸收并開拓創(chuàng)新。2.培養(yǎng)尊重和保護(hù)知識產(chǎn)權(quán),遵紀(jì)守法的道德法律意識。3.培養(yǎng)具有嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度、嚴(yán)密的邏輯思維。4.培養(yǎng)良好的職業(yè)素質(zhì),優(yōu)秀的團(tuán)隊協(xié)作精神。下次課見!大數(shù)據(jù)應(yīng)用基礎(chǔ)Python應(yīng)用基礎(chǔ)01軟件工程師晉升軟件從業(yè)人員成長路徑,需要我們在所屬領(lǐng)域中深耕職業(yè)技能,要求我們具備工匠精神和敬業(yè)精神。軟件工程師的進(jìn)化歷程初級軟件工程師中級軟件工程師高級軟件工程師資深軟件工程師項目一
軟件工程師等級Python編程知識基礎(chǔ)語法01條件判斷和循環(huán)語句02文件讀寫031、Python基礎(chǔ)語法Python程序的開發(fā)需要遵守規(guī)范才能編寫出整潔的代碼,整潔的代碼是軟件工程師之間良好的溝通語言,代碼編程過程中要遵守軟件開發(fā)的規(guī)范性和職業(yè)素質(zhì)。2.1條件判斷語句2.2循環(huán)語句練一練item=1foriinrange(365):item=item*(1+0.01)print(item)37.7834343328努力和不努力的鮮明對比——每天進(jìn)步1%,一年后就進(jìn)步38倍(3800%)?!刻煨傅?%,一年后就只剩2%了。業(yè)精于勤,荒于嬉。不負(fù)青春、不負(fù)韶華、不負(fù)時代、自律自強(qiáng)。“好好學(xué)習(xí),天天向上”,養(yǎng)成每天多學(xué)、多練習(xí)一點(diǎn)的主動學(xué)習(xí)習(xí)慣。item=1foriinrange(365):item=item*(1-0.01)print(item)0.02551796443文件讀寫文件的兩個操作:(1)寫文件:寫入、修改文件操作步驟:打開文件寫內(nèi)容關(guān)閉文件(2)讀文件:讀取文件操作步驟:打開文件讀內(nèi)容關(guān)閉文件銷售數(shù)據(jù)篩選02實訓(xùn)二銷售數(shù)據(jù)篩選背景:智信廣告有限公司成立于2011年08月成立,是一家以廣告營銷為主營業(yè)務(wù)的公司。最近公司準(zhǔn)備開展一項低端手機(jī)銷售廣告相關(guān)的業(yè)務(wù),業(yè)務(wù)經(jīng)理要求小明從公司以前的歷史數(shù)據(jù)中篩選出低端手機(jī)的銷售情況統(tǒng)計,為公司的廣告業(yè)務(wù)決策提供數(shù)據(jù)支撐。公司的手機(jī)銷售數(shù)據(jù)已被導(dǎo)出為文本文件,文件存放于D:/phone_list.txt中,該文件中存儲了歷史的所有手機(jī)銷售數(shù)據(jù),需要小明使用Python語言編寫一段程序,從文件中篩選出售價小于1000的手機(jī)銷售數(shù)據(jù),并保存到D:/new_phone_list.txt中。實訓(xùn)二銷售數(shù)據(jù)篩選步驟一:使用Python打開銷售數(shù)據(jù)文件步驟二:逐行讀取銷售數(shù)據(jù)文件步驟三:篩選手機(jī)售價小于1000的銷售數(shù)據(jù)步驟四:保存篩選出的手機(jī)銷售數(shù)據(jù)步驟五:關(guān)閉已打開的銷售數(shù)據(jù)文件vivoX60;3999.00;系列新品上市天語;259.00;大屏大字大聲中興ZTEV2022;698.00;新機(jī)發(fā)布購機(jī)無憂華為nova7se;2799.00;華為直供原裝正品AppleiPhone12;5199.00;加99元得20W快充頭紅米9A;599.00;大聲量揚(yáng)聲器,人臉解鎖紅米K40;2299.00;4800萬高清三攝相機(jī)天語;259.00;大屏大字大聲中興ZTEV2022;698.00;新機(jī)發(fā)布購機(jī)無憂紅米9A;599.00;大聲量揚(yáng)聲器,人臉解鎖下次課見!大數(shù)據(jù)應(yīng)用基礎(chǔ)Python應(yīng)用基礎(chǔ)01項目一
爬蟲與反爬蟲反爬手段:反爬手段通過User-Agent校驗反爬通過訪問頻度反爬通過驗證碼校驗反爬通過賬號權(quán)限反爬通過變換網(wǎng)頁結(jié)構(gòu)反爬看起來很復(fù)雜有木有?往下翻試試項目一
爬蟲與反爬蟲無反爬措施驗證碼反爬蟲……訪問頻率UA反爬蟲登錄反爬蟲網(wǎng)頁爬取識別驗證碼……代理ip設(shè)置UA模擬登錄項目二
網(wǎng)頁數(shù)據(jù)采集流程我們思考一下網(wǎng)頁數(shù)據(jù)爬取的流程?。。》治鼍W(wǎng)頁結(jié)構(gòu)爬取網(wǎng)頁內(nèi)容解析網(wǎng)頁內(nèi)容瀏覽器開發(fā)者模式(F12)requests庫BeautifulSoup庫一、分析網(wǎng)頁結(jié)構(gòu)瀏覽器——F12——進(jìn)入開發(fā)者模式數(shù)據(jù)采集需要對html層次進(jìn)行認(rèn)真分析,而網(wǎng)頁往往非常復(fù)雜,需要我們具有吃苦耐勞的品質(zhì)與認(rèn)真細(xì)致的鉆研精神。一、分析網(wǎng)頁結(jié)構(gòu)標(biāo)頭(Headers)請求URL:請求訪問的鏈接請求方法:getorpost狀態(tài)代碼:200OK,表示請求成功遠(yuǎn)程地址(IP地址)User-Agent:用戶代理(請回到PPT13頁是,何時需要用到它)二、使用requests庫請求網(wǎng)站請求訪問的URL請求的方法:get三、使用BeautifulSoup解析網(wǎng)頁函數(shù)先定義,再調(diào)用!從bs4中調(diào)用BeautifulSoup庫1、定義一個函數(shù),解析htmlContent;2、html.parser為解析器,解析html內(nèi)容,并賦值給bs;3、我們要解析的“新聞”標(biāo)簽在哪里呢?如何找到它?在開發(fā)者模式中使用定位功能查找,再使用find命令進(jìn)行提取,將提取內(nèi)容賦值給divTag;4、輸出divTag的內(nèi)容此處為函數(shù)調(diào)用,調(diào)用parseBaidu函數(shù)財務(wù)數(shù)據(jù)采集02實訓(xùn)三財務(wù)數(shù)據(jù)采集背景:資產(chǎn)負(fù)債表是反映公司某一特定日期(月末、年末)全部資產(chǎn)、負(fù)債和所有者權(quán)益情況的會計報表。本節(jié)利用資產(chǎn)負(fù)債表的資料,可以看出公司資產(chǎn)的分布狀態(tài)、負(fù)債和所有者權(quán)益的構(gòu)成情況,據(jù)以評價公司資金營運(yùn)、財務(wù)結(jié)構(gòu)是否正常、合理;分析公司的流動性或變現(xiàn)能力,以及長、短期債務(wù)數(shù)量及償債能力,評價公司承擔(dān)風(fēng)險的能力;利用該表提供的資料還有助于計算公司的獲利能力,評價公司的經(jīng)營績效。上市公司財務(wù)報表的作用首先在于提供決策有用的會計信息。編制財務(wù)報告不是最終目的,而是為上市公司現(xiàn)在和潛在的投資者、債權(quán)人以及其他財務(wù)報告的使用者提供決策有用的財務(wù)信息。實訓(xùn)三財務(wù)數(shù)據(jù)采集網(wǎng)頁的內(nèi)容是網(wǎng)站的數(shù)據(jù)資源,數(shù)據(jù)采集需要尊重和保護(hù)他人的隱私,嚴(yán)禁違法使用采集的數(shù)據(jù),應(yīng)遵守《中華人民共和國數(shù)據(jù)安全法》!實訓(xùn)三財務(wù)數(shù)據(jù)采集任務(wù)一:財務(wù)報表數(shù)據(jù)采集指標(biāo)分析1、分析財務(wù)報表網(wǎng)頁數(shù)據(jù);2、明確數(shù)據(jù)采集指標(biāo);任務(wù)二:財務(wù)指標(biāo)網(wǎng)頁結(jié)構(gòu)分析1、分析財務(wù)指標(biāo)和財務(wù)數(shù)據(jù)的網(wǎng)頁結(jié)構(gòu);
2、分析財務(wù)數(shù)據(jù)的每行數(shù)據(jù);3、分析財務(wù)指標(biāo)的每列數(shù)據(jù);任務(wù)三:財務(wù)指標(biāo)數(shù)據(jù)采集程序編寫。
1、使用Requests下載網(wǎng)頁數(shù)據(jù);2、查找財務(wù)數(shù)據(jù)采集指標(biāo);
3、分別解析財務(wù)數(shù)據(jù);4、以文件方式保存解析的財務(wù)數(shù)據(jù);下次課見!大數(shù)據(jù)應(yīng)用基礎(chǔ)Python應(yīng)用基礎(chǔ)01項目一
Robots協(xié)議爬蟲的合法性:當(dāng)使用爬蟲爬取一個網(wǎng)站的數(shù)據(jù)時,需要遵守網(wǎng)站所有者針對所有爬蟲所制定的協(xié)議,這便是robots.txt協(xié)議。幾乎每一個網(wǎng)站都有一個名為robots.txt的文檔,當(dāng)然也有部分網(wǎng)站沒有設(shè)定robots.txt。對于沒有設(shè)定robots.txt的網(wǎng)站,可以通過網(wǎng)絡(luò)爬蟲獲取沒有口令加密的數(shù)據(jù),也就是該網(wǎng)站所有頁面數(shù)據(jù)都可以爬取。如果網(wǎng)站有robots.txt文檔,就要判斷是否有禁止訪客獲取的數(shù)據(jù)。
我叫robots.txt協(xié)議項目一
Robots協(xié)議百度訴360不正當(dāng)競爭和商標(biāo)侵權(quán)案百度訴360不正當(dāng)競爭和商標(biāo)侵權(quán)案項目一
爬蟲與反爬蟲無反爬措施驗證碼反爬蟲……訪問頻率UA反爬蟲登錄反爬蟲網(wǎng)頁爬取識別驗證碼……代理ip設(shè)置UA模擬登錄項目二
分頁數(shù)據(jù)網(wǎng)頁辨析項目二
分頁數(shù)據(jù)網(wǎng)頁辨析項目二
分頁數(shù)據(jù)網(wǎng)頁辨析項目三
京東網(wǎng)頁結(jié)構(gòu)分析項目三
京東網(wǎng)頁結(jié)構(gòu)分析商品數(shù)據(jù)采集02實訓(xùn)四商品數(shù)據(jù)采集背景:市場部需要分析當(dāng)前市場上的手機(jī)銷售情況,以進(jìn)行明年的營銷方案的制定,要求對京東商城的手機(jī)銷售數(shù)據(jù)進(jìn)行采集,為了數(shù)據(jù)分析師能全方位的分析當(dāng)前手機(jī)銷售情況,要求能采集手機(jī)的名稱、手機(jī)配置、銷售單價、描述信息和手機(jī)圖片等信息。實訓(xùn)四商品數(shù)據(jù)采集任務(wù)一:商品頁面區(qū)域分析1、京
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《深圳大學(xué)圖書館》課件
- 《電子服務(wù)概論》課件
- 2024屆安徽省部分學(xué)校高三上學(xué)期期末考試歷史試題(解析版)
- 2024年遼寧輕工職業(yè)學(xué)院單招職業(yè)技能測試題庫完整答案
- 單位管理制度集粹選集【人事管理篇】十篇
- 單位管理制度匯編大全【員工管理篇】
- 單位管理制度合并選集職工管理篇
- 《法國雪鐵龍公園》課件
- 單位管理制度分享合集【職工管理篇】
- 單位管理制度呈現(xiàn)大全【職工管理】十篇
- 新能源汽車研發(fā)合作協(xié)議書
- 四川省成都市2023-2024學(xué)年高二上學(xué)期期末校級調(diào)研聯(lián)考數(shù)學(xué)試題【含答案解析】
- 4s店管理的年度工作總結(jié)
- 中醫(yī)護(hù)理查房脅痛好
- 新概念英語第一冊1-72課測試
- 類風(fēng)濕關(guān)節(jié)炎課件
- 2022版《義務(wù)教育教學(xué)新課程標(biāo)準(zhǔn)》解讀課件
- 寫字樓項目風(fēng)險評估報告
- 庫存周轉(zhuǎn)率與庫存周轉(zhuǎn)天數(shù)
- 福州市晉安區(qū)2023-2024學(xué)年八年級上學(xué)期期末數(shù)學(xué)檢測卷(含答案)
- 二級公立醫(yī)院績效考核三級手術(shù)目錄(2020版)
評論
0/150
提交評論