Python網(wǎng)絡(luò)爬蟲技術(shù)-完整教案_第1頁
Python網(wǎng)絡(luò)爬蟲技術(shù)-完整教案_第2頁
Python網(wǎng)絡(luò)爬蟲技術(shù)-完整教案_第3頁
Python網(wǎng)絡(luò)爬蟲技術(shù)-完整教案_第4頁
Python網(wǎng)絡(luò)爬蟲技術(shù)-完整教案_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章Python爬蟲環(huán)境與爬蟲簡介教案課程名稱:Python網(wǎng)絡(luò)爬蟲技術(shù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):32學(xué)時(shí)(其中理論14學(xué)時(shí),實(shí)驗(yàn)18學(xué)時(shí))總學(xué)分:2.0學(xué)分本章學(xué)時(shí):2學(xué)時(shí)材料清單《Python網(wǎng)絡(luò)爬蟲技術(shù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)先對爬蟲的概念和原理,及反爬蟲的概念進(jìn)行基本的概述,列舉針對反爬蟲的常用手段制定對應(yīng)爬取策略。而后簡要介紹了Python常用爬蟲庫和爬蟲環(huán)境,以及用于存儲爬取的數(shù)據(jù)的MySQL、MongoDB數(shù)據(jù)庫?;疽罅私馀老x的原理。了解爬蟲運(yùn)作時(shí)應(yīng)遵守的規(guī)則。了解反爬蟲的目的和常用手段。了解Python常用爬蟲庫。掌握MySQL、MongoDB數(shù)據(jù)庫的配置方法。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。爬蟲能夠做什么?爬蟲能爬哪些數(shù)據(jù)?Python語言在爬蟲方面有哪些優(yōu)勢?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。爬蟲能夠應(yīng)用在那些場景?爬蟲的原理是什么?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。爬蟲是不是萬能的?爬蟲在數(shù)據(jù)分析有哪些作用?主要知識點(diǎn)、重點(diǎn)與難點(diǎn)主要知識點(diǎn)爬蟲的原理。反爬蟲的目的和常用手段。針對反爬蟲的常用手段制定對應(yīng)爬取策略。Python常用爬蟲庫。配置MySQL數(shù)據(jù)庫。配置MongoDB數(shù)據(jù)庫。重點(diǎn)爬蟲的原理。針對反爬蟲的常用手段制定對應(yīng)爬取策略。Python常用爬蟲庫。難點(diǎn)爬蟲的原理。教學(xué)過程設(shè)計(jì)理論教學(xué)過程認(rèn)識爬蟲的概念。認(rèn)識爬蟲的原理。了解爬蟲運(yùn)作時(shí)應(yīng)遵守的規(guī)則。了解反爬蟲的目的和常用手段。掌握針對反爬蟲的常用手段制定對應(yīng)爬取策略。了解Python常用爬蟲庫。掌握MySQL數(shù)據(jù)庫的配置方法。掌握MongoDB數(shù)據(jù)庫的配置方法。實(shí)驗(yàn)教學(xué)過程在Windows/Linux系統(tǒng)上安裝及配置MySQL數(shù)據(jù)庫。在Windows/Linux系統(tǒng)上安裝及配置MongoDB數(shù)據(jù)庫。使用pip工具分別安裝urllib3、Requests、lxml和BeautifulSoup4庫。

第2章網(wǎng)頁前端基礎(chǔ)教案課程名稱:Python網(wǎng)絡(luò)爬蟲技術(shù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):32學(xué)時(shí)(其中理論14學(xué)時(shí),實(shí)驗(yàn)18學(xué)時(shí))總學(xué)分:2.0學(xué)分本章學(xué)時(shí):4學(xué)時(shí)材料清單《Python網(wǎng)絡(luò)爬蟲技術(shù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)先介紹了Python中的底層Socket庫,然后運(yùn)用Socket庫建立TCP和UDP連接。而后對超文本傳輸協(xié)議(HTTP)及其相關(guān)機(jī)制進(jìn)行了簡要介紹,包括HTTP請求方式與過程、常見HTTP狀態(tài)碼、HTTP頭部信息,以及Cookie機(jī)制、存儲方式和實(shí)現(xiàn)過程。基本要求了解Socket庫的作用。使用Socket庫進(jìn)行TCP編程。使用Socket庫進(jìn)行UDP編程。熟悉HTTP請求方法與過程。熟悉常見HTTP狀態(tài)碼。熟悉Cookie。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。網(wǎng)頁數(shù)據(jù)為什么可以被爬取?為什么能模擬User-Agent進(jìn)行規(guī)避服務(wù)器檢驗(yàn)?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。UDP和TCP協(xié)議有什么區(qū)別?打開一個(gè)簡單的靜態(tài)網(wǎng)站看見的數(shù)據(jù)會(huì)位于HTTP響應(yīng)的哪一個(gè)位置?用谷歌瀏覽器進(jìn)入到一個(gè)要登錄的網(wǎng)站登錄進(jìn)去,然后在谷歌瀏覽器中清除Cookie值,查看一下效果會(huì)什么樣?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。Cookie和Session的相同點(diǎn)是什么?Cookie和Session的不同點(diǎn)是什么?如何用Socket構(gòu)建一個(gè)簡單的爬蟲?主要知識點(diǎn)、重點(diǎn)與難點(diǎn)主要知識點(diǎn)使用Socket建立服務(wù)器端和客戶端進(jìn)行TCP通信,通過TCP通信從客戶端發(fā)送請求并接受服務(wù)器端的響應(yīng)。使用Socket建立服務(wù)器端和客戶端進(jìn)行UDP通信,通過UDP通信從客戶端發(fā)送請求并接受服務(wù)器端的響應(yīng)。HTTP通信過程中的客戶端發(fā)起請求的方式與服務(wù)器發(fā)送響應(yīng)的過程。HTTP通信過程中服務(wù)器發(fā)送響應(yīng)的常見HTTP狀態(tài)碼。HTTP協(xié)議中的頭部類型與對應(yīng)類型的常用的頭字段。Cookie機(jī)制的運(yùn)作原理及其作用。重點(diǎn)HTTP通信過程中的客戶端發(fā)起請求的方式與服務(wù)器發(fā)送響應(yīng)的過程。HTTP協(xié)議中的頭部類型與對應(yīng)類型的常用的頭字段。難點(diǎn)HTTP通信過程中的客戶端發(fā)起請求的方式與服務(wù)器發(fā)送響應(yīng)的過程。教學(xué)過程設(shè)計(jì)理論教學(xué)過程了解Socket庫的作用及其包含的協(xié)議類型。了解Socket庫中的3種函數(shù)及其作用。熟悉使用Socket建立服務(wù)器端和客戶端進(jìn)行TCP通信,通過TCP通信從客戶端發(fā)送請求并接受服務(wù)器端的響應(yīng)。熟悉使用Socket建立服務(wù)器端和客戶端進(jìn)行UDP通信,通過UDP通信從客戶端發(fā)送請求并接受服務(wù)器端的響應(yīng)。熟悉HTTP通信過程中的客戶端發(fā)起請求的方式與服務(wù)器發(fā)送響應(yīng)的過程。熟悉HTTP通信過程中服務(wù)器發(fā)送響應(yīng)的常見HTTP狀態(tài)碼。熟悉HTTP協(xié)議中的頭部類型與對應(yīng)類型的常用的頭字段。熟悉Cookie機(jī)制的運(yùn)作原理及其作用。實(shí)驗(yàn)教學(xué)過程使用Socket建立服務(wù)器端和客戶端進(jìn)行TCP通信,通過TCP通信從客戶端發(fā)送請求并接受服務(wù)器端的響應(yīng)。使用Socket建立服務(wù)器端和客戶端進(jìn)行UDP通信,通過UDP通信從客戶端發(fā)送請求并接受服務(wù)器端的響應(yīng)。

第3章簡單靜態(tài)網(wǎng)頁爬取教案課程名稱:Python網(wǎng)絡(luò)爬蟲技術(shù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):32學(xué)時(shí)(其中理論14學(xué)時(shí),實(shí)驗(yàn)18學(xué)時(shí))總學(xué)分:2.0學(xué)分本章學(xué)時(shí):9學(xué)時(shí)材料清單《Python網(wǎng)絡(luò)爬蟲技術(shù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)先用Python中的urllib3或Requests庫實(shí)現(xiàn)HTTP請求得到靜態(tài)網(wǎng)站HTML。然后分別介紹用Chrome開發(fā)者工具查看網(wǎng)頁、用正則表達(dá)式解析網(wǎng)頁、用Xpath解析網(wǎng)頁、用BeautifulSoup庫解析網(wǎng)頁4種方法解析HTML網(wǎng)頁得到想要的數(shù)據(jù)。最后將爬取到的信息存儲為JSON文件,或存儲入MySQL數(shù)據(jù)庫?;疽蠓謩e使用urllib3庫、Requests庫實(shí)現(xiàn)HTTP請求。分別使用Chrome開發(fā)者工具、正則表達(dá)式、Xpath和BeautifulSoup解析網(wǎng)頁。使用JSON模塊、PyMySQL庫存儲數(shù)據(jù)。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。拿到一個(gè)HTML代碼文本,如果你想獲取其中一些字段你會(huì)怎么獲???你認(rèn)為爬蟲可以分為幾個(gè)部分?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問。或者是對引導(dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。Requests庫與urllib3庫哪個(gè)更好用,為什么?有人認(rèn)為Xpath解析網(wǎng)頁的方法比BeautifulSoup解析網(wǎng)頁的方法好用一些,你認(rèn)可這觀點(diǎn)嗎?為什么?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。如何規(guī)避通過訪問頻度反爬?JSON對象、字典、字符串相互轉(zhuǎn)換要用到哪些方法?主要知識點(diǎn)、重點(diǎn)與難點(diǎn)主要知識點(diǎn)使用urllib3庫實(shí)現(xiàn)HTTP請求。使用Requests庫實(shí)現(xiàn)HTTP請求。使用Chrome開發(fā)者工具查看網(wǎng)頁。使用正則表達(dá)式解析網(wǎng)頁。通過Xpath解析網(wǎng)頁。使用BeautifulSoup庫解析網(wǎng)頁。將數(shù)據(jù)存儲為JSON文件。將數(shù)據(jù)存儲入MySQL數(shù)據(jù)庫。重點(diǎn)使用Requests庫實(shí)現(xiàn)HTTP請求。使用Xpath解析網(wǎng)頁。使用BeautifulSoup庫解析網(wǎng)頁。將數(shù)據(jù)存儲入MySQL數(shù)據(jù)庫。難點(diǎn)使用Xpath解析網(wǎng)頁。使用BeautifulSoup庫解析網(wǎng)頁。教學(xué)過程設(shè)計(jì)理論教學(xué)過程掌握使用urllib3庫生成HTTP請求、處理請求頭、設(shè)置超時(shí)、設(shè)置請求重試。掌握使用Requests庫生成HTTP請求、查看狀態(tài)碼與編碼、處理請求頭與響應(yīng)頭、設(shè)置超時(shí)。掌握使用chrome開發(fā)者工具查看頁面元素、查看頁面源碼、查看資源詳細(xì)信息掌握使用正則表達(dá)式模塊匹配字符串、查找網(wǎng)頁中的標(biāo)題內(nèi)容。掌握使用etree模塊實(shí)現(xiàn)通過Xpath獲取標(biāo)題內(nèi)容、節(jié)點(diǎn)下的文本內(nèi)容。掌握使用BeautifulSoup4模塊創(chuàng)建BeautifulSoup對象。掌握BeautifulSoup中的對象類型。掌握使用BeautifulSoup4模塊遍歷文檔樹、搜索文檔樹。掌握使用JSON模塊存儲Xpath獲取的文本內(nèi)容為JSON文件。掌握使用pymysql模塊將BeautifulSoup庫獲取的標(biāo)題存儲入MySQL數(shù)據(jù)庫。實(shí)驗(yàn)教學(xué)過程使用urllib3庫生成HTTP請求。使用urllib3庫處理請求頭。使用urllib3庫設(shè)置超時(shí)。使用urllib3庫設(shè)置請求重試。使用requests庫生成HTTP請求。使用requests庫查看狀態(tài)碼與編碼。使用requests庫處理請求頭與響應(yīng)頭。使用requests庫設(shè)置超時(shí)。使用chrome開發(fā)者工具的元素面板查看頁面元素。使用chrome開發(fā)者工具的源代碼面板查看頁面源碼。使用chrome開發(fā)者工具的網(wǎng)絡(luò)面板查看資源詳細(xì)信息。使用正則表達(dá)式模塊匹配字符串。使用正則表達(dá)式查找網(wǎng)頁中的標(biāo)題內(nèi)容。使用etree模塊實(shí)現(xiàn)通過Xpath獲取標(biāo)題內(nèi)容、節(jié)點(diǎn)下的文本內(nèi)容。使用BeautifulSoup4模塊創(chuàng)建BeautifulSoup對象。掌握BeautifulSoup中的對象類型。使用BeautifulSoup4模塊遍歷文檔樹。使用BeautifulSoup4模塊搜索文檔樹。使用JSON模塊存儲Xpath獲取的文本內(nèi)容為JSON文件。使用pymysql模塊將BeautifulSoup庫獲取的標(biāo)題存儲入MySQL數(shù)據(jù)庫。

第4章常規(guī)動(dòng)態(tài)網(wǎng)頁爬取教案課程名稱:Python網(wǎng)絡(luò)爬蟲技術(shù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):32學(xué)時(shí)(其中理論14學(xué)時(shí),實(shí)驗(yàn)18學(xué)時(shí))總學(xué)分:2.0學(xué)分本章學(xué)時(shí):6學(xué)時(shí)材料清單《Python網(wǎng)絡(luò)爬蟲技術(shù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)先通過源碼對比區(qū)分動(dòng)態(tài)網(wǎng)頁和靜態(tài)網(wǎng)頁,然后使用逆向分析技術(shù)爬取網(wǎng)站“”首頁新書信息。還有使用Selenium爬取網(wǎng)站“/search/books”中的以“Python編程”為關(guān)鍵詞的信息。和將數(shù)據(jù)存入MongoDB數(shù)據(jù)庫?;疽罅私忪o態(tài)網(wǎng)頁和動(dòng)態(tài)網(wǎng)頁的區(qū)別。逆向分析爬取動(dòng)態(tài)網(wǎng)頁。使用Selenium庫爬取動(dòng)態(tài)網(wǎng)頁。使用MongoDB數(shù)據(jù)庫儲存數(shù)據(jù)。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。什么是動(dòng)態(tài)網(wǎng)站?動(dòng)態(tài)網(wǎng)站和靜態(tài)網(wǎng)站有和區(qū)別?和關(guān)系型數(shù)據(jù)庫比較,非關(guān)系型數(shù)據(jù)庫解決了什么問題?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。Selenium庫爬取網(wǎng)站的優(yōu)缺點(diǎn)是什么?Selenium庫如何快速得到想要數(shù)據(jù)?MongoDB和MySQL對比有哪些優(yōu)點(diǎn)?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。Selenium庫Requests庫相比爬取網(wǎng)站和的優(yōu)缺點(diǎn)是什么?如何提高Selenium爬取網(wǎng)站速度?主要知識點(diǎn)、重點(diǎn)與難點(diǎn)主要知識點(diǎn)了解靜態(tài)網(wǎng)頁和動(dòng)態(tài)網(wǎng)頁區(qū)別。逆向分析爬取動(dòng)態(tài)網(wǎng)頁。安裝Selenium庫以及下載瀏覽器補(bǔ)丁。Selenium庫聲明瀏覽對象并訪問頁面。Selenium庫頁面等待。Selenium庫頁面操作。Selenium庫元素選取。Selenium庫預(yù)期的條件。了解MongoDB數(shù)據(jù)庫和MySQL數(shù)據(jù)庫的區(qū)別。將數(shù)據(jù)存儲入MongoDB數(shù)據(jù)庫。重點(diǎn)逆向分析爬取動(dòng)態(tài)網(wǎng)頁。Selenium庫元素選取。將數(shù)據(jù)存儲入MongoDB數(shù)據(jù)庫。難點(diǎn)Selenium庫的使用。將數(shù)據(jù)存儲入MongoDB數(shù)據(jù)庫。教學(xué)過程設(shè)計(jì)理論教學(xué)過程了解靜態(tài)網(wǎng)頁和動(dòng)態(tài)網(wǎng)頁的區(qū)別。獲取“”首頁的信息。對“”首頁進(jìn)行逆向分析爬取。了解Selenium庫的使用方法。分析“/search/books”首頁的網(wǎng)頁結(jié)構(gòu)。分析網(wǎng)頁“/search/books”搜索“Python編程”圖書的操作。使用Selenium庫模擬瀏覽器的操作。了解MongoDB數(shù)據(jù)庫與MySQL的區(qū)別。在Python上建立連接MongoDB數(shù)據(jù)庫。將數(shù)據(jù)插入MongoDB數(shù)據(jù)庫的集合中。實(shí)驗(yàn)教學(xué)過程獲取“”首頁的信息。對“”首頁進(jìn)行逆向分析爬取。分析“/search/books”首頁的網(wǎng)頁結(jié)構(gòu)。分析網(wǎng)頁“/search/books”搜索“Python編程”圖書的操作。使用Selenium庫模擬瀏覽器的操作。在Python上建立連接MongoDB數(shù)據(jù)庫。將數(shù)據(jù)插入MongoDB數(shù)據(jù)庫的集合中。

第5章模擬登錄教案課程名稱:Python網(wǎng)絡(luò)爬蟲技術(shù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):32學(xué)時(shí)(其中理論14學(xué)時(shí),實(shí)驗(yàn)18學(xué)時(shí))總學(xué)分:2.0學(xué)分本章學(xué)時(shí):3學(xué)時(shí)材料清單《Python網(wǎng)絡(luò)爬蟲技術(shù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)分別用表單和Cookie實(shí)現(xiàn)模擬登錄。在表單模擬登錄時(shí),學(xué)會(huì)查找提交入口、查找并獲取需要提交的表單數(shù)據(jù)、使用POST方法請求登錄。在Cookie實(shí)現(xiàn)模擬登錄時(shí),知道保存已經(jīng)成功登錄的Cookie、使用保存的Cookie發(fā)送請求?;疽笫褂肦equests庫實(shí)現(xiàn)POST請求。使用Chrome開發(fā)者工具查找模擬登錄需要的相關(guān)信息。掌握表單登錄、Cookie登錄的流程。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。當(dāng)你登錄一個(gè)網(wǎng)站,關(guān)閉了之后短時(shí)間內(nèi)再進(jìn)去并不用登錄是為什么?當(dāng)你登錄一個(gè)網(wǎng)站,關(guān)閉了之后短時(shí)間內(nèi)再進(jìn)去并不用登錄長時(shí)間內(nèi)再進(jìn)去卻要登錄是為什么?你把你的用戶賬號,密碼輸入然后點(diǎn)擊登錄為什么每次都能成功,錯(cuò)誤賬號,密碼卻不行?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。為什么表單登錄要用POST請求?使用瀏覽器Cookie登錄和基于表單登錄的Cookie登錄,兩種基于Cookie的模擬登錄各有什么優(yōu)缺點(diǎn)?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。你能想到哪些Cookie泄露帶來的安全問題?除人工識別認(rèn)證碼還有那些方法識別認(rèn)證碼?有哪些方案獲取代理IP?主要知識點(diǎn)、重點(diǎn)與難點(diǎn)主要知識點(diǎn)查找表單登錄的提交入口。查找并獲取需要提交的表單數(shù)據(jù)。使用POST請求方法登錄。使用瀏覽器Cookie登錄?;诒韱蔚卿浀腃ookie登錄。重點(diǎn)查找表單登錄的提交入口。使用瀏覽器Cookie登錄?;诒韱蔚卿浀腃ookie登錄。難點(diǎn)查找表單登錄的提交入口。教學(xué)過程設(shè)計(jì)理論教學(xué)過程掌握使用Chrome開發(fā)者工具,查找提交入口、查找需要提交的表單數(shù)據(jù)。掌握獲取驗(yàn)證碼數(shù)據(jù)的方法。掌握使用POST方法向服務(wù)器發(fā)送登錄請求。掌握使用Chrome開發(fā)者工具獲取瀏覽器的Cookie,實(shí)現(xiàn)模擬登錄。掌握通過加載已經(jīng)保存的表單登錄后的Cookie實(shí)現(xiàn)模擬登錄。實(shí)驗(yàn)教學(xué)過程使用Chrome開發(fā)者工具,查找提交入口。使用Chrome開發(fā)者工具,查找需要提交的表單數(shù)據(jù)。獲取驗(yàn)證碼數(shù)據(jù)。使用POST方法向服務(wù)器發(fā)送登錄請求。使用Chrome開發(fā)者工具獲取瀏覽器的Cookie,實(shí)現(xiàn)模擬登錄。加載已經(jīng)保存的表單登錄后的Cookie,實(shí)現(xiàn)模擬登錄。

第6章終端協(xié)議分析教案課程名稱:Python網(wǎng)絡(luò)爬蟲技術(shù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):32學(xué)時(shí)(其中理論14學(xué)時(shí),實(shí)驗(yàn)18學(xué)時(shí))總學(xué)分:2.0學(xué)分本章學(xué)時(shí):3學(xué)時(shí)材料清單《Python網(wǎng)絡(luò)爬蟲技術(shù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)學(xué)會(huì)使用HTTPAnalyzer工具抓取在千千音樂PC客戶端上抓取數(shù)據(jù)和接口。學(xué)會(huì)使用Fiddler工具抓取人民日報(bào)APP數(shù)據(jù)和接口?;疽笫褂肏ttpAnalyzer工具抓取PC客戶端的包。使用Fiddler工具抓取人民日報(bào)手機(jī)APP的包。利用Fiddler工具抓取的包,爬取人民日報(bào)手機(jī)APP的數(shù)據(jù)。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。平常的網(wǎng)頁和PC客戶端、APP傳遞數(shù)據(jù)的方法有什么區(qū)別?除了瀏覽器還可以同過其他方法獲取連接嗎?怎么爬取PC客戶端、APP的數(shù)據(jù)?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。HttpAnalyzer和Fiddler怎么獲取JSON數(shù)據(jù)?HttpAnalyzer和Fiddler怎么獲取Cookie值?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。在使用兩個(gè)工具后,你認(rèn)為那個(gè)工具強(qiáng)大那個(gè)好用了?還有那些工具可以爬取PC客戶端和APP?如何處理那些加密連接?主要知識點(diǎn)、重點(diǎn)與難點(diǎn)主要知識點(diǎn)了解PC客戶端。了解HttpAnalyzer的一些基本功能。掌握利用HttpAnalyzer進(jìn)行抓包分析,得到一個(gè)標(biāo)準(zhǔn)的HTML文檔。了解Fiddler軟件。掌握使用Fiddler軟件抓取的包,對人民日報(bào)APP新聞信息進(jìn)行爬取。重點(diǎn)掌握利用HttpAnalyzer進(jìn)行抓包分析,得到一個(gè)標(biāo)準(zhǔn)的HTML文檔。掌握使用Fiddler軟件抓取的包,對人民日報(bào)APP新聞信息進(jìn)行爬取。難點(diǎn)掌握利用HttpAnalyzer進(jìn)行抓包分析,得到一個(gè)標(biāo)準(zhǔn)的HTML文檔。掌握使用Fiddler軟件抓取的包,對人民日報(bào)APP新聞信息進(jìn)行爬取。教學(xué)過程設(shè)計(jì)理論教學(xué)過程了解PC客戶端。了解HttpAnalyzer的一些基本功能。掌握利用HttpAnalyzer進(jìn)行抓包分析,得到一個(gè)標(biāo)準(zhǔn)的HTML文檔。了解Fiddler軟件。掌握使用Fiddler軟件抓取的包,對人民日報(bào)APP新聞信息進(jìn)行爬取。實(shí)驗(yàn)教學(xué)過程利用HttpAnalyzer進(jìn)行抓包分析,得到一個(gè)標(biāo)準(zhǔn)的HTML文檔。設(shè)置Fiddler軟件。通過Fiddler得到人民日報(bào)APP的JSON格式的數(shù)據(jù)。利用Fiddler軟件抓取的包,對人民日報(bào)APP新聞信息進(jìn)行爬取。

第7章Scrapy爬蟲教案課程名稱:Python網(wǎng)絡(luò)爬蟲技術(shù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):32學(xué)時(shí)(其中理論14學(xué)時(shí),實(shí)驗(yàn)18學(xué)時(shí))總學(xué)分:2.0學(xué)分本章學(xué)時(shí):5學(xué)時(shí)材料清單《Python網(wǎng)絡(luò)爬蟲技術(shù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)使用Scrapy框架爬取網(wǎng)站,學(xué)會(huì)Scrapy的數(shù)據(jù)流向、框架,以及框架各組成部分的作用。Scrapy的常用命令及其作用。創(chuàng)建Scrapy爬蟲項(xiàng)目,創(chuàng)建爬蟲模板的方法。根據(jù)項(xiàng)目最終目標(biāo)修改items/piplines腳本。編寫spider腳本,解析網(wǎng)頁。修改settings腳本,實(shí)現(xiàn)下載延遲設(shè)置等。定制

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論