下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
復(fù)習題一、單項選擇題1、下面有關(guān)Requests庫說法不正確的是(D)A、Requests是Python的一個HTTP請求庫B、在Windows下安裝可以使用命令“pipinstallrequests”C、在Linux下安裝可以使用命令“sudopipinstallrequests”D、Requests庫的GET請求不能攜帶參數(shù)(D)2、假定響應(yīng)對象為r,關(guān)于Requests庫通過以下方法獲取響應(yīng)內(nèi)容不正確的是(D)A、r.status_code表示響應(yīng)轉(zhuǎn)態(tài)碼B、r.raw表示原始響應(yīng)體,使用r.raw.read()讀取C、r.text表示字符串方式的響應(yīng)體,會自動根據(jù)響應(yīng)頭部的字符編碼進行解碼。D、r.url表示獲取網(wǎng)頁中的所有網(wǎng)址二、判斷題1、通用網(wǎng)絡(luò)爬蟲常用串行工作方式。(錯)2、需要登錄的網(wǎng)站一般通過GET請求就可以實現(xiàn)登錄。(錯)3、代理中間件的可用代理列表一定要寫在setting.py中。(錯)4、所有的異步加載都會向后臺發(fā)送請求。(錯)5、requests中g(shù)et請求方法的使用為requests.get(url).(對)三、編程題1、使用requests請求框架和BeautifulSoup解析框架,爬取以下Url變量所指定的網(wǎng)頁,獲取其網(wǎng)頁的標題和新聞內(nèi)容。Url=/zwxx_176/bmdt/202104/t20210406_9072956.html”參考代碼:#1.利用requests.get(url)獲取網(wǎng)頁頁面的html文件
importrequests
newsurl='/zwxx_176/bmdt/202104/t20210406_9072956.html'
res=requests.get(newsurl)
res.encoding='utf_8'
print(res)
#2.利用BeautifulSoup的HTML解析器,生成結(jié)構(gòu)樹
frombs4importBeautifulSoup
soup=BeautifulSoup(res.text,'html.parser')
#3.找出特定標簽的html元素
print(soup.p)#標簽名,返回第一個
#打印網(wǎng)頁的頭部區(qū)域
print("打印網(wǎng)頁的頭部區(qū)域start")
print(soup.head)
print("打印網(wǎng)頁的頭部區(qū)域end")
#4.獲取網(wǎng)頁的標題、新聞內(nèi)容
print("新聞的標題是:")
title=soup.select('.tit')[0].text#返回的是是一個列表對象,使用小標0進行獲取,然后獲取文字內(nèi)容,使用了".text"方法
print(title)
print("新聞的內(nèi)容是:")
content=soup.select('.view')[0].text
print(content)2、使用Xpath實現(xiàn)圖書信息的爬取,網(wǎng)址為:/。要求:(1)爬取的圖書的字段有:書名、價格和評分。(2)使用XPath將所有頁的圖書信息全部爬取下來。(3)將數(shù)據(jù)保存于文件中(推薦使用csv文件)。參考代碼:importrequests
fromlxmlimporthtml
importcsv
base_url='/catalogue/'
pages=[base_url+str(i)+'.html'foriinrange(2,52)]
books=[]
forpageinpages:
page_source=requests.get(page).content.decode()
selector=html.fromstring(page_source)
titles=selector.xpath('//*[@id="default"]/div/div/div/div/section/div[2]/ol/li/article/h3/a/text()')
prices=selector.xpath('//*[@id="default"]/div/div/div/div/section/div[2]/ol/li/article/div[2]/p[1]/text()')
prices=[e[1:]foreinprices]
rating=selector.xpath('//*[@id="default"]/div/div/div/div/section/div[2]/ol/li/article/p/@class')
rating=[e.split('')[1]foreinrating]
foriinrange(len(prices)):
books.append((titles[i],prices[i],rating[i]))
print(books)
withopen("books.csv","w+")asf:
writer=csv.writer(f)
writer.writerow(('book_name','price','rating'))
writer.writerows(books)
print("處理完成")3、使用requests_html模塊請求網(wǎng)頁,請求的url地址如下,將指定網(wǎng)頁中中的所有超練級打印輸出到控制臺。參考代碼:URL=”/html/gndy/oumei/index.html”fromrequests_htmlimportHTMLSession
headers={
'user-agent':'Mozilla/5.0(WindowsNT6.1;WOW64)'
}
session=HTMLSession()
resp=session.get('/html/gndy/oumei/index.html')
resp.encoding="utf-8"
link=re
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作檢查報告范文
- 2025年天津a2貨運從業(yè)資格證考試
- 2025年那曲貨運從業(yè)資格證考題
- 2025年三門峽普通貨運從業(yè)資格證模擬考試
- 2025年石家莊貨運從業(yè)資格證模擬試題及答案大全
- 2025年遵義貨運從業(yè)資格考試
- 2025年鄂爾多斯貨運從業(yè)資格考題
- 建設(shè)工程安全監(jiān)理課件(基礎(chǔ)知識)
- 《黃瓜苗期管理》課件
- 建筑工程項目管理實訓(xùn)
- 地下室后澆帶超前止水施工工法
- 醫(yī)院科研論文自查方案
- 專家咨詢服務(wù)合同
- 圍墻格柵施工方案
- 意大利(百得)TBG 系列燃燒機說明書
- 2023年中國近現(xiàn)代史綱要
- 2023橡膠膜密封儲氣柜運行維護技術(shù)規(guī)程
- 橋梁加固維修施工組織設(shè)計
- 第八章-二元一次方程組單元達標提高題檢測試卷
- 壓力性損傷預(yù)防與處理流程
- DL/T 5225-2016 220kV~1000kV變電站通信設(shè)計規(guī)程
評論
0/150
提交評論