



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
復(fù)習(xí)題一、單項(xiàng)選擇題1、下面有關(guān)Requests庫(kù)說(shuō)法不正確的是(D)A、Requests是Python的一個(gè)HTTP請(qǐng)求庫(kù)B、在Windows下安裝可以使用命令“pipinstallrequests”C、在Linux下安裝可以使用命令“sudopipinstallrequests”D、Requests庫(kù)的GET請(qǐng)求不能攜帶參數(shù)(D)2、假定響應(yīng)對(duì)象為r,關(guān)于Requests庫(kù)通過(guò)以下方法獲取響應(yīng)內(nèi)容不正確的是(D)A、r.status_code表示響應(yīng)轉(zhuǎn)態(tài)碼B、r.raw表示原始響應(yīng)體,使用r.raw.read()讀取C、r.text表示字符串方式的響應(yīng)體,會(huì)自動(dòng)根據(jù)響應(yīng)頭部的字符編碼進(jìn)行解碼。D、r.url表示獲取網(wǎng)頁(yè)中的所有網(wǎng)址二、判斷題1、通用網(wǎng)絡(luò)爬蟲(chóng)常用串行工作方式。(錯(cuò))2、需要登錄的網(wǎng)站一般通過(guò)GET請(qǐng)求就可以實(shí)現(xiàn)登錄。(錯(cuò))3、代理中間件的可用代理列表一定要寫(xiě)在setting.py中。(錯(cuò))4、所有的異步加載都會(huì)向后臺(tái)發(fā)送請(qǐng)求。(錯(cuò))5、requests中g(shù)et請(qǐng)求方法的使用為requests.get(url).(對(duì))三、編程題1、使用requests請(qǐng)求框架和BeautifulSoup解析框架,爬取以下Url變量所指定的網(wǎng)頁(yè),獲取其網(wǎng)頁(yè)的標(biāo)題和新聞內(nèi)容。Url=/zwxx_176/bmdt/202104/t20210406_9072956.html”參考代碼:#1.利用requests.get(url)獲取網(wǎng)頁(yè)頁(yè)面的html文件
importrequests
newsurl='/zwxx_176/bmdt/202104/t20210406_9072956.html'
res=requests.get(newsurl)
res.encoding='utf_8'
print(res)
#2.利用BeautifulSoup的HTML解析器,生成結(jié)構(gòu)樹(shù)
frombs4importBeautifulSoup
soup=BeautifulSoup(res.text,'html.parser')
#3.找出特定標(biāo)簽的html元素
print(soup.p)#標(biāo)簽名,返回第一個(gè)
#打印網(wǎng)頁(yè)的頭部區(qū)域
print("打印網(wǎng)頁(yè)的頭部區(qū)域start")
print(soup.head)
print("打印網(wǎng)頁(yè)的頭部區(qū)域end")
#4.獲取網(wǎng)頁(yè)的標(biāo)題、新聞內(nèi)容
print("新聞的標(biāo)題是:")
title=soup.select('.tit')[0].text#返回的是是一個(gè)列表對(duì)象,使用小標(biāo)0進(jìn)行獲取,然后獲取文字內(nèi)容,使用了".text"方法
print(title)
print("新聞的內(nèi)容是:")
content=soup.select('.view')[0].text
print(content)2、使用Xpath實(shí)現(xiàn)圖書(shū)信息的爬取,網(wǎng)址為:/。要求:(1)爬取的圖書(shū)的字段有:書(shū)名、價(jià)格和評(píng)分。(2)使用XPath將所有頁(yè)的圖書(shū)信息全部爬取下來(lái)。(3)將數(shù)據(jù)保存于文件中(推薦使用csv文件)。參考代碼:importrequests
fromlxmlimporthtml
importcsv
base_url='/catalogue/'
pages=[base_url+str(i)+'.html'foriinrange(2,52)]
books=[]
forpageinpages:
page_source=requests.get(page).content.decode()
selector=html.fromstring(page_source)
titles=selector.xpath('//*[@id="default"]/div/div/div/div/section/div[2]/ol/li/article/h3/a/text()')
prices=selector.xpath('//*[@id="default"]/div/div/div/div/section/div[2]/ol/li/article/div[2]/p[1]/text()')
prices=[e[1:]foreinprices]
rating=selector.xpath('//*[@id="default"]/div/div/div/div/section/div[2]/ol/li/article/p/@class')
rating=[e.split('')[1]foreinrating]
foriinrange(len(prices)):
books.append((titles[i],prices[i],rating[i]))
print(books)
withopen("books.csv","w+")asf:
writer=csv.writer(f)
writer.writerow(('book_name','price','rating'))
writer.writerows(books)
print("處理完成")3、使用requests_html模塊請(qǐng)求網(wǎng)頁(yè),請(qǐng)求的url地址如下,將指定網(wǎng)頁(yè)中中的所有超練級(jí)打印輸出到控制臺(tái)。參考代碼:URL=”/html/gndy/oumei/index.html”fromrequests_htmlimportHTMLSession
headers={
'user-agent':'Mozilla/5.0(WindowsNT6.1;WOW64)'
}
session=HTMLSession()
resp=session.get('/html/gndy/oumei/index.html')
resp.encoding="utf-8"
link=re
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)科急救培訓(xùn)課件
- 木材加工企業(yè)的信息化建設(shè)與管理考核試卷
- 化工產(chǎn)品批發(fā)商銷售團(tuán)隊(duì)激勵(lì)與培訓(xùn)實(shí)踐考核試卷
- 冷凍飲品行業(yè)企業(yè)發(fā)展戰(zhàn)略與實(shí)施路徑考核試卷
- 半導(dǎo)體照明器件的振動(dòng)測(cè)試考核試卷
- 家具品牌形象塑造考核試卷
- 機(jī)床附件的行業(yè)競(jìng)爭(zhēng)格局與市場(chǎng)定位考核試卷
- 國(guó)際貿(mào)易中的社會(huì)責(zé)任與合規(guī)性考核試卷
- 成人高考物理電磁學(xué)綜合應(yīng)用考核試卷
- 小學(xué)生師生互動(dòng)課件
- 魚(yú)骨圖培訓(xùn)課件
- 護(hù)理禮儀與人文關(guān)懷
- 運(yùn)維服務(wù)體系建立實(shí)施方案(5篇)
- 路面基層(級(jí)配碎石)施工方案
- 2025年日歷(日程安排-可直接打印)
- 四川政采評(píng)審專家入庫(kù)考試基礎(chǔ)題復(fù)習(xí)試題及答案(一)
- 患者手術(shù)風(fēng)險(xiǎn)評(píng)估與術(shù)前準(zhǔn)備制度
- 口腔執(zhí)業(yè)醫(yī)師定期考核試題(資料)帶答案
- 2024年三八婦女節(jié)婦女權(quán)益保障法律知識(shí)競(jìng)賽題庫(kù)及答案(共260題)
- 2023年7月浙江省普通高中學(xué)業(yè)水平考試(學(xué)考)語(yǔ)文試題答案
- 2024年計(jì)算機(jī)軟件水平考試-初級(jí)信息處理技術(shù)員考試近5年真題集錦(頻考類試題)帶答案
評(píng)論
0/150
提交評(píng)論