【移動應用開發(fā)技術】怎么利用python3爬取漫畫島

上傳人：m*** IP屬地：湖北上傳時間：2023-06-07 格式：DOCX 頁數：9 大?。?12.43KB 積分：12 舉報 版權申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

【移動應用開發(fā)技術】怎么利用python3爬取漫畫島

這篇文章主要介紹“怎么利用python3爬取漫畫島”，在日常操作中，相信很多人在怎么利用python3爬取漫畫島問題上存在疑惑，在下查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”怎么利用python3爬取漫畫島”的疑惑有所幫助！接下來，請跟著在下一起來學習吧！首先是我們想要爬取的漫畫網頁：/網頁截圖：其次是爬取下來的效果：每一回的文件夾里面是這樣的：(因為網站圖片的問題...所以就成了這個鬼樣子)1、準備：需要vscode或者其他能夠編譯運行python的軟件，推薦python版本3.X，否則有可能出現編譯問題。下載所需模塊：win+R進入命令行，輸入pipinstall<模塊名>即可下載。例如：pip

install

beautifulsoup42、原理：模擬瀏覽器點擊->打開漫畫網頁鏈接->獲取網頁源碼->定位每一章漫畫的鏈接->模擬點擊->獲取圖片頁面源碼->定位圖片鏈接->下載圖片1、引入模塊（這里不再詳述）

2、模擬瀏覽器訪問網頁(1)、這里我們打開漫畫的目錄頁，如下：url=”/Home/ComicDetail?id=58ddb07827a7c1392c234628“，此鏈接就是目錄頁鏈接。(2)、按F12打開此網頁的源碼（谷歌瀏覽器），選中上方NetWork，Ctrl+R刷新。(3)、找到加載網頁的源碼文件，點擊Headers，如下圖：StatusCode表示網頁返回的代碼，值為200時表示訪問成功。(4)、headers中的參數為下面紅框User-Agent。response

requests.get(url=url,

headers=headers)

模擬訪問網頁

print(response)

此處應輸出

<Response

[200]>

print(response.text)

輸出網頁源碼兩個輸出分別輸出：

輸出返回200表示訪問成功。

（節(jié)選）(5)、將html代碼存入data中，xpath定位每一章鏈接。點擊上方Element，點擊：將鼠標移至目錄處：右邊代碼區(qū)域出現每一章鏈接：data

etree.HTML(response.text)

data.xpath("http://ul[@class="read-chapter"]/li/a[@class="active"]/@href")

data.xpath("http://*[@class="yesReader"]/@href")

zhang_list

tp為鏈接列表輸出zhang_list，結果如下：(6)、獲取圖片鏈接（獲取方式同上一步）點進第一章，同上一步，尋找到圖片鏈接：i=1

for

next_zhang

zhang_list:

在章節(jié)列表中循環(huán)

i=i+1

j=0

hui_url

r_url+next_zhang

name1

"第"+str(i)+"回"

file

"C:/Users/wangyueke/Desktop/"+keyword+"/{}/".format(name1)

創(chuàng)建文件夾

not

os.path.exists(file):

os.makedirs(file)

print("創(chuàng)建文件夾：",

file)

response

requests.get(url=hui_url,

headers=headers)

模擬訪問每一章鏈接

data

etree.HTML(response.text)

data.xpath("http://div[@class="no-pic"]//img/@src")

data.xpath("http://div[@class="main-content"]//ul//li//div[@class="no-pic"]//img/@src")

定位

ye_list

tp(7)、下載圖片for

ye_list:

在每一章的圖片鏈接列表中循環(huán)

download_url

tp[j]

print(download_url)

j=j+1

file_name="第"+str(j)+"頁"

response

requests.get(url=download_url)

模擬訪問圖片鏈接

with

open(file+file_name+".jpg","wb")

f.write(response.content)"""

用于爬取非人哉漫畫

目標網址：/

開始時間：2019/8/14

20:01:26

完成時間：2019/8/15

11:04:56

作者：kong_gu

"""

import

requests

import

json

import

time

import

from

lxml

import

etree

from

bs4

import

BeautifulSoup

def

main():

keyword="非人哉"

file

"E:/{}".format(keyword)

not

os.path.exists(file):

os.mkdir(file)

print("創(chuàng)建文件夾：",file)

r_url="/"

url

"/Home/ComicDetail?id=58ddb07827a7c1392c234628"

headers

{

模擬瀏覽器訪問網頁

"User-Agent":

"Mozilla/5.0

(Windows

10.0;

Win64;

x64)

AppleWebKit/537.36

(KHTML,

Gecko)

Chrome/75.0.3770.142

Safari/537.36"}

response

requests.get(url=url,

headers=headers)

print(response.text)

輸出網頁源碼

data

etree.HTML(response.text)

data.xpath("http://ul[@class="read-chapter"]/li/a[@class="active"]/@href")

data.xpath("http://*[@class="yesReader"]/@href")

zhang_list

i=1

for

next_zhang

zhang_list:

i=i+1

j=0

hui_url

r_url+next_zhang

name1

"第"+str(i)+"回"

file

"C:/Users/wangyueke/Desktop/"+keyword+"/{}/".format(name1)

這里需要自己設置路徑

not

os.path.exists(file):

os.makedirs(file)

print("創(chuàng)建文件夾：",

file)

response

requests.get(url=hui_url,

headers=headers)

data

etree.HTML(response.text)

data.xpath("http://div[@class="no-pic"]//img/@src")

data.xpath("http://div[@class="main-content"]//ul//li//div[@class="no-pic"]//img/@src")

ye_list

for

ye_list:

download_url

tp[j]

print(download_url)

j=j+1

file_name="第"+str(j)

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

【移動應用開發(fā)技術】怎么利用python3爬取漫畫島

文檔簡介

溫馨提示

最新文檔

評論

【移動應用開發(fā)技術】怎么利用python3爬取漫畫島

文檔簡介

溫馨提示

最新文檔

評論

相關文檔