關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)實(shí)踐報(bào)告_第1頁(yè)
關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)實(shí)踐報(bào)告_第2頁(yè)
關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)實(shí)踐報(bào)告_第3頁(yè)
關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)實(shí)踐報(bào)告_第4頁(yè)
關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)實(shí)踐報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)踐目的隨著現(xiàn)代信息技術(shù)的高速發(fā)展,信息的傳播速度越來(lái)越快并迅速滲透到社會(huì)生活的各個(gè)方面,計(jì)算機(jī)日漸成為人們生活,工作,學(xué)習(xí)不可或缺的伙伴,同時(shí),也扮演著不同的角色。工作時(shí)需要做材料,文檔;學(xué)習(xí)時(shí)就會(huì)顯得更加重要,計(jì)算機(jī)可以幫助我們學(xué)習(xí)到更多,更廣,更深?yuàn)W的知識(shí)?,F(xiàn)代的人不會(huì)使用計(jì)算機(jī)就好像不認(rèn)識(shí)一樣,使人寸步難行,進(jìn)入大數(shù)據(jù)的時(shí)代,計(jì)算機(jī)更家普及到每個(gè)人的的生活中去,時(shí)時(shí)刻刻伴隨著我們,給我們的學(xué)習(xí)生活增添無(wú)限的樂(lè)趣。作為大學(xué)生,我們應(yīng)該不僅僅掌握計(jì)算機(jī)基礎(chǔ)知識(shí),還應(yīng)該學(xué)習(xí)更多計(jì)算機(jī)更有深度的知識(shí),因此學(xué)校在短學(xué)期為我們開(kāi)設(shè)的python學(xué)習(xí)課真是恰到好處,符合時(shí)代的要求,緊跟時(shí)代的步伐,順應(yīng)時(shí)代的潮流,引領(lǐng)了時(shí)代的發(fā)展。實(shí)踐目的具體如下:讓人掌握并運(yùn)用知識(shí)的唯一途徑就是不斷的學(xué)習(xí),并且還應(yīng)該順應(yīng)時(shí)代的潮流。Python是一課比較注重可讀性和效率的計(jì)算機(jī)語(yǔ)言,所以說(shuō)大多數(shù)的程序開(kāi)發(fā)者morelike更歡迎python,而不是Java和C++這樣的復(fù)雜繁瑣的語(yǔ)言,它的這兩個(gè)優(yōu)勢(shì)讓其在開(kāi)發(fā)者中大受歡迎,除此之外,Python還比較簡(jiǎn)單易學(xué),可在任何平臺(tái)運(yùn)行以及編譯速度快等優(yōu)點(diǎn),因此我們大學(xué)生有必要將此項(xiàng)技能掌握。2.培養(yǎng)我們的耐性

學(xué)習(xí)新知識(shí)也是非常辛苦的,但同時(shí)也很有成就感,也很光榮,沒(méi)有一點(diǎn)耐心的人,經(jīng)受不起新知識(shí)帶來(lái)的考驗(yàn),也無(wú)法真正的獲取知識(shí),而只有持之以恒的人才能一步一步邁向金字塔的頂端。3.培養(yǎng)良好的團(tuán)隊(duì)交際能力一個(gè)項(xiàng)目的完成離不開(kāi)團(tuán)隊(duì)里每個(gè)人的努力付出,只有友好和睦的溝通,互相理解,互相幫扶,才能夠克服坎坷困難,因此,學(xué)習(xí)過(guò)程也培養(yǎng)了我們團(tuán)隊(duì)合作的精神。4.能夠提高大學(xué)生個(gè)人素養(yǎng),完善個(gè)性品質(zhì)課外學(xué)習(xí)注定是比較艱辛的,但是同時(shí)是鍛煉大學(xué)生意志品質(zhì)的好機(jī)會(huì),在學(xué)習(xí)下過(guò)程中,在遇到困難和坎坷的時(shí)候,要求我們一點(diǎn)更有堅(jiān)持不懈的品質(zhì)鋼鐵一般不屈的意志,不向困難低頭,我們堅(jiān)信,沒(méi)有什么問(wèn)題還是我們能解決不了的,而我們將會(huì)有更多的收獲,不僅僅收獲了知識(shí),還磨練了我們的意志品質(zhì),不斷提高自己,不斷完善自己。5.有利于增加學(xué)生的競(jìng)爭(zhēng)力當(dāng)今社會(huì)面臨很多的競(jìng)爭(zhēng),只有我們身懷盡可能多的技能,才能在競(jìng)爭(zhēng)中鶴立雞群,因此,此次專項(xiàng)技能提升的學(xué)習(xí)機(jī)會(huì),恰好能夠豐富我們的能力,也使得我們?cè)谝院笞叱鲂@,能夠安穩(wěn)的在社會(huì)立足提供了更多的保保障實(shí)踐內(nèi)容關(guān)于爬蟲(chóng)我們需要學(xué)習(xí)的內(nèi)容1.Python基礎(chǔ)語(yǔ)法學(xué)習(xí)(基礎(chǔ)知識(shí))2.HTML頁(yè)面的內(nèi)容抓?。〝?shù)據(jù)抓?。?.HTML頁(yè)面的數(shù)據(jù)提?。〝?shù)據(jù)清洗)4.Scrapy框架以及scrapy-redis分布式策略(第三方框架)6.爬蟲(chóng)(Spider)、反爬蟲(chóng)(Anti-Spider)、反反爬蟲(chóng)(Anti-Anti-Spider)之間的斗爭(zhēng)了解爬蟲(chóng)的基本流程和基本原理:工作原理:網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)能夠自動(dòng)爬取網(wǎng)頁(yè)的一個(gè)小程序,它從搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。比如學(xué)校校園網(wǎng):我們可以編寫(xiě)程序,向?qū)W校服務(wù)器發(fā)送請(qǐng)求以獲取到我們想要的數(shù)據(jù)。流程:Ⅰ發(fā)送請(qǐng)求(request)

1、請(qǐng)求方式:GET、POST

2、請(qǐng)求URL

3、請(qǐng)求頭:User-Agent、Host、Cookies等

4、請(qǐng)求體

Ⅱ、獲取數(shù)據(jù)(response)

1、響應(yīng)狀態(tài)

2、響應(yīng)頭

3、響應(yīng)體:要獲取的數(shù)據(jù)

Ⅲ、解析數(shù)據(jù)(Parse)

Json、XPath、BeautifulSoup、PyQuery、正則表達(dá)式

Ⅳ、存儲(chǔ)數(shù)據(jù)

1、文本

2、數(shù)據(jù)庫(kù)

3、二進(jìn)制文件Ⅴ預(yù)處理將搜索回來(lái)的引擎,爬蟲(chóng)抓取得到的的界面,進(jìn)行各個(gè)層次的預(yù)處理。提取文字中文分詞去除噪音(比如版權(quán)聲明文字、導(dǎo)航條、廣告等……)索引處理鏈接關(guān)系計(jì)算特殊文件處理項(xiàng)目的分析解釋爬蟲(chóng):網(wǎng)絡(luò)爬蟲(chóng)就好比是一只蜘蛛,又被人稱為網(wǎng)頁(yè)追趕者,按照一定的規(guī)則,自動(dòng)的會(huì)抓取網(wǎng)頁(yè)上的程序或者腳本,經(jīng)常被用于搜索引擎一類的搜索軟件,爬蟲(chóng)的功能主要是三點(diǎn),一,數(shù)據(jù)采集,就是把所需要的網(wǎng)頁(yè)上的數(shù)據(jù)提取出來(lái),二,數(shù)據(jù)處理,將采集的數(shù)據(jù)進(jìn)行各種處理,整理成所需要的規(guī)格。三,儲(chǔ)存數(shù)據(jù),就是將采集處理的數(shù)據(jù)集中起來(lái)進(jìn)行儲(chǔ)存。這樣就是一整套爬蟲(chóng)的過(guò)程。解釋導(dǎo)入的五個(gè)庫(kù)和包:importrequests:Requests

是用Python語(yǔ)言進(jìn)行編寫(xiě),以u(píng)rllib為基礎(chǔ),采用的時(shí)Apache2

Licensed

庫(kù)。Importjson:JSON

指的是

JavaScript

對(duì)象表示法(JavaScript

Object

Notation)

JSON

是輕量級(jí)的文本數(shù)據(jù)交換格式

JSON

獨(dú)立于語(yǔ)言JSON

具有自我描述性,更易理解三,實(shí)踐過(guò)程例子1:設(shè)計(jì)學(xué)校教務(wù)登錄程序n=input("請(qǐng)輸出你的名字:")

m=input("請(qǐng)輸出你的學(xué)號(hào):")

ifn=="田志鵬"andm=="1704970348":

print("登陸成功")

else:

print("登陸失敗")

n=input("請(qǐng)輸出你的名字:")

m=input("請(qǐng)輸出你的學(xué)號(hào):")

ifn=="田志鵬"andm=="1704970348":

print("登陸成功")

else:

print("登陸失敗")

n=input("請(qǐng)輸出你的名字:")

m=input("請(qǐng)輸出你的學(xué)號(hào):")

ifn=="田志鵬"andm=="1704970348":

print("登陸成功")

else:

print("登陸失敗")例子2:三個(gè)數(shù)字由小到大排列y=input("輸入數(shù)字:")

t=input("輸入數(shù)字:")

q=int(r)

w=int(t)

e=int(y)

ifq>w:

ifw>e:

print(e,w,q)

else:

ifq>e:

print(w,e,q)

else:

print(w,q,e)

else:

ifq>e:

print(e,q,w)

else:

ifw>e:

print(q,e,w)

else:

print(q,w,e)例子3:九九乘法表程序編寫(xiě)foriinrange(1,10):

string=""

forjinrange(1,i+1):

string+=str(j)+"*"+str(i)+"="+str(i*j)+"\t"

print(string)例子4:網(wǎng)頁(yè)項(xiàng)目設(shè)計(jì)<html><head><tital>《將進(jìn)酒》唐·李白</tital></head><body>數(shù)學(xué)1703</body></html/>例子5生活中簡(jiǎn)單問(wèn)答編程q=input("下節(jié)是不是英語(yǔ)課?");

ifq=="是":

w=input("是不是李老師的課?");

ifw=="是":

print("謝謝你");

e=input("今天星期五嗎?");

ife=="是":

print("真好");

else:

print("好的呢")

else:

print("嗯");

else:

print("好的");例子6計(jì)算數(shù)組字符次數(shù),扦插字符,數(shù)組倒序li=[11,22,33,44,55,55,66]

c=li.count(55)

print(c)

v=li.index(11)

v=v+1

print(v)

li.append(99)

print(li)

li.insert(2,99)

print(li)

li.reverse()

print(li)101內(nèi)奇數(shù)和n=1

whilen<101:

temp=n%2

iftemp==0:

pass

else:

print(n)

n=n+1

print('end')四、實(shí)踐體會(huì)夏季短學(xué)期專項(xiàng)技能提升心得體會(huì)

這次實(shí)踐周的高級(jí)編程語(yǔ)言課程的主講語(yǔ)言是python。python應(yīng)該是一個(gè)簡(jiǎn)潔高效的語(yǔ)言.敢這么說(shuō)當(dāng)然是受到大部分程序員的認(rèn)同。瀏覽python的官網(wǎng),我看python是經(jīng)歷了很多次的更新的了,這自然是很正常的,任何東西都應(yīng)該不斷的修改,查漏補(bǔ)缺。老師在課堂上說(shuō)過(guò),python的2版本和3版本并不相互兼容,因此可以看到在網(wǎng)站上對(duì)這兩個(gè)版本的編譯環(huán)境有著相對(duì)應(yīng)的安裝包等文件,里面也有著很多的教程,這些對(duì)于學(xué)習(xí)python有著極大的好處。兩周圖論課程的學(xué)習(xí),我基本上掌握了python基礎(chǔ)語(yǔ)法的知識(shí),并能夠?qū)懸恍┖?jiǎn)單的程序,python給我最大的感覺(jué)就是靈活,相對(duì)來(lái)說(shuō)還是比較簡(jiǎn)單的,,編程真是個(gè)神奇的世界,能幫助人實(shí)現(xiàn)很多東西。這才是縱向的努力,而不是橫向的努力。剛開(kāi)始我們從Python的基礎(chǔ)語(yǔ)法學(xué)習(xí)起步

,學(xué)習(xí)到了什么是Python的數(shù)組

什么是語(yǔ)句

什么是結(jié)構(gòu),什么是模塊,后來(lái)慢慢的練習(xí)基本掌握簡(jiǎn)單的編程。后來(lái)還學(xué)習(xí)了爬蟲(chóng),作為我目前學(xué)習(xí)的高級(jí)語(yǔ)言,我對(duì)它是很期待的,因?yàn)槲矣X(jué)作為當(dāng)代大學(xué)生必須要多掌握一些編程語(yǔ)言,雖然很難,但是能和大家一起學(xué)也是很好的,這樣就能有著強(qiáng)制性的督促作用。二十一世紀(jì)是信息的時(shí)代,是智能的時(shí)代,更是計(jì)算機(jī)的大時(shí)代。作為信息與計(jì)算科學(xué)的學(xué)生,我更加覺(jué)得學(xué)習(xí)計(jì)算機(jī)知識(shí)對(duì)我們有多重要,起初只是抱著技多不壓人的心態(tài)去學(xué)習(xí),但現(xiàn)在看來(lái),不但不是要學(xué)習(xí),而且還是必須得學(xué)習(xí)的一項(xiàng)技能。當(dāng)今社會(huì)面臨很多的競(jìng)爭(zhēng),只有我們身懷盡可能多的技能,才能在競(jìng)爭(zhēng)中鶴立雞群,因此,此次專項(xiàng)技能提升的學(xué)習(xí)機(jī)會(huì),恰好能夠豐富我們的能力,也使得我們?cè)谝院笞叱鲂@,能夠安穩(wěn)的在社會(huì)立足提供了更多的保保障萬(wàn)事開(kāi)頭難,對(duì)于計(jì)算機(jī)幾乎為零基礎(chǔ)的我來(lái)說(shuō),學(xué)習(xí)計(jì)算機(jī)簡(jiǎn)直是難于上青天,但是后來(lái)慢慢地聽(tīng)老師的講解,聽(tīng)老師的指導(dǎo),逐漸摸到了些許門(mén)路,還有好多同學(xué)給予我很多幫助,讓我能夠緊隨老師的步伐一點(diǎn)一點(diǎn)的消化知識(shí)。在兩星期的短暫學(xué)習(xí)中,勾起了我對(duì)計(jì)算機(jī)的熱情,我也學(xué)習(xí)到了計(jì)算機(jī)方面的專業(yè)知識(shí),也發(fā)現(xiàn)了自己在計(jì)算機(jī)方面的不足,更重要的是我還學(xué)會(huì)了如何與人合作,遇到困難怎么解決而不是總?cè)ピ儐?wèn)別人,學(xué)會(huì)幫助別人去一起解決問(wèn)題……詳細(xì)收獲主要有下面幾點(diǎn)1對(duì)于計(jì)算機(jī)方面研究的熱愛(ài)經(jīng)過(guò)的pyhon的學(xué)習(xí),已經(jīng)勾起了我對(duì)計(jì)算機(jī)方面研究的熱愛(ài),我覺(jué)得自己走進(jìn)了一片空曠的田野,這片土地還沒(méi)有被開(kāi)掘,被我發(fā)現(xiàn)了,現(xiàn)在我只需要努力去學(xué)習(xí),去研究這個(gè)領(lǐng)域,相信我會(huì)在計(jì)算機(jī)這片田野收獲無(wú)盡的知識(shí)財(cái)富。2.培養(yǎng)了我們創(chuàng)造性思維計(jì)算機(jī)發(fā)明到現(xiàn)在只不過(guò)幾十年時(shí)間,而短短的幾十年時(shí)間遠(yuǎn)遠(yuǎn)不夠去把計(jì)算機(jī)里的學(xué)問(wèn)摸透,想要計(jì)算機(jī)更好的服務(wù)于人,那我們必須開(kāi)動(dòng)我們的大腦,充分發(fā)揮我們的想象力,利用我們的創(chuàng)造性思維,去探索去發(fā)掘計(jì)算機(jī)那未知的領(lǐng)域。3.拓展了我們的知識(shí)面學(xué)習(xí)計(jì)算機(jī)語(yǔ)言需要數(shù)學(xué),計(jì)算機(jī)等各個(gè)學(xué)科之間的緊密配合,才能夠編寫(xiě)語(yǔ)言時(shí)能夠應(yīng)用自如。因此,看似在學(xué)習(xí)計(jì)算機(jī)語(yǔ)言,但是其實(shí)在整個(gè)學(xué)習(xí)知識(shí)的過(guò)程中,有學(xué)習(xí)到不僅僅計(jì)算機(jī)方面的知識(shí),默默的又能夠增加我們對(duì)課外知識(shí)的汲取,拓展了我們的知識(shí)面4.良好的交際能力一個(gè)項(xiàng)目的完成需要一個(gè)良好的團(tuán)隊(duì),而如果沒(méi)有良好的溝通往往很難完成艱巨的任務(wù),合作才能增加的成功的籌碼,于是乎團(tuán)隊(duì)間的交流溝通勢(shì)必非常關(guān)鍵,我們考慮別人的想法,考慮別人的感受,所以,這必然會(huì)提高我們?nèi)撕腿酥g的交際能力,良好的溝通這是成功的基礎(chǔ)。5.學(xué)會(huì)適應(yīng)時(shí)代學(xué)習(xí)計(jì)算機(jī)語(yǔ)言本來(lái)是一個(gè)非必須的任務(wù),但是之所以學(xué)校抽時(shí)間邀請(qǐng)老師給我們講python,這也是一種適應(yīng)社會(huì)的行為,而作為一名大三的學(xué)生,再過(guò)一年也將踏上社會(huì),走自己的人生,走進(jìn)社會(huì),我們也會(huì)學(xué)這跟隨社會(huì)的發(fā)展,順應(yīng)社會(huì)的潮流,這樣才能不被社會(huì)所淘汰。6.磨練心智學(xué)習(xí)python的目的是為了更好的挖掘數(shù)據(jù),進(jìn)行數(shù)據(jù)的整合。編寫(xiě)過(guò)程就是一個(gè)注意力集中動(dòng)腦的過(guò)程,能夠讓我們的思維更加清晰,對(duì)我們的思維有較大好處,能夠很好的幫助我們學(xué)習(xí)和生活。7.助力養(yǎng)成好習(xí)慣學(xué)校的這次實(shí)踐活動(dòng)十分有意義,雖然這次的暑期學(xué)習(xí)實(shí)踐時(shí)間不是那么長(zhǎng),,但是對(duì)于我來(lái)講收獲頗多。在這次的實(shí)踐中,我學(xué)會(huì)了怎樣與人合作,怎樣讓與人和睦溝通,不僅讓我學(xué)會(huì)了技能知識(shí),也讓我更深刻的體會(huì)到了和同協(xié)作交流的重要性。我相信在這樣的學(xué)習(xí)氛圍中,我們會(huì)越來(lái)越優(yōu)秀,會(huì)變得更好!8.提高技能在這一段的學(xué)習(xí)實(shí)踐中,我不僅了解到了網(wǎng)絡(luò)爬蟲(chóng)相關(guān)的知識(shí),也通過(guò)接觸一些網(wǎng)絡(luò)編程程序,自己也慢慢掌握了一些簡(jiǎn)單的python語(yǔ)言,也會(huì)設(shè)計(jì)一些簡(jiǎn)單的爬蟲(chóng)程序,對(duì)于一些簡(jiǎn)單使用的小爬蟲(chóng)程序,也可以慢慢的看出來(lái)運(yùn)行的核心和運(yùn)行時(shí)候的工作原理。經(jīng)過(guò)兩周的實(shí)踐學(xué)習(xí)過(guò)程中,當(dāng)遇到自己不擅長(zhǎng),遇到自己不太懂的問(wèn)題和知識(shí)點(diǎn)時(shí),通過(guò)跟身邊同學(xué)們的交流和溝通,不僅讓自己掌握了技巧和方法,也使自己收獲了寶貴的友誼,學(xué)習(xí)python也會(huì)對(duì)我們找工作有所幫助。此次實(shí)踐也暴露出來(lái)一些我自己的問(wèn)題:首先,在我剛接觸這個(gè)“新鮮玩意兒”的時(shí)候,我們有認(rèn)真對(duì)待,表現(xiàn)為上課玩手機(jī)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論