




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中國礦業(yè)大學(xué)計算機學(xué)院2018級本科生課程報告課程名稱信息內(nèi)容安全報告題目基于python爬取攜程景點評論信息報告時間2021.7.6姓名常雨晴學(xué)號08182924任課教師曹天杰2020-2021(二)《信息內(nèi)容安全》課程報告評分表序號畢業(yè)要求課程教學(xué)目標(biāo)考查方式與考查點占比得分12.3目標(biāo)1:掌握信息內(nèi)容安全的基本概念、分類、原理和相關(guān)技術(shù),能夠根據(jù)課程基本知識對信息內(nèi)容安全領(lǐng)域出現(xiàn)的問題進行歸類、分析、并有初步分析和解決問題的能力。通過課堂講授和課堂研討掌握信息內(nèi)容安全概念和理論知識。40%3.2目標(biāo)2:掌握信息內(nèi)容安全處理相關(guān)的理論、技術(shù)以及健全的評價體系,能夠根據(jù)具體問題分析算法、設(shè)計算法、實現(xiàn)算法并能綜合評價算法。24.3目標(biāo)3:掌握信息內(nèi)容安全的基礎(chǔ)知識,針對具體問題和要求選擇正確的技術(shù)路線,通過在實驗環(huán)境中進行仿真實驗并能根據(jù)算法特點進行攻擊測試和綜合性能評價,得到具有參考價值的結(jié)論。課程報告;實現(xiàn)有關(guān)信息內(nèi)容安全的一個軟件系統(tǒng)。分析和對比各項技術(shù),選擇相應(yīng)的技術(shù)進行算法設(shè)計并在實驗環(huán)境中進行仿真實驗和性能評價,得到有效結(jié)論。60%總分100%評閱人:2021年7月10日報告摘要如今,人類社會已經(jīng)進入了大數(shù)據(jù)時代,數(shù)據(jù)成為了必不可少的部分,如何有效地提取并利用這些數(shù)據(jù)成為一個巨大的挑戰(zhàn)??梢姅?shù)據(jù)的獲取非常重要,傳統(tǒng)的通用搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。因此如果市場上沒有我們要的數(shù)據(jù),那么就需要用爬蟲來獲得想要的數(shù)據(jù)。關(guān)鍵詞:爬蟲;可視化;詞云;
報告正文1爬蟲介紹1.1爬蟲原理網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索。在運行爬蟲之前,我們要知道網(wǎng)頁三大特征:1)網(wǎng)頁都有自己唯一的URL(統(tǒng)一資源定位符)來進行定位。2)網(wǎng)頁都使用HTML(超文本標(biāo)記語言)來描述頁面信息。3)網(wǎng)頁都使用HTTP/HTTPS(超文本傳輸協(xié)議)協(xié)議來傳輸HTML數(shù)據(jù)。因此,我們在設(shè)計一個爬蟲時,首先確定要爬取的網(wǎng)頁URL地址,接著通過HTTP/HTTPS協(xié)議來獲取對于的HTML頁面,提取HTML里面有用的數(shù)據(jù),如果是有用的數(shù)據(jù),那么就保存起來,如果是頁面里有其他URL,那么就繼續(xù)獲取HTML頁面知道爬取到有用的數(shù)據(jù)。1.2爬蟲流程在本文中的爬蟲運行流程基本如下:1)發(fā)起請求:通過HTTP庫向目標(biāo)站點發(fā)送一個Request,請求可以包含headers、data等信息,然后等待服務(wù)器響應(yīng)。這個請求的過程就像我們打開瀏覽器,在瀏覽器地址欄輸入網(wǎng)址,然后點擊回車。這個過程其實就相當(dāng)于瀏覽器作為一個瀏覽的客戶端,向服務(wù)器端發(fā)送了一次請求。2)獲取響應(yīng)內(nèi)容:如果服務(wù)器能正常響應(yīng),我們會得到一個Response,Response的內(nèi)容便是所要獲取的內(nèi)容,類型可能有HTML、Json字符串,二進制數(shù)據(jù)等類型。這個過程就是服務(wù)器接收客戶端的請求,進過解析發(fā)送給瀏覽器的網(wǎng)頁HTML文件。3)解析內(nèi)容:得到的內(nèi)容可能是HTML,可以使用正則表達式,網(wǎng)頁解析庫進行解析。也可能是Json,可以直接轉(zhuǎn)為Json對象解析??赡苁嵌M制數(shù)據(jù),可以做保存或者進一步處理。這一步相當(dāng)于瀏覽器把服務(wù)器端的文件獲取到本地,再進行解釋并且展現(xiàn)出來。4)保存數(shù)據(jù):保存的方式可以是把數(shù)據(jù)存為文本,也可以把數(shù)據(jù)保存到數(shù)據(jù)庫,或者保存為特定的jpg,mp4等格式的文件。這就相當(dāng)于我們在瀏覽網(wǎng)頁時,下載了網(wǎng)頁上的圖片或者視頻。首先觀察攜程網(wǎng)站,點擊評論下一頁后,對瀏覽器的鏈接沒有影響,這說明數(shù)據(jù)是Ajax異步請求。F12查看評論區(qū)的具體代碼。F5刷新,打開網(wǎng)頁的審查因素,查看network的傳輸內(nèi)容。request的方式為POST,我們可以采取最簡單的post方法。我們對URL進行篩選,篩選關(guān)鍵詞為“comment”,選擇“方法”列值為“POST”的URL。在“請求”中找到payload,就此我們得到了請求偽造的參數(shù)。2實現(xiàn)細節(jié)2.1請求偽造1)偽造請求報文。2)模擬服務(wù)器訪問。3)調(diào)用request包中的post方法。2.2數(shù)據(jù)篩選使用panda、json包中的函數(shù)篩選出id、景區(qū)名、用戶名、評分、評論內(nèi)容、評論時間。2.3數(shù)據(jù)存儲把數(shù)據(jù)存儲在lijiang.csv文件中。2.4數(shù)據(jù)可視化使用wordcloud、jieba、matplotlib包中的函數(shù),去除停用詞后,根據(jù)字符串出現(xiàn)概率繪制詞云。2.5反爬蟲措施1)1.user-agent使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國大豆專用腐植酸復(fù)合肥數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國圣誕燈串?dāng)?shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國內(nèi)花紋牽伸膠圈數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國二軸電腦彈簧機數(shù)據(jù)監(jiān)測研究報告
- 2025年中國超聲波粉位測量儀市場調(diào)查研究報告
- 2025年中國網(wǎng)上客戶關(guān)系管理系統(tǒng)市場調(diào)查研究報告
- 2025年中國水潤滑艉軸密封裝置市場調(diào)查研究報告
- 2025年中國有色金屬球市場調(diào)查研究報告
- 2025年中國平頭無帽沿發(fā)光二極管市場調(diào)查研究報告
- 2025年中國圣誕老人提手四方籃市場調(diào)查研究報告
- 口腔醫(yī)院客服培訓(xùn)課件
- 04G325吊車軌道聯(lián)結(jié)及車擋
- 2024年金城出版社有限公司招聘筆試參考題庫含答案解析
- 皮下注射的并發(fā)癥及預(yù)防
- 羅沙司他治療腎性貧血的療效與安全性評價演示稿件
- 華為公司員工培訓(xùn)與績效管理
- 混凝土攪拌站有限空間作業(yè)管理制度模版
- 苯板廠應(yīng)急預(yù)案范本
- 未成年人犯罪附條件不起訴制度研究的開題報告
- 孫燕姿所有歌曲歌詞大全(11張專輯)
- 分管教學(xué)副校長開學(xué)工作講話稿
評論
0/150
提交評論