《數(shù)據(jù)采集技術(shù)與應(yīng)用》課件-2.4 爬蟲開發(fā)中遵守的法律和道德_第1頁
《數(shù)據(jù)采集技術(shù)與應(yīng)用》課件-2.4 爬蟲開發(fā)中遵守的法律和道德_第2頁
《數(shù)據(jù)采集技術(shù)與應(yīng)用》課件-2.4 爬蟲開發(fā)中遵守的法律和道德_第3頁
《數(shù)據(jù)采集技術(shù)與應(yīng)用》課件-2.4 爬蟲開發(fā)中遵守的法律和道德_第4頁
《數(shù)據(jù)采集技術(shù)與應(yīng)用》課件-2.4 爬蟲開發(fā)中遵守的法律和道德_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

爬蟲開發(fā)中遵守的法律與道德數(shù)據(jù)采集技術(shù)與應(yīng)用內(nèi)容/contentRobots協(xié)議01爬蟲開發(fā)中的法律和道德約束02總結(jié)與思考03Robots協(xié)議Robots協(xié)議又稱爬蟲協(xié)議,它是國際互聯(lián)網(wǎng)界通行的道德規(guī)范,用于保護(hù)網(wǎng)站數(shù)據(jù)和敏感信息,確保網(wǎng)站用戶的個人信息和隱私不受侵犯。為了讓網(wǎng)絡(luò)爬蟲了解網(wǎng)站的訪問范圍,網(wǎng)站管理員通常會在網(wǎng)站的根目錄下放置一個符合Robots協(xié)議的robots.txt文件,通過這個文件告知網(wǎng)絡(luò)爬蟲在抓取該網(wǎng)站時存在哪些限制,哪些網(wǎng)頁是允許被抓取的,哪些網(wǎng)頁是禁止被抓取的。Robots協(xié)議當(dāng)網(wǎng)絡(luò)爬蟲訪問網(wǎng)站時,應(yīng)先檢查該網(wǎng)站的根目錄下是否存在robots.txt文件。若robots.txt文件不存在,則網(wǎng)絡(luò)爬蟲可訪問該網(wǎng)站上所有被口令保護(hù)的頁面;若robots.txt文件存在,則網(wǎng)絡(luò)爬蟲應(yīng)按照該文件的內(nèi)容確定訪問網(wǎng)站的范圍。Robots協(xié)議robots.txt文件中的內(nèi)容有著一套通用的寫作規(guī)范。下面以豆瓣網(wǎng)站根目錄下的robots.txt文件為例,分析robots.txt文件的語法規(guī)則。Robots協(xié)議User-agent:用于指定網(wǎng)絡(luò)爬蟲的名稱。若該選項(xiàng)的值為“*”,則說明robots.txt文件對任何網(wǎng)絡(luò)爬蟲均有效。帶有“*”號的User-agent選項(xiàng)只能出現(xiàn)一次。例如,示例的第一條語句User-agent:*。Disallow:用于指定網(wǎng)絡(luò)爬蟲禁止訪問的目錄。若Disallow選項(xiàng)的內(nèi)容為空,說明網(wǎng)站的任何內(nèi)容都是被允許訪問的。在robots.txt文件中,至少要有一個包含Disallow選項(xiàng)的語句。例如,Disallow:/subject_search禁止網(wǎng)絡(luò)爬蟲訪問目錄/subject_search。Robots協(xié)議Allow:用于指定網(wǎng)絡(luò)爬蟲允許訪問的目錄。例如,Allow:/ads.txt表示允許網(wǎng)絡(luò)爬蟲訪問目錄/ads.txt。Sitemap:用于告知網(wǎng)絡(luò)爬蟲網(wǎng)站地圖的路徑。例如,Sitemap:這兩個路徑都是網(wǎng)站地圖,主要說明網(wǎng)站更新時間、更新頻率、網(wǎng)址重要程度等信息。爬蟲開發(fā)的法律和道德約束一些數(shù)據(jù)涉密或者具有很高的商業(yè)價值,私自爬取會觸犯法律,面臨被追究刑事責(zé)任的風(fēng)險?!缎谭ā芳啊缎谭ㄐ拚浮贰ⅰ蹲罡呷嗣穹ㄔ?、最高人民檢察院關(guān)于辦理危害計算機(jī)信息系統(tǒng)安全刑事案件應(yīng)用法律若干問題的解釋》肆意攻擊服務(wù)器,使用爬蟲技術(shù)破

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論