網絡爬蟲論文答辯課件_第1頁
網絡爬蟲論文答辯課件_第2頁
網絡爬蟲論文答辯課件_第3頁
網絡爬蟲論文答辯課件_第4頁
網絡爬蟲論文答辯課件_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

網絡爬蟲·論文答辯定向爬取?腳本之家?文本信息網絡爬蟲·論文答辯定向爬取?腳本之家?文本信息CONTENTS目錄課題綜述1研究過程4目前現狀2研究結論5研究目標3參考文獻6CONTENTS目錄課題綜述1研究過程4目前現狀2研究結論5目錄頁緒論PARTONE目錄頁緒論PARTONE<10%>80%選題意義搜索引擎作為一個輔助人們檢索信息的工具。但是,這些通用性搜索引擎也存在著一定的局限性。不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網頁。為了解決這個問題,一個靈活的爬蟲有著無可替代的重要意義。有效信息廣告、無用信息選題背景及意義<10%>80%選題意義搜索引擎作為一個輔助人們檢索信息的工

對于網絡延遲的處理,并且能夠開啟HTTPCHACHE,極大限度的提高爬取速度,偽造代理信息,表單等,讓目標網站,認為你是安全的具備可視化顯示,以網頁的形式有好的顯示數據,并提供簡單的搜索功能,能將數據簡單分類,智能推薦研究目標AC研究目標B

使網絡爬蟲高效靈活,在主題網站中盡量全面的爬取信息,并且能夠自動構造URL,遞歸調用自身,開啟多線程快速的爬取,準確提取有效信息,存儲到數據庫D整合數據信息,并以json格式存儲至Mongo,方面各個平臺使用,通過腳本程序,遷移到Mysql為依賴關系較強的項目使用E目標網站地址:/article/1.htm對于網絡延遲的處理,并且能夠開啟HTTPCH目錄頁研究方法與思路PARTTWO目錄頁研究方法與思路PARTTWO網絡爬蟲基礎理論學習構造URL、多線程、強大的抓取能力、信息提取任務python、scrapy、mongodb2016.04.32016.04.102016.04.172016.04.242015.05.12016.05.82016.05.152016.05.222016.05.29php、數據可視化顯示研究方法網絡爬蟲基礎理論學習構造URL、多線程、強大的抓取能力、信息步驟一步驟二步驟三步驟四步驟五通過Internet查詢網絡爬蟲運行機制,基本原理,根據所爬取的網站設計自己的爬蟲了解爬蟲理論機制學習Python,Scrapy框架的搭建,Mongodb的簡單操作,Laravel,bootstrap框架學習、編寫、調試學習基礎知識老師的多次面談和郵件交流,解決了一些理論的疑點和實踐上的難點,指導了爬蟲的設計和利弊分析,提供了很多的幫助老師教導設計和學習完基礎知識后,搭建了繁瑣的環(huán)境,在Windows下進行了爬蟲的開發(fā)、調試,最終成功的實現了信息的爬取與提取爬蟲的編寫與調試將爬去下來的數據,通過腳本程序進行數據轉換,利用網頁技術可視化顯示可視化顯示研究步驟步驟一步驟二步驟三步驟四步驟五通過Internet查詢網絡爬目錄頁關鍵技術與難點PARTTHREE目錄頁關鍵技術與難點PARTTHREE關鍵技術主爬蟲的設計編寫數據的轉換與顯示Spider

主爬蟲文件的編寫,利用Scrapy根據網站的自身特性構建URL,將抓取下來的網頁信息進行信息提取,并將有用信息存儲到mongo數據庫,監(jiān)測數據庫插入情況可視化顯示將Mongodb中的數據通過腳本程序復寫到MySQL,利于網站依賴關系處理,用Laravel框架編寫后臺控制邏輯,友好的Bootstrap前臺顯示。關鍵技術主爬蟲的設計編寫數據的轉換與顯示Spider可視化顯ScrapyScrapy環(huán)境搭建需要導入的一些關鍵包:python2.7、lxml、zope、Twisted、pyOpenSSL、pywin32、一定要注意版本,國內一些也沒有,安裝依賴包就會將很多人拒之門外。Mongodb啟動腳本:mongod--dbpath../data依賴包:pymongo主要類:Script2Pipeline(object)pymongo.MongoClient()tdb=client[]self.post.insert(scriptInfo)Spider關鍵代碼:src2Spider(scrapy.Spider):parse(self,response):scrapy.selector.Selector(response)new_url=self.url+str(self.pageNum)+".htm"yieldRequest(new_url,callback=self.parse)Data提取字段:title、desc、content、tag主配置:USER_AGENTCOOKIES_ENABLEDCONCURRENT_REQUESTSHTTPCACHE_ENABLEDMONGODB_CONFIG技術難點ScrapyScrapy環(huán)境搭建需要導入的一些關鍵包:pytVS

全球最大的中文搜索引擎、致力于讓網民更便捷地獲取信息,為了解決大規(guī)模數據管理計算,在金字塔計劃夭折后,最終也倒向了雅虎牽頭的Hadoop開源項目百度Google

Google的使命是整合全球范圍的信息,當搜索引擎抓取到的結果越來越多時,保證存儲和查詢速度的難度越來越高,研發(fā)Caffeine、Pregel、Dremel三種技術以解決這些問題。萬網抓取率:25%大數據管理:Hadoop全球市場份額:8.13%萬網抓取率:80%大數據管理:Spanner全球市場份額:67.49%案例對比分析VS全球最大的中文搜索引擎、致力于讓網民更便捷目錄頁研究成果與應用PARTFOUR目錄頁研究成果與應用PARTFOUR01完成了主題爬蟲編寫,兩條爬蟲同時爬取目標網站四個多小時,共提取出了有效信息85000條,以json格式,每一萬條數據一張表的形式,保存至mongodb數據庫03通過laravel。bootstrap框架利用MVC框架,將數據優(yōu)雅的顯示到前臺,并提供簡單的查詢功能,但搜索功能還是不盡人意,在多重模糊查詢中由于mysql左連接的缺陷是的搜索速度非常的緩慢,有時還可能拖死m(xù)ysql數據庫02將mongodb數據庫中的數據經過整合,首先使用自帶的CSV作為中間件進行轉換時由于CSV文件的單個單元格最大存儲32,767個字符造成數據截取丟失,編寫自適應錯誤腳本程序將mongodb中的數據轉換到了mysql數據庫成果形式01完成了主題爬蟲編寫,兩條爬蟲同時爬取目標成果形式?腳本之家主爬蟲代碼片段成果形式?腳本之家主爬蟲代碼片段數據成果存儲展現形式數據成果存儲展現形式應用前景

通過編寫靈活的爬蟲,簡單有效的垂直爬取主題網站,踢去有用信提取,并作統(tǒng)計分析,保存至數據庫,提供快速查詢接口。垂直化爬取

通過垂直化爬取的數據量比較小,在存儲和查詢方面都會大大提速,并且精度更高,信息使用率增高,減少能量消耗解除大數據管理

定向爬去網站信息,并進行學習分析,提高只能利用,判斷該行業(yè)發(fā)展情況和未來走向,做出及時防范數據分析SpiderDATA應用前景通過編寫靈活的爬蟲,簡單有效的垂直爬取主題目錄頁論文總結PARTFIVE目錄頁論文總結PARTFIVE致謝THANKS!大學生活即將結束,在此,我要感謝所有教導我的老師和陪伴我一齊成長的同學,他們在我的大學生涯給予了很大的幫助。本論文能夠順利完成,要特別感謝我的導師趙中英老師,趙中英老師對該論文從選題,構思到最后定稿的各個環(huán)節(jié)給予細心指引與教導,使我得以最終完成畢業(yè)論文設計!

最后,我要向百忙之中抽時間對本文進行審閱,評議和參與本人論文答辯的各位老師表示感謝!懇請各位老師批評指正!致謝THANKS!大學生活即將結束,在此,網絡爬蟲·論文答辯定向爬取?腳本之家?文本信息網絡爬蟲·論文答辯定向爬取?腳本之家?文本信息CONTENTS目錄課題綜述1研究過程4目前現狀2研究結論5研究目標3參考文獻6CONTENTS目錄課題綜述1研究過程4目前現狀2研究結論5目錄頁緒論PARTONE目錄頁緒論PARTONE<10%>80%選題意義搜索引擎作為一個輔助人們檢索信息的工具。但是,這些通用性搜索引擎也存在著一定的局限性。不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網頁。為了解決這個問題,一個靈活的爬蟲有著無可替代的重要意義。有效信息廣告、無用信息選題背景及意義<10%>80%選題意義搜索引擎作為一個輔助人們檢索信息的工

對于網絡延遲的處理,并且能夠開啟HTTPCHACHE,極大限度的提高爬取速度,偽造代理信息,表單等,讓目標網站,認為你是安全的具備可視化顯示,以網頁的形式有好的顯示數據,并提供簡單的搜索功能,能將數據簡單分類,智能推薦研究目標AC研究目標B

使網絡爬蟲高效靈活,在主題網站中盡量全面的爬取信息,并且能夠自動構造URL,遞歸調用自身,開啟多線程快速的爬取,準確提取有效信息,存儲到數據庫D整合數據信息,并以json格式存儲至Mongo,方面各個平臺使用,通過腳本程序,遷移到Mysql為依賴關系較強的項目使用E目標網站地址:/article/1.htm對于網絡延遲的處理,并且能夠開啟HTTPCH目錄頁研究方法與思路PARTTWO目錄頁研究方法與思路PARTTWO網絡爬蟲基礎理論學習構造URL、多線程、強大的抓取能力、信息提取任務python、scrapy、mongodb2016.04.32016.04.102016.04.172016.04.242015.05.12016.05.82016.05.152016.05.222016.05.29php、數據可視化顯示研究方法網絡爬蟲基礎理論學習構造URL、多線程、強大的抓取能力、信息步驟一步驟二步驟三步驟四步驟五通過Internet查詢網絡爬蟲運行機制,基本原理,根據所爬取的網站設計自己的爬蟲了解爬蟲理論機制學習Python,Scrapy框架的搭建,Mongodb的簡單操作,Laravel,bootstrap框架學習、編寫、調試學習基礎知識老師的多次面談和郵件交流,解決了一些理論的疑點和實踐上的難點,指導了爬蟲的設計和利弊分析,提供了很多的幫助老師教導設計和學習完基礎知識后,搭建了繁瑣的環(huán)境,在Windows下進行了爬蟲的開發(fā)、調試,最終成功的實現了信息的爬取與提取爬蟲的編寫與調試將爬去下來的數據,通過腳本程序進行數據轉換,利用網頁技術可視化顯示可視化顯示研究步驟步驟一步驟二步驟三步驟四步驟五通過Internet查詢網絡爬目錄頁關鍵技術與難點PARTTHREE目錄頁關鍵技術與難點PARTTHREE關鍵技術主爬蟲的設計編寫數據的轉換與顯示Spider

主爬蟲文件的編寫,利用Scrapy根據網站的自身特性構建URL,將抓取下來的網頁信息進行信息提取,并將有用信息存儲到mongo數據庫,監(jiān)測數據庫插入情況可視化顯示將Mongodb中的數據通過腳本程序復寫到MySQL,利于網站依賴關系處理,用Laravel框架編寫后臺控制邏輯,友好的Bootstrap前臺顯示。關鍵技術主爬蟲的設計編寫數據的轉換與顯示Spider可視化顯ScrapyScrapy環(huán)境搭建需要導入的一些關鍵包:python2.7、lxml、zope、Twisted、pyOpenSSL、pywin32、一定要注意版本,國內一些也沒有,安裝依賴包就會將很多人拒之門外。Mongodb啟動腳本:mongod--dbpath../data依賴包:pymongo主要類:Script2Pipeline(object)pymongo.MongoClient()tdb=client[]self.post.insert(scriptInfo)Spider關鍵代碼:src2Spider(scrapy.Spider):parse(self,response):scrapy.selector.Selector(response)new_url=self.url+str(self.pageNum)+".htm"yieldRequest(new_url,callback=self.parse)Data提取字段:title、desc、content、tag主配置:USER_AGENTCOOKIES_ENABLEDCONCURRENT_REQUESTSHTTPCACHE_ENABLEDMONGODB_CONFIG技術難點ScrapyScrapy環(huán)境搭建需要導入的一些關鍵包:pytVS

全球最大的中文搜索引擎、致力于讓網民更便捷地獲取信息,為了解決大規(guī)模數據管理計算,在金字塔計劃夭折后,最終也倒向了雅虎牽頭的Hadoop開源項目百度Google

Google的使命是整合全球范圍的信息,當搜索引擎抓取到的結果越來越多時,保證存儲和查詢速度的難度越來越高,研發(fā)Caffeine、Pregel、Dremel三種技術以解決這些問題。萬網抓取率:25%大數據管理:Hadoop全球市場份額:8.13%萬網抓取率:80%大數據管理:Spanner全球市場份額:67.49%案例對比分析VS全球最大的中文搜索引擎、致力于讓網民更便捷目錄頁研究成果與應用PARTFOUR目錄頁研究成果與應用PARTFOUR01完成了主題爬蟲編寫,兩條爬蟲同時爬取目標網站四個多小時,共提取出了有效信息85000條,以json格式,每一萬條數據一張表的形式,保存至mongodb數據庫03通過laravel。bootstrap框架利用MVC框架,將數據優(yōu)雅的顯示到前臺,并提供簡單的查詢功能,但搜索功能還是不盡人意,在多重模糊查詢中由于mysql左連接的缺陷是的搜索速度非常的緩慢,有時還可能拖死m(xù)ysql數據庫02將mongodb數據庫中的數據經過整合,首先使用自帶的CSV作為中間件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論