![互聯(lián)網(wǎng)信息采集實(shí)例--Web信息檢索與數(shù)據(jù)抓取-互聯(lián)網(wǎng)信息_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/68e9d1b0-b59a-47e2-a425-1cc998a3ef7f/68e9d1b0-b59a-47e2-a425-1cc998a3ef7f1.gif)
![互聯(lián)網(wǎng)信息采集實(shí)例--Web信息檢索與數(shù)據(jù)抓取-互聯(lián)網(wǎng)信息_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/68e9d1b0-b59a-47e2-a425-1cc998a3ef7f/68e9d1b0-b59a-47e2-a425-1cc998a3ef7f2.gif)
![互聯(lián)網(wǎng)信息采集實(shí)例--Web信息檢索與數(shù)據(jù)抓取-互聯(lián)網(wǎng)信息_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/68e9d1b0-b59a-47e2-a425-1cc998a3ef7f/68e9d1b0-b59a-47e2-a425-1cc998a3ef7f3.gif)
![互聯(lián)網(wǎng)信息采集實(shí)例--Web信息檢索與數(shù)據(jù)抓取-互聯(lián)網(wǎng)信息_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/68e9d1b0-b59a-47e2-a425-1cc998a3ef7f/68e9d1b0-b59a-47e2-a425-1cc998a3ef7f4.gif)
![互聯(lián)網(wǎng)信息采集實(shí)例--Web信息檢索與數(shù)據(jù)抓取-互聯(lián)網(wǎng)信息_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/68e9d1b0-b59a-47e2-a425-1cc998a3ef7f/68e9d1b0-b59a-47e2-a425-1cc998a3ef7f5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、微信采集實(shí)例頁(yè)面分析2 微信采集源為搜狗搜索中微信搜索 如下圖:微信采集實(shí)例頁(yè)面分析3 我們用火狐瀏覽器的firebug來(lái)查看網(wǎng)頁(yè)結(jié)構(gòu):微信采集實(shí)例頁(yè)面分析4通過(guò)對(duì)網(wǎng)頁(yè)源碼分析,得到我們需要的內(nèi)容: 標(biāo)題 摘要 標(biāo)題 摘要 針對(duì)網(wǎng)頁(yè)結(jié)構(gòu) ,利用jsoup來(lái)獲取相關(guān)元素:Int i=10; for (int i = 0; i len; i+) String titleCssQuery = div.txt-box h4 a#sogou_vr_11002601_title_ + i; String summaryCssQuery = div.txt-box p#sogou_vr_11002601_s
2、ummary_ + i;/標(biāo)題選擇 Element titleElement = document.select(titleCssQuery).first(); String href = ; String titleText = ; if(titleElement != null) titleText = titleElement.text();/標(biāo)題標(biāo)題 href = titleElement.attr(“href”);/url /摘要選擇 Element summaryElement = document.select(summaryCssQuery).first(); String s
3、ummaryText = ; if(summaryElement != null)/摘要摘要 summaryText = summaryElement.text(); 微信采集實(shí)例代碼5 實(shí)例中抓取 “微信”中包含醫(yī)院關(guān)鍵詞的文章,抓取新聞列表的標(biāo)題、url以及正文信息。采集完成后將信息錄入數(shù)據(jù)庫(kù)采集代碼片段: 入口url為 http:/ List search(String url) List webpages = new ArrayList(); try Document document = Jsoup.connect(url).get(); String cssQuery = html
4、 body div.mun resnum#scd_num; LOG.debug(total cssQuery: + cssQuery); Element totalElement = document.select(cssQuery).first(); String totalText = totalElement.text(); int total = Integer.parseInt(totalText.replace(, ).replace(個(gè)個(gè), ); LOG.info(搜索結(jié)果數(shù): + total); int len = 10;/這里我們只采集十條這里我們只采集十條微信采集實(shí)例代碼6
5、for (int i = 0; i len; i+) String titleCssQuery = div.txt-box h4 a#sogou_vr_11002601_title_ + i; String summaryCssQuery = div.txt-box p#sogou_vr_11002601_summary_ + i; Element titleElement = document.select(titleCssQuery).first(); String href = ; String titleText = ; if(titleElement != null) titleTe
6、xt = titleElement.text();/標(biāo)題 href = titleElement.attr(“href”);/標(biāo)題url Element summaryElement = document.select(summaryCssQuery).first(); String summaryText = ; if(summaryElement != null) summaryText = summaryElement.text(); /摘要 微信采集實(shí)例代碼7LOG.debug(summaryText); if (titleText != null & !.equals(tit
7、leText.trim() & summaryText != null & !.equals(summaryText.trim() Webpage webpage = new Webpage(); webpage.setTitle(titleText); webpage.setUrl(href); webpage.setSummary(summaryText); if (href != null) String content = Tools.getHTMLContent(href);/獲取正文獲取正文 webpage.setContent(content); else LOG
8、.info(頁(yè)面正確提取失敗); webpages.add(webpage); else LOG.error(獲取搜索結(jié)果列表項(xiàng)出錯(cuò): + titleText + - + summaryText); catch (IOException ex) LOG.error(搜索出錯(cuò),ex); return webpages;微信采集實(shí)例入庫(kù)8采集入庫(kù) List webpages = searcher.search(url);/采集 if (webpages != null) for (Webpage webpage : webpages) LOG.info(標(biāo)題: + webpage.getTitle(); LOG.info(URL: + webpage.getUrl(); LOG.info(摘要: + webpage.getSummary(); LOG.info(正文: + webpage.getContent(); /入庫(kù) DBUtil db=new DBUtil();/創(chuàng)建實(shí)例創(chuàng)建實(shí)例 db.insert(UUID.randomUUID().toString(), webpage.getTitle(), webpage.getSummary(),
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年團(tuán)隊(duì)建設(shè)策劃與實(shí)施協(xié)議
- 2025年高層建筑防火策劃安全協(xié)議
- 2025年學(xué)生自主安排實(shí)習(xí)單位協(xié)議
- 2025年全年合作協(xié)議模板
- 2025年代付款責(zé)任協(xié)議樣本
- 2025年個(gè)人住房抵押貸款合同范文概述
- 2025年婚姻解約協(xié)議書(shū)策劃模板
- 2025年企業(yè)員工消防安全協(xié)議書(shū)模板
- 2025年中小企業(yè)商業(yè)匯票質(zhì)押貸款合同
- 2025年優(yōu)化室內(nèi)設(shè)計(jì)合同協(xié)議
- 2025年中國(guó)中煤能源股份有限公司招聘筆試參考題庫(kù)含答案解析
- 2024年度碳陶剎車(chē)盤(pán)分析報(bào)告
- 2025年春新外研版(三起)英語(yǔ)三年級(jí)下冊(cè)課件 Unit6第1課時(shí)Startup
- 2025年1月 浙江首考英語(yǔ)試卷
- 十首最美的唐詩(shī)
- 2024年中考二輪專(zhuān)題復(fù)習(xí)道德與法治主觀題答題技巧(小論文)之演講稿
- 質(zhì)檢工作計(jì)劃書(shū)2025質(zhì)檢部工作計(jì)劃范文
- 施工現(xiàn)場(chǎng)5S管理規(guī)范
- 《纏論的實(shí)戰(zhàn)技法》課件
- 新版標(biāo)準(zhǔn)化機(jī)電專(zhuān)業(yè)管理體系解讀課件
- 承包魚(yú)塘維修施工合同范例
評(píng)論
0/150
提交評(píng)論