互聯(lián)網(wǎng)信息采集實(shí)例--Web信息檢索與數(shù)據(jù)抓取-互聯(lián)網(wǎng)信息_第1頁(yè)
互聯(lián)網(wǎng)信息采集實(shí)例--Web信息檢索與數(shù)據(jù)抓取-互聯(lián)網(wǎng)信息_第2頁(yè)
互聯(lián)網(wǎng)信息采集實(shí)例--Web信息檢索與數(shù)據(jù)抓取-互聯(lián)網(wǎng)信息_第3頁(yè)
互聯(lián)網(wǎng)信息采集實(shí)例--Web信息檢索與數(shù)據(jù)抓取-互聯(lián)網(wǎng)信息_第4頁(yè)
互聯(lián)網(wǎng)信息采集實(shí)例--Web信息檢索與數(shù)據(jù)抓取-互聯(lián)網(wǎng)信息_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、微信采集實(shí)例頁(yè)面分析2 微信采集源為搜狗搜索中微信搜索 如下圖:微信采集實(shí)例頁(yè)面分析3 我們用火狐瀏覽器的firebug來(lái)查看網(wǎng)頁(yè)結(jié)構(gòu):微信采集實(shí)例頁(yè)面分析4通過(guò)對(duì)網(wǎng)頁(yè)源碼分析,得到我們需要的內(nèi)容: 標(biāo)題 摘要 標(biāo)題 摘要 針對(duì)網(wǎng)頁(yè)結(jié)構(gòu) ,利用jsoup來(lái)獲取相關(guān)元素:Int i=10; for (int i = 0; i len; i+) String titleCssQuery = div.txt-box h4 a#sogou_vr_11002601_title_ + i; String summaryCssQuery = div.txt-box p#sogou_vr_11002601_s

2、ummary_ + i;/標(biāo)題選擇 Element titleElement = document.select(titleCssQuery).first(); String href = ; String titleText = ; if(titleElement != null) titleText = titleElement.text();/標(biāo)題標(biāo)題 href = titleElement.attr(“href”);/url /摘要選擇 Element summaryElement = document.select(summaryCssQuery).first(); String s

3、ummaryText = ; if(summaryElement != null)/摘要摘要 summaryText = summaryElement.text(); 微信采集實(shí)例代碼5 實(shí)例中抓取 “微信”中包含醫(yī)院關(guān)鍵詞的文章,抓取新聞列表的標(biāo)題、url以及正文信息。采集完成后將信息錄入數(shù)據(jù)庫(kù)采集代碼片段: 入口url為 http:/ List search(String url) List webpages = new ArrayList(); try Document document = Jsoup.connect(url).get(); String cssQuery = html

4、 body div.mun resnum#scd_num; LOG.debug(total cssQuery: + cssQuery); Element totalElement = document.select(cssQuery).first(); String totalText = totalElement.text(); int total = Integer.parseInt(totalText.replace(, ).replace(個(gè)個(gè), ); LOG.info(搜索結(jié)果數(shù): + total); int len = 10;/這里我們只采集十條這里我們只采集十條微信采集實(shí)例代碼6

5、for (int i = 0; i len; i+) String titleCssQuery = div.txt-box h4 a#sogou_vr_11002601_title_ + i; String summaryCssQuery = div.txt-box p#sogou_vr_11002601_summary_ + i; Element titleElement = document.select(titleCssQuery).first(); String href = ; String titleText = ; if(titleElement != null) titleTe

6、xt = titleElement.text();/標(biāo)題 href = titleElement.attr(“href”);/標(biāo)題url Element summaryElement = document.select(summaryCssQuery).first(); String summaryText = ; if(summaryElement != null) summaryText = summaryElement.text(); /摘要 微信采集實(shí)例代碼7LOG.debug(summaryText); if (titleText != null & !.equals(tit

7、leText.trim() & summaryText != null & !.equals(summaryText.trim() Webpage webpage = new Webpage(); webpage.setTitle(titleText); webpage.setUrl(href); webpage.setSummary(summaryText); if (href != null) String content = Tools.getHTMLContent(href);/獲取正文獲取正文 webpage.setContent(content); else LOG

8、.info(頁(yè)面正確提取失敗); webpages.add(webpage); else LOG.error(獲取搜索結(jié)果列表項(xiàng)出錯(cuò): + titleText + - + summaryText); catch (IOException ex) LOG.error(搜索出錯(cuò),ex); return webpages;微信采集實(shí)例入庫(kù)8采集入庫(kù) List webpages = searcher.search(url);/采集 if (webpages != null) for (Webpage webpage : webpages) LOG.info(標(biāo)題: + webpage.getTitle(); LOG.info(URL: + webpage.getUrl(); LOG.info(摘要: + webpage.getSummary(); LOG.info(正文: + webpage.getContent(); /入庫(kù) DBUtil db=new DBUtil();/創(chuàng)建實(shí)例創(chuàng)建實(shí)例 db.insert(UUID.randomUUID().toString(), webpage.getTitle(), webpage.getSummary(),

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論