版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、.火車頭 采集教程火車頭采集器使用說明下載地址:下載地址: 我們下載免費版。注意:想用火車,就必須得安裝.NET FrameWork 2.0框架或更高版本.net framework 2.0下載地址: 那么,火車我們也下載到本地了,。net框架,我們也安裝了。那么,我們把新下載的火車采集軟件,解壓下??吹揭恍┟苊苈槁閬y七八糟的東西及文件。那么。上圖中,用紅線圈住的LocoySpider.exe 是主程序,我們雙擊打開。ps:這里說下,上圖中,有好多任務(wù)是我自己用的。新程序,并沒有那么多。我們會看到火車的界面,看起來非常復(fù)雜,是吧? 呵呵,其實并沒有那么復(fù)雜,對于新手,有好多東西是用不到的。下邊
2、會一一的講解。我們先補習(xí)一下,火車頭采集軟件的工作原理。因為我們?yōu)g覽到的網(wǎng)頁,最后都是通過html輸出的,那么意味著,我們可以查看到html的源碼,那么火車頭為什么會采集到內(nèi)容呢?我們看下網(wǎng)站的基本結(jié)構(gòu)。 -這些藍色的東西,對于新手,我們不需要知道!網(wǎng)頁的標(biāo)題 -紅色的是網(wǎng)頁的標(biāo)題。如下圖(1)內(nèi)容 在這個和之間的,是網(wǎng)站的內(nèi)容部分。如下圖(2) -這里是網(wǎng)站的結(jié)尾。如果想查看一個網(wǎng)頁的html源文件,之需要點擊瀏覽器上的 查看,源文件即可。(1)(2)那么,我們知道了一個網(wǎng)頁最基本的架構(gòu),那么就好理解火車采集的基本原理了火車采集軟件是怎么采集的呢?我們配置好火車頭采集規(guī)則,什么叫采集規(guī)則?就
3、是我們查看網(wǎng)頁的源文件,看看整個網(wǎng)頁的源碼,內(nèi)容部分的開始標(biāo)簽,和結(jié)束標(biāo)簽,這樣火車才能知道,我們要采集這個頁面的哪個部分,比如下邊我們演示的。網(wǎng)頁的標(biāo)題內(nèi)容我們想要采集“內(nèi)容”那么就要告訴火車采集器,內(nèi)容開始標(biāo)簽是,結(jié)束標(biāo)簽就是明白了么?呃。估計是我的表達能力不夠好。so。我們看下邊的實例,在好好鞏固下就OK。OK。那么我們開始一步一步教大家設(shè)置采集規(guī)則。首先第一個。我們的目標(biāo)站。discuz!x1.5架構(gòu)的網(wǎng)站。我們要把這個版塊的內(nèi)容以及回復(fù)都采集到我們的網(wǎng)站上去。首先我們打開火車,新建一個站點。點擊火車左上角上的新建按鈕,選擇新建站點。如下圖我們只需要填寫站點名就可以,其余的保持默認(rèn),然
4、后點擊保存按鈕!然后。在這個站點下,新建一個任務(wù)。選中我們新建的站點,點擊鼠標(biāo)右鍵,選擇第一個,從該站點新建任務(wù)。如下圖其中1,是任務(wù)的名字,必須填寫。2,是整個采集任務(wù)的步驟向?qū)В?,是文章列表的設(shè)置區(qū)域(下邊講解),4,和3差不多。5,是登錄的地方,有些網(wǎng)址必須登錄,我們才可以看到內(nèi)容,就是這個東西!OK。就這些,那么,我們一步一步的來!首先我們給我們的任務(wù)加一個標(biāo)題。下一步,我們就開始設(shè)置列表的采集規(guī)則(因為現(xiàn)在火車不知道 這個頁面的文章列表是那些,所以我們要告訴火車?。┻@里有兩種方式,新手嘛,我也不知道適合哪種。我們就用默認(rèn)的吧,第一種我們點擊向?qū)砑尤缓蟪霈F(xiàn)下圖。其中有4個選項卡,如
5、果我們只采集目標(biāo)站點的一個文章列表然后點擊添加,點擊完成就OK。那么,如果我們要采集多個列表。那么我們回到 看下邊的圖其中1,是目標(biāo)網(wǎng)站的地址其中2,是火車的通配符(就是某個東西識別的東西)其中3,是間隔數(shù)已經(jīng)補零(下邊一一講解)其中4,數(shù)字變化。下邊講解其中5,字母變化。那么??聪聢D圖中在地址欄填寫的是 這個。那么,這是什么意思呢? 我們打開 這個地址,然后點擊下一頁發(fā)現(xiàn)地址變成了 那么我們在點擊下一頁,就是第三頁,發(fā)現(xiàn)地址變成了 那么在點擊第四頁。想必大家也知道變成什么了吧? 那么第一頁:第二頁:第三頁:翻頁中,我們發(fā)現(xiàn),只有1在變化。那么我們在火車那里就填寫 這個,其中1用火車的通配符(
6、*)替換掉。意思就是,只有1在變化。在看下邊其中數(shù)字變化,從1到5.意思就是 從地址欄 1到5,就是下邊這樣的。明白了么?其實很簡單。那么字母變化,就是 。因為我們目標(biāo)地址是數(shù)字變化。我們繼續(xù)看下邊間隔倍數(shù),和補零。間隔倍數(shù)1是什么意思?40又是什么意思呢?間隔倍數(shù)1就是。間隔倍數(shù)40就是。明白了么?那么我們在看補零,補零就是。就是這樣。其實很好理解。OK。我們繼續(xù)。我們填寫完成后,點擊添加 - 完成。如下圖到這里,我們的地址就添加完成了。那么下邊,我們來設(shè)置區(qū)域列表。我們先設(shè)置第一個?!拔恼聝?nèi)容頁面地址必須包含。不得包含?!蔽覀冸S便點開 這個網(wǎng)址中的兩篇文章,看下URL。就是文章地址。發(fā)現(xiàn)以
7、上兩個地址。那么他們其中只有 紅色部分在變動。那么,文章內(nèi)容必須包含。我們寫 這樣就可以,那么我們點擊“開始測試網(wǎng)址采集”這個時候,我們點開網(wǎng)站前邊的+號發(fā)現(xiàn),其實網(wǎng)址已經(jīng)采集成功了。其中的并不需要填寫。這是為什么呢?因為我們采集的頁面 中的文章地址,就是 紅色部分都會變動?;蛘哂锌赡茏儎?。所以我們加上通配符,所以我們不用填寫這個,也可以采集成功。那么,為了讓大家更直白的了解火車,我們還是寫一下。那么我們打開 這個地址,在頁面中,點擊右鍵,選擇“查看源文件”(因為不好截圖。)發(fā)現(xiàn)上邊的東西出現(xiàn),都是一些猥瑣的html代碼。我們怎么定義文章地址的區(qū)域呢?看下圖我們復(fù)制頁面中的“篩選”然后在頁面源
8、碼中查找下,那么自然,下邊的,就是文章地址的區(qū)域咯。那么我們在這里,填寫什么呢?我們要填寫一個“唯一”的東西。就是這個頁面獨有的一個,并且在文章地址上方的一個代碼。如上圖。我們選擇這段 代碼!然后我們復(fù)制 這段代碼,在我們打開的源文件中,向下查找看,看看有沒有相同的。好消息。沒有相同了。那么我們在填寫 那么這里怎么填寫呢?其實一樣。我們給下看看源碼。我們向上查找下。OK.那么。就填寫.就OK。照著這樣填寫就OK了。其實這一步是多此一舉。只是教大家怎樣填寫罷了。我們隨便選中一條地址,雙擊鼠標(biāo)左鍵。直接跳到第二部,采集內(nèi)容規(guī)則。在這里,我們點擊一下測試按鈕。發(fā)現(xiàn),標(biāo)題和內(nèi)容都采集到了,但是。在標(biāo)題
9、上,我們把目標(biāo)站點的網(wǎng)站主標(biāo)題也采集過來了。而內(nèi)容。是把整個頁面亂七八糟的東西都采集過來了。那么。我們開始設(shè)置更精確的采集規(guī)則。擦。首先,我們設(shè)置標(biāo)題?,F(xiàn)在默認(rèn)的采集標(biāo)題是 又出來個史上最強大的搜索引擎! - 無聊扯蛋 - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz! 我們需要的標(biāo)題是紅色部分。那么。 我們雙擊上圖被圈住的地方。那么我們需要設(shè)置的地方就是那么。我們現(xiàn)在采集到的標(biāo)題是 又出來個史上最強大的搜索引擎! - 無聊扯蛋 - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz! 這個,那么,我們只需要把藍色的部分去掉。怎么去掉呢
10、?下圖我們添加然后點擊確定點擊測試發(fā)現(xiàn)又出來個史上最強大的搜索引擎! - 無聊扯蛋 - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz! 藍色部分已經(jīng)被去掉。那么我們這里來解釋下。上圖中的開始字符串和結(jié)束字符串是什么呢?我們打開 這個頁面,然后查看下源文件。如下圖??梢园l(fā)現(xiàn),在和中就是我們要采集文章的標(biāo)題,只是多了- 無聊扯蛋 - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz! 這個,那么我們排除就可以了。那為什么在中,要寫成- (*) - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz!這樣的呢?為什
11、么把 無聊扯蛋換成了(*)呢?因為我們可以看得出- 無聊扯蛋 - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz! 無聊扯蛋 只是這個網(wǎng)站的一個版塊,如果采集別的版塊,那么 無聊扯蛋,就會變動。到時候我們還得設(shè)置排除標(biāo)簽。索性,我們把它改成通配符(*),那么在采集別的版塊,就不用設(shè)置了。那么其中的藍色部分,是網(wǎng)站的主標(biāo)題,在一般情況下是不會變動的。所以不用搞成通配符。 那么。標(biāo)題。我們就設(shè)置完成了。下邊來設(shè)置內(nèi)容部分。內(nèi)容部分的采集規(guī)則設(shè)置,其實和列表一樣!我們服飾內(nèi)容,在源文件進行查找。其中選中的部分,就是我們的內(nèi)容部分。那么。我們在源碼中 查找下 這個標(biāo)簽,看
12、看是不是唯一的。 發(fā)現(xiàn)并不是唯一的。而是每個樓層也就是回帖的內(nèi)容都是用 和 括起來的。那么。我們就輸入上圖所示。在圖中的 html標(biāo)簽排除。我們?nèi)x。因為我們之后的發(fā)布,是不支持發(fā)布附件的,也不支持html。所以全部排除。然后確定。我們測試下其中內(nèi)容和內(nèi)容之間,用|分割開了。這是啥意思類?呵呵。這個是循環(huán)匹配。就是。一個樓層與樓層之間的分隔符。就是回復(fù)與回復(fù)之間的分隔符。哎呀。我也說不清楚啦??傊_@樣就可以。默認(rèn),保持不變就OK。那么?,F(xiàn)在,標(biāo)題也設(shè)置OK。內(nèi)容也OK。接下來就是分頁問題。我們在源文件中查找“下一頁”那么圖中被選中的地方,就是下一頁的全部源碼。那么,我們選中下一個的開始標(biāo)簽
13、和結(jié)束標(biāo)簽,對應(yīng)輸入到就可以了。我們在分頁內(nèi)容合并鏈接代碼這里輸入|這個。至于什么意思。就是分頁嘛。我也說不清楚??偸禽斎刖褪橇?。那么。到這里,網(wǎng)址采集部分,和內(nèi)容采集部分已經(jīng)設(shè)置完畢了。下邊,我們要講,發(fā)布?,F(xiàn)在開始講解 火車頭的發(fā)布。因為我們需要發(fā)布到 我們的 discuz!x1.5的程序上。那么,首先我們需要兩個東西1.火車頭的dz1.5的發(fā)布模塊 (塵緣免費版)2.免登錄接口 (塵緣免費版)那么。下載地址。如果下載地址失效。請加我QQ 索取 782711659下載后,解壓。首先呢。我們需要配置接口。我們進入接口文件夾。并且進入對應(yīng)編碼的文件夾發(fā)現(xiàn)有兩個php文件。 其中的 Locoy.
14、php是程序主文件,可以改名,Locoy.config.php是配置文件,不能改名。那么我們先把Locoy.php的名字改掉。我們改成 woca.php然后我們打開locoy.config.php 這個文件其中1,是發(fā)帖的用戶,2,是回帖的用戶。這里我們可以填寫自己的。記得用|分開。這里說下,我們填寫的用戶名,可以是網(wǎng)站沒有注冊的,也可以是注冊過的。如果沒有注冊的,它會自動注冊。剩下其他的配置參數(shù),可以根據(jù)自己的需要更改,都有注釋,這里就不一一解釋了。更改完成后,我們把這兩個文件上傳到我們空間的根目錄。OK。接口文件我們已經(jīng)處理完畢。那么。我們開始處理發(fā)布模塊。進入火車。我們導(dǎo)入圈中的模塊。因為我已經(jīng)導(dǎo)入過了。所以這里不用。在圖中圈住的地方。我們要修改成我們自己改的名字。如圖。記得在刷新列表那里也要修改。OK。模塊基本完成了。還有一點。如果我們的版塊開啟了主題分類,那么我們還需要修改下模塊。比如我們要給維修知識里邊發(fā)。那么。發(fā)現(xiàn)主題分類的typei=1 那么我們在發(fā)布模塊中填寫。明白了唄? 呵呵。就這樣我們的發(fā)布模塊就配置完成了。 我們保存。給它加一個名字。然后我們關(guān)閉當(dāng)前的模塊。我們選中我們剛才修改過并且重命名的模塊
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人體工學(xué)月亮椅設(shè)計
- 品管圈匯報演講稿
- 【Ks5u發(fā)布】福建省寧德市2021屆高三單科質(zhì)量檢測地理試題-掃描版含答案
- 【優(yōu)化方案】2020-2021學(xué)年高一下學(xué)期地理(人教版必修2)第二章第二節(jié)實戰(zhàn)演練輕松闖關(guān)-含答案
- 電梯培訓(xùn)課程
- 各類擋煙垂壁安裝詳圖-
- 校園主題郵局策劃方案
- BMI身體質(zhì)量指數(shù)怎么計算呢
- 天津市利達鋼管廠產(chǎn)品質(zhì)量證明書
- 非食用植物油的功能性產(chǎn)品市場分析考核試卷
- 水上拋石安全專項施工方案
- 中職課程思政說課比賽 課件
- 臺大歐麗娟《紅樓夢》公開課全部筆記
- 公司報價管理辦法
- 農(nóng)貿(mào)市場安全生產(chǎn)風(fēng)險分級管控和隱患排查治理雙體系方案全套資料2019-2020完整實施方案模板
- 網(wǎng)絡(luò)安全設(shè)備巡檢報告
- 人教版 五年級上冊道德與法治全冊各課及單元同步檢測試卷【含答案】
- T梁濕接縫及橫隔梁施工方案
- 校園廣播系統(tǒng)施工安裝方案
- 掛籃檢查驗收記錄表
- 小學(xué)勞動教育培訓(xùn)心得體會
評論
0/150
提交評論