軍犬網(wǎng)絡(luò)采集系統(tǒng)用戶手冊_第1頁
軍犬網(wǎng)絡(luò)采集系統(tǒng)用戶手冊_第2頁
軍犬網(wǎng)絡(luò)采集系統(tǒng)用戶手冊_第3頁
軍犬網(wǎng)絡(luò)采集系統(tǒng)用戶手冊_第4頁
軍犬網(wǎng)絡(luò)采集系統(tǒng)用戶手冊_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

互聯(lián)網(wǎng)信息采集系統(tǒng)軍犬網(wǎng)絡(luò)信息采集系統(tǒng)用戶指南V5.0第一章:系統(tǒng)簡介31.1軟件簡介31.2 internet信息收集和挖掘31.3互聯(lián)網(wǎng)收集系統(tǒng)流程圖31.4系統(tǒng)應(yīng)用:41.5軟件功能41.6系統(tǒng)配置要求131.7系統(tǒng)性能13第二章:用戶指南142.1綜合設(shè)置142.1.1管理數(shù)據(jù)庫142.1.2管理表單142.1.3通道管理182.1.4管理模板192.2收集信息192.2.1站點默認屬性192.2.2提交訪問數(shù)據(jù)202.2.3預(yù)覽站點鏈接212.2.4收集和過濾222.2.5尋呼模板222.2.6附件收集設(shè)置232.2.7自動識別新聞232.2.8字段提取設(shè)置242.2.9字段后處理252.3站點管理252.3.1管理收集站點252.3.2掃描收集源252.3.3收集日志262.4信息管理262.4.1信息管理262.4.2附件管理272.4.3導(dǎo)入記錄272.4.4導(dǎo)出信息282.5消息發(fā)布28登錄到2.5.1發(fā)布服務(wù)器282.5.2獲取有關(guān)發(fā)布權(quán)限的信息292.5.3新發(fā)布表單發(fā)布映射292.5.4管理發(fā)布表單映射292.5.5發(fā)布通道映射管理30第一章:系統(tǒng)簡介1.1軟件簡介信息收集是利用計算機軟件技術(shù)對自定義目標數(shù)據(jù)源進行實時信息收集、提取、挖掘和處理,從而為各種信息服務(wù)系統(tǒng)提供數(shù)據(jù)輸入的整個過程。軍犬信息采集專家是一種基于人工智能的自動學(xué)習(xí)技術(shù),它是一種強大、簡單、實用的互聯(lián)網(wǎng)信息收集和監(jiān)控軟件。1.2 internet信息收集和挖掘收集和監(jiān)視internet上的特定目標數(shù)據(jù)源或非特定目標數(shù)據(jù)源,將信息的結(jié)構(gòu)化提取存儲為本地結(jié)構(gòu)化數(shù)據(jù)庫,根據(jù)業(yè)務(wù)流程要求與其他模塊相結(jié)合,導(dǎo)入和應(yīng)用到電子行業(yè)平臺。internet數(shù)據(jù)收集和挖掘技術(shù)是指利用計算機軟件技術(shù)對自定義目標數(shù)據(jù)源進行實時信息收集、提取、挖掘、處理,以提供各種信息服務(wù)系統(tǒng)的數(shù)據(jù)輸入,并根據(jù)業(yè)務(wù)需要發(fā)布和分析數(shù)據(jù)的全過程。1.3互聯(lián)網(wǎng)收集系統(tǒng)流程圖第一步:確定收集操作。步驟2:每個收集作業(yè)都有多個目標數(shù)據(jù)源。第三步:對不同的目標數(shù)據(jù)源執(zhí)行不同的收集配置,以驗證是否收集了數(shù)據(jù)。步驟4:調(diào)度收集作業(yè),更新目標站點和同步,增量收集。步驟5:收集數(shù)據(jù)結(jié)果并完成異構(gòu)數(shù)據(jù)之間的流程。步驟6:發(fā)布服務(wù)器以將數(shù)據(jù)發(fā)布到應(yīng)用程序平臺。1.4系統(tǒng)應(yīng)用程序領(lǐng)域:1、搜索引擎和垂直搜索2、集成門戶和行業(yè)門戶3、電子政府和電子商務(wù)4、知識管理和知識共享5、企業(yè)競爭情報系統(tǒng)6、BI業(yè)務(wù)智能系統(tǒng)7、信息咨詢和信息增值8、信息安全和信息監(jiān)控1.5軟件功能(1),干凈智能的提取正文和圖形關(guān)聯(lián)圖:收集的目標源圖:收集后的“干凈”正文結(jié)果(2)豐富的數(shù)據(jù)導(dǎo)出界面,允許將數(shù)據(jù)導(dǎo)出到各種關(guān)鍵關(guān)系數(shù)據(jù)結(jié)構(gòu)。(3),簡單的配置對于新聞信息收集,輸入目標網(wǎng)站的地址或標題頁面地址,軟件將自動學(xué)習(xí)網(wǎng)站的風(fēng)格,自動提取網(wǎng)站上的信息,無需配置模板,目標網(wǎng)站的風(fēng)格發(fā)生變化,軟件將自動學(xué)習(xí)。維護人員只需進行一些培訓(xùn),即可通過提供有關(guān)數(shù)據(jù)收集軟件的直觀站點配置向?qū)砼渲盟行畔⑹占?。對于?fù)雜的收集流程,可以通過一個收集卡腳本自動收集和監(jiān)控信息。圖:輸入網(wǎng)址以完成配置任務(wù)圖:支持關(guān)鍵字收集,直接輸入關(guān)鍵字,在一個步驟中設(shè)置“關(guān)鍵字”輸入,完成配置任務(wù)(4)一獲得,就可以看到收獲。(圖:得到的就是得到的,得到的就是看到的(5),增量收集和自動更新收集增量:軟件助手支持對原始收集目標站點進行完全收集。支持收集的站點的增量收集。自動更新支持:自動檢測站點是否發(fā)生了更新,并確保沒有遺漏任何重要信息。(6),收集結(jié)果自動減肥不是利用簡單的規(guī)則判斷,而是利用內(nèi)容的相似性進行重復(fù)判斷,準確性高,不會因標題或內(nèi)容的一些變化而發(fā)生泄漏,即使修改標題后,系統(tǒng)也能正確判斷。(7),內(nèi)置強大的信息監(jiān)控功能用一個關(guān)鍵詞可以廣域監(jiān)視網(wǎng)絡(luò)上某個網(wǎng)站的相關(guān)信息。您還可以設(shè)置監(jiān)視通道,以便所有站點監(jiān)視包含關(guān)鍵字的信息。對于數(shù)字字段,可以設(shè)置監(jiān)視錯誤監(jiān)視數(shù)值在一定范圍內(nèi)顯示的信息。信息監(jiān)視已達到字段級別??勺屇O(shè)定所有收集目標網(wǎng)站的監(jiān)督特性(秒)。更改的信息可以在短時間內(nèi)本地收集。圖:獨特的監(jiān)視功能,用于進一步監(jiān)視和過濾收集的結(jié)果強大的站點管理工具可對所有收集對象執(zhí)行集中管理和各種操作圖:所有收集對象的集中管理和各種操作圖:根據(jù)需要自定義導(dǎo)航和分類圖:配置完整選項以提高收集性能圖:可以立即修改和編輯收集的結(jié)果(8),支持多種編碼支持來自各種網(wǎng)站的信息的編碼、GBK、BIG5、unicode、UTF8和軟件自動轉(zhuǎn)換為GBK代碼,并進行統(tǒng)一處理。軟件自動識別站點的組織結(jié)構(gòu),并自動識別站點的代碼。管理表單、根據(jù)需要自定義表單,以便輕松收集各種內(nèi)容,例如收集軟件的單獨表單、照片收集的圖片表單等。(9),信息導(dǎo)入按需要導(dǎo)出提供信息導(dǎo)入導(dǎo)出器,以便與其他軟件(如CRM OA)無縫連接軟件提供了強大的信息記錄導(dǎo)入導(dǎo)出功能,可以導(dǎo)入和導(dǎo)出所有通道、一條記錄??梢詫?dǎo)入(例如Excel/Access),或直接導(dǎo)航到指定的數(shù)據(jù)庫。與信息發(fā)布服務(wù)器一起使用時,可以將信息發(fā)布到任何位置。(10),支持模板讀取任何類型的信息,軟件都會自動創(chuàng)建讀取模板,以便快速讀取。所有信息任何信息表格都可以自定義美麗的閱讀模板,或在任何通道上設(shè)置不同的閱讀模板。(11),支持多頁內(nèi)容重組如果目標數(shù)據(jù)源的文章在目標網(wǎng)站上分頁顯示,系統(tǒng)可以自動重新配置。軟件運行可靠性高,收集速度快,系統(tǒng)資源占用少多次改造的軟件收集基本模塊穩(wěn)定、收集速度快、系統(tǒng)資源少??赏瑫r以多線程運行,而不占用大量系統(tǒng)資源。采集速度快到了原地。軟件可以完全執(zhí)行無人值守的信息收集,而不會造成7*24小時的中斷。使用時體驗更多詳細功能。(12),其他特性列表:1、支持多種語言:支持多種語言,包括簡體中文、繁體中文、英語、日語、韓語支持多種站點類型,包括2、html和RSS3、登錄、驗證后收集支持4、收集需要軟件支持登錄和授權(quán)碼的網(wǎng)站信息,完全模仿收集過程。5、附件收集支持收集照片附件、收集多媒體附件、收集音頻和視頻附件、自動映射和關(guān)聯(lián)附件和正文6、完全結(jié)構(gòu)化提取將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)提取為特定的結(jié)構(gòu)化信息數(shù)據(jù)。web搜索以web頁面為最小單位,基于可視化的web塊分析以web頁面塊為最小單位,垂直搜索以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后,將該數(shù)據(jù)存儲在數(shù)據(jù)庫中,以進一步處理(例如,解碼、分類等)、最終分詞、索引和搜索方式滿足用戶的需要。在此過程中,數(shù)據(jù)從非結(jié)構(gòu)化數(shù)據(jù)提取為結(jié)構(gòu)化數(shù)據(jù),經(jīng)過深入加工,然后以非結(jié)構(gòu)化和結(jié)構(gòu)化的方式返回給用戶。7、數(shù)據(jù)存儲在本地,可以隨時查看信息。收集的信息自動存儲在本地數(shù)據(jù)庫中,因此您可以隨時查看信息。8、多行圖層,多任務(wù)9、批量數(shù)據(jù)收集支持10、軟件實用、易用、功能強大11、可移植、可擴展、可自定義1.6系統(tǒng)配置要求需要WindowsNT4/Windows 2000 Server或更新的操作系統(tǒng)。需要Microsoft SQL Server 7/2000或其他ODBC界面硬件平臺:英特爾至強1G或更高版本的CPU,1000M或更高RAM,40GM或更高硬盤空間1.7系統(tǒng)性能l支持多線程收集。l數(shù)據(jù)收集級別g或更高的單機。l數(shù)據(jù)和數(shù)據(jù)源同步更新小于10秒。l數(shù)據(jù)同步發(fā)布小于10秒。第二章:用戶指南2.1綜合設(shè)置2.1.1管理數(shù)據(jù)庫新建數(shù)據(jù)庫通過“系統(tǒng)(s)”主菜單下的“新建數(shù)據(jù)庫功能”菜單,您可以創(chuàng)建全新的信息收集和管理數(shù)據(jù)庫。默認情況下,新數(shù)據(jù)庫會創(chuàng)建用于管理信息(如文章和新聞)的“新聞表格”,不能刪除此表格。創(chuàng)建新數(shù)據(jù)庫時,建議將數(shù)據(jù)庫文件存儲在與操作系統(tǒng)不同的驅(qū)動器上。這樣可以更安全地維護數(shù)據(jù)庫中的信息內(nèi)容。備份數(shù)據(jù)庫備份數(shù)據(jù)庫的功能允許您壓縮當前使用的數(shù)據(jù)庫,并將其備份到其他目錄。供將來使用。壓縮數(shù)據(jù)庫desktop的軟件版本使用Microsoft ACCESS數(shù)據(jù)庫,因此刪除記錄時不會自動釋放刪除記錄占用的空間。因此,必須定期壓縮當前使用的數(shù)據(jù)庫,以減少數(shù)據(jù)庫占用硬盤資源的空間。SQL Server版本軟件不需要使用壓縮數(shù)據(jù)庫的功能。軟件也屏蔽了此功能。2.1.2管理表單塑形的概念互聯(lián)網(wǎng)信息采編發(fā)系統(tǒng)中的表格與數(shù)據(jù)庫中的表格相同。通常,必須為每種信息類型創(chuàng)建一個存儲空間。不同之處在于,必須在每個表格中預(yù)設(shè)一些字段,以便統(tǒng)一管理數(shù)據(jù)庫中的所有表格記錄。通常,這些字段包含以下部分:顯示控制信息字段:密碼字段、字符顏色字段、字符背景顏色字段、圖標字段顯示后續(xù)追蹤資訊欄位:資訊來源地址欄位通道信息字段:通道信息,監(jiān)視器通道信息填寫表格下面以創(chuàng)建圖書館管理表格為例,逐步說明如何創(chuàng)建自己的管理表格。在主菜單欄上,找到“工具”=“管理系統(tǒng)表單”菜單,然后單擊彈出菜單上的“新建表單”按鈕。在表單標題編輯框中輸入“書籍表單”,然后在表單名稱編輯框中輸入“tblBookSheet”。注意:如果表單名稱或表單標題為空,則無法成功生成表單。單擊“存儲”按鈕后,將顯示一條消息,說明您已成功填寫了名為“書表單”的表單,書表單下有三個字段:“記錄號”、“通道名”和“源文字地址”。這三個字段是軟件管理一個表格中的記錄之一所需的字段。不能刪除或更改名稱或?qū)傩?。記錄號用于標識表格中所有記錄的唯一id。通道名稱用于標識記錄所屬的通道。源地址用于標識信息來自哪里。表單標題此字段用于輕松標記表單?!氨仨気斎搿?,建議表單標題在整個數(shù)據(jù)庫中是唯一的。表單名稱此字段用于在數(shù)據(jù)庫中創(chuàng)建表格的名稱,其值不能與數(shù)據(jù)庫中的其他表格名稱重復(fù)。“在數(shù)據(jù)庫中必須唯一”。字段值的長度不能超過20個字符(40個字母字符),命名約定與Windows中的文件命名約定相同??梢允褂门c表單標題相同的名稱,但建議使用tblXXXSheet作為命名規(guī)范。讀取模板此字段用于標識表格的信息內(nèi)容讀取模板的路徑,可以是文件路徑名(如e : quick reader readt model tblbooksheet . html),也可以是網(wǎng)絡(luò)的路徑名(如33636363http:/www . xww . xbooksheet . html)也可以是相對路徑,例如: ready model TBL booksheet . html(如果在: c programname files collection software quick reader中安裝程序,則此相對路徑為c program name如果沒有該表格的讀取模板,則可以不在“讀取模板”字段中輸入值。上次創(chuàng)建此表格中的所有字段后,使用軟件提供的“創(chuàng)建模板”創(chuàng)建這些字段。添加字段例如,假定您要填寫圖書信息管理表格,則管理圖表需要以下字段:字段標題字段名稱說明屬性書名fldBookName用于存儲書的名稱字符型、長度40、Jacky和主題密鑰作者fldBookAuthor書作者字符類型,長度30購買日期您可以使用fldPurchaseDate控制或統(tǒng)計日期類型圖書價格fldBookPrice價格浮點類型借款人fldUserName當前貸款用戶名文字,長度40貸款日期fldBrowDate貸款日期類型圖書簡介fldBookMemo該書的說明注釋類型如果選擇了剛剛創(chuàng)建的“書籍表格”,然后單擊“新字段”按鈕,節(jié)點將添加到“書籍表格”下,編輯框中將預(yù)輸入“新字段”,您可以輸入字段標題,也可以在列表的“字段標題”下輸入。現(xiàn)在,在“編輯節(jié)點”中輸入書本名稱,然后單擊列表中的字段名,在編輯框中輸入fldBookName。選擇“文字”作為字段類型,選擇“長度=40”,選擇“設(shè)置Jackie=是,允許空值”作為“否”。單擊“保存”按鈕。如果沒有任何錯誤,就是說系統(tǒng)成功地在圖書表格中添加了圖書名稱字段。根據(jù)這個圖書館里的需求樣式,可以完成圖書表格的制作。表格中的每個屬性將在下面詳細介紹。字段標題此字段用于顯式標記字段的名稱,在同一表格中字段名不能重復(fù)。最大長度不能超過50字節(jié)。字段名稱此字段用于在表單中隱式顯示字段名,同一表單中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論