高??蒲写髷?shù)據(jù)平臺項目解決方案(可編輯模板)_第1頁
高校科研大數(shù)據(jù)平臺項目解決方案(可編輯模板)_第2頁
高??蒲写髷?shù)據(jù)平臺項目解決方案(可編輯模板)_第3頁
高校科研大數(shù)據(jù)平臺項目解決方案(可編輯模板)_第4頁
高??蒲写髷?shù)據(jù)平臺項目解決方案(可編輯模板)_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

高校科研大數(shù)據(jù)平臺項目解決方案(此文檔為word格式,下載后您可任意修改編輯?。└咝?蒲写髷?shù)據(jù)平臺項目解決方案高??蒲写髷?shù)據(jù)平臺項目解決方案第H第H頁高校科研大數(shù)據(jù)平臺項目解決方案高??蒲写髷?shù)據(jù)平臺項目解決方案第I第I頁目錄TOC\o"1-5"\h\z\o"CurrentDocument"概述 1項目背景 1\o"CurrentDocument"需求分析 1\o"CurrentDocument"方案簡述 2\o"CurrentDocument"方案價值 2設計方案 4\o"CurrentDocument"設計原則 4\o"CurrentDocument"系統(tǒng)架構 5\o"CurrentDocument"分布式數(shù)據(jù)庫系統(tǒng) 5MPP+ShareNothing架構 52.32核心組件 62.3.3.高可用 72.3.6.OLAP函數(shù) 9Hadoop集群 10Hadoop企業(yè)版 10HIVE分布式內存分析引擎 10\o"CurrentDocument"HBASE分布式實時在線數(shù)據(jù)處理引擎 11Stream流處理引擎 12\o"CurrentDocument"服務器虛擬化 13設計理念 13系統(tǒng)結構 15\o"CurrentDocument"服務器虛擬化系統(tǒng)組成 16\o"CurrentDocument"云管理平臺 16\o"CurrentDocument"2.6.2.某某云海OS實現(xiàn)的功能 17\o"CurrentDocument"爬蟲軟件 21\o"CurrentDocument"建設網絡爬蟲私有云 21\o"CurrentDocument"高效的分布式、協(xié)同化數(shù)據(jù)采集模式 22\o"CurrentDocument"爬蟲調度和負荷規(guī)劃能力 24\o"CurrentDocument"極致的開放兼容平臺 24為什么需要開放的可鹹的網頁抓取軟件 242.7.52集搜客網絡爬蟲的開放接口 25方案優(yōu)勢 26某某MPP<數(shù)據(jù)庫優(yōu)勢 26高性價比 26高易用性 2632某某Hadoop優(yōu)勢 26\o"CurrentDocument"某某云計算優(yōu)勢 263.3.2.服務水平提髙 27\o"CurrentDocument"分工細化使得終端用戶只需專注自身業(yè)務 28可靠£提髙 28性能強大 283.3.&擴展性好 293.3.9.可管理性 29\o"CurrentDocument"4.推薦配置 30高校科研大數(shù)據(jù)平臺項目解決方案高??蒲写髷?shù)據(jù)平臺項目解決方案第頁包括對結構化記錄、半結構化文本、圖數(shù)據(jù)、非結構化數(shù)據(jù)(圖片、音頻、二進制文檔等)的存儲、搜索、統(tǒng)計和分析。高速數(shù)據(jù)處理能力:HBASE支持高速的數(shù)據(jù)檢索、搜索和統(tǒng)計;根據(jù)索引進行檢索的延時在數(shù)毫秒到數(shù)百毫秒量級;支持上億的并發(fā)用戶同時進行數(shù)據(jù)插入、修改、查詢和檢索;支持對文本建立增量全文索引并且支持秒級的全文關鍵字搜索。高效OLAP和批量統(tǒng)計:HBASE為HIVE引擎提供高效數(shù)據(jù)掃描接口,通過HIVE的擴展SQL語法,充分利用某某HBASE的內部數(shù)據(jù)結構以及全局/輔助索引進行SQL執(zhí)行加速,可以滿足高速的OLAP數(shù)據(jù)分析應用需求;同時也支持高速的SQL離線批處理,性能接近于存儲在HDFS上的相同數(shù)據(jù)的統(tǒng)計。高效圖計算:HBASE提供構造圖形的API,幫助用戶構造由上億頂點組成的復雜大圖,同時提供專有的高效圖算法,包括關聯(lián)網絡的高速分析。Stream流處理引擎Stream實時流處理引擎以SparkStreaming為基礎。SparkStreaming提供了強大的流計算(Streaming)表達能力,支持DAG(有向無環(huán)圖)計算模型;而Hadoop類的批處理系統(tǒng)只能通過外圍組件連接多個批次的作業(yè)完成復雜多階段作業(yè)處理,系統(tǒng)復雜而低效。Streaming中的復雜應用邏輯以DAG形式的服務常駐在集群內存中,生產系統(tǒng)的消息通過實時消息隊列進入計算集群,在集群內以Pipeline方式被依次處理,完成ETL、特征提取、策略檢查、分析告警等復雜服務計算,最終輸出到HBase等存儲集群、告警頁面、實時展示頁面等。系統(tǒng)具備強擴展性、強容錯、低延遲、高吞吐等特點,成熟應用于傳感器網絡數(shù)據(jù)處理、服務監(jiān)控、反作弊、實時報表系統(tǒng)等業(yè)務。Streaming支持Kafka,Flume等常見消息隊列或釆集工具。2.5.服務器虛擬化2.5.1.設計理念某某云海?服務器虛擬化系統(tǒng)是某某云計算解決方案的核心基礎,主要負責完成底層物理資源的虛擬融合、按需分配與高效管理,可以顯著提高資源交付的敏捷性和靈活性,提升資源的使用效率,為上層業(yè)務提供不間斷地資源保障與可伸縮的資源供給。某某云海?服務器虛擬化系統(tǒng)為計算、存儲和網絡提供了完整的虛擬化解決方案,支持資源的靈活分配、動態(tài)組合、在線調整與智能調度,并以虛擬機或虛擬集群的形式將最終資源呈現(xiàn)給用戶。該系統(tǒng)既可以單獨使用,也可以配合某某云計算管理平臺來構建更大范圍的云數(shù)據(jù)中心或者IaaS系統(tǒng),同時本系統(tǒng)還提供了開放接口,支持二次開發(fā),方便與其他管理平臺整合。在設計理念上,整個系統(tǒng)遵循了以下幾個原則:命令查詢職責分離(CQRS)CQRS原則基于一個簡單的事實:資源(對象)的行為只有兩種,即命令(Command)和查詢(Query)。命令可以改變資源的狀態(tài),而查詢不會?;谶@一原則,系統(tǒng)可以分為兩個部分,命令部分和查詢部分,并采用不同的技術加以實現(xiàn)和優(yōu)化,簡化整個系統(tǒng)的設計,提升整個系統(tǒng)的性能和可維護性。獨立的認證服務服務器虛擬化是一個復雜的軟件系統(tǒng),由多個不同功能的模塊組合而成,安全認證是每個模塊必須的邏輯。獨立的認證服務從系統(tǒng)層面劃分出來一個切面,實現(xiàn)集中式的認證管理,其他模塊只需與認證服務交互,將復雜的認證過程交由認證服務處理,這一過程對模塊而言是透明的。獨立的認證服務對于實現(xiàn)SSO和系統(tǒng)集成具有重要的意義。獨立的監(jiān)控服務系統(tǒng)狀態(tài)是進行決策的數(shù)據(jù)基礎,這些數(shù)據(jù)多數(shù)是由監(jiān)控服務提供的,監(jiān)控服務幾乎存在于任何大型的軟件系統(tǒng)之屮。某某服務器虛擬化系統(tǒng)將監(jiān)控服務剝離出來,以易復用、易擴展、輕量級為目標獨立發(fā)展,使其可以在不同的系統(tǒng)中提供監(jiān)控服務。監(jiān)控服務為服務器虛擬化系統(tǒng)監(jiān)控資源狀態(tài)提供了極高的靈活性和擴展性,大大縮短了系統(tǒng)故障的排查時間。業(yè)務數(shù)據(jù)與監(jiān)控數(shù)據(jù)分離業(yè)務數(shù)據(jù)與監(jiān)控數(shù)據(jù)的分離,主要體現(xiàn)在存儲、UI顯示以及持久化三個方面。從存儲方面來說,業(yè)務數(shù)據(jù)和監(jiān)控數(shù)據(jù)的分離主要體現(xiàn)在存儲方式,前者存到關系數(shù)據(jù)庫,后者存到NOSQL數(shù)據(jù)庫。從UI顯示來說,UI顯示的主要是業(yè)務數(shù)據(jù),通過查詢關系數(shù)據(jù)庫獲取,而對于監(jiān)控數(shù)據(jù),則通過查詢NOSQL數(shù)據(jù)庫中獲取告警信息。從持久化方面的講,業(yè)務數(shù)據(jù)具有關系性強和邏輯緊密,體現(xiàn)用戶的業(yè)務需求,需要較高的可靠性和穩(wěn)定性,因此需要持久化到關系型數(shù)據(jù)庫中較為合適,這樣既保證了業(yè)務關系又確保了數(shù)據(jù)的穩(wěn)定性;而監(jiān)控數(shù)據(jù)強調實時性,體現(xiàn)被監(jiān)控對象的當前狀況,數(shù)據(jù)關系性不強,結構單一,而且不需要進行持久化,因此使用易擴展、可用性高的內存型數(shù)據(jù)庫來存儲這類數(shù)據(jù)比較合適,以最大程度保證數(shù)據(jù)的實時性。資源操作與資源狀態(tài)維護分離資源操作與資源狀態(tài)維護分離主要體現(xiàn)在虛擬機的管理上,資源操作基于業(yè)務流程,而資源狀態(tài)維護基于事務的原子操作實現(xiàn),例如通過監(jiān)控數(shù)據(jù)更新虛擬機狀態(tài),并維護數(shù)據(jù)的一致性。這種機制在虛擬機管理中體現(xiàn)最為明顯,主要包括狀態(tài)切換和虛擬機并發(fā)操作處理。首先,對于狀態(tài)切換失敗處理,如果當前存在其他工作流正在處理當前虛擬機,將終止整個工作流并記錄失敗原因;否則強制同步業(yè)務狀態(tài),使之與監(jiān)控狀態(tài)相同,然后終止整個工作流并記錄失敗原因。其次,阻止對同一個虛擬機的并發(fā)操作,以避免上述的第一個可能分支出現(xiàn)。2.5.2.系統(tǒng)結構服務器虛擬化系統(tǒng)可分為四個層次,分別為虛擬層、應用層、展示層、運維層,虛擬層是整個系統(tǒng)的基礎,在虛擬層之上構建了應用層,實現(xiàn)高級的業(yè)務邏輯,展示層用于對外交互,為了便于系統(tǒng)運維,專門劃分了運維層,涵蓋系統(tǒng)的安裝、部署和安全管理。虛擬層直接構建在物理硬件之上,在功能上主要是完成物理資源的池化與重新組合:基于Hypervisor實現(xiàn)計算資源的池化,基于分布式存儲/集中式存儲實現(xiàn)存儲資源的池化,基于虛擬交換機和虛擬路由器實現(xiàn)網絡資源的池化,經由這幾種技術形成了統(tǒng)一的計算池、存儲池和網絡池,在此基礎之上通過按需組合構建虛擬主機和虛擬集群對外提供服務。虛擬層同時提供了資源調度(DRS/DPM/HA).鏡像管理和資源管理等功能,為上層實現(xiàn)高級功能提供支持。系統(tǒng)部署與升級系統(tǒng)部署與升級應用層基于虛擬層構建高級功能,通過組合虛擬層的功能模塊支撐系統(tǒng)的業(yè)務邏輯實現(xiàn),這些主要的業(yè)務邏輯包括系統(tǒng)任務管理、物理資源管理(主機、存儲、網絡)、系統(tǒng)配置、虛機、模板管理以及容災備份等,這些高級功能全部封裝在應用層實現(xiàn)。展示層是系統(tǒng)對外的交互接口,提供WEBGUI界面和API接口兩種形式,方便系統(tǒng)集成和二次開發(fā);在運維層,提供資源訪問控制、PXE安裝和在線升級等功能,簡化系統(tǒng)運維。2.5.3.服務器虛擬化系統(tǒng)組成上圖中計算資源和存儲資源均由控制中心統(tǒng)一控制與管理。服務器虛擬化系統(tǒng)包括三條通信鏈路:控制網,用于控制中心與各計算節(jié)點、存儲節(jié)點及文件系統(tǒng)主控間傳輸資源信息與控制指令;數(shù)據(jù)網,連接計算節(jié)點與存儲系統(tǒng),用于傳輸虛擬機正常所需的存儲數(shù)據(jù);業(yè)務網,資源租戶及云業(yè)務用戶通過此網訪問虛擬機及部署在虛擬機里的業(yè)務,業(yè)務網通過VLAN等技術實現(xiàn)隔離。26云管理平臺某某云海os是某某自主設計的系統(tǒng)架構,自主研發(fā)的國產云資源管理平臺,支持底層VMWarevSphere平臺及某某自研虛擬化產品iVirtual的異構虛擬資源池,對已部署的vSphere環(huán)境無需停機即可被云海OS接管,實現(xiàn)對現(xiàn)有vSphere環(huán)境的無縫兼容,實現(xiàn)安全可控。

某某云海OS的架構秉承模塊化設計理念,結合某某對云數(shù)據(jù)中心客戶需求的理解,以超越用戶所想,提供超值的用戶體驗而完成的系統(tǒng)設計。2.6.1.某某云海OS架構圖iPortal(GUI界面)管理員界面1租戶界面(云計算管理平臺)(密源管理平臺)第二方網管平臺iPortal(GUI界面)管理員界面1租戶界面(云計算管理平臺)(密源管理平臺)第二方網管平臺iSecurity(安全系統(tǒng))]jRecovery(容夾備份)|iDesktop(卓面虛擬化)]iCharge(統(tǒng)計計費)資源池調度iAuto(自動化配58調優(yōu))IiServices(自助服務)X—————————————————— ——————— ————————\:I1—服務器存儲設備JL網絡設備borage(存儲系統(tǒng))NASSANDFSiVirtualXen<Hyper-VKVM2.6.2.某某云海OS實現(xiàn)的功能云資源管理(1)資源池管理:通過添加vCenter/iVirtual將多個異構資源池整合成一個更大的資源池,進行統(tǒng)一管理和資源分配。資源池管理包括對資源池的擴充和縮減,暫停使用某些資源等操作。(2) 資源池集群管理:集群是云資源的載體,是資源池分配的組成單位。通過集群管理功能實現(xiàn)為不同用戶提供不同等級的資源服務,擴充資源池容量??芍匦聦胭Y源池的新增集群,也可暫停在某些集群上新建虛擬數(shù)據(jù)中心及應用服務。(3) 虛擬數(shù)據(jù)中心管理:虛擬數(shù)據(jù)中心(vdc)界定了組織能夠使用資源的范圍,組織管理員可將vdc資源分配給組織內用戶。虛擬數(shù)據(jù)中心管理包括創(chuàng)建、導入,暫停使用、重新啟用等操作。(4) 虛擬網絡管理:虛擬網絡允許組織及組織用戶像定義物理網絡一樣定義組織自己內部的網絡,以及與組織外網絡的連接方式,包括直連、NAT等,組織內部網絡的地址分配、VLAN劃分等。應用服務管理:應用服務(vApp)是指提供某種服務的一個或多個通過特定網絡連接在一起的虛擬機集合??赏ㄟ^服務模板、新建虛擬機2種方式創(chuàng)建應用服務。操作包括開啟、關閉、重啟、刪除、復制、更改所有者、導出為模板等操作。虛擬機管理:單獨對組成vApp的虛擬機操作。功能包括虛擬機控制臺、開啟、關閉、重啟、掛起、恢復、刪除、快照、復制、移動至其他應用服務中、導岀為模板等操作。模板/鏡像管理:通過FTP方式將應用服務模板或操作系統(tǒng)安裝鏡像上傳至組織存儲空間下,用于部署應用服務和安裝操作系統(tǒng),也可將服務模板和鏡像文件共享給其他組織使用。業(yè)務管理業(yè)務審批:審批系統(tǒng)用戶提交的虛擬數(shù)據(jù)中心(vdc)、虛擬網絡、虛擬應用(vApp)申請。業(yè)務流程管理:審批流程引擎實現(xiàn)虛擬數(shù)據(jù)中心、虛擬網絡、虛擬應用服務審批流程的自定義。審批歷史查詢:查詢每個訂單的詳細信息,包括訂單內容,審批流程上的各節(jié)點的審批情況,包括審批人、審批時間和是否通過等。計費管理計費設置:設置用戶帳戶余額的提醒周期及提醒方式(郵件、短信);定義資源單價(元/資源度量單位/小時)。計費等級:資源按一定標準分為不同的等級,各等級的資源計費系數(shù)不同,組織分為不同的等級,不同等級的組織計費系數(shù)也不同;系統(tǒng)可自行設置資源等級、組織等級對應的折扣率,從而為不同的用戶提供不同的等級的服務。組織賬戶充值:為組織賬戶充值,并可查詢充值歷史。查詢組織賬戶余額:查詢各組織的帳戶余額。查詢組織賬單:查詢組織每月的消費金額及費用明細。管理監(jiān)控監(jiān)控視圖:顯示服務器、網絡設備、數(shù)據(jù)庫、操作系統(tǒng)、web服務、虛擬化資源組及組內各節(jié)點的狀態(tài)統(tǒng)計信息。資源管理:開啟、關閉、重啟服務器組內所有機器或某些服務器;配置服務器BMC信息;獲取并顯示網絡設備、數(shù)據(jù)庫、web服務、操作系統(tǒng)、虛擬化資源的相關狀態(tài)參數(shù)信息。節(jié)能管理:節(jié)能管理在不影響正常業(yè)務的情況下,通過降低服務器CPU頻率來降低服務器組或服務器的能耗。功能包括節(jié)能策略制定及服務器組或服務器的能耗曲線顯示。告警分析:分時段顯示服務器、網絡設備、數(shù)據(jù)庫、操作系統(tǒng)、web服務、虛擬化資源等的各監(jiān)測器返回的異常告警信息。報表中心:圖表顯示服務器、網絡設備、數(shù)據(jù)庫、操作系統(tǒng)、web服務、虛擬化資源等的資源狀態(tài)統(tǒng)計、各監(jiān)測項狀態(tài)。系統(tǒng)配置:監(jiān)控管理功能模塊的基礎性配置。如添加資源(服務器、網絡設備、操作系統(tǒng)、web服務、數(shù)據(jù)庫、虛擬化資源、),為資源選擇添加監(jiān)測項,通知時間表設置,告警通知聯(lián)系人設置,備份與恢復當前的監(jiān)控管理配置信息。系統(tǒng)管理組織管理:組織是用戶的集合,是虛擬數(shù)據(jù)中心(VDC)及vApp的所有者,也是資源使用費用的承擔者。組織管理功能包括添加組織、編輯、啟用、禁用、刪除等操作。用戶管理:系統(tǒng)管理員管理各組織的組織管理員,各組織管理員管理其組織內部的組織用戶。用戶管理操作包括:添加、刪除、修改基礎信息、重置密碼、啟用、禁用等操作。(3) 角色管理:角色是系統(tǒng)操作的集合,界定了相同角色的用戶擁有的操作權限范圍。角色管理包括:添加、編輯、刪除等操作。(4) 日志查詢:根據(jù)時間、組織、用戶、操作對象等條件查詢相關聯(lián)的操作記錄。(5) 系統(tǒng)設置:配置系統(tǒng)發(fā)送提醒、告警類信息的郵件、短信信息。導出、刪除日志,設置日志停留時長。(6) 序列號管理:系統(tǒng)序列號分為正式序列號和試用期序列號,序列號到期后,系統(tǒng)將無法使用,需重新注冊。(7) LDAP管理:云管理平臺可與用戶現(xiàn)有的LDAP系統(tǒng)集成,實現(xiàn)基于LDAP的身份驗證訪問機制,LDAP的用戶可作為云平臺的用戶來管理或使用云資源。云管理平臺為客戶帶來的收益使用某某云海?云數(shù)據(jù)中心操作系統(tǒng),客戶可以獲得以下收益:節(jié)約軟件采購及服務成本某某提供云數(shù)據(jù)中心整體解決方案,減少項目集成費用。全國產的云管理平臺,相對于國外產品價格相對較低,相對于基于開源的云管理平臺,某某云海云數(shù)據(jù)中心管理平臺更加安全、穩(wěn)定。管理運營效率提升云數(shù)據(jù)中心管理平臺集成虛擬化管理及服務器、網絡設備等硬件設備和操作系統(tǒng)、web服務、數(shù)據(jù)庫等中間件的監(jiān)控與管理功能,幾乎涵蓋了數(shù)據(jù)中心所有的可管理對象范疇,一套系統(tǒng)即可運營整個云數(shù)據(jù)中心。云數(shù)據(jù)中心管理平臺能夠實現(xiàn)對多虛擬化平臺的統(tǒng)一管理。通過將多虛擬化平臺集中到統(tǒng)一管理門戶,形成一個大的資源池,有效解決異構資源池管理問題。服務水平提高

某某云海云數(shù)據(jù)中心管理平臺實現(xiàn)基礎設施資源的服務化(IaaS),以應用服務形式對外提供服務,利用服務模板可實現(xiàn)業(yè)務的快速部署,顯著縮短應用系統(tǒng)上線時間,幫助客戶快速實現(xiàn)自身價值。2.7.爬蟲軟件2.7.1.建設網絡爬蟲私有云GooSeeker網絡爬蟲軟件由兩部分組成:網絡爬蟲云服務器、網絡爬蟲執(zhí)行單元??蓋tiss拓展和限定適合數(shù)據(jù)挖掘可視化維護語義字段抓取規(guī)則日志精確抓取適合可wtiss拓展和限定適合數(shù)據(jù)挖掘可視化維護語義字段抓取規(guī)則日志精確抓取適合大析舔管理適合集成信息系統(tǒng)JS網頁

一視同仁可視化網頁編碼網頁剖析自動支持所見即所得易使用團隊學習幔桁查用 亠協(xié)同化助海量抓取爬蟲群協(xié)同不重不漏開放架構利于集成抓取規(guī)則

即時驗證c*+內核

高性能線索狀態(tài)性砂計線索狀態(tài)增量抓取 動態(tài)靜態(tài)抓取輙1」異地艇防封鎖抓取一致自動生成多線程自動和網頁解析故障恢復容刪高

2.7.2.高效的分布式.協(xié)同化數(shù)據(jù)采集模式集搜客GooSeeker用戶無論分布在哪里,都可以享受集搜客網絡爬蟲的服務,在線版用戶可以創(chuàng)立一個工作組,邀請其他在線版用戶加入工作組,為相同的采集目的協(xié)同完成數(shù)據(jù)采集任務。企業(yè)版將這個能力完全開放,可以完全控制和管理分布式和協(xié)同化數(shù)據(jù)采集模式。?在企業(yè)內部可以劃分成多個工作組?工作組可以用后臺管理程序隨時根據(jù)工作目標直接創(chuàng)建?工作組大小不受限制?工作組的劃分和管理完全受控GooSeeker網絡爬蟲可以由服務器統(tǒng)一調度,企業(yè)版可以用定制開發(fā)的更周密的負荷分擔算法控制每個網絡爬蟲的運行,而且根據(jù)網絡爬蟲

的運行狀態(tài)合理調配工作量,對于失敗的網絡爬蟲可以及時予以隔離,甚至在其他網管系統(tǒng)的輔助下,監(jiān)控網絡爬蟲計算機各個層面的運行狀況。2.7.3.爬蟲路線規(guī)劃能力集搜客GooSeeker網絡爬蟲沿著線索擴展爬行范圍,而且不限廣度和深度。免費在線版用戶在MS謀數(shù)臺的爬蟲路線工作臺上規(guī)劃爬蟲路線,主要能力就是:從抓取到的網址上建立下一級線索,這是深度方向,同時抓取到的下級線索不只一個,那么就是在廣度方向進行擴展。總之,網絡爬蟲抓取網頁數(shù)據(jù)的時候,把一些網址作為廣度或者深度方向擴展的線索。免費在線版只能在定義抓取規(guī)則的時候規(guī)劃爬蟲路線;而企業(yè)版可以有更多規(guī)劃爬蟲路線的選擇。調度器線素罔度補爲狀態(tài)監(jiān)控訪問控制ClueManager服務器''、第三方調度服努器在抓取結果清洗和入庫的時候在深度和廣度方向生成線索,這是企業(yè)版常用的方式,此時,企業(yè)版GooSeeker具有最大的靈活性和控制力,比如,可以用入庫腳本程序任意控制爬蟲路線的生成,可以替換URL中的參數(shù),可以根據(jù)ClueManager服務器''、第三方調度服努器獲取線索抓取網頁MetaSeeker服務器抓取網頁上濮果 接收上傳 文件解析姬集成MetaCo中ora數(shù)抿入庫清洗服務器iffi時遙廠第三方結果文件收集軟件最大的靈活性在于爬蟲路線的生成時間。當網頁抓取用于探索性研究的時候,可以根據(jù)需要隨時延伸爬蟲深度和廣度范圍,不必在第一次數(shù)據(jù)清洗過程就把所有線索都生成好了,其實那時可能還不知道是否有必要做爬行范圍延展。而且也容易實現(xiàn)同一個網址用于多個抓取主題,分別為不同的研究冃的服務。爬蟲調度和員荷規(guī)劃能力集搜客GooSeeker網絡爬蟲是一款高性能網絡爬蟲軟件,多臺計算機可為同一目標協(xié)同工作,同一臺計算機上能運行多個線程并行抓取網頁。那么就需要規(guī)劃每個網絡爬蟲線程的工作內容和工作負荷,以及啟動和停止時間等等。免費在線版GooSeeker網絡爬蟲主要依賴周期性網頁抓取調度文件crontab.xml管理網絡爬蟲,比如,一臺計算機上啟動多少個線程,每個線程在什么時間啟動,每一批包含多少網頁,抓取什么主題,按照什么順序等等。crontab.xml文件是預先生成好的,比如,使用crontab.xml生成器。預先生成的缺點是調度爬蟲不夠靈活,如果爬幾十個網站,這個缺點并不顯著,如果要爬幾百上千個網站,要把所有的網站目標都編制到crontab文件,將是十分繁瑣的。企業(yè)版GooSeeker網絡爬蟲可以接受服務器下發(fā)的任務安排,也就是crontab文件中的每個step都可以通過云服務器下發(fā)下來,那么在云服務器上可以實現(xiàn)一個復雜的調度和負荷規(guī)劃程序,配以爬蟲管理程序,能夠細致地為每個爬蟲安排合適的抓取任務。極致的開放兼容平臺為什么需要開放的可集成的網頁抓取軟件如果網絡爬蟲只是大型IT系統(tǒng)的一個模塊,集搜客GooSeeker網絡爬蟲能否無縫地集成到各種IT系統(tǒng)中?

此類IT系統(tǒng)對網絡爬蟲的需求主要包括:IT系統(tǒng)可以控制網絡爬蟲的爬行范圍IT系統(tǒng)可以控制網絡爬蟲什么時候啟動,每次抓取的批次大小等■IT系統(tǒng)需要及時獲得爬取結果,由IT系統(tǒng)負責內容管理、數(shù)據(jù)挖掘等信息處理過程IT系統(tǒng)能夠監(jiān)控爬蟲的成功率,可及時修正失敗狀態(tài),比如,重新啟動抓取失敗的線索27.5.2.集搜客網絡爬蟲的開放接口顯然,一個封閉的網絡爬蟲軟件不能滿足上述需求,而集搜客網絡爬蟲提供標準的開放的API接口,也可以直接從數(shù)據(jù)庫層面進行對接,完美解決無縫集成問題。方案優(yōu)勢某某MPP數(shù)據(jù)庫優(yōu)勢高性能列存儲技術在大大減少I/O的同時,能顯著提高查詢性能;智能索引大幅提高查詢性能;高速的數(shù)據(jù)加載性能;高效的并行SQL執(zhí)行計劃。高性價比采用多種壓縮技術,減少存儲數(shù)據(jù)所需的空間,可以將所用空間減少1~20倍,并相應地提高了I/O性能;采用高壓縮技術,能顯著減少存儲開銷,從而幫助客戶減少了數(shù)據(jù)庫整體投入成本。高易用性易于實施和管理,只需要傳統(tǒng)數(shù)據(jù)庫1/10的管理成本,與主要商業(yè)智能工具兼容,如Cognos、SAPBO、BIEE、SAS、SPSSo某某Hadoop優(yōu)勢支持高性能交互式數(shù)據(jù)分析,無需等待,實時生成統(tǒng)計結果。性能比開源Hadoop產品快10到100倍;提供PL/SQL以及R語言,支持更強的統(tǒng)計分析能力,應用遷移非常方便;支持廣泛的BI和報表工具,無需編程,方便應用遷移。某某云計算優(yōu)勢方案中虛擬化軟件采用某某云海IncloudSphere,國產自主研發(fā),并具備當下最主流先進的虛擬化功能。云管理平臺部分釆用某某云海IncloudManager,全自主知識產權,突破了云數(shù)據(jù)中心資源管理、調度、多資源池融合等多項核心技術,實現(xiàn)了真正的安全可控。運營效率提升通過云海實現(xiàn)系統(tǒng)的搭建與部署,大大提高運營效率。其工作效率的提升不是以百分之多少來衡量的,而是幾倍甚至數(shù)十倍的提升。傳統(tǒng)的一個操作系統(tǒng)的準備物理環(huán)境可能需要幾個小時甚至幾天,而虛擬化的環(huán)境只需要十幾分鐘。事實上,只需要人工的幾個鼠標點擊。其余的時間都是系統(tǒng)自動工作而不需要人工的干預。最快的時候,搭建一個數(shù)百操作系統(tǒng)的應用人工也只需要配置十幾分鐘。虛擬層會自動的根據(jù)模版生成你需要的工作環(huán)境。服務水平提高云計算環(huán)境可以很容易的幫助企業(yè)建立業(yè)務和IT資源之間的關系,使各種應用和企業(yè)的苛刻的業(yè)務條件能一一對應。從整個數(shù)據(jù)中心的視圖來看,云數(shù)據(jù)中心管理平臺可以將所有的物理服務器作為一個大的資源池進行統(tǒng)一的管理,并可以按需的自動進行所有運算資源的人工或自動調度。因為所有的硬件資源與客戶的應用及操作系統(tǒng)隔離,今后不論是物理主機的更換還是存儲的升級,均可以實現(xiàn)應用的零宕機。也許以前的維護需要幾天甚至幾周的時間變更管理準備。但現(xiàn)在這個時間被大大的縮減甚至不需要了,我們所有的資源都可以無中斷的按需擴容。實現(xiàn)數(shù)據(jù)中心的綠色節(jié)能云海的節(jié)能控制功能,能夠根據(jù)業(yè)務負載,自動調整虛擬資源在物理資源上的分布,實現(xiàn)物理資源的動態(tài)伸縮,有效降低數(shù)據(jù)中心的能耗,實現(xiàn)數(shù)據(jù)中心的綠色低碳和節(jié)能環(huán)保。分工細化使得終端用戶只需專注自身業(yè)務云海使得普通用戶無需自行構建數(shù)據(jù)中心,即可在線申請并使用數(shù)據(jù)中心的資源,減少了固定資產的投資,使其專注于自身業(yè)務,確保企業(yè)的核心競爭力。降低總體擁有成本(TCO)許多應用均在未得到資源充分利用的獨立物理服務器上運行,造成投資浪費。借助某某虛擬化解決方案,一個硬件平臺可以運行不同操作系統(tǒng)的多個任務,其中每個任務均在自己的隔離區(qū)(VM)內運行,并共享對硬件資源的訪問。采用桌面虛擬化技術,用戶可以將自己的多個應用系統(tǒng)整合至一個硬件平臺中,大大降低需要投入的軟件、硬件、維護等成本??煽啃蕴岣咛摂M化技術將大大提高了業(yè)務及桌面端系統(tǒng)的服務可用性。在實施虛擬化技術之前,如果桌面端發(fā)生硬件故

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論