分布式新聞信息抽取系統(tǒng)1_第1頁
分布式新聞信息抽取系統(tǒng)1_第2頁
分布式新聞信息抽取系統(tǒng)1_第3頁
分布式新聞信息抽取系統(tǒng)1_第4頁
分布式新聞信息抽取系統(tǒng)1_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1. 系統(tǒng)框架設計本系統(tǒng)現(xiàn)實用 Spring 框架整合開發(fā),其中使用 Spring 框架中的JdbcTemplate 為數(shù)據持久層,使用 JDBC 數(shù)據源實現(xiàn)項目的 C3P0 作為連接池,二者一起負責數(shù)據層功能實現(xiàn),Spring 框架為 MVC整合框架,負責整個系統(tǒng)的 MVC 的實現(xiàn)。系統(tǒng)還使用了 DWR 框架作為 AJAX 技術的實現(xiàn) ,MVC 架構圖如下圖 1 所示:圖 1 MVC 架構圖1.1 Controller (控制器)層Controller 層由 Spring 框架實現(xiàn),所有請求交由 Spring 提供的DispatcherServlet 前端控制器轉發(fā),前端控制器根據請求路徑,

2、再通過注解,會調用具體的業(yè)務邏輯控制器(用開發(fā)實現(xiàn))實現(xiàn)前交互和頁面轉發(fā)的功能。(業(yè)務邏輯)層1.2 M層包括 Service(業(yè)務邏輯)層和(數(shù)據)層,其中MService 層主要包括所有的業(yè)務邏輯處理,各部分資源的調用,而層主要包括所有的數(shù)據據庫的持久層實現(xiàn)。1.3 View(視圖)層操作,JdbcTemplate 作為層數(shù)View 層主要由 jsp 實現(xiàn)。2. 系統(tǒng)開發(fā)環(huán)境操作系統(tǒng):Windows 7(64 位),linux(64 位)瀏覽器:IE6,IE7,IE8 JDK:JDK1.7開發(fā)工具:eclipse-jee服務器:Tomcat 7.0數(shù)據庫:3. 系統(tǒng)文件結構說明3.1 整體

3、結構在項目整體結構中,主要包含 3 部分內容,src 目錄為 java 源代碼的存放目錄,該目錄下的內容在編譯后成為.class 格式的字節(jié)碼文件,運行時由服務器解釋執(zhí)行;JRE System Library、Java EE 7 Libraries 和 Web App Libraries 為項目開發(fā)所需的基本類庫,包括所需的基本數(shù)據結構類和運行時類庫等;WebRoot 為 web 根目錄,主要包括 jsp 文件、web 配置文件以及網頁中的 css 樣式文件、js 文件、等;項目編譯后的目錄結構與 WebRoot 下目錄結構相同,src目錄下的 java 文件編譯后全都存放在 WebRoot

4、下的 WEB-INF/classes文件夾下。整體結構如下圖 2 所示:圖 2 項目整體結構圖3.2 Java 源代碼結構Java 源代碼接口是指 src 目錄下的 java 源碼的目錄層次結構,在 src 目錄下主要根據不同 java 文件實現(xiàn)的功能,結合 MVC 框架的結構,使用文件夾將 java 文件進行分類,根據模塊功能主要分為 8個板塊,每個板塊下有 2 至 3 個小模塊,每個模塊有 4 層,依次是Action 層,Service 層,層和 Bean 層。如下圖 3 所示。圖 3 Java 源代碼結構圖3.2.1 模塊功能Configure 模塊:負責信息系統(tǒng)資源以及參數(shù)的配置,如

5、nh的抓取周期和深度,hadoop 啟動關閉,格式化的配置,以及日志和文檔的管理配置,抓取網頁的一些基本參數(shù)配置。dataManage 模塊:主要負責 URL 的查詢和查詢。站點頻道信息的ImportExport 模塊:導入導出模塊,主要負責把抽取下來的新聞信息進行系統(tǒng)化的導入和導出。格式有 XML,SQL,JSON。listManager 模塊:負責對要抽取的站點和頻道進行增刪改查操作,以便能更好的管理和配置需要抽取的。resourceMonitor 模塊:主要對的 url 進行統(tǒng)計和分析,記錄和分析信息。的 url 所對應的源碼,以及通用引擎抽取后的TackManager 模塊:爬蟲的啟動

6、,翻譯,過濾,心工作。模塊,負責系統(tǒng)的分布式,nh程序的和通用引擎的抽取等核templateManage 模塊:主要負責對每個站點和頻道里的信息進行正則表達式的匹配,可以通過正則表達式對系統(tǒng)的抽取精度進行檢驗。及時的對不符合該站點的正則表達式就行修改和刪除。userManager 模塊:負責用戶的登錄退出,以及不同用戶間的角色權限的調度和管理工作。附加模塊:util 模塊(包括 log 模塊):工具模塊,主要用來存放一些工具類,如異常信息的處理,提供數(shù)據持久層的公共接口以供其它模塊調用,url 信息的過濾,日志信息的和添加等。3.2.2 主要類功能(1)業(yè)務邏輯控制器業(yè)務邏輯控制器位于每個子模

7、塊的 Action 文件夾下面,action表示控制器,不同模塊的控制器存放在不同的文件夾下面。(2)實體類實體類位于每個模塊的 Bean 目錄下面,是對數(shù)據的抽象。(3)數(shù)據層數(shù)據接口,層位于每個模塊的文件夾下,其中下放的是Impl 表示接口的實現(xiàn)類,該層封裝的都是對數(shù)據進行存取操作的方法,幾乎不包含業(yè)務邏輯的處理,調用 C3P0 或 JDBC 提供的接口數(shù)據庫。該層以數(shù)據庫表或者試圖為劃分依據,通常每個表或試圖對應一個(4)業(yè)務邏輯層類,所以在下不再繼續(xù)劃分。數(shù)據層位于每個模塊的 Service 文件夾下,service 代表的是業(yè)務邏輯層,其中 service 下放的是接口,servic

8、eImpl 下放的是接口的實現(xiàn)類。該層封裝的是對用戶請求的業(yè)務邏輯處理。(5)工具類工具類位于 com.nes.util 文件夾下,該文件夾主要包括一些對數(shù)據處理的通用方法,這些方法不是某個模塊特有的方法,所以不能包含在某個模塊中,如對基本的數(shù)據庫的處理類工具,URL 的過濾,頁面分頁的計算和日志文檔的等。3.3 Web 源代碼結構Web 源代碼存在于 WebRoot 目錄下面,存放不會被編譯的文件,本系統(tǒng)中的目錄結構如下圖 4 所示。圖 4 Web 源代碼結構icon:存放工具小圖標。css:存放網頁布局、美化用的 css 樣式表文件;images:存放導航欄、背景js:存放驗證和其他 js

9、 代碼;,LOGO;photos:首頁中二級欄目。themes:存放時間特效的包;datajs:存放時間的 js;dataPicker:用于存放時間插件代碼。WEB-INF:存放項目的 xml 配置文件和主要的 JSP 文件等;系統(tǒng)框架實現(xiàn)詳細設計請求響應流程用戶通過瀏覽器發(fā)出一個請求時,請求首先到達 Spring 的控制器,控器根據請求路徑判別:如果用戶請求的是某一個 jsp 頁面,則響應回一個 jsp 頁面給瀏覽器;如果用戶請求的是一個動態(tài)資源,則根據請求路徑分發(fā)給具體的業(yè)務邏輯控制器,業(yè)務邏輯控制器調用業(yè)務邏輯層進行業(yè)務邏輯處理;其務邏輯層需調用由 JdbcTemplae 實現(xiàn)的數(shù)據層進

10、行數(shù)據存取操作,業(yè)務邏輯層本身對數(shù)據進行操作完成業(yè)務邏輯的處理;最終處理完成后返回動態(tài)數(shù)據,并由業(yè)務邏輯控制器返回視圖。4.2 Action(控制器)層Action 層主要指開發(fā)編寫的業(yè)務邏輯控制器,在請求到達Spring 的控制器后,會根據請求的路徑調用相應的業(yè)務邏輯控制器完成對請求的處理和發(fā)出響應。具體代碼結構如下圖 4.2 所示:對一個控制器類來說,其命名根據模塊或者功能來命名,結尾附加 Action 用以說明該類為控制器,并使用Controller 來標注,類的方法作為對請求處理的程序,在方法前用RequestMap(“*”)作為請求的字符串標注,*代表請求的路徑。當此路徑與請求路徑一

11、致,則調用該標注后的方法處理請求。在控制器內,可以Service 層的資源,通過Resour標注來引入??刂破鞔蠖嘀煌瓿山邮諈?shù)、調用 Service 處理和返回視圖的工作。4.3 Service(業(yè)務邏輯)層Service 層主要指用于業(yè)務邏輯處理的層級,是 M層的一部分,該層由 Action 層直接調用,作為 Action 的資源。該層主要完成對數(shù)據的業(yè)務邏輯處理功能,由業(yè)務邏輯接口和接口實現(xiàn)類兩部分組成。具體代碼結構如下圖 4.3 所示:1.接口說明Service 層接口是對 Service 完成功能的基本展示,主要包括對方法的,具體到返回值類型和參數(shù)個數(shù)以及類型。接口名也是以模塊或者功

12、能來命名,附加 Service 結尾,用以說明該類為業(yè)務邏輯層類。在 Action 層Service 層資源時,也是以一個 Service接口為,以一個 Service 接口名稱來并實例化對象。2.實現(xiàn)類說明Service 接口實現(xiàn)類是對某一個 Service 接口方法實現(xiàn)的類,其命名為實現(xiàn)的接口*Service 后附加 Impl 作為類名,并使用 implements關鍵字實現(xiàn)該接口,該類中必須包含并實現(xiàn)所有接口中的方法。該類要以Service 標注在類前,用以說明該類為業(yè)務邏輯層的類,作為 Spring 掃描的對象,產生資源,作為 Action 中資源的資源實例化的對象。該類中一般只對數(shù)據

13、做業(yè)務邏輯的處理,對于數(shù)據則通過Resour注解引入層資源進行處理。(數(shù)據)層4.4層是對數(shù)據庫進行操作的層級,是 M層的第一層,由 Service 層直接調用,作為 Service 層的資源。該層主要完成對數(shù)據庫的存取等操作,一般不包含業(yè)務邏輯處理,是直接調用JdbcTemplate 數(shù)據持久化的一層。具體代碼結構如下圖 4.4 所示1.接口說明同 Service 接口相似,該接口主要完成的是對接口方法的聲明,其命名方式主要以數(shù)據表、視圖或者實體類來命名。2.實現(xiàn)類說明實現(xiàn)類是對某一個接口方法進行實現(xiàn)的類,其命名為附加 Impl 結尾作為類名,使用 implements 關鍵字實現(xiàn)該接口,*

14、實現(xiàn)類中必須實現(xiàn)接口中所有的方法。實現(xiàn)類使用 extends 關鍵字繼承對數(shù)據庫進行操作的基類,該基類中用于對數(shù)據庫進行操作的 Hibernate 接口方法或 JDBC 接口方法,使得實現(xiàn)類可以直接操作數(shù)據庫。Spring 掃描的標志,用以初始化該實現(xiàn)類用Re層的資源itory 注解作為,來實例化Service 實現(xiàn)類中的資源。實現(xiàn)類的資源即為其從基類繼承來的JDBC 數(shù)據庫對象。Bean(實體類)Java 實體類說明Java 實體類是一種數(shù)據結構,其抽象來源于數(shù)據庫表、視圖或者業(yè)務邏輯處理過程中用于計算的數(shù)據模型。該類一般要實現(xiàn)Serializable 接口,以用于序列化操作。類中一般包含表

15、達數(shù)據模型的私有屬性以及對屬性進行主要配置文件說明web.xml 配置說明的接口方法。Web.xml 是 web 應用程序最根本的配置文件,所有框架的配置都需要在 web.xml 中進行配置說明才能發(fā)揮效用。(1)應用上下文配置應用上下文配置是指在 Web 應用中上下文環(huán)境的配置,主要表現(xiàn)方式為 xml 配置文件。如下圖所示,指明了配置的名稱為 contextConfigLocation,即對 Spring 的配置,指明了 Spring 配置文件的位置,即在 java 源碼的根目錄。應用上下文配置結構圖(2)Spring 框架配置Spring 框架配置中主要是對 Spring控制器的配置,以

16、Servlet的形式將控制器配置進來。中指明對請求處理的servlet 為 Spring 框架中的 DispatcherServlet,中指明使用該 servlet 進行處理的請求的格式。/代表所有的請求,也就是瀏覽器提交過來的所有請求,都會交由 Spring 框架提供的DispatcherServlet 進行處理,從而實現(xiàn)了其控制器的功能,將請求根據路徑分發(fā)為具體業(yè)務邏輯控制器處理。配置如下圖所示:Spring 框架配置(3)dwr 框架配置dwr 作為 ajax 實現(xiàn)的技術框架,必須要在 web.xml 中配置后方能發(fā)揮效用。如下圖 15 所示,dwr 的配置也是通過 servlet 的配

17、置實現(xiàn)的。同 Spring 的配置,dwr 的配置說明了進行ajax 操作的請求滿足的路徑格式為/dwr/*,即以 dwr/開頭的請求路徑將使用 ajax 技術實現(xiàn)。dwr 的配置說明了 ajax 操作是由uk.getahead.dwr.DWRServlet 實現(xiàn)的。DWR 框架配置圖器配置(4)web.xml 中配置的器包括 Spring 的 ContextLoadListener,完成啟動 Web 應用時,自動裝配 Spring 的配置信息;Spring 的rospectorCleanupListener,完成rospector 的功能;web 應用關閉時,清除 JavaBeans、圖 1

18、6器配置(5)過濾器配置過濾器的配置是對請求進行過濾處理組件的配置,如下圖中配置了 Spring 提供的編碼格式過濾器。說明過濾器將對/*,即所有的請求進行編碼格式化處理;中的說明,所有的請求都會格式化為 UTF-8 編碼格式。過濾器配置2.springannoion.xml 配置說明springannoion.xm 是 Spring 的主要配置文件,里面包含了注解的掃描、數(shù)據源配置、數(shù)據庫配置、dwr 業(yè)務等配置。(1)自動掃描注解配置接口配置以及事務管理器和視圖在 Spring3.0 框架中提供了注解這(控制器)、Service(業(yè)務邏輯)、Re能,主要包括Controlleritory(數(shù)據)、Resource(資源注入)等常用注解,使用注解可以避免

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論