UIMA是一個用于分析非結構化內(nèi)容的組件架構和軟件框架實現(xiàn)_第1頁
UIMA是一個用于分析非結構化內(nèi)容的組件架構和軟件框架實現(xiàn)_第2頁
UIMA是一個用于分析非結構化內(nèi)容的組件架構和軟件框架實現(xiàn)_第3頁
UIMA是一個用于分析非結構化內(nèi)容的組件架構和軟件框架實現(xiàn)_第4頁
UIMA是一個用于分析非結構化內(nèi)容的組件架構和軟件框架實現(xiàn)_第5頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、UIMA什么是UIMA?UIMA是一個用于分析非結構化內(nèi)容(比如文本、視頻和音頻)的組件架構和 軟件框架實現(xiàn)。這個框架的LI的是為非結構化分析提供一個通用的平臺,從而提供 能夠減少重復開發(fā)的可重用分析組件。UIMA架構允許您輕松插入定制的分析組件,并將它們與其他組件合并。您的 UIMA應用程序不需要知道分析組件共同合作生成結果的細節(jié)。集成和組織多個分 析組件是UIMA框架的工作。UIMA應用程序可能分析純文本并識別人員、位置和組織;它也可能識別關 系,比如為誰工作或在什么地方工作。應用程序通常可以拆分成組件。例如“語 言識別”= 特定于語言的部分”= “句子范圍檢測”= 實體檢測(人員 /位置

2、的名稱等等)”。組件之間可能存在依賴性。例如,“句子范圍檢測”必須先于“特定于語 言的部分”。每個組件都是自含的并且可以與其他組件組合。每個組件(用Java 或C+編寫)實現(xiàn)山其他框架定義的接口,并通過XML描述符文件提供自我描述 元數(shù)據(jù)。UIMA框架管理組件和在它們之間流動的數(shù)據(jù)。分析引擎、注釋器和 Common Analysis Structure分析引擎是UIMA中的中央構建塊。分析引擎包含 一個或多個注釋器或其他分析引擎。每個注釋器實現(xiàn)一個特定的文本分析功能。 這種遞歸式打包允許您通過簡單的分析引擎構建復雜的分析引擎。每個注釋器將其 結果儲存在具有類型的特征結構中,該結構僅是包含類型和

3、一組屬性/值對的數(shù)據(jù) 結構。注釋是一種特殊的特征結構,它被附加到需要分析的工件的某個區(qū)域。例 如,注釋可能被附加到文檔中的一段文本上。對于這種情況,注釋在文檔中包含一個特定的開始和結束位置。這意味著可以方便地使用注釋指定信息提取結果。例如,在以下文本中,Company注釋覆蓋的位置是從19到21:UIMA started as an IBM initiative, but has gone open source in 2008 所有特征結構(包括注釋)都用UIMA Common Analysis Structure (CAS)表示, CAS是中央數(shù)據(jù)結構,所有UIMA組件都通過它進行通信。圖

4、1顯示一個包含用于已命名實體識別、語法分析和關系探測的注釋器的分 析引擎。注意,Relationship Annotator通過分析在CAS中預先存在的概念和語 法注釋探測關系,而不需要查看實際的文檔文本。圖1.包含用于已命名實體識別、語法分析和關系探測的注釋器的文本分析引擎UIMA類型系統(tǒng)UIMA類型系統(tǒng)定義能夠在文檔中找到并且能夠被分析引擎提取的各種對象 的類型。例如,Person就是一個類型。類型包括特征。例如Age和Occupation可能被定義為Person類型的特 征。類型的例子還有 Organization Company Money Product 或 NounPhraseo類

5、型系統(tǒng)特定于領域和特定于應用程序。您可以將類型并入到不同的類中。 例如Company可以定義為Organization的子類型,或NounPhrase可以定義為 ParseNode的子類型。在文本分析中,用于派生其他類型的概括性的通用類型被稱為Annotation 類型,它由UIMA框架提供。您可以使用Annotation類型在文檔中標記區(qū)域。 Annotation類型包含Begin和End特征,這些特征的值將確定一個跨段。例 如,在以下文本字符串(與圖1分析的字符串一樣)中,注釋Person從位置0 開始在位置10結束:Fred Center is the CEO of Center Mic

6、ros開發(fā)注釋器的第一步是定義需要使用的CAS Feature Structure類型。這在 一個稱為Type System Descriptor的XML文件中完成。UIMA定義內(nèi)置類型TOP (它是類型系統(tǒng)的根,類似于Java中的Object)和以上描述的Annotation 等。UIMA還為Boolean、Integer和Double等特征定義基礎范RI類型,并為執(zhí) 行原始類型定義數(shù)組。Processing Engine ARchives (PEAR)文件開發(fā)并成功測試了分析引擎之后,您可以打包它并將其作為預配置(文本) 分析組件部署到另一個應用程序中。在UIMA中,一種注釋器打包格式稱為

7、 PEAR,它是Processing Engine ARchive的縮寫。PEAR格式包含運行打包注釋器 組件所需的所有信息。要詳細了解PEAR打包格式,請查看UIMA參考文檔的 PEAR Reference 章節(jié)。通過在 InfoSphere Warehouse Design Studio 中使用 Text Analyzer 操作 器,您可以導入任何Apache UIMA支持的分析引擎,以注釋非結構化文本中的概 念。使用Analysis Engine Import向?qū)Э梢詫脒@些預配置的PEAR文件。對于 使用以前的UIMA版本(比如IBM UIMA)創(chuàng)建的分析引擎,首先要遷移它。本文 的下

8、一小節(jié)將描述遷移過程。UIMA 和 InfoSphere Warehouse如前面小節(jié)所述,您可以將預配置的UIMA分析引擎(PEAR文件)導入到 InfoSphere Warehouse中。這允許您擴展InfoSphere Warehouse的文本分析功 能,以滿足特定的需求。本文概述如何在數(shù)據(jù)庫中表示山分析引擎創(chuàng)建的文本分析結果。此外,還解 釋了如何使用InfoSphere Warehouse導入并執(zhí)行使用以前版本的UIMA創(chuàng)建的文 本分析引擎。將分析結果映射到數(shù)據(jù)庫的列上在InfoSphere Warehouse中,分析7IF結構化數(shù)據(jù)要求該數(shù)據(jù)作為列儲存在 數(shù)據(jù)庫中,并且使用的字符數(shù)據(jù)

9、類型為CHAR、VARCHAR或CLOB= UIMA將每個表 行的特定文本列內(nèi)容作為一個文本文檔處理。生成的分析結果(都來自Annotation類型)存儲在CAS中。通過CAS Consumer將選擇的結果的內(nèi)容寫入到使用JDBC的數(shù)據(jù)庫中。每個選擇的特征都 儲存在一個新列中。為了指定應該將哪個分析結果寫入到數(shù)據(jù)庫,您應該配置Text Analyzer操 作器的屬性,具體而言,就是配置Analysis Results選項卡。使用這個選項卡指 定哪個注釋類型包含分析結果(例如,類型Company)。如前所述,每個注釋都包含Begin和End等特征,同時也可以包含自定義 特征,比如Company類

10、型的Full_Legal_Name或CEO=選擇的注釋類型指定您 感興趣的結果,而該注釋類型中選擇的特征指定感興趣的細節(jié)部分。每個特征都存 儲在一個數(shù)據(jù)庫列中。最終生成的數(shù)據(jù)庫表不一定要包含從分析創(chuàng)建的列。它也可以包含來自輸入 表的列。這允許您在隨后,例如,將結果與原始文本關聯(lián)起來。圖2總結了這個流程。在圖中可以看到,Text Analyzer操作器的Analysis Result 選項卡配置 CAS Consumer,以將 Begin、End 和Full_Legal_Name特征的內(nèi)容寫到結果表中。圖2.分析文本列并將分析結果寫到表中的UIMA流如果UIMA注釋器的結果大于它們映射到的結果列

11、,那么可能出現(xiàn)難以識別 的問題。例如,如果列的類型為VARCHAR(256),大于256個字符的結果將導致失 敗的流和SQL錯誤。識別該問題的簡易方法是臨時使用CLOB類型作為LI標列, 它沒有任何大小限制。如果這能夠解決該問題,那么注釋器將返回一個比較長的 返回值。在注釋器代碼中確保創(chuàng)建注釋時不超過特定長度是非常有用的。如果沒有 可用的特定長度的DB2表空間,可能會導致另一個問題。將基于IBM UIMA的分析引擎遷移到ApacheInfoSphere Warehouse V9. 5. 1和更新版本不支持基于IBM UIMA的打包文 本分析組件。不過,通過遵循以下步驟之一,您就可以在這些版本中

12、使用提到的組 件:使用IBM UIMA到Apache UIMA的轉換工具遷移PEAR文件的源代碼。要了 解更多信息,請在UIMA Web站點上查看Migrating from IBM UIMA to Apache UIMA 部分。使用 IBM UIMA Adapter Wrapper for Apache UIMA 在基于 Apache UIMA的運行時環(huán)境中運行基于IBM UIMA的PEAR文件。當沒有可以用IBM UIMA 到Apache UIMA轉換工具轉換的源代碼時,您可以對基于IBM UIMA的解釋器使 用IBM UIMA Adapter包。要處理這些IBM UIMA解釋器,請在新的

13、Apache UIMA 運行時中使用IBM UIMA Adapter包。要了解更多信息,請訪問alphaWorks上的 UIMA頁面。通過開啟InfoSphere Warehouse中的UIMA日志識別問題InfoSphere Warehouse將在注釋器代碼中發(fā)生的錯誤消息轉發(fā)到執(zhí)行分析流 跟蹤中。如果您對流程、數(shù)據(jù)流或挖掘流啟用內(nèi)容跟蹤,那么CONFIG級別和該級 別以上的UIMA日志將路由到InfoSphere Warehousing日志。在某些悄況下,有必要從更細的級別獲取UIMA日志消息來調(diào)試注釋器的問 題。這將涵蓋在注釋器的UIMA代碼中發(fā)生的問題,以及在定制注釋器的注釋器代 碼中發(fā)生的問題。查看InfoSphere Warehouse文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論