智能文檔分析平臺產(chǎn)品白皮書-百度智能云_第1頁
智能文檔分析平臺產(chǎn)品白皮書-百度智能云_第2頁
智能文檔分析平臺產(chǎn)品白皮書-百度智能云_第3頁
智能文檔分析平臺產(chǎn)品白皮書-百度智能云_第4頁
智能文檔分析平臺產(chǎn)品白皮書-百度智能云_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

百度智能云百度智能云智能文檔分析平臺產(chǎn)品白皮書目錄 01 011.3深入挖掘和利用企業(yè)文檔中的數(shù)據(jù) 022.1產(chǎn)品架構(gòu)概述 03 04 04 062.3平臺應用能力 2.3.1文檔分類與標簽應用:幫助企業(yè)提升內(nèi)容管理與使用效率 2.3.2文檔內(nèi)容比對:精準發(fā)現(xiàn)版本間差異,防篡改 2.3.3文檔內(nèi)容審查:多維度內(nèi)容糾錯與合規(guī)性審查,減少內(nèi)容風險 2.3.4文檔內(nèi)容查重:跨文檔發(fā)掘相似點,防范抄襲及重復立項等現(xiàn)象 2.4典型場景化方案 09 2.4.2貿(mào)易&物流單證校驗 3.3.1跨模態(tài)預訓練大模型 3.3.1.1布局知識增強文檔預訓練大模型ERNIE-Layout 3.3.1.2中英文大規(guī)模OCR結(jié)構(gòu)化預訓練大模型VIMER-StrucTexT 3.3.1.3基于視覺和語義多模態(tài)預訓練大模型VIMER-MaskOCR 20 21 22 2 24 26 26 26 26 27 29 29 29 29 30 305.1.2解決方案 315.2.2解決方案 325.2.3客戶價值 32 325.3.2解決方案 33 345.4.2解決方案 34 與外部發(fā)生業(yè)務往來時產(chǎn)生的(如合同,物流單等),這些文檔中90%為非結(jié)構(gòu)化數(shù)據(jù),需要大量人工處理對象核心功能應用場景文檔分析智能化加速企業(yè)業(yè)務流程的數(shù)字化轉(zhuǎn)型智能文檔分析平臺TextMind2.1產(chǎn)品架構(gòu)概述能源能源金融物流政務傳媒合同貿(mào)易&物流購銷金融智能審查單證校驗合規(guī)審查業(yè)務審查文檔分類與標簽文檔內(nèi)容比對文檔內(nèi)容查重文本內(nèi)容審查預置場景模型數(shù)據(jù)標注AI大模型2.2智能文檔分析引擎2.2.1文檔解析2.2.2數(shù)據(jù)標注2.2.3抽取模型訓練型效果比傳統(tǒng)方案提升10%-20%。以銀行回單抽取場景舉例,相較于傳統(tǒng)訓練方案,信息抽取模型的F1值提升10%+2.2.3.1文檔預處理降噪文字遮蓋導致的檢測問題比較常見,在實際場景中,印章、水印等遮擋導致底層文字檢測失效的情況時有發(fā)生。文檔預處理降噪技術(shù)不僅能識別印章內(nèi)容,還能擦除印章和水印,提升文字識別準確率。同時,平臺自帶的旋轉(zhuǎn)檢測與自動修正功能,避免因旋轉(zhuǎn)角度問題影響OCR識別,用戶提交文檔時無需對旋轉(zhuǎn)問題進行人工核查。m本e2.2.3.2文檔布局理解0聯(lián)、跨頁/欄布局要素關(guān)聯(lián)(圖2.2.3.2:引入跨模態(tài)視覺特征識別,提升文檔語義理解能力)2.2.3.3大模型訓練調(diào)優(yōu)2.2.4人機協(xié)同機制用戶業(yè)務系統(tǒng)模迭代數(shù)據(jù)回流數(shù)據(jù)回流選代2.3平臺應用能力2.3.1文檔分類與標簽應用:幫助企業(yè)提升內(nèi)容管理與使用效率2.3.2文檔內(nèi)容比對:精準發(fā)現(xiàn)版本間差異,防篡改能夠識別分塊/分欄/頁首尾等布局;100+頁多模態(tài)文檔的比對時長<3min,平均1s+/頁!2.3.3文檔內(nèi)容審查:多維度內(nèi)容糾錯與合規(guī)性審查,減少內(nèi)容風險2.3.4文檔內(nèi)容查重:跨文檔發(fā)掘相似點,防范抄襲及重復立項等現(xiàn)象2.4典型場景化方案2.4.1合同智能審查防誤用范本合同免審比對責任、免責條款、解除和終止條是否用了模糊描述,如“很、比(圖2.4.1-2:智能審查維度)u2.4.2貿(mào)易&物流單證校驗10+屬性/關(guān)系秒級別/份快速選型高效性能銀行回單納稅證明銀行回單納稅證明收入證明銀行流水理財APP截圖3.1技術(shù)架構(gòu)智能文檔分析平臺技術(shù)架構(gòu)依托于K8S云原生技術(shù)為基礎底座,基于K8S構(gòu)建智能文檔領(lǐng)域場景化云原生應用。智能文檔分析平臺從技術(shù)架構(gòu)分層看包括基礎設施層、服務層、組件層、算法層、平臺層、應用層、接入層等7層架構(gòu)。接入層接入層應用層平臺層MySQL基礎設施層組件層算法層服務層算法層,主要以百度NLP、CV大模型為算法底座,基于布局知識增強文檔預訓練大模型 Cpu-node1Cpu-node2Cpu-node3Gpu-node1分布式文件存儲(NAS或Glusterfs)生產(chǎn)級生產(chǎn)級(圖3.2:平臺物理部署架構(gòu)圖)網(wǎng)絡部署架構(gòu)圖:用戶用戶Internet其他業(yè)務系統(tǒng)其他業(yè)務系統(tǒng)生產(chǎn)環(huán)境測試環(huán)境(圖3.2-2:平臺網(wǎng)絡部署架構(gòu)圖)【生產(chǎn)環(huán)境】CPU:32C、64G內(nèi)存*6臺GPU【生產(chǎn)環(huán)境】CPU:32C、64G內(nèi)存*6臺GPU:64C、128G內(nèi)存、32G顯存、4卡*2臺【存儲資源】分布式存儲:2T(至少)MySQL:100G(至少)【基礎環(huán)境】【測試環(huán)境】CPU:32C、64G內(nèi)存*3臺GPU:64C、128G內(nèi)存、32G顯存、4卡*1臺3.3關(guān)鍵技術(shù)3.3.1跨模態(tài)預訓練大模型2020-06-13自四HumanPerformance0.98110.97560.98250.97802021-02-12日四2020-12-22LayoutLM2.0(singlemodel)0.82020-08-16目AlibabaDAMONLP0.85060.66500.88090.85520.87330.8392020-05-16自PingAn-OneConnect-Gammalab-DQA0.84840.60590.90210.84630.87300.8331231pluss37,500obllgatedgs7nwmozxpEmpiTum233.3.1.2中英文大規(guī)模OCR結(jié)構(gòu)化預訓練大模型VIMER-StrucTexTMethod2021-11-24日StrucTexT98.70%98.70%98.70%2022-03-18日Character-AwareCNN+Highway+BiLSTM2021-07-20日Linklogis_BeeAl97.05%99.34%98.18%2021-01-02目Applica.aiLambert2.0+ExcludingOCRErors+Fixingtotalentity96.83%99.56%98.17%2021-06-02日MultimodalTransformerforInformationExtraction96.76%99.56%98.2021-02-16日Applica.aiTILT+ExcludingOCRErors3.3.1.3基于視覺和語義多模態(tài)預訓練大模型VIMER-MaskOCR中文-網(wǎng)圖中文-文檔中文-手寫ICPR2022圖表文字識別冠軍87.1%3.3.2信息抽取技術(shù)平臺技術(shù)框架立足于業(yè)界領(lǐng)先的飛槳PaddlePaddle深度學習框架,先后研發(fā)了文檔布局分析 3.3.2.1文檔布局分析DocParser格式解析格式解析布局解析(圖3.3.2.1:文檔布局分析DocParser)3.3.2.2開放域文檔抽取問答DocPrompt1.無固定Schema,支持開放場景,可實現(xiàn)零樣本能力Prompt范式優(yōu)點2.易對齊預訓練任3.表述形式靈活,便于實現(xiàn)多任務統(tǒng)一食合食食從技術(shù)架構(gòu)來看:在數(shù)據(jù)層面,用戶可以構(gòu)建自己的標簽體系,提供文檔集合并標標簽數(shù)據(jù)實現(xiàn)標簽能力定制化。在策略層面,依托百度大數(shù)據(jù),可以幫助用戶構(gòu)建標簽體系、預標注訓練樣本,并極大減少用戶標注數(shù)據(jù)量,輔助用戶建設標簽能力;同時,針對用戶構(gòu)建時期不同,提供了預置標簽模型、冷啟動模型和熱啟動模型,多種組合策略。在標簽層面,包括了實體標簽、觀點標簽、主題標簽和信息抽取3.3.3.1可定制文本分類標簽技術(shù)基于深度神經(jīng)網(wǎng)絡的對話理解技術(shù),旨在利用樣本數(shù)據(jù),使得開發(fā)者能夠定制化開發(fā)分類標簽能力。基于文心ERNIE的分類神經(jīng)網(wǎng)絡,僅需要用戶提供少量樣本進行finetune,就可以取得較好的標簽效果。該能力可實現(xiàn)主題標簽解析。規(guī)則分類模型中的“規(guī)則”,既可以基于樣本自動生成,也可以人工定義,支持快速構(gòu)建分類能力,從而更好的實現(xiàn)模型冷啟動。此外,規(guī)則的可控性強,實際應用價值高。CNN分類模型,能夠提升分類標簽的泛化能力,通過與文心ERNIE的結(jié)合,支持在用戶少量樣本上進行finetune,進一步提升分類標簽效果。poolingfixedlength(圖3.3.3.1:卷積神經(jīng)網(wǎng)絡結(jié)構(gòu))3.3.3.2可定制關(guān)鍵詞標簽技術(shù)3.3.4文檔比對技術(shù)電子文電子文檔掃描文檔目標檢測模型差異結(jié)果再校正文檔比對文檔解析布局分析前端界面文檔解析布局分析前端界面文檔預訓練模型文檔預訓練模型文檔信息抽取文檔信息抽取(圖3.3.4:內(nèi)容比對技術(shù)架構(gòu))3.3.4.2目標檢測模型3.3.4.3文檔預訓練模型3.3.4.4差異結(jié)果校正3.4部分技術(shù)專利列表技術(shù)方向申請?zhí)枌@赴l(fā)明」段落抽取方法、裝置和電子設「發(fā)明」文檔信息抽取模型的訓練方法、裝置及電子設及びコンビュータプロタラム「發(fā)明」表格的處理方法和裝「發(fā)明」表格的處理方法和裝「發(fā)明」文檔處理方法、裝置、電子設備及存儲介質(zhì)「發(fā)明」文檔比對方法、裝置、電子設備及可讀存儲介質(zhì)「發(fā)明」數(shù)據(jù)處理方法、裝置、電子設備及介質(zhì)「發(fā)明」文檔目錄生成方法及裝置、電子設備和介質(zhì)「發(fā)明」文本信息的抽取方法、裝置、電子設備和存儲介質(zhì)「發(fā)明」情報抽出方法、裝置、電子デパイス及び可読記憶媒體「發(fā)明」文本中數(shù)值內(nèi)容的糾錯方法、裝置及電子設備「發(fā)明」數(shù)據(jù)標注方法、裝置、電子設備及計算機可讀存儲介質(zhì)「發(fā)明」信息抽取方法、裝置、電子設備和可讀存儲介質(zhì)「發(fā)明」表格數(shù)據(jù)的處理方法、裝置、電子設備和存儲介質(zhì)「發(fā)明」INFORMATIONEXTRACTIONMETHODANDAPPARATUS,ELECTRONICDEVICEANDR「發(fā)明」文本信息的抽取方法、裝置、電子設備及存儲介質(zhì)「發(fā)明」用于信息處理的方法、裝置、電子設備和存儲介質(zhì)「發(fā)明」文檔處理模型訓練方法、文檔處理方法、裝置及設備「發(fā)明」文吉処理モデルのトレーニング方法、裝置、機器、記憶媒體及び「發(fā)明」文檔處理模型的訓練方法、裝置、設備、存儲介質(zhì)及程序「發(fā)明」神經(jīng)網(wǎng)絡訓練方法、文檔圖像理解方法、裝置和設備「發(fā)明」文檔處理及文檔模型的訓練方法、裝置、設備和存儲介質(zhì)「發(fā)明」用于閱讀任務的預訓練模型訓練方法、裝置及其電子設備「發(fā)明」文檔分類方法、裝置及電子「發(fā)明」數(shù)據(jù)集蒸餾方法、裝置、電子設備及存儲介質(zhì)「發(fā)明」文檔圖像的處理方法、裝置及電子設備「發(fā)明」圖像問答方法、裝置、計算機設備和介質(zhì)4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論