




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、OCR定義OCR(Optical Character Recognition)即光學(xué)字符識別,是指電子設(shè)備(如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法 將形狀翻譯成計算機文字的過程:即對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。如何除錯或利用輔助信息提高識別正確率, 是OCR最重要的課題,衡量一個OCR系統(tǒng)性能好壞的主要指標有:拒識率、誤識率、識別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。目前項目使用需求項目名稱:吉凱隨訪系統(tǒng);項目甲方:吉凱基因技術(shù)有限公司;。需求目標:吉凱隨訪系統(tǒng)中規(guī)劃的OCR技術(shù)需
2、求范圍:利用OCR技術(shù)功能模塊,解析用戶所上傳的病歷文檔圖片(包含病歷、醫(yī)囑、檢查、檢驗等文書),將圖片轉(zhuǎn)換為計算機可識別的文字語言;根據(jù)轉(zhuǎn)換的結(jié)果進行分析、統(tǒng)計等應(yīng)用;對所建議開發(fā)的軟件基本要求如下:l 病例圖片文字識別;l 識別率90%以上,識別時間小于10分鐘;l 輸出病例相關(guān)內(nèi)容,需要按照病例格式輸出,否則無法判斷最終結(jié)果;l 患者上傳相關(guān)病例文檔圖片,上傳之后后臺識別反饋結(jié)果給患者或者醫(yī)生。;l 數(shù)據(jù)詞庫自己訓(xùn)練,需要程序自動帶有學(xué)習功能;l 開發(fā)周期兩個月?,F(xiàn)狀目前市面上OCR技術(shù)應(yīng)用于醫(yī)療行業(yè)的APP及軟件如下:漢王OCR(PC端軟件):漢王OCR是一個帶有 PDF
3、160;文件處理功能的 OCR 軟件;具有識別正確率高,識別速度快的特點。有批量處理功能,避免了單頁處理的麻煩;支持處理灰度、彩色、黑白三種色彩的BMP、TIF、JPG、PDF多種格式的圖像文件;可識別簡體、繁體和英文三種語言;具有簡單易用的表格識別功能;具有TXT、RTF、HTM和XLS多種輸出格式,并有所見即所得的版面還原功能。新增打開與識別PDF文件功能,支持文字型PDF的直接轉(zhuǎn)換和圖像型PDF的OCR識別,既可以采用OCR的方式將PDF文件轉(zhuǎn)換為可編輯文檔,也可以采用格式轉(zhuǎn)換的方式直接轉(zhuǎn)換文字型PDF文件為RTF文件或文本文件; 實際測試漢王OCR后發(fā)現(xiàn)其受圖片質(zhì)量
4、、圖片格式、圖片灰度、圖片大小等因素影響,實際對于病歷文檔的識別率不到30%,不能滿足項目需求;但其可接受定制化需求,定制化需要額外付費,初步估計在10W以上一個病歷模板,目前病歷的模板種類數(shù)量非常大,項目成本將無法預(yù)估;易道博識北京易道博識科技有限公司(簡稱“易道博識”)成立于2013年,由來自中科院、清華大學(xué)、北京大學(xué)的多名頂尖的模式識別專家共同組建。創(chuàng)始人朱軍民獲得了國家科技進步二等獎等多項業(yè)界成就。核心技術(shù)包括:3D人臉識別、銀行表單識別、增值稅發(fā)票識別、支票識別、各類證照識別、一維碼識別、二維碼識別、聯(lián)機手寫識別等。實際測試該公司OCR產(chǎn)品后發(fā)現(xiàn)其OCR對于證件識別率較高,但達不到9
5、0%。識別病歷圖片的準確率達不到20%。但其可接受定制化需求,定制化需要額外付費,基礎(chǔ)功能起步價10W,病歷模板定制10W一個。項目成本無法預(yù)估。泰比(ABBYY)泰比(ABBYY)是一個在文檔轉(zhuǎn)換、數(shù)據(jù)捕獲和語言軟件領(lǐng)域領(lǐng)先的供應(yīng)商。泰比(ABBYY)研究和發(fā)展的關(guān)鍵領(lǐng)域包括文檔識別技術(shù)及應(yīng)用語言學(xué)。泰比(ABBYY)的識別技術(shù)和產(chǎn)品為人們越來越多的資料信息提供了強有力的工具,使他們能夠:從紙張和圖像上獲得信息,自動獲取數(shù)據(jù),處理和存儲有用的信息。利用識別和數(shù)據(jù)采集產(chǎn)品,人們能夠在數(shù)據(jù)輸入方面節(jié)省大量的金錢和精力,并能以一種更新和更有效的方式來獲取信息和資料。我們的語言產(chǎn)品幫助打破語言障礙,
6、促進交流和溝通變得更容易和更清晰。經(jīng)過電話咨詢,該公司主要專注于產(chǎn)品的研發(fā),如有需要定制費用相當之昂貴,具體價格沒有提供。捷速OCR捷速OCR文字識別軟件:是一款可以直接識別文字,將圖像轉(zhuǎn)化成文字的工具。很多時候我們需要一款軟件能夠直接把掃描文件上面的文字的變成直接可以編輯的文字,這樣我們工作就方便很多了,可以直接使用掃描儀掃描書籍和相關(guān)的文檔,然后使用捷速掃描文字識別軟件,就可以編輯這些文字,能夠節(jié)省我們辦公人員很多的時間,這些軟件特別是對那些處理文檔的人員和相關(guān)的從事編輯行業(yè)的人員特別適用,可以廣泛的應(yīng)用,并且軟件識別正確率高,可以批量的轉(zhuǎn)換掃描的文件。實際測試該公司OCR對圖片文字識別率
7、較高,識別率50%左右。識別病歷圖片的準確率達不到30%。但其可接受定制化需求,定制化需要額外付費,基礎(chǔ)功能起步價3W,病歷模板定制價格沒有具體給出。項目成本無法預(yù)估。百度云OCR文字識別企業(yè)版、云識別、LEADTOOLS等等其它OCR產(chǎn)品價格都比較昂貴。醫(yī)療行業(yè)OCR類型APP易隨診:病例識別時間需要一天左右,識別率90%左右,后臺人工識別校正。拍醫(yī)拍:病例識別時間10分鐘左右,識別率90%左右,各大論壇評論為后臺人工識別校正。醫(yī)庫嘟嘟醫(yī)生可行性調(diào)研重新開發(fā)OCR無相關(guān)開發(fā)經(jīng)驗人員,開發(fā)周期一年以上,還需訓(xùn)練詞庫,詞庫量越大識別率越高,訓(xùn)練周期長。開源OCR無相關(guān)技術(shù)支持,識別率低,不能滿足病例文檔識別的要求,安全性低,維護成本高,二次開發(fā)成本高,開發(fā)周期半年左右。也需要訓(xùn)練詞庫,訓(xùn)練周期長;第三方OCR收費,成本高,需要定制,定制的模塊多(1份文檔格式即1個模塊,其量非常大),但有相關(guān)技術(shù)支持。調(diào)研結(jié)論綜上所述,重新開發(fā)OCR,使用開源OCR,購買第三方OCR都有各自的優(yōu)缺點,但都不適用于目前吉凱的項目;但就目前市面上產(chǎn)品而言,其他廠商的APP或軟件也使用了其他的方法來規(guī)避該問題來避免識別率低而造成的使用問題;目前而言,雖然項目合同中和技術(shù)方案中就此塊內(nèi)容沒有明確的要求,從技術(shù)及其他廠商的產(chǎn)品調(diào)研來看,單純的OCR技術(shù)無法達到實際使用的要求和積累;備選方案由于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年國內(nèi)保理業(yè)務(wù)協(xié)議應(yīng)收賬款池融資版
- 一年級下數(shù)學(xué)教案-退位減法-西師大版
- 2024-2025學(xué)年一年級下學(xué)期數(shù)學(xué)第二單元位置《左和右》(教案)
- 2025年公司和個人簽訂的勞務(wù)合同模板
- 六年級上冊數(shù)學(xué)教案-4.1 比的基本性質(zhì) ︳青島版
- 一年級下冊數(shù)學(xué)教案-小兔請客1 北師大版
- 2025年倉儲保管合同樣本常用版
- 學(xué)習2025年雷鋒精神62周年主題活動方案 (3份)
- 2025年合肥經(jīng)濟技術(shù)職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫完整
- 期中(試題)-外研版(三起)英語三年級下冊-(含答案)
- 月度安全生產(chǎn)例會匯報材料
- 2025年春季學(xué)期學(xué)校團委工作計劃(附團委工作安排表)
- 2025公文寫作考試題庫(含參考答案)
- 2025年湖南科技職業(yè)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2024年安徽省高校分類考試對口招生語文試卷真題(含答案)
- 2025年蘇州健雄職業(yè)技術(shù)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 2025年南京信息職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 如何管理好一家公寓
- 2025年零售業(yè)員工職業(yè)發(fā)展規(guī)劃與培訓(xùn)
- 2025年八省聯(lián)考高考語文試題真題解讀及答案詳解課件
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蝕工程施工及驗收規(guī)范
評論
0/150
提交評論