Ⅰ OCR文字識別軟體哪個易用可網上下載
OCR文字識別軟體 Mini Ocr
xdowns.com/view_soft/3/7/OCRwenzishibieruanjian Mini Ocr.html
件
本軟體是飛濤軟體工作室開發的一款免費Ocr軟體,主要用於識別圖像文件之中,出現
的漢字顯示字體。Ocr的中文含意是光學字元識別。
為什麼叫Mini呢?因為現有的識別漢字的商業Ocr軟體,動輒二三十兆,而本軟體解
壓後,也不過三兆多,身材比較纖小,再加上本軟體主要用於識別字體比較小的漢字,所
以叫Mini,中文的發音是「迷你」,中文含義是超小型。
既然有了商業Ocr軟體,為什麼還要開發這個軟體?
不同於商業Ocr軟體,本軟體是免費的,可以自由使用。第二個不同之處,本軟體的
識別對象是屏幕出現的「顯示漢字」,而不是針對掃描儀掃出來的「列印漢字」。二者有什
么不同呢?最重要的一點: 掃描出來的列印漢字的高度和寬度一般都在30多個像素點之
上,這是我用畫圖軟體,打開某個商業Ocr的samples\sample1.tif,然後一點一點數出
來的。從文件名和目錄名的中文含意可以看出,這個點數應該是一個典型值。那麼,如果
用商業Ocr識別屏幕上出現的小五號字,漢字的高度是12個像素點,會出現什麼情況呢?
測試方法:用記事本隨便寫幾行漢字,設置字體為小五號字。這大概是看著還算舒服
的最小號的漢字字體了(高度是12個像素點),如果再小,字體就很難看了。然後,按拷
屏鍵PrtSc,把屏幕的圖像拷貝、粘貼到畫圖軟體中,修剪尺寸後,保存為bmp的格式。
然後,我找了兩個國內最著名的Ocr軟體進行測試,結果讓人大吃一驚,識別率幾乎為零。
把圖像放大兩倍,再測試,結果仍然很不理想,大概也只有百分之二三十的樣子。
開發Mini Ocr軟體的由來
我在開發護花使者反黃圖像識別軟體的時候,遇到有些圖像里,嵌有某些文字,如果能
把文字識別出來,圖像的含義就很容易讓計算機理解了。預算有限,我連掃描儀都捨不得
買,就更別想買商業Ocr的開發包了,大概幾十萬,或者更多,或者別人壓根就不賣。況且
它們的識別率對小字體幾乎為零,不符合我的要求。看來,只好自力更生,重新寫一個了。
開發Mini Ocr的歷程
經過三個多月的努力,終於誕生了這款Mini Ocr 軟體。第1個月做出了漢字識別的
核心模塊,第2個月做出了文章段落切分的演算法,並加入了對英文,數字,標點的支持,
第三個月繼續調整英漢混排和漢字切分的演算法,並用MFC 做了一個界面。
Mini Ocr的軟體架構
為了讓更多的人能使用到這個軟體,我在windows系統下,採用VC進行編程,界面當
然只好用MFC寫了。軟體架構是一個SDI框架下的多窗口切分界面,左上角的窗口是一個
CFormView,用來顯示常用的按鈕;左下角是一個CEditView,用來顯示幫助信息;右上角
是一個CView,用來顯示要識別的圖像;右下角是一個CEditView,用來存放識別出來的文
字。識別部分採用了工作者線程,以避免顯示界面的主線程僵掉。識別部分是整個軟體的
核心,與操作系統無關,可以單獨摘出來放在dos窗口裡跑,也可以移植到Linux系統中跑。
漢字識別軟體的難點所在:
英文識別有一些開放源碼的軟體,我看過的軟體,主要採取兩種識別方法:基於規則
的方法,和採用神經網路方法。而這兩種方法,在識別漢字時,都不宜採用。因為漢字數
目眾多,最常用的國標2312的一級漢字就有3755個。如果借用基於規則的方法,需要對
三千多個漢字,逐一人工寫出分類規則,工作量太大,我一個人無法完成;如果採用神經
網路的方法,這么多漢字,我不敢想像,需要多少層網路和神經節點呀!如果採用網格法,
抗位移的效果太差;而採用不變矩法,識別人和入,土和士,相似度又難於控制。除此之
外,漢字切分也是一大難題。英文寬度大概只有漢字一半,標點符號大概只有漢字三分之
一寬,數字大概只有四分之一的寬度。而漢字本身又有二分字,和三分字。某些字,如「啊」,
字體小時可能是獨體字,字體大些,變為二分字,字體再大,又變為三分字。加上漢字與
漢字之間的粘連、漢字與英文的混排,英文與英文的粘連,造成漢字切分模塊的演算法,甚
至比漢字識別模塊的演算法還要復雜得多。為了克服這些難點,並加快識別速度,我在演算法
設計時,採用了一些優化和簡化的策略。經過實踐檢驗,證明行之有效。
Mini Ocr進行漢字識別的策略:
1) 採用復合特徵的分類方法。
2) 字元集選擇3755個一級漢字。
3) 字體選擇最常用的宋體。
4) 字型大小選擇從小五號到一號漢字,主要針對20個點之內的小字體。
5) 英漢混排時,漢語優先。
6) 漢字粘連時,進行動態優化切分。
展望與下一步的開發計劃:
1) 重新優化英文識別的演算法;
2) 對英文粘連的切分演算法進行調整;
3) 移植進入Linux;
選擇Ocr軟體的建議:
如果您選擇Ocr軟體,目的是用來識別掃描儀出來列印字體,推薦還是選用知名的商業Ocr。
如果您要識別屏幕上顯示的漢字,Mini Ocr是一個比較不錯的選擇。真誠地希望您在使用
中,能喜歡上它
Ⅱ java中有沒有圖像識別的開發包
目前沒有
Ⅲ 最好的圖片識字軟體是什麼
慧視OCR文字識別app、掃描全能王安卓版、Scanbot安卓版、textgrabber手機版、雲脈OCR雲識別都是不錯的圖片識字軟體
1、掃描全能王安卓版:掃描全能王安卓版是一款可以幫助用戶方便快速記錄文檔、數據以及筆記的手機軟體。可以拍攝文檔,並自動優化背景。很方便,省時省力更省心。掃文檔管理工具。能自動切除文檔背景,生成高清pdf、JPEG或TXT文本。還可以郵件發送、連接列印機、發傳真、發微信、存到雲端,多設備查看。
4、雲脈OCR雲識別是一款手機識別軟體,能夠更加准確的對身份證,名片,銀行卡等作出文字圖片識別,便捷了信息的錄入,操作簡單,安全識別。雲脈ocr雲識別軟體是雲脈科技公司提供的光學字元識別技術(ocr)演示軟體,支持身份證、名片、文檔等多種類型的識別對象。手機端提交要識別的內容,雲端伺服器執行識別任務,並迅速返回識別結果。用戶可以用這個手機應用軟體多方位地體驗雲脈光學識別技術,了解該技術在不同對象中的應用。
5、慧視OCR文字識別app是一款專注於OCR文字掃描服務的手機掃描軟體,獨有的OCR引擎技術,一鍵智能識別掃描。慧視OCR文字識別軟體是一款十分優秀的OCR文字掃描軟體,您只需要將您想要識別的文字拍一張照片,就可在一秒內識別。中安未來獨有的場景模式OCR引擎,清晰度不高的圖片上的文字也可以識別。中安慧視OCR文字識別有完整的SDK開發包,可以繼承在任意APP上,支持iOS、Android兩大平台。
Ⅳ importimage_ocr需要什麼包
importimage_ocr需要開發包:
ImageOCR是一款功能實用、簡單易用的圖片識別文字軟體,ImageOCR官方版免費圖片的OCR使您能夠准確地識別您可能從任何掃描的文檔的文本,以使其可編輯。此外,還可以提取的文本保存到一個單獨的文件或創建一個加密的PDF文檔。ImageOCR是完全免費和安全的,不會嘗試安裝任何惡意組件到您的計算機上。它保證不包含任何間諜軟體,病毒或任何其他類型的惡意軟體。
ImageOCR的圖像有能力添加到PDF文件的密碼,這樣你可以限制誰可以查看,編輯,復制,列印或添加評論到您的PDF文檔。你可以清除密碼解鎖PDF文件添加數據,列印或復制一些文件。
Ⅳ 什麼是OCR SDK
OCR是光學字元識別技術,OCR SDK識別文字識別的開發包,可以將ocr識別技術整合到自己的系統中,推薦用雲脈OCR SDK,支持IOS、安卓、WINDOWS及服務端平台的開發,識別速度快識別率高
Ⅵ 有沒有免費的ocr(光學字元識別)開發包
開發包比如GOOGLE公開的tesseract-2.03.tar
不過效果就太差了
軟體可以試試賽酷OCR,很好很強大
網路一下 賽酷OCR
Ⅶ 怎麼把圖片轉換成文字 ocr文字識別軟體來幫你
雲脈ocr文檔識別軟體基於成熟的OCR技術,可將圖片上的文字進行識別並提取成文本文之後可進行保存以及編輯,然後可以導出word格式以及PDF格式;另外,在雲脈OCR SDK開發者平台上有提供多種OCR SDK開發包,比如文檔識別、名片識別、車牌識別、身份證識別、駕照識別等,可自主下載...
Ⅷ 測試了好幾種ocr軟體,還是雲脈的識別率好,他們有OCR開發包可以提供嗎
雲脈提供各類OCR開發包定製,同時也可以在雲脈OCR SDK開發者平台下載API接入文檔。裡面有文檔識別,名片識別,身份證識別等開發文檔
Ⅸ ocr文字識別軟體開發包
OCR文字識別開發包是用於做二次開發來使用的,現在國內對於文字字元識別中中文、英文、韓文、日文以及少數民族OCR文字識別做的比較好的有北京文通等,另外還有一些開源的,一般識別不高,還不提供介面做二次開發,現在的SDK比較成熟,對於集成商二次開發問題都不大,還能提供各種語言的調用常式。
Ⅹ ocr文字識別軟體,文檔識別的那種,最好用的軟體開發包集成,求高手來!
這是ocr文字識別SDK。是一種功能技術集成開發包,也就是集成了文字識別這樣的功能就行了,圖上的那個是加入了「文檔ocr識別」的功能開發包!