幾款開(kāi)源的OCR識(shí)別項(xiàng)目，收藏備用

作者：自學(xué)編程之道 2023-03-16 17:19:50

一般開(kāi)源項(xiàng)目，識(shí)別率肯定沒(méi)有商用的那么高，只有通過(guò)訓(xùn)練自己的字庫(kù)來(lái)提高識(shí)別率。

隨著科技的發(fā)展，OCR場(chǎng)景隨處可見(jiàn)，很多APP也集成如身份證識(shí)別，銀行卡識(shí)別的功能，包括微信都支持截圖文件中的文字提取。現(xiàn)在，各大廠商均有提供各種場(chǎng)景的OCR識(shí)別的API。但是，有時(shí)候我們也想自己來(lái)折騰一下。這時(shí)候，就可以借助一些主流開(kāi)源框架來(lái)快速達(dá)到我們的目的。

OCR引擎

tesseract

Tesseract，一款由HP實(shí)驗(yàn)室開(kāi)發(fā)由Google維護(hù)的開(kāi)源OCR引擎，開(kāi)源，免費(fèi)，支持多語(yǔ)言，多平臺(tái);

??https://github.com/tesseract-ocr/tesseract.git??

tesseract.js

js版本的Tesseract OCR,支持一百多種語(yǔ)言,使用也是非常簡(jiǎn)單，可以用npm安裝，也可以直接在頁(yè)面引用js

??https://github.com/naptha/tesseract.js.git??

PaddleOCR

PaddleOCR是百度開(kāi)源一套OCR,旨在打造一套豐富、領(lǐng)先、且實(shí)用的OCR工具庫(kù)，助力開(kāi)發(fā)者訓(xùn)練出更好的模型，并應(yīng)用落地。

??https://github.com/PaddlePaddle/PaddleOCR.git??

EasyOCR

EasyOCR是用Python編寫基于Tesseract的OCR識(shí)別庫(kù)，用于圖像識(shí)別輸出文本，目前支持80多種語(yǔ)言。

??https://github.com/JaidedAI/EasyOCR.git??

mmocr

MMOCR 是基于 PyTorch 和 mmdetection 的開(kāi)源工具箱，專注于文本檢測(cè)，文本識(shí)別以及相應(yīng)的下游任務(wù)，如關(guān)鍵信息提取。

??https://github.com/open-mmlab/mmocr.git??

simple-ocr-opencv

基于opencv 和numpy開(kāi)源的OCR識(shí)別引擎

??https://github.com/goncalopp/simple-ocr-opencv.git??

OCR工具

OCRmyPDF

OCRmyPDF是基于tesseract-ocr開(kāi)發(fā)、訓(xùn)練的文字識(shí)別提取的開(kāi)源項(xiàng)目

??https://github.com/ocrmypdf/OCRmyPDF.git??

Umi-OCR

基于 PaddleOCR 實(shí)現(xiàn)的一款開(kāi)源的文字識(shí)別工具，

一般開(kāi)源項(xiàng)目，識(shí)別率肯定沒(méi)有商用的那么高，只有通過(guò)訓(xùn)練自己的字庫(kù)來(lái)提高識(shí)別率。文字識(shí)別場(chǎng)景，有時(shí)候就會(huì)涉及到圖片處理，這里又會(huì)關(guān)聯(lián)到其它強(qiáng)大的圖像處理開(kāi)源項(xiàng)目，如：OpenCV。這些項(xiàng)目中，PaddleOCR相對(duì)來(lái)說(shuō)會(huì)更符合我們常見(jiàn)的業(yè)務(wù)場(chǎng)景，也支持我們自己去訓(xùn)練。

責(zé)任編輯：武曉燕來(lái)源：今日頭條

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看