更新時(shí)間:2021年06月25日17時(shí)40分 來(lái)源:傳智教育 瀏覽次數(shù):
Tesseract是一個(gè)開源的OCR庫(kù),是目前公認(rèn)的最優(yōu)秀、最精確的開源OCR系統(tǒng),具有精準(zhǔn)度高、靈活性高等特點(diǎn)。它不僅可以通過(guò)訓(xùn)練識(shí)別出任何字體(只要字體的風(fēng)格保持不變即可),而且可以識(shí)別出任何Unicode字符。
Tesseract支持60種以上的語(yǔ)言,它提供了一個(gè)引擎和命令行工具。要想在Windows系統(tǒng)下使用Tesseract,需要先安裝Tesseract-OCR引擎,可以從網(wǎng)址https://github.com/UB-Mannheim/tesseract/wiki 進(jìn)行下載,如下圖所示。
該網(wǎng)址提供的下載版本為V5.0.0,下載完成后,雙擊安裝文件,按照默認(rèn)設(shè)置進(jìn)行安裝。 默認(rèn)情況下,安裝文件會(huì)為其配置系統(tǒng)環(huán)境變量,以指向安裝目錄。這樣,就可以在任意目錄下使用tesseract命令運(yùn)行。如果沒(méi)有配置環(huán)境變量,可以手動(dòng)進(jìn)行設(shè)置,默認(rèn)安裝目錄為:
C:\Program Files\Tesseract-OCR
打開命令行窗口,輸人tesseract命令進(jìn)行驗(yàn)證。如果安裝成功,則會(huì)輸出如下圖所示的信息。
北京校區(qū)