//
//
//
//
//
//
//
//
//
//
软件Tags:
Tesseract OCR图像辨认类库包含了一个OCR引擎 - libtesseract和一个命令行程序 - tesseract。Tesseract 4添加了新的根据LSTM的OCR引擎,该引擎专心于行辨认,但仍支撑Tesseract 3的传统Tesseract OCR引擎,该引擎经过辨认字符形式来作业。经过运用传统OCR引擎形式(--oem 0),能够与Tesseract 3兼容。它还需求训练有素的数据文件来支撑老式引擎,例如tessdata存储库中的文件。
Tesseract具有Unicode(UTF-8)支撑,而且能够“开箱即用”地辨认100多种语言。
Tesseract支撑多种输出格局:纯文本,hOCR(HTML),PDF,仅不行见文本的PDF,TSV。master分支还对ALTO(XML)输出供给了实验性支撑。
装置Tesseract:
您能够经过预建的二进制软件包装置正方体 或从源代码编译它。
支撑的编译器是:
GCC 4.8及以上
lang 3.4及以上
MSVC 2015、2017、2019年
其他编译器或许能够作业,但未得到官方支撑。
