tesseract

2023-09-20 18:07| 来源: 网络整理| 查看: 265

本人最近在做字符识别，所以自行在网上寻找方法，接触到tesseract，自己按照网上方法做的时候，也遇到一些问题，解决了一些。所以我决定写下我第一个博客，一是方便自己以后查看，更新学习。二是方便和网友交流学习。

Tesseract介绍

Tesseract是一个开源的OCR（Optical Character Recognition，光学字符识别）引擎，可以识别多种格式的图像文件并将其转换成文本，目前已支持60多种语言（包括中文）。 Tesseract最初由HP公司开发，后来由Google维护，目前发布在Googel Project上。

安装Tesseract，从http://code.google.com/p/tesseract-ocr/downloads/list下载Tesseract，3.01上的版本支持中文。安装后在电脑上会有一个Tesseract-OCR目录，通过目录录下的tesseract.exe程序就可以对图像的字符进行识别。考虑到万一有人上不了谷歌，这个Tesseract-OCR文件夹我也上传了，地址：点击打开链接。文件夹中除了Tesseract的相应文件外，还有一个tesseract-vs2013-include-lib-dll文件，这个是VS2013用来调用API的配置文件，后面的博客会写到。打开如图所示。

使用默认的语言库识别

准备一张待识别的图片，我选取一段《成都》的歌词。

【本文地址】

公司简介

联系我们