Selenium+PhantomJS(系列七:OCR的优化技巧)

Selenium+PhantomJS(系列七:OCR的优化技巧)

Selenium+PhantomJS(系列七:OCR的优化技巧)

Phantomjs可以选择元素区域截图,然后可以利用OCR做验证码识别,或做一些图形图像分析,等等。OCR引擎推荐tesseract。中文识别库下载:https://codeload.github.com/tesseract-ocr/tessdata/zip/master,另外tesseract支持字库训练,可以方便的训练出适合某种场景的识别库出来。这里简单说下OCR的优化。

优化技巧一:

1、网页按照比例放大后,再截图:

2、元素坐标同时需要按照比例放大:

优化技巧二:

利用Image库,对识别图片按行,按字体位移进行切割,识别率能达到%95左右!