Selenium+PhantomJS(系列七:OCR的优化技巧)
Selenium+PhantomJS(系列七:OCR的优化技巧)
Phantomjs可以选择元素区域截图,然后可以利用OCR做验证码识别,或做一些图形图像分析,等等。OCR引擎推荐tesseract。中文识别库下载:https://codeload.github.com/tesseract-ocr/tessdata/zip/master,另外tesseract支持字库训练,可以方便的训练出适合某种场景的识别库出来。这里简单说下OCR的优化。
优化技巧一:
1、网页按照比例放大后,再截图:
1 |
driver.execute_script("document.body.style.zoom='500%'") |
2、元素坐标同时需要按照比例放大:
1 |
img = img.crop((int(left)*5, int(top)*5, int(right)*5, int(bottom)*5)) |
优化技巧二:
利用Image库,对识别图片按行,按字体位移进行切割,识别率能达到%95左右!