python爬虫时图形验证码识别( tesserocr)

window环境下：第一步：安装tesseract：教程如下：https://www.cnblogs.com/jianqingwang/p/6978724.html第二步：安装tesserocr ：到这里下载whl版本https://github.com/simonflueckiger/tesserocr-windows_build/releases...

西门大盗

2702人浏览 · 2018-09-30 15:40:05

西门大盗 · 2018-09-30 15:40:05 发布

window环境下：

第一步：安装tesseract：教程如下：Windows环境安装tesseract-ocr 4.00并配置环境变量 - 简庆旺 - 博客园

第二步：安装 tesserocr ：到这里下载whl版本 https://github.com/simonflueckiger/tesserocr-windows_build/releases

然后在cmd下 pip install D:\Chromedowload\tesserocr-2.2.2-cp36-cp36m-win_amd64.whl

第三步：

import tesserocr

from PIL import Image

ima = Image.open('20180605095750237.png')
res = tesserocr.image_to_text(ima).strip()
print(res)

这样就可以获取到验证码中的文字了，然后把文字输入即可。

注意：正常情况下，这样的识别率是非常低的。需要对图片进行处理后，再识别。

完整的流程：

import tesserocr
from PIL import Image

image = Image.open('code2.jpg')

image = image.convert('L')  # 转为灰度图像
threshold = 127  # #指定二值化的阈值
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)

image = image.point(table, '1')  # 进行二值化
image.show()

result = tesserocr.image_to_text(image)
print(result)

假设你的代码遇到报错：

“RuntimeError: Failed to init API, possibly an invalid tessdata path: ”

异常原因： 因为 python 找不到 tessdata 文件夹导致的。

解决办法：找到自己安装 Te sseract-OCR的目录，将其中的 tessdata 复制一份到你的 python 目录文件夹中，放入与Lib同级目录中。

加入社区！打开量化的大门，首批课程上线啦！

更多推荐

用 AIQT 实现 MACD 背离策略

量化交易与投资社区

AI 量化实战：布林带均值回归策略，回测收益 17.26%

量化交易与投资社区

用 AIQT 实现海龟策略

摘要：海龟策略是一种基于唐奇安通道的趋势跟踪交易方法，通过20日最高/最低价确定买卖点。AIQT量化工作台可实现该策略：1)设置20日最高价(up)和最低价(down)指标；2)生成买卖信号(突破上轨买入1，跌破下轨卖出-1)；3)回测显示2021年天齐锂业跑赢沪深300指数。优化方向包括调整周期参数、增加波动率过滤、分步建仓等。该平台支持零编码实现策略，配合AI可快速生成优化方案，但需注意震荡市