盘点一个Python网络爬虫过验证码的问题（方法一）

程序员客栈 2023-06-22 09:56:23

点击上方“Python爬虫与数据挖掘”，进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

今

日

(资料图片)

鸡

汤

低眉信手续续弹，说尽心中无限事。

大家好，我是皮皮。

一、前言

前几天在Python最强王者群【鶏啊鶏。】问了一个Python网络爬虫的问题，这里拿出来给大家分享下。

下面是他的代码：

from selenium import webdriverfrom selenium.webdriver.common.by import Byimport timefrom PIL import Imageimport ddddocrocr = ddddocr.DdddOcr()options = webdriver.ChromeOptions()options.add_argument("user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36")options.add_argument("--disable-blink-features=AutomationControlled")driver = webdriver.Chrome(options=options)# 打开目标网页driver.get("https://sol.sinosure.com.cn")time.sleep(5)driver.maximize_window()# 定位验证码图片元素并模拟鼠标悬停以加载图片yanzhengma = driver.find_element(By.CSS_SELECTOR, ".pass-form-item.pass-form-item-code")captcha_element = yanzhengma.find_element(By.CSS_SELECTOR,  ".pass-label-img")webdriver.ActionChains(driver).move_to_element(captcha_element).perform()time.sleep(5)# 获取验证码图片元素的位置和大小location = captcha_element.locationsize = captcha_element.sizeprint(location)print(size)# 截取整个网页的截图driver.save_screenshot("screenshot.png")# 根据验证码图片元素的位置和大小，从整个网页截图中裁剪出验证码图片left = int(location["x"])top = int(location["y"])right = int(location["x"] + size["width"])bottom = int(location["y"] + size["height"])captcha_screenshot = Image.open("screenshot.png").crop((left, top, right, bottom))print(left)print(top)print(location)print(bottom)# 保存裁剪后的验证码图片，并进行识别captcha_screenshot.save("captcha.png")with open("captcha.png", "rb") as f:    img_bytes = f.read()res = ocr.classification(img_bytes)print("识别的验证码是：" + res)

基本思路是没啥问题的，确实也是可以拿到对应界面的截图，只不过是验证码的位置截取出现了点偏差，导致验证码没正确识别到。

下面这个代码是获取验证码图片元素的位置和大小：

location = captcha_element.locationsize = captcha_element.size

这个部分我看介绍应该是会返回定位的元素位置，我刚刚大致拖拉了一下在裁剪前的定位打印出来确实就已经去了输入密码附近的位置了但是我定位的元素是验证码的地方，并且我也尝试了先定位验证那个位置的大元素再定位至具体的验证码图片位置问题依旧。

上面是粉丝的疑惑，下面一起来看看解决办法。

二、实现过程

这里【魏哥】尝试了下代码，但是出现下图报错：

这个报错还是蛮常见的，对于时常使用sel的人来说，这个报错算是家常便饭了，报错的原因是本地浏览器驱动和谷歌浏览器的版本不匹配，需要更换本地浏览器驱动。

关于这个问题的解决方法，就是去网页下载对应浏览器版本的对应驱动，放到本地指定文件夹，确保该文件夹路径有加入环境变量。该问题的解决办法公众号历史文章也有提及，网上的解决教程也一大堆，这里不再赘述。

言归正传，继续回到这个问题的解决办法。这里【甯同学】给了一个思路，直接找到验证码的图片的url 用requests 请求验证码的.content 用 ocr.classification(验证码的.content) 就可以了不用保存图片在open读取二进制流，代码如下所示：

顺利地解决了粉丝的问题，如果对requests和Beautiful还不熟悉的小伙伴，可能接受起来就比较困难一些。

这里只是给出了其中一个方法，另外的一个方法，一起看下一篇文章，敬请期待！

三、总结

大家好，我是皮皮。这篇文章主要盘点了一个Python网络爬虫过验证码的问题，文中针对该问题，给出了具体的解析和代码实现，帮助粉丝顺利解决了问题。

最后感谢粉丝【鶏啊鶏】提问，感谢【甯同学】、【魏哥】给出的思路和代码解析，感谢【Ineverleft】等人参与学习交流。

【提问补充】温馨提示，大家在群里提问的时候。可以注意下面几点：如果涉及到大文件数据，可以数据脱敏后，发点demo数据来（小文件的意思），然后贴点代码（可以复制的那种），记得发报错截图（截全）。代码不多的话，直接发代码文字即可，代码超过50行这样的话，发个.py文件就行。

大家在学习过程中如果有遇到问题，欢迎随时联系我解决（我的微信：pdcfighting1），应粉丝要求，我创建了一些高质量的Python付费学习交流群和付费接单群，欢迎大家加入我的Python学习交流群和接单群！

小伙伴们，快快用实践一下吧！如果在学习过程中，有遇到任何问题，欢迎加我好友，我拉你进Python学习交流群共同探讨学习。

------------------- End -------------------

往期精彩文章推荐：

if a and b and c and d：这种代码有优雅的写法吗？

Pycharm和Python到底啥关系？

都说chatGPT编程怎么怎么厉害，今天试了一下，有个静态网页，chatGPT居然没搞定？

站不住就准备加仓，这个pandas语句该咋写？

欢迎大家点赞，留言，转发，转载，感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群】

万水千山总是情，点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

盘点一个Python网络爬虫过验证码的问题（方法一）

2023-06-22 09:56:23

今日热议：2023年镍钴矿板块概念股有哪些？（6月22日）

2023-06-22 08:55:33

当前讯息：科思科技：连续3日融资净偿还累计421.43万元（06-21）

2023-06-22 08:06:35

天天观察：鱼台农商银行助力毛木耳长成大产业

2023-06-22 06:56:11

国家税务总局工作规则第五十条规定

2023-06-22 05:55:11

复式记账法对每一项经济业务都以相等的金额复式记账法对每项经济业务都以相等的金额登记在()

2023-06-22 02:18:18

当前观点：集美中学新校区迎新进展主体工程已进入收尾阶段

2023-06-21 23:46:50

快资讯丨FF 91第二阶段交付推迟：缺经验、少资金贾跃亭的造车梦还要花多少钱

2023-06-21 22:16:53

3开双控开关接线图解说明_3开双控开关接线图|当前通讯

2023-06-21 21:33:47

天天动态:2023年6月21日球状氯化钙价格最新行情预测

2023-06-21 20:55:14

上海网信办整治餐饮企业过度索取个人信息问题

2023-06-21 20:25:04

每日热闻!图们北到市区多远_图们火车站到图们北高铁站有多远怎么走

2023-06-21 19:57:34

kv85坦克_kv8_天天聚看点

2023-06-21 19:08:04

世界最新：当前最新：国债和国债逆回购有什么区别？哪个收益高？

2023-06-21 18:48:30

每日资讯：第三届四川艺术节6月28日开幕，40台好戏集中上演

2023-06-21 17:54:26

广东交通集团今年年度投资计划485亿元|微速讯

2023-06-21 17:44:04

宝尊电商618超级战报：全网过千万店铺105家

2023-06-21 17:08:08

世界快播：新能源汽车销量逆袭，这些龙头企业或成投资热点！

2023-06-21 16:42:51

中国女篮训练师晒李梦照片，笑容满面剪刀手比耶，看上去心情不错

2023-06-21 16:30:12

【全球速看料】《火力苏打》T3礼包码及灭罐口令一览

2023-06-21 16:10:26

2023年亚洲藤球锦标赛在金华开赛|即时

2023-06-21 15:43:43

张掖甘州：改善人居环境扮靓山村“颜值”

2023-06-21 15:24:07

提醒！端午节假期，南宁地铁运营时间有调整_天天热点评

2023-06-21 15:14:33

每日报道：国足两连胜！

2023-06-21 15:06:30

焦点热门:借力东部产业转移广西平南打造千亿元纺织服装产业集群

2023-06-21 14:56:37

全球焦点！“杭州房企一哥”又出手！月内新增土储涉及资金超百亿

2023-06-21 14:33:06

宜昌市社保最低档要交多少一月 2023宜昌市社保缴费标准

2023-06-21 14:28:13

河北省保定市2023-06-15 19:07发布高温红色预警

2023-06-21 14:32:01

谁是卧底词语搞笑幽默_谁是卧底词语搞笑环球热资讯

2023-06-21 14:20:15

劳动局电话_武汉劳动局

2023-06-21 13:53:38

盘点一个Python网络爬虫过验证码的问题（方法一）

今日热议：2023年镍钴矿板块概念股有哪些？（6月22日）

当前讯息：科思科技：连续3日融资净偿还累计421.43万元（06-21）

天天观察：鱼台农商银行助力毛木耳长成大产业

国家税务总局工作规则第五十条规定

复式记账法对每一项经济业务都以相等的金额 复式记账法对每项经济业务都以相等的金额登记在()

当前观点：集美中学新校区迎新进展 主体工程已进入收尾阶段

快资讯丨FF 91第二阶段交付推迟：缺经验、少资金 贾跃亭的造车梦还要花多少钱

3开双控开关接线图解说明_3开双控开关接线图|当前通讯

天天动态:2023年6月21日球状氯化钙价格最新行情预测

上海网信办整治餐饮企业过度索取个人信息问题

每日热闻!图们北到市区多远_图们火车站到图们北高铁站有多远 怎么走

kv85坦克_kv8_天天聚看点

世界最新：当前最新：国债和国债逆回购有什么区别？哪个收益高？

每日资讯：第三届四川艺术节6月28日开幕，40台好戏集中上演

广东交通集团今年年度投资计划485亿元|微速讯

宝尊电商618超级战报：全网过千万店铺105家

世界快播：新能源汽车销量逆袭，这些龙头企业或成投资热点！

中国女篮训练师晒李梦照片，笑容满面剪刀手比耶，看上去心情不错

【全球速看料】《火力苏打》T3礼包码及灭罐口令一览

2023年亚洲藤球锦标赛在金华开赛|即时

张掖甘州：改善人居环境 扮靓山村“颜值”

提醒！端午节假期，南宁地铁运营时间有调整_天天热点评

每日报道：国足两连胜！

焦点热门:借力东部产业转移 广西平南打造千亿元纺织服装产业集群

全球焦点！“杭州房企一哥”又出手！ 月内新增土储涉及资金超百亿

宜昌市社保最低档要交多少一月 2023宜昌市社保缴费标准

河北省保定市2023-06-15 19:07发布高温红色预警

谁是卧底词语搞笑幽默_谁是卧底词语搞笑 环球热资讯

劳动局电话_武汉劳动局

复式记账法对每一项经济业务都以相等的金额复式记账法对每项经济业务都以相等的金额登记在()

当前观点：集美中学新校区迎新进展主体工程已进入收尾阶段

快资讯丨FF 91第二阶段交付推迟：缺经验、少资金贾跃亭的造车梦还要花多少钱

每日热闻!图们北到市区多远_图们火车站到图们北高铁站有多远怎么走

张掖甘州：改善人居环境扮靓山村“颜值”

焦点热门:借力东部产业转移广西平南打造千亿元纺织服装产业集群

全球焦点！“杭州房企一哥”又出手！月内新增土储涉及资金超百亿

谁是卧底词语搞笑幽默_谁是卧底词语搞笑环球热资讯