抢票的时候,突然弹出来这么个玩意儿,你能选对吗?
换个拼图,你每次都能一口气对准吗?
就连有时候打个勾,你可能都得多试两次。
和验证码斗智斗勇这么多年,说实话,咱都有点麻了。
但要是我告诉你,现在上面这些验证码已经拦不住 AI 了,卡关的只有我们这些 100% 纯人类呢?
就在前不久,江江发现,不管是点击式,九宫格选图,甚至隐式验证,AI agent 居然都能过了。。。
点击式验证码是最容易破防的。早在 OpenAI 的 Operator 七月刚出世的时候,就有人把它拉来对着 Cloudflare 测了一波。
让机器人自己点击 “ 我不是机器人 ”,评论区不少人都表示这实在有点幽默了。
还有下面这种九宫格点选,老兄自己手搓 agent,后台直连 GPT,立刻实现像素级的识别。
管你是小饼干还是小蛋糕,楼梯还是红绿灯,它看得比人都清楚。
除了显式点击,隐式验证也不在话下。
人只要在命令行输入 prompt,agent 自己就能点击每一栏、输入具体信息、完成表格提交任务。
甚至 reCAPTCHA 最后还给了它 80% 像人的高分。
我们也亲自上手试了试,用不同的 agent,测了点击式和滑动拼图两种验证码。
事先声明,下面所有操作从打开网页,到完成验证,全都是 AI 干的,咱可一点没上手。
结果你还真别说,点击式的验证码根本拦不住它一点
还有这种滑动拼图,AI 对得比我更快更准,对面完全没反应过来。
好嘛,以前网上总用人机骂人,现在看来,人机应该是对一个人类的最高赞赏。
一通操作下来,江江本来觉得这东西都快被 AI 通关了。连机都拦不住,它到底还有啥存在价值?
带着各种疑问,我们联系上了国内头部验证码企业,极验的 CTO 谢强老师,从验证码的原理、目的、到未来方向来了一个全方位答疑解惑,发现验证码远远不是表面看起来一道题这么简单。
聊完以后我发现,么的,还是人类更坏啊。
首先,这一次能不能答对题,看出来对面是人是鬼,其实并不是最重要的。长远来看,成本,才是一切的核心。
就比如初期 AI 模型还没出现的时候,黑客那边破解验证码,靠的是穷举法。黑客会通过特定算法去攻击网站界面,这个网站的所有验证码图像都弄到手。
在得到这些图像后,黑客就把这些任务外包出去,找人识别和标注。。就是我们常说的打码工。
古早打码工界面
折下来,黑客 10 天就能搞掉一个 30 万张的图库,一分钱一张,成本能控制在四五百。
当然,验证系统的防守也很简单,那就是用成本压垮黑客。
目前国内的验证系统,图库基本一周一更新,最快的能到 1 小时更新一次。这个更新频率,换天王老子来也吃不消。
这道理,在 AI 时代其实也一个样,谢强老师告诉我们,目前生成验证码的成本,远低于识别的成本。
自行车、红绿灯这些现实派的图片验证码,很多大模型基本都能攻克。
但非现实的内容,大模型基本抓瞎。比如谢强老师向我们展示了他们试验的逆天验证码:把人类的情绪藏到图片里,用 AI 随机生成,成本 1 毛左右,雇人工识别的话,估计成本则在每张 3 毛钱左右。
硬要用 AI 识别,成本则可能更高,这样的图即使收集 10000 张,新 AI 模型也未必学得明白。
可能只得从头开始训练个大模型,但这金钱和时间成本,不是一般黑客能负担得起的。
而做题只是第一层,系统的第二层,是在后台还在长期观察你的 IP。一旦发现 IP 不干净,立刻升级验证,让过关难度超级加倍。
像是下面这个例子,如果你想看个剧,点了 20 遍赛博保安还不放你走,那肯定不是因为题答错了。
来源:小红书@momo
要么是出了 bug,要么是你被打上了 “ 高风险用户 ” 的标签。
一旦被盯上,轻则每次访问先来个 10 道题,限个流,重则直接 ban IP。虽然被误伤的良民很冤枉,但攻击者更没得选,要么乖乖做题,要么频繁换 IP、养 IP,这代价是真高。
至于被系统盯上的原因,也有很多种。
举个例子,如果用户打开验证码用的是一个马甲( 比如 Chrome 浏览器 ),解决验证码用的是另一个马甲( 比如AI,小程序,APP 挂 ),系统通过 HTTP 交流记录一看,这对不上啊,就会触发被动,重拳出击了。
来源:杜克大学课程海报
所以说,就算黑客们把验证码攻克了一遍又一遍,其实也没啥问题,能让攻击者觉得这门生意不划算,成本划不来,那么验证码的存在,就是有意义的。
不过,现在这些应对手段,有时候伤敌一千,也会自损八百。
做题方面,像是谢强老师搞的这个码,直接硬控了我一分钟。
点击和右上角相同图案的选项
等到了用户那里,每个人有没有时间和耐心去理解做题?反正是我,我大概率原地退出。
但要是老盯着 IP,普普通通的良民,很容易被误伤。
比如你用的是公共 WiFi,但大伙儿最近都做了同一家公司提供的验证码。系统那边看到的就是,这个 IP 频繁发了一堆请求,到处乱逛,有点怪哦。
或者手机信号不稳定,明明是同一个设备,IP 却和你的 3/4/5G 一起反复横跳,这种也很危险。
所以,谢强老师认为,未来的验证码发展方向和业务数据是分不开的。
通过数据,区分良民和狼人,验证码就不用折磨每一个人了。
毕竟,黑客破解验证码要么是为了恶意爬虫获取信息,要么就是抢票、刷票。在这样的场景下它们都有一些共性,要数次访问网站或软件页面。
像是逛淘宝,我们自己随便瞎点,和爬虫应爬尽爬,带给服务器的压力肯定是不一样的。
如果每个系统可以独立通过后台数据,观测,计算每个用户给自己带来的负担,精准区分出异常用户,就可以决定要对哪个用户进行限制或者收费访问,增加他的成本,从而限制攻击,又不影响正常用户。
总的来说,这场人机攻防战并没有因为 AI 的出现而结束,只是战场从我们熟悉的几种验证码,慢慢转移到了更复杂的行为分析和成本博弈上。
验证码只是一个工具,这个起源于 1997 年的老东西,未来随时也可能因为 AI 的冲击,而被替换成其它更有效,无痛的拦截模式。
但验证码或许会消失,人与机器的边界识别将永远存在。希望能早点迎接那个不用再亲手证明,我是人的时代吧。