你知道吗？每次输入验证码都是在给Google义务劳动

卢松松 • 2025年1月14日 03:55:19 • IT业界 • 阅读 3

每次输入验证码，你都在义务劳动。

最近发现，上网遇见的验证码“越来越有内容”了。

为了证明自己是个真人，除了要输入方框里的文字，还得做从下面图中挑出路牌、挑出门牌这种连连看似的高级任务。

在连续干了好几茬之后，硅星人突然醒悟：我这哪里是在填验证码，根本就是在帮别人标注数据，训练 AI 啊!

不管是给图片分类：

给路牌勾边：

还是把路牌圈出来：

感觉都是在教无人驾驶的 AI 认路啊……

其实，“输验证码就是在为 AI 打工”并不是硅星人想得太多。事实上，我们在输验证码时义务劳动的历史，从古早的文字验证码时期就开始了。

每次输入验证码，你都在义务劳动

今天，应用最广的验证码系统就是 reCAPTCHA (Completely Automated Public Turing Test To Tell Computers and Humans Apart，区分人机的全自动图灵测试系统)了。

这家如今已被 Google 收购的公司，承担了世界上大部分网络的人机验证工作(上文给出的三个例子均来自 reCAPTCHA)。

2007 年，reCAPTCHA 的创始人之一，卡内基梅隆大学教授路易斯·冯·安(Luis von Ahn)想到：“如果人类与机器各有擅长，能不能利用验证码系统，让人类和机器共同解决问题呢?”

当时，一个亟待解决的问题就是，如何把浩如烟海的人类纸质典籍数字化。

想要数字化文本，一种方法是手工录入。这种方法费时费力，还容易出现录入错误。另一种方法是先扫描文本，再结合光学文字识别技术录入文字。听起来很美，但有些年代久远或本身质量就差的文本扫描出来后实在是太糊了……

以至于电脑识别出来的文本漏洞百出，根本没法看。

为了解决文本数字化的问题，2007 年，路易斯推出了新的验证码系统 reCAPTCHA。

在 reCAPTCHA 验证码系统里，一个验证码会由两部分构成。

第一部分和之前一样，是自动生成并且经过变形处理的文字，用来检验你是不是真人。而第二部分，则是从无法识别的文本中截取出来的词。

如果用户正确输入前半部分，那么 reCAPTCHA 就会假设用户输入的后半部分也是正确的，然后把录入结果返回至 reCAPTCHA 的项目主机。

结果返回主机后，主机还会把这个结果再派发给多个用户进行交叉验证，以确保没有不小心或故意输错单词的情况。

也就是说，真正有效的人机测试在验证码的前半段已经完成，而后半段，就是用户在义务为人类文明做贡献了。

那么，reCAPTCHA 到底做了多大贡献呢?

2007 年推出之初，reCAPTCHA 每天都能帮助录入 3000 万个字符。2008年，这个数字飙升到了 6000 万个。粗略统计，在今天，全世界每天都有 2 亿个字符通过 reCAPTCHA 录入，相当于人类 15 万小时的工作量。

也就是说，一个人要不吃不喝不睡连轴转两年半，才能完成 reCAPTCHA 一天的工作量。

到今天为止， reCAPTCHA 已经录入了从 1851 年至今的所有《纽约时报》，共计 1300 万篇文章。除《纽约时报》外，reCAPTCHA 还数字化了超过 2500 万本书，而全球的图书数量约为 1.3 亿本。

路易斯在接受媒体 The Hustle 采访时这样评价 reCAPTCHA ：“我创造了一个系统，以十秒为单位，数百万小时为增量，来利用世界上最宝贵的资源：人的大脑。”

验证码是在剥削我们么?

如果 reCAPTCHA 的故事到这里就结束了，每个人都会很开心。但事情没那么简单。

2009 年，Google 以大约 2780 万美元的价格收购了 reCAPTCHA，并开始利用 reCAPTCHA 帮助标注数据。

正如前文所说，reCAPTCHA 的前半段是在验证你是不是真人，后半段就是真人为验证码打工阶段了。

2012 年，Google 开始把 Google 街景中难以识别的门牌和路牌加入验证码，请用户帮忙标注。

除了标注门牌路牌，让用户帮忙给数据库分类也是常见的形式之一。比如下图这种请用户“挑出所有有猫的图片”的验证码。

如今，Google AI 已经能精确辨认路牌上的文字和数字，准确度和人眼不相上下。

当有一天我们终于用上 Google 的自动驾驶技术，依靠 AI 来辨识路牌和路灯时，这背后不能不说没有上千万用户无偿标注的苦劳。

对于这一目的，Google 也并不避讳。在 reCAPTCHA 官网上，Google 公开说明了 reCAPTCHA 集众人之力标注数据、训练 AI 的“众包”模式。

但是仍有用户对这一点感到不满。

一位觉得验证码不道德的 Reddit 用户写到：“这就好像让几百万个人每人为你干 5 秒钟活儿，然后一分钱都不给一样，这合适么!”

验证码的前世今生

验证码提出之初，是为了解决一个特别实在的问题。

网络世界这么大，你怎么知道网线另一端是不是一条狗(或者机器人)?

在公开版面上，刷评机器人可以用大量垃圾评论和广告淹没真人用户留下的有价值的信息;在金融交易平台，脚本程序可以靠不停试验来暴力破解密码;在票务网站，我敢说你就算有十只手也抢不过自动刷票的黄牛……

如何确定网络请求是真人发送的，成了维护网络环境和保护用户安全的大问题。

2002 年，正是路易斯·冯·安提出了一种切实可行的解决方案，能分清网线对面“是人是狗”。

虽然计算机的算数和分析能力比人类强得多，但是当时的计算机连“一只小猫在奔跑”这种难不倒三岁小孩儿的图都认不出来。基于这种思想，路易斯和其他同事合作开发了 reCAPTCHA 的祖宗 CAPTCHA，也就是我们俗称的验证码。

初代验证码一般是一些经过扭曲变形的文字或数字。人类可以识别这些文字(尽管偶尔也会出现连人类也认不出的情况)，但机器难以理解字符的含义。

之后，验证码也经历了算数题、选择题，甚至植入广告等类型的迭代，但都掩盖不住一个最致命的问题：虽然 CAPTCHA 已经是相对比较好的解决方案，但也并非铁板一块。

通过撞库、人工智能识别图像、甚至是把验证码图片返回给人工再批量输入等方法，黑客们总能为垃圾脚本找到可乘之机。

更别提有些验证码，连真人都搞不定!

附加题：请点击图中所有的范伟

正因为验证码浪费时间，辨识难度大，而且对于执行某些特定行为(比如爬数据或做学术研究)的人类用户而言极不友好，验证码长期在“互联网时代最烦人发明”榜上名列前茅。

于是， reCAPTCHA 推出了更科学的验证系统。这种验证系统会检测用户的客户端环境，追踪用户的鼠标和键盘操作轨迹，提高了机器人的模拟成本。用户再也不需要苦哈哈地识别歪歪扭扭的文字，只需要在对话框里点击“我不是机器人”，就能通过验证。

既然已经有了更简单、更安全的替代方式，那么伴随我们成长的验证码，是不是也该被淘汰了呢?这种能解决大问题的“众包模式”，又是否合理呢?

来源：硅星人

发布者：卢松松，转转请注明出处：https://www.chuangxiangniao.com/p/1102482.html

是在验证码

0 0

关于作者

卢松松签约作者

14.8K 文章

0 评论

0 粉丝

❤ 你关注的人，决定你看到的世界！❤ 关注草根创业、科技互联网、AI 人工智能、商业领域！

马云评自己英语水平在中国企业家算是最好的了~

上一篇 2025年1月14日 03:55:08

支付宝紧急通知：出现新型电信诈骗，支付宝以补偿受骗者

下一篇 2025年1月14日 03:55:33

#反诈版画画的baby#【北北，转账前先听听这个】

#反诈版画画的baby#【北北，转账前先听听这个】“转账的北北，转账的北北，看好你的验证码，把卡号都对对。我说千万不要转给骗子伤痕累累，收起你的眼泪加入反诈的小队…”#警察小哥反诈有嘻哈#，能不能成功守护你的卡号和验证码呢？#守护校园安全#…

卢松松
IT业界 2025年1月14日
2000
站长动态

昨晚北京很多人是在超市中度过的，我也是……

起因是这样的：北京通报了新增21例本土感染者，被感染者的流动性很大，有快递小哥，京郊旅游团，学生，装修夫妻，而且4条线的源头没找到，已经扩展一周。作为在北京的我，这些并没有让我害怕，但接下来的事，却让我慌了：昨晚下班回到家吃饭，本说吃…

卢松松
2025年1月14日
3000
好文分享

我是在明白了什么道理后开始赚钱的？

我的个人IP赚钱复盘，希望可以帮你走上赚钱的道路： – 相信 – “自媒体的红利已经消失了，你玩的这些都是别人玩剩下的。” “就算现在你不管跑到哪个领域，都有大V在前面挡着，每个赛道里几百上千万粉丝的大V都有好几个，…

卢松松
2025年1月14日
3000
IT业界

35年老程序员个人谈：C语言时代行将落幕

这几天来，我(Eric Raymond)在思考那些正在挑战C语言的系统编程语言领袖地位的新潮语言，尤其是Go和Rust。思考的过程中，我意识到了一个让我震惊的事实——我有着35年的C语言经验。每周我都要写很多C代码，但是我已经记不清楚上一次…

卢松松
2025年1月14日
3000
站长动态

支付宝资金一夜被“洗劫全无”，疑似手机验证码泄露

近日，豆瓣网友的一篇帖子《这下一无所有了》爆料自己支付宝等账号被盗，损失严重的经历，引起社会各界网友的注意(甚至网络安全专家出面解读)，看似安全的手机验证码，被纰漏存在着巨大的安全隐患！网友表示：半夜手机连续接到了100多条支付宝、京东、…

卢松松
2025年1月13日
2000
关于验证码的那些事儿

一直在关注卢松松博客，内容广泛，我受益匪浅。但是却少有关于“验证码”的文章。作为一个曾经忽视”验证码”，现在却不得不重视的人，我觉得有必要为大家科普下关于验证码的那些事儿。一、为什么说“验证码”很重要? 在互联网高速发展的今天，一大批黑色…

卢松松
2025年1月13日 • IT业界
2000
好文分享

创业的学费 99%不是在哈佛里交的

我以前觉得，任何知识都可以从书本里获得，无论在斯坦佛，还是哈佛，这些世界顶尖的大学教给了我如何创新，如何创业和如何有一个正确的管理思维。然而，从真正开始创业，到公司一路发展的时候，我发现创业最难的两件事是对信念的不懈坚持和对错误的学习…

卢松松
2025年1月13日
2000
你知道“验证码”是怎么来的吗？

每天都有那么多人没日没夜的在上网、玩游戏，能不能把这些能量收集起来为人所用? 可以，而且已经被利用了。不过不是机械能。这个问题让我想起聪明的 Luis von Ahn 和他的reCAPTCHA。我觉得这个题主的想法很好啊，就像@浦海回答的…

卢松松
IT业界 2025年1月13日
1000
站长动态

百度联盟将发力「验证码广告」

据卢松松得到消息，百度马上要发力「验证码广告」这个市场了。这对下载站、论坛、文档等类型网站有巨大好处，可以成为站长增加收入另一渠道。百度联盟曾在去年7月就已经推出这种广告模式了，但不知什么原因后面就没动静了。「验证码广告」是指用户在注册、…

卢松松
2025年1月13日
3000
好文分享

《龙门镖局》其实是在讲述一个创业的故事

这些天《龙门镖局》火了! 《龙门镖局》由宁财神编剧，是《武林外传》的姐妹篇。我之前一直是《武林外传》的粉丝，所以也追起《龙门镖局》来。总的来看，《龙门镖局》的喜剧效果还不错，在喜的效果中还夹带了一些作者想要向社会表达的诉求。从我的角度来看…

卢松松
2025年1月13日
2000