reCAPTCHA 释疑

这两天登陆一个网站，总是要输入验证码，那种两个单词，一个清楚，一个模糊还加条横线，特难认，每次总错要输一两回。很烦人，虽然知道这样做是为了防止机器输入的，但真有必要搞这么难浪费时间吗？这次顺手查了下为啥做reCAPTCHA。

原来reCAPTCHA之前还有CAPTCHA。就是很多网站还在使用的普通验证码，字母或数字都很清晰的那种。

这个项目最初叫做CAPTCHA，源于10多年前，根据Wiki的说法，似乎同时有两个团队都宣称发明了验证码。其中一个，就是卡内基梅隆大学Luis von Ahn 所在的团队进一步发明了reCHPTCHA产生了一个创业公司，在2009年被Google收购。

reCHPTCHA最早是卡内基梅隆大学的一个项目，输入验证码时，难辨识的那部分，实际是OCR扫描古老文献时电脑无法辨认的部分，通过由人工辨识，同时打到两个目的：

有效的确保了是人而非机器在登陆。CAPTCHA 就是图灵测试区分人还是机器的意思。

全自动区分计算机和人类的图灵测试（英语：Completely Automated Public Turing test to tell Computers and Humans Apart，简称CAPTCHA），俗称验证码，是一种区分用户是计算机和人的公共全自动程序。在CAPTCHA测试中，作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题，所以回答出问题的用户就可以被认为是人类。

通过免费众包的方式，高效低成本实现了把海量文献数字化的工作。

根据其作者之一的 Luis von Ahn 2011年在TED 上的演讲，有35万网站使用reCAPTCHA作为验证码登陆使用，每天有两亿次的使用量，可以辨识250万单词，每年有250万图书就是这样数字化的。

reCAPTCHA计划是由卡内基梅隆大学所发展的系统，主要目的是利用CAPTCHA技术来帮助典籍数字化的进行，这个计划将由书本扫描下来无法准确的被光学文字辨识技术（OCR, Optical Character Recognition）识别的文字显示在CAPTCHA问题中，让人类在回答CAPTCHA问题时用人脑加以识别[1]。reCAPTCHA正数字化《纽约时报》（New York Times）的扫描存盘[2]，目前已经完成20年份的数据，并希望在2010年完成110年份的数据。2009年9月17日，Google宣布收购reCAPTCHA。[3]

通过浪费所有人一点时间去做一点贡献，真是个奇妙的主义。

了解了reCAPTCHA背后的意义，每次输错所浪费的几秒钟似乎有了意义。不再抱怨，人可能真是唯一需要意义来支撑行动的动物。

Luis von Ahn 介绍的另一个类似想法的项目是 Duolingo。

wiki链接 CAPTCHA
wiki链接 reCAPTCHA
Luis von Ahn 在TED 上的演讲

reCAPTCHA 释疑

你可能感兴趣的:(reCAPTCHA 释疑)