reCAPTCHA 释疑

这两天登陆一个网站,总是要输入验证码,那种两个单词,一个清楚,一个模糊还加条横线,特难认,每次总错要输一两回。很烦人,虽然知道这样做是为了防止机器输入的,但真有必要搞这么难浪费时间吗? 这次顺手查了下为啥做reCAPTCHA。

原来reCAPTCHA之前还有CAPTCHA。就是很多网站还在使用的普通验证码,字母或数字都很清晰的那种。

这个项目最初叫做CAPTCHA,源于10多年前,根据Wiki的说法,似乎同时有两个团队都宣称发明了验证码。其中一个,就是卡内基梅隆大学Luis von Ahn 所在的团队进一步发明了reCHPTCHA产生了一个创业公司,在2009年被Google收购。

reCHPTCHA最早是卡内基梅隆大学的一个项目,输入验证码时,难辨识的那部分,实际是OCR扫描古老文献时电脑无法辨认的部分,通过由人工辨识,同时打到两个目的:

  1. 有效的确保了是人而非机器在登陆。CAPTCHA 就是图灵测试区分人还是机器的意思。

全自动区分计算机和人类的图灵测试(英语:Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA),俗称验证码,是一种区分用户是计算机和人的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。

  1. 通过免费众包的方式,高效低成本实现了把海量文献数字化的工作。

根据其作者之一的 Luis von Ahn 2011年在TED 上的演讲,有35万网站使用reCAPTCHA作为验证码登陆使用,每天有两亿次的使用量,可以辨识250万单词,每年有250万图书就是这样数字化的。

reCAPTCHA计划是由卡内基梅隆大学所发展的系统,主要目的是利用CAPTCHA技术来帮助典籍数字化的进行,这个计划将由书本扫描下来无法准确的被光学文字辨识技术(OCR, Optical Character Recognition)识别的文字显示在CAPTCHA问题中,让人类在回答CAPTCHA问题时用人脑加以识别[1]。reCAPTCHA正数字化《纽约时报》(New York Times)的扫描存盘[2],目前已经完成20年份的数据,并希望在2010年完成110年份的数据。2009年9月17日,Google宣布收购reCAPTCHA。[3]

通过浪费所有人一点时间去做一点贡献,真是个奇妙的主义。

了解了reCAPTCHA背后的意义,每次输错所浪费的几秒钟似乎有了意义。不再抱怨,人可能真是唯一需要意义来支撑行动的动物。

Luis von Ahn 介绍的另一个类似想法的项目是 Duolingo。

wiki链接 CAPTCHA
wiki链接 reCAPTCHA
Luis von Ahn 在TED 上的演讲

你可能感兴趣的:(reCAPTCHA 释疑)