reCAPTCHA 是利用 CAPTCHA 的原理,借助于人类大脑对难以识别的字符的辨别能力,进行对古旧书籍中难以被 OCR 识别的字符进行辨别的技术。也就是说, reCAPTCHA 不仅可以反 spam ,而且同时还可以帮助进行古籍的数字化工作。
工作原理:
扫描的文本将使用两个不同的 OCR 程序进行识别,当两个程序的识别结果不一致时,其中不一致的单词(称为 questionable word )同另一个已被正确识别的单词(称为 control word )一起显示为一个 CAPTCHA ,然后提供给各类网站进行人工识别。系统假设如果用户成功回答了 control word ,那么对于 questionable word 的识别也是正确的。对于一个单词, OCR 程序给出的结果评分为 0.5 分,人类给出的结果评分为 1 分。当同一个结果的评分达到 2.5 分时(也就是至少需要两个人类用户回答了此结果),此结果将被认为这个单词的识别结果。此结果将被重复利用为 control word。
这个项目发表在 Science 上(文章 PDF 地址),看来要发 Science 不需要多么深奥的专业嘛。
注: CAPTCHA 是「Completely Automated Public Test to tell Computers and Humans Apart」(全自动区分计算机和人类的测试)的缩写,是一种区分用户是计算机和人的公共全自动程序(图灵测试)。在一个 CAPTCHA 测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答 CAPTCHA 的问题,所以回答出问题的用户就可以被认为是人类。
Q. E. D.