reCAPTCHA - 反 SPAM 同时进行古籍数字化

从Solax那里看到一个伟大的项目——reCAPTCHA。

reCAPTCHA 是利用 CAPTCHA 的原理，借助于人类大脑对难以识别的字符的辨别能力，进行对古旧书籍中难以被 OCR 识别的字符进行辨别的技术。也就是说， reCAPTCHA 不仅可以反 spam ，而且同时还可以帮助进行古籍的数字化工作。

工作原理：

扫描的文本将使用两个不同的 OCR 程序进行识别，当两个程序的识别结果不一致时，其中不一致的单词（称为 questionable word ）同另一个已被正确识别的单词（称为 control word ）一起显示为一个 CAPTCHA ，然后提供给各类网站进行人工识别。系统假设如果用户成功回答了 control word ，那么对于 questionable word 的识别也是正确的。对于一个单词， OCR 程序给出的结果评分为 0.5 分，人类给出的结果评分为 1 分。当同一个结果的评分达到 2.5 分时（也就是至少需要两个人类用户回答了此结果），此结果将被认为这个单词的识别结果。此结果将被重复利用为 control word。

这个项目发表在 Science 上（文章 PDF 地址），看来要发 Science 不需要多么深奥的专业嘛。

注： CAPTCHA 是「Completely Automated Public Test to tell Computers and Humans Apart」（全自动区分计算机和人类的测试）的缩写，是一种区分用户是计算机和人的公共全自动程序（图灵测试）。在一个 CAPTCHA 测试中，作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答 CAPTCHA 的问题，所以回答出问题的用户就可以被认为是人类。

附：WordPress reCAPTCHA 插件

Q. E. D.