reCAPTCHA - 反 SPAM 同时进行古籍数字化

作者: , 共 842 字

Solax 那里看到一个伟大的项目 —— reCAPTCHA

reCAPTCHA 是利用 CAPTCHA 的原理,借助于人类大脑对难以识别的字符的辨别能力,进行对古旧书籍中难以被 OCR 识别的字符进行辨别的技术。也就是说, reCAPTCHA 不仅可以反 spam ,而且同时还可以帮助进行古籍的数字化工作。

工作原理:

扫描的文本将使用两个不同的 OCR 程序进行识别,当两个程序的识别结果不一致时,其中不一致的单词(称为 questionable word )同另一个已被正确识别的单词(称为 control word )一起显示为一个 CAPTCHA ,然后提供给各类网站进行人工识别。系统假设如果用户成功回答了 control word ,那么对于 questionable word 的识别也是正确的。对于一个单词, OCR 程序给出的结果评分为 0.5 分,人类给出的结果评分为 1 分。当同一个结果的评分达到 2.5 分时(也就是至少需要两个人类用户回答了此结果),此结果将被认为这个单词的识别结果。此结果将被重复利用为 control word。

这个项目发表在 Science 上( 文章 PDF 地址 ),看来要发 Science 不需要多么深奥的专业嘛。

注: CAPTCHA 是「 C ompletely A utomated P ublic T est to tell C omputers and H umans A part」( 全自动区分计算机和人类的测试 )的缩写,是一种区分用户是计算机和人的公共全自动程序(图灵测试)。在一个 CAPTCHA 测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答 CAPTCHA 的问题,所以回答出问题的用户就可以被认为是人类。

附: WordPress reCAPTCHA 插件

Q. E. D.

类似文章:
IT » MathJax, latex, wordpress
此插件已经不再维护,但理论上可继续使用。
相似度: 0.030
今天上课的时候老师讲的,我觉得很有意思。
IT » 排版, Markdown
很久以前,我就意识到中英文混排时,英文和中文之间加一个空格之后,排版会好看很多。为此,我还专门去找了 处理 Markdown 文件的插件
最近关于 Google 的事情大家应该都知道了吧,让我们重温一下 CLIVE THOMPSON 在 Google 刚进入中国时对「信息审查」 的深度报道。此文于 2006 年 4 月份发表于纽约时报。
IT » Markdown, Pelican, Mkdocs
最近写文档和写博客都开始用 markdown ,其中博客用得是 Pelican ,文档用 Mkdocs 。它们俩都用 python-markdown 模块 来处理 markdown 文件。而这个模块支持扩展,可以大大提升 markdown 的表现力:
编程 » Excel, VBA
最近学到一招,效果不错~