reCAPTCHA - 反SPAM同时进行古籍数字化
reCAPTCHA是利用CAPTCHA的原理,借助于人类大脑对难以识别的字符的辨别能力,进行对古旧书籍中难以被OCR识别的字符进行辨别的技术。也就是说,reCAPTCHA不仅可以反spam,而且同时还可以帮助进行古籍的数字化工作。
工作原理:
扫描的文本将使用两个不同的OCR程序进行识别,当两个程序的识别结果不一致时,其中不一致的单词(称为questionable word)同另一个已被正确识别的单词(称为control word)一起显示为一个CAPTCHA,然后提供给各类网站进行人工识别。系统假设如果用户成功回答了control word,那么对于questionable word的识别也是正确的。对于一个单词,OCR程序给出的结果评分为0.5分,人类给出的结果评分为1分。当同一个结果的评分达到2.5分时(也就是至少需要两个人类用户回答了此结果),此结果将被认为这个单词的识别结果。此结果将被重复利用为control word。
这个项目发表在Science上(文章PDF地址),看来要发Science不需要多么深奥的专业嘛。
注:CAPTCHA 是“Completely Automated Public Test to tell Computers and Humans Apart”(全自动区分计算机和人类的测试)的缩写,是一种区分用户是计算机和人的公共全自动程序(图灵测试)。在一个CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。
妙阿,简单的好想法,佩服!
对普通验证码回答是正确的
但不能保证对甲骨文的识别也是正确的啊
普通验证码也是甲骨文,它们的难度是一样的,只不过Control Word是那些已经被人工验证了的甲骨文,Questionable Word是待识别的甲骨文,当Questionable Word被验证后,就可以用作普通验证码了~
哦,参考多人结果。
Luis van Ahn的主页上可以找到介绍这个项目的视频
我记得google买下这个公司了,就因为这项技术牛逼,可以用在google数字化图书馆里
没错, reCAPTCHA 已经是 Google 的了
却是牛逼