reCAPTCHA - 反SPAM同时进行古籍数字化

Solax那里看到一个伟大的项目——reCAPTCHA

reCAPTCHA是利用CAPTCHA的原理,借助于人类大脑对难以识别的字符的辨别能力,进行对古旧书籍中难以被OCR识别的字符进行辨别的技术。也就是说,reCAPTCHA不仅可以反spam,而且同时还可以帮助进行古籍的数字化工作。

工作原理:

扫描的文本将使用两个不同的OCR程序进行识别,当两个程序的识别结果不一致时,其中不一致的单词(称为questionable word)同另一个已被正确识别的单词(称为control word)一起显示为一个CAPTCHA,然后提供给各类网站进行人工识别。系统假设如果用户成功回答了control word,那么对于questionable word的识别也是正确的。对于一个单词,OCR程序给出的结果评分为0.5分,人类给出的结果评分为1分。当同一个结果的评分达到2.5分时(也就是至少需要两个人类用户回答了此结果),此结果将被认为这个单词的识别结果。此结果将被重复利用为control word。

这个项目发表在Science上(文章PDF地址),看来要发Science不需要多么深奥的专业嘛。

注:CAPTCHA 是“Completely Automated Public Test to tell Computers and Humans Apart”(全自动区分计算机和人类的测试)的缩写,是一种区分用户是计算机和人的公共全自动程序(图灵测试)。在一个CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。

附:WordPress reCAPTCHA插件

8条留言 -> 跳到留言表格
  • At 2009.12.21 23:37, pugwoo said:

    妙阿,简单的好想法,佩服!

    • At 2009.12.21 23:42, said:

      对普通验证码回答是正确的
      但不能保证对甲骨文的识别也是正确的啊

      • At 2009.12.22 13:30, zhiqiang said:

        普通验证码也是甲骨文,它们的难度是一样的,只不过Control Word是那些已经被人工验证了的甲骨文,Questionable Word是待识别的甲骨文,当Questionable Word被验证后,就可以用作普通验证码了~

      • At 2009.12.21 23:42, said:

        哦,参考多人结果。

        • At 2009.12.21 23:44, daydream said:

          Luis van Ahn的主页上可以找到介绍这个项目的视频

          • At 2009.12.22 01:44, SUN said:

            我记得google买下这个公司了,就因为这项技术牛逼,可以用在google数字化图书馆里

            • At 2009.12.22 12:03, Moses said:

              没错, reCAPTCHA 已经是 Google 的了 :-D

              • At 2009.12.23 17:29, 牛逼 said:

                却是牛逼

                (Required)
                (Required, not published)

                  B | I | U | D | 添加链接 | 插入引用 | 插入代码 | 插入表情 | | + | ?
                guest | 注册 | BBS | 管理 | English | 繁體 | https

                阅微堂

                zhiqiang's personal blog
                Loading...
                Loading...
                Loading...