Антиспам помогает сохранять книги

 «Оружие», которое использовалось для борьбы со спамерами, теперь помогает университетским исследователям предохранять древние книги и рукописи.

 

Как известно, многие вебсайты при регистрации и загрузке логина используют автоматический тест для того, чтобы отделять роботов-компьютеров от людей-«человеков». Этот тест состоит из задания напечатать несколько случайных букв-цифр и предназначен для борьбы со спамерами.

Однако ученые Университета Карнеги Меллон (Carnegie Mellon University) довольно остроумно используют данный тест, чтобы помочь расшифровать слова в книгах, которые машины не могут расшифровать, позволяя сайтам использовать их для аутентификации логинов.

Этот тест, известный как CAPTCHA (Полностью Автоматизированный Тест Тьюринга для Отделения Компьютеров и Людей), первоначально был рассчитан для того, чтобы помогать определять автоматические программы, известные как «боты».

В свою очередь «боты» породили спамеры для рассылки объявлений на дискуссионные форумы либо для регистрации и получения большого количества адресов электронной почты, которые позже использовались для рассылки спама.

Тест CAPTCHA состоит из изображения, содержащего буквы или цифры, которые очень сильно искажены, чтобы «боту» было затруднительно или вообще невозможно «прочитать».

От посетителей сайта требуется правильно впечатать содержимое теста CAPTCHA, после чего люди получают допуск на сайт, тогда как самые «разумные» боты получают «от ворот поворот»!

Нельзя сказать, что тест CAPTCHA весьма популярен среди большинства Интернет-пользователей, потому что проверочные слова нередко настолько сильно искажены (чтобы ввести в заблуждение ботов), что много людей поминают «незлым, тихим словом» создателей данного теста.

Это означает, что время потенциальных посетителей  сайта растрачивается, пока они повторяют попытки расшифровать то, что им предлагает тест.

Однако команда исследователей университета Карнеги Меллон из Питсбурга (Пенсильвания) разработала остроумную систему, чтобы время, которое тратится при тесте CAPTCHA использовалось во благо.

Данная команда работает над оцифровкой древних книг и рукописей, которыми ее снабжает общественная организация Internet Archive, и использует программное обеспечение для оптического распознавания текста (Optical Character Recognition, OCR) для изучения просканированных фрагментов текстов и превращения их в цифровые текстовые файлы, которые могут сохраняться в компьютерах и использоваться поисковыми системами.

Однако, как показывает практика, программы OCR  не в состоянии прочитать одно из десяти слов из-за крайне плохого качества оригинальных документов.

Единственный надежный способ декодировать их – это положиться на разум человека для их индивидуального изучения, а это – непосильная задача для ученых университета, поскольку они обрабатывают тысячи страниц ежемесячно.

Дабы разрешить эту проблему исследователи берут образы слов, которые программы OCR не могут «прочитать» и предлагают их в качестве теста CAPTCHA.

Такие тесты, известные как «reCAPTCHAS», затем распространяются по вебсайтам во всем мире для использования вместо обычных тестов CAPTCHA.

Когда посетители расшифровывают «reCAPTCHA» для получения доступа к вебсайту, их ответы – результаты человеческого изучения образов – направляются обратно в университет. И всякий раз, когда Интернет-юзер расшифровал «reCAPTCHA», оцифровывается еще одно  слово из древней книги или манускрипта.  

Для того, чтобы гарантировать, что тест расшифрован правильно, посетители вебсайта обычно имеют для изучения образы двух слов, содержание одного из которых уже известно. «Если человек впечатывает правильный ответ на один вариант, мы уже знаем и убеждены, что и на другое слово будет дан правильный ответ» — говорит Луис фон Аан (Luis von Ahn), профессор Университета Карнеги Меллон. «Мы направляем те же самые неизвестные слова двум разным людям, и если они оба представляют один и тот же ответ, мы можем быть уверены, что это правильный ответ. Если же существует разночтение, то мы направляем эти слова для изучения еще большему количеству людей».  

Благодаря тому, что тесты «reCAPTCHA» приняли такие популярные вебсайты, как Facebook, Twitter и StumbleUpon, эта система помогает расшифровать для архивного проекта университета около одного миллиона слов ежедневно, согласно оценке Луиса фон Аана.

Допуская, что на расшифровку теста и печатание ответа  необходимо около 10 секунд, на расшифровку неразборчивых для компьютеров слов, требуется эквивалент почти трех тысяч человеко-часов ежедневно.

Еще одним преимуществом данной системы является то, что тесты «reCAPTCHA» особенно хороши для «одурачивания» ботов, тогда как для людей они остаются читаемыми. «Сперва мы начали с тех слов, которые мы знали, что они не под силу компьютерам» — объясняет Луис фон Аан. «Эти слова были искажены естественным путем, самим временем, а количество вариантов искажения весьма велико». «Чем сильнее и разнообразнее эти искажения, тем труднее спамерам написать программы, которые могли бы «читать» их». Однако, чтобы еще больше затруднить задачу ботам, данные слова искажаются еще сильнее. То, что мы делаем, можно сравнить с размещением изображения на резиновой простыне с последующим ее растяжением для искажения ее геометрии» — говорит ученый.

Применяя систему «reCAPTCHA» команда профессора фон Аана производит оцифровку документов и рукописей настолько быстро, что организация Internet Archive не в состоянии своевременно обеспечивать им «фронт работ». И еще одна хорошая новость для любителей книг ( и соответственно, плохая новость для спамеров) – похоже, что тесты «reCAPTCHA» не иссякнут в ближайшем будущем.  

«Опасности, что слова «закончатся» нет» — говорит профессор фон Аан. «Ведь надо оцифровать еще около 100 миллионов книг, а при нынешних темпах нам потребуется около 400 лет, чтобы завершить проект».

ВВС

Сверхконкурентный Realme 7 Pro с Super AMOLED, 64 Мп квадрокамерой и зарядкой 65W SuperDart уже доступен в Украине.

НАСА развивает 3D-печать для строительства на Луне и Марсе, а Cолнечные пятна помогают понять жизнь вокруг других звезд.

-->