ЕС оцифрует исторические тексты

Корпорация IBM и Европейский Союз расширили свое исследовательское партнерство, в котором теперь участвуют около тридцати национальных библиотек, научно-исследовательских институтов, университетов и организаций со всей Европы. Цель этого расширенного партнерства – создать новую технологию, которая позволит с высокой точностью и на массовой основе преобразовывать в цифровую форму исторически и культурно значимые текстовые материалы.

В отличие от предыдущих проектов по оцифровке текстов, результаты которых оказались статичными и не получили дальнейшего развития, эта уникальная крупномасштабная инициатива, получившая название IMPACT (IMProving ACcess to Text; «улучшение доступа к тестам»), предложит европейским институтам новые инструменты и наилучшие методики, которые дадут им возможность эффективно продолжать создание высококачественных цифровых копий редких исторических текстов, размещая их в Интернете и делая широко доступными для поиска и онлайнового редактирования.

impact

Исследовательский проект IMPACT, финансируемый Евросоюзом, сочетает в себе возможности нового инновационного Web-ориентированного программного обеспечения для адаптивного оптического распознавания символов (OCR) с мощью технологии «crowd computing» – быстроразвивающейся концепции, основанной на совместном использовании коллективных знаний, навыков и опыта многочисленных групп людей (или «толп» людей) для расширения, углубления и совершенствования процесса или продукта с целью коренного улучшения его качества и эффективности. Объединение этих технологий позволит заинтересованным сторонам впервые адаптировать процедуры оцифровки и распознавания текста к особенностям древних шрифтов, к искажениям и аномалиям, и даже к специфическим терминологиям и лексиконам – при сокращении показателей частоты появления ошибок на 35% и частоты замещений и подстановок символов и сочетаний символов на 75%.

«IMPACT замечателен тем, что он не только дает этим знаменитым культурным центрам возможность поближе познакомить людей с редчайшими историческими текстами, которых они, возможно, никогда не видели раньше, но также реально позволяет этим людям стать частью процесса сохранения этого наследия, — считает доктор Тал Дрори (Tal Drory), руководитель группы обработки документов в отделении IBM Research в Хайфе. — IMPACT предлагает первую в своем роде систему преобразования текста в цифровую форму, которая сочетает мощь технологии «crowd computing» и адаптивного OCR-решения для распознавания и корректуры оцифрованного текста. Такая комбинация позволяет достичь выдающихся результатов для всех видов исторических документов, от 15 века до 19 века».

OCR-технологии сегодня прекрасно справляются с современными печатными текстами, однако старые выцветшие чернила и типографская краска, необычная форма древних шрифтов способны снизить показатели распознавания текста до 50%, что потребует большого объема последующих ручных операций вычитки и правки. Следовательно, для крупномасштабных проектов подобно этому, эффективность последующей обработки оцифрованного текста является критически важным условием. «Единственным путем осуществления крупномасштабного проекта по преобразованию текстов в цифровую форму является коренное улучшение качества первоначального оптического распознавания текста и максимально возможное сокращение последующей ручной обработки, — подчеркнула Хильделиз Балк (Hildelies Balk), руководитель отдела европейских проектов Национальной библиотеки Нидерландов (Koninklijke Bibliotheek) и координатор проекта IMPACT. — С помощью IMPACT мы надеемся достичь значимого улучшения продуктивности процесса оцифровки текстов».

В основе проекта оцифровки лежит уникальная система коллективной корректуры, разработанная исследователями IBM, которая через интерактивный Web-интерфейс облегчает большим группам добровольцев-корректоров со всего континента проверку правильности обработки текста и исправление ошибок оптического распознавания. Кроме того, система обладает способностью «обучаться» на обнаруженных OCR-ошибках и автоматически адаптироваться к специфике шрифтов.

Технология IMPACT оптимизирует, упрощает и ускоряет процесс исследования отсканированного текста и отбора спорных (сомнительных) участков, предоставляя корректорам возможность эффективно править текст. Вместо отображения полного текста оцифрованной страницы корректоры видят только буквы или слова, помеченные как спорные. Например, комбинация букв «r» и «n» («rn») может быть неотличима от буквы «m». В подобных случаях система отбирает многие встречающиеся в тесте варианты использования буквы «m» и размещает эти примеры рядом со «спорными» буквами. Данная методика существенно облегчает правильное определение букв в словах текста.

В случаях, когда неочевидным является целое слово, оно добавляется в специальный словарь спорных выражений, которые отсортировываются в алфавитном порядке. Добровольным корректорам нужно лишь «одним щелчком мыши» принять или отвергнуть предлагаемые замены-подставновки. Кроме того, система использует метод адаптивного расширения словаря, когда новые слова добавляются в основной словарь на основе кросс-идентификации и правки другими пользователями.

Так, например, текст небольшой книжки, который «набивается» вручную на компьютере, в среднем, за четыре часа, можно оцифровать с помощью стандартной OCR-технологии и вручную откорректировать за час. Внедрение новой технологии коллективной корректуры сокращает этот процесс до 30 минут. Исследователи IBM отмечают, что новая адаптивная система оптического распознавания текста может дополнительно снизить это время еще на 15 минут.

Исследователи IBM Research из Хайфы обладают опытом разработки уникальных методик OCR, эффективность которых подтверждена годами использования – от инструментов, помогающих отслеживать, классифицировать и категоризировать сообщения и пакеты крупных почтовых служб, до решений по оптимизации считывания символов на номерных знаках автомобилей в системах дорожных сборов как меры борьбы с транспортными перегрузками в крупных городах (congestion pricing). IMPACT, вероятно, является первой реальной попыткой разработать адаптивный механизм оптического распознавания текста, специально предназначенный для создания массовых цифровых библиотек.