«Яндекс» создал нейросеть для расшифровки архивных документов с дореволюционной орфографией

Систему «Поиск по архивам» обучали на массиве из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Алгоритм умеет с помощью систему оптического распознавания символов учитывать особенности почерка, узнавать утратившие актуальность буквы и «понимает особую структуру архивных документов».

«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени, а наш сервис справляется с этим за несколько секунд», — рассказала руководитель поиска «Яндекса» Елена Бубнова.

Пользователи сервиса могут искать записи через строку поиска или по каталогу. Можно выставить фильтры по годам, архивам, фондам и описям. Также в базе можно найти страницы с упоминанием определенной фамилии или населенного пункта.

В электронном каталоге уже есть доступ к более чем 2,5 млн исторических документов от середины XVIII до начала XX века с текстовой расшифровкой из Главархива Москвы, а также архивов Оренбургской и Новгородской областей. Команда разработчиков пообещали обновлять базу данных.

Автор:

Валерия Дьячкова, 26 января, 2023

Поделиться:

«Яндекс» создал нейросеть для расшифровки архивных документов с дореволюционной орфографией

Комментарии (0)

Наши проекты

Купить журнал:

Выберите свой город:

Ваш город

Самара?

Поделиться:

«Яндекс» создал нейросеть для расшифровки архивных документов с дореволюционной орфографией

Комментарии (0)

Наши проекты

Купить журнал:

Отправка сообщения об ошибке

Выберите свой город:

Ваш город

Самара?

Выберите проект: