Новости

Анастасия Ракова рассказала об использовании нейросетей для распознавания архивных документов

Mos.ru
Анастасия Ракова рассказала об использовании нейросетей для распознавания архивных документов

Заместитель мэра по вопросам социального развития Анастасия Ракова отметила, что с помощью сервиса «Поиск по архивам» людям стало проще искать историю своих семей. Он также помогает ученым и журналистам, а на страницах, содержащих устаревшие символы и рукописи, тренируется искусственный интеллект.

Москвичи более 20 миллионов раз воспользовались порталом «Поиск по архивам». Туда были загружены более 5,4 миллиона страниц исторических материалов из Главархива Москвы и другие материалы.

Поиск по архивам — запущенный в начале 2023 года сервис Яндекса, который помогает быстро находить упоминания людей, населенных пунктов и событий в расшифрованных нейросетью рукописных документах XVIII-XX веков.

«На протяжении нескольких последних лет запросы, связанные с поиском предков и исследованием прошлого семьи, оказываются одними из самых популярных в Главархиве Москвы. Это особенно заметно в Год семьи, — отметила Ракова. — Мы стремимся помочь жителям в столь важном деле и ищем способы сделать доступ к документам проще. Так, несколько лет назад мы открыли онлайн-сервис "Моя семья" и разместили в нем оцифрованные метрические книги — документы, содержащие сведения о рождении, браке и смерти москвичей и жителей Московской губернии разных вероисповеданий. На основе ресурса "Моя семья" нейросеть "Поиска по архивам" училась читать рукописные тексты. За год работы сервиса к порталу обратились более 20 миллионов раз, что говорит о его популярности и необходимости. Сама же нейросеть проанализировала свыше 10 миллионов страниц исторических документов».

В «Поиске по архивам» есть документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей. Всего нейросеть Яндекса распознала более 60 тысяч рукописных и печатных текстов середины XVIII — начала XX веков: в сумме это более 10 миллионов страниц, или 492 миллионов строк. В «Поиске по архивам» хранятся расшифрованные архивные дела (например, метрические книги и ревизские сказки), в которых содержится информация о людях, родившихся в Россиидо 1917 года.

В сервисе собраны 3,6 миллиона оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.

Технология расшифровки в «Поиске по архивам» основана на оптическом распознавании символов. Нейросеть узнает утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с версткой газетных страниц нейросеть научили распознавать текст на огромных полосах, набранный мелким шрифтом на низкоплотной бумаге.

Последние новости