Яндекс научился читать старинные рукописи И искать по ним
Компания «Яндекс» сумела научить свои нейросети расшифровывать архивные записи со сложной дореволюционной орфографией. В сервисе «Поиск по архивам» система читает рукописный текст с устаревшей орфографией и неиспользуемыми в современном языке буквами. Это позволило распознать текст в более чем 2,5 миллионах отсканированных страниц исторических документов.
Первым источником стал Главархив Москвы, на материалах которого обучали нейросеть. Позднее добавились архивы Оренбургской и Новгородской областей, и ведется работа над дальнейшим расширением базы.
Поиск по историческим документам востребован не только у ученых-историков и архивистов. Метрические книги, исповедные ведомости и «ревизские сказки» с результатами переписи населения позволяют людям найти своих предков и установить исторические корни.
Использованные источники: