Как ИИ читает хрупкие свитки, не раскрывая их Платон, синхротрон и миллионы долларов
В середине XVIII века итальянские землекопы случайно обнаружили мраморные статуи из Геркуланума — древнего города, уничтоженного при извержении Везувия в 79 году. Горячие пирокластические потоки* обрушились на соседние Помпеи, не оставляя людям шансов спастись. А вот Геркуланум накрыло лавой и пеплом не сразу, и многие жители успели покинуть город. Комнаты брошенных домов равномерно заполнила вулканическая порода. В отсутствие доступа к кислороду органика не разлагалась — так что город, постепенно ушедший под землю, сохранился до наших дней практически нетронутым.
Вилла Папирусов в Геркулануме — единственная библиотека древности, полностью сохранившаяся до наших дней
При раскопках, организованных королевской семьей Бурбонов, обнаружилась роскошная вилла, которая, судя по найденным бюстам античных литераторов, принадлежала образованному человеку. Предполагается, что виллой владел тесть самого Гая Юлия Цезаря — древнеримский консул и цензор Луций Кальпурний Пизон Цезонин. Самым впечатляющим открытием оказалась личная библиотека Пизона — сегодня известно о 1826 папирусах.
Но состояние свитков было удручающим. Жар пирокластических потоков иссушил и обуглил их. Рабочие, участвовавшие в раскопках, сначала принимали папирусы за поленья и бросали в огонь. Неудивительно: даже ученые толком не представляли, как выглядят древние свитки. Ведь все они были утрачены или переписаны еще в раннее Средневековье — папирус в условиях влажности быстро загнивает.
Возможность найти неизвестные произведения древних философов захватила всех. Но развернуть спекшиеся свитки вручную было невозможно — они рассыпались на мелкие части. В результате неудачных попыток многие ценные папирусы были утрачены. А те, что остались, оказались нечитаемыми. Чернила, почти невидимые на фоне обугленного папируса, тускнели, соприкасаясь с воздухом.
* Пирокластический поток — смесь высокотемпературных вулканических газов, пепла и обломков горных пород, образующаяся при извержении вулкана.
Архивация с потерями
Отец Пьяджо, пожалуй, обходился с артефактами наиболее бережно: с помощью его механической машины удалось развернуть множество свитков. Правда, они все равно повреждались в процессе. А вот художник Камилло Падерни попросту разрезал свитки и переписывал тексты, соскребая слой за слоем. Другие воздействовали на папирусы химическими реагентами вроде жидкой ртути или газов. Так, известный британский химик Гемфри Дэви частично развернул 23 свитка с помощью хлора. В 1980-х годах норвежские ученые под руководством Кнута Клеве попытались выпрямить папирус, используя клей на основе желатина, уксусной кислоты и воды — в процессе рукопись распалась на мелкие кусочки. После этого случая исследователи решили больше не трогать свитки.
К тому моменту было развернуто около 800 папирусов, как полностью, так и частично. Из них расшифровано меньше половины. Большинство свитков содержали тексты философа Филодема, последователя Эпикура, который считал, что все в природе состоит из атомов.
В 1990-х годах Дирк Оббинк из Оксфордского университета и Даниэль Делаттр из Национального центра научных исследований Франции придумали, как прочитать уже развернутые папирусы с потускневшими чернилами. Исследователи из Университета Бригама Янга фотографировали папирусы по методу мультиспектральной визуализации, который использует излучение в разных диапазонах длин волн. Инфракрасное излучение помогло сделать текст более контрастным по отношению к темному фону.
Это позволило лучше разобраться в уже обнаруженных работах эпикурейцев и вызвало новую волну интереса к этому направлению философии. Но тексты по-прежнему оставались неполными — многие фрагменты папирусов были необратимо повреждены. В начале 2000-х профессор компьютерных наук из Университета Кентукки Брент Силс решил попробовать читать свитки не разворачивая.
Профессор Брент Силс разворачивает хрупкие свитки виртуально, с помощью рентгеновской компьютерной томографии
Трехмерная революция
Христианин-евангелист Силс мечтал найти письма апостола Павла, который путешествовал по территории Италии за годы до извержения Везувия. Для проявления древних текстов ученый использовал метод компьютерной томографии: материал облучают рентгеновскими лучами и создают его трехмерную модель.
С 2005 года Силс пытался сканировать папирусы в медицинском томографе. Но чернила на основе сажи, которые использовали геркуланумские писцы, на уровне химического состава ничем не отличаются от обугленного папируса, и их трудно увидеть при помощи рентгена. Кроме того, буквы и слова из разных слоев свитка при разворачивании оказывались рядом друг с другом.
Силс сумел разработать программу, которая находит и моделирует самый верхний слой папируса, анализируя каждую точку в 12 000 поперечных сечениях. Алгоритм ищет изменения плотности, соответствующие чернилам, увеличивает контрастность букв, а затем разворачивает изображение для чтения. Кроме того, ученый обратил внимание на рентгеновскую фазово-контрастную томографию. Чувствительный метод визуализации позволяет обнаружить тончайшие изменения плотности папируса в местах, где нанесены чернила. Это можно сделать, измеряя изменение интенсивности излучения при его прохождении через объект. Подходящее излучение получают с помощью ускорителей частиц.
В 2016 году Силсу удалось прочитать найденный в Израиле свиток Эйн Геди, содержащий фрагмент текста Пятикнижия. Чернила были сделаны на основе солей железа и свинца и хорошо поглощали рентгеновское излучение, поэтому текст оказался отчетливо виден на скане. Это доказывало, что метод Силса работает, но его требовалось адаптировать для папирусов Геркуланума. Для этого ученый использовал самые совершенные томографы и экспериментировал с алгоритмами машинного обучения, которые позволяли обнаружить следы чернил на сканах свитков.
Финансовый рычаг
Прогресс был медленным, но помогли инвестиции. В 2019 году команда Силса на грант от Национального фонда гуманитарных наук смогла разработать и протестировать методы машинного обучения для обнаружения следов чернил на 3D-рентгеновских сканах свитков. Это позволило выявить отдельные буквы и слова. Вскоре на Силса вышел бывший генеральный директор GitHub Нэт Фридман, который стал главным инвестором. В 2023 году Фридман и Силс запустили Vesuvius Challenge — открытый конкурс, в рамках которого они предлагали 700 тыс. долларов за расшифровку четырех фрагментов одного папируса.
Для конкурса свитки были отсканированы на британском синхротроне Diamond Light Source.
Возможно, в вулканическом пепле до сих пор ждут своих читателей Гомер, Сапфо или Ариистотель
В отличие от обычных томографов, излучение синхротрона в рентгеновском диапазоне яркое и однородное. Это позволило добиться высочайшего разрешения. Команда Силса и Фридмана предварительно разметила на 3D-модели линии сгиба папируса, по которым специальная программа разворачивала скан в двухмерное изображение.
Участники конкурса, применяя алгоритмы искусственного интеллекта, пытались найти и распознать следы чернил и получить картинки с текстом. Эти картинки передавали филологам, которые самостоятельно читали и интерпретировали текст и оценивали качество работы участников.
Синхротрон Diamond Light Source позволяет получить трехмерные сканы свитков, чтобы ученым не приходилось восстанавливать тексты по кусочкам
Первых успехов добился австралийский математик и физик Кейси Хандмер, который невооруженным взглядом смог обнаружить на свитке паттерны, напоминающие очертания древнегреческих букв. По условиям конкурса он поделился находкой с другими участниками, и вскоре студент из университета Небраски Люк Ферритор смог расшифровать первое слово — πορφύρας («пурпурный»). На основе паттернов, заметных человеческому глазу, он обучил нейросеть находить более сложные закономерности на скане свитка.
Объединив усилия с двумя другими участниками конкурса, египтянином Юссефом Надером и швейцарцем Юлианом Шиллигером, Ферритор усовершенствовал алгоритмы. Благодаря им бесформенные пятна превратились в осмысленный текст — ранее неизвестный трактат Филодема, где философ рассуждает об удовольствии на примере музыки и вкусной еды. Похоже, автору очень нравились каперсы! Всего программистам удалось распознать примерно пять процентов от свитка.
Важно отметить, что сама нейросеть не распознает буквы — она лишь оценивает вероятность наличия или отсутствия чернил на маленьком фрагменте свитка. Но в результате получается изображение, которое может прочитать человек. Это сделано, чтобы предотвратить ситуацию, в которой нейросеть может «выдумать» правдоподобный ответ.
Будущее Геркуланума
В феврале 2024 года троица получила главный приз, а организаторы Vesuvius Challenge объявили о втором этапе конкурса. Цель — распознать 90 % всех четырех отсканированных свитков с помощью более быстрых и дешевых методов. Для этого нужно научиться автоматически размечать линии сгиба на скане. Сейчас организаторы конкурса делают это вручную — каждый квадратный сантиметр стоит около 100 долларов. Развертывание целого свитка может стоить от 1 до 5 миллионов долларов. Кроме того, свитки планируют сканировать на более дешевых портативных установках прямо в Неаполе, чтобы избежать затрат на транспортировку и использование ускорителя.
Похоже, помещение, которое обнаружили археологи XVIII века, — это все же не главная библиотека виллы Пизона, а небольшая комната, в которой на правах друга хозяина работал Филодем. Это означает, что в вулканическом пепле до сих пор погребены тысячи папирусов, среди которых, возможно, найдется свежий Гомер, Сапфо или Аристотель. Но на месте древнего Геркуланума вырос современный городок Эрколано, и в случае возобновления раскопок придется расселить и снести жилые дома, которые построены прямо над неисследованными помещениями виллы. Местные власти сопротивлялись: какой смысл откапывать новые артефакты, если тексты все равно невозможно прочитать? Похоже, этот аргумент больше не актуален.
Читайте также, как цифровая археология борется с фейками:
Использованные источники: Материал опубликован в журнале «Цифровой океан» № 23 (май-ииюнь), 2024, Erich Lessing / Album / Legion-media, Antonio Masiello / Getty Images, Eric VANDEVILLE / Gamma-Rapho via Getty Images (x2), DAVID STEPHENSON / newscom / KRT Photos Live / Legion-media, Antonio Masiello / Getty Images, GEOFF CADDICK / AFP / East News (x2), Salvatore Laporta / AP / East News