16.09.2024

Хьюстон, у нас дилемма Как устроена цифровая дипломатия

Текст Кристина Чернова

Исследователи из Uppsala Conflict Data Program, которая отслеживает вооруженные столкновения по всему миру, признали 2022 и 2023 годы самыми конфликтными со времен окончания холодной войны. Наступила эпоха тотального недоверия: договориться не могут ни лидеры стран, ни попутчики в общественном транспорте. Хотя математически доказано, что доверять друг другу выгоднее, чем действовать исключительно в собственных интересах

В 1949 году американский метеосамолет собрал образцы воздуха над Японией: в них были обнаружены свежие следы радиоактивных изотопов. Так как США в том году не проводили новых испытаний ядерного оружия, это могло означать лишь одно: Советский Союз создал собственную бомбу. Некоторым американцам казалось, что единственный способ избавиться от «красной угрозы» — запустить ядерную боеголовку в сторону СССР, пока преимущество не утрачено окончательно. И даже наименее воинственные граждане понимали: с ядерным оружием нужно что-то решать.

Вопросом занялась научно-исследовательская корпорация RAND — «мозговой центр» страны. К поиску решений подключились и ученые, развивавшие теорию игр — новейшее направление прикладной математики. Двое из них, Меррилл Флад и Мелвин Дрешер, разработали экспериментальную игру для студентов факультета психологии из Стэнфордского университета. Сегодня она известна как «дилемма заключенного»*.

* Название придумал канадский математик Альберт Такер

Суть противоречия

В современном виде дилемма формулируется так. Адама и Барбару арестовывают за схожие преступления и помещают в отдельные камеры предварительного заключения. Следствие подозревает, что они действовали в сговоре. Прокурор в индивидуальном порядке предлагает каждому сделку. Если один заключенный «сдает» другого, а тот хранит молчание, то первого освобождают за помощь следствию, а второй получает максимальный срок — десять лет лишения свободы. Если оба будут свидетельствовать друг против друга, каждому грозит пять лет тюрьмы, а если будут отмалчиваться — отделаются годом заключения.

Казалось бы, самое выгодное для обоих — молчать. Но, скорее всего, заключенные будут действовать исключительно из соображений личной выгоды. И Адам, и Барбара предпочтут выдать следствию другого арестанта, чтобы самим выйти на свободу, — в итоге оба сядут на пять лет. Таким образом, ведя себя по отдельности рационально, вместе Адам и Барбара приходят к нерациональному решению.

Какое отношение эта задача, созданная в условиях стратегического противостояния, имеет к холодной войне? И США, и СССР за годы соперничества обзавелись десятками тысяч боеголовок, на создание которых были потрачены триллионы долларов. Пустить их в дело они не могли под угрозой уничтожения всего мира. Казалось бы, выгоднее договориться и вообще не развивать подобные технологии. Но страны действовали исключительно в собственных интересах — и продолжали тратить деньги на разработку оружия.

Выгода сотрудничества кажется очевидной, когда решение достаточно принять один раз. Но в жизни делать выбор приходится постоянно, и на большой дистанции оптимальная стратегия не столь очевидна. Помочь коллеге с проектом, пожертвовав своим личным временем? Если согласиться, он может сесть вам на шею и регулярно лишать вас сна и выходных. Но если категорично отказаться, где гарантия, что этот же коллега пойдет навстречу, когда помощь потребуется уже вам? Так одиночная игра превращается в турнир со множеством раундов.

Машинная дипломатия

В 1980 году политолог Роберт Аксельрод организовал турнир между автономными компьютерными программами, каждая из которых придерживалась собственной стратегии. Программы решали дилемму заключенного — сотрудничать или предать противника. За сотрудничество давалось в два раза больше баллов, чем за предательство. Всего таких раундов было двести. Цель игры — набрать как можно больше очков.

Специалисты по теории игр со всего мира прислали Аксельроду четырнадцать дискет с написанными ими программами на языках Fortran или Basic. Самые простые стратегии состояли из двух строчек кода, самые сложные — из десятков. Программы были снабжены стандартным коммуникационным обеспечением, позволяющим взаимодействовать с оппонентами. Каждая из программ должна была сразиться с остальными стратегиями и с собственной копией. Все стратегии загрузили в один компьютер и запустили игру.

На исход игры не влияли сложность кода или язык программирования — все зависело от самих стратегий. А они были очень разными. Стратегия Friedman была категорична: она сотрудничала с оппонентом до первого же предательства, после чего раз за разом отказывалась от сотрудничества. Graaskamp пыталась нащупать слабости другого игрока, предавая его каждый 50-й раунд. Пятнадцатый алгоритм, который добавил сам Аксельрод, был контрольным — он просто делал случайный выбор.

Хитрая DOWNING анализировала действия другого игрока, оценивая вероятности предательства или кооперации в ответ на собственные действия, и совершала выбор, который должен принести наилучший долгосрочный результат. Но у нее был изъян: в первых двух раундах она оценивала вероятности сотрудничества или предательства оппонента как одинаковые, а значит, и сама выдавала оба результата с вероятностью 50 на 50. И если она выбирала отказ от сотрудничества, то некоторые соперники вроде Friedman моментально «отворачивались» от нее.

Лидерские качества

Самой эффективной оказалась простейшая стратегия TIT FOR TAT (в переводе на русский — «око за око»), которая состояла всего из четырех строк кода на языке Basic. Ее разработал и выставил на чемпионат философ Анатолий Рапопорт. В первом раунде TIT FOR TAT выбирала кооперацию, а затем повторяла предыдущий выбор противника — без всяких сюрпризов. В паре с Friedman она набрала максимальное количество очков, ведь программы сотрудничали друг с другом все двести раундов. Ей удалось наладить отношения и с другими участниками, тем самым обеспечив себе уверенный выигрыш.

Но вкус победы подпортила программа JOSS — «темная» версия TIT FOR TAT. Она тоже копировала действия противника в предыдущем раунде, но примерно в 10 % случаев неожиданно для оппонента выбирала предательство. В этой паре игра стала развиваться драматически. Сотрудничество продолжалось вплоть до первого предательства JOSS. TIT FOR TAT ответила тем же в новом раунде (на этот раз JOSS решила сотрудничать) — и программы стали поочередно друг другу «мстить». После того как JOSS снова «вне очереди» предала TIT FOR TAT, обе программы до конца игры отказывались вступать в кооперацию. Это до боли напоминает развитие многих человеческих конфликтов.

ИИ-этик. Собственная дилемма заключенного есть не только в политике, но и в компьютерных науках. Некоторые специалисты опасаются, что корпорации — разработчики нейросетей могут отдать приоритет экономическим интересам, а не глобальному сотрудничеству; в итоге искусственный интеллект будет развиваться без учета рисков и этических проблем

Аксельрод проанализировал результаты игры и выяснил, что самыми успешными были программы-«альтруисты»: в долгосрочной перспективе они получали больше баллов, чем «эгоисты и подлецы». Именно «альтруисты» заняли первые восемь строк турнирной таблицы. Победители никогда не предавали первыми и не стремились непременно заработать в игре больше баллов, чем их оппонент. При этом они вовсе не были беззубыми и могли ответить на предательство. Также у программ-победителей была ясная логика — слишком туманные намерения сбивали с толку оппонентов, и они выбирали предательство просто на всякий случай.

Важным качеством успешных «альтруистов» оказалась способность прощать. Оригинальная TIT FOR TAT, как видно по игре с ее доппельгангером JOSS, мстила сопернику до последнего. Для выхода из цикла взаимных предательств предлагалось наделить TIT FOR TAT способностью к прощению: чтобы с вероятностью до 5 % после предательства программа шла на сотрудничество с оппонентом.

У Аксельрода был и личный фаворит — предложенная им гипотетическая стратегия «око за два ока», которая мстила оппоненту лишь после двух предательств подряд. Но успех этой программы, созданной к более поздним турнирам, зависел от состава участников, в то время как стандартная TIT FOR TAT осталась лидером.

Ген альтруизма

По следам эксперимента Аксельрод написал книгу «Эволюция кооперации», в которой отстаивал тезис: быть альтруистами выгодно даже с точки зрения естественного отбора. Именно способность объединяться, учитывать чужие потребности дает видам преимущество и помогает выжить.

Вероятно, поэтому альтруизм — более типичная для человека стратегия. Более того, в ходе постоянного взаимодействия доверие между людьми укрепляется. Еще в 1950 году авторы дилеммы заключенного Флад и Дрешер пригласили экономиста Армена Алчиана и математика Джона Уильямса принять участие в игре из ста раундов. Вместо бесконечного цикла предательств, как предсказывала теория, основной стратегией двух игроков стало сотрудничество, которое происходило в 60 % случаев, а взаимное отвержение состоялось лишь в 14 % случаев.

Алчиан с самого начала настроился на решительное противостояние и выбирал предательство, чтобы заработать больше очков. Уильямсу, который догадался, в чем суть проблемы, пришлось чередовать обе опции — как кнут и пряник, — чтобы в конце концов склонить оппонента к сотрудничеству. «Это похоже на приучение ребенка к туалету, нужно быть очень терпеливым», — комментировал Уильямс в процессе игры.

Искусственный арбитр

Даже искусственный интеллект по умолчанию ожидает от нас человечности. Исследователи из Школы бизнеса Мангеймского университета (UMBS) протестировали дилемму заключенного на ChatGPT. На протяжении всей игры модель выбирала сотрудничество чаще, чем люди, и была чрезмерно оптимистична в отношении альтруизма игрока-человека.

Специалисты задумываются, как большие языковые модели могли бы помочь людям преодолеть дилемму заключенного в реальной жизни. Каждый день с ней сталкиваются автомобилисты в больших городах. Они могут вести машину аккуратно, используя взаимовыгодные маршруты. А могут выигрывать время, подрезая других или двигаясь по обочине, — и тем самым создавать пробки и провоцировать аварии. Профессор Кевин Бауэр, один из авторов исследования ChatGPT и дилеммы заключенного, утверждает, что навигационная система, оснащенная большой языковой моделью, сможет предлагать маршруты, быстрые не только для одного автомобиля, но и для всего потока.

Аналогичный потенциал нейросетей Бауэр видит в альтернативной энергетике. ИИ может помочь оптимизировать энергопотребление домохозяйств, использующих солнечные панели. Люди столкнутся с выбором: экономить энергию для чисто личного использования или вносить ее в энергосистему для обеспечения общей стабильности, например, в пасмурную погоду или часы пик. ИИ сможет управлять распределением энергии, учитывая потребности всей сети.

Хотя ChatGPT более склонен к сотрудничеству, чем люди, он по-прежнему отдает приоритет собственному выигрышу. Исследователи подозревают, что такое поведение модели обусловлено сочетанием гиперрациональности и самосохранения, и опасаются, что это будет создавать проблемы в ситуациях, где «выгода» модели противоречит благополучию людей.

Читайте также, чем цифровые активы мешают государству:

Использованные источники: Материал опубликован в журнале «Цифровой океан» № 24 (июль-август), 2024, simpson33 / iStock.com, Image Source / Photodisc / Getty Images, ncognet0 / iStock.com, pornchai samrhubsuk / iStock.com, bbbrrn / iStock.com, Hans Neleman / Stone / Getty Images (x2)