29.01.2024

Сканер души Как ИИ по фотографии описывает характер человека

Текст Екатерина Пономаренко

Впервые увидев человека, мы всего за 40 миллисекунд (в 10 раз быстрее, чем моргает глаз) составляем о нем впечатление. И делаем это плохо. Искусственный интеллект по одной фотографии лица может описать характер его обладателя гораздо точнее. Как это возможно — ведь внешность, как известно, обманчива?

Метод определения душевных качеств человека по чертам лица называется физиогномикой и считается псевдонаукой. В очередной раз это продемонстрировал профессор психологии Принстонского университета Александр Тодоров в своей книге «Номинал: непреодолимое влияние первого впечатления»*, написанной по итогам десяти лет исследований. Ученый показывает, что, хотя человек непременно составляет мнение о других за считаные доли секунды, такая оценка мало соотносится с реальными чертами характера собеседника.

* Face Value: The Irresistible Influence of First Impressions

Тем не менее ряд исследований показывает, что связи между внешностью и личностными чертами все же существуют. Группа ученых из Высшей школы экономики опубликовала работу, посвященную определению личностных черт по фотографии, в журнале Nature — авторитетнейшем научном издании с исключительно строгим рецензированием. Их нейросеть, обученная на 30 тыс. снимков лиц, принадлежащих 12 тыс. человек, определяет черты характера точнее, чем человек после короткого разговора с незнакомым собеседником. Получается, что связь между чертами лица и личности существует и подтверждается математической статистикой — даже если люди так и не научились правильно интерпретировать ее на глаз.

Евгений Осин, кандидат психологических наук, заместитель заведующего Международной лаборатории позитивной психологии личности и мотивации «Высшей школы экономики»:

Во-первых, есть данные генетики, согласно которым можно восстановить лицо человека по ДНК. Черты личности также тесно связаны с генетическими маркерами. Пока мы точно не знаем, одни и те же это гены или разные, но, возможно, скоро мы что-то об этом узнаем. Во-вторых, хорошо известно, что пренатальные и постнатальные гормоны влияют на то, как растут лицевые кости и какую форму приобретает лицо. Например, уровень тестостерона связан с тем, насколько лицо округлое или угловатое. Известно также, что гормональный фон влияет и на поведение человека, формирование личности. В-третьих, в ходе эволюции изменение определенных черт лица человека могло способствовать передаче информации, необходимой нам для взаимодействия в социуме. Есть гипотезы о том, что уменьшение надбровных дуг у сапиенсов было связано с возможностью выражать эмоции, и есть данные, что черты лица связаны с поведением не только у людей, но и у шимпанзе

Шаг 1. Все лгут

Искусственный интеллект оценивает психические свойства человека в рамках так называемой «большой пятерки». Это пятифакторная модель личности со шкалами добросовестности, доброжелательности, экстраверсии, открытости новому и невротизма. Оценочный характер этих показателей представляет собой главную сложность в создании нейросети. Ведь главное, что требуется для машинного обучения, — это большой объем качественных, хорошо размеченных и достоверных данных.

Самый распространенный метод обучения нейросетей — это «обучение с учителем». Для этого в ИИ вместе с входящими данными загружают правильные ответы (ground truth). Например, чтобы научить машину выбирать среди массы фотографий изображения с котиками, мы должны показать ей картинки, на которых котик точно есть. Для этого десятки тысяч картинок сперва отсматривают люди. Чаще всего это волонтеры — сотни людей по всему миру, которым не составляет труда распознать на фотографии котенка и пометить файл галочкой.

Вот только свойства личности не котики, и посторонний человек их на фото не распознает. Потребовалась помощь 25 тысяч добровольцев, которые прислали свои фотографии и заполнили опросник для определения черт характера. Полученные данные прошли многоуровневую очистку. В случае с классификацией изображений достаточно показать одну картинку разным людям и выбрать результат большинством голосов. Это позволяет нивелировать ошибки, некачественную работу, ботов и другие источники искажения данных. Однако когда единственным источником информации является один человек, приходится применять гораздо более сложные способы фильтрации.

Из 25 тысяч изначально собранных опросников убрали все неполные анкеты, анкеты с неверными ответами на контрольные вопросы (вроде «в этом вопросе выберите первый вариант ответа») либо случайные ответы, а также те, где люди демонстрировали высокие баллы по специальным «шкалам лжи», созданным, чтобы выявлять приукрашенные или заведомо недостоверные ответы.

Исследователи из университета Ноттингема-Нинбо выразили эмбеддинги в виде числовых векторов и с их помощью внесли осмысленные изменения в фотографии

Фотографии тоже пришлось очищать — с помощью вспомогательных нейросетей. Во-первых, нейросеть CelebFaces обогатили лицами российских знаменитостей и удалили из датасета всех Дмитриев Нагиевых и Анджелин Джоли. Еще одна нейросеть определила поворот головы по трем осям, чтобы убрать все фото, где респондент недостаточно прямо смотрит в камеру. Наконец, нейтральности выражения лица, чтобы убрать излишне эмоциональных ответчиков.

После этой кропотливой подготовки из 75 тыс. снимков осталась 41 тысяча. А после объединения хороших фотографий с хорошими анкетами исследователи получили лишь половину изначального датасета: 31 367 изображений для 12 447 опросных листов. Только после этого можно было приступить к обучению нейросети.

Шаг 2. Тайный язык ИИ

Только на первый взгляд кажется, будто достаточно загрузить в компьютер фотографии и ответы, а дальше машина все сделает сама. Теоретически это могло бы сработать, но потребовало бы колоссальных ресурсов, расходуемых фактически впустую. Представьте, что вы хотите обучить водителя автобуса управлять грузовиком, но начинаете с самого начала: заново учите человека ходить, говорить, различать цвета.

Картинки в каждой строчке представляют собой абсолютно разные наборы пикселей. Но зато они схожи по смыслу и имеют близкие эмбеддинги

Поэтому в рамках проекта задачу нейросети условно разделили на две части: сперва определить устойчивые, неизменные на коротком промежутке времени черты лица, а затем связать их с личностными качествами респондента. Для выделения черт лица взяли вариант классической нейросети ResNet‑50. Это пятидесятислойная нейросеть, разработанная компанией Microsoft в 2015 году и обученная на открытом датасете ImageNet (на данный момент в нем 14 млн изображений, распределенных по 20 тыс. классов).

После работы первых 49 слоев нейросети из изображения выделяется самая важная информация. На вход 50-го слоя подаются так называемые эмбеддинги*. Технически это просто наборы чисел, но для нейросети они обладают чем-то, что люди назвали бы смыслом. Представьте, что вы готовитесь к экзамену, где вас попросят по памяти нарисовать одну из тысяч известных картин. После недели подготовки у вас все картины сливаются в одну кашу, и вы пишете себе шпаргалки, чтобы на месте быстро восстановить в памяти картину и не забыть важные детали: «Поясной портрет эпохи Возрождения, женщина с темными волосами, руки сложены на груди, полуулыбка на лице, разворот в три четверти».

* В буквальном переводе с английского embedding означает «встройка», «внедрение»

Обучение нейросетей — ресурсоемкий процесс, который может занимать недели и даже месяцы вычислительного времени. Срезать путь помогает метод передачи модели обучения, или transfer learning. Его смысл в том, чтобы взять открытую модель, обученную и опубликованную другими разработчиками, зафиксировать большую часть ее параметров и менять в процессе дообучения только самые последние слои. Большая часть визуальной информации строится по общим шаблонам. Изображение складывается из объектов, границы которых представляют собой замкнутые контуры. Если один пиксель принадлежит объекту, то соседние, вероятнее всего, относятся к нему же. Львиная доля работы нейросети уходит на то, чтобы обучиться базовым паттернам: различать контуры, простые формы (линии, углы, дуги), замкнутые фигуры разных форм и размеров. Высокоуровневая, «смысловая» работа с изображением приходится только на самые последние слои, и для их обучения требуется на порядки меньше вычислительных ресурсов. Это позволяет заниматься обучением нейросетей не только корпорациям с большими вычислительными ресурсами, но и отдельным разработчикам прямо на своем ноутбуке.

Примерно то же самое делает нейросеть на языке чисел, который она изобрела сама для себя в процессе обучения. Прямого перевода с этого языка на человеческие не существует, однако за его «словами» стоят сущности, близкие нашему мышлению. Это наглядно продемонстрировали исследователи университета Ноттингема-Нинбо в 2017 году. В своей работе они смогли «расшифровать» часть эмбеддингов и «установить контакт» с нейросетью: попросить ее добавить или убрать с фотографии человека улыбку или очки и получить соответствующий результат.

Так же, как для очков или улыбки, исследователи ВШЭ выявляли эмбеддинги устойчивых черт лица. Это творческая задача, которая решается методом «обучения без учителя» (он же «обучение с подкреплением»): у нас нет готового ответа, к которому мы пытаемся подвести нейросеть, но есть критерий, по которому мы оцениваем результаты. Чем лучше сформулирован этот критерий, тем полезнее будет полученный эмбеддинг.

Для обучения набрали 2 миллиона фотографий людей из поисковых систем, по несколько фото для каждого человека. Критерием успешности считалось то, чтобы несколько изображений одного человека давали максимально похожие эмбеддинги, а разных людей — существенно отличающиеся. Такой критерий вынуждал нейросеть искать что-то одинаковое на всех фотографиях одного человека, притом уникальное именно для него.

Шаг 3. Лучше, чем человек

Чтобы связать черты лица с особенностями характера, исследователи применили классический подход — обучение с учителем. На вход нейросети подавались эмбеддинги, полученные по фотографиям респондентов, а на выходе получался набор оценок выраженности каждой из пяти черт характера. Результат предсказания сравнивался с ground truth — результатами теста того же человека.

Средний коэффициент корреляции между реальными анкетами и предсказаниями нейросети составил 0,243. Много это или мало? ИИ оказался более проницательным, чем живой человек, который поговорил с незнакомцем несколько минут. Если же соревноваться в оценке по фотографии, то у Homo sapiens и вовсе нет шансов.

Иллюстрация выше показывает, как, по мнению нейросети, разные характеристики личности проявляются в чертах лица одних и тех же людей

Можно ли обмануть нейросеть? Смотря как. Макияж с контрастными полосами поперек лица или медицинская маска с темными очками помешают искусственному интеллекту работать. Но сделать так, чтобы ИИ считал по вашему лицу чужой характер, не получится — ведь своих методов работы нейросеть не раскрывает и вмешиваться в нее не дает. Так что шанс, что вам откажут в работе, потому что у вас форма ушей не такая, есть. А вот пластических операций по «улучшению физиогномики» пока ждать не стоит. По крайней мере до тех пор, пока нейросети сами не возьмутся за скальпель.

Евгений Осин, кандидат психологических наук, заместитель заведующего Международной лаборатории позитивной психологии личности и мотивации «Высшей школы экономики»:

Предыдущие мировые исследования показали, что даже при живом взаимодействии с незнакомым человеком корреляция между нашими оценками его личности и его реальными баллами по опросникам составляет в среднем примерно 0,2. Если же предложить людям оценивать личностные черты по статическим фотографиям, результат будет существенно хуже. ИИ демонстрирует намного более высокую точность. То, что нейросеть распознает черты характера, не значит, что она предсказывает поступки. Наше поведение гибкое, и спектр поведенческих реакций, соответствующих каждому уровню личностной черты, очень широк. А вот для таргетирования рекламы это может быть полезная история. Потребительские предпочтения могут быть связаны с личностными чертами, особенно если речь идет о такой крупной покупке, как автомобиль. Если человек экстраверт, он выберет что-то яркое, привлекающее внимание. Тот, кто открыт новому опыту, купит суперсовременную модель. Еще эта информация может быть полезна HR в крупных компаниях. Скажем, вам прислали резюме 10 000 человек, а нужно отобрать из них 1000. ИИ справится с этой задачей поверхностного предварительного отбора быстрее и точнее, чем рекрутер

Читайте также, какие существуют этические подходы к ИИ:

Использованные источники: Материал опубликован в журнале «Цифровой океан» № 20 (ноябрь-декабрь), 2023, Dimitri Otis / Stone / Getty Images, ozgurdonmaz / iStock.com, из архива Евгения Осина, Atefeh Shahroudnejad „A Survey on Understanding, Visualizations, and Explanation of Deep Neural Networks“, Olga Russakovsky et al. „ImageNet Large Scale Visual Recognition Challenge“ (cc by), из архива Евгения Осина, Joan Vicent Cantó Roig / iStock.com, mikkelwilliam / iStock.com, RyanJLane / iStock.com, из архива Евгения Осина