26.09.2023

Нейросеть нейросетей Как устроен инновационный продукт «Мультикриейтор»

Текст Сергей Апресов

На словах все гладко: по просьбе человека нейросеть может нарисовать эффектную картинку и написать складный текст. На деле получить от ИИ желаемый результат настолько сложно, что для этого появилась новая профессия — промпт-инженер. Чтобы использовать нейросети в реальной бизнес-практике, нужны отдельные программные продукты. «Цифровой океан» посмотрел, как они создаются

В офисе АО «Нейросети» проектор выводит на стену презентацию, в которой все четко и ясно. Пользователь вводит запрос (скорее даже поручение): «Сформулируй идею бизнеса по продаже съедобных стаканчиков из тростника в Индии; придумай логотип и брендинг, упакуй в презентацию». Анимация изображает закипающую работу: ChatGPT пишет тексты, Midjourney создает иллюстрации, третья нейросеть с незнакомым названием верстает из всего этого эффектный коллаж. «А главное, вся работа делается на собственных серверах клиента, поэтому ценные идеи и чувствительная к утечкам информация остаются внутри компании», — добавляет Сергей Курьян, CEO АО «Нейросети». Очень интересно, но ничего не понятно. Как это — Midjourney работает на серверах клиента? А как в ответ на максимально абстрактный запрос оркестр из нейросетей выдал целую концепцию бренда? Просим Сергея приготовиться: разговор об инновационном продукте «Мультикриейтор» будет долгим.

Инновация 1. Локальные нейросети

Если бы языковая модель GPT‑3 обучалась на обычном компьютере, процесс занял бы 355 лет. Такое время потребовалось бы для подбора 175 млрд параметров — числовых коэффициентов, которые определяют работу каждого нейрона в этой гигантской нейросети. Впрочем, стоит ли называть ее гигантской — большой вопрос: актуальная модель GPT‑4 почти в 1000 раз больше предшественницы и содержит 170 трлн параметров.

Разработчик языковых моделей компания OpenAI задействует настолько большие вычислительные мощности, что экологи из Массачусетского технологического института взялись подсчитать ее влияние на окружающую среду. Получилось не так много — примерно как пять бензиновых автомобилей. Но и не так мало: в мире компании, обладающие подобными мощностями, можно пересчитать по пальцам. Как же «Нейросети» собираются разворачивать языковые и графические модели на мощностях клиентов?

ЭМОЦИОНАЛЬНЫЙ ИНТЕЛЛЕКТ. Большинство нейросетей относятся к классам дискриминативных или генеративных алгоритмов. Дискриминативные умеют распознавать отдельные объекты. К примеру, нейросеть может обнаружить на фотографиях столы и стулья. Если показать ей кошку, она укажет, что это стол, так как кошка больше похожа на стол, чем на стул. Генеративные нейросети представляют себе концепции самых разных предметов и могут создавать изображения (или текстовые описания) вещей, которых не было. К примеру, Midjourney по текстовому запросу может изобразить семиглазого кота в лучах звездного света. Систему «Мультикриейтор» можно назвать генеративно-коммуникативной. Чтобы решить поставленную задачу, она задает пользователю дополнительные вопросы — никто из «грандов» нейросетей так не может. Кроме того, компания «Нейросети» строит все свои продукты вокруг «технологического ядра», суть которого состоит в распознавании эмоциональной реакции пользователя на тот или иной контент. С разрешения пользователя «Мультикриейтор» сможет не только спрашивать, насколько тот доволен результатом, но и считывать его эмоции через видеокамеру.

Дело в том, что обучение нейросети и ее работа — совершенно разные процессы. Процесс подбора тех 170 трлн параметров невероятно ресурсоемкий. Однако когда их значения уже известны, вся GPT‑4 занимает всего 45 гигабайт, и гипотетически ее можно скачать на любой компьютер и даже смартфон.

Гипотетически — потому что OpenAI не заинтересована в том, чтобы ее дорогостоящий продукт скачивали все желающие. Зато заинтересованы многие другие разработчики, которые могут обучать свои нейросети на основе GPT‑4 по принципу «глубокого обучения» (deep learning) — когда одна нейросеть учит другую. Например, новая нейросеть Vicuna демонстрирует эффективность в 90 % от ChatGPT, хотя это малобюджетный проект.

Сергей Курьян, CEO АО «Нейросети»:

Мы можем развернуть нейросеть практически с любым функционалом на мощностях клиента. При этом мы дообучаем ее, дополняем данными из базы заказчика. Дообучение заключается не столько в изменении параметров нейросети, сколько в добавлении контекста. Что такое контекст, понимает каждый, кто хоть раз пользовался ChatGPT: вместо того чтобы каждый раз писать бесконечно длинный запрос со всеми входящими данными, можно вести с нейросетью диалог, с каждой репликой уточняя свои пожелания. Также мы планируем предложить заказчикам облачный сервис, который будет работать на нашем оборудовании. В этом случае мы также гарантируем защиту от утечек чувствительных данных в сеть

Инновация 2. Внутренний цензор

В марте OpenAI была вынуждена временно отключить ChatGPT из-за «ошибки в работе библиотеки с открытым исходным кодом», которая позволила некоторым пользователям видеть сообщения других людей, общавшихся с чат-ботом. Расследование инцидента показало, что скомпрометированной могла оказаться и личная информация некоторых платных подписчиков сервиса: имейлы, платежные адреса, последние четыре цифры и сроки действия кредитных карт.

В ответ на этот и подобные инциденты Италия полностью заблокировала ChatGPT на территории страны. Позже, после того, как OpenAI отчиталась об исправлении ошибок, связанных с сохранностью персональных данных пользователей, запрет был снят.

Практика показала, что доверять чувствительные данные облачному ИИ недопустимо. Однако использовать лишь его локальные версии тоже неправильно: «флагманские» нейросети постоянно совершенствуются, и не пользоваться ими — значит отстать от жизни. В проекте «Мультикриейтор» разрешить дилемму помогает модуль цензуры. Это отдельная нейросеть, которая обучена выявлять в текстах и изображениях чувствительную информацию. Задача не так проста: например, программа должна отличить прайс-лист товарной продукции от конфиденциальной финансовой отчетности, а паспорт руководителя — от фото на фоне пресс-волла.

Открытые и конфиденциальные данные обрабатываются по-разному

«Мультикриейтор» по-разному обрабатывает открытую и конфиденциальную информацию. Чувствительные данные извлекаются из общего массива. То, что осталось, можно отправить во внешние платные нейросети, такие как ChatGPT, Kandinsky 2.1 и другие. Секретная информация тоже обрабатывается, но уже локальными нейросетями, без отправки в сеть. Когда все участники «оркестра нейросетей» сыграли свои партии, их результаты собираются в целостный ответ, презентацию или иной творческий продукт.

У локальных и облачных решений свои плюсы и минусы. Облачные всегда на шаг впереди технически, они выдают более совершенный результат. Локальные сервисы защищены от утечек, и чем больше задач решается на собственных мощностях, тем целостнее будет финальная презентация. Здорово, когда можно свободно комбинировать решения из двух миров».

Сергей Курьян, CEO АО «Нейросети»:

Модуль цензуры работает не только внешним, но и внутренним „цензором“ — через него реализуются уровни доступа к чувствительной информации среди сотрудников компании. К примеру, топ-менеджеру будут доступны все данные, а рядовой клерк финансовую отчетность уже не увидит

Инновация 3. Бизнес-сценарии

Максимальный размер промпта в Midjourney ограничен 6000 знаков, и некоторые пользователи считают его недостаточным. Как «Мультикриейтор» создает целые концепции по одной фразе пользователя? Короткий ответ заключается в том, что «Мультикриейтор» — это специальный инструмент для решения бизнес-задач, и эти задачи заранее изучены и каталогизированы разработчиком.

Когда пользователь задает свой вопрос, «входная» нейросеть распознает его речь и выделяет в ней «интент». Этот термин переводится с английского как «намерение». Число «интентов» ограничено, и под каждый из них заранее написан сценарий. Например, пользователь просит заказать билеты на самолет. В сценарии написано, что у него следует уточнить пункты отправления и назначения, уточнить желаемое время полета, предпочтения в еде и другие параметры. Когда все переменные будут указаны, «Мультикриейтор» отправит запрос на сайт бронирования билетов.

Из «мимолетного виденья» идея превращается в законченную концепцию

Пример посложнее: придумать концепцию продукта. Для этого тоже есть сценарий, который среди прочего включает в себя типовые (самые универсальные и эффективные) промпты для создания атрибутов бренда: названия, слогана, логотипа, визуальной айдентики. Если для выполнения сценария не хватает данных, «Мультикриейтор» задаст пользователю дополнительные вопросы через языковую модель. Со стороны это выглядит как беседа с сообразительным референтом. На самом же деле в сценариях зашит обобщенный бизнес-опыт создателей платформы.

Сергей Курьян, CEO АО «Нейросети»:

Наш инструмент предназначен прежде всего для руководителей и владельцев бизнеса. Это люди, которые понимают ценность идей. Сами по себе идеи не редкость. Но как только ты свою идею передал другому человеку, она уже изменилась, какие-то нюансы пропали. Пока дело дойдет до исполнителей, идея растворится, от нее ничего не останется. „Мультикриейтор“ помогает сформулировать идею, оформить и даже провести быструю первичную экспертизу: свериться со всем интернетом, насколько она нова и реализуема. Из „мимолетного виденья“ идея превращается в законченную концепцию, воплощенную в удобной визуальной форме. Это уже почти план, который можно претворять в жизнь

ГЛОССАРИЙ. ДЕСЯТКА УМНЫХ

GPT‑4

Большая языковая модель, созданная компанией OpenAI. Запущена 14 марта 2023 года. Попробовать GPT‑4 в деле могут пользователи чат-бота ChatGPT и Bing, поисковика от Microsoft.

Midjourney

Популярная нейросеть для создания графики. В 2023 году фейки, созданные с помощью Midjourney, стали вирусными: многие пользователи приняли их за реальные фотоснимки. Среди сюжетов — арест Дональда Трампа и Папа Римский Франциск в пуховике.

DALL-E

Модель для генерации изображений по текстовым описаниям от компании OpenAI. Название нейросети отсылает к мультяшному роботу WALL-E и художнику Сальвадору Дали.

Stable Diffusion

Нейросеть для генерации изображений с открытым исходным кодом и значениями параметров. Ее можно бесплатно скачать и установить на любой компьютер с дискретной видеокартой и 8 гигабайтами оперативной памяти.

Kandinsky 2.1

Нейросеть для генерации изображений, созданная «Сбером». Обладает рядом оригинальных функций, например позволяет заменять отдельные части готовых изображений на фрагменты, сгенерированные нейросетью.

YandexGPT

Языковая модель от «Яндекса». Среди ее особенностей — интеграция с языковым помощником «Алиса» (то есть возможность не только переписываться, но и разговаривать с нейросетью) и функция составления кратких резюме из длинных текстов.

«Шедеврум»

Графическая нейросеть от «Яндекса». Наиболее удобна для простых пользователей, так как работает в мобильных приложениях. Первая версия обучена на 240 млн примеров, последующее дообучение ведется как минимум на 500 примерах.

Vectorizer.AI

Нейросеть для перевода растровой («пиксельной») графики в векторную. Незаменима для создания логотипов, которые принято создавать и использовать только «в векторах».

Amper Music

Одна из самых простых в использовании нейросетей для создания музыки. Чтобы сгенерировать трек, достаточно описать его словами, при желании указав темп, стиль, настроение и набор музыкальных инструментов.

Visper

Виртуальный диктор. Чтобы создать видеопрезентацию или новостной сюжет, нужно написать текст и расставить в нем смысловые акценты, выбрать виртуального персонажа, подсказать ему жесты и загрузить фон, например презентацию.

Читайте также простое объяснение в картинках, как работают нейросети:

Использованные источники: Материал опубликован в журнале «Цифровой океан» № 18 (июль-август), 2023, Alexaretouch / Dreamstime.com / Legion-media, Nitant Mestry / Dreamstime.com / Legion-media, Марина Ким, Liudmila Habrus / Dreamstime.com / Legion-media, BiancoBlue / Dreamstime.com / Legion-media