15.05.2024

Google выпустила ИИ с естественной речью и машинным зрением Его назвали Gemini Live

<i>Google </i>выпустила ИИ с естественной речью и машинным зрением

Текст Александр Пономарёв

На конференции Google I/O 2024 корпорация представила ИИ Gemini Live, который умеет вести голосовые диалоги, способен видеть окружение пользователя и реагировать на него

Gemini Live представляет собой симбиоз платформы машинного зрения Google Lens и виртуального помощника Google Assistant. В корпорации отмечают, что система использует новые методы генеративного ИИ, чтобы обеспечить более точный анализ изображений, сочетая их с улучшенным речевым движком для более реалистичного диалога.

Используемые в Gemini Live технологии связаны с Project Astra — концепцией DeepMind по созданию приложений и агентов на базе ИИ с поддержкой понимания нескольких источников данных в реальном времени — текста и мультимедиа. Gemini Live сможет отвечать на вопросы о предметах и обстановке в поле зрения камеры смартфона — причем не только в реальном времени, но и вспомнить о том, что было раньше.

Способность запоминать стала возможной благодаря архитектуре модели в основе ИИ — Gemini 1.5 Pro. У нее весьма емкое контекстное окно, поэтому она может обрабатывать большое количество данных, прежде чем подготовить ответ. Gemini Live может стать полноценным виртуальным ассистентом — давать полезные советы, придумывать идеи и так далее.

Бесплатным ИИ от Google не будет — после запуска в конце года Live станет эксклюзивом для Gemini Advanced, более сложной версии Gemini, которая доступна подписчикам плана Google One AI Premium за 20 долларов в месяц.

Здесь мы рассказываем об аналогах знаменитого ChatGPT от OpenAI: