19.01.2024

VK открывает бигдату Бизнес получит доступ к сервису

Текст Павел Иевлев

VK Cloud запускает Cloud Spark для обработки больших данных и машинного обучения

Компания VK Cloud объявила о запуске Cloud Spark – нового сервиса, предназначенного для обработки больших данных с использованием технологий Apache Spark и Kubernetes. Этот сервис призван предоставить предприятиям возможность структурировать данные из различных источников, облегчая тем самым создание аналитических и прогностических систем, а также моделей машинного обучения.

Одним из ключевых преимуществ Cloud Spark является его экономичность. Сервис разработан таким образом, чтобы сократить расходы на вычислительные ресурсы до 60 % при работе с большими данными. Это достигается за счет автоматического масштабирования Kubernetes в зависимости от текущей рабочей нагрузки, что оптимизирует использование ресурсов.

Cloud Spark поддерживает распределенную пакетную и потоковую обработку как неструктурированных, так и слабоструктурированных данных. Он может интегрировать данные из широкого спектра источников, включая S3, ClickHouse, Kafka и другие. Сервис обеспечивает эффективную работу с большими данными за счет оптимизации и кэширования в памяти, позволяя быстро выполнять аналитические запросы к наборам данных практически любого размера.

Сервис особенно удобен для задач Data Science и аналитики. Он поддерживает разведочный анализ данных (EDA) и обучение моделей машинного обучения с минимальными затратами на инфраструктуру. Cloud Spark позволяет аналитикам и специалистам по исследованию данных легко получать доступ к данным из различных источников и запрашивать их с помощью SQL. Кроме того, разработчики машинного обучения могут использовать интегрированную библиотеку MLlib для построения и обучения моделей машинного обучения.

Для чего нужны «облака»: