Александр Пономарёв

Текст

Компания VK запретила роботу GPTBot от OpenAI обходить страницы сайта dzen.ru для индексации и автоматического сбора информации

Как сообщает «Коммерсантъ», в файле robots.txt, предназначенном для программ по автоматическому сбору данных с сайтов, появилась соответствующая директива. «Рекомендательная система «Дзена» — одна из самых больших в стране. Высоконагруженные сервисы работают беспрерывно и обрабатывают более 150 000 запросов в секунду», — пояснили в компании VK.

«Решение не включать GPTBot от OpenAI в файл принято для грамотного использования технического ресурса, чтобы не создавать дополнительную нагрузку. В «Дзене» регулярно создаются миллионы новых публикаций: как в текстах, так и в видеоформате, — мы направляем ресурсы на то, чтобы обеспечить качественный опыт нашим пользователям и авторам», — добавили в компании.

Файл robots.txt при этом носит по сути рекомендательный характер, поскольку технически ничего не запрещает роботам игнорировать прописанные в нем директивы. GPTBot используется для сбора информации, которая впоследствии используется для обучения нейросетевых продуктов OpenAI. Подобные роботы есть у «Яндекса» и Google — с их помощью поисковики поддерживают актуальные данные о сайтах. Для них доступ к «Дзену» компания VK не закрывала.

Здесь мы рассказываем, как работают роботы для анализа контента:

Читать на ЦО.РФ

Возлюби хейтера своего Как работают современные роботы для анализа контента

В России 66 миллионов пользователей как минимум раз в месяц оставляют публичные сообщения в интернете (по данным Brand Analytics). Как найти среди всех постов те, которые относятся лично к вам или к вашей компании? Нагуглить не получится. Понадобится специальная аналитическая система с поисковыми роботами, нейросетями для обработки сообщений и сверхбыстрой базой данных, размещенной сразу в нескольких дата-центрах. И оно того стоит: ведь репутация дороже денег

Использованные источники: Unsplash