«Сколтех» визуализировал многомерные данные Это сделает датасеты более доступными
Специалисты порой имеют дело с базами данных, в которых каждый элемент наделен признаками сразу в нескольких измерениях. Если не уменьшить размерность датасета и не получить его двух- или трехмерное представление, обнаружить в данных закономерности бывает довольно сложно. В случае визуализации данных они станут интуитивно доступными, отмечают разработчики.
При этом у датасета может быть структура большого масштаба. Существуют разные подходы к снижению размерности данных. Некоторые из них используют автоэнкодеры — нейросети, создающие представления данных в меньшем количестве измерений. Однако большинство методов работают локально — учитывают положение каждой точки относительно ближайших соседей, но игнорируют крупномасштабную структуру датасета.
Ученые добавили в автоэнкодер функцию, которая сводит к минимуму различие в топологии между исходным датасетом и его представлением сниженной размерности. Для проверки точности воспроизведения топологии использовались датасеты разного наполнения и метрики, которые отражают сохранение взаимного расположения точек. Метод авторов исследования оказался наиболее точным.
Здесь мы разбирались, как происходит цифровизация нашей планеты:
Использованные источники: