31.01.2022

Новая технология поможет ИИ ориентироваться Она помогает распознавать объемные объекты в плоской картинке

Текст Павел Иевлев

Ученые кафедры электротехники и вычислительной техники в Университете штата Северная Каролина разработали новую технику, называемую MonoCon

Технология MonoCon улучшает способность программ искусственного интеллекта идентифицировать трехмерные объекты и то, как эти объекты соотносятся друг с другом в пространстве, используя двумерные (2D) изображения. Это очень актуальное исследование, потому что все ИИ, которым требуется ориентироваться в пространстве – в первую очередь это наземные и воздушный беспилотники – получают информацию с видеокамер, то есть с источников 2D-изображения. При этом требуется интерпретировать их как 3D-объекты. Люди пользуются для этого бинокулярным зрением, а вот большинству беспилотников требуется отдельное техническое устройство – лидар, который измеряет расстояние до объектов.

Лидар – довольно дорогая штука, и если бы ИИ удалось вычленять объем из плоской картинки, как это делает человек, это бы существенно упростило и удешевило автономную навигацию. MonoCon способен идентифицировать 3D-объекты на 2D-изображениях и помещать их в «ограничивающую рамку» – фрейм, который сообщает ИИ, где находятся внешние границы соответствующего объекта.

Система работает по принципу «обучения» – ученые тренируют ИИ, показывая ему 2D-изображения и размещая 3D-ограничительные рамки вокруг объектов. ИИ прогнозирует расстояние между камерой и автомобилем. Затем тренеры «корректируют» ИИ, давая ему правильные ответы. Со временем это позволяет ИИ все лучше и лучше идентифицировать объекты и ориентироваться в них.

Использованные источники: