Роман Фишман

Текст

Области мозга, которые у людей прошлого были заняты классификацией растений и животных, у нас отданы брендам и автомобилям. Так говорит биология. Мы с легкостью отличим седан от хетчбэка, но вряд ли знаем названия цветов, которые стоят на подоконнике. «Цифровой океан» отправился в поля, чтобы помочь сделать «Шазам» для растений

На моем подоконнике зеленеют гибискус, замиокулькас и нефролепис. Да, запомнить их невозможно, и я, конечно, их не помню. Просто пользуюсь искусственным интеллектом iNaturalist — ​«Шазамом»* для определения растений и животных. Любители природы накопили один из самых больших и тщательно размеченных массивов данных на планете. Десятки миллионов снимков вместе с точными метаданными дают возможность моментально определить вид животного или растения на фотографии. А чтобы сбор информации шел веселей, ученые устраивают для натуралистов соревнования City Nature Challenge (CNC). В них я и решил участвовать. Но сперва нужно войти в курс дела.

*«Шазам» (Shazam) — популярное мобильное приложение, позволяющее идентифицировать музыку по короткому отрывку и определить, что за песня играет в данный момент

Цифровой гербарий

Внешне iNaturalist, один из самых заметных проектов «гражданской науки», выглядит как социальная сеть для любителей природы. Его интерфейс во многом схож с привычными Facebook или «ВКонтакте». Новые наблюдения — ​снимки и метаданные — ​размещаются в личной ленте, а комментарии позволяют общаться с «френдами» и единомышленниками, немалую долю которых составляют профессиональные биологи, в том числе мирового уровня. Под этой оболочкой в системе накапливается огромный массив данных: фотографии с точными координатами и датами съемки.

Любители природы накопили один из самых больших и тщательно размеченных массивов данных на планете

«Классический способ сбора такой информации — ​гербарий*. Полная информация о месте, дате и сборщике записывается на этикетке, которая обязательно прилагается к высушенному растению. Но такая работа требует времени и знаний, и за день специалист вряд ли подготовит больше сотни образцов, — ​объясняет нам ботаник из МГУ Ксения Дудова. — ​А вот фотографий на смартфон можно сделать и тысячу, при этом знатоком быть не требуется: внешний вид растения сохранится на снимке, остальная нужная информация — ​время и место — ​в метаданных. Загруженные фотографии можно тут же разместить на карте и оценить распространение животного или растения».

Цифровой гербарий можно собирать вместе с детьми. Учебники биологии штудировать юным ботаникам не придется — достаточно зорких глаз, любознательности и смартфона. К тому же, вы точно будете знать, что ребенок уткнулся в экран телефона не потому, что бездумно скроллит ленту какого-нибудь там тиктока, а потому, что усердно пытается понять, какому растению принадлежат эти милые кружевные листочки.

Но для решения проблемы интернет-зависимости недостаточно одного образовательного приложения. Предложите ребенку впечатления в реальном мире. В лес, в горы, на вулканы — вместо привычной рутины «каждый в своем телефоне». О том, почему путешествие с детьми — это отличная идея и стоит затраченных усилий и потерянных нервных клеток, рассказали наши партнеры из туристической компании RussiaDiscovery.

Проанализировав фотографию, искусственный интеллект iNaturalist предложит варианты видовой принадлежности растения или животного

Проанализировав фотографию, искусственный	интеллект iNaturalist предложит варианты видовой принадлежности растения или животного

Эти оцифрованные данные — ​то, ради чего и существует проект iNaturalist. Они позволяют четко привязать наблюдения разных видов к определенному месту и времени. «Так можно найти новые точки встреч редких и охраняемых видов, отслеживать вторжения инвазивных организмов, строить модели их распространения, сравнивать нынешние и прошлые ареалы», — ​добавляет Ксения. А чтобы дополнительно мотивировать публику к поиску и сбору этой ценной информации, ученые устраивают соревнования.

Урожай данных

Крупнейшие из них — ​ежегодные международные состязания City Nature Challenge (CNC). Их участники стараются сделать как можно больше наблюдений и найти больше видов животных и растений, чем конкуренты из других городов. Первый «челлендж» CNC прошел в Калифорнии в 2014-м, и с тех пор каждый год, за исключением пандемийного 2020-го, он увеличивает масштаб и охват, сделавшись по-настоящему глобальным. Обычно здесь лидируют жители Лос-Анджелеса и Кейптауна, но движение CNC растет и в России.

В 2021 году соревнования прошли у нас уже в четвертый раз и собрали больше 800 участников-любителей и еще больше профессионалов. «Сами мы занудствуем, — ​говорит Ксения Дудова, — ​снимаем то, что большинство любителей обычно пропускает, замечая лишь броские и крупные цветы. Но мы можем позволить себе обращать внимание на тонкости, потому что знаем, что информацию по всему „яркому и обычному“ соберут и без нас. А вот с редкими, невзрачными и трудными в определении видами дело обстоит гораздо хуже. Некоторые такие пробелы могут закрыть только специалисты».

В inaturalist зафиксировано больше 80 миллионов встреч с растениями, животными и грибами

Все напоминает спортивное ориентирование, только контрольных пунктов здесь бесконечное количество. Вот и мы сверяемся с картой Новой Москвы, находя точки с наименьшим охватом, садимся в машину и едем на поиски. Без приключений обойтись не удается: в самом многообещающем месте обнаружился частный пансионат с суровой охраной и четырехметровым забором. Попытки подъехать с другой стороны привели нас на поле, захваченное растением, узнаваемым без всякого «Шазама»: борщевик Сосновского*.

* Борщевик Сосновского (Heracleum Sosnowskyi) — ​крупное травянистое растение, при контакте с соком которого на коже могут появляться тяжелые ожоги. Естественный обитатель горных лесов и лугов, в остальных районах является опасным инвазивным видом

Распознавание видов

База данных «цифрового гербария» не имела бы смысла без точного определения найденного вида, и в первые годы работы платформы iNaturalist с этим были проблемы. Тогда мой личный опыт оказался не слишком радостным: приложение не подсказало названий ни замиокулькаса, ни гибискуса. Эта задача требовала участия экспертов и занимала слишком долгое время. До сих пор на это уходит, по данным iNaturalist, до трех недель, хотя больше половины таких запросов закрываются за два дня. Но, как правило, все происходит моментально и автоматически, не требуя внимания людей.

В самом деле, за годы работы на платформе собран один из крупнейших массивов с «большими данными» в мире. На лето 2021 года в iNaturalist зафиксировано больше 80 миллионов встреч с растениями, животными и грибами, видовая принадлежность которых точно определена специалистами. Эти снимки, сделанные на пестром естественном фоне, под всеми возможными углами, представляют серьезный вызов для искусственного интеллекта и отличный датасет для его обучения. Недаром Google поддерживает ежегодные «челленджи» CNC и пользуется этими данными для совершенствования средств распознавания изображений.

Наши испытания показали, что видовую принадлежность растения на снимке нейросеть почти всегда определяет с первого раза

Наши испытания показали, что видовую принадлежность растения на снимке нейросеть почти всегда определяет с первого раза

При поддержке Google в 2017 году собственным искусственным интеллектом обзавелось и само приложение iNaturalist. Сотни тысяч любителей природы по всему миру неустанно «подкармливают» ее новыми снимками, позволяя каждый год переобучать нейросеть на основе все более и более внушительного массива данных. «В 20192021 годах под эгидой МГУ на платформе был проведен проект „Флора России“, собравший больше миллиона наблюдений, — ​добавляет Ксения Дудова. — ​Благодаря этому искусственный интеллект теперь неплохо распознает даже довольно редкие виды растений Сибири и Дальнего Востока».

Тем временем мы обогнули поле борщевика по ельнику: как заверили наши спутники-эксперты, ядовитое растение держится подальше от такого леса. А дальше начался луг, полный молодой травы, звенящей от недавно проснувшихся насекомых. Осталось достать смартфон и запустить «Шазам» iNaturalist. Светит яркое солнце, и камера различает даже отражение медуницы в луже и мать-и-мачеху в тракторной колее.

Ксения Дудова
Ксения Дудова, Кандидат биологических наук, сотрудница кафедры экологии и географии растений МГУ

У нашей научной группы накопился целый список идей, которые можно будет реализовать, когда плотность данных по Москве и России достигнет нужного уровня. Например, можно будет проверить теорию о том, что редкие и охраняемые виды чаще встречаются ближе к центру природных растительных массивов, а инвазивные — ​наоборот, ближе к краям. Или можно узнать, как работы по благоустройству парков и охраняемых территорий влияют на их биоразнообразие

Использованные источники: Материал опубликован в журнале «Цифровой океан» № 7, 2021, Ксения Дудова, City Nature Challenge 2021 Russia, Jecapix / iStock, laurent geslin / Nature PL / Legion-media, Виталий Кавтарадзе, Ксения Дудова, Ксения Дудова , City Nature Challenge 2021 Russia, Виталий Кавтарадзе