Для включения в обучающий набор данных у того или иного вида растений, грибов или животных должно быть более 100 фотонаблюдений в базе, половина наблюдений при этом должна быть верифицирована вручную. Из 7407 видов, отмеченных в проекте «Флора России», 36% видов растений надёжно узнаются нейросетевыми алгоритмами. Однако эти виды покрывают 94,5% всех загруженных пользователями находок.
«Разработка алгоритмов распознавания биологических видов по фотографиям – это результат работы большой команды под руководством американских коллег из Силиконовой долины, – рассказал ведущий научный сотрудник биологического факультета МГУ, доктор биологических наук Алексей Серегин. – Задача нашей группы заключается в постоянном мониторинге тысяч фотографий, поступающих от российских пользователей платформы, и их надёжном определении. Именно рост числа достоверных находок по редким и эндемичным видам флоры России, в том числе из труднодоступных мест, позволил столь радикально увеличить покрытие системы».
Впрочем, географическое покрытие данными пока неравномерно. Так, модель автоматического распознавания видов охватывает уже свыше 99% наблюдений из регионов Средней России, 97% из Свердловской области и 93% из Алтайского края. В то же время, горы и другие места концентрации биологического разнообразия, столь интересные учёным, пока хуже знакомы искусственному интеллекту. Так, в Краснодарском крае и Крыму нейронная сеть может распознать около 83% изображений, в Горном Алтае – 76%, а в Дагестане только 61%. В богатейшей флоре юга Приморского края, которая включает виды тропического происхождения, пока распознается лишь половина фотографий.
В 2021 году пройдет масштабный конкурс для специалистов по машинному обучению iNat Challenge 2021. Цель конкурса: применить современные подходы к автоматической классификации изображений для реальных данных в виде миллионов фотографий живых существ, определенных экспертами. Лучшие команды будут приглашены для презентации своей работы.
Роль непрофессиональных исследователей в сборе данных о биоразнообразии трудно переоценить: свыше 1,7 млн участников iNaturalist сделали около 73 млн наблюдений по всему миру, в т.ч. 1,5 млн фотографий растений России. В этой работе принимает участие около 15 тыс. российских пользователей платформы, а многие университеты России используют платформу iNaturalist в учебном процессе. Любой пользователь может присоединиться к сбору данных о биоразнообразии России, а собираемые участниками данные находятся в открытом доступе.
Совершенствование нейросетевых алгоритмов поможет учёным систематизировать поток данных о биоразнообразии. Собранные материалы по растениям нашей страны лягут в основу «Атласа флоры России», который создаётся учеными Московского университета по гранту РНФ.
Рис. Система автоматического распознавания живых организмов знает уже 59 видов осок (Carex) флоры России и доступна в виде глобального онлайн-сервиса.