Ведущий научный сотрудник Гербария МГУ имени М.В. Ломоносова опубликовал в журнале Taxon результаты работы по созданию «Цифрового гербария МГУ». В рамках проекта «Ноев ковчег» (при поддержке Российского научного фонда) ученые за три года создали крупнейшую в России базу данных растений со всего мира. Уже сейчас «Цифровой гербарий МГУ» доступен всем желающим, а в будущем исследователи собираются обучить нейронную сеть определять правильность идентификации растений, а также создать «Атлас флоры России» и «Чеклист флоры России».
Коллекция Гербария МГУ насчитывает свыше миллиона образцов. В 2015 году в рамках проекта «Ноев ковчег» началась масштабная работа по ее переводу в цифровой вид: ученые сканировали образцы засушенных растений и вносили данные с этикеток. За три года сотрудники университета вместе с помощниками и компанией-партнером оцифровали более 900 тысяч записей — 89% коллекции. Помимо отсканированных образцов растений цифровой гербарий включает тексты оригинальных этикеток и географические координаты мест сбора растений. При оцифровке используется как помощь волонтеров, так и автоматические системы, распознающие штрихкоды и помогающие работать с географическими координатами. Так, алгоритм может определять место сбора растения, сопоставляя имя ботаника с датой обнаружения растения или группируя растения по текстовому описанию места на этикетке. Позднее координаты для каждой из таких групп прописываются вручную.
Большинство образцов растений Гербария МГУ было собрано на территории России — 634 тысячи. Хорошо представлена флора Украины (30 тысяч), Монголии (27 тысяч), еще 99 тысяч образцов получено из стран Центральной Азии, немало растений в коллекции было собрано в Мали, Вьетнаме и Северной Корее.
Материалы «Цифрового гербария МГУ» доступны на его сайте. Изображения получают лицензию
Параллельно с оцифровкой продолжается и активное пополнение коллекций. В 2016 году они выросли на 22 тысячи образцов, в
«В ближайшем будущем благодаря технологиям машинного обучения и нейронным сетям мы получим возможность автоматически проверять правильность идентификации коллекций сухих растений. Прошлый год стал поворотным: в 2017 году в мировой печати вышли сразу три публикации, посвященные автоматическому распознаванию растений по сканам. Технологии машинного обучения будут основаны на уже созданных и верифицированных библиотеках с изображениями сухих растений. Гербарий МГУ входит в семерку крупнейших цифровых гербариев мира, и, безусловно, его данные лягут в основу этого необычного футуриса», — рассказал автор статьи, ведущий научный сотрудник биологического факультета МГУ Алексей Серегин.
Собранная в рамках проекта база данных гербарных образцов поможет при создании «Атласа флоры России» и «Чеклиста флоры России». Атлас будет содержать сведения о распространении растений на территории страны, для него нужны данные и других российских гербариев, в том числе тех, которые пока не оцифрованы. «Чеклист флоры России» — стандартный перечень всех видов российской флоры, его можно составить на основе «Цифрового гербария МГУ» уже через два-три года. Оба проекта важны для документации и научного анализа разнообразия растений России и сохранения редких видов.
Справка:
Цифровой гербарий МГУ — крупнейшая в России база данных о разнообразии и распространении растений, основанная на сведениях о 827 тысячах образцов из Гербария имени Д.П. Сырейщикова. Она состоит из трех взаимосвязанных блоков — библиотеки высококачественных изображений гербарных образцов; базы данных текстовой информации, содержащейся в этикетках; геоинформационной системы с координатами мест сбора гербарных образцов.
Работы по созданию Цифрового гербария МГУ осуществляются под руководством ведущего научного сотрудника биологического факультета, доктора биологических наук Алексея Серёгина по гранту РНФ «Научные основы создания Национального банка-депозитария живых систем» (проект «Ноев Ковчег»). На сегодняшний день Цифровой гербарий МГУ занимает восьмое место в мире по числу отсканированных образцов, уступая коллекциям крупнейших научных центров, однако среди университетов занимает первое место.