Ученые Алтайского госуниверситета совместно с Yandex Cloud разработали систему на базе искусственного интеллекта, которая отслеживает распространение растений. В блоге Yandex Cloud на крупнейшей в рунете площадке для предпринимателей vc.ru ученый-биолог, старший научный сотрудник Южно-Сибирского ботанического сада АлтГУ Алексей Ваганов рассказал, как работает технология и зачем она нужна в науке и сельском хозяйстве.
От объема растений — продовольственных, лекарственных, кормовых — зависит ассортимент аптек и магазинов, а также цены на товары. А фермерам хотелось бы, чтобы урожай не уничтожили сорняки. Мы в АлтГУ разработали лабораторию, в которой можно строить прогнозы по распространению растений на любой территории. Рассказываю, с чего всё начиналось, чего мы достигли и что будем развивать дальше.
Как и зачем биологи начали классифицировать данные
В биологических коллекциях ученых и натуралистов-любителей можно найти и материалы 500-летней давности. Накоплением данных занимались давно, но только в последние десятилетия их начали обрабатывать. Тогда информация из таблиц, записей и личных компьютеров стала переходить в онлайн.
Чтобы собрать все материалы в одном месте, в 1999 году по заказу ОЭСР была создана Глобальная информационная система по биоразнообразию (Global Biodiversity Information Facility, GBIF). Сейчас в ней более 2 млрд записей.
Помимо коллекций ученых, один из источников данных для GBIF — платформа iNaturalist, на которую натуралисты и ученые загружают фотографии растений и животных с геопривязкой. Любитель может добавить фото и предположить, что это за вид, далее соответствие оценивается с помощью компьютерного зрения, а в конце определение проверяет ученый-биолог. Сегодня на платформе GBIF собрано более 72 тысяч баз данных.
Ученые используют эти данные в исследованиях и научных работах, чтобы изучать определенный вид, оценивать его популяцию и угрозу исчезновения, строить эволюционные теории.
Зачем все эти данные кому-то, кто не биолог
Прогнозы по поведению растений и животных нужны и государственным службам, и фермерам, и любителям природы.
Системе здравоохранения важно понимать, как распространяются инфекционные и вирусные организмы, а фитосанитарному контролю — как ведут себя инвазионные виды, такие как борщевик и колорадский жук. Для продовольственного планирования необходима оценка биоресурсов: сколько урожая будет в этом году.
В перспективе возможно введение лицензий на сбор растений на определенной территории — по аналогии с разрешением на охоту. Это особенно актуально для компаний, которые изготавливают фитосборы и собирают дикорастущие, в том числе лекарственные, растения.
Еще прогнозная модель поможет пожарному надзору. Чтобы оценить, как будет распространяться огонь и какие виды пострадают, важно знать, какая растительность в очаговом районе и на территориях вокруг.
Фермеры могут использовать систему для борьбы с агрессивными видами растений. Аллергикам стоит смотреть за распространением аллергена при планировании отпуска и выборе места для жизни. Любители отдыха на природе могут строить маршруты, опираясь на прогнозы о том, где они встретят то или иное растение.
Наша разработка: от коллекций на полках до виртуальной лаборатории
Мы собирали коллекцию алтайских растений — «Гербарий ALTB» — последние 30 лет. По величине она занимает четвертое место среди российских вузов.
К GBIF университет присоединился в 2017 году и с тех пор внес в систему 50 571 запись и соответствующее ей изображение гербарного листа. И это пока чуть более 10% всей коллекции АлтГУ.
В этому году в АлтГУ начался первый большой проект с применением методов информатики биоразнообразия — по фиторазнообразию Алтайской горной страны. Мы автоматизировали инвентаризацию конспектов растений и повысили точность карт для современных ареалов. Наша оцифрованная коллекция стала самой большой в мире по этой территории.
И наконец, на основе больших данных мы начали работать над системой, которая позволяет предсказывать распространение растений на определенной территории.
Как система выглядит сейчас
В виртуальной лаборатории можно отслеживать распространение растений на любой территории. Для анализа достаточно загрузить датасет — свой или из GBIF.
Пока система рассчитана на научных сотрудников. Например, им нужно выявить реальный и потенциальный ареал обитания ценного алтайского растения красный корень. Для этого они загружают уже имеющиеся данные о местонахождении этого вида.
Далее откроется карта с точками, где обитает этот вид в природе. Пользователи выбирают территорию, которую хотят исследовать, и система моделирует по ней потенциальный ареал обитания.
Ученые сами выбирают прогнозную модель и метод генерации фоновых точек.
При прогнозе модель учитывает накопленные данные по разным территориям: самая высокая и самая низкая температура, влажность, осадки, тип почвы. Коллекции данных, на которых обучалась система, тоже можно выбрать.
Результат появляется в виде тепловой карты. Каждый пиксель соотносится с неким значением от 0 до 1 — это вероятность произрастания данного вида на территории. Например, 0,3 — 30% — маловероятно, а 1 — 100% — вероятность встречи с видом крайне высока.
Для работы с данными мы используем облачную платформу Yandex Cloud. В частности, храним там датасеты для обучения алгоритма. Для визуализации аналитики пока пользуемся бесплатными системами — возможно, заменим их на Yandex DataLens.
В Австралии существовал похожий проект по прогнозированию биоразнообразия и климата — BCCVL (Biodiversity and Climate Change Virtual Lab). Теперь на его основе появится другая платформа для экологического моделирования — EcoCommons. Отличие нашей системы в том, что, помимо визуализации на карте, она может оценить, какую территорию занимает вид. То есть 90%-ная встречаемость — это сколько в квадратных километрах.
Как система будет работать в будущем
Мы упростим сервис так, чтобы им мог пользоваться кто угодно. Например, точки присутствия вида будут загружаться из GBIF — фермеру или путешественнику не придется самостоятельно искать и загружать датасеты.
Пользователю нужно будет ввести название растения — узнать его можно через iNaturalist. Возможно, в дальнейшем мы добавим идентификацию по фотографии в свою систему. Далее пользователь выберет территорию, по которой ему нужен прогноз. Например, можно задать определенный радиус от своего местоположения или указать любой другой регион.
Такие функции появятся в приложении для любителей, которое мы планируем разработать через полтора года. А в браузерной версии будут расширенные возможности для профессионалов.
С публикацией полностью можно ознакомиться на платформе vc.ru.