Управління даними моніторингу навколишнього середовища

Хмарна платформа керування даними програми Комісії ООН з контролю за забрудненням повітря дозволяє точно виявляти проблемні області і створювати регіональні карти для кращого розуміння природи довгострокових транскордонним забрудненням.

21.11.2017 Олександр Ужінскій, Геннадій Ососков, Марина Фронтасьева

Забруднення повітря не тільки негативно впливає на різні компоненти екосистеми та здоров'я людини, а й веде до значних економічних втрат. Не дивно, що питання контролю забруднення навколишнього середовища мають велике значення для країн Європи і Азії і курируються спеціальною комісією ООН, в рамках якої реалізується програма по контролю за забрудненням повітря (UNECE ICP Vegetation), спрямована на визначення найбільш неблагополучних областей, створення регіональних карт і поліпшення розуміння природи довгострокових транскордонним забрудненням. Вивчення атмосферних випадінь важких металів, азоту, стійких органічних сполук і радіонуклідів в програмі базується на аналізі мохів-біомоніторов, що збираються кожні п'ять років в 39 країнах Європи та Азії [1] .

До недавнього часу отримані відомості зберігалися у вигляді таблиць Excel, які оброблялися вручну, а обчислення статистичних показників і створення карт розподілу забруднень виконувалося за допомогою пакетів Statistica і ArcGIS. Єдина база була відсутня, що істотно обмежувало можливості колективної роботи і аналізу тимчасових трендів. Щоб виправити цю ситуацію, в Об'єднаному інституті ядерних досліджень була розроблена платформа - набір взаємопов'язаних хмарних сервісів і засобів для управління і обробки даних біомоніторингу, що дозволяє спростити і автоматизувати етапи моніторингу, починаючи від вибору місць для збору зразків і закінчуючи генерацією карт розподілу забруднень і прогнозуванням змін в навколишньому середовищі [2] . У США є схожі проекти, але вони в основному орієнтовані на надання даних моніторингу широкого кола громадськості, а в Росії і Європі це перше рішення, що дозволяє всім фахівцям, залученим в мережу біологічного моніторингу, отримувати доступ до даних про забруднення навколишнього середовища.

При описі точок пробовідбору і результатів досліджень зразків може використовуватися від 10 до 80 різних слабо формалізованих параметрів. Дані міжлабораторних досліджень, аналізу стійких органічних сполук і радіонуклідів також не мають чіткої структури. Платформа повинна дозволяти зберігати дані, що не мають строгого формату, що виключає використання традиційних реляційних СУБД, тому для проекту була обрана система MongoDB, здатна підтримувати середовище моніторингу та проводити операції з неструктурованими даними. Для роботи платформи використовується інфраструктура IaaS OpenNebula [3] , Розгорнута в ОІЯД.

Сервер додатків для платформи біомоніторингу (див. Малюнок) написаний на PHP, а в якості веб-сервера використовується Nginx. Основна точка доступу до платформи - веб-портал, що дозволяє працювати з різними типами пристроїв. У відкритій частині порталу містяться інформація про проект і дані для загального користування, а закрита частина доступна зареєстрованим учасникам програми. Будь-який користувач може додавати дані по конкретним країнам і областям: пробовідбір, міжлабораторні дослідження і аналіз стійких органічних сполук. Для кожного типу даних в MongoDB створена окрема колекція: кожна точка пробоотбора зберігається в базі у вигляді окремого документа JSON-подібної структури, що містить як обов'язкові (ідентифікатор області, географічні координати, дата збору зразків і т. Д.), Так і додаткові параметри ( концентрації різних елементів). Існує можливість створення наборів даних безпосередньо в системі і імпорту даних з Excel. Для роботи з картографічною інформацією в веб-порталі використовується JavaScript-бібліотека Openlayers.

Платформа дозволяє працювати з даними космічних знімків, отриманими через python-інтерфейс з платформи Google Earth Engine, спільно з даними моніторингу стану навколишнього середовища. Всі ці відомості використовуються для навчання нейромережі прогнозування концентрації важких металів в певних географічних координатах. Вся статистична обробка, яка раніше вироблялася в сторонніх пакетах, тепер реалізована засобами PHP, що дозволило не використовувати пакет Statistica. З'явилися нові можливості розрахунку різних біологічних факторів і індексів. Є спеціалізований розділ для перевірки даних на статистичну коректність - користувач повідомляється про наявність вибиваються із загальної картини концентрацій елементів. Подібне може траплятися як внаслідок природних причин (наприклад, зразки були взяті недалеко від вогнища забруднення), так і з-за помилок при внесенні даних. У платформі реалізований механізм для аналізу і контролю даних за допомогою карт; на них місця збору зразків представлені у вигляді кіл, площа яких залежить від концентрації шкідливого елемента. Учасники програми можуть надавати відкритий доступ до своїх картах і статистичним викладкам.

Для взаємодії з мобільним додатком і сторонніми сервісами, яким потрібен доступ до загальнодоступних даними біомоніторингу, в рамках платформи реалізований RESTful-сервіс. Учасники програми можуть зберігати дані про точках збору (координати, висота над рівнем моря, тип місцевості, вид моху та ін.) Для подальшої передачі і запису в систему зберігання платформи, що прискорює дослідження. Таким чином, відпадає необхідність проміжного збереження даних про точках збору (наприклад, в Excel, як було раніше) - дані безпосередньо передаються в сховищі платформи.

За допомогою платформи вирішується і ще одне важливе завдання - прогнозування зміни відслідковуються параметрів. Після накопичення достатньої кількості даних за історично значимий період спостережень можна будувати прогнозні моделі забруднення повітря. Особливий інтерес представляють завдання прогнозування концентрації елементів і побудова карт забруднень. У UNECE ICP Vegetation для цих цілей традиційно використовується система ArcGIS, інтерфейс з якою мається на платформі. Однак є й інші підходи до прогнозування - наприклад, використання нейромереж, які навчаються на різних кількісних показниках з точок збору зразків і даних про концентраціях елементів. За допомогою подібних методів можна отримати значення концентрацій елементів для мережі з потрібною розмірністю, що дозволить застосувати інтерполяційні методи без коригування з боку користувача.

Найбільш перспективним джерелом кількісних показників для навчання нейромережі є космічні знімки в різних спектральних каналах. Звичайною практикою при реалізації такого класу задач є використання загальнодоступних знімків з проектів LandSat або MODIS з їх подальшою обробкою в пакетах ENVI або ERDAS. Однак файли зображень досить об'ємні, а щоб покрити область країни або регіону, потрібно кілька зображень. Крім того, незважаючи на наявність різних пакетів для пошуку знімків, їх функціонал обмежений, процес отримання зображень і вилучення статистичних показників з них вкрай ресурсномісткий і складний для автоматизації. Виходом може бути використання системи Google Earth Engine, що надає інструменти пошуку та аналізу знімків і геоданих від різних постачальників. Є також інтерактивна оболонка для розробників на JavaScript і програмний інтерфейс на Python. Для платформи був розроблений програмний модуль, що дозволяє отримати кількісні показники зі знімків різних спектрів в заданих координатах і їх кореляції з концентраціями елементів в точках збору зразків.

***

Запропонована хмарна платформа надає учасникам програми ICP Vegetation інструменти, що дозволяють підвищити якість і швидкість обробки даних біомоніторингу, розширити можливості взаємодії між учасниками, забезпечити базу для аналізу ретроспективних відомостей і організувати доступ до всієї наявної інформації, що дає можливість активізувати роботи з прогнозування поширення транскордонним забрудненням. Зараз в системі міститься інформація про більш ніж 6 тис. Точок пробовідбору в 40 країнах, а учасники програми можуть в режимі онлайн аналізувати дані, проводити порівняння з іншими регіонами, будувати карти забруднень та ін. Платформа може бути використана і для інших областей зі схожим процесом досліджень - наприклад, для моніторингу стану грунтів або водних ресурсів.

  1. Harmens H. and Mills G. (Eds.) Air Pollution: Deposition to and impacts on vegetation in (South) -East Europe, Caucasus, Central Asia (EECCA / SEE) and South-East Asia. Report prepared by ICP Vegetation, March 2014. ICP Vegetation Programme Coordination Centre, Centre for Ecology and Hydrology, Bangor. UK. - 2014. - 72 p.
  2. Н. Кутовскій, А. Нечаєвський, Г. Ососков, А. Ужінскій, М. Фронасьева. Хмарна платформа керування даними біомоніторингу проекту Комісії ООН по повітрю Європи ICP VEGETATION // Геоінформатика. - 2017. - № 2. - С. 11-16. ISSN 1609-364.
  3. Н.А. Балашов, А.В. Баранов, В.В. Кореньков, Н.А. Кутовскій, А.В. Нечаєвський, Р.Н. Семенов. Хмарний сервіс ОІЯД: статус і перспективи. Праці Інституту системного програмування РАН. ISSN: 2079-8156, eISSN: 2220-6426. - 2015. Т. 27, № 6. - С. 345-353. URL: http://ispras.ru/proceedings/docs/2015/27/6/isp_27_2015_6_345.pdf (Дата звернення: 05.12.2017).

Олександр Ужінскій ( [email protected] ) - провідний програміст, Геннадій Ососков ( [email protected] ) - головний науковий співробітник, Марина Фронтасьева ( [email protected] ) - керівник сектора нейтронного активаційного аналізу та прикладних досліджень, ОІЯД (Дубна).