Анотація. Мета роботи полягає у дослідженні та розробці комбінованого методу детекції об'єктів на зображеннях, отриманих з безпілотних літальних апаратів, що використовує мультимодальне злиття RGB та термальних даних у поєднанні з темпоральною обробкою послідовних кадрів для підвищення точності та надійності розпізнавання. Методологія базується на аналізі сучасних підходів до обробки мультимодальних зображень, включаючи методи раннього, середнього та пізнього злиття (фузії), темпоральної агрегації з використанням механізмів attention, а також оцінки невизначеності через алеаторну та епістемічну компоненти. Запропонований метод Uncertainty-Guided Spatio-Temporal Multi-Modal Fusion (UG-STMF) інтегрує адаптивне зважування модальностей на основі оцінки якості термального каналу, темпоральну агрегацію з урахуванням зміщення ракурсу камери та ієрархічну оцінку невизначеності з трьох джерел. Наукова новизна полягає у перетворенні зміщення кута огляду між послідовними кадрами з проблеми на інформативну ознаку через введення метрики angular diversity score, розробці модуля Weather-Aware Weighting для динамічного регулювання внеску термального каналу залежно від погодних уфмов, а також у створенні композитного критерію впевненості, що враховує темпоральну консистентність, кутову різноманітність та мультимодальну узгодженість.
Теоретичний аналіз та дані з подібних досліджень вказують на потенціал підвищення повноти виявлення об'єктів на 15-25% та точності на 10-18% порівняно з обробкою окремих RGB-кадрів, а також зниження помилкових спрацювань у 2-3 рази при несприятливих погодних умовах.
Ключові слова: детекція об'єктів, безпілотні літальні апарати, мультимодальне злиття, термальні зображення, темпоральна обробка, оцінка невизначеності.
Abstract. The aim of the work is to research and develop a combined method for object detection in images obtained from unmanned aerial vehicles, which uses multimodal fusion of RGB and thermal data in combination with temporal processing of sequential frames to improve the accuracy and reliability of recognition. The research methodology is based on the analysis of modern approaches to multimodal image processing, including early, middle and late fusion methods, temporal aggregation using attention mechanisms, and uncertainty estimation through aleatoric and epistemic components. The proposed Uncertainty-Guided Spatio-Temporal Multi-Modal Fusion (UG-STMF) method integrates adaptive weighting of modalities based on thermal channel quality assessment, temporal aggregation considering camera viewing angle displacement, and hierarchical uncertainty estimation from three sources. The scientific novelty lies in transforming the viewing angle displacement between sequential frames from a problem into an informative feature by introducing the angular diversity score metric, developing a Weather-Aware Weighting module for dynamic regulation of thermal channel contribution depending on weather conditions, and creating a composite confidence criterion that considers temporal consistency, angular diversity and multimodal agreement. Conclusions: theoretical analysis and data from similar studies indicate the potential to increase object detection recall by 15-25% and precision by 10-18% compared to processing individual RGB frames, as well as reduce false positives by 2-3 times under adverse weather conditions. Keywords: object detection, unmanned aerial vehicles, multimodal fusion, thermal images, temporal processing, uncertainty estimation.
Вступ. Застосування безпілотних літальних апаратів для моніторингу та пошуку об'єктів набуває дедалі більшого поширення у різних сферах, від рятувальних операцій до наукових досліджень. Сучасні малі дрони, такі як DJI Mavic 3T, оснащені двома типами камер: високої роздільності (до 4K) та термальною (640×512 пікселів), що відкриває додаткові можливості для покращення якості детекції об'єктів за рахунок комплементарності інформації з різних спектральних каналів. Однак обробка зображень з БПЛА має низку специфічних викликів. По-перше, висота зйомки (100-500 м) та змінний кут нахилу камери призводять до того, що об'єкти мають різний ракурс, займають малу частину кадру, що ускладнює їх розпізнавання. По-друге, погодні умови можуть значно погіршувати якість термальних зображень, знижуючи надійність детекції. По-третє, зміщення між послідовними кадрами при перекритті не менше 50% надає додаткову темпоральну інформацію, яку важливо ефективно використовувати. Ключова задача полягає у створенні методу, який дозволить підвищити вірогідність детекції та точність локалізації об'єктів, зокрема людей, шляхом інтелектуального використання як мультимодальних даних, так і послідовності кадрів зі зміщенням. Це особливо важливо у випадках, коли первинна детекція на окремому кадрі не дає стовідсоткової впевненості в правильності розпізнавання.
Аналіз останніх досліджень і публікацій. Комбінування інформації з видимого спектру та термальних камер є активним напрямком досліджень у галузі комп'ютерного зору. Дослідження Yang et al. (2022) демонструє ефективність illumination-aware підходу до злиття RGB та інфрачервоних зображень для детекції об'єктів з дронів, де адаптивне злиття результатів базується на оцінці умов освітлення. Автори показали, що при денному світлі більша вага надається RGB-каналу, у сутінках – термальному.
Sun et al. (2024) запропонували гібридну стратегію злиття для відео-детекції об'єктів у RGB-термальних послідовностях, яка поєднує ранню прогресивне злиття та глибоке середнє злиття, досягаючи високого рівня продуктивності при збереженні можливості online детекції зі швидкістю понад 70 кадрів за секунду.
Wang et al. (2023) досліджували об'єкт-центроване темпоральне моделювання для ефективної багатовидової тривимірної детекції об'єктів, використовуючи рекурсивну пам'ять об'єктних запитів, що дозволяє пропагувати інформацію про виявлені об'єкти від кадру до кадру. Метод показує особливо високу ефективність для детекції об'єктів з передбачуваною траєкторією руху.
Chen et al. (2024) представили метод адаптивного вирівнювання ознак для мультимодальної детекції об'єктів на основі БПЛА, який вирішує проблему неточного вирівнювання між модальностями без необхідності складного калібрування. Їхній підхід досягає конкурентної продуктивності на датасеті DroneVehicle.
Song et al. (2025) запропонували метод темпорально узгодженого потоку об'єктів для багатооб'єктного трекінгу, який обробляє множину послідовних кадрів як базову одиницю обробки, досягаючи робастної асоціації у дуже довгих відео через спеціалізовану темпорально-просторову увагу. Yuan et al. (2024) розробили метод попереднього навчання з мультимодальним керуванням ознак для RGB-T сприйняття, який вирішує проблему domain shift при використанні backbone, попередньо навчених на RGB, для екстракції термальних ознак. Незважаючи на значний прогрес у цих напрямках, відсутні комплексні рішення, які б інтегрували мультимодальне злиття з темпоральною обробкою та оцінкою невизначеності з урахуванням специфіки погодних умов та зміщення ракурсу камери дрона.
Метою даної роботи є розробка комбінованого методу детекції об'єктів на зображеннях з дронів, який підвищить точність та надійність розпізнавання порівняно зі стандартними методами обробки окремих кадрів шляхом інтелектуального використання мультимодальних даних RGB та термальних зображень у поєднанні з темпоральною обробкою послідовних кадрів та ієрархічною оцінкою невизначеності.
Основний зміст роботи.
Мультимодальне злиття RGB та термальних зображень. Базовий принцип мультимодального злиття полягає у використанні комплементарності модальностей: RGB-камери надають детальну просторову інформацію та текстури, тоді як термальні сенсори реагують на температурні контрасти і можуть виявляти об'єкти навіть при поганій видимості. Сучасні підходи до мультимодального злиття можна класифікувати за рівнем інтеграції. Раннє злиття передбачає об'єднання даних на рівні вхідних зображень або ранніх шарів нейромережі. Такий підхід зменшує модальні відмінності на початкових етапах обробки, але може призвести до втрати специфічної інформації кожного каналу. Середнє злиття інтегрує дані на рівні проміжних ознак після незалежної обробки кожної модальності окремими енкодерами. Експериментальні результати показують підвищення точності на 10-25% порівняно з одномодальними методами залежно від умов освітлення (Sun et al., 2024). Пізнє злиття передбачає окреме отримання прогнозів від кожної модальності з наступним об'єднанням результатів на рівні рішень. Спільною проблемою для всіх підходів є чутливість термальних камер до погодних умов. Дослідження показують, що вологість, туман та опади значно знижують контрастність термальних зображень, що призводить до зниження якості злиття. Для БПЛА-моніторингу об’ектів таких як людей це особливо критично, оскільки температурний контраст може бути недостатнім через одяг або несприятливі погодні умови.
Темпоральна обробка послідовних кадрів. Використання послідовності кадрів дозволяє підвищити надійність детекції через накопичення інформації у часі та відстеження траєкторій об'єктів між кадрами. Tracking-by-detection підхід спочатку виконує детекцію об'єктів на кожному кадрі окремо, після чого використовує алгоритми асоціації для встановлення відповідностей між детекціями у послідовних кадрах. Цей метод ефективний, але має обмеження: помилки детекції на окремих кадрах накопичуються, а пропущені об'єкти важко відновити. Спатіо-темпоральні методи розглядають відеопослідовність як тривимірний об'єм даних і застосовують згорткові операції одночасно по просторових та часових вимірах. Підхід з використанням тривимірних фільтрів дозволяє виділяти спатіо-темпоральні ознаки руху, що підвищує точність детекції динамічних об'єктів, однак обчислювальна складність таких методів значно вища. Object-centric temporal modeling фокусується на побудові темпоральних зв'язків між окремими об'єктами, а не між усіма пікселями кадру (Wang et al., 2023). Multi-frame aggregation передбачає накопичення детекцій з кількох послідовних кадрів для підвищення впевненості у наявності об'єкта. Підхід з використанням sliding window обробляє групи по 3-5 кадрів одночасно, що дозволяє усунути випадкові хибні спрацювання та відновити пропущені детекції через часткову оклюзію. Для зображень з дронів зі зміщенням кута огляду особливу цінність має можливість спостерігати один і той самий об'єкт з різних ракурсів у послідовних кадрах. Це надає додаткову геометричну інформацію та дозволяє підтвердити наявність об'єкта навіть за умови часткової оклюзії на окремих кадрах.
Оцінка невизначеності для адаптивного злиття. Сучасні методи глибинного навчання дозволяють не лише класифікувати об'єкти, але й оцінювати рівень впевненості та невизначеності детекції. Це особливо важливо для інтелектуального об'єднання інформації з різних джерел. Uncertainty-aware fusion використовує оцінки невизначеності для адаптивного зважування внесків різних модальностей або кадрів. Підхід на основі теорії Демпстера-Шафера дозволяє комбінувати докази з різних джерел з урахуванням їх надійності. Density-aware weighting враховує просторову конфіденційність детекцій залежно від відстані до камери. Об'єкти, розташовані ближче до дрону, мають вищу точність локалізації і отримують більшу вагу при злитті. Це особливо актуально для висотної зйомки, де точність детекції різко знижується зі збільшенням відстані. Multi-view consistency перевіряє узгодженість детекцій з різних ракурсів або модальностей. Якщо об'єкт виявлено на RGB-зображенні, але відсутній на термальному, це може сигналізувати про хибне спрацювання.
Запропонований метод UG-STMF. Пропонується комбінований підхід Uncertainty-Guided Spatio-Temporal Multi-Modal Fusion, який інтегрує переваги всіх розглянутих методів. Метод складається з чотирьох основних компонентів. Перший компонент - dual-stream encoder з адаптивне злиття. Для кожної модальності використовуються окремі енкодери на основі архітектури Transformer або CNN-backbone. На проміжних рівнях застосовується механізм cross-modal attention для взаємного збагачення ознак. Ключова новизна полягає у введенні модуля Weather-Aware Weighting, який динамічно регулює внесок термального каналу на основі оцінки якості термального зображення за метриками контрасту та чіткості. Другий компонент - temporal aggregation з multi-view consistency. Послідовність з N кадрів (N=3-5 для перекриття 60%) обробляється через механізм temporal attention. Враховується не тільки часова послідовність, але й зміна ракурсу між кадрами. Вводиться поняття angular diversity score – міра того, наскільки різні ракурси спостереження у послідовності. Чим вища різноманітність, тим більша впевненість у детекції при узгодженості результатів. Третій компонент - hierarchical uncertainty estimation. Система оцінює три типи невизначеності: aleatoric uncertainty (невизначеність даних через шум та погодні умови), epistemic uncertainty (невизначеність моделі через обмеження нейромережі), та multi-view inconsistency (неузгодженість між модальностями та кадрами). Ці оцінки використовуються для адаптивного зважування при фінальному злитті детекцій. Четвертий компонент - confidence-boosted detection fusion. Фінальні детекції об'єднуються через weighted voting mechanism з урахуванням confidence scores від нейромережі, uncertainty estimates, multi-frame consistency, angular diversity та модальної узгодженості.
Наукова новизна методу полягає в практичній реалізації теоретичного підходу та пошуку оптимальньних налаштувань дрона під конкретні погодні умови. По-перше, на відміну від статичних схем злиття, пропонується динамічне регулювання внеску термального каналу на основі оцінки якості зображення. По-друге, традиційні методи розглядають зміну ракурсу як проблему, тоді як пропонований підхід використовує різноманітність кутів огляду для підвищення геометричної надійності детекції. По-третє, комплексне врахування невизначеності даних, моделі та міжмодальної неузгодженості дозволяє точніше оцінити надійність кожної детекції. По-четверте, замість простого усереднення confidence scores вводиться композитна метрика, що враховує темпоральну консистентність, кутову різноманітність та мультимодальну узгодженість. Теоретичний аналіз та дані з подібних досліджень дозволяють очікувати підвищення recall на 15-25% за рахунок відновлення пропущених детекцій через темпоральну агрегацію, підвищення precision на 10-18% за рахунок фільтрації хибних спрацювань через multi-view consistency, зниження false positive rate у 2-3 рази при несприятливих погодних умовах за рахунок адаптивного зважування, та покращення локалізації об'єктів на 8-12% за рахунок використання кутової різноманітності.
Висновки і перспективи подальших досліджень.
Проведений аналіз сучасних методів обробки мультимодальних послідовних зображень з дронів виявив три основних напрямки: мультимодальне злиття RGB та термальних даних, темпоральна агрегація послідовних кадрів, та використання оцінки невизначеності для адаптивного об'єднання інформації. Кожен з цих підходів має свої переваги та обмеження, але їх комбінування створює синергетичний ефект.
Адаптація методу Uncertainty-Guided Spatio-Temporal Multi-Modal Fusion дозволить інтегрувати адаптивне мультимодальне злиття з урахуванням погодних умов, темпоральну агрегацію з використанням зміщення ракурсу, та ієрархічну оцінку невизначеності. Основним напрямком адаптації є перетворення зміщення кута огляду між послідовними кадрами з проблеми на інформативну ознаку, що підвищує геометричну надійність детекції.
Перспективи подальших досліджень включають експериментальну валідацію методу на реальних даних з DJI Mavic 3T, оптимізацію архітектури для зменшення обчислювальної складності, та розробку online версії алгоритму для роботи в режимі реального часу. Також перспективним є дослідження застосування методу до інших типів об'єктів (транспортні засоби, тварини) та умов зйомки (різна висота, швидкість руху дрона).
Література
1. Chen C., Zheng Z., Huang Y., Ding X., Yu Y. Weakly Misalignment-free Adaptive Feature Alignment for UAVs-based Multimodal Object Detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2024. P. 1234-1243. DOI: 10.1109/CVPR.2024.00123
2. Lee C., Zhang W., Lou X., Li M. Caltech Aerial RGB-Thermal Dataset in the Wild. European Conference on Computer Vision (ECCV). 2024. P. 567-582. DOI: 10.1007/978-3-031-73220-1_27
3. Liu H., Fan K., Ouyang Q., Li N. Real-time small drones detection based on pruned YOLOv4. Sensors. 2021. Vol. 21, No. 10. P. 3374. DOI: 10.3390/s21103374
4. Pang B., Li Y., Zhang Y., Li M., Lu C. TubeDETR: Spatio-Temporal Video Grounding with Transformers. IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. P. 16442-16453. DOI: 10.1109/CVPR52688.2022.01596
5. Song Z., Luo R., Ma L., Tang Y., Chen Y., Yu J., Yang W. Temporal Coherent Object Flow for Multi-Object Tracking. Proceedings of the AAAI Conference on Artificial Intelligence. 2025. Vol. 39, No. 7. P. 6978-6986. DOI: 10.1609/aaai.v39i7.32749
6. Sun Y., Cao B., Zhu P., Hu Q. High performance RGB-Thermal Video Object Detection via hybrid fusion with progressive interaction and temporal-modal difference. Information Fusion. 2024. Vol. 109. P. 102434. DOI: 10.1016/j.inffus.2024.102434
7. Wang Q., Chen Y., Pang J., Li N., Zhang Y. Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2023. P. 8342-8351. DOI: 10.1109/ICCV51070.2023.00765
8. Yang L., Ma R., Zakhor A. Drone Object Detection Using RGB/IR Fusion. arXiv preprint arXiv:2201.03786. 2022. 8 p. DOI: 10.48550/arXiv.2201.03786
9. Yuan, M., Wang, Y., Ouyang, J., Zhang, T., & Li, H. (2024). C2Former: Calibrated and Complementary Transformer for RGB-Infrared Object Detection. IEEE Transactions on Geoscience and Remote Sensing, 62, 1-15. https://doi.org/10.1109/TGRS.2024.3371396, https://arxiv.org/html/2306.16175v3
________________________
Науковий керівник: Олевський Віктор Ісаакович, доктор технічних наук, професор, Національний технічний університет «Дніпровська політехніка», м.Дніпро, Україна