МЕТОД ШВИДКОЇ СЕГМЕНТАЦІЇ ОБ’ЄКТІВ У ВІДЕОПОТОЦІ ДАНИХ ПОГАНОЇ ЯКОСТІ
09.07.2024 14:26
[1. Інформаційні системи і технології]
Автор: Назаркевич Марія Адріївна, доктор технічних наук, професор, Національний університет «Львівська політехніка»; Наконечний Назар Ігорович, аспірант, Національний університет «Львівська політехніка»
Одним із застосувань цифрових зображень рухомих об’єктів є їх виявлення та ідентифікація. Таким чином ставимо задачу щодо трансформації зображень з 2d у 3d простір. Можливість оцінити об’єм рухомого об’єкта шляхом тривимірної реконструкції цифрових зображень є актуальним завданням. У [1] An та ін. представив новий метод, який використовував сегментацію із зображень для кількісного визначення та сегментації 3D морфології об’єктів. Сегментацію об’єктів використовували An et al. для вимірювання площі об’єктів, таких як довжина та площа на 2D зображеннях. Можна відзначити, що важливим попередником як виявлення, ідентифікації, так і 3D-реконструкції [4,5] є процес сегментації об’єктів. Тобто двійкова класифікація пікселів на об’єкт та фон.
Існує багато підходів до сегментації. Вони поділяються на один із двох таборів: контрольована та неконтрольована сегментація [4,6]. Однак активні контури або набори рівнів і нечітка логіка також можуть бути використані для сегментації об’єктів [7,8]. Дослідження, представлене в цій статті, допоможе використати всі ці різні методи сегментації. Колірний простір, який покращує здатність відокремлювати пікселів об’єктів пікселі від пікселів фону, покращить продуктивність будь-якого методу сегментації на основі кольору. Багато методів сегментації засновані на розрізненні кольорів. Однак, щоб досягти оптимальної сегментації рухомого об’єкта, спершу виникає питання щодо ефективності колірного простору для виявлення пікселів. Необхідно знайти відповідне представлення, яке покращить ступінь незалежності виявлення пікселів від умов освітлення. Чи природним чином посилюється контраст між рухомим об’єктом та фоном у певному колірному просторі незалежно від умов освітлення. Покращення сегментації об’єктів за допомогою аналізу кольору, було проведено Golzarian та ін. [2] з використанням кольорових індексів. Проте індивідуальні індекси кольорів не забезпечують повного представлення колірного простору. Індивідуальні індекси – це скалярні змінні, отримані шляхом лінійного маніпулювання компонентами тривимірного вектора колірного простору пікселя. Індивідуальні колірні показники, розглянуті Golzarian і канал відтінків колірного простору HSV. Їхні результати показали, що відтінок досягає найменшої кількості помилок типу II з невеликою втратою пікселя об’єкта. Також колірний баланс впливає на дослідження класифікації текстур.
Кольорові простори дозволяють по-різному відображати інформацію про інтенсивність і колір у кольорових зображеннях. Попередня дослідницька діяльність щодо представлення кольорів, психовізуального сприйняття кольору, передачі відеосигналу та комп’ютерної графіки призвела до появи багатьох колірних просторів з різними бажаними властивостями. Тут ми коротко оглядаємо п’ять відомих колірних просторів RGB, rgb, HSV, Ycbcr і CIE-Lab, які ми будемо використовувати, і підсумовуємо, як вони пов’язані із загальним колірним простором RGB.
Ця відстань відрізняється від евклідової відстані тим, що вона зменшує відстань на стандартне відхилення розподілу. Інтуїція, що стоїть за цією відстанню, полягає в тому, що відстань точки даних до нормального розподілу обернено пропорційна розповсюдженню останнього. Це важлива концепція в кластерному аналізі. Відстань від точки даних до кластера — це не просто евклідова відстань від точки даних до центру кластера. Це також обернено залежить від поширення кластера. Те ж саме інтуїтивне уявлення поширюється на відстань між двома Гауссами, як це запропоновано функцією відстані в рівнянні. Відстань між двома Гауссами з однаковими відмінностями в середніх значеннях збільшується в міру зменшення їх стандартного відхилення. Проблема з функцією відстані в рівнянні полягає в тому, що вона стає необмеженою, коли дисперсія Гаусса дорівнює нулю. Однак це явище становить лише теоретичний інтерес, оскільки для реальних наборів даних рідко потрібно моделювати щось із нормальним розподілом нульової дисперсії. Крім того, нормальний розподіл з нульовою дисперсією не має фізичного сенсу. Інші функції відстані, як-от відстань відстань Хеллінгера, Кульбака Лейблера тощо, також можна було модифікувати, щоб сформулювати функцію відстані між двома багатовимірними гауссіанами, і в майбутніх дослідженнях проаналізуємо їх.
У роботі передбачено створення інтелектуальних систем аналізу образів та розпізнавання об’єктів з безпілотників з подальшою трансформацією їх в 3d-модель.
Безпілотні транспортні засоби повинні мати можливості зору, щоб визначати об’єкти та їх координати. Для виявлення об’єктів і вимірювання їх відстані використано відеокамери, які разом із алгоритмами машинного навчання визначають присутність об’єктів у його полі зору та вимірюють відстань до них. Запропоновано побудувати систему, яка буде БПЛА виявляти та відстежувати об'єкти, будуватиме карти навколишнього середовища. Система складатиметься з трьох основних модулів: модуль обробки зображень, модуль локалізації та модуль управління. Модуль обробки зображень відповідає за отримання та аналіз даних з відеокамери, модуль локалізації відповідає за визначення положення та орієнтації дрона у просторі, а модуль управління відповідає за генерацію команд для дрону, побудову 3d-моделі..
Розглянемо некласичні задачі пошуку і відслідковування об’єктів безпілотниками в умовах різної видимості, з врахуванням різних природніх явищ, з визначенням місця і позиції ураження. Впровадження отриманих результатів дозволить суттєво скоротити час на прийняття найбільш вагомих рішень щодо знищення бойових машин противника.
Одним з методів розпізнавання об’єктів з відеопотоку використовують методи на застосуванні шаблонів. Алгоритм має інформацію про те, як виглядає необхідний об’єкт, яким у нього може бути фон, як виглядають і на яких позиціях можуть бути певні контури об’єкту, відразу розглядає можливе місце виявлення об’єкту. Проте коли відеокамера фіксує кілька об’єктів, які подібні між собою, то задовольняються різні шаблони і розпізнавання знижується. Тому буде використано сімейство моделей (штучних нейронних мереж), щоб оцінити або наблизити функції, які можуть залежати від величезної кількості вхідних даних і зазвичай невідомі.
Побудовано 3d модель рухомого об’єкту та передбачена можливість знаходження точки ураження рухомого об’єкту.
Проведено дослідження щодо виявлення та ідентифікації звуку, який надходить від рухомого об’єкта.
Алгоритм виявлення цілі для бронетехніки військових танків пропонується YOLOv8, який реалізує автоматичне виявлення військових цілей у складних ситуаціях шляхом застосування мереж глибокого навчання.
У результаті виконання проекту буде побудовано математичні моделі ідентифікації бойових машин на основі нейронних мереж на основі аналізу контурів, порівняння шаблонів і порівняння ключових точок. Запропоновано спосіб наповнення набору даних та створення класифікатора на основі побудованих математичних моделей ідентифікації бойових машин.
На основі алгоритму YOLOv8, буде додано мережу для заміни оригінальної мережі вилучення функцій, що краще вирішує проблему відсутності та помилкове виявлення малих цілей і оптимізує структуру мережі згортки. Потім застосується нова мережа, і функції різних шарів об’єднаються для реалізації повторного використання функцій, що покращить здатність мережі вивчати особливості та покращить ефект виявлення об’єкту. Експериментальні результати показують, що рівень запам’ятовування та рівень точності збільшуються на 4,62% і 3,79% відповідно, в середньому точність збільшена на 4,32%, а частота кадрів може досягати 78 кадрів/с.
У роботі буде запропонована фільтрація новими фільтрами, що дасть можливість збільшити кількість керуючих впливів на результати розпізнавання та виконання ідентифікації рухомих об’єктів в режимі реального часу. Підхід, який запропоновано в проекті обґрунтовано синтезує методи штучного інтелекту, теорії комп’ютерного зору з одного боку і розпізнавання образів – з іншого; він дає можливість отримати керуючі впливи та математичні функції для прийняття рішень в кожен момент часу з можливістю аналізування впливу зовнішніх факторів та прогнозувати протікання процесів, і відноситься до фундаментальних проблем математичного моделювання реальних процесів.
Висновки
1. Показано підходи щодо трансформації зображень з 2d у 3d простір.
2. Вибір колірного простору покращить здатність відокремлення пікселів об’єктів від пікселів фону, покращить продуктивність будь-якого методу сегментації
Література:
1. Ciga, O., & Martel, A. L. (2021). Learning to segment images with classification labels. Medical Image Analysis, 68, 101912.
2. Golzarian, M. R., Frick, R. A., Rajendran, K., Berger, B., Roy, S., Tester, M., & Lun, D. S. (2011). Accurate inference of shoot biomass from high-throughput images of cereal plants. Plant methods, 7, 1-11