РОЗПІЗНАВАННЯ ТА ВІДСТЕЖУВАННЯ ОБ’ЄКТІВ МЕТОДАМИ ШТУЧНОГО ІНТЕЛЕКТУ
21.09.2022 13:23
[1. Информационные системы и технологии]
Автор: Філик Руслан Васильович, студент, Національний університет «Львівська політехніка», м. Львів
Формулювання задачі. В сучасному світі автоматизація процесів досягає своїх критичних відміток, де прогрес вже давно сягає за межі людських можливостей і швидкостей. Спостерігається все більше й більше впроваджень новітніх технологій в буденні задачі, спрощуючи їх до рівня декількох натисків, голосової команди, і вже зовсім скоро людство досягне можливим використання нейронного інтерфейсу та управління буквально силою думки.
Комп'ю́терний зір або Комп'ютерне бачення — теорія та технологія створення машин, які можуть проводити виявлення, стеження та визначення об'єктів.
Область використання комп’ютерного бачення є надзвичайно великою, і включає в себе найрізноманітніші за призначенням системи, такі як відеоспостереження, промислове керування процесами, системи організації інформації, моделювання об’єктів чи середовищ, людино-машинної взаємодії тощо [1].
Постановка завдання. Основними цілями даної статті є огляд існуючих засобів для інтерпритації комп’ютерного зору з використанням нейронних мереж та алгоритмів.
Розпізнавання та відстеження об’єктів. Одним із різновидів використання комп’ютерного зору є можливість розпізнавання об’єктів. Даний принцип є винесеним в окремий розділ – теорію розпізнавання об’єктів, та представляє собою набори методів, принципів та практик для обробки зображень з метою ідентифікації предметів, явищ, процесів чи інших об’єктів, та/або їх подальшої класифікації та кластеризації. Даний сегмент поєднує в собі основні принципи нейромережевих технологій та засобів обробки цифрових зображень, та традиційно є однією із задач штучного інтелекту.
Розпізнавання об’єктів можна поділити на дві основні категорії:
• Моделювання принципів розпізнавання та тренування
Прикладна теорія та методи організації роботи пристроїв, що допомагають вирішити конкретну поставлену задачу.
Розпізнавання отримується внаслідок навчання нейронних моделей, яке в свою чергу поділяється на наступні категорії – індуктивну та дедуктивну [2].
Ще однією областю використання комп’ютерного зору та обробки цифрових зображень є відстеження об’єктів. Багато хто плутає поняття розпізнавання та відстеження в контексті об’єктів, тому варто відзначити суттєву різницю між цими двома термінами.
Розпізнавання об’єктів дає змогу просто виділити об’єкт на зображенні. Таким чином, модель, нейронна система чи алгоритм просто знаходять позицію обмежуючої рамки для даного об’єкту, і робота проводиться в одному кадрі.
В той же час відстеження об’єктів є комплекснішою задачею, та має ширший спектр поставленої задачі. Таким чином, завданням відстеження є не лише пошук меж для конкретного об’єкту, а й пов’язування інформації про даний об’єкт із даними з інших зображень з метою зробити його унікальним та не втрачати із поля зору [3].
Огляд існуючих засобів для проведення навантажувального тестування. Наразі можна стверджувати, що більшість програмних рішень для створення комп’ютерного зору є результатом комерційної діяльності компаній, проте їх продукт найчастіше є приватним замовленням з боку підприємств або державниих організацій і не підлягає широкому розповсюдженню. Проте під час проведеного аналізу було знайдено декілька варіантів робочого програмного забезпечення.
Автопілот Tesla – найвідомішим на даний момент програмним рішенням комп’ютерного бачення, що пов’язане з автомобільним трафіком, є розробка автопілоту. Таке програмне рішення є доволі комплекним, включає в себе функціонал розширеної системи допомоги водієві (Advanced Driver Assistance System ADAS). Такого роду рішення надає компанія Tesla, заснована у 2003 році. Наразі програмний продукт забезпечує другий рівень автоматизації, що надає певний функціонал, такий як центрування смуги рузу, круїз-контроль, врахування руху іншого транспорту на дорозі, паркування та напівавтономна навігація, що здійснюються під наглядом водія.
Серед переваг варто відзначити:
• надзвичайно велику кількість тестових даних (3 мільярди миль станом на 2020 рік);
• великий штаб розробки що містить значну кількість кваліфікованих спеціалістів;
• покриття широкого спектру завдань;
• можливість напівавтономного керування.
Проте слід зазначити, що покриття основної бізнес задачі дослідної роботи є лише частиною програмного рішення Tesla, основні напрямки розробки продукту дещо відрізняються від досліджуваних у даній роботі [4].
Camlytics. Компанія Camlytics надає програмні аналітичні продукти для обробки камер відеоспостереження за допомогою систем штучного інтелекту в режимі реального часу. Продукт надає можливість аналізу руху трафіку на дорогах, підрахунках та фіксації руху людей на території, а також надає API для подальшої роботи з опрацьованими даними.
Серед переваг продукту можна відзначити:
• простота використання;
• наявність мінімального інтерфейсу користувача;
• надання API для подальшої модифікації розробки.
Основним недоліком такого рішення є принцип роботи по підписці і необхідність постійних витрат з боку користувача [5].
Dahuasecurity
Dahua Security Software (DSS) розробляє продукти для організації відео (Video Management System VMS), надаючи графічний інтерфейс користувача для простоти використання. Програмне рішення включає в себе засоби обробки, стеження, а також аналітики отриманих даних [6].
Серед переваг можна відзначити:
• наявність систем аналізу;
• включений серверний пакет для автоматичної відправки та обробки;
• налаштування апаратної архітектури залежно від потреб надає постачальник.
Висновки. Аналіз предметної області комп’ютерного зору, а також принципів розпізнавання об’єктів та їх відстеження, можна стверджувати, що така предметна область є порівняно молодою в широкому її застосуванні і стрімко розвивається. Такі алгоритми допомагають вирішувати ті задачі, які ми не можемо виконати традиційними алгоритмами і методами імперативного програмування. Такі підходи розкривають спектр можливостей, а також при достатній кількості бази тестових даних автоматизують безліч процесів, тим самим прискорюючи як робочий процес, так і розвиток галузей, де такі засоби застосовуються.
Було проаналізовано існуючі програмні реалізації, їх знайдено небагато. Це пов’язано насамперед із тим, що такі програмні рішення здебільшого не є відкритими, а робляться під приватні замовлення. Було знайдено три варіанти програмних реалізацій, які мають в собі різне кінцеве призначення, проте у своїй основі використовують приблизно однакові алгоритми комп’ютерного бачення.
Література
1. Preparing for peak traffic: a load test guide. – 3rd ed. – WP Engine, 2019. – 15 p.
2. Active object detection in sonar images [Електронний ресурс]. – Режим доступу: https://doi.org/10.1109/access.2020.2999341
3. Comparative analysis of deep learning image detection algorithms [Електронний ресурс] / Shrey Srivastava [та ін.] // Journal of big data. – 2021. – Т. 8, № 1. – Режим доступу: https://doi.org/10.1186/s40537-021-00434-w
4. A model for naturalistic glance behavior around Tesla Autopilot disengagements [Електронний ресурс] / Alberto Morando [та ін.] // Accident analysis & prevention. – 2021. – Т. 161. – С. 106348. – Режим доступу: https://doi.org/10.1016/j.aap.2021.106348
5. Camlytics [Електронний ресурс]. – Режим доступу: https://camlytics.com/
6. Dahuasecurity face recognition [Електронний ресурс]. – Режим доступу: https://www.dahuasecurity.com/solutions/solutionsByApplication/517
__________________
Науковий керівник: Мельник Роман Андрійович, доктор технічних наук, професор, Національний університет «Львівська політехніка», м. Львів