АЛГОРИТМИ ПОПЕРЕДНЬО НАТРЕНОВАНИХ МОДЕЛЕЙ У СИСТЕМАХ КЛАСИФІКАЦІЇ ДЛЯ ОБРОБКИ ЗОБРАЖЕНЬ
06.09.2021 20:17
[1. Інформаційні системи і технології]
Автор: Гура В.Т., аспірант, кафедра радіоелектронних та комп’ютерних систем, факультет електроніки та комп’ютерних технологій, Львівський національний університет імені Івана Франка, м. Львів;
Осадчук О.Я., студент, кафедра радіоелектронних та комп’ютерних систем, факультет електроніки та комп’ютерних технологій, Львівський національний університет імені Івана Франка, м. Львів
Сьогодні комп’ютери можуть легко розрізняти об’єкти на зображеннях, відфільтровувати зайві шуми, виявляти предмети та обличчя і навіть генерувати зображення людей, яких не існує. Одним із основних завдань, із яким справляється Computer Vision, це завдання класифікації зображень. Саме ця здатність розрізняти предмети веде до нових напрямків досліджень, таких як розрізнення людей.
Швидкий розвиток в Computer Vision та, як наслідок, класифікація зображень ще більше прискорився появою Transfer Learning. Навчання за допомогою трансферу дозволяє використовувати вже існуючу модель, навчену на великому наборі даних. Тоді виникає зменшення вартості навчання нових моделей глибокого навчання, але при цьому набори даних потрібно перевіряти на зростання і якість, і час навчання.
Виділяють чотири найкращі попередньо навчені моделі для класифікації зображень, які є найсучаснішими (SOTA) та широко використовуються в галузі.
VGG-16 – одна з найпопулярніших попередньо навчених моделей для класифікації зображень. Представлена на конференції ILSVRC 2014 року, вона була і залишається моделлю, яку важко перемогти навіть сьогодні. Розроблений у Візуальній графічній групі в Оксфордському університеті, VGG-16 перевершив тодішній стандарт AlexNet і був швидко прийнятий дослідниками та галуззю для їхніх завдань класифікації зображень. Модель носить послідовний характер і використовує безліч фільтрів. На кожному етапі використовуються невеликі фільтри 3*3 для зменшення кількості параметрів, всі приховані шари використовують функцію активації ReLU. При таких критеріях кількість параметрів складає 138 мільйонів - що робить його більш повільним і набагато більшою моделлю для навчання, ніж інші.
Inception – оригінальний документ пропонував модель Inceptionv1. Маючи лише 7 мільйонів параметрів, він був набагато меншим, ніж поширені тоді моделі, такі як VGG та AlexNet. Додавши до нього нижчий рівень помилок, можна побачити, чому це була новаційна модель. Не лише це, але головним нововведенням у цьому документі був також черговий прорив - початковий модуль. Модуль роботи Inception просто виконує згортки з різними розмірами фільтра на вході, виконує Max Pooling та об'єднує результат для наступного модуля Inception. Впровадження операції згортки 1*1 різко знижує параметри. Хоча кількість шарів у Inceptionv1 дорівнює 22, значне зменшення параметрів робить дану модель конкурентоспроможною.
Так само, як Inceptionv3, ResNet50 не перша модель із сімейства ResNet. Оригінальна модель називалася Residual net або ResNet і стала ще однією віхою в домені CV ще в 2015 році. Основною мотивацією даної моделі було уникнення низької точності, оскільки модель поглиблювалася. Крім того, якщо порівняти з Gradient Descent, то виникне проблема Vanishing Gradient - модель ResNet мала на меті вирішити і це завдання. Основна концепція моделей ResNet пропущені з'єднання, які називаються "ярликовими з'єднаннями ідентичності" і використовують так звані залишкові блоки: Автори ResNet пропонують, що встановлення залишкового відображення набагато простіше, ніж встановлення фактичного відображення, і, отже, застосовувати його на всіх шарах. Ще один момент, на який слід звернути увагу, – це те, що автори ResNet дотримуються думки, що чим більше шарів укладається, то модель не повинна працювати з меншою ефективністю.
Це суперечить тому, що реалізовано в Inception, і майже схоже на VGG16 в тому сенсі, що він просто укладає шари поверх іншого. ResNet просто змінює основне відображення.
У EfficientNet автори пропонують новий метод масштабування, який називається складеним масштабуванням. Ранні моделі, такі як ResNet, дотримуються традиційного підходу до масштабування розмірів довільно та шляхом додавання все нових і нових шарів. Однак у статті пропонується, що якщо одночасно масштабуємо розміри на фіксовану величину і робимо це рівномірно, ми досягаємо набагато кращих показників. Фактично масштабні коефіцієнти може визначати користувач.
Хоча цей прийом масштабування може бути використаний для будь-якої моделі на базі CNN, автори почали з власної базової моделі під назвою EfficientNetB0: MBConv розшифровується як перевернутий вузький вузол для мобільних пристроїв (схожий на MobileNetv2). Вони також пропонують формулу складеного масштабування з певними коефіцієнтами масштабування.
Розглянуто інформацію щодо чотирьох популярних попередньо підготовлених моделей для класифікації зображень та їх реалізації. Однак, даний напрям, який постійно зростає, і завжди є нова модель, на яку можна очікувати і розширювати межі можливостей, при збільшенні якості та спаданням часу обробки. Удосконалення таких алгоритмів відкривають перспективи для розробки десятки моделей, що полегшить роботу людині.
Література:
1. Pan, S.J. and Yang, Q., 2010. A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 22(10)
2. Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J. and Wojna, Z., 2016. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE conference on computer vision and pattern recognition
3. Krizhevsky, A., Sutskever, I. and Hinton, G.E., 2012. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems