ЕФЕКТИВНІСТЬ ТА ОСОБЛИВОСТІ СУЧАСНИХ МОДЕЛЕЙ КЛАСИФІКАЦІЇ ЗОБРАЖЕНЬ

09.05.2024 14:45

[1. Information systems and technologies]

Author: Швець Сергій Валерійович, магістрант, Приватний вищий навчальний заклад "Європейський університет"

Проблема класифікації зображень

У сучасному світі бурхливий розвиток електронної комерції ставить нові виклики перед когнітивними та обчислювальними можливостями інформаційних систем. Постійно зростаючий об'єм інформації та зростаючі вимоги до валідності та організації даних вимагають автоматизації процесів перевірки та класифікацій, у тому числі і щодо графічних зображень. Такі задачі вимагають когнітивних спроможностей від алгоритмів, що неможливо без використання сучасних алгоритмів побудованих на основі глибинного навчання.

Фундамент глибинного навчання

Алгоритми глибинного навчання беруть натхнення із біологічних принципів побудови мозкового апарату, а саме будова нейрона та спосіб організації нейронів у мережу. Ідея перцептрона, штучного нейрона, була запропонована Френком Розенблатом у 1957 році. Запропонована ним модель добре справляється із лінійно-роздільними даними. Для більш складних задач модель перцептрона відповідно не застосовна, і у свою чергу було запропоновано багатошарові нейронні мережі. Це у свою чергу створило фундамент для сучасного глибинного навчання, що здатне вирішувати у тому числі і задачі комп'ютерного зору та класифікації зображень.

Наразі запропоновано багато алгоритмів класифікації зображень, і постає питання їх еталонного співставлення для об'єктивної оцінки їх ступеня ефективності. Як рішення, дослідниками із Прінстонського університету, було запропоновано і наразі підтримується, еталонний набір даних ImageNet. Станом на зараз він нараховує 14 мільйонів зображень у 20 тис. категоріях. Щороку відбувається змагання ILSVRC (ImageNet Large Scale Visual Recognition Challenge) - де дослідники з усього світу змагаються в точності класифікації зображень, використовуючи еталоні дані ImageNet. Це змагання дало надзвичайний поштовх бурхливому розвитку алгоритмам розпізнавання та класифікації зображень.

Методологія оцінювання ефективності ILSVRC

Для оцінювання ефективності у змаганні ILSVRC використовують декілька показників

Топ-1 або Top-1 Accuracy

Це відсоток випадків, у яких запропонована модель надала класифікацію вірно. Тут треба розуміти вірність класифікації як співпадіння еталонного класу із найбільш імовірним класом згідно передбачення модели що тестується.

Топ-5 або Top-5 Accuracy

Більш м'який критерій, що відповідно відповідає відсотку знаходження еталоного класу серед пяти найбільш імовірних із запропонованих моделлю. Це важливий критерій оскільки у випадку складних зображень когнітивно вірних міток може бути декілька.

Матриця помилок, або Confusion matrix

Матриця розмірністю NxN (N - кількість класів), що відповідно відображає кількість випадків, коли еталонний клас i було класифіковано моделлю як j клас.

Відповідно, матриця корисна для візуалізації заплутаності моделі та аналізу параметрів True Positive, True Negative, False Positive, False Negative.

Cross-entropy loss

Ця метрика розраховується відповідно до формули

Де

● M — кількість класів

● N — кількість зразків

● yo,c - це індикатор (0|1), який показує, чи відповідає зразок класу c

● po,c - відповідно передбачена ймовірність приналежності зразка o до класу с

Відповідно ця метрика надає усереднену оцінку ефективності модели загалом.

Оцінювання

Для розробки дослідники використовують валідаційний набір даних, щоб виконати налаштування параметрів модели. Тестовий набір використовуються під час остаточного оцінювання запропонованої

Поточні результати

Завдяки ImageNet та ILSVRC дослідники зі всього світу отримали можливість дослідити ефективність власних моделей на великорозмірних тестових даних. Як результат, запропоновані моделі класифікації зображень досягають надзвичайно високих ефективностей.

Поточний стан ефективності наявних моделей згідно із ILSVRC

Джерело - https://paperswithcode.com/sota/image-classification-on-imagenet

Розглянемо деякі із моделей лідерів.

Сучасні моделі, застосовні для класифікації зображень

OmniVec - 92,4% Top-1 Accuracy

Запропонована компанією OpenAI, ця фреймворк є багатомодальним, тобто застосовна для обробки різних типів даних (текст, зображення, відео та аудіо тощо). Для кожного типу даних використовується окремий енкодер, але простір векторів та backbone мережа є загальною, що дозволяє моделі використовувати різні модальності для навчання. Навчання по різних модальностях запропоновано проводити послідовно. Відповідно для різних задач використовуються різні голови (heads). У якості енкодеру може бути застосовано трансформер(Vision Transformer, ViT), згорткову мережу або можливо використання безпосередніх даних. Відповідно, інформація, отримана з різних модальностей координується та інтегрується спільним проміжним шаром.

CoCa - 91,0% Top-1 Accuracy

Цей підхід було запропоновано Google. Він поєднує в собі кілька парадигм(single-encoder, dual-encoder та encoder-decoder) у одній модели, що натренована із одночасно із застосуванням методу контрасних втрат та втрат під час генерування підписів (captioning / generative loss). Енкодер представлено трансформером або згортковою мережею, а декодер використовує архітектуру трансформера, що на першому етапі не використовує крос-увагу в унімодальних шарах, а надалі використовує крос-увагу до виходів енкодера зображення для навчання мультимодальних репрезентаций зображення-текст.

Model Soup BASIC-L - 90,98% Top-1 Accuracy

Ця методика полягає у тому, щоб об'єднати результати передбачень різних моделей через певні вагові коефіцієнти, усереднення або вагове голосування. Зазвичай використовують моделі, що добре себе зарекомендували у необхідних межах застосувань. Відповідно, вартість обчислень із використанням даного підходу може значним чином перевищувати інші методи, де використовується одна модель.

Проте цей підхід дає високу стійкість рішення і витрати можуть бути виправдані у критичних застосуваннях що вимагають високого ступеня надійності.

Шляхи покращення

Не зважаючи на вузкість задачі по класифікації зображень безсумнівними лідерами у рішенні задач класифікації стають фреймворки та моделі що використовують мультимодальний підхід до навчання мереж. Проте, це призводить до збільшення кількості параметрів, зростанню обчислювальної складності та вимагає інноваційного підходу до енкодерів. Отже, можна зробити припущення, що майбутнє покращення ефективності можливо досягти шляхом пошуку більш продуктивних методів для вищесказаних елементів а також шляхом оркестрації існуючих архітектур. Це заслуговує на додаткові дослідження да експерименти.

Література

1. Russakovsky O., Deng J, Su H, Krause J., Satheesh S., Ma S., Huang Z., Karpathy A., Khosla A., Bernstein M., Berg A. C., Fei-Fei L. ImageNet Large Scale Visual Recognition Challenge URL:https://arxiv.org/pdf/1409.0575 (дата звернення: 07.05.2024)

2. Srivastava S., Sharma G. OmniVec: Learning robust representations with cross modal sharing URL:https://arxiv.org/pdf/2311.05709v1 (дата звернення: 07.05.2024)

3. Yu J., Zirui Wang Z. CoCa: Contrastive Captioners are Image-Text Foundation Models URL:https://arxiv.org/pdf/2205.01917v2 (дата звернення: 07.05.2024)

4. Wortsman M., Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time URL:https://arxiv.org/pdf/2203.05482v3 (дата звернення: 07.05.2024)

________________________

Науковий керівник: Яровий Роман Олександрович, кандидат технічних наук, доцент, Приватний вищий навчальний заклад "Європейський університет"

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Another articles in this section

Сonferences

Conference 2026

Information society: technological, economic and technical aspects of formation (issue 106) (15-16.01.2026)

Conference 2025

Information society: technological, economic and technical aspects of formation (issue 95) (16-17.01.2025)

Information society: technological, economic and technical aspects of formation (issue 96) (11-12.02.2025)

Information society: technological, economic and technical aspects of formation (issue 97) (13-14.03.2025)

Information society: technological, economic and technical aspects of formation (issue 98) (15-16.04.2025)

Information society: technological, economic and technical aspects of formation (issue 99) (14-15.05.2025)

Information society: technological, economic and technical aspects of formation (issue 100) (11-12.06.2025)

Information society: technological, economic and technical aspects of formation (issue 101) (09-10.07.2025)

Information society: technological, economic and technical aspects of formation (issue 102) (16-17.09.2025)

Information society: technological, economic and technical aspects of formation (issue 103) (14-15.10.2025)

Information society: technological, economic and technical aspects of formation (issue 104) (13-14.11.2025)

Information society: technological, economic and technical aspects of formation (issue 105) (11-12.12.2025)

Conference 2024

Information society: technological, economic and technical aspects of formation (issue 84) (18-19.01.2024)

Information society: technological, economic and technical aspects of formation (issue 85) (15-16.02.2024)

Information society: technological, economic and technical aspects of formation (issue 86) (12-13.03.2024)

Information society: technological, economic and technical aspects of formation (issue 87) (11-12.04.2024)

Information society: technological, economic and technical aspects of formation (issue 88) (14-15.05.2024)

Information society: technological, economic and technical aspects of formation (issue 89) (12-13.06.2024)

Information society: technological, economic and technical aspects of formation (issue 90) (9-10.07.2024)

Information society: technological, economic and technical aspects of formation (issue 91) (10-11.09.2024)

Information society: technological, economic and technical aspects of formation (issue 92) (8-9.10.2024)

Information society: technological, economic and technical aspects of formation (issue 93) (12-13.11.2024)

Information society: technological, economic and technical aspects of formation (issue 94) (11-12.12.2024)

Conference 2023

Information society: technological, economic and technical aspects of formation (issue 74) (06-07.02.2023)

Information society: technological, economic and technical aspects of formation (issue 75) (06-07.03.2023)

Information society: technological, economic and technical aspects of formation (issue 76) (03-04.04.2023)

Information society: technological, economic and technical aspects of formation (issue 77) (09-10.05.2023)

Information society: technological, economic and technical aspects of formation (issue 78) (08-09.06.2023)

Information society: technological, economic and technical aspects of formation (issue 79) (06-07.07.2023)

Information society: technological, economic and technical aspects of formation (issue 80) (19-20.09.2023)

Information society: technological, economic and technical aspects of formation (issue 81) (11-12.10.2023)

Information society: technological, economic and technical aspects of formation (issue 82) (9-1.11.2023)

Information society: technological, economic and technical aspects of formation (issue 83) (7-8.12.2023)

Conference 2022

Information society: technological, economic and technical aspects of formation (issue 65) (8-9.02.2022)

Information society: technological, economic and technical aspects of formation (issue 66) (6-7.04.2022)

Information society: technological, economic and technical aspects of formation (issue 67) (11-12.05.2022)

Information society: technological, economic and technical aspects of formation (issue 68) (7-8.06.2022)

Information society: technological, economic and technical aspects of formation (issue 69) (4-5.07.2022)

Information society: technological, economic and technical aspects of formation (issue 70) (22-23.09.2022)

Information society: technological, economic and technical aspects of formation (issue 71) (18-19.10.2022)

Information society: technological, economic and technical aspects of formation (issue 72) (15-16.11.2022)

Information society: technological, economic and technical aspects of formation (issue 73) (08-09.12.2022)

Conference 2021

Information society: technological, economic and technical aspects of formation (Issue 55) (09.02.2021)

Information society: technological, economic and technical aspects of formation (Issue 56) (10.03.2021)

Information society: technological, economic and technical aspects of formation (issue 57) (13.04.2021)

Information society: technological, economic and technical aspects of formation (issue 58) (12.05.2021)

Information society: technological, economic and technical aspects of formation (issue 59) (08.06.2021)

Information society: technological, economic and technical aspects of formation (issue 60) (13.07.2021)

Information society: technological, economic and technical aspects of formation (issue 61) (15.09.2021)

Information society: technological, economic and technical aspects of formation (issue 62) (12.10.2021)

Information society: technological, economic and technical aspects of formation (issue 63) (11.11.2021)

Information society: technological, economic and technical aspects of formation (issue 64) (10.12.2021)

Congratulation from Internet Conference!

Рік заснування видання - 2011

ЕФЕКТИВНІСТЬ ТА ОСОБЛИВОСТІ СУЧАСНИХ МОДЕЛЕЙ КЛАСИФІКАЦІЇ ЗОБРАЖЕНЬ

Another articles in this section