ВИЯВЛЕННЯ ДІЙ В СПОРТИВНИХ ПОДІЯХ ЗА ДОПОМОГОЮ МЕТОДУ CALF
04.12.2022 15:11
[1. Інформаційні системи і технології]
Автор: Волянський Станіслав Андрійович, студент, Західноукраїнський національний університет, м. Тернопіль
Завдання виявлення дій було введено в документі SoccerNet, де метою є отримання точного часу, коли відбувається подія у заданому кадрі відео. Cioppa та ін. запропонували конвеєр, де вони враховували природний контекст, що оточує дії, а пізніше вони включили ці знання в нову функцію втрати, яка виконує деяку часову сегментацію. Крім того, вони розробляють модуль виявлення дій для виявлення реакцій на основі цієї тимчасової інформації.
Щоб спостерігати за різницею в продуктивності моделей для спостереження за діями на футбольних відео, модель було протестовано з використанням об’єднаних попередньо обчислених функцій введення з кількох 3D-моделей CNN і попередньо обчислених функцій з однієї моделі, наприклад ResNet-152. Моделі були підібрані таким чином, щоб вони могли визначити контекст у даному відеокліпі. Модель Context-Aware Loss Function (CALF) була представлена Cioppa et al. і показано на рисунку 1.
Рисунок 1: Функція втрати з урахуванням контексту
Модель CALF, рекомендована Cioppa et al. увійшов до п’ятірки найкращих підходів глибокого навчання з урахуванням контексту та дав результати, порівняні з найсучаснішими для завдання спотів дій. Було помічено, що код був загальнодоступним для вищевказаних моделей глибокого навчання, що дозволило нам налаштувати та використовувати базову модель для подальшого навчання та тестування нашого коду.
Було помічено, що метод CALF дав результати, порівняні з сучасними підходами глибокого навчання з урахуванням контексту, а код для реалізації базової моделі є загальнодоступним. Крім того, це дозволило нам проаналізувати техніку об’єднання та функцію втрат, що використовуються в цьому підході, і виконати подальший аналіз. Модель було додатково перевірено з використанням конкатенованих функцій з кількох моделей як вхідних даних.
Метод Context Aware Loss Function, також відомий як CALF, був запропонований Cioppa та ін. . Для завдання виявлення дії Cioppa et al. представив нову функцію втрат. Функція моделює тимчасовий контекст, що оточує подію, замість того, щоб утримувати окремий кадр як центр уваги. Їхня мережа складалася з модуля виділення ознак кадру та тимчасового модуля CNN, який відповідав за виведення векторів ознак класу для кожного кадру, модуля сегментації, за яким слідував модуль визначення дії.
Література
1. Adrien Deliège et al. SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of Broadcast Soccer Videos. 2021. arXiv: 2011.13367.
2. Bo He et al. GTA: Global Temporal Attention for Video Action Understanding. 2021. arXiv: 2012.08510.