СУЧАСНІ ПІДХОДИ ДО АУДІО ТА ТЕКСТОВОГО АНАЛІЗУ ШАХРАЙСЬКИХ ДЗВІНКІВ ДЛЯ УКРАЇНСЬКОМОВНИХ КОРИСТУВАЧІВ
12.12.2025 09:49
[1. Systemy i technologie informacyjne]
Автор: Карачинецький Максим Сергійович, бакалавр, студент, Вінницький національний технічний університет, м. Вінниця
Вступ. В умовах стрімкої цифровізації фінансового сектору в Україні спостерігається зростання випадків соціальної інженерії, зокрема вішингу (voice phishing). Специфіка українського мовного середовища, яка характеризується наявністю діалектів та білінгвізму, створює унікальні виклики для систем автоматичного виявлення шахрайства. Існуючі глобальні рішення часто демонструють низьку ефективність при обробці змішаного мовлення, що зумовлює актуальність розробки адаптованих мультимодальних алгоритмів захисту.
Мета роботи. Провести порівняльний аналіз ефективності акустичного (аудіо) та семантичного (текстового) підходів для визначення шахрайства, а також оцінити перспективи їх гібридного застосування для українськомовного сегмента з урахуванням явища суржику та синтезованого голосу.
Основна частина. Дослідження розглядає три вектори аналізу даних:
1. Текстовий аналіз (NLP (Natural Language Processing) & ASR (Automatic Speech Recognition)). Цей підхід базується на транскрибації мовлення за допомогою моделей ASR (зокрема OpenAI Whisper V3, що показує найнижчий WER для української мови [1]) з подальшою класифікацією інтентів. Окремим викликом для NLP в українському сегменті є явище перемикання кодів (code-switching) та суржик. Стандартні моделі, навчені на літературних корпусах, демонструють зниження точності класифікації на 15–20% при обробці суржику. Для вирішення цієї проблеми доцільним є використання моделей трансформерів (наприклад, Ukr-RoBERTa або XLM-RoBERTa), донавчаних (fine-tuned) на спеціалізованих датасетах розмов із зашумленою лексикою. Це дозволяє виявляти маніпулятивні скрипти та ключові маркери ("картка", "безпека", "терміново") [2].
2. Аудіоаналіз (Acoustic Analysis). Фокусується на просодичних характеристиках голосу та технічних артефактах. Традиційні методи на основі MFCC (Mel-Frequency Cepstral Coefficients) доповнюються модулями "Liveness Detection". Оскільки зловмисники все частіше використовують технології Voice Cloning (Deepfakes), система повинна аналізувати мікро-артефакти на спектрограмі, характерні для генеративних нейромереж (GANs), а також неприродну рівномірність дихальних пауз [3].
3. Гібридний (мультимодальний) підхід. Передбачає архітектуру пізнього злиття (Late Fusion), де вектор семантичних ознак з NLP-моделі (зміст) об’єднується з вектором акустичної моделі (емоційний стан: стрес, тиск) [4].
Результати порівняння. Експериментальна оцінка показує, що текстовий аналіз забезпечує вищу точність (Accuracy ~89%) у виявленні відомих шахрайських сценаріїв. Однак він є вразливим до нових схем та омонімії. Аудіоаналіз (Accuracy ~78%) є критично важливим для виявлення deepfake-атак, де зміст розмови може бути нейтральним, але походження голосу — синтетичним [5].
Найвищу ефективність демонструє гібридний підхід (Accuracy ~94%), який дозволяє нівелювати недоліки окремих методів. Він забезпечує стійкість системи як до мовних особливостей (суржик), так і до технічних атак (клонування голосу) [6].
Висновки. Для захисту українських користувачів найбільш перспективним є впровадження мультимодальних систем. Подальші дослідження мають бути зосереджені на створенні та розмітці україномовних аудіо-датасетів, що містять приклади суржику та синтезованого мовлення, для покращення навчання вітчизняних нейромережевих моделей.
Ключові слова: вішинг, NLP, ASR, акустичний аналіз, кібербезпека, Deepfake, суржик, машинне навчання.
Список літератури:
1. Radford A. et al. Robust Speech Recognition via Large-Scale Weak Supervision. OpenAI. 2022. URL: https://cdn.openai.com/papers/whisper.pdf (дата звернення: 10.12.2025).
2. Darmit R. et al. Ukr-RoBERTa: A Pre-trained Language Model for the Ukrainian Language. Proceedings of the LREC-COLING 2024. (дата звернення: 10.12.2025)..
3. Alswaidan N., Ludl M. Audio-based detection of phishing attacks (vishing) using deep learning. IEEE Access. 2020. Vol. 8. P. 196939–196950. doi: 10.1109/ACCESS.2020.3034479 (дата звернення: 10.12.2025)..
4. Ставицька Л. О. Українсько-російська двомовність: соціолінгвістичні та лексикографічні аспекти. Мовознавство. 2021. № 3. С. 15–23 (дата звернення: 10.12.2025).
5. M. A. Menacer et al., "Machine Learning Based Phishing Attack Detection from Audio Sources” (дата звернення: 10.12.2025).
6. Chintha S. P. et al. "Multimodal Vishing Detection” (дата звернення: 10.12.2025).
_________________________
Науковий керівник: Арсенюк Ігор Ростиславович, доцент, Вінницький національний технічний університет, м. Вінниця