ПОРІВНЯЛЬНИЙ АНАЛІЗ ЕФЕКТИВНОСТІ МЕТОДА ШУМОЗАГЛУШЕННЯ НА ОСНОВІ ДКП З ІНШИМИ МЕТОДАМИ ФІЛЬТРАЦІЇ ШУМУ ДЛЯ МОВНИХ СИГНАЛІВ
27.02.2026 13:01
[1. Information systems and technologies]
Author: Брисін Петро Володимирович, аспірант, Національний аерокосмічний університет “ХАІ”, м. Харків
Завдання придушення шуму в мовних сигналах виникає в системах зв'язку, голосових інтерфейсах, засобах запису та зберігання аудіо, а також у попередній обробці даних для завдань розпізнавання мови [1]. При низьких значеннях вхідного співвідношення сигнал/шум SNR (Signal to Noise Ratio) класичні методи часто стикаються з компромісом між глибиною придушення шуму і спотвореннями мовних компонентів, тому вибір алгоритму і його параметрів істотно впливає на кінцеву якість. У даному дослідженні проводився аналіз ефективності фільтрації шуму на основі дискретного косинусного перетворення (ДКП) [2] в порівнянні з двома іншими широко використовуваними методами: фільтрації на основі вейвлетів [3] і фільтра Вінера [4]. Основна увага була приділена оптимальному вибору параметрів ДКП-алгоритму (розмір блоку N, тип порогу, параметр β) і зіставленню результатів за двома метриками якості: поліпшенню SNR на виході фільтра [5] і поліпшенню значення метрики розбірливості мови ESTOI (Extended Short-Time Objective Intelligibility) [6]. Метод ДКП-фільтрації шуму заснований на тому, що в коротких мовних кадрах енергія корисного сигналу концентрується в невеликій кількості коефіцієнтів перетворення, в той час як шум розподіляється більш рівномірно. При обробці сигнал розбивається на блоки довжиною N, потім до кожного блоку застосовується ДКП, далі виконується порогова обробка коефіцієнтів і потім зворотне перетворення. У дослідженні використовувалося два типи порогу – жорсткий (hard) і комбінований (comb), значення порогу обчислювалося за допомогою відомого співвідношення [2] у якому враховується оцінка середньоквадратичного відхилення шуму і параметр β, який задає ступінь придушення коефіцієнтів. Таким чином, для ДКП фільтра параметр N, тип порогу і параметр β задають компроміс між величиною придушення шуму і збереженням якості мовної структури.
При використовуванні вейвлет-фільтрації сигнал розкладається по вейвлет-базису, малі коефіцієнти пригнічуються за пороговим правилом, після чого виконується зворотне перетворення. Цей метод добре працює на нестаціонарних завадах, але чутливий до вибору базису (w), рівня розкладу (l) і порогу (th).
Третій досліджений метод фільтрації - фільтр Вінера. Це лінійний оптимальний алгоритм обробки сигналів, призначений для зменшення шуму шляхом мінімізації середньоквадратичної похибки між отриманим і чистим сигналом. Його ефективність сильно залежить від коректності оцінювання спектрів сигналу і шуму, при низькому SNR можливі зайві спотворення формантних компонентів.
Експерименти виконувалися на семи файлах запису мови F0…F6, це записи англійської мови, в яких чоловічий голос вимовляє так звані гарвардські фрази [7]. Записи взяті з набору мовних сигналів, створеного в Університеті Макгілла, Монреаль, Канада [8]. Для кожного запису формувалися зашумлені реалізації з вхідним SNR в діапазоні 0–20 дБ. Для кожного значення SNR виконувався підбір параметрів ДКП фільтра за сіткою значень: розмір блоку N (16, 32, 64), тип порогу (hard, comb) і параметр β (2–10). Аналогічно, для вейвлет-фільтра підбиралися параметри базису, ступеня розкладу і порогу, а для фільтра Вінера — параметри оцінки спектрів. Якість шумозаглушення оцінювалася за зміною значення двох метрик на вході і виході фільтра: енергетичної метрики — поліпшення SNR і перцептивної — поліпшення ESTOI. Метрика ESTOI базується на порівнянні короткочасних спектральних представлень еталонного та обробленого мовних сигналів з урахуванням кореляції між відповідними часово-частотними сегментами. Ця метрика приймає значення від 0 до 1, при цьому більше значення відповідає кращій розбірливості мовлення.
Таблиця 1. Поліпшення метрик SNR і ESTOI на виході фільтра, файл F4
У таблиці 1 представлені результати, отримані для файлу F4. Проведений порівняльний аналіз підтверджує ефективність ДКП-фільтрації при оптимальному налаштуванні параметрів. У найбільш практично важливому діапазоні вхідних SNR 0-10 дБ, ДКП-фільтрація з розміром блоку N=64 і жорстким порогом перевершує інші методи. Наприклад, при SNR = 0 дБ цей метод забезпечує поліпшення SNR на 10,32 дБ, що на 1,24 дБ краще, ніж у фільтра Вінера, і на 1,05 дБ краще, ніж у вейвлет-фільтра. Перевага зберігається і при SNR = 5 і 10 дБ, що доводить високу ефективність запропонованого методу. Аналогічні результати отримані і для шести інших фрагментів, для яких проводилось дослідження.
Крім того, за метрикою ESTOI застосування ДКП-фільтрації є найбільш доцільним для покращення перцептивної розбірливості мовлення в умовах низьких і середніх значень вхідного SNR (до 15 дБ), тоді як при високих значеннях SNR ефект фільтрації з точки зору ESTOI є обмеженим.
Результати вказують на практичну доцільність застосування ДКП-фільтрації в системах реального часу і вбудованих рішеннях, де критичні обчислювальна ефективність і стабільна якість.
Література:
1. P. C. Loizou. Speech Enhancement: Theory and Practice. 2nd ed., CRC Press, 2013.
2. P. Brysin, V. Lukin. (2024). DCT-based denoising of speech signals. Herald of Khmelnytskyi National University Technical sciences. 2024. 301-309. DOI: 10.31891/2307-5732-2024-339-4-48.
3. M. A. Ali, P. M. Shemi, An improved method of audio denoising based on wavelet transform, 2015 International Conference on Power, Instrumentation, Control and Computing (PICC), Thrissur, India, 2015, pp. 1-6, DOI: 10.1109/PICC.2015.7455802.
4. N. Wiener. Extrapolation, Interpolation, and Smoothing of Stationary Time Series. MIT Press,1949.
5. P. Brysin, V. Lukin. (2025). Efficiency analysis for dct-based denoising of speech signals. Herald of Khmelnytskyi National University Technical sciences. 2025. 431-440. DOI: 10.31891/2307-5732-2025-355-61.
6. J. Jensen, C. Taal. (2016). An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 24. 1-1. DOI: 10.1109/TASLP.2016.2585878.
7. IEEE Subcommittee on Subjective Measurements, “IEEE Recommended Practice for Speech Quality Measurements”, IEEE Trans. Audio and Electroacoustics, vol. AU-17, no. 3, pp.225–246, Sept. 1969 (IEEE Standards Publication No. 297-1969).
8. TSP speech database. https://www.mmsp.ece.mcgill.ca/Documents/Data/TSP-Speech-Database/TSP-Speech-Database.pdf.
_____________________________
Науковий керівник: Лукін Володимир Васильович, доктор технічних наук, професор, Національний аерокосмічний університет “ХАІ”, м. Харків