ПОРІВНЯЛЬНИЙ АНАЛІЗ ЕФЕКТИВНОСТІ МЕТОДА ШУМОЗАГЛУШЕННЯ НА ОСНОВІ ДКП З ІНШИМИ МЕТОДАМИ ФІЛЬТРАЦІЇ ШУМУ ДЛЯ МОВНИХ СИГНАЛІВ

27.02.2026 13:01

[1. Information systems and technologies]

Author: Брисін Петро Володимирович, аспірант, Національний аерокосмічний університет “ХАІ”, м. Харків

Завдання придушення шуму в мовних сигналах виникає в системах зв'язку, голосових інтерфейсах, засобах запису та зберігання аудіо, а також у попередній обробці даних для завдань розпізнавання мови [1]. При низьких значеннях вхідного співвідношення сигнал/шум SNR (Signal to Noise Ratio) класичні методи часто стикаються з компромісом між глибиною придушення шуму і спотвореннями мовних компонентів, тому вибір алгоритму і його параметрів істотно впливає на кінцеву якість. У даному дослідженні проводився аналіз ефективності фільтрації шуму на основі дискретного косинусного перетворення (ДКП) [2] в порівнянні з двома іншими широко використовуваними методами: фільтрації на основі вейвлетів [3] і фільтра Вінера [4]. Основна увага була приділена оптимальному вибору параметрів ДКП-алгоритму (розмір блоку N, тип порогу, параметр β) і зіставленню результатів за двома метриками якості: поліпшенню SNR на виході фільтра [5] і поліпшенню значення метрики розбірливості мови ESTOI (Extended Short-Time Objective Intelligibility) [6]. Метод ДКП-фільтрації шуму заснований на тому, що в коротких мовних кадрах енергія корисного сигналу концентрується в невеликій кількості коефіцієнтів перетворення, в той час як шум розподіляється більш рівномірно. При обробці сигнал розбивається на блоки довжиною N, потім до кожного блоку застосовується ДКП, далі виконується порогова обробка коефіцієнтів і потім зворотне перетворення. У дослідженні використовувалося два типи порогу – жорсткий (hard) і комбінований (comb), значення порогу обчислювалося за допомогою відомого співвідношення [2] у якому враховується оцінка середньоквадратичного відхилення шуму і параметр β, який задає ступінь придушення коефіцієнтів. Таким чином, для ДКП фільтра параметр N, тип порогу і параметр β задають компроміс між величиною придушення шуму і збереженням якості мовної структури.

При використовуванні вейвлет-фільтрації сигнал розкладається по вейвлет-базису, малі коефіцієнти пригнічуються за пороговим правилом, після чого виконується зворотне перетворення. Цей метод добре працює на нестаціонарних завадах, але чутливий до вибору базису (w), рівня розкладу (l) і порогу (th).

Третій досліджений метод фільтрації - фільтр Вінера. Це лінійний оптимальний алгоритм обробки сигналів, призначений для зменшення шуму шляхом мінімізації середньоквадратичної похибки між отриманим і чистим сигналом. Його ефективність сильно залежить від коректності оцінювання спектрів сигналу і шуму, при низькому SNR можливі зайві спотворення формантних компонентів.

Експерименти виконувалися на семи файлах запису мови F0…F6, це записи англійської мови, в яких чоловічий голос вимовляє так звані гарвардські фрази [7]. Записи взяті з набору мовних сигналів, створеного в Університеті Макгілла, Монреаль, Канада [8]. Для кожного запису формувалися зашумлені реалізації з вхідним SNR в діапазоні 0–20 дБ. Для кожного значення SNR виконувався підбір параметрів ДКП фільтра за сіткою значень: розмір блоку N (16, 32, 64), тип порогу (hard, comb) і параметр β (2–10). Аналогічно, для вейвлет-фільтра підбиралися параметри базису, ступеня розкладу і порогу, а для фільтра Вінера — параметри оцінки спектрів. Якість шумозаглушення оцінювалася за зміною значення двох метрик на вході і виході фільтра: енергетичної метрики — поліпшення SNR і перцептивної — поліпшення ESTOI. Метрика ESTOI базується на порівнянні короткочасних спектральних представлень еталонного та обробленого мовних сигналів з урахуванням кореляції між відповідними часово-частотними сегментами. Ця метрика приймає значення від 0 до 1, при цьому більше значення відповідає кращій розбірливості мовлення.

Таблиця 1. Поліпшення метрик SNR і ESTOI на виході фільтра, файл F4

У таблиці 1 представлені результати, отримані для файлу F4. Проведений порівняльний аналіз підтверджує ефективність ДКП-фільтрації при оптимальному налаштуванні параметрів. У найбільш практично важливому діапазоні вхідних SNR 0-10 дБ, ДКП-фільтрація з розміром блоку N=64 і жорстким порогом перевершує інші методи. Наприклад, при SNR = 0 дБ цей метод забезпечує поліпшення SNR на 10,32 дБ, що на 1,24 дБ краще, ніж у фільтра Вінера, і на 1,05 дБ краще, ніж у вейвлет-фільтра. Перевага зберігається і при SNR = 5 і 10 дБ, що доводить високу ефективність запропонованого методу. Аналогічні результати отримані і для шести інших фрагментів, для яких проводилось дослідження.

Крім того, за метрикою ESTOI застосування ДКП-фільтрації є найбільш доцільним для покращення перцептивної розбірливості мовлення в умовах низьких і середніх значень вхідного SNR (до 15 дБ), тоді як при високих значеннях SNR ефект фільтрації з точки зору ESTOI є обмеженим.

Результати вказують на практичну доцільність застосування ДКП-фільтрації в системах реального часу і вбудованих рішеннях, де критичні обчислювальна ефективність і стабільна якість.

Література:

1. P. C. Loizou. Speech Enhancement: Theory and Practice. 2nd ed., CRC Press, 2013.

2. P. Brysin, V. Lukin. (2024). DCT-based denoising of speech signals. Herald of Khmelnytskyi National University Technical sciences. 2024. 301-309. DOI: 10.31891/2307-5732-2024-339-4-48.

3. M. A. Ali, P. M. Shemi, An improved method of audio denoising based on wavelet transform, 2015 International Conference on Power, Instrumentation, Control and Computing (PICC), Thrissur, India, 2015, pp. 1-6, DOI: 10.1109/PICC.2015.7455802.

4. N. Wiener. Extrapolation, Interpolation, and Smoothing of Stationary Time Series. MIT Press,1949.

5. P. Brysin, V. Lukin. (2025). Efficiency analysis for dct-based denoising of speech signals. Herald of Khmelnytskyi National University Technical sciences. 2025. 431-440. DOI: 10.31891/2307-5732-2025-355-61.

6. J. Jensen, C. Taal. (2016). An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 24. 1-1. DOI: 10.1109/TASLP.2016.2585878.

7. IEEE Subcommittee on Subjective Measurements, “IEEE Recommended Practice for Speech Quality Measurements”, IEEE Trans. Audio and Electroacoustics, vol. AU-17, no. 3, pp.225–246, Sept. 1969 (IEEE Standards Publication No. 297-1969).

8. TSP speech database. https://www.mmsp.ece.mcgill.ca/Documents/Data/TSP-Speech-Database/TSP-Speech-Database.pdf.

_____________________________

Науковий керівник: Лукін Володимир Васильович, доктор технічних наук, професор, Національний аерокосмічний університет “ХАІ”, м. Харків

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Another articles in this section

Сonferences

Conference 2026

Information society: technological, economic and technical aspects of formation (issue 106) (15-16.01.2026)

Information society: technological, economic and technical aspects of formation (issue 107) (10-11.02.2026)

Information society: technological, economic and technical aspects of formation (issue 108) (5-6.03.2026)

Information society: technological, economic and technical aspects of formation (issue 109) (8-9.04.2026)

Conference 2025

Information society: technological, economic and technical aspects of formation (issue 95) (16-17.01.2025)

Information society: technological, economic and technical aspects of formation (issue 96) (11-12.02.2025)

Information society: technological, economic and technical aspects of formation (issue 97) (13-14.03.2025)

Information society: technological, economic and technical aspects of formation (issue 98) (15-16.04.2025)

Information society: technological, economic and technical aspects of formation (issue 99) (14-15.05.2025)

Information society: technological, economic and technical aspects of formation (issue 100) (11-12.06.2025)

Information society: technological, economic and technical aspects of formation (issue 101) (09-10.07.2025)

Information society: technological, economic and technical aspects of formation (issue 102) (16-17.09.2025)

Information society: technological, economic and technical aspects of formation (issue 103) (14-15.10.2025)

Information society: technological, economic and technical aspects of formation (issue 104) (13-14.11.2025)

Information society: technological, economic and technical aspects of formation (issue 105) (11-12.12.2025)

Conference 2024

Information society: technological, economic and technical aspects of formation (issue 84) (18-19.01.2024)

Information society: technological, economic and technical aspects of formation (issue 85) (15-16.02.2024)

Information society: technological, economic and technical aspects of formation (issue 86) (12-13.03.2024)

Information society: technological, economic and technical aspects of formation (issue 87) (11-12.04.2024)

Information society: technological, economic and technical aspects of formation (issue 88) (14-15.05.2024)

Information society: technological, economic and technical aspects of formation (issue 89) (12-13.06.2024)

Information society: technological, economic and technical aspects of formation (issue 90) (9-10.07.2024)

Information society: technological, economic and technical aspects of formation (issue 91) (10-11.09.2024)

Information society: technological, economic and technical aspects of formation (issue 92) (8-9.10.2024)

Information society: technological, economic and technical aspects of formation (issue 93) (12-13.11.2024)

Information society: technological, economic and technical aspects of formation (issue 94) (11-12.12.2024)

Conference 2023

Information society: technological, economic and technical aspects of formation (issue 74) (06-07.02.2023)

Information society: technological, economic and technical aspects of formation (issue 75) (06-07.03.2023)

Information society: technological, economic and technical aspects of formation (issue 76) (03-04.04.2023)

Information society: technological, economic and technical aspects of formation (issue 77) (09-10.05.2023)

Information society: technological, economic and technical aspects of formation (issue 78) (08-09.06.2023)

Information society: technological, economic and technical aspects of formation (issue 79) (06-07.07.2023)

Information society: technological, economic and technical aspects of formation (issue 80) (19-20.09.2023)

Information society: technological, economic and technical aspects of formation (issue 81) (11-12.10.2023)

Information society: technological, economic and technical aspects of formation (issue 82) (9-1.11.2023)

Information society: technological, economic and technical aspects of formation (issue 83) (7-8.12.2023)

Conference 2022

Information society: technological, economic and technical aspects of formation (issue 65) (8-9.02.2022)

Information society: technological, economic and technical aspects of formation (issue 66) (6-7.04.2022)

Information society: technological, economic and technical aspects of formation (issue 67) (11-12.05.2022)

Information society: technological, economic and technical aspects of formation (issue 68) (7-8.06.2022)

Information society: technological, economic and technical aspects of formation (issue 69) (4-5.07.2022)

Information society: technological, economic and technical aspects of formation (issue 70) (22-23.09.2022)

Information society: technological, economic and technical aspects of formation (issue 71) (18-19.10.2022)

Information society: technological, economic and technical aspects of formation (issue 72) (15-16.11.2022)

Information society: technological, economic and technical aspects of formation (issue 73) (08-09.12.2022)

Conference 2021

Information society: technological, economic and technical aspects of formation (Issue 55) (09.02.2021)

Information society: technological, economic and technical aspects of formation (Issue 56) (10.03.2021)

Information society: technological, economic and technical aspects of formation (issue 57) (13.04.2021)

Information society: technological, economic and technical aspects of formation (issue 58) (12.05.2021)

Information society: technological, economic and technical aspects of formation (issue 59) (08.06.2021)

Information society: technological, economic and technical aspects of formation (issue 60) (13.07.2021)

Information society: technological, economic and technical aspects of formation (issue 61) (15.09.2021)

Information society: technological, economic and technical aspects of formation (issue 62) (12.10.2021)

Information society: technological, economic and technical aspects of formation (issue 63) (11.11.2021)

Information society: technological, economic and technical aspects of formation (issue 64) (10.12.2021)

Congratulation from Internet Conference!

Рік заснування видання - 2011

ПОРІВНЯЛЬНИЙ АНАЛІЗ ЕФЕКТИВНОСТІ МЕТОДА ШУМОЗАГЛУШЕННЯ НА ОСНОВІ ДКП З ІНШИМИ МЕТОДАМИ ФІЛЬТРАЦІЇ ШУМУ ДЛЯ МОВНИХ СИГНАЛІВ

Another articles in this section