ПОРІВНЯЛЬНИЙ АНАЛІЗ ЕФЕКТИВНОСТІ МЕТОДА ШУМОЗАГЛУШЕННЯ НА ОСНОВІ ДКП З ІНШИМИ МЕТОДАМИ ФІЛЬТРАЦІЇ ШУМУ ДЛЯ МОВНИХ СИГНАЛІВ - Scientific conference

Congratulation from Internet Conference!

Hello

Рік заснування видання - 2011

ПОРІВНЯЛЬНИЙ АНАЛІЗ ЕФЕКТИВНОСТІ МЕТОДА ШУМОЗАГЛУШЕННЯ НА ОСНОВІ ДКП З ІНШИМИ МЕТОДАМИ ФІЛЬТРАЦІЇ ШУМУ ДЛЯ МОВНИХ СИГНАЛІВ

27.02.2026 13:01

[1. Information systems and technologies]

Author: Брисін Петро Володимирович, аспірант, Національний аерокосмічний університет “ХАІ”, м. Харків



Завдання придушення шуму в мовних сигналах виникає в системах зв'язку, голосових інтерфейсах, засобах запису та зберігання аудіо, а також у попередній обробці даних для завдань розпізнавання мови [1]. При низьких значеннях вхідного співвідношення сигнал/шум SNR (Signal to Noise Ratio) класичні методи часто стикаються з компромісом між глибиною придушення шуму і спотвореннями мовних компонентів, тому вибір алгоритму і його параметрів істотно впливає на кінцеву якість. У даному дослідженні проводився аналіз ефективності фільтрації шуму на основі дискретного косинусного перетворення (ДКП) [2] в порівнянні з двома іншими широко використовуваними методами: фільтрації на основі вейвлетів [3] і фільтра Вінера [4]. Основна увага була приділена оптимальному вибору параметрів ДКП-алгоритму (розмір блоку N, тип порогу, параметр β) і зіставленню результатів за двома метриками якості: поліпшенню SNR на виході фільтра [5] і поліпшенню значення метрики розбірливості мови ESTOI (Extended Short-Time Objective Intelligibility) [6]. Метод ДКП-фільтрації шуму заснований на тому, що в коротких мовних кадрах енергія корисного сигналу концентрується в невеликій кількості коефіцієнтів перетворення, в той час як шум розподіляється більш рівномірно. При обробці сигнал розбивається на блоки довжиною N, потім до кожного блоку застосовується ДКП, далі виконується порогова обробка коефіцієнтів і потім зворотне перетворення. У дослідженні використовувалося два типи порогу – жорсткий (hard) і комбінований (comb), значення порогу обчислювалося за допомогою відомого співвідношення [2] у якому враховується оцінка середньоквадратичного відхилення шуму і параметр β, який задає ступінь придушення коефіцієнтів. Таким чином, для ДКП фільтра параметр N, тип порогу і параметр β задають компроміс між величиною придушення шуму і збереженням якості мовної структури.

При використовуванні вейвлет-фільтрації сигнал розкладається по вейвлет-базису, малі коефіцієнти пригнічуються за пороговим правилом, після чого виконується зворотне перетворення. Цей метод добре працює на нестаціонарних завадах, але чутливий до вибору базису (w), рівня розкладу (l) і порогу (th).

Третій досліджений метод фільтрації - фільтр Вінера. Це лінійний оптимальний алгоритм обробки сигналів, призначений для зменшення шуму шляхом мінімізації середньоквадратичної похибки між отриманим і чистим сигналом. Його ефективність сильно залежить від коректності оцінювання спектрів сигналу і шуму, при низькому SNR можливі зайві спотворення формантних компонентів.

Експерименти виконувалися на семи файлах запису мови F0…F6, це записи англійської мови, в яких чоловічий голос вимовляє так звані гарвардські фрази [7]. Записи взяті з набору мовних сигналів, створеного в Університеті Макгілла, Монреаль, Канада [8]. Для кожного запису формувалися зашумлені реалізації з вхідним SNR в діапазоні 0–20 дБ. Для кожного значення SNR виконувався підбір параметрів ДКП фільтра за сіткою значень: розмір блоку N (16, 32, 64), тип порогу (hard, comb) і параметр β (2–10). Аналогічно, для вейвлет-фільтра підбиралися параметри базису, ступеня розкладу і порогу, а для фільтра Вінера — параметри оцінки спектрів. Якість шумозаглушення оцінювалася за зміною значення двох метрик на вході і виході фільтра: енергетичної метрики — поліпшення SNR і перцептивної — поліпшення ESTOI. Метрика ESTOI базується на порівнянні короткочасних спектральних представлень еталонного та обробленого мовних сигналів з урахуванням кореляції між відповідними часово-частотними сегментами. Ця метрика приймає значення від 0 до 1, при цьому більше значення відповідає кращій розбірливості мовлення.

Таблиця 1. Поліпшення метрик SNR і ESTOI на виході фільтра, файл F4




У таблиці 1 представлені результати, отримані для файлу F4. Проведений порівняльний аналіз підтверджує ефективність ДКП-фільтрації при оптимальному налаштуванні параметрів. У найбільш практично важливому діапазоні вхідних SNR 0-10 дБ, ДКП-фільтрація з розміром блоку N=64 і жорстким порогом перевершує інші методи. Наприклад, при SNR = 0 дБ цей метод забезпечує поліпшення SNR на 10,32 дБ, що на 1,24 дБ краще, ніж у фільтра Вінера, і на 1,05 дБ краще, ніж у вейвлет-фільтра. Перевага зберігається і при SNR = 5 і 10 дБ, що доводить високу ефективність запропонованого методу. Аналогічні результати отримані і для шести інших фрагментів, для яких проводилось дослідження. 

Крім того, за метрикою ESTOI застосування ДКП-фільтрації є найбільш доцільним для покращення перцептивної розбірливості мовлення в умовах низьких і середніх значень вхідного SNR (до 15 дБ), тоді як при високих значеннях SNR ефект фільтрації з точки зору ESTOI є обмеженим.

Результати вказують на практичну доцільність застосування ДКП-фільтрації в системах реального часу і вбудованих рішеннях, де критичні обчислювальна ефективність і стабільна якість. 

Література:

1. P. C. Loizou. Speech Enhancement: Theory and Practice. 2nd ed., CRC Press, 2013.

2. P. Brysin, V. Lukin. (2024). DCT-based denoising of speech signals. Herald of Khmelnytskyi National University Technical sciences. 2024. 301-309. DOI: 10.31891/2307-5732-2024-339-4-48.

3. M. A. Ali, P. M. Shemi, An improved method of audio denoising based on wavelet transform, 2015 International Conference on Power, Instrumentation, Control and Computing (PICC), Thrissur, India, 2015, pp. 1-6, DOI: 10.1109/PICC.2015.7455802.

4. N. Wiener. Extrapolation, Interpolation, and Smoothing of Stationary Time Series. MIT Press,1949.

5. P. Brysin, V. Lukin. (2025). Efficiency analysis for dct-based denoising of speech signals. Herald of Khmelnytskyi National University Technical sciences. 2025. 431-440. DOI: 10.31891/2307-5732-2025-355-61. 

6. J. Jensen, C. Taal. (2016). An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 24. 1-1. DOI: 10.1109/TASLP.2016.2585878.

7. IEEE Subcommittee on Subjective Measurements, “IEEE Recommended Practice for Speech Quality Measurements”, IEEE Trans. Audio and Electroacoustics, vol. AU-17, no. 3, pp.225–246, Sept. 1969 (IEEE Standards Publication No. 297-1969).

8. TSP speech database. https://www.mmsp.ece.mcgill.ca/Documents/Data/TSP-Speech-Database/TSP-Speech-Database.pdf.

_____________________________


Науковий керівник: Лукін Володимир Васильович, доктор технічних наук, професор, Національний аерокосмічний університет “ХАІ”, м. Харків







Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License
допомога Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter
Сonferences

Conference 2026

Conference 2025

Conference 2024

Conference 2023

Conference 2022

Conference 2021



Міжнародна інтернет-конференція з економіки, інформаційних систем і технологій, психології та педагогіки

Наукова спільнота - інтернет конференції

:: LEX-LINE :: Юридична лінія

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення