АНАЛІЗ МЕТОДІВ ГОЛОСОВОЇ ІДЕНТИФІКАЦІЇ
05.07.2023 23:32
[1. Information systems and technologies]
Author: Бондаренко Максим Едуардович, аспірант, Харківський національний університет радіоелектроніки, м. Харків;
Іващенко Георгій Станіславович, кандидат технічних наук, доцент, кафедра електронних обчислювальних машин, Харківський національний університет радіоелектроніки, м. Харків
У сучасному світі актуальною є проблема захисту даних за допомогою біометричних методів, одним з яких є голосова ідентифікація користувачів, що полягає у визначенні та перевірці ідентичності особи на основі аналізу її голосу. Голосова ідентифікація використовує унікальні характеристики голосу, такі як тембр, інтонація, ритм та інші акустичні параметри для визначення голосового профілю конкретної особи. Така ідентифікація може використовуватися в банківських системах для перевірки клієнтів, в телефонних службах підтримки для ідентифікації користувачів або в правоохоронних органах для пошуку злочинців за їх голосом [1].
Процес голосової ідентифікації включає запис голосу особи, аналіз його характеристик і порівняння зі збереженими голосовими даними в базі даних [2]. Такі голосові дані можуть бути отримані шляхом запису кодових слів або фраз.
Метою роботи є дослідження та аналіз існуючих методів голосової ідентифікації, таких як статистичне порівняння шаблонів, використання Deep learning, гаусові суміші та фонетичні моделі.
Статистичне порівняння шаблонів – метод заснований на порівнянні статистичних характеристик голосу, таких як форманти, часові характеристики та інші акустичні параметри [5]. Голосовий зразок, отриманий від особи, порівнюється зі збереженими шаблонами в базі даних для ідентифікації особи.
Глибоке навчання (Deep Learning) передбачає використання штучних нейронних мереж для аналізу голосу та виявлення унікальних характеристик. Моделі глибокого навчання можуть навчатися на великій кількості голосових зразків для автоматичного визначення особливостей голосу та ідентифікації особи [6].
Моделювання голосових даних за допомогою гаусових сумішей дозволяє описувати статистичні характеристики голосу [7]. За допомогою аналізу гаусових моделей, можна порівнювати голосові зразки та визначати ідентичність особи.
Підхід на основі фонетичних моделей базується на моделюванні фонетичних аспектів мовлення. Голосовий зразок розбивається на фонеми та інші фонетичні одиниці, які порівнюються зі збереженими фонетичними моделями для ідентифікації особи.
Існуючі методи голосової ідентифікації користувача можуть застосовуватися як в автоматичному режимі, так і в напівавтоматичному. Ці методи можуть використовуватися окремо або в поєднанні один з одним для досягнення більшої точності ідентифікації особи за голосом.
Голосової ідентифікації притаманні наступні недоліки:
1.Необхідність врахування варіативності голосу через можливість його зміни в залежності від багатьох факторів, таких як настрій, втома, захворювання або навіть звички користувача. Це може призводити до варіацій у голосових зразках, що ускладнює ідентифікацію особи.
2.Наявність викривлень – зовнішні шуми, електронні спотворення або недоліки у запису голосу можуть впливати на якість голосових зразків. Це може зробити процес ідентифікації менш надійним, оскільки шум може призводити до помилкових збігів або неправильного визначення особи.
3.Можливість створення фальшивих голосових зразків або відтворення голосу іншої особи, що може бути використано для обходу системи ідентифікації та несанкціонованого доступу.
4.Необхідність забезпечення конфіденційності та захисту даних. Оскільки голосова ідентифікація вимагає збереження голосових даних користувачів, це створює проблеми з забезпеченням приватності та захисту даних, оскільки важливо забезпечити безпеку збереження та обробки цих даних, щоб уникнути їхнього несанкціонованого використання.
5.Використання голосової ідентифікації пов'язане з етичними питаннями, особливо в контексті збирання та використання голосових даних без належного інформування [8].
В роботі розглянуті існуючі методи голосової ідентифікації людини, було виявлені їхні переваги та недоліки. Проблема голосової ідентифікації полягає в динамічній зміні голосу людину через різні причини, як фізичні так й психологічні, а також через можливі фонові шуми, що потребують додаткового фільтрування звукової доріжки.
Література
1.Flanagan J. Speech Analysis, Synthesis and Perception / J. Flanagan. – New York and Berlin: Springer-Verlag, 2008. – 317 p.
2.Rosenberg E. Recent research in automatic speaker recognition / E. Rosenberg, F. K. Soong // Advances in Speech Signal Processing. – New York: Marcel Dekker, 1992. – P. 701-738.
3.Mammone R. Robust speaker recognition. A feature-based approach / R. Mammone, X. Zhang, R. Ramachandran // IEEE Signal Processing Mag., vol. 13, no. 5. – 1996. – P. 58-71.
4.Atal B. S. Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification / B. S. Atal // J. Acoust. Soc. Amer., vol. 55, no. 6. – 1974. – P. 1304-1312.
5.Behroozmand R. Effects of voice harmonic complexity on ERP responses to pitch-shifted auditory feedback / R. Behroozmand, O. Korzyukov, C. R. Larson // Clin Neurophysiol, 122. – 2011. – P. 2408-2417.
6.Reynolds D. A. A Gaussian mixture modeling approach to textindependent speaker identification / D. A. Reynolds // Ph.D. thesis, Georgia Inst. of Technology. – Sept. 1992. – 308 p.
7.Wayman J. L. Error Rate Equations for the General Biometric System / J. L. Wayman, D. A. Reynolds // IEEE Robotics & Automation 6, 9. – Jan. 1999. – P. 35-48.
8.LeCun Y. Deep learning / Y. LeCun, Y. Bengio, G. Hinton // Nature 521, no. 7553. – 2015. – P. 436-444.