СИСТЕМА РОЗПІЗНАВАННЯ ТА ОБРОБКИ ГОЛОСОВИХ КОМАНД З ВИКОРИСТАННЯМ ЗАСОБІВ KALDI - Научное сообщество

Вас приветствует Интернет конференция!

Приветствуйем на нашем сайте

Рік заснування видання - 2011

СИСТЕМА РОЗПІЗНАВАННЯ ТА ОБРОБКИ ГОЛОСОВИХ КОМАНД З ВИКОРИСТАННЯМ ЗАСОБІВ KALDI

07.03.2023 13:48

[1. Информационные системы и технологии]

Автор: Кундій Дмитро Віталійович, магістрант, Чернівецький національний університет імені Ю. Федьковича, м. Чернівці


Однією з найважливіших задач в області обробки мовлення є розпізнавання та обробка голосових команд, які можуть бути використані в різних додатках, як-от віртуальні асистенти, системи навігації та інші. Для вирішення цієї задачі можна використовувати різні інструменти, серед яких особливе місце займає Kaldi [1].

Kaldi – це відкрите програмне забезпечення, призначене для розпізнавання та обробки мовлення. Цей засіб розроблений у Колорадському університеті та використовується для розпізнавання мовлення різними мовами, зокрема українською [2]. 

Kaldi використовує комплексний підхід до розпізнавання мовлення, який охоплює такі етапи, як попередній аналіз сигналу, вилучення ознак, моделювання, декодування та пост-обробку результатів [3]. Для кожного з цих етапів Kaldi використовує відповідні алгоритми та методи, до яких належать:

1. Попередній аналіз сигналу: на цьому етапі сигнал аналізується з метою вилучення корисної інформації. Для цього використовуються такі методи, як FFT (швидке перетворення Фур'є), фільтрація та нормалізація сигналу.

2. Вилучення ознак: цей етап передбачає вилучення з сигналу ознак, які можуть бути використані для подальшого розпізнавання мовлення. Для цього використовуються такі методи, як MFCC (коефіцієнти мел-частотної шкали), PLP (параметризація лінійного передавального шляху) тощо.

3. Моделювання: на цьому етапі створюються моделі, які можуть розпізнавати мовлення. Для цього використовуються такі методи, як HMM (приховані моделі Маркова), DNN (глибокі нейронні мережі), GMM (змішані гаусівські моделі) та інші.

4. Декодування: відбувається розпізнавання мовлення за допомогою моделей, створених на попередньому етапі. Для цього використовуються такі алгоритми, як Viterbi decoding та алгоритми пошуку найкращого шляху.

5. Пост-обробка результатів: на цьому етапі виконується підтвердження та корекція результатів розпізнавання, а також виконуються інші завдання, до яких належать розпізнавання іменованих сутностей та визначення мовленнєвого контексту.

На рис. 1 зображено модель розпізнавання мовлення на основі інструментарію Kaldi [4]. 





Рис.1. Модель розпізнавання мовлення

Порівняно з іншими системами розпізнавання мовлення, Kaldi відомий своєю високою точністю та ефективністю, які досягаються завдяки використанню сучасних алгоритмів та методів, а також застосуванню різних оптимізаційних технік, як-от обчислювальні графи та масова обробка даних [5].

Метою створення додатку для розпізнавання тексту, що базується на Kaldi, є полегшення та прискорення роботи в різних сферах, пов'язаних із розпізнаванням мовлення. До того ж такий додаток може допомогти зменшити витрати на ручне введення тексту та організувати взаємодію з комп’ютером безпосередньо голосом. Також створення такого додатку має важливе значення для розвитку технологій штучного інтелекту, оскільки він може бути використаний у різноманітних дослідженнях та експериментах, пов'язаних з розпізнаванням мовлення та обробкою текстових даних [6].

Для розробки додатку, який базуються на Kaldi, було обрано платформу Qt. Qt – це кросплатформна бібліотека для розробки програмного забезпечення мовами програмування C++ та QML, яка надає можливості для розробки інтерфейсів користувача, мережевого програмування, роботи з базами даних та ін [7].

Використання Qt для розробки додатків, що базуються на Kaldi, дає змогу забезпечити кросплатформовість та зручний графічний інтерфейс користувача. До того ж використання C++ для розробки додатку є запорукою високої продуктивності та ефективності обробки даних [8].

Результатом роботи над проектом, що базується на Kaldi для розпізнавання тексту, є функціональний кросплатформенний продукт, який забезпечує управління комп’ютером за допомогою голосових команд.

Література

1. Y. Lei, L. Xie, R. Singh, and Y. Liu, "Automatic Speech Recognition - A Brief Survey," IEEE Internet of Things Journal:  [Електронний ресурс] – Режим доступу: https://ieeexplore.ieee.org/document/8127315.

2. Kaldi офіційна документація:  [Електронний ресурс] – Режим доступу: https://kaldi-asr.org/doc/.

3. D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, G. Stemmer, and K. Vesely, "The Kaldi Speech Recognition Toolkit," IEEE 2011 Workshop on Automatic Speech Recognition and Understanding, 2011.

4. Continuous Punjabi speech recognition model based on Kaldi ASR toolkit:  [Електронний ресурс] – Режим доступу: https://link.springer.com/article/10.1007/s10772-018-9497-6

5. D. King, "Automatic Speech Recognition Using Deep Neural Networks and Finite State Transducers," Ph.D. thesis, University of Sheffield, 2014.

6. L. R. Rabiner and B. H. Juang, "Fundamentals of Speech Recognition," Prentice-Hall, 1993.

7. Офіційна документація Qt: [Електронний ресурс] – Режим доступу:  https://doc.qt.io/qt-5/

8. Сайт Cplusplus.com:  [Електронний ресурс] – Режим доступу: https://www.cplusplus.com/ .

___________________________

Науковий керівник: Танасюк Юлія Володимирівна, кандидат фізико-математичних наук, доцент, Чернівецький національний університет імені Ю. Федьковича, м. Чернівці




Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License
допомога Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter
Конференции

Конференции 2024

Конференции 2023

Конференции 2022

Конференции 2021



Міжнародна інтернет-конференція з економіки, інформаційних систем і технологій, психології та педагогіки

Наукова спільнота - інтернет конференції

:: LEX-LINE :: Юридична лінія

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення