СИСТЕМА ОБРОБКИ ІНФОРМАЦІЇ ГОЛОСОВОГО ЗАПИСУ В РЕЖИМІ РЕАЛЬНОГО ЧАСУ - Наукові конференції

Вас вітає Інтернет конференція!

Вітаємо на нашому сайті

Рік заснування видання - 2011

СИСТЕМА ОБРОБКИ ІНФОРМАЦІЇ ГОЛОСОВОГО ЗАПИСУ В РЕЖИМІ РЕАЛЬНОГО ЧАСУ

01.04.2022 23:25

[1. Інформаційні системи і технології]

Автор: Максим’юк Анастасія Миколаївна, бакалавр, Чернівецький національний університет імені Ю. Федьковича, Чернівці



У сьогоденні системи розпізнавання мовлення людини використовуються майже у всіх сферах людської діяльності де задіяні комп’ютерні та електронні пристрої. Голосове введення дає змогу диктувати електронні листи та документи, натиснувши опцію мікрофона на клавіатурі пристрою. Відсутність необхідності друкувати або писати довгі нотатки – це величезна економія часу, а технологія розпізнавання мовлення надає можливості транскрипції, які допомагають підвищити продуктивність і прибутковість [1]. 

Програмне забезпечення для розпізнавання мовлення дає змогу телефонам, комп’ютерам, планшетам та іншим машинам отримувати, розпізнавати та розуміти людські висловлювання. Воно використовує природну мову як вхідні дані, щоб ініціювати дію, дозволяючи нашим пристроям реагувати на наші голосні команди [2].

Розроблений проект розширює сферу використання систем розпізнавання голосу, дозволяючи користувачам застосовувати систему для навчання та самовдосконалення. Метою роботи є створення додатку для платформ IoS та Android на основі існуючих методів розпізнавання мовлення людини, який в режимі реального часу зчитуватиме мовлення людини з допомогою смартфону і реагуватиме на окремі слова, які були зазначені користувачем. Програма призначена для удосконалення мовлення людини. До прикладу, користувач може підрахувати скільки слів паразитів він сказав за певний час, чи скільки раз він вжив нововивчене іноземне слово. Додаток розроблений за допомогою фреймворка React Native. React Native — це кросплатформний фреймворк з відкритим вихідним кодом для розробки нативних мобільних додатків на JavaScript і TypeScript [3].

У системах розпізнавання мови, що містять слова, вхідне слово порівнюється з усіма словами у словник. Розпізнавання може бути реалізоване різними методами такими як приховані моделі Маркова (Hidden Markov Model),  часові динамічні алгоритмів (DTW - Dynamic Time Warping) та нейронні мережі (Neural networks). Кожен з методів має свої переваги та недоліки.

Згідно з [4] алгоритм прихованих моделей Маркова дозволяє розглядати мову як деякий код, а мовний потік – як послідовність деяких кодових пакетів. Неважливо, що є елементом цього коду – фонеми, склади або цілі слова, значення має лише те, що імовірність появи будь-якого елемента коду залежить від деякого числа попередніх елементів. Таким чином, мова породжується Марківським джерелом, а мовний код є випадковим. 

Алгоритм динамічного трансформування часу (DTW) визначає оптимальну послідовність трансформації (деформації) часу між двома тимчасовими рядами. Алгоритм обчислює обидва значення деформації між двома рядами та відстанню між ними. DTW алгоритми дуже корисні для розпізнавання окремих слів в обмеженому словнику [5].

Нейронні мережі (Neural network, NN) або штучні нейронні мережі (Artificial neural networks, ANN) – є підмножиною машинного навчання і лежать в основі алгоритмів глибокого навчання. Їх назва та структура натхненні людським мозком, імітуючи спосіб, яким біологічні нейрони сигналізують один одного [6].

В процесі виконання роботи були проаналізовані дані алгоритми розпізнавання голосу, визначено переваги і недоліки кожного з них. Нейронні мережі мають високу швидкість роботи, більшу точність розпізнавання, та високу коректність роботи в умовах підвищеного шуму, саме тому у даній роботі розпізнавання мовлення людини виконується методом нейронних мереж. Результатом роботи є мобільний додаток, що дозволяє прослуховувати мову людини, перекладати її в текст, та в режимі реального часу реагувати на конкретні слова, тим самим дозволяючи користувачеві самоудосконалювати своє мовлення . 

Література

1. Innovative Uses of Speech Recognition Today: [Електронний ресурс] - Режим доступу: https://summalinguae.com/language-technology/innovative-uses-of-speech-recognition/

2. Speech Recognition Software: Past, Present, and future: [Електронний ресурс] - Режим доступу: https://summalinguae.com/language-technology/speech-recognition-software-history-future/

3. React native: [Електронний ресурс] - Режим доступу: https://ru.wikipedia.org/wiki/React_Native

4. Аналіз методів розпізнавання мовлення: [Електронний ресурс] -Режим доступу: http://ir.lib.vntu.edu.ua/bitstream/handle/123456789/20642/5144.pdf?sequence=3&isAllowed=y

5. Динамическое программирование в алгоритмах распознавания речи: [Електронний ресурс] - Режим доступу: https://habr.com/ru/post/135087

6. What are neural networks?: [Електронний ресурс] - Режим доступу: https://www.ibm.com/cloud/learn/neural-networks

____________________

Науковий керівник: Яковлєва Інна Дмитрівна, кандидат технічних наук, доцент, Чернівецький національний університет імені Юрія Федьковича




Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License
допомога Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter
Конференції

Конференції 2022

Конференції 2021



Міжнародна інтернет-конференція з економіки, інформаційних систем і технологій, психології та педагогіки

Наукова спільнота - інтернет конференції

:: LEX-LINE :: Юридична лінія

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення