ПІДХОДИ ДО РОЗПІЗНАВАННЯ МОВИ ПРИ ТРАНСФОРМАЦІЇ ВІДЕОМАТЕРІАЛІВ НА МОВУ КОРИСТУВАЧА - Наукові конференції

Вас вітає Інтернет конференція!

Вітаємо на нашому сайті

Рік заснування видання - 2011

ПІДХОДИ ДО РОЗПІЗНАВАННЯ МОВИ ПРИ ТРАНСФОРМАЦІЇ ВІДЕОМАТЕРІАЛІВ НА МОВУ КОРИСТУВАЧА

04.12.2022 16:28

[1. Інформаційні системи і технології]

Автор: Бандура Ігор Олександрович, магістрант, Західноукраїнський національний університет, Тернопіль; Турченко Ірина Василівна, кандидат технічних наук, доцент, Західноукраїнський національний університет, Тернопіль


Вирішення задачі розпізнавання людського мовлення та перетворення його в текст є актуальним напрямком вже багато років. Основними сферами застосування машинного розпізнавання мови є системи голосового обслуговування та інтерактивні автовідповідачі, ідентифікація особи, аналітика дзвінків і переговорів, голосове управління.

При трансформації відеоматеріалів на мову користувача розпізнавання мови є першим важливим етапом.

Сьогодні дуже популярними є ведення власних блогів, проведення онлайн трансляцій чи просто поширення у соціальних мережах відео. Звичайно, викладаючи відео тільки одною мовою, їх власники втрачають багатьох глядачів, які б могли допомогти їм у реалізації деяких проектів, монетизації власних продуктів, тощо. Сервіси для трансформації відеоматеріалів на різні мови стануть їм у нагоді.

На сьогодні відомі методи розпізнавання мови є розпізнавання голосових міток та окремих команд; пошук ключових слів; розпізнавання за граматикою; розпізнавання лексичних елементів мови.

Остання є найскладнішою технологією, оскільки переводить мову в текст, не обмежуючись при цьому заданою граматикою. Саме цей підхід, що дозволяє отримати високу якість та достовірність розпізнавання, використовується в сучасних системах розпізнавання мови.

В основному методи розпізнавання мови мають принцип роботи, який складається з наступних кроків:

– опрацювання та нормалізація вхідного сигналу (попередя обробка);

– виділення ознак;

– класифікація;

– моделювання мовлення.

Крок попередньої обробки вхідного сигналу полягає у тому, щоб покращити вхідний аудіо сигнал за допомогою зниження шумів в аудіо сигналі та фільтрування сигналу.

Ознаки, які використовуються для автоматизованого розпізнавання мовлення, визначаються за допомогою певної кількості значень або коефіціентів, що генеруються шляхом застосування різних методів на вхідних даних. Цей крок має бути бути дуже надійним, оскільки це стосується різних факторів якості, таких як шум або ефект відлуння.

Автоматичне розпізнавання мови використовує технології для перетворення мовних сигналів на послідовність слів або інших лінгвістичних одиниць за допомогою алгоритму, реалізованого у вигляді комп'ютерної програми. Системи розпізнавання мови здатні розуміти мовне введення для словників, які вміщають тисячі слів в оперативному середовищі. Мовний сигнал передає два важливих типи інформації: зміст мови і гендер людини, мовлення якої було розпізнано. Розпізнавачі мови націлені на вилучення лексичної інформації з мовного сигналу незалежно від того, на яких частотах та як розмовляє диктор. Розпізнавання мови диктора також пов'язане і з вилученням гендеру людини [2]. 

Ідентифікація гендера диктора дає змогу в подальшому використати цю інформацію, наприклад, для машинного озвучення розпізнаного тексту в іншій мові. На рисунку 1 представлено схему розпізнавання мови без ідентифікації диктора, на рисунку 2 – з ідентифікацією.




Рисунок 1 – Схема розпізнавання мови без ідентифікації диктора





Рисунок 2 – Схема розпізнавання мови з ідентифікацією диктора

Література

1. Технології і програми розпізнавання та розуміння мовлення [Електронний ресурс] – Режим доступу: https://www.cybermova.com/speech/розпізнавання мовлення.html

2. Сажок М.М., Селюх Р.А., Юхименко О.А. Адаптація до голосу диктора на основі гендернозалежних акустичних моделей фонем для української мови [Електронний ресурс] – Режим доступу: http://cybermova.com/publications/2010--sazhok-selyukh-yukhymenko--gender-dependent-adaptation--ukrobraz.pdf




Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License
допомога Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter
Конференції

Конференції 2024

Конференції 2023

Конференції 2022

Конференції 2021



Міжнародна інтернет-конференція з економіки, інформаційних систем і технологій, психології та педагогіки

Наукова спільнота - інтернет конференції

:: LEX-LINE :: Юридична лінія

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення