АЛГОРИТМ ТРАНСФОРМАЦІЇ ВІДЕОМАТЕРІАЛІВ НА МОВУ КОРИСТУВАЧА
04.12.2022 16:39
[1. Information systems and technologies]
Author: Бандура Ігор Олександрович, магістрант, Західноукраїнський національний університет, Тернопіль
Переклад аудіозаписів та відеороликів є відносно новою послугою у порівнянні з традиційним усним чи письмовим перекладом [1]. Необхідність цією послуги все більше зростає із онлайн-діяльністю людей: навчання, проведення конференцій, семінарів, тощо. Наприклад, завдяки інструментам перекладу YouTube відео можуть бути доступнішими для глядачів каналу із різних країн, що дозволить збільшити аудиторію [2].
Тож трансформація відеоматеріалів на мову користувача є актуальною задачею сьогодні, що потребує дослідження і реалізації. Існує потреба у розробці методів, що дозволятимуть отримати якісний переклад відеоматеріалів.
Трансформація відеоматеріалів на мову користувача проходить кілька етапів, основними є: розпізнавання мовлення, переклад тексту та машинне озвучення тексту.
Оскільки кожен етап залежить від попереднього, то якість вихідних даних кожного етапу повинна бути висока. Тільки у цьому випадку вихідний результат трансформації буде дійсно якісним і задовільнятиме вимогам користувача.
Згідно алгоритму для трансформації відеоматеріалів на мову користувача необхідно:
– видобути аудіо файл із завантаженого відеоматеріалу;
– розпізнати мовлення за допомогою нейронних мереж з аудіофайлу, тобто провести трансформацію видобутого аудіофайлу в текст;
– перекласти текст на іншу мову, яку вибрав користувач;
– провести трансформацію перекладеного тексту в аудіофайл, тобто озвучити цей текст;
– відділити голоси людей від інших фонових звуків за допомогою штучного інтелекту в оригінальному аудіофайлі;
– за допомогою програмних інструментів, що дозволяють працювати з відео та аудіофайлами, зменшити гучність голосів людей в оригінальному аудіофайлі;
– поєднати аудіофайл озвученого перекладеного тексту, а саме: аудіофайл із зменшеною гучністю голосів оригіналу, оригінальний аудіофайл із фоновими звуками та оригінальний відеофайл без звуків.
У результаті трансформації буде отримано відеофайл перекладений на іншу мову.
Оскільки на останньому етапі, перед злиттям файлів, голоси людей від фонових звуків за допомогою штучного інтелекту будуть відділені, то всі фонові звуки, наприклад, стукіт, музика, клацання ручкою і тому подібні звуки, не будуть втрачені; файл не буде позбавлений емоційного забарвлення.
Література
1. Переклад відео та аудіо [Електронний ресурс] – Режим доступу: https://ftbtranslation.com/ua/ua/ustnyj-perevod-v-kieve/perevod-video-i-audio-v-kieve
2. Інструменти YouTube для перекладу контенту [Електронний ресурс] – Режим доступу: https://support.google.com/youtube/answer/4792576?hl=uk
______________________
Науковий керівник: Турченко Ірина Василівна, кандидат технічних наук, доцент, Західноукраїнський національний університет, Тернопіль