РОЗПІЗНАВАННЯ МОВИ ДЛЯ ДІАГНОСТУВАННЯ ХВОРОБИ ПАРКІНСОНА З ВИКОРИСТАННЯМ ЗГОРТКОВОЇ НЕЙРОНОЇ МЕРЕЖІ

09.09.2024 17:04

[1. Информационные системы и технологии]

Автор: Бердник Михайло Геннадійович, доктор технічних наук, доцент, Національний технічний університет «Дніпровська політехніка»; Яшкін Ростислав Ігорович, аспірант, Національний технічний університет «Дніпровська політехніка»

ORCID: 0000-0003-4894-8995 Бердник М.Г.

Діагностика захворювання на початкових стадіях хвороби Паркінсона (ХП) є непростим процесом. Існують складнощі диференціальної діагностики з екстрапірамідною патологією, коли деякі симптоми пацієнта можуть бути схожими на прояви багатьох захворювань. До таких захворювань зокрема належить і ХП [1]. Це зумовило необхідність детально представити клінічні прояви голосових порушень при ХП.

У дев'яти з десяти людей з ХП спостерігаються зміни в мовленні в сторону погіршення, в процесі прогресування захворювання. Однак лише 3-4% з усіх пацієнтів отримують необхідне лікування, що має на меті покращити мовлення. [2]. Отже окрім безпосередньо діагностування ХП, результати роботи натренованої нейронної мережі (НМ) можуть стати в нагоді під час оцінки успішності обраного лікування, відслідковуючи найменші зміни в мовленні пацієнта під час терапії.

Мовні порушення при ХП в цілому позначаються як гіпокінетична дизартрія. За шкалою оцінювання UPDRS (Unified Parkinson's disease rating scale), лікар-дослідник зобов’язаний оцінити багато аспектів здоров’я і повсякденного життя пацієнта, в тому числі мовлення. До таких критеріїв згідно UDPRS [3] можуть відноситись оцінка гучності, модуляції і чіткості, включаючи змазаність, палілалія, тахіфемія та виставити бали за відповідною шкалою [3].

Для реалізації системи аналізу мовлення і визначення ХП був розроблений

наступний алгоритм (рис. 1):

Рис.1 Блок-схема алгоритму

На першому кроці алгоритму, необхідно підготувати набір аудіоданих та відеоданих з якими працюватиме нейронна мережа. З відео достатньо буде отримати тільки аудіодоріжку. Це є найважливішим етапом адже від якості даних будуть залежати результати роботи НМ в майбутньому. Для прототипу були використані записи розміщені у вільному доступі в мережі Інтернет, на яких пацієнти з ХП спонтанно говорять. Пацієнти знаходяться на різних стадіях захворювання, різного віку та статі та знаходяться на різних терапіях, що в свою чергу впливає на точність визначення моделі. Пацієнтів об’єднує декілька речей: підтверджена лікарем наявність захворювання, близькість пацієнтів за віком, а також те що всі пацієнти спілкувались українською мовою.

Надалі, дані необхідно очистити від зайвих шумів, та розділити записи на кластери, а самі аудіодоріжки на сегменти. Кластеризація в першу чергу включає в себе розділення аудіозаписів мовлення людей, на тих, що здорові і тих що хворі, також, в майбутньому, за можливості, дані будуть розподілені за віком, статтю людини і регіоном проживання, з метою підвищення точності роботи НМ.

Наступним кроком є зведення аудіозаписів до одного формату. Аудіодані зводились до формату WAV, а також щоб досягти оптимального балансу між якістю і обсягом аудіофайлів для аналізу було використано наступні параметри:

1. Частота дискретизації: для аналізу мови і голосу частота 16 кГц є найбільш ефективною, оскільки мова зазвичай містить більшість своїх важливих інформаційних частот до 8 кГц [4]. Використання вищих частот як от 44,1 кГц може призвести до збільшення розміру файлів без значного покращення якості аналізу.

2. Кількість каналів: одноканальний (моноканальний) звук достатній для аналізу голосу, і це зменшує розмір файлу та спрощує обробку.

3. Бітова глибина: 16 біт. Це стандарт для більшості задач обробки звуку, який забезпечує достатню точність при збереженні даних.

Наступним етапом підготовки даних є сегментація. Тривалі аудіофайли, розділяємо на коротші сегменти. Було обрано інтервал по 2 секунди і вхідний файл розділено за допомогою бібліотеки librosa на мові Python.

Передостаннім етапом підготовки даних є нормалізація амплітуди для кожного сегмента, щоб усунути різниці в гучності. Зрештою використавши віконне перетворення Фур'є (ВПФ) перетворюємо кожен аудіофайл на спектрограму за допомогою бібліотеки librosa. Спектрограма являє собою зображення на якому можна бачити різницю спектра в усьому звуковому уривку відразу. Отримані дані використовуються для подальшого навчання згорткової нейроної мережі (CNN).

CNN використовуються для автоматичного виділення ознак з медичних зображень, таких як МРТ, КТ або, в нашому випадку спектрограм, що в свою чергу підвищує точність діагностики. В свої роботі “Автоматизований скринінг депресії на основі мовлення з використанням глибоких згорткових нейронних мереж” Кароль Хласта [5], доводив ефективність використання CNN для визначення депресії на основі голосових даних пацієнтів. Також в роботі Салехі А. [6] підкреслюється значний потенціал CNN для навчання моделей НМ на основі даних з медичної галузі.

Підсумовуючи можна стверджувати що CNN є потужним інструментом для аналізу зображень та сигналів, оскількиі надає можливість автоматично витягувати важливі ознаки (маркери) з даних, що робить їх ідеальними для аналізу спектрограм або акустичних даних для діагностики захворювань, таких як ХП.

Література.

1. Sheila C. Lahijani, Kirk A. Harris, Medical Complications of Psychiatric Treatment: An Update, Critical Care Clinics, Volume 33, Issue 3, 2017, Pages 713-734, ISSN 0749-0704, ISBN 9780323531269, https://doi.org/10.1016/j.ccc.2017.03.008.

2. Dashtipour, K., Tafreshi, A., Lee, J., & Crawley, B. ,Speech disorders in Parkinson's disease: pathophysiology, medical management and surgical approaches. Neurodegenerative disease management, 8(5), 337–348, 2021 https://doi.org/10.2217/nmt-2018-0021.

3. Козьолкін О. А., А. В. Ревенько А. В., Мєдвєдкова С. О. Хвороба паркінсона: сучасні аспекти діагностики і лікування навчальний посібник.URL: http://dspace.zsmu.edu.ua/bitstream/123456789/7470/1/%D0%A5%D0%B2%D0%BE% D1%80%D0%BE%D0%B1%D0%B0%20%D0%9F%D0%B0%D1%80%D0%BA%D1%96% D0%BD%D1%81%D0%BE%D0%BD%D0%B0_25.05.17.pdf.

4. Hirsch, Hans-Günter & Hellwig, K. & Dobler, Stefan. (2001). Speech recognition at multiple sampling rates. 1837-1840. 10.21437/Eurospeech.2001-434.

5. Automated speech-based screening of depression using deep convolutional neural networks Karol Chlasta, Krzysztof Wołka, Izabela Krejtz, 2019, 11 pages.

6. Salehi, A.W.; Khan, S.; Gupta, G.; Alabduallah, B.I.; Almjally, A.; Alsolai, H.; Siddiqui, T.; Mellit, A. A Study of CNN and Transfer Learning in Medical Imaging: Advantages, Challenges, Future Scope. Sustainability 2023, 15, 5930. https://doi.org/10.3390/su15075930

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Другие научные работы даной секции

Конференции

Konferencje 2026

Społeczeństwo informacyjne: technologiczne, ekonomiczne i techniczne aspekty rozwoju (nr 106) (15-16.01.2026)

Konferencje 2025

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 95) (16-17.01.2025)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 96) (11-12.02.2025)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 97) (13-14.03.2025)

Społeczeństwo informacyjne: technologiczne, ekonomiczne i techniczne aspekty rozwoju (nr 98) (15-16.04.2025)

Społeczeństwo informacyjne: technologiczne, ekonomiczne i techniczne aspekty rozwoju (nr 99) (14-15.05.2025)

Społeczeństwo informacyjne: technologiczne, ekonomiczne i techniczne aspekty rozwoju (nr 100) (11-12.06.2025)

1. Systemy i technologie informacyjne 10
2. Nauki ekonomiczne 15
3. Nauki techniczne 5
4. Nauki pedagogiczne 0
5. Nauki prawne 1

Społeczeństwo informacyjne: technologiczne, ekonomiczne i techniczne aspekty rozwoju (nr 101) (09-10.07.2025)

Społeczeństwo informacyjne: technologiczne, ekonomiczne i techniczne aspekty rozwoju (nr 102) (16-17.09.2025)

Społeczeństwo informacyjne: technologiczne, ekonomiczne i techniczne aspekty rozwoju (nr 103) (14-15.10.2025)

Społeczeństwo informacyjne: technologiczne, ekonomiczne i techniczne aspekty rozwoju (nr 104) (13-14.11.2025)

1. Systemy i technologie informacyjne 11
2. Nauki ekonomiczne 11
3. Nauki techniczne 8
4. Nauki pedagogiczne 4
5. Nauki prawne 8

Społeczeństwo informacyjne: technologiczne, ekonomiczne i techniczne aspekty rozwoju (nr 105) (11-12.12.2025)

1. Systemy i technologie informacyjne 19
2. Nauki ekonomiczne 13
3. Nauki techniczne 7
4. Nauki pedagogiczne 8
5. Nauki prawne 7

Konferencje 2024

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 84) (18-19.01.2024)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 85) (15-16.02.2024)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 86) (12-13.03.2024)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 87) (11-12.04.2024)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 88) (14-15.05.2024)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 89) (12-13.06.2024)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 90) (9-10.07.2024)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 91) (10-11.09.2024)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 92) (8-9.10.2024)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 93) (12-13.11.2024)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 94) (11-12.12.2024)

Konferencje 2023

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 74) (06-07.02.2023)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 75) (06-07.03.2023)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 76) (03-04.04.2023)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 77) (09-10.05.2023)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 78) (08-09.06.2023)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 79) (06-07.07.2023)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 80) (19-20.09.2023)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 81) (11-12.10.2023)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 82) (9-10.11.2023)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 83) (7-8.12.2023)

Konferencje 2022

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 65) (8-9.02.2022)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 66) (6-7.04.2022)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 67) (11-12.05.2022)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 68) (7-8.06.2022)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 69) (4-5.07.2022)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 70) (22-23.09.2022)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 71) (18-19.10.2022)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 72) (15-16.11.2022)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 73) (08-09.12.2022)

Konferencje 2021

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 55) (09.02.2021)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 56) (10.03.2021)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 57) (13.04.2021)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 58) (12.05.2021)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 59) (08.06.2021)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 60) (13.07.2021)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 61) (15.09.2021)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 62) (12.10.2021)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 63) (11.11.2021)

Информационное общество: технологические, экономические и технические аспекты становления (выпуск 64) (10.12.2021)

Вас приветствует Интернет конференция!

Рік заснування видання - 2011

РОЗПІЗНАВАННЯ МОВИ ДЛЯ ДІАГНОСТУВАННЯ ХВОРОБИ ПАРКІНСОНА З ВИКОРИСТАННЯМ ЗГОРТКОВОЇ НЕЙРОНОЇ МЕРЕЖІ

Другие научные работы даной секции