РОЗПІЗНАВАННЯ МОВИ ДЛЯ ДІАГНОСТУВАННЯ ХВОРОБИ ПАРКІНСОНА З ВИКОРИСТАННЯМ ЗГОРТКОВОЇ НЕЙРОНОЇ МЕРЕЖІ
09.09.2024 17:04
[1. Інформаційні системи і технології]
Автор: Бердник Михайло Геннадійович, доктор технічних наук, доцент, Національний технічний університет «Дніпровська політехніка»; Яшкін Ростислав Ігорович, аспірант, Національний технічний університет «Дніпровська політехніка»
Діагностика захворювання на початкових стадіях хвороби Паркінсона (ХП) є непростим процесом. Існують складнощі диференціальної діагностики з екстрапірамідною патологією, коли деякі симптоми пацієнта можуть бути схожими на прояви багатьох захворювань. До таких захворювань зокрема належить і ХП [1]. Це зумовило необхідність детально представити клінічні прояви голосових порушень при ХП.
У дев'яти з десяти людей з ХП спостерігаються зміни в мовленні в сторону погіршення, в процесі прогресування захворювання. Однак лише 3-4% з усіх пацієнтів отримують необхідне лікування, що має на меті покращити мовлення. [2]. Отже окрім безпосередньо діагностування ХП, результати роботи натренованої нейронної мережі (НМ) можуть стати в нагоді під час оцінки успішності обраного лікування, відслідковуючи найменші зміни в мовленні пацієнта під час терапії.
Мовні порушення при ХП в цілому позначаються як гіпокінетична дизартрія. За шкалою оцінювання UPDRS (Unified Parkinson's disease rating scale), лікар-дослідник зобов’язаний оцінити багато аспектів здоров’я і повсякденного життя пацієнта, в тому числі мовлення. До таких критеріїв згідно UDPRS [3] можуть відноситись оцінка гучності, модуляції і чіткості, включаючи змазаність, палілалія, тахіфемія та виставити бали за відповідною шкалою [3].
Для реалізації системи аналізу мовлення і визначення ХП був розроблений
наступний алгоритм (рис. 1):
Рис.1 Блок-схема алгоритму
На першому кроці алгоритму, необхідно підготувати набір аудіоданих та відеоданих з якими працюватиме нейронна мережа. З відео достатньо буде отримати тільки аудіодоріжку. Це є найважливішим етапом адже від якості даних будуть залежати результати роботи НМ в майбутньому. Для прототипу були використані записи розміщені у вільному доступі в мережі Інтернет, на яких пацієнти з ХП спонтанно говорять. Пацієнти знаходяться на різних стадіях захворювання, різного віку та статі та знаходяться на різних терапіях, що в свою чергу впливає на точність визначення моделі. Пацієнтів об’єднує декілька речей: підтверджена лікарем наявність захворювання, близькість пацієнтів за віком, а також те що всі пацієнти спілкувались українською мовою.
Надалі, дані необхідно очистити від зайвих шумів, та розділити записи на кластери, а самі аудіодоріжки на сегменти. Кластеризація в першу чергу включає в себе розділення аудіозаписів мовлення людей, на тих, що здорові і тих що хворі, також, в майбутньому, за можливості, дані будуть розподілені за віком, статтю людини і регіоном проживання, з метою підвищення точності роботи НМ.
Наступним кроком є зведення аудіозаписів до одного формату. Аудіодані зводились до формату WAV, а також щоб досягти оптимального балансу між якістю і обсягом аудіофайлів для аналізу було використано наступні параметри:
1. Частота дискретизації: для аналізу мови і голосу частота 16 кГц є найбільш ефективною, оскільки мова зазвичай містить більшість своїх важливих інформаційних частот до 8 кГц [4]. Використання вищих частот як от 44,1 кГц може призвести до збільшення розміру файлів без значного покращення якості аналізу.
2. Кількість каналів: одноканальний (моноканальний) звук достатній для аналізу голосу, і це зменшує розмір файлу та спрощує обробку.
3. Бітова глибина: 16 біт. Це стандарт для більшості задач обробки звуку, який забезпечує достатню точність при збереженні даних.
Наступним етапом підготовки даних є сегментація. Тривалі аудіофайли, розділяємо на коротші сегменти. Було обрано інтервал по 2 секунди і вхідний файл розділено за допомогою бібліотеки librosa на мові Python.
Передостаннім етапом підготовки даних є нормалізація амплітуди для кожного сегмента, щоб усунути різниці в гучності. Зрештою використавши віконне перетворення Фур'є (ВПФ) перетворюємо кожен аудіофайл на спектрограму за допомогою бібліотеки librosa. Спектрограма являє собою зображення на якому можна бачити різницю спектра в усьому звуковому уривку відразу. Отримані дані використовуються для подальшого навчання згорткової нейроної мережі (CNN).
CNN використовуються для автоматичного виділення ознак з медичних зображень, таких як МРТ, КТ або, в нашому випадку спектрограм, що в свою чергу підвищує точність діагностики. В свої роботі “Автоматизований скринінг депресії на основі мовлення з використанням глибоких згорткових нейронних мереж” Кароль Хласта [5], доводив ефективність використання CNN для визначення депресії на основі голосових даних пацієнтів. Також в роботі Салехі А. [6] підкреслюється значний потенціал CNN для навчання моделей НМ на основі даних з медичної галузі.
Підсумовуючи можна стверджувати що CNN є потужним інструментом для аналізу зображень та сигналів, оскількиі надає можливість автоматично витягувати важливі ознаки (маркери) з даних, що робить їх ідеальними для аналізу спектрограм або акустичних даних для діагностики захворювань, таких як ХП.
Література.
1. Sheila C. Lahijani, Kirk A. Harris, Medical Complications of Psychiatric Treatment: An Update, Critical Care Clinics, Volume 33, Issue 3, 2017, Pages 713-734, ISSN 0749-0704, ISBN 9780323531269, https://doi.org/10.1016/j.ccc.2017.03.008.
2. Dashtipour, K., Tafreshi, A., Lee, J., & Crawley, B. ,Speech disorders in Parkinson's disease: pathophysiology, medical management and surgical approaches. Neurodegenerative disease management, 8(5), 337–348, 2021 https://doi.org/10.2217/nmt-2018-0021.
3. Козьолкін О. А., А. В. Ревенько А. В., Мєдвєдкова С. О. Хвороба паркінсона: сучасні аспекти діагностики і лікування навчальний посібник.URL: http://dspace.zsmu.edu.ua/bitstream/123456789/7470/1/%D0%A5%D0%B2%D0%BE% D1%80%D0%BE%D0%B1%D0%B0%20%D0%9F%D0%B0%D1%80%D0%BA%D1%96% D0%BD%D1%81%D0%BE%D0%BD%D0%B0_25.05.17.pdf.
4. Hirsch, Hans-Günter & Hellwig, K. & Dobler, Stefan. (2001). Speech recognition at multiple sampling rates. 1837-1840. 10.21437/Eurospeech.2001-434.
5. Automated speech-based screening of depression using deep convolutional neural networks Karol Chlasta, Krzysztof Wołka, Izabela Krejtz, 2019, 11 pages.
6. Salehi, A.W.; Khan, S.; Gupta, G.; Alabduallah, B.I.; Almjally, A.; Alsolai, H.; Siddiqui, T.; Mellit, A. A Study of CNN and Transfer Learning in Medical Imaging: Advantages, Challenges, Future Scope. Sustainability 2023, 15, 5930. https://doi.org/10.3390/su15075930