ІНТЕЛЕКТУАЛЬНИЙ ЗАСТОСУНОК РОЗПІЗНАВАННЯ ЗАБАРВЛЕНОСТІ ТЕКСТОВИХ ПОВІДОМЛЕНЬ УКРАЇНСЬКОЮ МОВОЮ
07.10.2024 16:20
[1. Информационные системы и технологии]
Автор: Моргаль Олег Михайлович, старший викладач, Київський політехнічний інститут ім. Ігоря Сікорського; Савчук Олена Володимирівна, кандидат технічних наук, старший науковий співробітник, Київський політехнічний інститут ім. Ігоря Сікорського; Турок Вадим Васильович, студент, Київський політехнічний інститут ім. Ігоря Сікорського
Проблема загрозливої чи емоційної забарвленості у текстових повідомленнях є особливо актуальною, оскільки вона може мати серйозні соціальні наслідки, від особистісних конфліктів до масових деструктивних взаємодій у віртуальному середовищі [1].
Метою роботи є розробка та валідація інтелектуального застосунку, який спроможен ефективно виявляти емоційне забарвлення у текстових повідомленнях, написаних українською мовою (унікальні мовні та культурні особливості), забезпечуючи високу точність та надійність виявлення агресивного контенту [2].
Основні задачі роботи: 1. Розробка моделі виявлення емоцій. 2. Валідація та тестування системи. 3. Аналіз результатів та розробка рекомендацій для покращення системи.
Особливості задачі: 1. Мовні та культурні особливості. 2. Різноманітність форм вираження емоцій. 3. Неоднозначність контексту. 4. Висока точність та надійність.
Формалізація задачі: 1. Визначення емоцій. 2. Створення датасету повідомлень, які включають приклади агресивного та неагресивного контенту. 3. Вибір методології. 4. Розробка алгоритму. 4. Тестування та оцінка ефективності ( оцінка та швидкість обробки).
Тип навчання: наглядове навчання (supervised learning) з позначенням емоцій позитивне (1) або негативне (-1); встановлення кореляції між вхідними та вихідними даними, що передбачають невідомі раніше вхідні дані.
Тип нейронної моделі: рекурентна нейронна мережа (RNN) з використанням архітектури LSTM (Long Short-Term Memory) [3].
Оцінка якості: за допомогою метрик точності (accuracy) та втрати (loss).
Мова програмування: Python, середовище - Visual Studio Code.
Вибір нейронної мережі та її параметрів
Вибір моделі: Sequential з бібліотеки Keras.
Перший шар - Embedding: input_dim=5000, output_dim=128, input_length=100. LSTM шар: кількість вузлів – 128, dropout=0.2 і recurrent_dropout=0.2 (20%). Вихідний шар - Dense: 1 вузол, activation='sigmoid', для бінарної класифікації.
Компіляція моделі: loss='binary_crossentropy' (бінарна класифікація).
optimizer='adam' (метод оптимізації).
Тренування моделі: batch_size=32, epochs=25.
Оцінка точності моделі: тестові дані типового приклада LSTM.
Навчання мережі
Ключові етапи навчання мережі: 1. Підготовка даних -embedding, рadding:
2. Створення моделі: шари- Embedding (обробка входів), Dense (класифікація).
3. Навчання моделі: 1. Пряме поширення (Forward Propagation).2. Обчислення втрати (Loss Calculation). 3. Зворотне поширення (Backpropagation). 4. Оптимізація параметрів - алгоритм Adam. 5. Валідація та тестування.
Результати навчання та роботи мережі
Точність (accuracy) на тестовому наборі даних склала 83.48%, що є досить високим показником для багатьох застосувань на 25-ій епосі.
Планування експерименту. 1. Зміна архітектури мережі.
2. Гіперпараметри навчання. 3. Регуляризація та уникнення перенавчання: збільшення обсягу даних, застосування попередньо навчених ваг.
Результати експериментів: 1.При зміні кількості LSTM шарів досягнуто збалансованість втрат та точності на тренуванні та валідації, що свідчить про адекватну складність моделі. 2. Зміна функцій активації виявилася невдалою.
3. Зміна гіперпараметрів навчання - це важливий процес для досягнення оптимальної продуктивності моделі, залежить від апріорного налаштування.
4. Використання регуляризації. Застосування dropout-шару допомагає зменшити перенавчання і давати кращі результати на тестовому наборі даних та узагальнювати свої знання краще на нових даних. 5. Використання попередньо
Рисунок 1 – Вплив регуляризації на втрати моделі та перенавчання
Рисунок 2 - Використання попередньо навчених векторів слів
навчених векторів слів є ефективним підходом для аналізу текстів. Вектори
слів будуть оновлюватися під час процесу навчання, допомагаючи моделі налаштувати їх під конкретну задачу.
Рисунок 3 - Приклад передбачення
Використання попередньо навчених векторів слів допомагає моделі швидше знаходити семантичні зв'язки у тексті та розпізнавати важливі слова та фрази. Однак для роботи з природними мовами необхідно вирішити багато проблем по удосконаленню моделі [4].
Висновки
Модель показала добрі результати на тренувальному, валідаційному та тестовому наборах даних, з точністю близько 83.48% на тестовому наборі. ROC AUC (коефіцієнт χ2 Пірсона) вказує на здатність моделі розрізняти класи, і значення 0,76 свідчить про досить хорошу здатність. Важливо слідкувати за динамікою навчання та уникати перенавчання, оцінюючи якість моделі на валідаційних та тестових даних. Загальною важливістю є те, що навчання нейронних мереж вимагає належного розуміння та налаштування параметрів, а також аналізу результатів для досягнення ефективних рішень в завданнях обробки тексту та класифікації.
Розроблений застосунок може бути використаний в різних сферах життя, таких як маркетинг, медицина та кібербезпека.
Література
1. Basyuk, T., & Vasyliuk, A. Peculiarities of an Information System Development for Studying Ukrainian Language and Carrying out an Emotional and Content Analysis. CEUR Workshop Proceedings, 3396, 2023, 279–294.
2. Lomovatskyi Anton , Basyuk Taras. Methods of Machine Learning and Design of a System for Determining the Emotional Coloring of Ukrainian-language Content/ SISN, Vol. 15, 2024, 74-86.
https://doi.org/10.23939/sisn2024.15.074
3. Mathieu Cliché. 2017. BB twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs.
4. Дерев’янко С. П. Психологія емоційного інтелекту: Навчально-методичні рекомендації. Чернігів : НУЧК ім. Т. Г. Шевченка, 2023. - 80 с.
_________________________________
Науковий керівник: Савчук Олена Володимирівна, кандидат технічних наук, старший науковий співробітник, Київський політехнічний інститут ім. Ігоря Сікорського