ІНТЕЛЕКТУАЛЬНИЙ ЗАСТОСУНОК РОЗПІЗНАВАННЯ ЗАБАРВЛЕНОСТІ ТЕКСТОВИХ ПОВІДОМЛЕНЬ УКРАЇНСЬКОЮ МОВОЮ

07.10.2024 16:20

[1. Information systems and technologies]

Author: Моргаль Олег Михайлович, старший викладач, Київський політехнічний інститут ім. Ігоря Сікорського; Савчук Олена Володимирівна, кандидат технічних наук, старший науковий співробітник, Київський політехнічний інститут ім. Ігоря Сікорського; Турок Вадим Васильович, студент, Київський політехнічний інститут ім. Ігоря Сікорського

ORCID: 0000-0003-4654-9499 Моргаль О.М.

ORCID: 0000-0003-3176-7952 Савчук О.В.

Проблема загрозливої чи емоційної забарвленості у текстових повідомленнях є особливо актуальною, оскільки вона може мати серйозні соціальні наслідки, від особистісних конфліктів до масових деструктивних взаємодій у віртуальному середовищі [1].

Метою роботи є розробка та валідація інтелектуального застосунку, який спроможен ефективно виявляти емоційне забарвлення у текстових повідомленнях, написаних українською мовою (унікальні мовні та культурні особливості), забезпечуючи високу точність та надійність виявлення агресивного контенту [2].

Основні задачі роботи: 1. Розробка моделі виявлення емоцій. 2. Валідація та тестування системи. 3. Аналіз результатів та розробка рекомендацій для покращення системи.

Особливості задачі: 1. Мовні та культурні особливості. 2. Різноманітність форм вираження емоцій. 3. Неоднозначність контексту. 4. Висока точність та надійність.

Формалізація задачі: 1. Визначення емоцій. 2. Створення датасету повідомлень, які включають приклади агресивного та неагресивного контенту. 3. Вибір методології. 4. Розробка алгоритму. 4. Тестування та оцінка ефективності ( оцінка та швидкість обробки).

Тип навчання: наглядове навчання (supervised learning) з позначенням емоцій позитивне (1) або негативне (-1); встановлення кореляції між вхідними та вихідними даними, що передбачають невідомі раніше вхідні дані.

Тип нейронної моделі: рекурентна нейронна мережа (RNN) з використанням архітектури LSTM (Long Short-Term Memory) [3].

Оцінка якості: за допомогою метрик точності (accuracy) та втрати (loss).

Мова програмування: Python, середовище - Visual Studio Code.

Вибір нейронної мережі та її параметрів

Вибір моделі: Sequential з бібліотеки Keras.

Перший шар - Embedding: input_dim=5000, output_dim=128, input_length=100. LSTM шар: кількість вузлів – 128, dropout=0.2 і recurrent_dropout=0.2 (20%). Вихідний шар - Dense: 1 вузол, activation='sigmoid', для бінарної класифікації.

Компіляція моделі: loss='binary_crossentropy' (бінарна класифікація).

optimizer='adam' (метод оптимізації).

Тренування моделі: batch_size=32, epochs=25.

Оцінка точності моделі: тестові дані типового приклада LSTM.

Навчання мережі

Ключові етапи навчання мережі: 1. Підготовка даних -embedding, рadding:

2. Створення моделі: шари- Embedding (обробка входів), Dense (класифікація).

3. Навчання моделі: 1. Пряме поширення (Forward Propagation).2. Обчислення втрати (Loss Calculation). 3. Зворотне поширення (Backpropagation). 4. Оптимізація параметрів - алгоритм Adam. 5. Валідація та тестування.

Результати навчання та роботи мережі

Точність (accuracy) на тестовому наборі даних склала 83.48%, що є досить високим показником для багатьох застосувань на 25-ій епосі.

Планування експерименту. 1. Зміна архітектури мережі.

2. Гіперпараметри навчання. 3. Регуляризація та уникнення перенавчання: збільшення обсягу даних, застосування попередньо навчених ваг.

Результати експериментів: 1.При зміні кількості LSTM шарів досягнуто збалансованість втрат та точності на тренуванні та валідації, що свідчить про адекватну складність моделі. 2. Зміна функцій активації виявилася невдалою.

3. Зміна гіперпараметрів навчання - це важливий процес для досягнення оптимальної продуктивності моделі, залежить від апріорного налаштування.

4. Використання регуляризації. Застосування dropout-шару допомагає зменшити перенавчання і давати кращі результати на тестовому наборі даних та узагальнювати свої знання краще на нових даних. 5. Використання попередньо

Рисунок 1 – Вплив регуляризації на втрати моделі та перенавчання

Рисунок 2 - Використання попередньо навчених векторів слів

навчених векторів слів є ефективним підходом для аналізу текстів. Вектори

слів будуть оновлюватися під час процесу навчання, допомагаючи моделі налаштувати їх під конкретну задачу.

Рисунок 3 - Приклад передбачення

Використання попередньо навчених векторів слів допомагає моделі швидше знаходити семантичні зв'язки у тексті та розпізнавати важливі слова та фрази. Однак для роботи з природними мовами необхідно вирішити багато проблем по удосконаленню моделі [4].

Висновки

Модель показала добрі результати на тренувальному, валідаційному та тестовому наборах даних, з точністю близько 83.48% на тестовому наборі. ROC AUC (коефіцієнт χ2 Пірсона) вказує на здатність моделі розрізняти класи, і значення 0,76 свідчить про досить хорошу здатність. Важливо слідкувати за динамікою навчання та уникати перенавчання, оцінюючи якість моделі на валідаційних та тестових даних. Загальною важливістю є те, що навчання нейронних мереж вимагає належного розуміння та налаштування параметрів, а також аналізу результатів для досягнення ефективних рішень в завданнях обробки тексту та класифікації.

Розроблений застосунок може бути використаний в різних сферах життя, таких як маркетинг, медицина та кібербезпека.

Література

1. Basyuk, T., & Vasyliuk, A. Peculiarities of an Information System Development for Studying Ukrainian Language and Carrying out an Emotional and Content Analysis. CEUR Workshop Proceedings, 3396, 2023, 279–294.

2. Lomovatskyi Anton , Basyuk Taras. Methods of Machine Learning and Design of a System for Determining the Emotional Coloring of Ukrainian-language Content/ SISN, Vol. 15, 2024, 74-86.

https://doi.org/10.23939/sisn2024.15.074

3. Mathieu Cliché. 2017. BB twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs.

4. Дерев’янко С. П. Психологія емоційного інтелекту: Навчально-методичні рекомендації. Чернігів : НУЧК ім. Т. Г. Шевченка, 2023. - 80 с.

_________________________________

Науковий керівник: Савчук Олена Володимирівна, кандидат технічних наук, старший науковий співробітник, Київський політехнічний інститут ім. Ігоря Сікорського

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Another articles in this section

Сonferences

Conference 2026

Information society: technological, economic and technical aspects of formation (issue 106) (15-16.01.2026)

Information society: technological, economic and technical aspects of formation (issue 107) (10-11.02.2026)

Information society: technological, economic and technical aspects of formation (issue 108) (5-6.03.2026)

Information society: technological, economic and technical aspects of formation (issue 109) (8-9.04.2026)

Conference 2025

Information society: technological, economic and technical aspects of formation (issue 95) (16-17.01.2025)

Information society: technological, economic and technical aspects of formation (issue 96) (11-12.02.2025)

Information society: technological, economic and technical aspects of formation (issue 97) (13-14.03.2025)

Information society: technological, economic and technical aspects of formation (issue 98) (15-16.04.2025)

Information society: technological, economic and technical aspects of formation (issue 99) (14-15.05.2025)

Information society: technological, economic and technical aspects of formation (issue 100) (11-12.06.2025)

Information society: technological, economic and technical aspects of formation (issue 101) (09-10.07.2025)

Information society: technological, economic and technical aspects of formation (issue 102) (16-17.09.2025)

Information society: technological, economic and technical aspects of formation (issue 103) (14-15.10.2025)

Information society: technological, economic and technical aspects of formation (issue 104) (13-14.11.2025)

Information society: technological, economic and technical aspects of formation (issue 105) (11-12.12.2025)

Conference 2024

Information society: technological, economic and technical aspects of formation (issue 84) (18-19.01.2024)

Information society: technological, economic and technical aspects of formation (issue 85) (15-16.02.2024)

Information society: technological, economic and technical aspects of formation (issue 86) (12-13.03.2024)

Information society: technological, economic and technical aspects of formation (issue 87) (11-12.04.2024)

Information society: technological, economic and technical aspects of formation (issue 88) (14-15.05.2024)

Information society: technological, economic and technical aspects of formation (issue 89) (12-13.06.2024)

Information society: technological, economic and technical aspects of formation (issue 90) (9-10.07.2024)

Information society: technological, economic and technical aspects of formation (issue 91) (10-11.09.2024)

Information society: technological, economic and technical aspects of formation (issue 92) (8-9.10.2024)

Information society: technological, economic and technical aspects of formation (issue 93) (12-13.11.2024)

Information society: technological, economic and technical aspects of formation (issue 94) (11-12.12.2024)

Conference 2023

Information society: technological, economic and technical aspects of formation (issue 74) (06-07.02.2023)

Information society: technological, economic and technical aspects of formation (issue 75) (06-07.03.2023)

Information society: technological, economic and technical aspects of formation (issue 76) (03-04.04.2023)

Information society: technological, economic and technical aspects of formation (issue 77) (09-10.05.2023)

Information society: technological, economic and technical aspects of formation (issue 78) (08-09.06.2023)

Information society: technological, economic and technical aspects of formation (issue 79) (06-07.07.2023)

Information society: technological, economic and technical aspects of formation (issue 80) (19-20.09.2023)

Information society: technological, economic and technical aspects of formation (issue 81) (11-12.10.2023)

Information society: technological, economic and technical aspects of formation (issue 82) (9-1.11.2023)

Information society: technological, economic and technical aspects of formation (issue 83) (7-8.12.2023)

Conference 2022

Information society: technological, economic and technical aspects of formation (issue 65) (8-9.02.2022)

Information society: technological, economic and technical aspects of formation (issue 66) (6-7.04.2022)

Information society: technological, economic and technical aspects of formation (issue 67) (11-12.05.2022)

Information society: technological, economic and technical aspects of formation (issue 68) (7-8.06.2022)

Information society: technological, economic and technical aspects of formation (issue 69) (4-5.07.2022)

Information society: technological, economic and technical aspects of formation (issue 70) (22-23.09.2022)

Information society: technological, economic and technical aspects of formation (issue 71) (18-19.10.2022)

Information society: technological, economic and technical aspects of formation (issue 72) (15-16.11.2022)

Information society: technological, economic and technical aspects of formation (issue 73) (08-09.12.2022)

Conference 2021

Information society: technological, economic and technical aspects of formation (Issue 55) (09.02.2021)

Information society: technological, economic and technical aspects of formation (Issue 56) (10.03.2021)

Information society: technological, economic and technical aspects of formation (issue 57) (13.04.2021)

Information society: technological, economic and technical aspects of formation (issue 58) (12.05.2021)

Information society: technological, economic and technical aspects of formation (issue 59) (08.06.2021)

Information society: technological, economic and technical aspects of formation (issue 60) (13.07.2021)

Information society: technological, economic and technical aspects of formation (issue 61) (15.09.2021)

Information society: technological, economic and technical aspects of formation (issue 62) (12.10.2021)

Information society: technological, economic and technical aspects of formation (issue 63) (11.11.2021)

Information society: technological, economic and technical aspects of formation (issue 64) (10.12.2021)

Congratulation from Internet Conference!

Рік заснування видання - 2011

ІНТЕЛЕКТУАЛЬНИЙ ЗАСТОСУНОК РОЗПІЗНАВАННЯ ЗАБАРВЛЕНОСТІ ТЕКСТОВИХ ПОВІДОМЛЕНЬ УКРАЇНСЬКОЮ МОВОЮ

Another articles in this section