ВИКОРИСТАННЯ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ ДЛЯ НАПІВАВТОМАТИЗОВАНОГО ПЕРЕКЛАДУ ТА ЕМОЦІЙНОГО МАРКУВАННЯ ТЕКСТІВ: ПОБУДОВА УКРАЇНОМОВНОГО ДАТАСЕТУ - Scientific conference

Congratulation from Internet Conference!

Hello

Рік заснування видання - 2011

ВИКОРИСТАННЯ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ ДЛЯ НАПІВАВТОМАТИЗОВАНОГО ПЕРЕКЛАДУ ТА ЕМОЦІЙНОГО МАРКУВАННЯ ТЕКСТІВ: ПОБУДОВА УКРАЇНОМОВНОГО ДАТАСЕТУ

08.09.2025 18:05

[1. Information systems and technologies]

Author: Томашевська Тетяна Володимирівна, кандидат технічних наук, доцент, Державний торговельно-економічний університет, м.Київ; Сокрут Данило Богданович, студент, Державний торговельно-економічний університет, м.Київ


ORCID: 0000-0001-5001-9226 Томашевська Т.В.

ORCID: 0009-0001-0677-4619 Сокрут Д.Б.

Аналіз емоційного забарвлення в соціальних мережах все ще залишається актуальною задачею спеціалістів у сфері аналізу природної мови та є дотичним до потенційних соціокультурних досліджень суспільства. Значна частина існуючих інструментів аналітика розробляється переважно для англомовної спільноти мережі Інтернет, тоді як україномовні ресурси (або ті, які є багатомовними та включають в собі українську мову) залишаються обмеженими. [1] 

Це ускладнює та сповільнює прогрес сфери аналізу природної мови в Україні та відповідне тренування й тестування моделей для автоматичного аналізу настроїв.

Традиційні методи перекладу (статистичні моделі чи «rule-based») здатні передавати зміст повідомлення, проте часто втрачають глибинний підтекст, емоційні відтінки та саркастичні елементи коментарів користувачів.[2] Великі мовні моделі (LLM) відкривають нові можливості: тренування на значно більших об’ємах інформації, включаючи неформальне спілкування у мережі Інтернет, дозволяє одночасно перекладати і виконувати семантично складні завдання – наприклад, класифікацію за емоційними мітками. [1, 3]

Для вирішення проблеми дефіциту україномовних ресурсів та зменшенню часових витрат спеціаліста на рутинні задачі, в цій роботі пропонується гібридний підхід до побудови текстових датасетів будь-якою мовою, включаючи українську: попередньо зібрані англомовні дані анотуються з використанням локально доступних LLM, які одночасно здійснюють переклад та маркування емоцій. Користувач має повний контроль над процесом анотування даних, а саме може здійснювати:

1. Редагування мапи емоційних міток. Користувач може задати власний набір емоційних міток (наприклад Joy, Anger, Sadness, Fear, Surprise, Neutral), а обрана LLM слідуватиме визначеному патерну та намагатиметься «розмічувати» дані згідно користувальницьких міток. Такий підхід також працює для простої класифікації, як класифікування саркастичних повідомлень без врахування емоцій: 0 означатиме відсутність сарказму, а 1 – потенційну наявність сарказму в обробленому коментарі.

2. Динамічне оновлення емоційних міток. Якщо під час автоматизованого анотування даних LLM використовує невстановлену мітку (наприклад замість Joy використовує Excitement), то автоматично запрошує  користувача вибрати один із трьох варіантів дій: записати синонімічну мітку з користувальницької мапи емоцій (наприклад Joy) та запам’ятати її у спеціальному json-файлі й поточній сесії, пропустити дані або перервати увесь процес. Це допомагає користувачеві збудувати розгалужене «дерево емоцій» саме за власним бажанням та розумінням.

3. Динамічний контроль балансування анотованого датасету. Якщо певна емоційна мітка починає переважати в побудованому наборі даних, тоді системна інструкція до LLM автоматично адаптується для більш ретельного аналізу емоційного та саркастичного забарвлення, що знижує ризик дисбалансу кінцевого датасету.

4. Логування. Увесь процес анотації автоматично логується для користувача, дозволяючи відстежити потенційні помилки, проблемні емоційні мітки чи причини несприйняття тих чи інших даних.

5. Ручну перевірку. Кінцевий файл можна перевірити вручну на розсуд користувача.

6. Попереднє очищення результатів, якщо користувач вже мав пре-анотований набір даних або бажає швидко перевірити на наявність «мусорних» емоційних міток та позбавитись від них згідно його поточного «дерева емоційних міток».

7. Збереження даних у стандартизованому json-форматі (comment_id, comment_text, emotion, is_sarcastic), що полегшує подальший аналіз та можливе використання у тренуванні та валідації моделей аналізу природної мови у сфері аналізу емоційного забарвлення.

Запропонований підхід поєднує ідеї з попередніх досліджень LLM як інструментів маркування даних [1, 3], а також враховує результати робіт із «емоційно-умовного перекладу» [2], де додавання емоційних оцінок у системні інструкції LLM значно підвищує якість перекладу та аналізу.

Для реалізації запропонованого підходу було використано мову програмування Python з інстальованими бібліотеками pandas для маніпуляції над даними та спеціалізованої бібліотеки ollama – для завантаження бажаних LLM локально і без використання будь-якого платного API.

Також було використано спеціалізовану бібліотеку json_repair для зменшення помилкових результатів обробки LLM. [5] Було використано дві LLM моделі: Mistral та Llama3:8b під час реалізації, але запропонований підхід підтримує й інші моделі в залежності від власних ресурсів ПК користувача.

У результаті реалізації запропонованого прототипу було:

1. Автоматично згенеровано понад 5.000 україномовних прикладів для подальшого аналізу емоційного забарвлення та сарказму, на базі попередньо зібраних даних з соціальної мережі Reddit;

2. Отримано збалансований набір міток завдяки інтеграції динамічних правил контролю та оновлення мапи емоцій;

3. Зменшено витрати часу на ручну розмітку в рази – користувач здійснює лише контроль та корекцію, а не повний процес читання та анотування даних. Але можливість ручної перевірки все одно доступна.

Подібний підхід узгоджується з тенденціями, що активно підкреслюють у останніх дослідженнях, наприклад EmoLLM [3] або мультимодальний бенчмарк MMAFFBen [4]. У нашому випадку зроблено фокус на тестову україномовну частину, яка раніше була недостатньо представлена.

Подальші дослідження можуть бути спрямовані на:

1. Інтеграцію мультимодальних джерел (аудіо, відео) та експериментування з іншими LLM для перекладу й маркування даних.

2. Використанню цього підходу як одного із елементів розгалуженої системи аналізу настроїв та сарказму в соціальних мережах, як допомогу при подальшому тренуванні власно моделей аналізу чи інтегруванню LLM у саму-ж систему.

Список літератури:

1. X. Jing, Y. Wang, S. Xie, et al., "MELT: Towards Automated Multimodal Emotion Data Annotation by Leveraging LLM Embedded Knowledge," arXiv preprint, arXiv:2404.01523, 2024.

2. C. Brazier, J.-L. Rouas, "Conditioning LLMs with Emotion in Neural Machine Translation," arXiv preprint, arXiv:2403.07962, 2024.

3. Z. Liu, J. Zhang, T. Chen, et al., "EmoLLMs: A Series of Emotional Large Language Models and Annotation Tools for Comprehensive Affective Analysis," arXiv preprint, arXiv:2402.16442, 2024.

4. Z. Liu, T. Chen, J. Zhang, et al., "MMAFFBen: A Multilingual and Multimodal Affective Analysis Benchmark for Evaluating LLMs and VLMs," arXiv preprint, arXiv:2403.09123, 2024.

5. S. Baccianella. json_repair. GitHub repository. 2024. URL: https://github.com/mangiucugna/json_repair (accessed: 24.08.2025).



Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License
допомога Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter
Сonferences

Conference 2025

Conference 2024

Conference 2023

Conference 2022

Conference 2021



Міжнародна інтернет-конференція з економіки, інформаційних систем і технологій, психології та педагогіки

Наукова спільнота - інтернет конференції

:: LEX-LINE :: Юридична лінія

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення