ВИЯВЛЕННЯ ФЕЙКОВИХ НОВИН ЗА ДОПОМОГОЮ МЕТОДІВ NLP - Научное сообщество

Вас приветствует Интернет конференция!

Приветствуйем на нашем сайте

Рік заснування видання - 2011

ВИЯВЛЕННЯ ФЕЙКОВИХ НОВИН ЗА ДОПОМОГОЮ МЕТОДІВ NLP

10.12.2025 17:27

[1. Systemy i technologie informacyjne]

Автор: Постольний Денис Олексійович, Харківський національний університет радіоелектроніки; Аксак Наталія Георгіївна, доктор технічних наук, професор, Харківський національний університет радіоелектроніки, м. Харків, Україна


У роботі досліджено проблему автоматичного виявлення фейкових новин у цифрових медіа та розроблено прототип системи, що класифікує тексти на «фейк/не фейк» за мовними маркерами дезінформації. На основі відкритих корпусів і українськомовної вибірки побудовано baseline TF-IDF+LR і виконано fine-tuning трансформерної моделі (XLM-R/mBERT), після чого проведено порівняння за Accuracy/F1/ROC-AUC. Отримані результати свідчать про перевагу трансформерів завдяки кращому врахуванню контексту та виявленню маніпулятивних патернів у тексті. Практично систему можна використовувати для моніторингу й модерації контенту в агрегаторах новин, соцмережах і сервісах фактчекінгу; далі планується розширити український корпус і протестувати рішення в реальному потоці даних.

Актуальність теми. Фейкові новини перетворилися на системний інструмент маніпуляції громадською думкою, особливо в умовах воєнних дій, політичних кампаній і соціально-економічних криз. Інтенсивність і швидкість поширення інформації у соціальних мережах та месенджерах суттєво перевищують можливості ручного фактчекінгу, а обсяги цифрових медіатекстів не дозволяють ефективно покладатися виключно на роботу експертів. У зв’язку з цим зростає потреба в автоматизованих інтелектуальних рішеннях, здатних у реальному або наближеному до реального часу аналізувати новинні повідомлення та оцінювати ймовірність їх фейковості.

Метою є розроблення та експериментальне дослідження прототипу інтелектуальної системи для автоматичного виявлення фейкових новин із застосуванням сучасних моделей обробки природної мови (NLP).

Для досягнення поставленої мети необхідно розв’язати такі завдання:

- проаналізувати сучасні NLP-підходи до класифікації фейкових новин і визначити їхні переваги та обмеження;

- сформувати навчальний корпус новинних текстів і виконати їх попередню обробку (очищення, нормалізацію, токенізацію);

- побудувати базову (baseline) модель класифікації на традиційних текстових ознаках;

- донавчити трансформерну модель для задачі бінарної класифікації «фейк/не фейк»;

- провести порівняльне оцінювання якості baseline- та трансформерної моделей за стандартними метриками та визначити найефективніший підхід.

Об’єктом дослідження є тексти новин у цифрових медіа.

Предметом дослідження виступають методи NLP і моделі машинного навчання, що забезпечують автоматичне визначення фейковості новинних повідомлень.

Основна ідея підходу. Запропонований підхід базується на автоматизованій класифікації новинних текстів на достовірні та фейкові за сукупністю лінгвістичних і статистичних характеристик. На відміну від прямої перевірки фактів, модель ідентифікує типові мовні й структурні маркери маніпулятивних повідомлень — емоційно забарвлену лексику, надмірні узагальнення, заклики до дій, нечіткі або неперевірювані посилання на джерела тощо. Результатом роботи є віднесення тексту до класу «фейк/не фейк» та формування оцінки впевненості; за потреби рішення може бути уточнене з урахуванням інформації про джерело публікації й контекст поширення.

У роботі розглянуто три групи методів:

- традиційні NLP-підходи на основі BoW/TF-IDF у поєднанні з класичними алгоритмами машинного навчання (логістична регресія, SVM, Random Forest);

- глибинні моделі, що використовують векторні подання слів (embeddings) та архітектури CNN/RNN;

- трансформерні моделі (BERT-подібні), які забезпечують контекстно залежне представлення тексту.

Основним обраним підходом є трансформерна модель (XLM-R або mBERT), донавчена на українсько-російськомовних медіатекстах. Такий вибір зумовлений здатністю трансформерів глибше враховувати контекст, синтаксичні зв’язки та стилістичні ознаки маніпуляції. Базовою лінією для порівняння використовується модель TF-IDF + логістична регресія.

Архітектура системи. Система складається з чотирьох взаємопов’язаних блоків: спочатку відбувається збір новин із вебсайтів, соціальних мереж або відкритих датасетів, далі тексти проходять попередню обробку (очищення, токенізацію та нормалізацію), після чого виконуються векторизація і класифікація за допомогою baseline-моделі на TF-IDF або трансформера, а фінальний етап реалізовано у вигляді API-сервісу інференсу, який повертає клас «фейк/не фейк» разом із показником впевненості; при цьому ключовий інтелект системи зосереджено саме в модулі трансформерної класифікації, що формує остаточне рішення.

Для навчання й тестування планується використати відкриті корпуси на кшталт LIAR/FakeNewsNet та вибірку українськомовних новин. Оцінювання здійснюється за метриками Accuracy, Precision, Recall, F1 та ROC-AUC із порівнянням baseline TF-IDF+LR і трансформерної моделі.

Наукова новизна роботи полягає в:

- адаптації та донавчанні багатомовної трансформерної моделі для українсько-російського медіапростору;

- виконанні коректного порівняльного аналізу традиційних і трансформерних підходів на єдиному корпусі;

- розробленні прототипу сервісу, який може бути інтегрований у системи фактчекінгу, модерації та інформаційної безпеки.

Подальші етапи дослідження. На поточному етапі роботи виконано аналіз наукових джерел, уточнено постановку задачі, сформульовано вимоги до інтелектуальної системи виявлення фейкових новин та спроєктовано її загальну архітектуру. У подальшому планується сформувати навчальний корпус новин на основі відкритих датасетів і українськомовних джерел, реалізувати baseline-модель класифікації на основі TF-IDF та логістичної регресії, здійснити fine-tuning обраної трансформерної моделі (XLM-R або mBERT) для задачі бінарної класифікації «фейк/не фейк», а також провести порівняльні експерименти за метриками Accuracy, Precision, Recall, F1 та ROC-AUC з подальшим розробленням і тестуванням прототипу сервісу класифікації новин, придатного до інтеграції в системи фактчекінгу та модерації контенту.

Висновки. Проведене дослідження підтверджує ефективність автоматизованих підходів до виявлення фейкових новин і демонструє, що трансформерні NLP-моделі є найперспективнішими для цієї задачі завдяки здатності глибоко інтерпретувати контекст і виявляти маніпулятивні мовні патерни. Запропонована система забезпечує оперативне оцінювання ймовірності фейковості медіатекстів та може застосовуватися у новинних агрегаторах, соціальних платформах і сервісах інформаційної безпеки. Подальші дослідження будуть спрямовані на розширення українськомовного корпусу, поглиблене донавчання моделей під локальні медіадомени й тестування рішення в реальному потоці даних.



Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License
допомога Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter
Конференции

Конференции 2025

Конференции 2024

Конференции 2023

Конференции 2022

Конференции 2021



Міжнародна інтернет-конференція з економіки, інформаційних систем і технологій, психології та педагогіки

Наукова спільнота - інтернет конференції

:: LEX-LINE :: Юридична лінія

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення