РОЗРОБКА СИСТЕМИ ВИЯВЛЕННЯ СЕМАНТИЧНИХ ЗАПОЗИЧЕНЬ У НАУКОВИХ ТЕКСТАХ З ВИКОРИСТАННЯМ ТРАНСФОРМЕРІВ

15.05.2024 18:58

[1. Information systems and technologies]

Author: Снитюк Віталій Євгенович, доктор технічних наук, професор, Київський національний університет імені Тараса Шевченка, м. Київ, Україна; Пономарьова Даріна Андріївна, студент, Київський національний університет імені Тараса Шевченка, м. Київ, Україна

ORCID: 0009-0001-7620-2050 Пономарьова Д.А.

У сучасному академічному світі та професійному контексті важливість академічної доброчесності стає особливо актуальною. Легкість доступу до невпинно зростаючих обсягів інформаційних ресурсів через Інтернет призводить до збільшення випадків плагіату. Це підриває основи наукової етики та довіру до наукових досліджень.

Плагіат – це неетична практика привласнення письмової роботи іншого автора і представлення її як власного творіння [1]. Він може проявлятися в різних формах: більш простих, таких як пряме копіювання контенту з інших джерел з незначними змінами, або більш складних формах – семантичних, таких як зміна граматичної структури тексту, перефразування, переклад змісту роботи з іншого джерела тощо [2]. Остання категорія плагіату може включати в себе комбінацію перелічених стратегій для приховування своєї наявності.

Разом з тим, методи протидії плагіату також удосконалюються. Проте, виявлення семантичного плагіату досі залишається невирішеною проблемою, адже такий вид плагіату не завжди підлягає легкому розпізнаванню, оскільки вимагає значно глибшого аналізу тексту.

Актуальність даного дослідження випливає з необхідності розробки спеціалізованої системи виявлення семантичних запозичень у наукових текстах, що дозволить ефективно протидіяти такому виду академічної недоброчесності. Метою дослідження є підвищення ефективності процесів виявлення плагіату шляхом розробки та аналізу інтелектуальної технології розпізнавання текстових запозичень.

У науковій літературі запропоновано численні методи виявлення текстових запозичень. Основні підходи, які в них висвітлені, можна розділити на декілька основних категорій:

- методи, що базуються на вимірюванні текстової відстані,

- статистичні методи,

- методи машинного та глибинного навчання.

З аналізу сучасних досліджень у галузі виявлення семантичного плагіату було визначено, що найкращі результати можна одержати, використовуючи моделі нейромереж із глибинним навчанням, зокрема трансформери. Ці технології ефективно розв’язують задачі семантичного аналізу тексту, демонструючи високу точність у моделюванні схожості речень та виявленні плагіату.

Розглянемо сучасні моделі – трансформери для забезпечення глибокого і точного аналізу текстових даних: моделі E5-Multilingual та ColBERT.

Модель E5-Multilingual є частиною сімейства моделей E5, розроблених для глибокого розуміння тексту [3]. Дана модель базується на моделі Sentence Transformers, зокрема на `paraphrase-multilingual-mpnet-base-v2`, яка використовувалася для ефективного векторного представлення тексту різними мовами. E5-Multilingual – сучасніша і високоточна модель, що дозволяє найточніше обчислювати схожість тексту різними мовами.

Модель ColBERT (Contextualized Late Interaction over BERT) ефективно використовує контекстуальні можливості та методику пізньої взаємодії. З використанням даної методики модель розширює ідеї BERT і оптимізує обробку та ранжування текстів. Так, замість агрегування на ранньому етапі, ColBERT зберігає індивідуальні вектори для кожного вхідного токена запиту і документа аж до самого кінця процесу обробки [4]. Це означає, що модель здійснює детальне і динамічне порівняння між токенами, що дозволяє зберегти та використати більш тонку семантичну інформацію.

На основі дослідження та детального аналізу результатів виявлення плагіату окремими методами, було розроблено комбінацію технологій, спрямовану на підвищення точності та швидкості виявлення як прямого, так і семантичного плагіату. Ключова стратегія оптимальної комбінації полягає у використанні E5-Multilingual для первинної швидкої перевірки великих масивів текстів, тобто пошуку семантично схожих статей, за яким слідує застосування ColBERT для більш детального аналізу фрагментів, ідентифікованих як потенційно запозичені. Розроблена комбінація методів дозволила не лише підвищити точність виявлення семантичного плагіату до 93.4%, але й оптимізувати час обробки даних.

Тренування моделей було здійснено на штучно створеному наборі даних з симульованими випадками прямого та семантичного плагіату. Для формування бази знань системи, з якою відбувається порівняння вхідних статей на наявність плагіату, використовувались збірки матеріалів міжнародних конференцій «Інформаційні технології та впровадження» різних років, які містять наукові статті на різні теми, пов’язані з інформаційними технологіями.

Розроблено інформаційно-аналітичну систему виявлення семантичних запозичень у наукових текстах (рис. 1). Для оцінки її ефективності у виявленні семантичного плагіату підготовлено статтю зі штучно внесеними перефразуваннями тексту з інших джерел. Ці сегменти включали як загальні переформулювання, так і більш дрібні модифікації оригінальних текстів, що дозволяло оцінювати систему в широкому спектрі сценаріїв.

Рис. 1 Результат виявлення семантичного плагіату системою.

В даному випадку розроблена система виявила загальний відсоток плагіату – 18%, що збігається із попередньо закладеним відсотком штучно доданого семантичного плагіату. При цьому, системою було вірно розпізнано всі випадки семантичних запозичень, а також вірно вказано джерела плагіату.

Література

1. Закон України "Про авторське право і суміжні права" [Текст] : від 23 лютого 1994 р. № 3792-XII // Відомості Верховної Ради України. — 1994. — № 13. — Ст. 64.

2. Рижко О. Поняття, види, класифікації плагіату [Текст] / О. Рижко // Записки Львівської національної наукової бібліотеки України імені В. Стефаника. – 2016. – № 8. – С. 134-150. – Режим доступу до журналу: http://nbuv.gov.ua/UJRN/lnnbyivs_2016_8_12

3. Wang L., Yang N., Huang X., Yang L., Majumder R., Wei F. Multilingual E5 Text Embeddings: A Technical Report [Електронний ресурс] // arXiv preprint arXiv:2004.02743. – 2020. – Режим доступу: https://arxiv.org/abs/2004.02743

4. Khattab O., Zaharia M. ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT [Електронний ресурс] // arXiv preprint arXiv:2004.12832. – 2020. – Режим доступу: https://arxiv.org/abs/2004.12832

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Another articles in this section

Сonferences

Conference 2026

Information society: technological, economic and technical aspects of formation (issue 106) (15-16.01.2026)

Information society: technological, economic and technical aspects of formation (issue 107) (10-11.02.2026)

Information society: technological, economic and technical aspects of formation (issue 108) (5-6.03.2026)

Information society: technological, economic and technical aspects of formation (issue 109) (8-9.04.2026)

Conference 2025

Information society: technological, economic and technical aspects of formation (issue 95) (16-17.01.2025)

Information society: technological, economic and technical aspects of formation (issue 96) (11-12.02.2025)

Information society: technological, economic and technical aspects of formation (issue 97) (13-14.03.2025)

Information society: technological, economic and technical aspects of formation (issue 98) (15-16.04.2025)

Information society: technological, economic and technical aspects of formation (issue 99) (14-15.05.2025)

Information society: technological, economic and technical aspects of formation (issue 100) (11-12.06.2025)

Information society: technological, economic and technical aspects of formation (issue 101) (09-10.07.2025)

Information society: technological, economic and technical aspects of formation (issue 102) (16-17.09.2025)

Information society: technological, economic and technical aspects of formation (issue 103) (14-15.10.2025)

Information society: technological, economic and technical aspects of formation (issue 104) (13-14.11.2025)

Information society: technological, economic and technical aspects of formation (issue 105) (11-12.12.2025)

Conference 2024

Information society: technological, economic and technical aspects of formation (issue 84) (18-19.01.2024)

Information society: technological, economic and technical aspects of formation (issue 85) (15-16.02.2024)

Information society: technological, economic and technical aspects of formation (issue 86) (12-13.03.2024)

Information society: technological, economic and technical aspects of formation (issue 87) (11-12.04.2024)

Information society: technological, economic and technical aspects of formation (issue 88) (14-15.05.2024)

Information society: technological, economic and technical aspects of formation (issue 89) (12-13.06.2024)

Information society: technological, economic and technical aspects of formation (issue 90) (9-10.07.2024)

Information society: technological, economic and technical aspects of formation (issue 91) (10-11.09.2024)

Information society: technological, economic and technical aspects of formation (issue 92) (8-9.10.2024)

Information society: technological, economic and technical aspects of formation (issue 93) (12-13.11.2024)

Information society: technological, economic and technical aspects of formation (issue 94) (11-12.12.2024)

Conference 2023

Information society: technological, economic and technical aspects of formation (issue 74) (06-07.02.2023)

Information society: technological, economic and technical aspects of formation (issue 75) (06-07.03.2023)

Information society: technological, economic and technical aspects of formation (issue 76) (03-04.04.2023)

Information society: technological, economic and technical aspects of formation (issue 77) (09-10.05.2023)

Information society: technological, economic and technical aspects of formation (issue 78) (08-09.06.2023)

Information society: technological, economic and technical aspects of formation (issue 79) (06-07.07.2023)

Information society: technological, economic and technical aspects of formation (issue 80) (19-20.09.2023)

Information society: technological, economic and technical aspects of formation (issue 81) (11-12.10.2023)

Information society: technological, economic and technical aspects of formation (issue 82) (9-1.11.2023)

Information society: technological, economic and technical aspects of formation (issue 83) (7-8.12.2023)

Conference 2022

Information society: technological, economic and technical aspects of formation (issue 65) (8-9.02.2022)

Information society: technological, economic and technical aspects of formation (issue 66) (6-7.04.2022)

Information society: technological, economic and technical aspects of formation (issue 67) (11-12.05.2022)

Information society: technological, economic and technical aspects of formation (issue 68) (7-8.06.2022)

Information society: technological, economic and technical aspects of formation (issue 69) (4-5.07.2022)

Information society: technological, economic and technical aspects of formation (issue 70) (22-23.09.2022)

Information society: technological, economic and technical aspects of formation (issue 71) (18-19.10.2022)

Information society: technological, economic and technical aspects of formation (issue 72) (15-16.11.2022)

Information society: technological, economic and technical aspects of formation (issue 73) (08-09.12.2022)

Conference 2021

Information society: technological, economic and technical aspects of formation (Issue 55) (09.02.2021)

Information society: technological, economic and technical aspects of formation (Issue 56) (10.03.2021)

Information society: technological, economic and technical aspects of formation (issue 57) (13.04.2021)

Information society: technological, economic and technical aspects of formation (issue 58) (12.05.2021)

Information society: technological, economic and technical aspects of formation (issue 59) (08.06.2021)

Information society: technological, economic and technical aspects of formation (issue 60) (13.07.2021)

Information society: technological, economic and technical aspects of formation (issue 61) (15.09.2021)

Information society: technological, economic and technical aspects of formation (issue 62) (12.10.2021)

Information society: technological, economic and technical aspects of formation (issue 63) (11.11.2021)

Information society: technological, economic and technical aspects of formation (issue 64) (10.12.2021)

Congratulation from Internet Conference!

Рік заснування видання - 2011

РОЗРОБКА СИСТЕМИ ВИЯВЛЕННЯ СЕМАНТИЧНИХ ЗАПОЗИЧЕНЬ У НАУКОВИХ ТЕКСТАХ З ВИКОРИСТАННЯМ ТРАНСФОРМЕРІВ

Another articles in this section