ПОШУК ЗАДУБЛЬОВАНИХ ПУБЛІКАЦІЙ НА ОСНОВІ ФОНЕТИЧНОЇ СПІВЗВУЧНОСТІ ТЕМ
07.12.2023 01:24
[1. Information systems and technologies]
Author: Іванов Сергій Миколайович, кандидат фізико-математичних наук, доцент, Київський національний університет імені Тараса Шевченка, Київ;
Флакей Роман Русланович, студент, Київський національний університет імені Тараса Шевченка, Київ
В університетах, наукових установах та інших наукових організаціях ведення обліку публікацій співробітників є важливою складовою як при оцінюванні їх діяльності, так і при складанні відповідної звітності. Накопичення бібліографічних даних публікацій, зазвичай у табличній формі, може загалом сягати десятки і сотні тисяч записів (для великих установ), що потребує подальшу автоматизацію обліку праць авторів. Даному напрямку присвячується робота [1], де розглядається алгоритм автоматизації публікацій наукових підрозділів на основі використання API ORCID, а в [2] пропонується база даних обліку публікацій на прикладі ОНАХТ та інтерфейс розробленої системи, однак у наведених роботах не розглядається проблема задубльованості публікацій, яка може виникати як при використанні зовнішніх джерел даних при автоматизації самого введення даних, так і при ручному їх введенні.
Тому метою роботи є розроблення алгоритму пошуку та маркування задубльованих публікацій на основі фонетичної співзвучності тем.
За наявними бібліографічними даними публікацій на основі MySql була розроблена та спроектована відповідна база даних та реалізовано наступний алгоритм для пошуку задубльованих публікацій на основі фонетичної співзвучності: 1. Транслітерація кирилиці: для забезпечення однозначності та коректного порівняння текстових даних була розроблена функція transliterate() в базі даних MySql, яка перетворює кирилицю у відповідну латинницю.
2. Фонетичне індексування за допомогою Soundex(): на даному етапі використовується вбудована функція MySQL – Soundex(), яка використовує фонетичний алгоритм для проведення індексації букв в рядку. Soundex не лише визначає фонетичну схожість між словами та фразами, але також відзначається своєю здатністю ефективно вилучати зайві символи, такі як #, $, <>, пробіли та інші непередбачені символи. Це сприяє не лише точному порівнянню за звучанням, але й чистому та однорідному представленню текстової інформації, покращуючи ефективність пошуку задубльованих публікацій.
3. Пошук та маркування дублікатів: на даному етапі використовується розроблена процедура i_doubled, що проводить циклічний аналіз бази даних для виявлення та позначення дублікатів записів. Ця процедура дозволяє систематично визначати кількість і встановлювати порядок дублюючих публікацій.
Алгоритм роботи процедури i_doubled.
1. З‘єднання таблиць та застосування умов дублювання: застосовується з'єднання таблиць за співзвучними темами, а також роком публікацій.
2. Визначення кількості дублікатів: для кожної публікації визначається кількість інших записів, що відповідають заданим умовам дублювання.
3. Оновлення та присвоєння маркування: відбувається оновлення поля, що відповідає за маркування задубльованих публікацій, враховуючи кількість виявлених дублікатів. Кожній публікації присвоюється відповідна мітка для подальшого визначення порядку задубльованих записів.
4. Умови виконання оновлення: алгоритм виконує оновлення лише для записів, які відповідають певним умовам, що забезпечує точне порівняння лише необхідних публікацій.
Результатом виконання алгоритму є чітке визначення та позначення задубльованих публікацій в базі даних, що покращує її якість та забезпечує порядок серед дублікатів. Застосування умов та врахування конкретних властивостей публікацій роблять алгоритм гнучким та ефективним в реальних умовах роботи (рис. 1).
Рисунок 1 — Фрагмент тестування розробленої процедури автоматичного пошуку задубльованих значень: у полі mark показано пронумеровані дублі
Дана реалізація алгоритму пошуку та нумерації задубльованих публікацій виявилася дуже ефективною в реальних умовах роботи. Використання фонетичної індексації, такої як Soundex, як інструменту для визначення схожості звучання слів та фраз, сприяє точному та швидкому порівнянню тем. Особливою перевагою є можливість виконання фонетичної індексації зі зберіганням результату у відповідні поля при додаванні нових даних, що забезпечує постійне оновлення та високу актуальність результатів. Використання додатково внутрішньої індексації бази даних (INDEX) дозволяє обробляти результати фонетичні індексації більш ефективно, покращуючи швидкість операцій пошуку та порівняння. На практиці було досягнуто вражаючої швидкості виконання алгоритму пошуку дублікатів на більш ніж 80 тисяч записах за лише 3 секунди. Це підтверджує високий рівень ефективності та готовності даного алгоритму до використання в реальних умовах роботи з обширними базами даних публікацій, підвищуючи точність та зручність обліку робіт авторів.
Література
1. Горбачевський С. Автоматизація обліку публікацій наукових підрозділів на основі використання API ORCID / С. Горбачевський // Військова освіта. - 1 (45). - 2022. - С. 52-58.
2. Шершун О. О. Розроблення автоматизованого ресурсу обробки даних науковців ОНАХТ з наукометричних баз даних / О. О. Шершун, Ж.А. Титуренко, І.І. Зінченко, О.В. Ольшевська //Автоматизація технологічних і бізнес-процесів.- V.12. -Issue 3. -2020.- С. 40-46.