ЗАСТОСУВАННЯ СУЧАСНИХ АЛГОРИТМІВ ДИНАМІЧНОГО ПОШУКУ В СКЛАДНИХ ІНФОРМАЦІЙНИХ СИСТЕМАХ
29.11.2022 03:05
[1. Информационные системы и технологии]
Автор: Кікоть Артем Сергійович, здобувач вищої освіти інституту комп’ютерно-інформаційних технологій, Приватне акціонерне товариство «Виший навчальний заклад «міжрегіональна академія управління персоналом», м. Київ, Україна; Шибаєва Наталя Олегівна, к.т.н., доц. доцент кафедри інформаційні технології, Національний університет «Одеська політехніка», м. Одеса, Україна; Рудніченко Микола Дмитрович, к.т.н., доц. доцент кафедри інформаційні технології, Національний університет «Одеська політехніка», м. Одеса, Україна
Пошук інформації є важливим завданням практично будь-якої автоматизованої системи, пов'язаної з обробкою текстової інформації. Нині вже є безліч методів пошуку, систематизованих так: методи з урахуванням ключових слів; методи на основі метрик (Дамерау, Левенштейна, Жаккара та ін.); асоціативні методи (фільтр Блюма та методи нечіткого хешування Корнблюма та Чарікара); методи послідовного пошуку (Бойєра-Мура); пошукові дерева та ін.
Критеріями якості пошуку в інформаційно-пошукових системах (ІПС) можуть бути точність, повнота пошуку, випадання та F-мера, а також швидкодія пошукових алгоритмів. На жаль, поняття ступеня відповідності результатів пошуку та його повнота, тобто. релевантність є суб'єктивним поняттям і залежить від конкретної людини, що оцінює отримані результати. Також слід зазначити, що додатковим критерієм, що впливає на якість та ефективність роботи пошукових алгоритмів, є гнучкість та зручність формулювання пошукового запиту. Якщо оптимізації існуючих алгоритмів пошуку переважно використовуються різного роду упорядкування даних (від сортування даних, до складних індексуючих систем), то завдання критеріїв самого пошуку, практично немає ніяких рекомендацій чи оптимізації. В основному гнучкість формування пошукових запитів визначається неточним збігом символів або послідовностей символів під час пошуку підрядки в рядку. Крім того, слід зазначити, що різні пошукові алгоритми по-різному сприймають прогалину (як роздільник між ключовими словами): деякі замінюють його логічним оператором «І», деякі – логічним оператором «АБО», інші зовсім не використовують логічних операторів.
Пошукові алгоритми, що використовують логічні оператори (AND – логічне множення, OR – логічне додавання, NOT – логічне заперечення) та їх комбінації відносяться до булевої моделі пошуку. Така модель формування пошукового запиту дозволяє отримувати точніші і, відповідно, релевантні результати. Однак булева модель також має ряд недоліків. Основними недоліками існуючих ІПС є їх пропрієтарність і неможливість зміни поведінки пошуку під конкретну предметну область, обмеженість можливостей використання логічних операторів та описані вище недоліки булевої моделі пошуку. Алгоритм роботи метода, наведено у блок-схемі на рис. 1.
Рисунок 1 – Алгоритмічна блок-схема роботи методу
Крім задач безпосередньо пошуку даних, першорядним є їх підготовка, обробка і завантаження в графову базу даних. Вхідними даними будуть пошукові документи та список критеріїв їхнього пошуку. Вони мають бути максимально конкретними у тому, щоб алгоритму навчання бази даних (формування узагальнень критеріїв пошуку) було простіше виявити потрібні узагальнення і класи, яких дані критерії ставляться. Вихідними даними є самі критерії пошуку, а також список узагальнень, до яких ці критерії відносяться. Для формування таких вихідних даних, на першому етапі необхідно доповнити кожен вхідний критерій будь-яким його визначенням або характеристикою природною мовою. На другому етапі отриманий із стороннього джерела даних опис природною мовою необхідно розбити на окремі частини і вибрати з них ключові лексеми (токенізувати).
Список літератури
1. Савенко, А. Г. Моделі та алгоритми для адаптивного пошуку в інформаційно-пошукових системах / Савенко А. Г., Шерстньов А. C. // Віснік зв'язку. - 2022. - No1. – С. 47–53.
2. Шоркін, А. П. Методи та алгоритми інформаційного пошуку на неточну відповідність / А. П. Шоркін // Доповіді. – 2011. – No 2 (56). – С. 13 – 15.