ВЕКТОРНІ БАЗИ ДАНИХ ЯК ІНФРАСТРУКТУРА ДОВГОСТРОКОВОЇ ПАМ’ЯТІ ДЛЯ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ
10.12.2025 19:57
[1. Information systems and technologies]
Author: Шнурок Владислав Сергійович, студент, Івано-Франківський національний технічний університет нафти і газу, м. Івано-Франківськ; Вовк Роман Богданович, кандидат технічних наук, доцент, Івано-Франківський національний технічний університет нафти і газу, м. Івано-Франківськ
Сучасні великі мовні моделі (LLM), зокрема GPT-4, Claude 3 та Llama 3, демонструють високий рівень компетентності у генеруванні текстових та програмних структур. Попри це, їхнє промислове застосування залишається суттєво обмеженим фундаментальною архітектурною проблемою — відсутністю розвиненої довгострокової пам’яті. Обсяг знань таких моделей фіксується датою завершення навчання (knowledge cutoff), а механізм додаткового донавчання (fine-tuning) вимагає значних обчислювальних ресурсів та не забезпечує оперативного оновлення інформації у режимі реального часу. Додатковим обмеженням є фіксована місткість контекстного вікна (наприклад, 8k або 32k токенів), що робить неможливим передавання великих обсягів текстової документації безпосередньо у запит (prompt). Традиційні реляційні системи керування базами даних, які покладаються на B-Tree індексацію та алгоритми пошуку за ключовими словами, не можуть забезпечити задовільної продуктивності, оскільки оперують виключно лексичними відповідностями, ігноруючи семантичну подібність запитів. Усе це формує потребу в принципово нових підходах до організації та зберігання інформації [1].
Ключовою складовою вирішення зазначеної проблеми є використання векторних представлень — ембеддінгів. Під ембеддінгом розуміють перетворення будь-якого об’єкта (слова, речення чи зображення) у числовий вектор, що визначає його координати у багатовимірному семантичному просторі. Генерація ембеддінгів ґрунтується на архітектурах трансформерів (зокрема, BERT або ada-002), які дозволяють моделювати складні змістові зв’язки між елементами. Процедура пошуку релевантної інформації в такому просторі зводиться до вимірювання близькості між вектором запиту та вектором документа. Найпоширенішими метриками є:
- Косинусна подібність яка визначає кут між векторами, що дозволяє оцінити подібність їхніх напрямків. Значення, наближене до одиниці, вказує на високий рівень семантичної схожості; протилежні напрямки означають різний зміст. Метод широко використовується в текстових задачах, адже він усуває вплив довжини тексту та зосереджується на значеннєвому наповненні.
- Евклідова відстань - характеризує пряму відстань між векторами у багатовимірному просторі; менші значення відповідають більшій подібності об’єктів.
- Внутрішній добуток - забезпечує швидке обчислення та застосовується в оптимізованих системах, орієнтованих на високу швидкодію.
Інтеграція векторних баз даних у роботу мовних моделей реалізується через архітектурний патерн RAG (Retrieval-Augmented Generation). Важливою попередньою стадією цієї інтеграції є процес чанкінгу (chunking), тобто розбиття тексту на фрагменти, що підлягають векторизації. Обрана стратегія чанкінгу суттєво впливає на якість відповідей системи:
- Чанкінг із фіксованим розміром передбачає розбиття даних на рівні блоки, наприклад по 500 токенів із певним перекриттям, яке дозволяє мінімізувати втрату контексту на межових ділянках тексту.
- Семантичний чанкінг здійснюється відповідно до логічної структури тексту — за абзацами, заголовками чи тематичними сегментами, що дає змогу зберегти семантичну цілісність фрагмента у межах одного векторного представлення.
Невідповідний вибір стратегії чанкінгу може призвести до появи «шуму» у векторних представленнях, що негативно впливає на точність пошуку.
Звичайний послідовний перебір усіх векторів для визначення найближчого є неприйнятно повільним при великих обсягах даних через лінійну складність. Для зменшення часу обчислень використовуються спеціалізовані індексні структури, які реалізують алгоритми наближеного пошуку найближчих сусідів (ANN):
- HNSW (Hierarchical Navigable Small World) - графовий алгоритм, оснований на моделі «тісного світу», що формує багаторівневу навігаційну структуру. Верхні рівні відіграють роль «швидкісних магістралей», забезпечуючи швидке наближення до релевантної області, тоді як нижні рівні відповідають за детальний пошук. Такий підхід забезпечує логарифмічну швидкість пошуку, хоча й вимагає підвищеного обсягу оперативної пам’яті [2].
- IVFFlat (Inverted File with Flat Compression) - кластеризує векторний простір на низку груп (кластерів). Під час пошуку алгоритм спершу визначає найбільш релевантний кластер, після чого здійснює пошук у його межах. Метод є ресурсозберігаючим, однак потенційно менш точним порівняно з HNSW.
Актуальною тенденцією є перехід від окремих спеціалізованих векторних СУБД до використання розширень для класичних реляційних систем, насамперед pgvector для PostgreSQL. Такий підхід дає змогу реалізувати гібридний пошук (Hybrid Search), який поєднує семантичний пошук за векторними представленнями, лексичний пошук за точними входженнями та фільтрацію даних за метаданими (наприклад, датою або категорією). Використання PostgreSQL забезпечує надійність, транзакційну узгодженість (ACID) та цілісність даних. У практичних сценаріях, наприклад при оновленні записів товарів в інтернет-магазині, зміна текстового опису та його векторної репрезентації виконується в межах однієї транзакції, що гарантує коректність даних. Натомість окремі векторні бази часто забезпечують лише «кінцеву узгодженість», що є суттєвим недоліком у системах фінансового чи медичного призначення [3].
Отже, векторні бази даних докорінно змінюють підходи до обробки інформації, забезпечуючи перехід від синтаксичного зіставлення рядків до семантичного розуміння змісту. Використання сучасних алгоритмів, зокрема HNSW, а також гібридних механізмів на основі реляційних СУБД, створює надійну інфраструктуру «довгострокової пам’яті» для систем штучного інтелекту, що дозволяє істотно зменшити кількість галюцинацій та компенсувати обмеження контекстного вікна.
Список використаних джерел
1. Lewis P. et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems 33 (NeurIPS 2020). 2020. P. 9459–9474.
2. Malkov Y. A., Yashunin D. A. Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020. Vol. 42, No. 4. P. 824–836.
3. PostgreSQL Documentation: pgvector extension. GitHub Repository. URL: https://github.com/pgvector/pgvector (дата звернення: 30.11.2025).