МЕТОД КЛАСТЕРИЗАЦІЇ ДОКУМЕНТІВ ВДОСКОНАЛЕНИМ МЕТОДОМ K-СЕРЕДНІХ

07.12.2023 22:59

[1. Information systems and technologies]

Author: Чумадевська Христина Василівна, студентка, Західноукраїнський національний університет, м. Тернопіль; Загородня Діана Іванівна, кандидат технічних наук, доцент, Західноукраїнський національний університет, м. Тернопіль

ORCID: 0000-0002-9764-3672 Diana Zahorodnia

Системи управління документами (DMS) – це системи, які пропонують такі послуги, як зберігання, керування версіями, метаданими, безпека, а також можливості індексування та пошуку. Велика кількість документів може бути автоматично згрупована в класи документів, які містять схожу інформацію. Для цього застосовують методи кластеризації.

Елементами DMS для документів є: інтеграція, вилучення метаданих, збір, перевірка, індексування, зберігання, пошук, розповсюдження, безпека, робочий процес, співпраця, керування версіями, пошук, публікація та відтворення.

Процес кластеризації документів складається з декількох етапів. Спочатку виконується попередня обробка наборів даних, які надають набір токенів для моделі векторного простору (VSM). VSM – це процес пошуку, який працює за моделлю Tf-Idf. Для обчислення відстані між різними кластерами використовуються міри подібності.

У роботі для кластеризації документів використовується дерево подібності документів, яке виокремлює послідовність фраз і слів у документах. Для кластеризації сегментів на основі схожості використовується підхід побудови кластерів розташованих на максимально великій відстані [1]. Алгоритм генетичної кластеризації використовується для вирішення проблеми агрегації кластерів. Процес кластеризації зображений на рисунку 1.

Попередня обробка виконується над звичайними текстовими документами і генерує набір токенів для виводу в VSM. Ця методика забезпечує оптимальну якість кластерів. Основні етапи препроцесорної обробки полягають у наступному:

1. Фільтрація: для видалення розділових знаків і спеціальних символів.

2. Токенізація: для розбиття токенів на окремі слова та токени.

3. Зупинити видалення слів: слова, що не мають значення, видаляються.

4. Стеммінг: утворюється основна форма слів.

5. Обрізка: для видалення низькочастотних слів.

Рисунок 1 – Процес кластеризації документів

Пошук термінів знаходить ексклюзивні терміни з кожної доступної категорії. Кожному терміну присвоюється порогове значення як вага. Частота терміна tf (i, j) – це кількість разів, коли термін i зустрічається в документі j. Якщо частота терміна tf більша за порогове значення, то значення додається, інакше відхиляється.

Вилучення функцій використовується для видалення набору ключових слів з документів. VSM – це техніка пошуку в інтелектуальному аналізі даних, також відома як модель «частота терміна - частота документа». Це стандартна алгебраїчна модель представлення тексту. Кожен документ представляється у вигляді n-вимірного вектора за допомогою вектора ознак. Значення кожного елемента вектора відображає важливість відповідної ознаки в документі. За допомогою цієї моделі схожість між документами вимірюється шляхом обчислення відстані між векторами документів. Якщо документи містять однакові ключові слова, вони вважаються схожими. Частота терміна нормалізується відносно максимальної частоти всіх термінів, що зустрічаються в документі.

Також обчислюються евклідова схожість, оцінка ефективності кластеризації (вимірюється за допомогою F-міри), точність (визначається як відношення кількості позитивних результатів до кількості позитивних результатів плюс кількість хибних результатів), відгук (визначається як відношення кількості істинно позитивних спрацьовувань до кількості істинно позитивних спрацьовувань плюс кількість помилково негативних результатів).

Наступний крок – це покращений метод k-середніх. Удосконалена кластеризація за методом k-середніх використовує алгоритм на основі розбиття. Одним з таких алгоритмів є Bisecting K Means Methods [2], який починає з розбиття всієї множини точок на два кластери, вибирає один із них, поділяє його, а потім повторює цей процес, поки не створить k кластерів. Гібридна бісектриса k-середніх використовує комбінацію бісектриси k-середніх та ієрархічного алгоритму розбиття для отримання оптимальних кластерів. Цей удосконалениий алгоритм спрямований на автоматичну кластеризацію та усунення недоліків методу K-Means [3].

Робота виконується на наборі даних mini_newsgroups [4]. Для порівняння класифікація виконувалась методом k-середніх та покращеним методом k-середніх на 300 документах з mini_Newsgroup. Результати представлені на рисунку 2.

Рисунок 2 – Результати класифікації документів методом k-середніх та удосконаленим методом

F-міра має більше значення для запропонованого алгоритму порівняно з існуючим алгоритмом. Також значення точності та відхилення є кращими для запропонованого алгоритму порівняно з існуючим алгоритмом.

На рисунку 3 представлено порівняння цих методів за часом. Існуючий метод потребує більшого часу виконання, ніж запропонований.

Рисунок 3 – Порівняння методів за часом виконання

В умовах інтенсивної генерації документів, кластеризація стає необхідним інструментом для структурування, управління та зручного доступу до інформації, а також може служити основою для впровадження різноманітних технологій аналізу та автоматизації обробки даних. Традиційний алгоритм k-середніх добре працює з певними документами, а центроїди обираються випадково. У запропонованому алгоритмі центроїди прогнозуються вручну. Експериментальні результати показали, що покращений алгоритм k-середніх працює краще, ніж існуючий алгоритм з точки зору точності, f- міри та часу.

Література

1. Rupesh Kumar Mishra, Knika Sain, Sakshi Bagri, «Text Document Clustering On The Basis Of Inter Passage Approach By Using K-Means», International Conference On Computing, Communication And Automation,(ICCCA- 2015), may 15-16, pp:110-113,IEEE, 2018.

2. Pradeep Rai. Shubha Singh, «A Survey Of Clustering Techniques», International Journal Of Computer Applications, volume 7,pp:1-5, 2020.

3. Improvement of K-means Cluster Quality by Post Processing Resulted Clusters. URL: https://www.sciencedirect.com/science/article/pii/S1877050922000096, 2022 .

4. UC Irvine Machine Learning Repository. URL: https://archive.ics.uci.edu/.

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Another articles in this section

Сonferences

Conference 2026

Information society: technological, economic and technical aspects of formation (issue 106) (15-16.01.2026)

Information society: technological, economic and technical aspects of formation (issue 107) (10-11.02.2026)

Information society: technological, economic and technical aspects of formation (issue 108) (5-6.03.2026)

Information society: technological, economic and technical aspects of formation (issue 109) (8-9.04.2026)

Conference 2025

Information society: technological, economic and technical aspects of formation (issue 95) (16-17.01.2025)

Information society: technological, economic and technical aspects of formation (issue 96) (11-12.02.2025)

Information society: technological, economic and technical aspects of formation (issue 97) (13-14.03.2025)

Information society: technological, economic and technical aspects of formation (issue 98) (15-16.04.2025)

Information society: technological, economic and technical aspects of formation (issue 99) (14-15.05.2025)

Information society: technological, economic and technical aspects of formation (issue 100) (11-12.06.2025)

Information society: technological, economic and technical aspects of formation (issue 101) (09-10.07.2025)

Information society: technological, economic and technical aspects of formation (issue 102) (16-17.09.2025)

Information society: technological, economic and technical aspects of formation (issue 103) (14-15.10.2025)

Information society: technological, economic and technical aspects of formation (issue 104) (13-14.11.2025)

Information society: technological, economic and technical aspects of formation (issue 105) (11-12.12.2025)

Conference 2024

Information society: technological, economic and technical aspects of formation (issue 84) (18-19.01.2024)

Information society: technological, economic and technical aspects of formation (issue 85) (15-16.02.2024)

Information society: technological, economic and technical aspects of formation (issue 86) (12-13.03.2024)

Information society: technological, economic and technical aspects of formation (issue 87) (11-12.04.2024)

Information society: technological, economic and technical aspects of formation (issue 88) (14-15.05.2024)

Information society: technological, economic and technical aspects of formation (issue 89) (12-13.06.2024)

Information society: technological, economic and technical aspects of formation (issue 90) (9-10.07.2024)

Information society: technological, economic and technical aspects of formation (issue 91) (10-11.09.2024)

Information society: technological, economic and technical aspects of formation (issue 92) (8-9.10.2024)

Information society: technological, economic and technical aspects of formation (issue 93) (12-13.11.2024)

Information society: technological, economic and technical aspects of formation (issue 94) (11-12.12.2024)

Conference 2023

Information society: technological, economic and technical aspects of formation (issue 74) (06-07.02.2023)

Information society: technological, economic and technical aspects of formation (issue 75) (06-07.03.2023)

Information society: technological, economic and technical aspects of formation (issue 76) (03-04.04.2023)

Information society: technological, economic and technical aspects of formation (issue 77) (09-10.05.2023)

Information society: technological, economic and technical aspects of formation (issue 78) (08-09.06.2023)

Information society: technological, economic and technical aspects of formation (issue 79) (06-07.07.2023)

Information society: technological, economic and technical aspects of formation (issue 80) (19-20.09.2023)

Information society: technological, economic and technical aspects of formation (issue 81) (11-12.10.2023)

Information society: technological, economic and technical aspects of formation (issue 82) (9-1.11.2023)

Information society: technological, economic and technical aspects of formation (issue 83) (7-8.12.2023)

Conference 2022

Information society: technological, economic and technical aspects of formation (issue 65) (8-9.02.2022)

Information society: technological, economic and technical aspects of formation (issue 66) (6-7.04.2022)

Information society: technological, economic and technical aspects of formation (issue 67) (11-12.05.2022)

Information society: technological, economic and technical aspects of formation (issue 68) (7-8.06.2022)

Information society: technological, economic and technical aspects of formation (issue 69) (4-5.07.2022)

Information society: technological, economic and technical aspects of formation (issue 70) (22-23.09.2022)

Information society: technological, economic and technical aspects of formation (issue 71) (18-19.10.2022)

Information society: technological, economic and technical aspects of formation (issue 72) (15-16.11.2022)

Information society: technological, economic and technical aspects of formation (issue 73) (08-09.12.2022)

Conference 2021

Information society: technological, economic and technical aspects of formation (Issue 55) (09.02.2021)

Information society: technological, economic and technical aspects of formation (Issue 56) (10.03.2021)

Information society: technological, economic and technical aspects of formation (issue 57) (13.04.2021)

Information society: technological, economic and technical aspects of formation (issue 58) (12.05.2021)

Information society: technological, economic and technical aspects of formation (issue 59) (08.06.2021)

Information society: technological, economic and technical aspects of formation (issue 60) (13.07.2021)

Information society: technological, economic and technical aspects of formation (issue 61) (15.09.2021)

Information society: technological, economic and technical aspects of formation (issue 62) (12.10.2021)

Information society: technological, economic and technical aspects of formation (issue 63) (11.11.2021)

Information society: technological, economic and technical aspects of formation (issue 64) (10.12.2021)

Congratulation from Internet Conference!

Рік заснування видання - 2011

МЕТОД КЛАСТЕРИЗАЦІЇ ДОКУМЕНТІВ ВДОСКОНАЛЕНИМ МЕТОДОМ K-СЕРЕДНІХ

Another articles in this section