МЕТОДИ КЛАСТЕРИЗАЦІЇ ДАНИХ У БАГАТОВИМІРНИХ ЧАСОВИХ РЯДАХ
08.07.2023 16:33
[1. Інформаційні системи і технології]
Автор: Здорик Нікіта Вікторович, аспірант, Харківський національний університет радіоелектроніки, м. Харків; Іващенко Георгій Станіславович, кандидат технічних наук, доцент, кафедра електронних обчислювальних машин, Харківський національний університет радіоелектроніки, м. Харків
Використання часових рядів є одним з поширених способів представлення даних для аналізу. Часові ряди, що складаються зі значень, зібраних впродовж певних інтервалів часу, використовуються в різних сферах людської діяльності, таких як економіка, фінанси, медицина та інші. Аналіз часових рядів передбачає їх моделювання, прогнозування, класифікацію фрагментів часового ряду чи пошук певних патернів у них шляхом кластеризації, що може бути використано при вирішенні інших задач аналізу.
Кластеризація дозволяє виділити групи інформаційних об'єктів і розміщує такі, що мають певні схожі ознаки, в один кластер, незалежно від наявності попередньої інформації про розподіл об'єктів на групи. Кластеризація є поширеним завданням інтелектуального аналізу даних у часових рядах з метою виявлення невідомих закономірностей [1]. Кластеризація часових рядів полягає у процесі групування схожих часових рядів в однакові кластери з метою виявлення подібних залежностей або патернів (шаблонів) в даних. Особливу складність для кластеризації представляють багатовимірні часові ряди, у яких відсутня періодичність, різні виміри можуть мати різну довжину та містити фрагменти їх взаємного перетину [2].
Метою роботи є аналіз поширених методів кластеризації, які можуть використовуватись для обробки багатовимірних часових рядів. Розглянуті такі методи, як k-середніх, середнього здвигу, DBSCAN та гаусових сумішей.
Метод k-середніх базується на принципі групування об'єктів у кластери шляхом мінімізації суми квадратів відстаней між об'єктами та їх центрами. Поширеність методу k-середніх зумовлена його простотою, гнучкістю, швидкою збіжністю. Практичне застосування методу обмежується його недоліками, серед яких слід зазначити залежність від вибору початкової конфігурації центроїдів, обчислювальну складність та можливість потрапляння у локальний оптимум [3].
Метод середнього здвигу не вимагає будь-яких попередніх знань про кількість кластерів та виконує пошук області точок даних з найбільшою щільністю. До переваг цього непараметричного методу можна віднести можливість виявлення кластерів різної форми та розміру, чутливість до локальних особливостей та густини даних. Недоліками методу середнього здвигу є висока складність та неефективність при обробці даних з нерівномірною щільністю [4].
В основі методу кластеризації DBSCAN лежить об'єднання об'єктів відповідно до їх внутрішньогрупового «з'єднання» [5]. Для проведення коректної процедури кластеризації необхідно вказати критерії, за якими об'єкти будуть об'єднані у кластери. Кластери представляють собою щільні області об'єктів у просторі даних, розділених між собою об'єктами, щільність яких значно нижча. DBSCAN визначає результуючу кількість кластерів автоматично в ході роботи алгоритму. Даний метод дозволяє ідентифікувати викиди як шуми, на відміну від методу зсуву середнього значення, який додає їх у кластер (навіть якщо така точка значно відрізняється від інших у кластері) та дозволяє визначати кластери довільного розміру та довільної форми [6]. Недоліком DBSCAN є отримання гірших результатів, ніж іншими методами, за умови наявності кластерів різної щільності, у яких поріг відстані ε та minPoints для ідентифікації точок сусідства має бути різним [7].
Метод Gaussian Mixture Model (GMM) використовує статистичну модель для розподілу даних на кластери. В основі GMM лежить припущення, що дані у кожному кластері розподілені за гаусіанським (нормальним) розподілом. Завдяки стандартному параметру відхилення кластери можуть приймати форму еліпса, а не обмежуватись лише колами. Окремим випадком GMM є метод К-середніх, коли коваріація кожного кластера за всіма параметрами прямує до 0. Оскільки GMM використовує ймовірності при розрахунку, то точки можуть одночасно належати кільком кластерам. Таким чином, GMM реалізує нечітку кластеризацію [7].
Кластеризація є ефективним підходом до виділення груп інформаційних об'єктів зі схожими ознаками без попередньої інформації про розподіл об'єктів на групи. Кожен з методів має свої переваги та недоліки, і вибір конкретного методу залежить від характеристик даних та поставленої задачі.
Література
1. Бодянський, Є. В., Винокурова, Є. А., Пелешко, Д. Д., Кобилін, І.О., Кобилін, О. А. (2017). Нечітка кластеризація часових рядів з нерівномірними та асинхронними тактами квантування. Системи обробки інформації, (5), 47-54.
2. Машталир, С. В., Столбовой, М. И., Яковлев, С. В. (2019). Гибридный подход к кластеризации видеорядов различной длины. Проблемы управления и информатики, (2), 80-88.
3. Ткаченко, О. М., Грійо Тукало, О. Ф., Дзісь, О. В. і Лаховець, С. М. 2012. Метод кластеризації на основі послідовного запуску k-середніх з удосконаленим вибором кандидата на нову позицію вставки. Наукові праці Вінницького національного технічного університету, (2), 25-34.
4. Wu, K. L., & Yang, M. S. (2007). Mean shift-based clustering. Pattern Recognition, 40(11), 3035-3052.
5. Чапланов, А. П., Чапланова, Е. Б. (2006). Кластеризация объектов с помощью алгоритма DBSCAN. Системи обробки інформації, (9), 82-84.
6. Schubert, E., Sander, J., Ester, M., Kriegel, H. P., & Xu, X. DBSCAN revisited: Why and how you should (still) use DBSCAN. ACM Trans. Database Syst, 42(3), 19.
7. Hastie, T., Friedman, J., Tibshirani, R., Hastie, T., Friedman, J., & Tibshirani, R. (2001). Model Inference and Averaging. The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 225-256.