КЛАСТЕРИЗАЦІЯ ОБ’ЄКТІВ
11.12.2021 11:37
[1. Information systems and technologies]
Author: Микитась А.О., студент, «Комп’ютерна інженерія та управління», Харківський національний університет радіоелектроніки;
Скрипка Я.В., студент, «Комп’ютерна інженерія та управління», Харківський національний університет радіоелектроніки;
Кононенко О.М., студент, «Комп’ютерна інженерія та управління», Харківський національний університет радіоелектроніки;
Кластеризація (сегментація) – це угруповання об'єктів (спостережень, подій) на основі даних, що описують властивості об'єктів. Об'єкти всередині кластера повинні бути схожими один на одного і відрізнятися від інших, які увійшли до інших кластерів. Таким чином, кластеризація - це процес, в якому необхідно ідентифікувати аналогічну або ідентичну групу даних у наборі даних, та застосування функціональності у цьому наборі даних відповідно до нашого очікуваного висновку відоме як алгоритм кластеризації. В даний час це найпопулярніша методика в галузі науки про дані.
По суті, алгоритм кластеризації поділяється на дві підгрупи:
1. Жорстка кластеризація. У жорсткій кластеризації група подібних об'єктів даних повністю відноситься до аналогічної характеристики або кластеру. Якщо об'єкти даних не схожі на певну умову, об'єкт даних повністю видаляється з набору кластерів.
2. М'яка кластеризація. У м'якій кластеризації розслаблення надається кожному об'єкту даних, який знаходить схожий об'єкт даних єдиної структури на формування кластера. У цьому типі кластеризації унікальний об'єкт даних може бути знайдений у кількох кластерах, встановлених відповідно до їх єдиної структури.
Кожна методологія кластеризації слідує за набором правил, які визначають їх набір подібності між об'єктом даних. Сьогодні на ринку є сотні методологій кластеризації. Отже, розглянемо деякі з них, які є дуже популярними в даний час:
1. Моделі підключення
Судячи з назви, у цьому механізмі алгоритм знаходить найближчий аналогічний об'єкт даних у групі встановлених об'єктів даних, виходячи з уявлення про те, що точки даних знаходяться ближче в просторі даних. Таким чином, об'єкт даних, розташований ближче до аналогічного об'єкта даних, демонструватиме більшу схожість, ніж об'єкт даних, що лежить дуже далеко.
2. Центроїдні моделі
У цьому типі ітераційного алгоритму спочатку береться до уваги певна точка центроїду, потім аналогічний об'єкт даних відповідно до їх близькості щодо цієї точки центроїду встановлюється кластер. Найпопулярніший алгоритм кластеризації K-Means був успішним у цьому типі алгоритму кластеризації. Ще одне зауваження: у моделях центроїдів немає певних кластерів, тому ми маємо аналіз вихідних даних.
3. Моделі розповсюдження
У цьому типі алгоритму метод знаходить, наскільки можливо, щоб кожен елемент даних у кластері належав до одного або того ж розподілу, як гаусовий або нормальний. Одним з недоліків цього алгоритму є те, що в цьому типі кластеризації об'єкт набору даних повинен страждати від перенавчання.
4. Моделі густини
Використовуючи цей алгоритм, набір даних ізолюється щодо різних областей густини даних у просторі даних, а потім об'єкту даних призначаються конкретні кластери.
Отже, у наведеній вище статті було розглянуто, що таке кластеризація, її тип та використання у розробці програмного забезпечення. Використовуючи кластеризацію, можно легко підвищити точність підходу машинного навчання. Тому, беручи до уваги майбутні аспекти, можна сказати, що алгоритм кластеризації використовується майже в кожній технології розробки програмного забезпечення.
Список використаних джерел:
1. Кластеризация [Електронний ресурс]. – 2017. – Режим доступу до ресурсу: https://proginfo.ru/clustering/.
2. Кластеризация [Електронний ресурс] – Режим доступу до ресурсу: https://help.loginom.ru/userguide/processors/datamining/clustering.html.