ІМПУТАЦІЯ ПРОПУЩЕНИХ ДАНИХ ЗА ДОПОМОГОЮ ГЛИБОКИХ НЕЙРОННИХ МЕРЕЖ ТА НЕЧІТКОЇ КЛАСТЕРИЗАЦІЇ
01.12.2024 13:03
[1. Информационные системы и технологии]
Автор: Гончар Ярослав Андрійович, магістр, Західноукраїнський національний університет, м. Тернопіль
Пропущені дані є поширеним явищем у будь-якій реальній базі даних або інформаційній системі. Вони виникають через різні причини, такі як людські помилки, технічні збої, неспроможність отримати певну інформацію або свідоме рішення не включати певні дані. Пропуски можуть бути випадковими (MCAR - Missing Completely at Random), залежати від спостережуваних даних (MAR - Missing at Random) або залежати від неспостережуваних чинників (MNAR - Missing Not at Random) [1]. Від того, як виникли пропуски, залежить ефективність різних методів їх імпутації.
Сучасні методи імпутації пропущених даних можна розділити на три основні категорії: статистичні методи, методи машинного навчання [2-4] та підходи, засновані на глибокому навчанні [5, 6]. Кожен з цих методів має свої переваги та недоліки, і вибір конкретного підходу залежить від структури даних, обсягу пропусків та обчислювальних можливостей.
Основними викликами є ефективна обробка пропущених даних у великих наборах даних, де існують складні взаємозв'язки між ознаками. Методи, які враховують просторові кореляції, такі як згорткові нейронні мережі, мають значний потенціал для підвищення точності імпутації.
Глибокі нейронні мережі (ГНМ) є перспективним вибором для задач імпутації даних завдяки їхнім унікальним можливостям у роботі з великими та складними наборами даних. ГНМ здатні автоматично виявляти та моделювати нелінійні залежності між ознаками. Це особливо важливо для даних із високим рівнем складності, де прості моделі, як-от статистичні або лінійні, виявляються недостатньо точними. Завдяки своїй багаторівневій архітектурі ГНМ можуть ефективно працювати з великими наборами даних, забезпечуючи високу точність навіть у разі складних структур даних або великої кількості змінних. ГНМ можуть працювати зі структурованими, напівструктурованими та неструктурованими даними, такими як числові дані, текст або зображення. Це універсальність робить їх придатними для широкого спектра застосувань.
Архітектури, такі як згорткові нейронні мережі (ЗНМ) та рекурентні нейронні мережі, дозволяють враховувати просторові або часові залежності, що є важливими для багатьох реальних задач, включаючи аналіз часових рядів або обробку зображень. ГНМ не потребують ручного проектування ознак, оскільки вони автоматично виділяють найважливіші патерни з даних. Це спрощує підготовку даних і покращує якість результатів. Завдяки своїй архітектурі ГНМ можуть навчатися навіть на даних із пропущеними значеннями або шумом, відновлюючи відсутню інформацію з високою точністю. ГНМ підтримують широкий спектр налаштувань і архітектур, які можна адаптувати до специфічних задач, включаючи імпутацію даних, прогнозування або класифікацію.
Вибір ГНМ для задач імпутації пропущених значень обґрунтовується їхньою здатністю працювати з великими обсягами даних, моделювати складні залежності та забезпечувати високий рівень точності результатів.
Запропонований метод відновлення пропущених даних базується на поєднанні алгоритму нечіткої кластеризації Fuzzy C-Means (FCM) і ЗНМ. Основна ідея методу полягає у використанні просторових залежностей і нелінійних закономірностей, щоб точно заповнити відсутні значення в даних.
На першому етапі метод аналізує кореляції між ознаками, щоб найбільш взаємопов’язані ознаки були розташовані поруч. Це дозволяє ефективніше використовувати інформацію про зв’язки між даними під час навчання моделі. Потім застосовується алгоритм FCM, який організовує дані у кілька кластерів. Особливість цього алгоритму полягає в тому, що кожен запис може належати одночасно до кількох кластерів із різними ступенями членства. Таке впорядкування дозволяє класифікувати записи за їхньою схожістю та підготувати їх для подальшої обробки.
Після кластеризації дані передаються до згорткової нейронної мережі. Модель ЗНМ використовує навчуване ядро, щоб заповнити пропуски у даних. Ядро аналізує просторові взаємозв’язки між значеннями у сусідніх записах і визначає відсутні значення шляхом згортки. Процес навчання моделі включає оптимізацію ваг ядра ЗНМ, що дозволяє мінімізувати помилки заповнення.
Під час тестування модель ЗНМ заповнює пропущені значення у нових даних. Ці значення виділяються через маскування й об’єднуються з уже наявними даними, утворюючи повний набір. Завдяки цьому підходу модель може точно заповнювати пропуски навіть у складних наборах даних із нелінійними зв’язками.
Основними перевагами методу є його здатність працювати з великими та різнорідними даними, використання інформації про кореляції й просторові зв’язки, а також висока точність імпутації. Цей підхід особливо ефективний у сферах, де важливо зберігати приховані закономірності в даних, таких як аналіз статистичних даних, обробка зображень чи машинне навчання.
Література
1. He, Y. Missing data analysis using multiple imputation. Circulation: Cardiovascular Quality and Outcomes. 2010. Vol. 3(1). Pp. 98–105.
2. Beretta, L., Santaniello, A. Nearest neighbor imputation algorithms: a critical evaluation. BMC Med. Inform. Decision Making. 2016. Vol. 16(3). Pp. 197–208.
3. Cheng, C.-H., Chan, C.-P., Sheu, Y.-J. A novel purity-based k nearest neighbors imputation method and its application in financial distress prediction. Eng. Appl. Artif. Intell. 2019. Vol. 81. Pp.283–299.
4. Tang, F., Ishwaran, H. Random forest missing data algorithms. Statistical Analysis and Data Mining: The ASA Data Sci. J. 2017. Vol. 10(6). Pp.363–377.
5. Choudhury, S.J., Pal, N.R. Imputation of missing data with neural networks for classification. Knowledge-Based Syst. 2019. Vol. 182. №104838.
6. Lai, X., Wu, X., Zhang, L., Lu, W., Zhong, C. Imputations of missing values using a tracking-removed autoencoder trained with incomplete data. Neurocomputing. 2019. Vol. 366. Pp.54–65.