МЕТОД ВІДНОВЛЕННЯ ПРОПУЩЕНИХ ТА ПОШКОДЖЕНИХ ДАНИХ У МЕРЕЖАХ ІНТЕРНЕТУ РЕЧЕЙ
01.12.2024 13:39
[1. Information systems and technologies]
Author: Пархін Антоній Романович, магістр, Західноукраїнський національний університет, м. Тернопіль
У сучасних мережах IoT пропущені та пошкоджені дані є критичною проблемою, що впливає на точність аналізу, надійність рішень і загальну ефективність систем. Дані з сенсорів можуть бути втрачені через ненадійні зв'язки, вихід вузлів з ладу або інші технічні проблеми. Відновлення пропущених та пошкоджених даних є складним завданням, яке потребує врахування як просторових, так і часових залежностей між вузлами мережі.
Існуючі методи, такі як BI-LSTM [1, 2], MF-EALS [3], і DRTSMC [4], мають певні недоліки. Вони часто зосереджені на обробці лише однієї категорії даних (одного атрибуту) або застосовуються лише до короткотривалих часових рядів. Крім того, ці методи не завжди враховують одночасно просторові та часові кореляції між даними, що призводить до менш точної реконструкції пропущених значень. Деякі методи демонструють високу складність обчислень, що робить їх менш придатними для великих та складних мереж IoT.
Метод відновлення пропущених і пошкоджених даних у мережах IoT базується на комплексному підході, який включає попередню обробку даних, кластеризацію вузлів, аналіз кореляцій та використання алгоритмів глибокого навчання для відновлення пропусків. Цей підхід спрямований на забезпечення точності, ефективності та надійності обробки даних, які надходять із сенсорних мереж.
Метод відновлення пропущених і пошкоджених даних у мережах IoT включає наступну послідовність кроків:
1. Попередня обробка даних.
На першому етапі метод працює із сирими даними, зібраними із сенсорних мереж. Набір даних, наприклад, з гідравлічного випробувального стенда, містить мільйони записів, що включають параметри, такі як температура, тиск, об'ємні потоки та інші. Ці дані часто мають пропуски або помилки, спричинені технічними збоями чи виходом вузлів із ладу. Для запобігання впливу таких аномалій здійснюється видалення викидів. Викиди поділяються на локальні (аномалії в межах одного вузла) та глобальні (аномалії, що значно відхиляються від нормального діапазону даних у мережі). Визначення викидів проводиться за допомогою методу квартилів, який визначає межі нормальних значень, після чого аномальні дані видаляються для подальшої обробки.
2. Обробка локальних та глобальних викидів.
Метод обробки викидів полягає у визначенні меж значень для кожного вузла мережі. За допомогою обчислення верхнього та нижнього квартилів, а також міжквартильного діапазону, встановлюються межі, за які значення не повинні виходити. Викиди, що перевищують ці межі, видаляються або замінюються даними сусідніх вузлів, які мають подібні характеристики.
3. Аналіз кореляції даних.
Після очищення даних проводиться аналіз кореляції між вузлами. Для цього застосовується коефіцієнт кореляції Спірмена, який дозволяє кількісно оцінити залежність між сенсорними даними різних вузлів. Це забезпечує можливість визначити групи вузлів, які мають сильний зв'язок, і врахувати цю інформацію під час кластеризації. Крім того, дані нормалізуються за методом "мінімум-максимум", щоб привести всі значення до діапазону [0, 1], що спрощує їх подальшу обробку.
4. Кластеризація вузлів.
Наступним кроком є групування вузлів у кластери на основі просторових кореляцій між ними. Для цього використовуються алгоритми кластеризації, які перевіряють, чи вузол уже належить до певного кластера. Якщо вузол не кластеризований, він стає основою для нового кластера, а його сусіди додаються до цієї групи. Процес повторюється, поки всі вузли в мережі не будуть розподілені між кластерами. У статичних мережах кластеризація виконується один раз, а в динамічних – періодично, щоб враховувати зміни в мережі.
5. Відновлення пропущених даних.
Після кластеризації сирі дані кожного кластера обробляються для відновлення пропусків. Спочатку дані структуруються у вигляді матриці, де кожен рядок відповідає вузлу, а кожен стовпець – часовим зчитуванням. Пропущені значення прогнозуються на основі просторово-часової кореляції. Для цього обчислюється:
• часова кореляція, що враховує тренди значень у часі для кожного вузла;
• просторова кореляція, яка оцінює зв’язок між сусідніми вузлами у кластері.
Просторово-часові залежності об'єднуються і подаються на вхід алгоритму ієрархічної LSTM, який прогнозує та відновлює пропущені значення.
6. Верифікація результатів.
На останньому етапі відновлені дані перевіряються на точність за допомогою маскування пропусків. Це дозволяє оцінити якість моделі і переконатися, що відновлені дані відповідають реальним значенням.
Цей метод демонструє ефективний підхід до обробки пропущених і пошкоджених даних у мережах IoT. Він забезпечує точність прогнозування, зменшує вплив аномалій і використовує просторово-часові зв’язки для відновлення даних. Це робить метод універсальним для застосування в динамічних і складних умовах сенсорних мереж.
Література
1. Chen, L.; Hu, G.; Ye, W.; Zhang, J.; Yang, G. Data reconstruction in wireless sensor networks from incomplete and erroneous observations. IEEE Access J. 2018, 6, 45493–45503.
2. Zhang, Y.-F.; Thorburn, P.J.; Xiang, W.; Fitch, P. Ssima deep learning approach for recovering missing time series sensor data, IEEE Internet Things J. 2019, 6, 6618–6628.
3. Song, X.; Guo, Y.; Li, N.; Yang, S. A novel approach based on matrix factorization for recovering missing time series sensor data. IEEE Sensors J. 2020, 20, 13491–13500.
4. Xie, K.;Wang, L.;Wang, X.; Xie, G.;Wen, J. Low cost and high accuracy data gathering in WSNs with matrix completion. IEEE Trans. Mob. Comput. 2018, 17, 1595–1608.