ПІДВИЩЕННЯ НАДІЙНОСТІ ВУЗЛІВ МЕРЕЖІ ІНТЕРНЕТУ РЕЧЕЙ НА ОСНОВІ АНСАМБЛЕВОГО ГЛИБОКОГО НАВЧАННЯ
01.12.2024 13:44
[1. Інформаційні системи і технології]
Автор: Пилип’як Назар Богданович, магістр, Західноукраїнський національний університет, м. Тернопіль
Інтернет речей швидко поширюється, створюючи нові можливості для автоматизації, моніторингу та контролю у різних сферах, таких як промисловість, транспорт, охорона здоров'я та побут. Однак стрімке зростання кількості підключених пристроїв також збільшує ризик кібератак, що можуть порушити роботу таких систем та призвести до небажаних наслідків. Традиційні методи безпеки стають недостатніми для захисту IoT-мереж через їхню високу гетерогенність, розподіленість та специфіку трафіку, що вимагає адаптивних та високоточних рішень для виявлення аномалій.
На рисунку 1 представлена загальна схема запропонованого підходу.
Рисунок 1. Схематичне представлення запропонованого підходу.
На початковому етапі отримуються вхідні дані з набору даних IoT-23, який є важливим стартовим пунктом для дослідження. Далі дані підлягають попередній обробці за допомогою нормалізації за методом Z-показників [1], що значно зменшує вплив неактуальної або неточної інформації. Потім використовується метод оптимізації Gorilla Troops Optimization (GTO) [2] для покращення процесу вибору ознак та визначення найбільш значущих і релевантних характеристик у наборі даних.
Модель ансамблевої класифікації, що об’єднує методи Random Space (RS) [3], Random Tree (RT) [4], XGBoost [5] та графова згорткова нейронна мережа GCNN [6], використовує обрані ознаки в якості вхідних даних. GCNN відіграє важливу роль у сфері мережевої безпеки та виявлення аномалій завдяки своїм винятковим можливостям аналізу даних мережевого трафіку, що забезпечує підвищену точність і надійність класифікації.
GCNN була обрана як основний метод для класифікації кібератак, оскільки цей тип нейронних мереж ефективно працює з графічними структурами даних, що є актуальним для IoT. GCNN здатна обробляти дані, структуровані у вигляді графів, де вузли можуть представляти пристрої чи елементи мережі, а ребра – зв'язки між ними. GCNN дозволяє враховувати локальні залежності між пристроями, що робить цей підхід особливо ефективним у виявленні аномалій.
XGBoost був обраний як один з основних методів ансамблевого навчання завдяки своїй швидкості, ефективності та можливості паралельного обчислення. Регуляризація, доступна в XGBoost, дозволяє контролювати складність моделі та запобігає перенавчанню, що особливо важливо у задачах з великою кількістю параметрів. Оскільки XGBoost базується на деревовидних моделях, він особливо добре підходить для обробки табличних даних з низькою розмірністю, характерних для IoT.
RS та RT були включені до дослідження через їх здатність обробляти великі набори даних з великою кількістю ознак навіть при обмеженому обсязі навчальних даних. RS використовує метод випадкової вибірки ознак, що дозволяє виділяти найзначущі підмножини ознак і забезпечує стабільність моделі. RT, будучи одним з популярних ансамблевих методів на основі дерев, забезпечує точність у задачах класифікації та здатність швидко адаптуватися до нових даних, що є важливим у динамічному середовищі IoT.
Нормалізація Z-Score обрана для попередньої обробки даних з метою стандартизації ознак, що дозволяє уникнути домінування окремих ознак і робить дані більш придатними для аналізу різними алгоритмами глибокого навчання. Попередні дослідження показують, що нормалізація Z-Score може покращити навчання моделей шляхом зменшення впливу різнорідності даних.
Для навчання та тестування обраний набір даних IoT-23, який містить зразки трафіку, включаючи нормальні і зловмисні дані, що робить його ідеальним для задач виявлення аномалій в IoT. Набір даних представляє реальні сценарії використання та атак, що дозволяє моделі вивчати нормальний та аномальний трафік.
Використання ансамблевого підходу дозволяє враховувати специфічні характеристики IoT-середовища, підвищуючи ефективність та стійкість системи захисту від загроз.
Література
1. Al-Faiz, M. Z., Ibrahim, A. A., Hadi, S. M. The effect of Z-Score standardization (normalization) on binary input due the speed of learning in back-propagation neural network. Iraqi Journal of Information and Communication Technology. 2018. 1(3). 42–48.
2. Abdollahzadeh, B., Soleimanian Gharehchopogh, F., Mirjalili, S. Artificial gorilla troops optimizer: A new nature-inspired metaheuristic algorithm for global optimization problems. International Journal of Intelligent Systems. 2021. 36(10). 5887–5958.
3. Kuncheva, L. I., Rodríguez, J. J., Plumpton, C. O., Linden, D. E., Johnston, S. J. Random subspace ensembles for fMRI classification. IEEE Transactions on Medical Imaging. 2010. 29(2). 531–542.
4. Naderi, K., Rajamäki, J., Hämäläinen, P. RT-RRT* a real-time path planning algorithm based on RRT. ACM SIGGRAPH Conference on Motion in Games. 2015. 113–118.
5. Chen, T., He, T., Benesty, M., Khotilovich, V., Tang, Y., Cho, H., Chen, K. Xgboost: Extreme gradient boosting. R Package Version. 2015. 0.4-2. 1(4).
6. Zhang, Y. D., Satapathy, S. C., Guttery, D. S., Gorriz, J. M., Wang, S. H. Improved breast cancer classification through combining graph convolutional network and convolutional neural network. Information Processing & Management. 2021. 58(2). Article 102439.