АКТУАЛЬНІСТЬ ОБРОБКИ ТА АНАЛІЗУ ВЕЛИКИХ ДАНИХ
13.11.2021 09:59
[1. Information systems and technologies]
Author: Івахів В.В., студент, кафедра інформаційно-обчислювальних систем і управління, Західноукраїнський національний університет;
Ляпандра І.А., студент, кафедра інформаційно-обчислювальних систем і управління, Західноукраїнський національний університет;
Білоус В.С., студент, кафедра інформаційно-обчислювальних систем і управління, Західноукраїнський національний університет
У сучасному світі кількість великих даних суттєво зростає з року в рік, а з їх ростом з’являються і нові технології обробки. При цьому передові технології обробки великих даних зобов’язані вирішувати три основні задачі: зберігання великих обсягів, структурування розрізнених даних, швидкий і точний аналіз. В умовах зростаючої конкуренції, успіх будь-якої організації/компанії визначається можливістю миттєвого доступу до великих даних та їх відповідної обробки. Компанії намагаються своєчасно отримувати необхідну інформацію, щоб оперативно реагувати на змінення ринку. Тому, ефективний та достовірний аналіз великих даних для організацій/компаній є актуальною проблемою.
Важливим для отримання достовірних та якісних результатів при використанні інформаційних технологій є не тільки методи, способи та засоби їх отримання, але і якість початкових даних. Основною проблемою початкових даних є їх часткова відсутність.
За механізмом відсутності дані визначають наступним чином [1]:
1. Дані відсутні абсолютно випадково (missing completely at random – MCAR) – відсутність значень в даних не залежить від будь-яких значень – наявних або відсутніх.
2. Дані відсутні випадково (missing at random – MAR) – відсутні значення умовно залежні від наявних значень, а не від відсутніх. Ймовірність того, що значення Xi опущено, не пов'язана з самим Xi, але вона залежить від інших змінних в аналізованій таблиці.
3. Дані відсутні не випадково (missing not at random – MNAR) – відсутність значень залежить від значення відсутньої змінної. Ймовірність того, що значення Xi опущено, пов'язана з самим Xi.
Виявлення відсутніх даних в наборах і вирішення задачі їх відновлення є актуальною задачею сьогодення.
В якості фундаментальної технології аналізу великих даних використовується кластеризація, яка поділяє об'єкти на різні кластери на основі подібності [2]. Традиційні алгоритми кластеризації даних зосереджені на повній обробці даних, таких як кластеризація зображень, кластеризація звуку та кластеризація тексту. Сьогодні методи машинного навчання, зокрема глибокого навчання [3] разом з досягненнями в області обчислювальної потужності, відіграють важливу роль у аналітиці великих даних. Дослідженням глибоких нейронних мереж для аналізу та обробки великих даних займаються Головко В.А., Саченко А.О., Комар М.П. [4–6].
Крім того, актуальними є питання інтеграції розподілених систем обробки великих даних з моделями глибокого навчання.
Література:
1. Leke, C. A., Marwala, T. Introduction to Missing Data Estimation. Deep Learning and Missing Data in Engineering Systems. 2019, 1-20. https://doi. org/10.1117/12.2053057 [Access 18.07.2021].
2. Zhang, S.; Yang, Z.; Xing, X.; Gao, Y.; Xie, D.; Wong, H.S. Generalized Pair-Counting Similarity Measures for Clustering and Cluster Ensembles. IEEE Access. 2017, 5, 16904–16918.
3. Crego E. Big data and deep learning: Big deals or big delusions / E. Crego, G. Munoz, and F. Islam.? Business. http://www.huf_ngtonpost.com/george-munoz-frank-islamand-ed-crego/big-data-and-deep-learnin_b_3325352.html [Access 19.08.2021].
4. Wang C., Shakhovska N., Sachenko A., Komar M. A New Approach for Missing Data Imputation in Big Data Interface. Information Technology and Control. 2020. Vol. 49. No 4. Pp. 541-555.
5. Golovko V., Kroshchanka A., Komar M., Sachenko A. Neural Network Approach for Semantic Coding of Words. Advances in Intelligent Systems and Computing. 2020. Vol. 1020. Рp. 647-658.
6. Golovko V., Kroshchanka A., Mikhno E., Komar M., Sachenko A. Deep convolutional neural network for detection of solar panels. Lecture Notes on Data Engineering and Communications Technologies. 2020. Vol. 48, Pp. 371-389.