ОГЛЯД МОЖЛИВИХ СПОСОБІВ ПОБУДОВИ ІНФРАСТРУКТУРИ ОПРАЦЮВАННЯ ВЕЛИКИХ ДАНИХ У ПУБЛІЧНИХ ХМАРАХ З ВИКОРИСТАННЯМ МОДЕЛІ PAAS
01.09.2021 21:21
[1. Information systems and technologies]
Author: Голубовський М.П., магістрант, кафедра комп’ютерних систем та мереж, Тернопільський національний технічний університет імені Івана Пулюя, м. Тернопіль
До ключових особливостей, які характерні для побудови інфраструктур опрацювання великих даних можна віднести необхідність дешевого зберігання великих об’ємів різноманітної за структурою інформації та значні вимоги до обчислювальний ресурсів, для обробки цієї інформації. Такі системи також характеризуються потребою забезпечити масштабованість ресурсів, відповідно до вимог, що постійно ростуть у результаті зростання об’єму даних, появи нових запитів щодо технологій їх обробки, швидкодії роботи. У результаті така інфраструктура є дорогою, складною, вимагає значної кількісті кваліфікованих працівників для її підтримки.
Найпопулярнішим на даний час інструментом для вирішення проблем у сфері великих даних є проект Hadoop, до складу якого входять бібліотеки, фреймворки та утиліти з відкритою ліцензією для розробки, виконання і супроводу розподілених програм, адаптованих для опрацювання великих обсягів даних, та виконання на кластерах з великою кількістю вузлів.
Для оптимізації витрат щодо побудови та обслуговування інфраструктури опрацювання великих даних у порівнянні з використанням власних, локальних комп’ютерних ресурсів доцільно розглянути можливість її побудови із застосуванням підходу хмарних обчислень. Підхід передбачає оренду комп’ютерних ресурсів у постачальника хмарних послуг, доступ та конфігурація яких надається через мережу. У результаті користувач звільняється від необхідності здійснювати обслуговування апаратних ресурсів, та отримує майже необмежену масштабованість, використовуючи орендовані у постачальників ресурси. Лідерами на ринку надання публічних хмарних ресурсів є Amazon Web Services (AWS), Microsoft Azure, Google Cloud Platform (GCP).
Для реалізації функціоналу платформи Hadoop постачальники публічних хмарні сервіси пропонують рішення, доступні за моделлю PaaS (Platform as a service). Згідно неї користувач отримує доступ до функціоналу платформи, можливість встановлювати, розробляти і запускати прикладне програмне забезпечення, маючи можливість конфігурувати і змінювати кількість обчислювальних ресурсів кластера. Робота апаратних ресурсів, таких як сервери, сховища даних, дискові масиви, мережі повністю керується і обслуговується постачальником. Перевагою також є майже миттєва доступність новостворених ресурсів платформи, можливість реалізувати високу доступність та відмовостійкість рішення. До таких PaaS рішень, зокрема, відносяться продукти Amazon EMR, Azure HDInsight і Google Dataproc.
Продукт від Amazon – EMR дозволяє реалізувати середовище Hadoop, яке використовує обчислювальні ресурси Amazon EC2 (Elastic Compute Cloud) та сховище даних Amazon S3 (Simple Storage Service). Рішення підтримує можливість автоматичного припинення роботи кластера після виконання обчислювальних завдань, що дозволяє не платити за ресурси, які вже не використовуються. Інфраструктура EMR легко масштабована, кількість ресурсів можна автоматично збільшувати та зменшувати у залежності від навантаження. EMR розділяє ресурси обчислення та зберігання даних, що дає можливість масштабувати кожен з елементів. EMR дозволяє використовувати вбудовані засоби моніторингу ресурсів та логування. Платформа підтримує функціонал автоматичної заміни обчислювальних машин, що погано працюють та відновлення при втраті вузлів кластера. Постачальник послуг також забезпечує оновлення програмних компонентів до останніх стабільних версій. Є можливість використовувати користувацькі образи операційної системи, встановлювати додаткове програмне забезпечення на етапі ініціалізації кластера. Функціонал Amazon EMR базується на використанні продуктів Apache з відкритим кодом: Spark, Hive, HBase, Flink, Hudi та Presto.
Google Dataproc – платформа, що надається Google Cloud Platform і дозволяє запускати Apache Spark та Hadoop кластери у хмарні інфраструктурі. Google Dataproc інтегрується з іншими сервісами Google Cloud Platform, що дозволяє використовувати сервіси моніторингу Cloud Monitoring, логування Cloud Logging, масштабовану NoSQL базу даних Cloud Bigtable, хмарне сховище для даних Cloud Storage, сервіс для інтерактивного широкомасштабного аналізу великих наборів даних BigQuery. До складу Google Dataproc входять наступні компоненти платформи Apache Hadoop: Spark, Hive, Pig, Tez, Druid, HBaze, Hive WebHCat, Jupyter Notebook, Kerberos, Presto, Zookeeper, мови програмування Python і Scala. При створенні кластера є можливість додати додаткові програмні продукти. Рішення підтримує роботу з контейнерами, що дозволяє одного разу розробивши свою програму запускати її у різних середовищах. Продукт підтримує багато можливостей щодо реалізації безпеки, дозволяє використовувати протокол Kerberos, усі дані з якими працює платформа автоматично шифруються. Особливість платформи є можливість реалізовувати кластер з використанням preemptible віртуальних машин, що дозволяють економити до 80% витрат на обчислювальні ресурси.
Azure HDInsight – хмарна служба Microsoft з відкритим кодом для роботи з великими даними. HDInsight дозволяє розробляти за запускати рішення з використання технологій Apache Hadoop, Hive, Spark, LLAP, Kafka, HBase, Storm. Служба гарантує високу доступність (99.9 percent SLA), підтримує моніторинг здоров’я кластера та автоматичне відновлення при відмовах. Продукт Microsoft реалізує можливості безпечної роботи з даними, забезпечуючи їх шифрування, можливість налаштування гнучких політик доступу з використанням Apache Ranger, інтеграцію з Active Directory. Сервіс доступний у найбільшій кількості регіонів, порівнюючи з іншими рішеннями. Підтримується можливість встановлення додаткових компонентів, автоматичне масштабування ресурсів у відповідності до навантаження. HDInsight підходить для реалізації різноманітних рішень, зокрема, пакетної обробки даних, зберігання великих об’ємів даних та виконання аналітики по них, збирання та обробки інформації з різноманітних пристрої у реальному часі (IoT), машинного навчання та гібридних рішень.
Література:
1. Big Data What it is and why it matters [Електронний ресурс] // SAS – Режим доступу до ресурсу: https://www.sas.com/en_us/insights/big-data/what-is-big-data.html.
2. Min Chen, Shiwen Mao, Yin Zhang, Victor C.M. Leung. Big Data. Related Technologies, Challenges, and Future Prospects. — Spinger, 2014. — 100 c.
3. Amazon EMR Documentation [Електронний ресурс] – Режим доступу до ресурсу: https://docs.aws.amazon.com/emr.
4. Google Dataproc documentation [Електронний ресурс] – Режим доступу до ресурсу: https://cloud.google.com/dataproc/docs.
5. What is Azure HDInsight? [Електронний ресурс] – Режим доступу до ресурсу: https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-overview.