ЗАСТОСУВАНННЯ ВБУДОВАНИХ У БРАУЗЕР СИСТЕМ ДЛЯ ВЕБСКРАПІНГУ
09.05.2022 16:30
[1. Информационные системы и технологии]
Автор: Гримайло Яна Ярославівна, студентка, кафедра програмного забезпечення, Національний Університет «Львівська Політехніка», м. Львів; Сердюк Павло Віталійович, кандидат технічних наук, доцент, Національний Університет «Львівська Політехніка», м. Львів
Формулювання задачі: дані є рушієм сучасного світу, вони використовуються у багатьох сферах: штучному інтелекті, маркетингу, підборі персоналу, бізнес-аналітиці та інших. Саме тому, буде доцільно користуватися інструментами, які спрощують роботу одержання необхідних структурованих даних, щоб пізніше використати час, який заощадили на пошуку та формуванні правильного набору даних, на дослідження, аналіз, покращення моделей навчання штучного інтелекту тощо. Крім того, дані – це знаряддя, яке в правильних руках може принести велику користь. Зібрані дані можна використовувати для збору цін та асортименту магазинів-конкурентів, аналізувати власний сайт на наявність пошкоджених гіперпосилань, відсутніх ресурсів, непрацюючих кнопок та іншого.
Об’єкт дослідження: інструменти для вебскрапінгу.
Предмет дослідження: зручність використання запропонованих інструментів для вебскрапінгу, їх UIUX дизайн, вигляд експортованих даних.
Мета роботи: дослідити особливості використання вебскраперів для збору даних, зручність налаштування, вигляд експортованих даних.
Методи дослідження: під час роботи над дослідженням використовувалось два методи:
• Емпіричний – оцінка зручності способів комунікації на основі інтерв’ю, базуючись на власному досвіді використання схожих ресурсів допомогли в повній мірі висвітлити наявні проблеми та знайти можливі рішення.
• Теоретичний – використання літературних джерел, матеріалів з мережі Інтернет, відкритих досліджень та статистики для аналізу та оцінки поточного стану речей в предметній області.
Практичне значення: матеріали проведеного дослідження можуть використовуватися при розробленні власного програмного інструменту для збору даних з вебресурсів.
Аналіз вебскраперів: розглянемо скрапери, які є розширеннями до браузера, тобто їх встановлення є дуже простим. Для використання нам потрібно мати лише веббраузер Google Chrome.
Розглянемо Scraper. Це розширення дозволяє отримати дані з вебсторінок та поміщати їх у таблиці. Користування цим ресурсом є обмежене. Він призначений як простий у використанні інструмент для користувачів середнього та вище рівня, які знайомі та вміють користуватися XPath – мовою запитів для вибору вузлів з документів.
Рис.1. Інтерфейс вебскрапера Scraper на сайті Rozetka.com.ua
Оскільки розробником цього розширення є сам Google, який має хорошу репутацію в галузі технологій, можемо бути впевнені, що ця послуга є якісною. Цей інструмент вважають одним з найнадійніших інструментів, який найкраще підходить тим людям, які знайомі з програмуванням та володіють базовими знаннями XPath та JQuery.
Рис.2. Вилучені дані у вигляді таблиці у форматі xlsx
Ще одним з аналогів є Data Scraper, який теж функціонує у формі розширення до браузера Google Chrome. Цей продукт надає дещо більше функціоналу. Це інструмент для вилучення даних, який дає змогу очищати будь-яку веб-сторінку HTML. Дає змогу витягувати таблиці та списки з будь-якої сторінки та завантажувати їх у Google Таблиці чи Microsoft Excel. За допомогою цього інструменту можливо також експортувати веб-сторінки у файли XLS, CSV, XLSX або TSV (.xls .csv .xlsx .tsv).
Рис. 3. Інтерфейс розширення “Data Scraper”
Висновки: після проведення аналізу наявних безкоштовних інструментів для вебскрапінгу демонструє, що їх використання беззаперечно полегшує роботу, адже впроваджує автоматизацію у процес збору даних. На сьогодні існує величезна кількість як безкоштовних, так і платних; як у вигляді розширення до браузера, так і у вигляді цілої програми; як вузькоспеціалізованих, так і гнучких скраперів для даних. Тому серед розмаїття представлених кожен зможе обрати собі зручний інструмент для збору цінних, заощаджуючи важливий час, який можна присвятити вилученню максимальної користі з одержаної інформації.
Література:
1. How Web Scraping is Transforming the World with its Applications [Електронний ресурс]. – Режим доступу: https://towardsdatascience.com/https-medium-com-hiren787-patel-web-scraping-applications-a6f370d316f4.
2. Top 10 Free Web Scraping Tools & Their Pros & Cons [Електронний ресурс]. – Режим доступу: https://scrapingpass.com/blog/top-free-web-scraping-tools/
3. Вікіпедія - XPath [Електронний ресурс]. – Режим доступу: https://uk.wikipedia.org/wiki/XPath.