ПІДХІД ДО ВИКОРИСТАННЯ RFM ТА КЛАСТЕРНОГО АНАЛІЗУ В ЗАДАЧІ ФОРМУВАННЯ НАВЧАЛЬНОЇ ВИБІРКИ ДЛЯ СЕГМЕНТАЦІЇ ОРГАНІЗАТОРІВ ТЕНДЕРІВ - Scientific conference

Congratulation from Internet Conference!

Hello

Рік заснування видання - 2011

ПІДХІД ДО ВИКОРИСТАННЯ RFM ТА КЛАСТЕРНОГО АНАЛІЗУ В ЗАДАЧІ ФОРМУВАННЯ НАВЧАЛЬНОЇ ВИБІРКИ ДЛЯ СЕГМЕНТАЦІЇ ОРГАНІЗАТОРІВ ТЕНДЕРІВ

25.01.2022 19:44

[1. Information systems and technologies]

Author: Старих О.Ю., студент, Західноукраїнський національний університет; Биковий П.Є., к.т.н., доцент, кафедра інформаційно-обчислювальних систем і управління, доцент кафедри, Західноукраїнський національний університет


На даний час найефективнішим інструментом конкурентної форми відбору пропозицій на поставку товарів або надання послуг на принципах загальності, справедливості та ефективності є тендери [1, 2]. Інформація про учасників тендерів розміщується у відкритому доступі на електронних майданчиках та на порталі Prozorro [3]. Для отримання ґрунтовної інформації про організатора тендеру (кількість аукціонів, скільки з них успішних та на яку суму) зазвичай потрібно проаналізувати великий обсяг інформації, що без додаткових технічних засобів може зайняти багато часу і не гарантуватиме ефективного результату. Тому автоматизація процесу вибору організаторів тендерів на основі машинного навчання є актуальною задачею. 

Для ефективної роботи такої автоматизованої системи потрібно правильно сформувати навчальну вибірку, що дасть змогу навчити систему розпізнавати організаторів тендерів, без додаткових обрахунків та автоматизувати процес самої участі у тендері [4].

Одним з етапів методу формування навчальної вибірки для сегментації організаторів тендерів на основі машинного навчання є кластерний аналіз [5]. Він полягає у розбитті заданої вибірки об'єктів (ситуацій) на підмножини, які називаються кластерами, так, щоб кожен кластер складався зі схожих об'єктів, а об'єкти різних кластерів істотно відрізнялися. 

Кластерний аналіз є глибшим аналізом для сегментації організаторів тендерів, тому для формування навчальної вибірки він є важливим етапом. Даний аналіз поділяється на наступні етапи: 1. Проведення дослідження. 2. Підготовка даних до кластерного аналізу. 3. Вибір методу кластерного аналізу. 4. Вибір міри відстані між об’єктами та її обчислення. 5. Вибір стратегії кластеризації. 6. Застосування обраної стратегії для утворення кластерів. 7. Перевірка результатів кластерного.

Для формування навчальної вибірки для сегментації організаторів тендерів на основі машинного навчання обрано мову Python. При цьому використано наступні бібліотеки: pandas, numpy, train_test_split, KMeans, PCA. У якості вхідних даних використано завершені угоди учасників тендерів в Україні з сайту ProZorro Продажі [3], а саме: вибірка із 92638 аукціонів, 29164 унікальних аукціонів та унікальних організаторів – 39747.

Далі проводився RFM-аналіз [6], він допоміг розділити організаторів на різні категорії або кластери, щоб визначити організаторів, які частіше проводять аукціони з найбільшими сумами. Для сфери тендерів для кожного організатора змінні RMF вони будуть мати наступні значення: Recency - дата, з якої буде проведено оцінювання, скільки днів тому була проведена остання угода; Frequency –кількість угод організатора за відповідний період. Monetary - сума всіх завершених угод з організатора а відповідний період.

Найпростіший спосіб просегментувати організаторів - це використати Quartiles, а саме присвоєння оцінок від 1 до 4, де чотири - найвище значення, а одиниця - найнижче значення. Провівши попередню сегментацію організаторів тендерів, можна оцінити кожну групу окремо та проаналізувати, як витрачаються кошти і які організатори найчастіше проводять тендери.

Для групування обрано K-means [7, 8] clustering, оскільки цей метод широко використовується для сегментації ринку, і він пропонує перевагу простоти у впровадженні. Перед кластеризацією також проводиться зменшення розмірності даних методом PCA з 2 вимірними векторами (компонентами).

На рисунку 1 представлена кластеризація K-means організаторів тендерів, де кількість кластерів рівна 5. Графік представлено відносно 2-компонентного PCA методу. До кожного кластеру віднесено наступна кількість значень: кластера під номером 0 – 494; кластера під номером 3 – 475; кластера під номером 2 – 352; кластера під номером 1 – 345; кластера під номером 4 – 155.





Рис. 1. Кластеризація K-means організаторів тендерів





При порівняні RFM оцінки та K-means групи з організаторами трендів (рис.2), які найбільше організовують тендери та на найбільшу суму грошей, збіглись та група з організаторами, які мало проводять тендерів, та не на значні суми. Інші групи організаторів тендерів, збіглись частково.










Рис. 2. Результат кластеризації RFM оцінки та K-means





Таким чином в роботі було представлено підхід до використання RFM та кластерного аналізу в задачі формування навчальної вибірки для сегментації організаторів тендерів. Це дало змогу розділити відповідну інформацію по кластерах. Порівняння результатів підтвердили доцільність використання запропонованого підходу. 





До напрямів подальших наукових досліджень слід віднести розробку автоматизованої системи для вибору організаторів тендерів на основі машинного навчання, що також дасть можливість автоматизувати процес участі у тендері.





Література:


1. Кузнєцов К.В. Настільна книга постачальника і закупника: торги, тендери, конкурси. - Москва: Паблішер, 2018. - 339 с.


2. Льюїс Г. Конкурси, тендери та пропозиції. Виграйте, використовуючи кращий досвід. - Москва: Баланс Бізнес-Букс, 2019. - 314 с.


3. ProZorro Продажі - https://bi.prozorro.sale/#/





4. H. Lipyanina-Goncharenko, V. Brych, S. Sachenko, T. Lendyuk, P. Bykovyy, D. Zahorodnia. Method of Forming a Training Sample for Segmentation of Tender Organizers on Machine Learning Basis. Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems (COLINS-2021), Ukraine. 2021, p. 1843-1852.





5. Celebi, M. E.; Kingravi, H. A.; Vela, P. A. "A comparative study of efficient initialization methods for the k-means clustering algorithm". Expert Systems with Applications. 40 (1): 200–210. 2013. doi:10.1016/j.eswa.2012.07.021. S2CID 6954668. 





6. Christy, A.J., Umamakeswari, A., Priyatharsini, L., Neyaa, A.. RFM Ranking – An Effective Approach to Customer Segmentation, Journal of King Saud University - Computer and Information Sciences, Elsevier. 2018, doi: https://doi.org/10.1016/j.jksuci.2018.09.004





7. Beghdad, R. K-means for modelling and detecting anomalous profiles. International Journal of Computing, 6(1), 2014, 59-66. https://doi.org/10.47839/ijc.6.1.425.


8. Fränti, P., Sieranoja, S. K-means properties on six clustering benchmark datasets. Appl Intell, Springer, 48, 2018,  4743–4759. https://doi.org/10.1007/s10489-018-1238-7.





Ця стаття ліцензується відповідно до Creative Commons Attribution-NonCommercial 4.0 International License.

Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License
допомога Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter
Сonferences

Conference 2022

Conference 2021



Міжнародна інтернет-конференція з економіки, інформаційних систем і технологій, психології та педагогіки

Наукова спільнота - інтернет конференції

:: LEX-LINE :: Юридична лінія

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення