Під час дослідження, для кожного алгоритму розв’язано задачу, вхідні дані взято з [3].
Умова: у табл. 2 наведено дані про оцінку кредитного ризику на підставі доходу, кредитної історії, поточного боргу та наявності поруки. Побудуйте дерево рішень використовуючи алгоритми ID3, C4.5 та CHAID.
Розв'язавши поставлену задачу, я також розробила програмну реалізацію алгоритмів на мові Python, яка підтвердила мої обчислення (рис. 1-2).
Бачимо, що дерева дещо відрізняються, бо для значення Середній(middle) атрибуту Дохід(Income) алгоритми ID3 та CHAID наступним домінуючим атрибутом обрали Кредитну Історію(Credit), натомість C4.5 обрав Борг(Debt).
На основі роботи зроблено наступні висновки:
- алгоритм Id3 простий в реалізації і він є в основі багатьох інших алгоритмів. Для цього алгоритму дуже важливу роль має навчальний набір даних, який він отримує. Якщо ці дані сильно зашумлені, містять помилки чи їх недостатньо для розв’язку задачі, то id3 не гарантує правильність висновків. В розрахунках використовується Інформаційний прибуток;
- алгоритм C4.5 дуже схожий на попередній алгоритм, адже створюючи C4.5 автор намагався покращити Id3. Даний алгоритм має ряд покращень, що дозволило розширити можливості розв’язку задач класифікації та прогнозування, а саме обробка неперервних даних, обробка навчальних даних з відсутніми значеннями атрибутів, обрізання дерев. В розрахунках використовується Нормалізований інформаційний прибуток;
- алгоритм CHAID – один з перших алгоритмів побудови дерев рішень, проте і досі часто використовується. Для великих наборів даних алгоритм CHAID витрачає значно більше часу ніж попередні алгоритми, проте дерева будує ефективніше. В розрахунках використовується Критерій Хі-квадрат.
Література
1. Quinlan, J. R. Machine Learning. Induction of decision trees. 1986. 81–106 с.
URL: https://link.springer.com/content/pdf/10.1023/A:1022643204877.pdf
2. Ю.В. Нікольский, В.В. Пасічник, Ю.М. Щербина. Системи штучного інтелекту. Львів, “Магнолія”. 2013. 217 с.
3. Люгер Д. Искусственный интеллект. 2003. 392-400 с.
4. Building Classification Models: ID3 and C4.5. College of Science and Technology Temple University.
URL: https://cis.temple.edu/~ingargio/cis587/readings/id3-c45.html
5. C4.5 Decision Tree Example
URL: https://sefiks.com/2018/05/13/a-step-by-step-c4-5-decision-tree-example/
6. CHAID Decision Tree Example
URL: https://sefiks.com/2020/03/18/a-step-by-step-chaid-decision-tree-example/
___________________
Науковий керівник: Заболоцький Тарас Миколайович, доктор економічних наук, доцент, Львівський національний університет ім. Івана Франка