ПОКРАЩЕННЯ РОБОЧИХ ХАРАКТЕРИСТИК НЕЙРОМЕРЕЖНИХ МОДЕЛЕЙ МЕТОДАМИ СТРУКТУРНОЇ ОПТИМІЗАЦІЇ
14.09.2022 19:17
[1. Информационные системы и технологии]
Автор: Криворучко Олена Володимирівна, доктор технічних наук, професор, Державний торговельно-економічний університет, м. Київ; Костюк Юлія Володимирівна, здобувач PhD спец. 122 «Комп’ютерні науки», Державний торговельно-економічний університет, м. Київ; Степашкіна Катерина Володимирівна, здобувач PhD спец. 122 «Комп’ютерні науки», Державний торговельно-економічний університет, м. Київ
На етапі оптимізації параметрів реалізується вибір «найкращої» моделі в межах фіксованої модельної структури. Основним завданням на етапі прийняття рішення про адекватність або підтвердження моделі є отримання відповіді на питання, «наскільки краща» оптимізована модель. Незважаючи на неформальний характер поставленого питання, можна виділити низку аспектів, дослідження яких дозволяє зробити висновки про можливість практичного застосування моделі, тобто підтвердити модель: узгодженість моделі з експериментальними даними; можливість використання моделі для вирішення поставлених задач; адекватність моделі реальній системі.
У випадку підтвердження моделі необхідно зіставити з отриманою моделлю всю наявну інформацію про реальну систему [1,2,3], тобто апріорну інформацію, експериментальні дані та досвід використання моделі. Об'єктом для зіставлення з моделлю є експериментальні дані. Найбільш простий і природний спосіб підтвердження працездатності моделі − перевірка її на багатьох даних, не використаних при оптимізації параметрів модельної структури. Цей підхід, відомий як перехресна оцінка та вимагає спеціального набору даних − «тестової множини», яка задовольняє тим самим вимогам, що і навчальна множина (наприклад, покриття всього робочого діапазону системи). Практична реалізація підходу зводиться до оцінки моделювання роботи мережі в режимі нормального функціонування. Єдиною проблемою може виявитися неможливість виділення тестової множини через брак експериментальних даних.
Можна стверджувати, що модель цілком адекватна та інформація, яка міститься в навчальній множині, була повністю витягнута в тому випадку, коли помилка прогнозування некорельована з попередніми даними. На стадії вибору модельної структури повинні бути вирішені дві основні задачі: формування регресійного вектора (тобто «зовнішньої» структури нейронної мережі моделі) та вибір внутрішньої структури нейронної мережі (тобто визначення числа нейронів у прихованому шарі (шарах). Створення НМ (нейронної мережі) моделі вимагає задання деякого критерію адекватності. Очевидно, що оцінка середньої помилки узагальнення є найбільш природним способом оцінки адекватності нейромережних моделей. Основною проблемою вибору структури є надзвичайна трудомісткість оцінки всіх можливих варіантів НМ моделей, навіть у разі жорстко заданого регресійного вектора [1,2].
Єдиним прийнятним рішенням є компроміс між адекватними обчислювальними витратами та отриманням моделі, наближеної до оптимальної.
Задача побудови оптимальної нейромережної моделі може бути вирішена у два етапи: спочатку проводиться вибір структури регресора, що визначається типом модельної структури (NNARX, NNARXMAX), а також глибиною регресії на вході і на виході; потім здійснюється оптимізація внутрішньої архітектури НМ для заданого регресійного вектора. У разі, якщо кількість експериментальних даних (навчальна множина) досить велика, проблема структурної оптимізація стає менш істотною [3], і в якості модельної структури може бути обрана повнозв'язна НМ. Для повнозв'язної мережі задача оптимізації зводиться до визначення числа прихованих шарів і кількості нейронів у прихованому шарі. Найбільш простий спосіб розв'язання задачі − послідовне збільшення числа нейронів у прихованих шарах з паралельною перевіркою адекватності моделі на тестовій множині [2] .
У разі обмеженого розміру експериментальної вибірки (навчальної множини) особливо гостро постає питання вибору оптимальної (що містить найбільш суттєві зв'язки) структури нейромережної моделі. Оптимізації архітектури НМ реалізується шляхом послідовного видалення «зайвих» (несуттєвих) зв'язків із повнозв'язної нейромережної моделі. Такий метод оптимізації виглядає природніше, ніж ітеративне збільшення числа нейронів в НМ моделі, але статистичний аналіз, на якому заснований метод, вимагає дотримання умови належності реальної системи множині досліджуваних модельних структур. Очевидно, що послідовне видалення зв'язків на основі результатів тестування навченої нейромережної моделі не є настільки інтелектуальним, ніж інкрементування числа нейронів. Крім того, опрацювання всіх можливих структурних комбінацій потребує значних обчислювальних витрат. Отже, в такому випадку необхідно побудувати метод ранжування зв'язків (вагових коефіцієнтів) нейромережної моделі з метою визначення найбільш важливих «кандидатів» на видалення. Практичний досвід показує, що перенавчання мережі через «розумні» інтервали позитивно позначається на кінцевій моделі. Безперечно, найбільш надійною стратегією є реалізація навчання на кожному кроці, але можуть бути використані більш тривалі інтервали [3].
Альтернативною стратегією може бути оцінка градієнта функції помилки мережі. Якщо градієнт залишається досить близьким до нуля, навчання не обов'язкове, то в такому випадку має виконуватися процедура перенавчання мережі.
Однак у реальних ситуаціях застосовується більш прагматичний підхід до завершення (переривання) процедури оптимізації. Навчання НМ може викликати флуктуацію оцінки фінальної помилки прогнозування. Отже, може виникнути ситуація, коли надмірна кількість зв'язків буде видалена. Ця проблема призводить до необхідності зберігання всіх попередніх структур з метою забезпечення можливості повернення до оптимальної структури.
Істотним моментом є модифікація визначення контрастності у разі підвішування одного з нейронів прихованого шару. Це відповідає ситуації, коли в результаті контрастування нейрон прихованого шару виявляється з'єднаним лише з нейронами попереднього чи наступного шару. І тут необхідно розглянути можливість видалення такого нейрона. Тому визначення модельної структури є досить складною задачею з наявністю великої свободи вибору. Знаходження абсолютно оптимальної структури практично неможливо, тому необхідно визначити структуру досить близьку до оптимальної. На етапі оцінки (оптимізації параметрів) моделі необхідно здійснити вибір критерія, з урахуванням якого реалізується оптимізаційна процедура. Крім того, має бути обраний один із методів оптимізації (навчання) нейромережної моделі − традиційний критерій найменших квадратів та його модифікація, що використовує концепцію регуляризації шляхом запровадження згасання вагових коефіцієнтів.
Ухвалення рішення про адекватність моделі (підтвердження моделі) більшою мірою залежить від особливостей поставленого завдання та прогнозування практичного застосування моделі. Загалом бажано, щоб працездатність моделі була підтверджена на тестовій множині.
Література
1. Дранишников Л.В. Інтелектуальні методи в управлінні: навчальний посібник / Л. В. Дранишников. — Кам'янське: ДДТУ, 2018. — 416 с.
2. Руденко О. Г., Бодянський Є. В. Штучні нейронні мережі: Навчальний посібник. — Харків: ТОВ "Компанія СМІТ", 2006. — 404 с
3. Криворучко О. В., Костюк Ю. В., Самойленко Ю. О. Ефективність використання нейромережних моделей прогнозування якості харчової продукції // Матеріали VІIІ Міжнародної науково-технічної Internet-конференції «Сучасні методи, інформаційне, програмне та технічне забезпечення систем керування організаційно-технічними та технологічними комплексами», 26 листопада 2021. [Електронний ресурс] – К: НУХТ, 2021 – с. 99-100.