ПОБУДОВА ЕВОЛЮЦІЙНОЇ СТРАТЕГІЇ НА ОСНОВІ СУМІШЕЙ
23.09.2022 14:09
[1. Информационные системы и технологии]
Автор: Малик Ігор Володимирович, доктор фізико-математичних наук, доцент, Чернівецький національний університет ім. Ю. Федьковича; Літвінчук Юлія Анатоліївна, аспірант, Чернівецький національний університет ім. Ю. Федьковича, Чернівці
Оцінка гіперпараметрів нейронних мереж є однією із найбільш важливих задач для побудови структури мережі. З точки зору Байєсівського підходу [1] побудови параметрів на основі генетичних алгоритмів [2], важливим є еволюційна стратегія [3] оцінки параметрів. Поняття еволюційної стратегії безпосередньо пов’язане з зміною розподілу гіперпараметрів між епохами еволюційного алгоритму. Одним із найбільш вдалих методів еволюційних стратегій є метод адаптації коваріаційної матриці (Covariance matrix adaptation, CMA) [4]. Даний метод, як і у випадку Байєсівського алгоритму, полягає у перерахунку коваріаційної матриці параметрів між епохами еволюційного алгоритму з подальшим вибором параметрів з врахуванням даної матриці. Очевидним недоліком того методу є те, що припускається однопіковість щільності розподілу гіперпараметрів (як у нормальному розподілі). Проте на практиці, цільова функція (точності чи функції втрат) не є однопіковою, що спричиняє до збільшення області пошуку за рахунок зміни однієї коваріаційної матриці та включення в область пошуку генетичного алгоритму область зі значеннями, що значно відрізняються від локальних екстремумів.
У зв’язку з цим пропонується використати деяке розширення CMA алгоритму, використовуючи багатопікові моделі. Для цього нами буде використано поняття суміші (суміші розподілів). Свою увагу ми сконцентруємо на суміші нормальних розподілів, оскільки вибір цих розподілів є найбільш ілюстративний і легко може бути реалізований на практиці.
Означення 1. Cуміш нормальних розподілів можна записати, як лінійну суперпозицію щільностей нормального розподілу у вигляді:
де ƒ(x|μi,Σi) – щільність багатовимірного нормального розподілу з Rd та параметрами (μi,Σi), де wi >=0 та Σni=1 wi =1.
Оцінку параметрів суміші на основі вибірки X={x1, … ,xn}, xn ϵ Rd проводиться на основі задачі максимізації правдоподібності моделі за допомогою ітераційного EM-алгоритму [5, 6, 7]
E-крок. Обчислення допоміжних величин:
де rij - ймовірність того, що об'єкт xi був отриманий з j-ї компоненти суміші при поточному наближенні параметрів wi, μi, Σi.
M-крок. Переоцінка нового наближення параметрів розподілу:
Критерій зупинки. Ітерації методу здійснюються до збіжності варіаційної нижньої оцінки на логарифмічну функцію правдоподібності моделі, яка в даному випадку обчислюється за формулою:
Під збіжністю можна розуміти, наприклад, змінення L не більше ніж на заздалегідь задане невелике число ε>0.
Позначимо через F(0; X1:k,y1:k)– розподіл гіперпараметрів нейронної мережі на основі значень цільової функції, отриманої на основі k епох, де Xk – значення гіперпараметрів на k-му кроці, yk – значення цільової функції на k -му кроці. Тоді еволюційну стратегія на основі розширеного CMA можна описати наступним алгоритмом:
Крок 1. Визначення області зміни гіперпараметрів (A0 ), розмірності суміші (n), кількості генів в генетичному алгоритмі (N), точності методу (ε);
Крок 2. Задання випадковим чином (w(0), μ(0), Σ(0));
Крок 3. Вибір N генів Xk згідно розподілу ƒ(0)= F(0; X1:k,y1:k) (1) та обчислень значень цільової функції yk ;
Крок 4. Перерахунок параметрів (w(k+1), μ(k+1), Σ(k+1)) на основі формул (2);
Крок 5. Якщо задовольняється умова виходу (w(k+1), μ(k+1), Σ(k+1))
то перейти до виконання генетичного алгоритму на основі розподілу гіперпараметрів з розподілом ƒ(0)= F(0; X1:k,y1:k) з параметрами w(k+1), μ(k+1), Σ(k+1). Якщо,
то перейти до кроку 3.
Слід зауважити, що на кроці 3 виконується одна епоха генетичного алгоритму, тому поряд із оптимізацією параметрів шукається і оптимальне значення гіперпараметів. Чисельно було перевірено, що на основі розробленого методу для оцінки гіперпараметрів в RNN мережах потрібно на 5%-20% обчислень ніж при класичному CMA підході.
Література
1. Katharina Eggensperger, Matthias Feurer, Frank Hutter, James Bergstra, Jasper Snoek, Holger Hoos, and Kevin Leyton-Brown. Towards an empirical foundation for assessing Bayesian optimization of hyperparameters. In NIPS workshop on Bayesian Optimization in Theory and Practice. - 2013.- 5p.
2. Devi Venkatesan, K. Kannan, Saravanan R. A genetic algorithm-based artificial neural network model for the optimization of machining processes. Neural Computing and Applications. -· February 2009.- 7p.
3. Hans-Georg Beyer. The Theory of Evolution Strategies. - Springer; 2001st edition (March 27, 2001).- 401p.
4. Ilya Loshchilov , Frank Hutter. CMA-ES for Hyperparameter Optimization of Deep Neural Networks. arXiv:1604.07269v1 [cs.NE] 25 Apr 2016. – 9p.
5. Benyamin Ghojogh, Aydin Ghojogh, Mark Crowley, Fakhri Karray. Fitting A Mixture Distribution to Data: Tutorial. arXiv:1901.06708v2 [stat.OT] 11 Oct 2020. – 12p.
6. Christopher M. Bishop. Pattern Recognition and Machine Learning. Springer Science +Business Media, LLC. 2006. – 758p.
7. Lee, Gyemin and Scott, Clayton. Em algorithms for multivariate gaussian mixture models with truncated and censored data. Computational Statistics & Data Analysis, 56(9):2816–2829, 2012. – 13p.