РОЗРОБКА ПІДХОДУ ГЕНЕРУВАННЯ ЗОБРАЖЕННЯ НА ОСНОВІ SAGAN - Наукові конференції

Вас вітає Інтернет конференція!

Вітаємо на нашому сайті

Рік заснування видання - 2011

РОЗРОБКА ПІДХОДУ ГЕНЕРУВАННЯ ЗОБРАЖЕННЯ НА ОСНОВІ SAGAN

01.12.2022 14:08

[1. Інформаційні системи і технології]

Автор: Панчак Дмитро Вікторович, студент, Західноукраїнський національний університет, м. Тернопіль


Однією з найпоширеніших проблем навчання є «mode collapse». Результатом такої проблеми є те, що генератор завжди синтезує однакові, або майже ідентичні зображення. Це відбувається, зокрема, коли дискримінатор запізнюється з навчанням. В цьому випадку генератор знаходить якесь оптимальне зображення, яке завжди обманює дискримінатора. В результаті, незалежно від вхідного вектора шуму z, генератор буде синтезувати одне і те ж зображення. У зв'язку з цим всі останні дослідження сходяться на думці, що дискримінатора потрібно навчати швидше, ніж генератора. Це інтуїтивно зрозуміло, оскільки мережу розпізнавання спочатку потрібно навчити деяким шаблонам, перш ніж попросити розпізнати згенеровані зображення. Це міркування призвело до введення правила TTUR (two time-scale update). У статті Martin Heusel наводяться докази впливу такого підходу на зближення до точки рівноваги по Не-шу мінімакс гри дискримінатора і генератора

В основі мережі лежать  три основні модулі – модуль «self-attention», модуль-генератор і модуль-дискримінатор. «self-attention» включається в якості додаткового шару, як в генераторі, так  і в дискримінаторі. Самі модулі дискримінатора і генератора побудовані на основі глибоких згорткових мереж з тією різницею, що генератор використовує зворотні згорткові шари. Аналогічним чином для підвищення стійкості тренування, після кожного згортувального шару використовувався шар пакетної нормалізації.

Архітектура мережі зображена нижче на рисунку 1





Рис. 1 Схема мережі в реалізації SAGAN

Як видно з малюнка, мережі практично симетричні.

Додаткові механізми оптимізації:

1. Згладжування міток при розрахунку значення помилки навчання (наприклад, замість 1 буде використовуватися випадкове число з сегмента [0.8,1]), що мінімізує обнулення градієнта для генератора, тобто стабілізує процес навчання. У багатьох роботах радять використовувати згладжування з одного боку.

2. Замість «pooling» шарів використовувалися конвуляційні з зрушенням (Alec Radford, 2016)

3. Була використана нормалізація партіями для генератора (такий підхід характерний для мережі SAGAN.), а також функція активації Relu для генератора і LeakyRelu для дискримінатора.

4. Використання оптимізатора Adam.

Література

1. A. P. Parikh, O. Täckström, D. Das, and J. Uszkoreit, “A decomposable attention model for natural language inference,” in EMNLP, 2016. 51, 52

2. J. Cheng, L. Dong, and M. Lapata, “Long short-term memory-networks for machine reading,” in EMNLP, 2016.

Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License
допомога Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter
Конференції

Конференції 2025

Конференції 2024

Конференції 2023

Конференції 2022

Конференції 2021



Міжнародна інтернет-конференція з економіки, інформаційних систем і технологій, психології та педагогіки

Наукова спільнота - інтернет конференції

:: LEX-LINE :: Юридична лінія

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення