ПРОБЛЕМИ НАВЧАННЯ ШТУЧНИХ НЕЙРОННИХ МЕРЕЖ: СИГМОЇДАЛЬНІ АКТИВАЦІЙНІ ФУНКЦІЇ - Научное сообщество

Вас приветствует Интернет конференция!

Приветствуйем на нашем сайте

Рік заснування видання - 2011

ПРОБЛЕМИ НАВЧАННЯ ШТУЧНИХ НЕЙРОННИХ МЕРЕЖ: СИГМОЇДАЛЬНІ АКТИВАЦІЙНІ ФУНКЦІЇ

06.10.2022 12:02

[1. Информационные системы и технологии]

Автор: Салій Андрій Валерійович, студент, кафедра програмного забезпечення, Національний Університет «Львівська Політехніка», м. Львів


Формулювання задачі. У наш час все більшого значення набуває можливість автоматизації рутинних задач із використанням нейронних мереж. Велику кількість даних вже не можна обробити вручну, а автоматизація аналізу кожного конкретного дата-сету вимагає багато часу. Тут на допомогу приходять штучні нейронні мережі.

Штучна нейронна мережа[1] це обчислювальна система, натхненна біологічними нейронними мережами, що складають мозок тварин. Такі системи навчаються, тобто поступово покращують свою продуктивність, тренуючись на навчальних прикладах, без спеціального програмування під задачу.

Постановка завдання. Основними цілями даної статті є опис та аналіз однієї з проблем навчання штучних мереж – сигмоїдальної активаційної функції. 

Актуальність аналізу проблем навчання штучних нейронних мереж. Оскільки сучасний світ переповнений даними – використання нейронних мереж для їх обробки та аналізу стає все більш поширеним, а похибка через не розуміння їх слабких сторін стає все дорожчою.

Застосування сигмоїдальних активаційних функцій може спричинити проблеми у навчанні глибинних мереж, а саме значення активацій у кінцевому шарі будуть близькі до нуля на ранніх етапах навчання, сповільнюючи цей процес

Вибір відповідних ваг і momentum schedule в імпульсному стохастичному градієнтному спуску (momentum-based stochastic gradient descent) суттєво впливають на здатність навчати глибокі мережі. Основою таких мереж є згорткові нейронні мережі[2]. Згортка є операцією, яка застосовується до двох послідовностей f і g і породжує третю послідовність.







Формула для двовимірної згортки:




Розглянемо одновимірний згортковий шар із входами xn та виходами Yn. Тоді функцію для виходів буде представлено наступним чином:

  

У згортковому шарі знаходиться безліч копій одного і того ж

нейрона, тому багато ваги з'являються у кількох позиціях.




Стандартна матриця ваг[3] з'єднує кожен вхід з кожним нейроном з різними вагами. Матриця для згорткового шару відрізняється тим, що різні ваги можуть з'являтися на кількох позиціях, а оскільки нейрони не з'єднані з усіма можливими входами, матриця містить безліч нульових елементів:




Тобто множення на матрицю вище - те саме, що і згортка з [. . 0, w1, w0, 0. . .]. Ядро згортки, що ковзає по різних частинах зображення,відповідає  наявності нейронів у цих частинах.

При виконанні операції згортки кожен фрагмент (наприклад, зображення) поелементно множиться на матрицю згортки, а результат підсумовується та записується в аналогічну позицію вихідного зображення. Із вище описаного слідує, що усі помилки спричиненні сигмоїдальної функцією накопичуються в геометричній прогресії.

Можливими рішеннями є:

• Багаторівнева ієрархія[4]: шар мережі попередньо навчається, використовуючи методи навчання без вчителя, а потім його значення регулюється з допомогою методу зворотного розповсюдження помилки. 

• Довга короткострокова пам'ять: різновид архітектури рекурентних нейронних мереж. Коли величини помилки поширюються на зворотному напрямку від вихідного шару, помилка не випускається з пам'яті LSTM-блоки. 

Висновки. Проаналізувавши предметну область проблем навчання штучних нейронних мереж, а саме сигмоїдальну функцію активації, можна зробити висновок, що дана функція активації є важливою складовою сучасних нейронних мереж, а її похибки мають вплив на ефективність навчання. 

Окрім того було наведено існуючі способи вирішення проблеми сигмоїдальної функції із використанням багаторівневої ієрархії або довгої короткострокової пам’яті. 

Список використаних джерел

1. Klette R. Computer vision / Reinhard Klette, Karsten Schluns, Andreas Koschan. – [S. l.] : Springer, 1998. – 405 p.

2. Bazylevych R. Hierarchial clasterization, decomposition and multilevel macromodeling?The effective and efficient tools to solve the sigh and very high size combinatorial circuit type problems (abstract only) [Electronic resource] / Roman Bazylevych // The symposium, Lviv, Ukraine, 21–25 February 2000 – New York, New York, USA, 2000.

3. Sharma V. Saliency guided faster-RCNN (SGFr-RCNN) model for object detection and recognition [Electronic resource] / Vipul Sharma, Roohie Naaz Mir // Journal of king saud university - computer and information sciences. – 2019.

4. Computer vision based research on PCB recognition using SSD neural network [Electronic resource] / Dashuang Li [et al.] // Journal of physics: conference series. – 2021. – Vol. 1815, no. 1. – P. 012005.

___________________

Науковий кеівник: Мельник Роман Андрійович, доктор технічних наук, професор кафедри програмного забезпечення, Інституту комп’ютерних наук та інформаційних технологій, Національного університету «Львівська політехніка»



Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License
допомога Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter
Конференции

Конференции 2024

Конференции 2023

Конференции 2022

Конференции 2021



Міжнародна інтернет-конференція з економіки, інформаційних систем і технологій, психології та педагогіки

Наукова спільнота - інтернет конференції

:: LEX-LINE :: Юридична лінія

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення