ВИКОРИСТАННЯ ТЕОРЕМИ БАЙЄСА ДЛЯ ЗАДАЧ ІНФОРМАЦІЙНОЇ БЕЗПЕКИ
10.05.2023 15:39
[1. Інформаційні системи і технології]
Автор: Мала Юлія Анатоліївна, кандидат технічних наук, Університет митної справи та фінансів, м. Дніпро;
Чуванько Марія Сергіївна, студентка, Університет митної справи та фінансів, м. Дніпро
Сучасний світ характеризується швидким та постійним розвитком інформаційних технологій в різних сферах людської діяльності. Разом с тим зростає кількість несанкціонованого вторгнення в системи з метою перенавантаження і дестабілізації їх роботи, що тягне за собою незручності або матеріальні збитки при використанні інформаційних систем.
Протягом останніх років у галузь комп'ютерної та мережної безпеки було включено велику кількість підобластей та засобів захисту від потенціальних загроз: аналіз шкідливих програм, захист веб-додатків, виявлення вторгнення, захист соціальних мереж та інше. Але навіть в теперішній час проблема виявлення спаму залишається однією з головних проблем для користувачів електронної пошти або користувачів системами обміну повідомленнями. Можна вважати, що спам є чи не основною проблемою у сфері забезпечення комп'ютерної безпеки. Тому, дослідження та удосконалення фільтрів електронної пошти є актуальною задачею сьогодення, щоб успішно протидіяти різноманітним способам, які безперервно винаходять автори спаму.
Існують різні методи боротьби зі спамом, але тільки при комплексному застосуванні різних методів отримаємо ефективний захист від спаму. До таких методів можна віднести: політичні, організаційні, соціальні і технологічні [1]. Технічні методи можна розділити на два типи: фільтрація за способом відправлення й оформленню (фільтрація надходження спаму на стороні сервера) і за його змістом (фільтрація надходження спаму на стороні клієнта). До методів фільтрації надходження спаму на стороні сервера відносяться: чорні списки, сірі списки, перевірка адреси відправника. До методів фільтрації надходження спаму на стороні клієнта відносяться: наївний байєівський класифікатор, контентна фільтрація, нейромережі [1, 2].
Наївний байєівський класифікатор - метод фільтрації спама, в основі якого лежить застосування однієї з основних теорем теорії ймовірностей, а саме теореми Байєса, що названа на честь англійського священника Томаса Байєса (1702 – 1761 р. р.)
Теорема дає можливість оновити ймовірність певної гіпотези за наявності деякого обсягу даних , тобто дозволяє визначити ймовірність деякої події за умови, що сталась інша, статистично взаємозалежна з нею подія.
Алгоритм роботи фільтрації спаму наступний:
1) Для кожного слова, що зустрічається в повідомленнях розраховується i зберігається його «вага», тобто імовірності того, що лист з цим словом є спамом
2) Обчислення ймовірності того, що лист є спамом, якщо множина включає всі слів нового листа, та ймовірності того, що лист не є спамом відповідно
3) Обчислення оцінки
де N1(Ai) - кількість спам листів в яких зустрічається слово Ai; N2(Ai) кількість звичайних листів в яких зустрілось слово Ai; Hs - гіпотеза про те що лист є спамом; Hk - звичайний лист; Pa(Hs) - імовірність гіпотези про те що лист є спамом після отримання нових даних (апріорна імовірність); P(Hs) - імовірність гіпотези до отримання нових даних (апостеріорна імовірність); PHs(A) - умовна ймовірність даних для цієї гіпотези (правдоподібність).
Оцінка O>1 означає, що лист ймовірніше всього є спамом, якщо O<1 - звичайний лист. Якщо потрібна оптимізація або за точністю, або за критерієм вилучення, можна вибрати інше граничне значення для межі класифікації [3]. Наївний байєсовський класифікатор після навчання підлаштовується під тематику листів користувача, тобто не потребує додаткових налаштувань.
Використання теореми Байєса в алгоритмі класифікації листів електронної пошти є ефективним методом, що дозволяє відтинати близько 95% спаму, також при менших відсотках алгоритм можна довчити. Метод також має певні недоліки, а саме: оскільки алгоритм базується на роботі з текстом, то спам листи з картинками не відтинаються і потрапляють до користувача. Також один із основних недоліків полягає в тому, що байєсовьський класифікатор припускає, що події, які відповідають наявності того чи іншого слова в електронному листі, є незалежними по відношенню один до одного. Байєсовський класифікатор є одним з найефективніших класифікаторів на практиці враховуючи наведені недоліки.
Література
1.Носков Є.А., Коломицев М.В. Сучасні методи борьби зі спамом. Матеріали XIV Всеукраїнської науково-практичної конференції студентів, аспiрантiв та молодих вчених «Теоретичні i прикладні проблеми фізики, математики та інформатики». Секція «Системи та технологiї кiбернетичної безпеки», м. Київ, 26-28 травня 2016. – Київ : НТУУ «КПІ». – 2016. – С. 140 – 142.
2.Кузьма К. Т., Зівенко В. О. Аналіз методів фільтрації електронної пошти від спаму. Геометричне моделювання та інформаційні технології. - 2017. - № 1. - С. 84-89.
3.Clarence Chio, David Freeman. Machine Learning and Security. O'Reilly Media. Inc. 2018.