ЛАТЕНТНО-СЕМАНТИЧНИЙ АНАЛІЗ ЯК ІНСТРУМЕНТ АВТОМАТИЗАЦІЇ РУБРИКАЦІЇ В ОСВІТНІХ СИСТЕМАХ

16.12.2024 10:16

[3. Technical sciences]

Author: Саітгареєв Наіль Хабібзадинович, кандидат технічних наук, доцент, Криворізький національний університет, м. Кривий Ріг

В роботі досліджується застосування методу латентно-семантичного аналізу (LSA) для автоматичної рубрикації текстових документів у системах електронного документообігу (СЕД) вищих навчальних закладів. Висвітлено основні етапи реалізації цього підходу, його переваги та недоліки. Порівняно ефективність LSA із традиційними методами машинного навчання та алгоритмами на основі знань.

Сучасні інформаційні системи у закладах вищої освіти оперують значними обсягами текстової інформації. Автоматична рубрикація документів є важливою складовою для оптимізації доступу до інформації. Основною проблемою залишається складність визначення тематики текстів, враховуючи синоніми, полісемію та приховані закономірності між термінами [1, 2]. Латентно-семантичний аналіз (LSA) пропонує ефективний підхід до вирішення цих задач завдяки можливості побудови семантичного простору, який відображає приховані зв'язки між документами [3, 4].

У дослідженні реалізовано багатоступеневий підхід до застосування LSA:

1. Збір і підготовка даних: документи формуються в корпус, що охоплює тематично різнорідні тексти (академічні положення, накази, звіти); видалення стоп-слів (частки, сполучники) для зменшення шуму; лематизація (або стемінг), що перетворює слова у їх базову форму (наприклад, "студентів" -> "студент").

2. Формування матриці термін-документ: матриця створюється з використанням вагів TF-IDF (Term Frequency-Inverse Document Frequency); цей підхід забезпечує більшу значущість для рідковживаних термінів, релевантних до теми.

3. Сингулярне розкладання (SVD): матриця термін-документ розкладається на три компоненти: семантичні зв'язки термінів, вплив окремих компонент і взаємозв'язки документів; відбір значущих сингулярних значень (компонент) дозволяє зменшити розмірність даних, зберігаючи найважливішу інформацію.

4. Аналіз семантичного простору: документи та терміни проєктуються у зменшений семантичний простір; визначається тематична близькість текстів на основі косинусної міри.

5. Класифікація та валідація: документи автоматично відносяться до найбільш релевантних рубрик; для оцінки точності використовуються метрики, такі як Precision, Recall та F1-score.

6. Реалізація та інструменти: програмування виконувалось мовою Python із бібліотеками: Scikit-learn (побудова TF-IDF матриці, виконання SVD), NumPy (лінійна алгебра), Pandas (обробка табличних даних).

Результати показали, що метод LSA значно покращує якість автоматичної рубрикації текстів:

- покращена класифікація: 87% документів було правильно віднесено до тематичних рубрик.

- обробка складних текстових структур: LSA ефективно враховує семантичні зв'язки між словами, вирішуючи проблеми синонімії та багатозначності термінів.

- масштабованість: алгоритм показав високі обчислювальні витрати на великих наборах даних, що потребує подальшої оптимізації для використання у масштабних СЕД.

Наприклад, тексти, що стосувалися "академічної політики" та "доступу до студентських даних", були згруповані в окремі тематичні категорії з високим рівнем точності, що спрощує пошук інформації.

Рис.1 Розподіл слів за темами

Латентно-семантичний аналіз є ефективним підходом для автоматизації рубрикації текстів у системах документообігу закладів вищої освіти. Його переваги включають виявлення прихованих закономірностей та зниження впливу неоднозначностей текстів. Майбутні дослідження будуть спрямовані на вдосконалення алгоритмів для підвищення швидкодії та інтеграцію з методами машинного навчання для покращення масштабованості та точності.

Література

1. Thomas Landauer, Peter W. Foltz, & Darrell Laham (1998). «Introduction to Latent Semantic Analysis» (PDF). Discourse Processes 25: 259–284.DOI:10.1080/01638539809545028.

2. Thomas Landauer, Dumais S.T. A solution to Plato’s problem: The Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledge // Psychological Review. 1997. 104. – P.211-240.

3. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman (1990). «Indexing by Latent Semantic Analysis» (PDF). Journal of the American Society for Information Science 41 (6): 391–407. DOI:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.

4. Debole F., Sebastiani F. An Analysis of the Relative Hardness of Reuters – 21578 Subsets // Pro. ofLREC-04,4th Int. Conf. on Language Resoursand Evaluation. Lisbon, PT, 2004.P.971974. URL:http://iteseer.ist.psu.edu/691424.html

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Another articles in this section

Сonferences

Conference 2026

Information society: technological, economic and technical aspects of formation (issue 106) (15-16.01.2026)

Conference 2025

Information society: technological, economic and technical aspects of formation (issue 95) (16-17.01.2025)

Information society: technological, economic and technical aspects of formation (issue 96) (11-12.02.2025)

Information society: technological, economic and technical aspects of formation (issue 97) (13-14.03.2025)

Information society: technological, economic and technical aspects of formation (issue 98) (15-16.04.2025)

Information society: technological, economic and technical aspects of formation (issue 99) (14-15.05.2025)

Information society: technological, economic and technical aspects of formation (issue 100) (11-12.06.2025)

Information society: technological, economic and technical aspects of formation (issue 101) (09-10.07.2025)

Information society: technological, economic and technical aspects of formation (issue 102) (16-17.09.2025)

Information society: technological, economic and technical aspects of formation (issue 103) (14-15.10.2025)

Information society: technological, economic and technical aspects of formation (issue 104) (13-14.11.2025)

Information society: technological, economic and technical aspects of formation (issue 105) (11-12.12.2025)

Conference 2024

Information society: technological, economic and technical aspects of formation (issue 84) (18-19.01.2024)

Information society: technological, economic and technical aspects of formation (issue 85) (15-16.02.2024)

Information society: technological, economic and technical aspects of formation (issue 86) (12-13.03.2024)

Information society: technological, economic and technical aspects of formation (issue 87) (11-12.04.2024)

Information society: technological, economic and technical aspects of formation (issue 88) (14-15.05.2024)

Information society: technological, economic and technical aspects of formation (issue 89) (12-13.06.2024)

Information society: technological, economic and technical aspects of formation (issue 90) (9-10.07.2024)

Information society: technological, economic and technical aspects of formation (issue 91) (10-11.09.2024)

Information society: technological, economic and technical aspects of formation (issue 92) (8-9.10.2024)

Information society: technological, economic and technical aspects of formation (issue 93) (12-13.11.2024)

Information society: technological, economic and technical aspects of formation (issue 94) (11-12.12.2024)

Conference 2023

Information society: technological, economic and technical aspects of formation (issue 74) (06-07.02.2023)

Information society: technological, economic and technical aspects of formation (issue 75) (06-07.03.2023)

Information society: technological, economic and technical aspects of formation (issue 76) (03-04.04.2023)

Information society: technological, economic and technical aspects of formation (issue 77) (09-10.05.2023)

Information society: technological, economic and technical aspects of formation (issue 78) (08-09.06.2023)

Information society: technological, economic and technical aspects of formation (issue 79) (06-07.07.2023)

Information society: technological, economic and technical aspects of formation (issue 80) (19-20.09.2023)

Information society: technological, economic and technical aspects of formation (issue 81) (11-12.10.2023)

Information society: technological, economic and technical aspects of formation (issue 82) (9-1.11.2023)

Information society: technological, economic and technical aspects of formation (issue 83) (7-8.12.2023)

Conference 2022

Information society: technological, economic and technical aspects of formation (issue 65) (8-9.02.2022)

Information society: technological, economic and technical aspects of formation (issue 66) (6-7.04.2022)

Information society: technological, economic and technical aspects of formation (issue 67) (11-12.05.2022)

Information society: technological, economic and technical aspects of formation (issue 68) (7-8.06.2022)

Information society: technological, economic and technical aspects of formation (issue 69) (4-5.07.2022)

Information society: technological, economic and technical aspects of formation (issue 70) (22-23.09.2022)

Information society: technological, economic and technical aspects of formation (issue 71) (18-19.10.2022)

Information society: technological, economic and technical aspects of formation (issue 72) (15-16.11.2022)

Information society: technological, economic and technical aspects of formation (issue 73) (08-09.12.2022)

Conference 2021

Information society: technological, economic and technical aspects of formation (Issue 55) (09.02.2021)

Information society: technological, economic and technical aspects of formation (Issue 56) (10.03.2021)

Information society: technological, economic and technical aspects of formation (issue 57) (13.04.2021)

Information society: technological, economic and technical aspects of formation (issue 58) (12.05.2021)

Information society: technological, economic and technical aspects of formation (issue 59) (08.06.2021)

Information society: technological, economic and technical aspects of formation (issue 60) (13.07.2021)

Information society: technological, economic and technical aspects of formation (issue 61) (15.09.2021)

Information society: technological, economic and technical aspects of formation (issue 62) (12.10.2021)

Information society: technological, economic and technical aspects of formation (issue 63) (11.11.2021)

Information society: technological, economic and technical aspects of formation (issue 64) (10.12.2021)

Congratulation from Internet Conference!

Рік заснування видання - 2011

ЛАТЕНТНО-СЕМАНТИЧНИЙ АНАЛІЗ ЯК ІНСТРУМЕНТ АВТОМАТИЗАЦІЇ РУБРИКАЦІЇ В ОСВІТНІХ СИСТЕМАХ

Another articles in this section