ЛАТЕНТНО-СЕМАНТИЧНИЙ АНАЛІЗ ЯК ІНСТРУМЕНТ АВТОМАТИЗАЦІЇ РУБРИКАЦІЇ В ОСВІТНІХ СИСТЕМАХ
16.12.2024 10:16
[3. Technical sciences]
Author: Саітгареєв Наіль Хабібзадинович, кандидат технічних наук, доцент, Криворізький національний університет, м. Кривий Ріг
В роботі досліджується застосування методу латентно-семантичного аналізу (LSA) для автоматичної рубрикації текстових документів у системах електронного документообігу (СЕД) вищих навчальних закладів. Висвітлено основні етапи реалізації цього підходу, його переваги та недоліки. Порівняно ефективність LSA із традиційними методами машинного навчання та алгоритмами на основі знань.
Сучасні інформаційні системи у закладах вищої освіти оперують значними обсягами текстової інформації. Автоматична рубрикація документів є важливою складовою для оптимізації доступу до інформації. Основною проблемою залишається складність визначення тематики текстів, враховуючи синоніми, полісемію та приховані закономірності між термінами [1, 2]. Латентно-семантичний аналіз (LSA) пропонує ефективний підхід до вирішення цих задач завдяки можливості побудови семантичного простору, який відображає приховані зв'язки між документами [3, 4].
У дослідженні реалізовано багатоступеневий підхід до застосування LSA:
1. Збір і підготовка даних: документи формуються в корпус, що охоплює тематично різнорідні тексти (академічні положення, накази, звіти); видалення стоп-слів (частки, сполучники) для зменшення шуму; лематизація (або стемінг), що перетворює слова у їх базову форму (наприклад, "студентів" -> "студент").
2. Формування матриці термін-документ: матриця створюється з використанням вагів TF-IDF (Term Frequency-Inverse Document Frequency); цей підхід забезпечує більшу значущість для рідковживаних термінів, релевантних до теми.
3. Сингулярне розкладання (SVD): матриця термін-документ розкладається на три компоненти: семантичні зв'язки термінів, вплив окремих компонент і взаємозв'язки документів; відбір значущих сингулярних значень (компонент) дозволяє зменшити розмірність даних, зберігаючи найважливішу інформацію.
4. Аналіз семантичного простору: документи та терміни проєктуються у зменшений семантичний простір; визначається тематична близькість текстів на основі косинусної міри.
5. Класифікація та валідація: документи автоматично відносяться до найбільш релевантних рубрик; для оцінки точності використовуються метрики, такі як Precision, Recall та F1-score.
6. Реалізація та інструменти: програмування виконувалось мовою Python із бібліотеками: Scikit-learn (побудова TF-IDF матриці, виконання SVD), NumPy (лінійна алгебра), Pandas (обробка табличних даних).
Результати показали, що метод LSA значно покращує якість автоматичної рубрикації текстів:
- покращена класифікація: 87% документів було правильно віднесено до тематичних рубрик.
- обробка складних текстових структур: LSA ефективно враховує семантичні зв'язки між словами, вирішуючи проблеми синонімії та багатозначності термінів.
- масштабованість: алгоритм показав високі обчислювальні витрати на великих наборах даних, що потребує подальшої оптимізації для використання у масштабних СЕД.
Наприклад, тексти, що стосувалися "академічної політики" та "доступу до студентських даних", були згруповані в окремі тематичні категорії з високим рівнем точності, що спрощує пошук інформації.
Рис.1 Розподіл слів за темами
Латентно-семантичний аналіз є ефективним підходом для автоматизації рубрикації текстів у системах документообігу закладів вищої освіти. Його переваги включають виявлення прихованих закономірностей та зниження впливу неоднозначностей текстів. Майбутні дослідження будуть спрямовані на вдосконалення алгоритмів для підвищення швидкодії та інтеграцію з методами машинного навчання для покращення масштабованості та точності.
Література
1. Thomas Landauer, Peter W. Foltz, & Darrell Laham (1998). «Introduction to Latent Semantic Analysis» (PDF). Discourse Processes 25: 259–284.DOI:10.1080/01638539809545028.
2. Thomas Landauer, Dumais S.T. A solution to Plato’s problem: The Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledge // Psychological Review. 1997. 104. – P.211-240.
3. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman (1990). «Indexing by Latent Semantic Analysis» (PDF). Journal of the American Society for Information Science 41 (6): 391–407. DOI:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.
4. Debole F., Sebastiani F. An Analysis of the Relative Hardness of Reuters – 21578 Subsets // Pro. ofLREC-04,4th Int. Conf. on Language Resoursand Evaluation. Lisbon, PT, 2004.P.971974. URL:http://iteseer.ist.psu.edu/691424.html