СУЧАСНІ МЕТОДИ ОБРОБКИ ТЕКСТОВОЇ ІНФОРМАЦІЇ В УМОВАХ СКЛАДНИХ ТЕКСТОВИХ КОНСТРУКЦІЙ
19.10.2022 19:13
[1. Information systems and technologies]
Author: Калабуха Дмитро Владиславович, студент, Одеський національний морський університет, м. Одеса, Україна
Загальний напрямок, що вивчає проблеми комп'ютерного аналізу та синтезу природних мов, отримало назву Natural Language Processing (NLP), що найчастіше перекладається як обробка природної мови або комп'ютерна лінгвістика [1,2].
Розвиток NLP та комп'ютерної лінгвістики проходило при вирішенні кількох основних завдань, таких як створення автоматизованих інформаційно-пошукових систем і систем машинного перекладу. Більшість систем аналізу і обробки текстів у тій чи іншій мірі пов'язані з обчисленням його ймовірнісно-статистичних характеристик.
Можливість застосування кількісних методів заснована на ймовірнісному характері мови. Це підтверджується наступними фактами:
- дискретність одиниць;
- масовість мовних одиниць;
- повторюваність їх у висловлюванні;
- можливість вибору певного елемента з ряду однорідних.
Основним завданням статистичної лінгвістики є застосування точних методів і використання математичного апарату для розкриття закономірностей функціонування одиниць мови в мовленні, а також встановлення закономірностей побудови тексту. Причому важливо саме системне розглядання механізмів породження тексту та його системних складових, в тому числі і лексики.
Таким чином, можна виділити два методологічних підходи до розгляду текстових даних і автоматичного аналізу текстів: інформаційно-аналітичний і лінгвістичний, в ці підходи названі декларативною і процедурної компонентами. Також слід зазначити використання на практиці «підходів, заснованих на правилах» (rule based approach) і «підходів, заснованих на прикладах (прецедентах)» (example based approach). При цьому ці підходи доповнюють один одного, оскільки методи, що відносяться до першого підходу, є найчастіше більш швидкими, ніж методи аналогії.
Особливості побудови систем розуміння текстів виділяють кілька типів структур, кожна з яких відображає аналіз текстів на деякому рівні.
- Лінгвістичні структури пропозицій.
- Семантична мережа цілого тексту.
- Інформаційні структури цілого тексту (потоків текстів).
Структури баз даних і знань. Структури такого типу фіксують вибіркове спеціальне «розуміння», в максимальній мірі враховує лінгвістичне уявлення, відображення дійсності. До таких структур можуть бути віднесені сценарії, ситуації, кадри, тощо. Такі структури одержали широке поширення в системах штучного інтелекту, вони відображають уявлення цілого тексту і байдужі до розділу на пропозиції.
Література
1. Lomakina L.S., Rodionov V.B., Surkova A.S. Hierarchical Clustering of Text Documents // Automation and Remote Control. – 2014. – Vol. 75. – N. 7. – P. 1309-1315.
2. Berry M.W., Kogan J. Text Mining. Applications and Theory. – Wiley. – 2010. – 207 p.