МЕТОДОЛОГІЧНІ ЗАСАДИ ВИКОРИСТАННЯ ПРИРОДНОЇ МОВИ У ПРОЦЕСІ ПРОВЕДЕННЯ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТУ
10.12.2022 23:20
[1. Інформаційні системи і технології]
Автор: Кононенко Ілля Віталійович, магістрант, Державний університет телекомунікацій, м. Київ
Анотація. Поширені сьогодні моделі та системи вилучення інформації та аналізу тексту використовують методи інтелектуального аналізу зі структурованих баз даних. Однак, методи інтелектуального аналізу тексту мають потенціал та всі необхідні особливості для того, щоб використовуватись як інструменти вилучення даних з неструктурованих (або неявно структурованих) текстових даних. Подібне стає можливим внаслідок використання методів обробки природної мови (NLP), які модернізують процедуру обробки інформації. У цій статті ми представляємо два приклади завдань, де інтелектуальний аналіз тексту разом з NLP розв’язує проблему вилучення асоціацій.
Постановка проблеми. Постійно висхідна важливість проблеми аналізу великих обсягів даних, зібраних компаніями та організаціями, призвела до важливих подій у сферах автоматизованого виявлення знань у базах даних (KDD) та аналізу даних (DM). Стандартні методи KDD і DM стосуються обробки структурованих баз даних. Як правило, аналізується лише невелика частина (5-10%) зібраних даних. Крім того, оскільки обсяг доступних даних зростає, прийняття рішень безпосередньо з вмісту баз даних стає майже неможливим, використовуючи KDD або DM [4].
Тому, поширення почала набувати техніка інтелектуального аналізу тексту присвячена автоматизованому вилученню інформації з неструктурованих текстових даних. В цьому контексті важливо розробити методологічні основи застосування методів обробки природної мови (NLP), які модернізують процедуру обробки інформації.
Мета дослідження. Витяг інформації з баз даних – це нетривіальний процес виявлення дійсних, нових, потенційно корисних і зрозумілих шаблонів у даних. І оскільки звичайні методи (індуктивні або статистичні методи для побудови дерев рішень, бази правил, нелінійна регресія для класифікації) явно покладаються на структурування даних у попередньо визначені поля, інтелектуальний аналіз даних в основному пов’язаний із вилученням інформації з вже структурованих баз даних.
Метою дослідження є визначення методологічних підходів із застосування інтелектуального аналізу текстів (неструктурованої інформації) на основі методів обробки природної мови.
Результати дослідження. Відмітимо, що велика частина доступної інформації зберігається у текстовій і, отже, неструктурованій формі (або, точніше, в неявно структурованій формі). Саме тому спеціалізовані методи, які працюють з текстовими даними, стають необхідними для вилучення інформації з таких баз даних. Ці методи об’єднані під назвою інтелектуального аналізу тексту, і для виявлення та використання неявної структури (наприклад, граматичної структури) текстів вони можуть інтегрувати певну обробку природної мови (наприклад, для попередньої обробки текстових даних). Ці додатки вилучення тексту (Text Mining) накладають сильні обмеження на звичайні інструменти обробки природної мови (NLP) [1]. Наприклад, оскільки вони (додатки) включають великі обсяги текстових даних, вони не дозволяють інтегрувати складні процедури (що призведе до експоненціальних і, отже, нерозбірливих алгоритмів). Крім того, семантичні моделі для областей застосування рідко знаходяться у відкритому доступу, що спричиняє сильні обмеження у процесі побудови семантичного та прагматичного рівнів лінгвістичних моделей. Нереалістично припустити, що таке завдання може виконуватися систематично в загальному випадку. Саме тому у процесі вилучення даних використовується автоматизоване індексування бази текстових документів, яке виконується, наприклад, на етапі попередньої обробки. Кілька прикладів таких схем зважування наведено в системі SMART Information Retrieval [3]:
де Wi, j — вага слова;
ti - об’єкт аналізу (документ);
Pi, j — відносна частота Wj в документі;
N – кількість документів у колекції;
а nj – кількість документів, що містять Wj.
Основна перевага подібних автоматизованих процедур індексування полягає в тому, що вони суттєво зменшують вартість та тривалість етапу попередньої обробки, однак одним із їхніх головних недоліків є те, що при застосуванні без додаткових знань (таких як тезаурус) вони створюють індекси з надзвичайно зниженою силою узагальнення (ключ-слова мають бути присутніми в документах явно і не завжди забезпечують хороший тематичний опис) [5].
Надалі на етапі попередньої обробки також можна інтегрувати процедуру виділення термінів. Автоматизоване виділення термінів дійсно є одним із критичних завдань NLP у сфері аналізу текстових даних. Методи виділення термінів часто розкладають на два окремі етапи
- виділення термінів-кандидатів на основі структурної лінгвістичної інформації (наприклад, терміни-кандидати можуть бути обрані на основі відповідних морфо-синтаксичних шаблонів);
- фільтрування термінів-кандидатів на основі деяких статистичних схем оцінки релевантності, таких як частота, логарифмічний коефіцієнт.
Найбільшого поширення у цьому контексті набули 4 морфо-синтаксичні шаблони для виділення термінів-кандидатів: «Іменник – Іменник», «Іменник – Дієслово», «Іменник – Прикметник», «Прикметник – Дієслово» [2]. Для виділення складніших сполук, терміни, зазвичай розділяються на атомні елементи, щоб вони підпадали під класифікацію згаданих вище чотирьох шаблонів. Наприклад, послідовність «Президент /країни/ Володимир /Зеленський» спочатку була б перетворена в «Президент країни/Володимир Зеленський», а потім об’єднана в унікальний термін «Президент країни Володимир Зеленський».
Таким чином, загальною метою інтелектуального аналізу даних є автоматичне вилучення інформації з баз даних. Інтелектуальний аналіз тексту відповідає тому ж глобальному завданню, але спеціально застосовується до неструктурованих текстових даних.
Висновки і перспективи. В результаті проведених досліджень були проаналізовані два різних завдання, які інтелектуальний аналіз може розв’язати на етапі обробки даних (наприклад, певного переліку документів). Методи інтелектуального аналізу фактично виконують автоматичний пошук інформації про класи повторюваних структур документів (термінів), які можна використовувати для автоматизованого синтезу інформаційного наповнення текстової бази та створення нових баз у майбутньому.
Література
1. Fergus P., Chalmers C. Natural language processing. Computational intelligence methods and applications. Cham, 2022. P. 217–244. URL: https://doi.org/10.1007/978-3-031-04420-5_9 (date of access: 08.12.2022).
2. Maheswari R., Sunitha S., Krishnaveni S. Artificial intelligence - natural language processing its rise and their applications. Ijarcce. 2022. Vol. 11, no. 4. URL: https://doi.org/10.17148/ijarcce.2022.11499 (date of access: 08.12.2022).
3. Montes-y-Gómez M., López-López A., Gelbukh A. Finding correlative associations among news topics. Computational linguistics and intelligent text processing. Berlin, Heidelberg, 2001. P. 524–526. URL: https://doi.org/10.1007/3-540-44686-9_53 (date of access: 08.12.2022).
4. Silva C., Ribeiro B. On text-based mining with active learning and background knowledge using SVM. Soft computing. 2006. Vol. 11, no. 6. P. 519–530. URL: https://doi.org/10.1007/s00500-006-0080-8 (date of access: 08.12.2022).
5. Study and implementation of combined techniques for automatic extraction of terminology. The balancing act. 1996. URL: https://doi.org/10.7551/mitpress/1507.003.0005 (date of access: 08.12.2022).
_______________________
Науковий керівник: Садовенко Володимир Сергійович, кандидат фізико-математичних наук, доцент, Державний університет телекомунікацій, м. Київ