МЕТОДОЛОГІЧНІ ЗАСАДИ ВИКОРИСТАННЯ ПРИРОДНОЇ МОВИ У ПРОЦЕСІ ПРОВЕДЕННЯ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТУ

10.12.2022 23:20

[1. Information systems and technologies]

Author: Кононенко Ілля Віталійович, магістрант, Державний університет телекомунікацій, м. Київ

Анотація. Поширені сьогодні моделі та системи вилучення інформації та аналізу тексту використовують методи інтелектуального аналізу зі структурованих баз даних. Однак, методи інтелектуального аналізу тексту мають потенціал та всі необхідні особливості для того, щоб використовуватись як інструменти вилучення даних з неструктурованих (або неявно структурованих) текстових даних. Подібне стає можливим внаслідок використання методів обробки природної мови (NLP), які модернізують процедуру обробки інформації. У цій статті ми представляємо два приклади завдань, де інтелектуальний аналіз тексту разом з NLP розв’язує проблему вилучення асоціацій.

Постановка проблеми. Постійно висхідна важливість проблеми аналізу великих обсягів даних, зібраних компаніями та організаціями, призвела до важливих подій у сферах автоматизованого виявлення знань у базах даних (KDD) та аналізу даних (DM). Стандартні методи KDD і DM стосуються обробки структурованих баз даних. Як правило, аналізується лише невелика частина (5-10%) зібраних даних. Крім того, оскільки обсяг доступних даних зростає, прийняття рішень безпосередньо з вмісту баз даних стає майже неможливим, використовуючи KDD або DM [4].

Тому, поширення почала набувати техніка інтелектуального аналізу тексту присвячена автоматизованому вилученню інформації з неструктурованих текстових даних. В цьому контексті важливо розробити методологічні основи застосування методів обробки природної мови (NLP), які модернізують процедуру обробки інформації.

Мета дослідження. Витяг інформації з баз даних – це нетривіальний процес виявлення дійсних, нових, потенційно корисних і зрозумілих шаблонів у даних. І оскільки звичайні методи (індуктивні або статистичні методи для побудови дерев рішень, бази правил, нелінійна регресія для класифікації) явно покладаються на структурування даних у попередньо визначені поля, інтелектуальний аналіз даних в основному пов’язаний із вилученням інформації з вже структурованих баз даних.

Метою дослідження є визначення методологічних підходів із застосування інтелектуального аналізу текстів (неструктурованої інформації) на основі методів обробки природної мови.

Результати дослідження. Відмітимо, що велика частина доступної інформації зберігається у текстовій і, отже, неструктурованій формі (або, точніше, в неявно структурованій формі). Саме тому спеціалізовані методи, які працюють з текстовими даними, стають необхідними для вилучення інформації з таких баз даних. Ці методи об’єднані під назвою інтелектуального аналізу тексту, і для виявлення та використання неявної структури (наприклад, граматичної структури) текстів вони можуть інтегрувати певну обробку природної мови (наприклад, для попередньої обробки текстових даних). Ці додатки вилучення тексту (Text Mining) накладають сильні обмеження на звичайні інструменти обробки природної мови (NLP) [1]. Наприклад, оскільки вони (додатки) включають великі обсяги текстових даних, вони не дозволяють інтегрувати складні процедури (що призведе до експоненціальних і, отже, нерозбірливих алгоритмів). Крім того, семантичні моделі для областей застосування рідко знаходяться у відкритому доступу, що спричиняє сильні обмеження у процесі побудови семантичного та прагматичного рівнів лінгвістичних моделей. Нереалістично припустити, що таке завдання може виконуватися систематично в загальному випадку. Саме тому у процесі вилучення даних використовується автоматизоване індексування бази текстових документів, яке виконується, наприклад, на етапі попередньої обробки. Кілька прикладів таких схем зважування наведено в системі SMART Information Retrieval [3]:

де W_{i, j} — вага слова;

t_i - об’єкт аналізу (документ);

P_{i, j}— відносна частота Wj в документі;

N – кількість документів у колекції;

а n_j – кількість документів, що містять W_j.

Основна перевага подібних автоматизованих процедур індексування полягає в тому, що вони суттєво зменшують вартість та тривалість етапу попередньої обробки, однак одним із їхніх головних недоліків є те, що при застосуванні без додаткових знань (таких як тезаурус) вони створюють індекси з надзвичайно зниженою силою узагальнення (ключ-слова мають бути присутніми в документах явно і не завжди забезпечують хороший тематичний опис) [5].

Надалі на етапі попередньої обробки також можна інтегрувати процедуру виділення термінів. Автоматизоване виділення термінів дійсно є одним із критичних завдань NLP у сфері аналізу текстових даних. Методи виділення термінів часто розкладають на два окремі етапи

- виділення термінів-кандидатів на основі структурної лінгвістичної інформації (наприклад, терміни-кандидати можуть бути обрані на основі відповідних морфо-синтаксичних шаблонів);

- фільтрування термінів-кандидатів на основі деяких статистичних схем оцінки релевантності, таких як частота, логарифмічний коефіцієнт.

Найбільшого поширення у цьому контексті набули 4 морфо-синтаксичні шаблони для виділення термінів-кандидатів: «Іменник – Іменник», «Іменник – Дієслово», «Іменник – Прикметник», «Прикметник – Дієслово» [2]. Для виділення складніших сполук, терміни, зазвичай розділяються на атомні елементи, щоб вони підпадали під класифікацію згаданих вище чотирьох шаблонів. Наприклад, послідовність «Президент /країни/ Володимир /Зеленський» спочатку була б перетворена в «Президент країни/Володимир Зеленський», а потім об’єднана в унікальний термін «Президент країни Володимир Зеленський».

Таким чином, загальною метою інтелектуального аналізу даних є автоматичне вилучення інформації з баз даних. Інтелектуальний аналіз тексту відповідає тому ж глобальному завданню, але спеціально застосовується до неструктурованих текстових даних.

Висновки і перспективи. В результаті проведених досліджень були проаналізовані два різних завдання, які інтелектуальний аналіз може розв’язати на етапі обробки даних (наприклад, певного переліку документів). Методи інтелектуального аналізу фактично виконують автоматичний пошук інформації про класи повторюваних структур документів (термінів), які можна використовувати для автоматизованого синтезу інформаційного наповнення текстової бази та створення нових баз у майбутньому.

Література

1. Fergus P., Chalmers C. Natural language processing. Computational intelligence methods and applications. Cham, 2022. P. 217–244. URL: https://doi.org/10.1007/978-3-031-04420-5_9 (date of access: 08.12.2022).

2. Maheswari R., Sunitha S., Krishnaveni S. Artificial intelligence - natural language processing its rise and their applications. Ijarcce. 2022. Vol. 11, no. 4. URL: https://doi.org/10.17148/ijarcce.2022.11499 (date of access: 08.12.2022).

3. Montes-y-Gómez M., López-López A., Gelbukh A. Finding correlative associations among news topics. Computational linguistics and intelligent text processing. Berlin, Heidelberg, 2001. P. 524–526. URL: https://doi.org/10.1007/3-540-44686-9_53 (date of access: 08.12.2022).

4. Silva C., Ribeiro B. On text-based mining with active learning and background knowledge using SVM. Soft computing. 2006. Vol. 11, no. 6. P. 519–530. URL: https://doi.org/10.1007/s00500-006-0080-8 (date of access: 08.12.2022).

5. Study and implementation of combined techniques for automatic extraction of terminology. The balancing act. 1996. URL: https://doi.org/10.7551/mitpress/1507.003.0005 (date of access: 08.12.2022).

_______________________

Науковий керівник: Садовенко Володимир Сергійович, кандидат фізико-математичних наук, доцент, Державний університет телекомунікацій, м. Київ

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Another articles in this section

ЗАСТОСУВАННЯ СУЧАСНИХ АЛГОРИТМІВ ДИНАМІЧНОГО ПОШУКУ В СКЛАДНИХ ІНФОРМАЦІЙНИХ СИСТЕМАХ
29.11.2022 03:05
СИСТЕМА ДОМАШНЬОГО АВТОМАТИЗУВАННЯ
29.11.2022 02:54
ТЕХНОЛОГІЇ «E-LEARNING» В СУЧАСНІЙ ОСВІТІ
29.11.2022 02:47
ВИМОГИ СТВОРЕННЯ SMART КУРСУ ЗМІШАНОГО НАВЧАННЯ
11.12.2022 00:24
МЕТОД ВИКОРИСТАННЯ ШАБЛОНУ КУРСУ ЗМІШАНОГО НАВЧАННЯ
11.12.2022 00:16

Сonferences

Conference 2026

Information society: technological, economic and technical aspects of formation (issue 106) (15-16.01.2026)

Information society: technological, economic and technical aspects of formation (issue 107) (10-11.02.2026)

Information society: technological, economic and technical aspects of formation (issue 108) (5-6.03.2026)

Information society: technological, economic and technical aspects of formation (issue 109) (8-9.04.2026)

Conference 2025

Information society: technological, economic and technical aspects of formation (issue 95) (16-17.01.2025)

Information society: technological, economic and technical aspects of formation (issue 96) (11-12.02.2025)

Information society: technological, economic and technical aspects of formation (issue 97) (13-14.03.2025)

Information society: technological, economic and technical aspects of formation (issue 98) (15-16.04.2025)

Information society: technological, economic and technical aspects of formation (issue 99) (14-15.05.2025)

Information society: technological, economic and technical aspects of formation (issue 100) (11-12.06.2025)

Information society: technological, economic and technical aspects of formation (issue 101) (09-10.07.2025)

Information society: technological, economic and technical aspects of formation (issue 102) (16-17.09.2025)

Information society: technological, economic and technical aspects of formation (issue 103) (14-15.10.2025)

Information society: technological, economic and technical aspects of formation (issue 104) (13-14.11.2025)

Information society: technological, economic and technical aspects of formation (issue 105) (11-12.12.2025)

Conference 2024

Information society: technological, economic and technical aspects of formation (issue 84) (18-19.01.2024)

Information society: technological, economic and technical aspects of formation (issue 85) (15-16.02.2024)

Information society: technological, economic and technical aspects of formation (issue 86) (12-13.03.2024)

Information society: technological, economic and technical aspects of formation (issue 87) (11-12.04.2024)

Information society: technological, economic and technical aspects of formation (issue 88) (14-15.05.2024)

Information society: technological, economic and technical aspects of formation (issue 89) (12-13.06.2024)

Information society: technological, economic and technical aspects of formation (issue 90) (9-10.07.2024)

Information society: technological, economic and technical aspects of formation (issue 91) (10-11.09.2024)

Information society: technological, economic and technical aspects of formation (issue 92) (8-9.10.2024)

Information society: technological, economic and technical aspects of formation (issue 93) (12-13.11.2024)

Information society: technological, economic and technical aspects of formation (issue 94) (11-12.12.2024)

Conference 2023

Information society: technological, economic and technical aspects of formation (issue 74) (06-07.02.2023)

Information society: technological, economic and technical aspects of formation (issue 75) (06-07.03.2023)

Information society: technological, economic and technical aspects of formation (issue 76) (03-04.04.2023)

Information society: technological, economic and technical aspects of formation (issue 77) (09-10.05.2023)

Information society: technological, economic and technical aspects of formation (issue 78) (08-09.06.2023)

Information society: technological, economic and technical aspects of formation (issue 79) (06-07.07.2023)

Information society: technological, economic and technical aspects of formation (issue 80) (19-20.09.2023)

Information society: technological, economic and technical aspects of formation (issue 81) (11-12.10.2023)

Information society: technological, economic and technical aspects of formation (issue 82) (9-1.11.2023)

Information society: technological, economic and technical aspects of formation (issue 83) (7-8.12.2023)

Conference 2022

Information society: technological, economic and technical aspects of formation (issue 65) (8-9.02.2022)

Information society: technological, economic and technical aspects of formation (issue 66) (6-7.04.2022)

Information society: technological, economic and technical aspects of formation (issue 67) (11-12.05.2022)

Information society: technological, economic and technical aspects of formation (issue 68) (7-8.06.2022)

Information society: technological, economic and technical aspects of formation (issue 69) (4-5.07.2022)

Information society: technological, economic and technical aspects of formation (issue 70) (22-23.09.2022)

Information society: technological, economic and technical aspects of formation (issue 71) (18-19.10.2022)

Information society: technological, economic and technical aspects of formation (issue 72) (15-16.11.2022)

Information society: technological, economic and technical aspects of formation (issue 73) (08-09.12.2022)

Conference 2021

Information society: technological, economic and technical aspects of formation (Issue 55) (09.02.2021)

Information society: technological, economic and technical aspects of formation (Issue 56) (10.03.2021)

Information society: technological, economic and technical aspects of formation (issue 57) (13.04.2021)

Information society: technological, economic and technical aspects of formation (issue 58) (12.05.2021)

Information society: technological, economic and technical aspects of formation (issue 59) (08.06.2021)

Information society: technological, economic and technical aspects of formation (issue 60) (13.07.2021)

Information society: technological, economic and technical aspects of formation (issue 61) (15.09.2021)

Information society: technological, economic and technical aspects of formation (issue 62) (12.10.2021)

Information society: technological, economic and technical aspects of formation (issue 63) (11.11.2021)

Information society: technological, economic and technical aspects of formation (issue 64) (10.12.2021)

Congratulation from Internet Conference!

Рік заснування видання - 2011

МЕТОДОЛОГІЧНІ ЗАСАДИ ВИКОРИСТАННЯ ПРИРОДНОЇ МОВИ У ПРОЦЕСІ ПРОВЕДЕННЯ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТУ

Another articles in this section