СИСТЕМА TEXTATTRIBUTOR ЯК ІНСТРУМЕНТ ПАРАМЕТРИЗАЦІЇ ТЕКСТІВ

12.02.2025 21:58

[1. Інформаційні системи і технології]

Автор: Розвод Еліна Вадимівна, кандидат філологічних наук, доцент, Волинський національний університет імені Лесі Українки, Луцьк

ORCID 0009-0000-3397-1688

Сучасність змушує нас усвідомити важливість культури роботи з текстом, особливо в аспекті фільтрації, опрацювання та засвоєння закладеної в ньому інформації, яка іноді є результатом вторинної або третинної інтерпретації. Це також спонукає до осмислення тих механізмів, які не лише характеризують творче ставлення до мовленнєвого твору, а й можуть слугувати цілям навмисного викривлення фактологічних даних, історичної пам’яті та руйнування ціннісних орієнтирів особистості.

Параметризація – це процес виявлення референтного діапазону метрик обмеженої кількості параметрів для класифікації текстів певного типу, жанру або складності.

Американський лінгвіст Дуглас Байбер стверджує, що лінгвістичні параметри мають певний розподіл у текстах різних типів. Різнорівневі за складністю тексти та різними предметними областями можуть бути описані за допомогою достатнього набору параметрів, метрики яких є стабільними величинами [1].

У дослідженні розглянемо вебзастосунок TextAttributor 1.0, який розроблений фахівцями Київського національного університету імені Тараса Шевченка для автоматичного лінгвостатистичного аналізу українськомовних медійних текстів. Він дозволяє користувачам аналізувати тексти за різними параметрами: кількість слів, речень, обсяг словника та інші. Система також генерує експертний висновок та надає графічне унаочнення стилеметричного порівняння текстів з еталонними характеристиками українського медійного стилю.

До основних функцій TextAttributor 1.0 належать [3]:

1. Лінгвостатистичний аналіз: система аналізує введений текст за 18 статистичними параметрами, надаючи детальні дані про його структуру та мовні особливості.

2. Експертний висновок: генерує експертний звіт на основі проведеного аналізу, що може бути корисним для дослідників та фахівців у галузі лінгвістики.

3. Стилометричне порівняння: дозволяє порівнювати один або два тексти з еталонними характеристиками медійного стилю української мови, що є корисним для встановлення авторства або аналізу стилю.

4. Модуль «Порівняння атрибуції текстів»: визначає ступінь схожості між двома обраними користувачем текстами, що допомагає у завданнях встановлення авторства.

5. Модуль «Лінгвістична експертиза токсичності тексту»: надає систематизовані лінгвістичні та статистичні дані про токсичність українськомовного медійного тексту.

Система обчислює 18 статистичних параметрів, з яких перші три є кількісними даними про обсяг словника, тексту та кількість речень у тексті. Також окремим рядком подано кількість слів аналізованого тексту, які не оброблені системою. Ці слова не входять до числового значення обсягу слів тексту і можуть свідчити про похибку лінгвостатистичного дослідження. До таких слів належать, до прикладу, діалектизми, русизми, оказіоналізми. Наступні 15 параметрів – статистичні індекси, згруповані таким чином [3]:

1) за формальними та граматичними лінгвістичними ознаками

обчислювальних одиниць:

• кількісне співвідношення слів реєстру словника та обсягу текстових слововживань;

• кількісне співвідношення лексико-граматичних класів слів (частин мови) у тексті;

• кількісне співвідношення словосполучень та речень у тексті;

2) за психолінгвістичними ознаками;

3) за семантичною ознакою негативним сентиментом тексту.

Актуальне дослідження ґрунтувалось на прикладі аналізу новинного дискурсу за такими параметрами: кількісного співвідношення слів реєстру словника та обсягу текстових слововживань, кількісного співвідношення словосполучень та речень у тексті та кількісного співвідношення лексико-граматичних класів слів у тексті. Результати аналізу тексту відображені у вигляді рисунків [2].

Рис.1.

Рис.2.

Статистичні параметри кількісного співвідношення слів реєстру словника

та обсягу текстових слововживань (Рис.2.):

1) індекс багатства (ib) – виражає відношення обсягу словника до обсягу тексту, свідчить про різноманітність словникового запасу; обернено пропорційний довжині тексту, тобто, що довший текст, то потенційно менше з’являється в ньому нових слів;

2) індекс винятковості тексту (ivt) – виражає відношення кількості слів-гапаксів, що зустрілися в тексті один раз, до обсягу тексту – свідчить про лексичне обмеження / лексичне багатство тексту;

3) індекс винятковості словника (ivl) – виражає відношення кількості слів-гапаксів, що зустрілися у тексті один раз, до обсягу словника – свідчить про лексичне обмеження / лексичне багатство словника.

Рис.3.

Статистичні параметри кількісного співвідношення словосполучень та речень у тексті (Рис.3.):

1) індекс динамічності (idyn) – виражає відношення суми дієслівних словосполучень (дієсл.+імен.) + (дієсл.+присл.) + (дієприсл.+імен.) + (дієприкм. + присл.) до суми іменних словосполучень (імен. + імен.) + (прикм. + імен.), вказує на статичність/динамічність тексту, повільне/стрімке розгортання подій;

2) індекс зв’язності мовлення (izv) – виражає відношення суми кількості прийменників та сполучників до кількості речень у тексті, свідчить про високий/нормальний/низький рівень зв’язності між описуваними подіями, явищами, ситуаціями.

Рис. 4.

Статистичні параметри кількісного співвідношення лексико-граматичних класів слів у тексті (Рис.4.):

1) індекс іменних означень, або епітетизації, (iio) виражає відношення суми вживань іменників до суми вживань прикметників – свідчить про ступінь епітизації тексту: що менше іменників, то вищий ступінь епітизації;

2) індекс дієслівних означень (ido) – виражає відношення суми вживань прислівників до суми вживань дієслів – свідчить про ступінь вияву ознаки дії в тексті;

3) ступінь номінальності (stn) – виражає відношення суми вживань іменників до суми вживань дієслів – свідчить про ступінь номінальності тексту;

4) індекс прономіналізації (ipro) – виражає відношення кількості особових займенників до обсягу словоформ тексту, визначає ступінь кореферентності тексту;

5) індекс модальності (imod) – виражає відношення кількості часток до кількості слів у тексті – свідчить про ступінь емотивності тексту;

6) індекс субстантивності (isub) – виражає відношення кількості іменників до обсягу слововживань тексту – свідчить про насичення тесту іменниками, статичність стилю.

Рис.5.

Отримані результати чітко демонструють (Рис.5.), що моніторинг концептуального простору є важливим для виявлення нових форм деструкції в масмедіа, а також для створення вдосконалених систем для роботи з потенційно небезпечними текстами із застосуванням нейромереж і машинного навчання. Запропонована параметризація медіадискурсу дозволяє виявити та здійснити комплексну ймовірну оцінку можливих ризиків щодо потенційних цілей інформаційних атак.

Література

1. Susan Conrad, Douglas Biber. Register, Genre, and Style. Cambridge: Cambridge University Press, 2019. 420p.

2. TextAttributor 1.0. (2024) [in Ukrainian]. http://ta.mova.info (date of application 10.01.2025).

3. TextAttributor: User manual. (2024) [in Ukrainian]. http://ta.mova.info/instructions

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Інші наукові праці даної секції

CHALLENGES IN NON-RELATIONAL DATABASE DEVELOPMENT
31.01.2025 17:02
COMPARISON OF DATABASES. RELATIONAL AND NON- RELATIONAL DATABASES
31.01.2025 16:58
EFFICIENCY ANALYSIS OF SORTING ALGORITHMS: CHALLENGES AND APPLICABILITY
31.01.2025 16:48
CONCEPTUAL FOUNDATIONS OF THE SYSTEM APPROACH TO DESIGNING ENGINEERING NETWORKS
25.01.2025 15:34
РОЗРОБКА МОБІЛЬНОГО ЗАСТОСУНКУ ДЛЯ АНАЛІЗУ Й ВІЗУАЛІЗАЦІЇ ДАНИХ РІВНЯ ОСВІТЛЕНОСТІ ТА ЗВУКУ
23.01.2025 15:00

Конференції

Конференції 2026

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 106) (15-16.01.2026)

Конференції 2025

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 95) (16-17.01.2025)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 96) (11-12.02.2025)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 97) (13-14.03.2025)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 98) (15-16.04.2025)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 99) (14-15.05.2025)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 100) (11-12.06.2025)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 101) (09-10.07.2025)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 102) (16-17.09.2025)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 103) (14-15.10.2025)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 104) (13-14.11.2025)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 105) (11-12.12.2025)

Конференції 2024

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 84) (18-19.01.2024)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 85) (15-16.02.2024)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 86) (12-13.03.2024)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 87) (11-12.04.2024)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 88) (14-15.05.2024)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 89) (12-13.06.2024)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 90) (9-10.07.2024)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 91) (10-11.09.2024)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 92) (8-9.10.2024)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 93) (12-13.11.2024)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 94) (11-12.12.2024)

Конференції 2023

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 74) (06-07.02.2023)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 75) (06-07.03.2023)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 76) (03-04.04.2023)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 77) (09-10.05.2023)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 78) (08-09.06.2023)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 79) (06-07.07.2023)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 80) (19-20.09.2023)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 81) (11-12.10.2023)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 82) (9-10.11.2023)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 83) (7-8.12.2023)

Конференції 2022

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 65) (8-9.02.2022)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 66) (6-7.04.2022)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 67) (11-12.05.2022)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 68) (7-8.06.2022)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 69) (4-5.07.2022)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 70) (22-23.09.2022)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 71) (18-19.10.2022)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 72) (15-16.11.2022)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 73) (08-09.12.2022)

Конференції 2021

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 55) (09.02.2021)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 56) (10.03.2021)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 57) (13.04.2021)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 58) (12.05.2021)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 59) (08.06.2021)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 60) (13.07.2021)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 61) (15.09.2021)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 62) (12.10.2021)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 63) (11.11.2021)

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення (випуск 64) (10.12.2021)

Вас вітає Інтернет конференція!

Рік заснування видання - 2011

СИСТЕМА TEXTATTRIBUTOR ЯК ІНСТРУМЕНТ ПАРАМЕТРИЗАЦІЇ ТЕКСТІВ

Інші наукові праці даної секції