СУЧАСНІ МЕТОДИ ОБРОБКИ ТЕКСТОВОЇ ІНФОРМАЦІЇ В УМОВАХ СКЛАДНИХ ТЕКСТОВИХ КОНСТРУКЦІЙ - Научное сообщество

Вас приветствует Интернет конференция!

Приветствуйем на нашем сайте

Рік заснування видання - 2011

СУЧАСНІ МЕТОДИ ОБРОБКИ ТЕКСТОВОЇ ІНФОРМАЦІЇ В УМОВАХ СКЛАДНИХ ТЕКСТОВИХ КОНСТРУКЦІЙ

19.10.2022 19:13

[1. Информационные системы и технологии]

Автор: Калабуха Дмитро Владиславович, студент, Одеський національний морський університет, м. Одеса, Україна


Загальний напрямок, що вивчає проблеми комп'ютерного аналізу та синтезу природних мов, отримало назву Natural Language Processing (NLP), що найчастіше перекладається як обробка природної мови або комп'ютерна лінгвістика [1,2].

Розвиток NLP та комп'ютерної лінгвістики проходило при вирішенні кількох основних завдань, таких як створення автоматизованих інформаційно-пошукових систем і систем машинного перекладу. Більшість систем аналізу і обробки текстів у тій чи іншій мірі пов'язані з обчисленням його ймовірнісно-статистичних характеристик. 

Можливість застосування кількісних методів заснована на ймовірнісному характері мови. Це підтверджується наступними фактами: 

- дискретність одиниць; 

- масовість мовних одиниць; 

- повторюваність їх у висловлюванні; 

- можливість вибору певного елемента з ряду однорідних. 

Основним завданням статистичної лінгвістики є застосування точних методів і використання математичного апарату для розкриття закономірностей функціонування одиниць мови в мовленні, а також встановлення закономірностей побудови тексту. Причому важливо саме системне розглядання механізмів породження тексту та його системних складових, в тому числі і лексики.

Таким чином, можна виділити два методологічних підходи до розгляду текстових даних і автоматичного аналізу текстів: інформаційно-аналітичний і лінгвістичний, в ці підходи названі декларативною і процедурної компонентами. Також слід зазначити використання на практиці «підходів, заснованих на правилах» (rule based approach) і «підходів, заснованих на прикладах (прецедентах)» (example based approach). При цьому ці підходи доповнюють один одного, оскільки методи, що відносяться до першого підходу, є найчастіше більш швидкими, ніж методи аналогії.

Особливості побудови систем розуміння текстів виділяють кілька типів структур, кожна з яких відображає аналіз текстів на деякому рівні. 

- Лінгвістичні структури пропозицій. 

- Семантична мережа цілого тексту. 

- Інформаційні структури цілого тексту (потоків текстів).

Структури баз даних і знань. Структури такого типу фіксують вибіркове спеціальне «розуміння», в максимальній мірі враховує лінгвістичне уявлення, відображення дійсності. До таких структур можуть бути віднесені сценарії, ситуації, кадри, тощо. Такі структури одержали широке поширення в системах штучного інтелекту, вони відображають уявлення цілого тексту і байдужі до розділу на пропозиції.

Література

1. Lomakina  L.S.,  Rodionov  V.B.,  Surkova  A.S.  Hierarchical Clustering  of  Text Documents // Automation and Remote Control. – 2014. – Vol. 75. – N. 7. – P. 1309-1315.

2. Berry M.W., Kogan J. Text Mining. Applications and Theory. – Wiley. – 2010. – 207 p.



Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License
допомога Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter
Конференции

Конференции 2024

Конференции 2023

Конференции 2022

Конференции 2021



Міжнародна інтернет-конференція з економіки, інформаційних систем і технологій, психології та педагогіки

Наукова спільнота - інтернет конференції

:: LEX-LINE :: Юридична лінія

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення