ПОВНОТЕКСТОВИЙ ПОШУК У ВІДСКАНОВАНИХ ДОКУМЕНТАХ В СИСТЕМАХ ЕЛЕКТРОННОГО ДОКУМЕНТООБІГУ
12.10.2021 23:36
[1. Information systems and technologies]
Author: Колпак М.В., студент, кафедра інформатики та програмної інженерії, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», м. Київ
Використання систем електронного документообігу вимагає додавання до системи вхідної паперової документації: листів, договорів, тощо. Зазвичай їх оцифровують за допомогою сканування і в подальшому використовують ці скановані зображення. Це зумовлює проблеми взаємодії системи з змістом цих документів, в тому числі повнотекстового пошуку по ним.
Метою даної роботи є вдосконалення повнотекстового пошуку в системах електронного документообігу та електронних архівах шляхом використання машинного розпізнавання тексту.
Для досягнення поставленої мети було виокремлено наступні завдання:
• Дослідити сучасні підходи до повнотекстового пошуку у відсканованих документах та шляхи їх інтеграції в системи електронного документообігу
• На основі аналізу обрати алгоритм розпізнавання текстового зображення для подальшого формування бази даних текстових документів
• Обрати алгоритм повнотекстового пошуку за неповними вхідними даними
• Запропонувати архітектурне рішення, яке дозволить проводити повнотекстовий пошук зі збереженням початкового інтерфейсу взаємодії з користувачем
Наразі поширеними системами розпізнавання є Azure CognitiveServices, tessnet2, Puma.net, ABBYY Cloud OCR. В той же час, більшість існуючих систем допускають артефакти, які унеможливлюють автоматичний перехід між форматами представлення. Водночас, отриманої точності достатньо для забезпечення пошуку. Тому в роботі пропонується архітектура, яка дозволить використати існуючі бібліотеки розпізнавання для вирішення цієї задачі (Рисунок 1).
Запропонована архітектура передбачає створення окремого мікросервісу повнотекстового пошуку по сканованих зображеннях. Зв’язок з основної частини системи електронного документообігу з мікросервісом здійснюється за допомогою транспортної шини, у якості якої може виступати наприклад RabbitMQ або Azure Service Bus. Сам сервіс складається з ізольованих модулів пошуку та розпізнавання. Модуль пошуку містить базу даних з індексованими розпізнаними документами. Може бути імплементовано декілька модулів розпізнавання, що реалізують одне АПІ, але використовують різні алгоритми; в такому випадку можна реалізувати динамічний вибір відповідного модуля, в залежності від його ефективності роботи з необхідним форматом документу, що дозволяє збільшити загальну точність розпізнавання.
Рисунок 1 - Запропонована архітектура
Таким чином, збереження текстового представлення в окремій базі даних дозволяє уникнути повторного розпізнавання. Крім того, отримані в результаті розпізнавання документи можуть в подальшому бути використані як базис для створення текстової версії.
Література:
1. Дино Эспозито Microsoft .NET: архитектура корпоративных приложений / Дино Эспозито, Андреа Сальтарелло // Вильямс, 2016
2. Alessandro Del Sole Microsoft Computer Vision APIs Distilled / Alessandro Del Sole // - Cremona, Italy. - Appress, 2018
_______________
Науковий керівник: Мажара Ольга Олександрівна, кандидат технічних наук, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»