РОЗРОБКА МОБІЛЬНОЇ СИСТЕМИ КОНВЕРТАЦІЇ ТЕКСТОВИХ ДОКУМЕНТІВ З ПАПЕРОВОГО В ЕЛЕКТРОННИЙ ФОРМАТ - Научное сообщество

Вас приветствует Интернет конференция!

Приветствуйем на нашем сайте

Рік заснування видання - 2011

РОЗРОБКА МОБІЛЬНОЇ СИСТЕМИ КОНВЕРТАЦІЇ ТЕКСТОВИХ ДОКУМЕНТІВ З ПАПЕРОВОГО В ЕЛЕКТРОННИЙ ФОРМАТ

06.09.2021 20:07

[1. Информационные системы и технологии]

Автор: Білозерський В.О., бакалавр, кафедра систем управління літальними апаратами, студент магістрант, Національний аерокосмічний університет "ХАІ", м. Харків; Краснов Л.О., к. т. н., доцент, кафедра систем управління літальними апаратами, Національний аерокосмічний університет "ХАІ", м. Харків


Бурхливий розвиток комп'ютерних систем природно призвів до масового впровадження інноваційних методів обробки даних, заснованих на використанні штучного інтелекту. Особливо яскраво ця тенденція проявляється в області комп'ютерного зору при вирішенні широкого кола завдань розпізнавання образів і побудові сучасних систем технічного зору (СТЗ).

Однією з найважливіших та актуальних задач СТЗ вважається завдання оптичного розпізнавання тексту на зображеннях (optical character recognition, OCR) для подальшого їх переказу в комп’ютерний формат.

Оптичне розпізнавання тексту з використанням Python і Tesseract. В даний час найбільше поширені так звані «інтелектуальні» системи, які з високим ступенем точності розпізнають більшість шрифтів. Саме до таких інтелектуальних систем відноситься Tesseract.

Tesseract – це движок оптичного розпізнавання символів (OCR) з відкритим вихідним кодом, який використовує нейронні мережі для пошуку і розпізнавання тексту на зображеннях. Починаючи з версії 4.0 движок Tesseract став ґрунтуватися на Long short-term memory (LSTM) архітектурі для рекурентних нейронних мереж.

Для роботи з движком Tesseract на мові програмування Python існує окрема бібліотека pytesseract, на основі якої був розроблений модуль OCR_module, призначений для розпізнавання тексту на зображеннях з подальшим записом результатів в окремий файл (рис. 1).




Геометричні перетворення вихідних зображень. Завдання виявлення і конвертації текстового документа в задану систему координат є ключовою при роботі з зображеннями, отриманими при фотографуванні аркушів паперу на довільному фоні за допомогою фотокамери, телефону або планшета. Отримані таким чином зображення володіють двома основними недоліками:

1) текстовий документ займає лише певну частину всього зображення, решта – фон зображення без корисної інформації;

2) документ знаходиться під невизначеним кутом щодо вертикальної осі зображення. Практично неможливо домогтися прямого кута при фотографуванні.

Якщо перший недолік призводить більше до уповільнення корисної роботи розпізнавача, то другий може стати причиною різкого зменшення точності розпізнавання, оскільки повернені символи вже не розпізнаються з попередньою точністю. 

Для вирішення поставлених проблем був розроблений спеціальний алгоритм, суть якого полягає у виконанні трьох основних етапів обробки зображення:

1) виділення границь зображення;

2) визначення контурів зображення;

3) виконання перспективного перетворення по кутовим точкам контуру.

Ефективність роботи даного алгоритму була підтверджена за рахунок проведення дослідження на зображеннях, повернених на кути 1-5 (рис. 2).




Попередня обробка зображення перед розпізнаванням. Існує велика кількість різноманітних факторів, які так чи інакше впливають на якість зображення і, відповідно, подальшу точність розпізнавання тексту. Так, працюючи з зображеннями неможливо уникнути проблеми наявності шумів і їх вплив на ефективність роботи розпізнавача тексту. 

Для усунення шумів з подальшим забезпеченням високої точності розпізнавання був розроблений алгоритмом, представлений на рис. 3.




Фінальний графік росту точності розпізнавання відповідно до кожного етапу виконання алгоритму представлений на рис. 4.




Заключення. Запропоновано методику попередньої обробки і підготовки зображень текстових документів перед розпізнаванням тексту. Використання представленої методики дозволяє досягти високих значень точності розпізнавання (99.85 – 99.9%) за рахунок виконання геометричних перетворень та використання алгоритму подолання дестабілізуючих факторів при розпізнаванні.

Література:

1. Краснов, Л.О. Управління в умовах невизначеності: навч. посібник / Л. О. Краснов, К. Ю. Дергачов – Харків: Нац. аерокосм. ун-т ім. М. Є. Жуковського «ХАІ», 2017. – 124 с.

2. Режим доступу: http://python.org/.

3. Режим доступу: https://opencv.org.

4. Режим доступу: https://github.com/tesseract-ocr/tesseract.

5. Режим доступу: https://pypi.org/project/pytesseract/.

6. Федоров Д. Ю. Основи програмування Python: / Д. Ю. Федоров. - СПб., 2016. - 176 с.



Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License
допомога Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter
Конференции

Конференции 2024

Конференции 2023

Конференции 2022

Конференции 2021



Міжнародна інтернет-конференція з економіки, інформаційних систем і технологій, психології та педагогіки

Наукова спільнота - інтернет конференції

:: LEX-LINE :: Юридична лінія

Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення