ГК InfoWatch получила от Федеральной службы по интеллектуальной собственности патент на изобретение «Способ подготовки текстовых зон, выявленных из изображений нейронной сетью, к распознаванию текста технологией OCR». Разработанная технология кратно повышает точность и полноту автоматического распознавания текста на сложных изображениях и применима в DLP-системах.
Технология использует комбинацию нейросетей и эвристического алгоритма. Нейросети формируют «карту вероятности» для выявления пикселей, относящихся к тексту, и «карту связности» для определения связанных между собой символов. На основе полученных данных формируются надежные текстовые блоки, а алгоритм последовательно объединяет близко расположенные и схожие по характеристикам блоки в логические текстовые строки и колонки, правильно определяя структуру документа. Результат передается на финальное распознавание в OCR-движок.
Разработка применима в DLP-системе InfoWatch Traffic Monitor, которая способна обрабатывать широкий спектр изображений: сканы документов, скриншоты со множеством окон различных приложений и фотографии. Глубина и качество распознавания текста на изображениях помогут снизить риски утечек данных.
«InfoWatch системно работает над развитием функционала продуктов из линейки по защите данных. Разработанный механизм предварительного анализа изображений позволяют OCR-системе распознавать текст полнее и точнее — особенно на сложных, зашумленных посторонней графикой изображениях, содержащих произвольно расположенные текстовые блоки со шрифтами разного размера», — рассказал старший разработчик-исследователь ГК InfoWatch и один из авторов технологии Зайнулла Жумаев.
«Кейсы патентования технологий, дополняющих и обновляющих существующие и известные решения, — это особый случай. Именно здесь проявляются знания и компетенции команды НИР и патентной команды, которым необходимо выявить и описать скрытый и не всегда очевидный изобретательский шаг», — отметила главный юрист ГК InfoWatch и патентный поверенный Екатерина Антонова.