Мар 25, 2015 - 0 Comments - Без рубрики -

«Яндекс.Диск» научился распознавать текст на изображениях

Схема технологии распознавания текста «Яндекса»

Схема технологии распознавания текста «Яндекса»

В «Яндекс.Диске» появилась возможность искать изображения по текстовым запросам, сообщает пресс-служба сервиса. Если ввести в поисковую строку нужное слово, система найдет сохраненные на файлообменнике картинки формата JPEG, GIF и PNG, на которых оно встретится.

Поиск по текстам позволит быстрее находить нужные сканы документов, фотографии визиток и объявлений и других изображений, на которых содержится текст.

«В основе поиска текстов на изображениях лежит технология оптического распознавания символов. Яндекс разработал свою универсальную систему распознавания текста, успешно работающую на самых разных по содержанию и качеству картинках», — говорится в пресс-релизе компании.

На основе этой же технологии работает поиск похожих изображений в «Яндекс. Картинках». Точность распознавания текстов на русском языке составляет около 80 процентов. Для фотографий она ниже — около 63 процентов, а для скриншотов приближается к стопроцентной точности. Помимо русского языка, система также распознает английский, украинский и турецкий.

Система состоит из двух частей — классификатора картинок и модуля распознавания. Сначала классификатор отбирает из всех картинок те, на которых изображен текст. Обучающаяся система отличает их от прочих благодаря своему опыту анализа миллионов разных картинок.

Когда изображения с текстом отобраны, алгоритм находит на них линии с текстом. Затем модуль распознавания разбивает линии на отдельные символы. Для каждого алгоритм выбирает несколько наиболее вероятных вариантов распознавания. Например, это могут быть буквы «О», «о» и цифра «0», очень похожие друг на друга. После этого алгоритм решает, какой из символов подходит лучше всего на основе языковой модели, которая опирается на словари и учитывает не только сходство букв и знаков, но и контекст.

Схема технологии распознавания текста «Яндекса»

Схема технологии распознавания текста «Яндекса»


Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Человек ? *