Описание картинки

«Яндекс» научился искать текст на фото

Пользователи сервиса «Яндекс.Диск» получили возможность искать текст на изображениях, хранящихся в облаке. Новая функция основана на собственной системе распознавания, созданной компанией специально для этой цели.
Image: 0.jpg
Компания «Яндекс» запустила новую функцию в сервисе «Яндекс.Диск» — она позволяет выполнять поиск текста на хранимых в этом облаке изображениях за счет технологии распознавания.
«За десятилетия «цифровизации» у людей накопились тысячи изображений: сканы паспортов, договоров, документов, фотографий визиток и объявлений. Чаще всего эти изображения хранятся под названиями «scan» или «img123.jpg» — поэтому найти нужный файл стандартными средствами Windows, Mac или Linux практически невозможно, — пояснили в компании. — С 25 марта 2015 г. в «Яндексе» заработала собственная технология распознавания текста на изображениях. Теперь в поиске по «Диску» можно задать вопрос и получить ответ не только по названиям файлов и содержаниям текстовых документов, но и по изображениям, на которых присутствует это слово».
Функция умеет распознавать русские, английские, украинские и турецкие слова и работает с форматами изображений JPEG, GIF и PNG.
Чтобы функция заработала, компания «Яндекс» проиндексировала все изображения всех пользователей «Яндекс.Диска». На 22% изображений был найден текст. Сейчас каждое загружаемое в «Яндекс.Диск» изображение проверяется на наличие текста.
В основе поиска текста на изображениях лежит технология оптического распознавания символов. «Яндекс» разработал свою универсальную систему, способную распознавать текст на картинках разных по виду, содержанию и качеству. Система состоит из двух частей — классификатора картинок и модуля распознавания.
Сначала классификатор отбирает из всех картинок те, на которых изображен текст. Когда изображения с текстом отобраны, алгоритм находит на них линии, предположительно содержащие текст. Затем этапе алгоритм оставляет только те линии текста, в которых он уверен. После этого модуль распознавания разбивает линии текста на отдельные символы. Для каждого символа алгоритм выбирает несколько наиболее вероятных вариантов распознавания среди известных ему. Например, это могут быть буквы «О», «о» и цифра «0», очень похожие друг на друга. После этого в дело вступает языковая модель — алгоритм принимает решение, какой из символов-кандидатов подходит лучше всего.
Точность распознавания текста зависит от типа изображения, его четкости, фона, на котором находится текст, и других факторов. Поэтому для разных видов изображений она разная. Например, для отсканированных документов точность распознавания текстов на русском языке составляет около 80%, для фотографий с надписями — 63,2%, а для скриншотов приближается к 100%. Точность распознавания в среднем составляет свыше 70%, рассказали в «Яндексе».
Распознавание изображений — технология для «Яндекса» не новая. Например, «Яндекс» умеет искать похожие изображения в интернете — эта возможность также построена на технологиях распознавания.
Комментарии / 0

More about Digit — discover and read

Никита Светлых / iPhone 8 получит стеклянный корпус и беспроводную зарядку (1)iPhone 8 получит стеклянный корпус и беспроводную зарядку
Иван Кущ / Тест-обзор дешёвого 4G-смартфона Fly Cirrus 11 (1)Тест-обзор дешёвого 4G-смартфона Fly Cirrus 11
Никита Светлых / Анонсирован бюджетный смартфон Alcatel 3X Plus на Android 11: цены и описание (1)Анонсирован бюджетный смартфон Alcatel 3X Plus на Android 11: цены и описание
Никита Светлых / Пользователи iPhone 12 столкнулись с перебоями в работе беспроводной зарядки (0)Пользователи iPhone 12 столкнулись с перебоями в работе беспроводной зарядки
Иван Кущ / Обзор смартфона Huawei Nova 2 Plus (0)Обзор смартфона Huawei Nova 2 Plus
Anonymous / Школьные годы мобильные – смартфон стал помощником в учебе (0)Школьные годы мобильные – смартфон стал помощником в учебе
Anonymous / Huawei представила ультрабюджетные смартфоны и планшет (0)Huawei представила ультрабюджетные смартфоны и планшет
Anonymous / Huawei представила безрамочные смартфоны Mate 10 и Mate 10 Pro (0)Huawei представила безрамочные смартфоны Mate 10 и Mate 10 Pro
Anonymous / Представлен рейтинг сервисов для эффективной работы бизнеса в новогодние праздники (0)Представлен рейтинг сервисов для эффективной работы бизнеса в новогодние праздники
Anonymous / Почта России упростила оформление и отслеживание при массовых отправках на сайте (0)Почта России упростила оформление и отслеживание при массовых отправках на сайте