"Яндекс" научился искать текст на фото

25 март 2015 13:20 #12013 от ICT
Компания «Яндекс» запустила новую функцию в сервисе «Яндекс.Диск» — она позволяет выполнять поиск текста на хранимых в этом облаке изображениях за счет технологии распознавания. «За десятилетия «цифровизации» у людей накопились тысячи изображений: сканы паспортов, договоров, документов, фотографий визиток и объявлений. Чаще всего эти изображения хранятся под названиями «scan» или «img123.jpg» — поэтому найти нужный файл стандартными средствами Windows, Mac или Linux практически невозможно, — пояснили в компании. — С 25 марта 2015 г. в «Яндексе» заработала собственная технология распознавания текста на изображениях. Теперь в поиске по «Диску» можно задать вопрос и получить ответ не только по названиям файлов и содержаниям текстовых документов, но и по изображениям, на которых присутствует это слово». Функция умеет распознавать русские, английские, украинские и турецкие слова и работает с форматами изображений JPEG, GIF и PNG. Чтобы функция заработала, компания «Яндекс» проиндексировала все изображения всех пользователей «Яндекс.Диска». На 22% изображений был найден текст. Сейчас каждое загружаемое в «Яндекс.Диск» изображение проверяется на наличие текста. В основе поиска текста на изображениях лежит технология оптического распознавания символов. «Яндекс» разработал свою универсальную систему, способную распознавать текст на картинках разных по виду, содержанию и качеству. Система состоит из двух частей — классификатора картинок и модуля распознавания. Сначала классификатор отбирает из всех картинок те, на которых изображен текст. Когда изображения с текстом отобраны, алгоритм находит на них линии, предположительно содержащие текст. Затем этапе алгоритм оставляет только те линии текста, в которых он уверен. После этого модуль распознавания разбивает линии текста на отдельные символы. Для каждого символа алгоритм выбирает несколько наиболее вероятных вариантов распознавания среди известных ему. Например, это могут быть буквы «О», «о» и цифра «0», очень похожие друг на друга. После этого в дело вступает языковая модель — алгоритм принимает решение, какой из символов-кандидатов подходит лучше всего. Как работает система распознавания текста от «Яндекса»
Точность распознавания текста зависит от типа изображения, его четкости, фона, на котором находится текст, и других факторов. Поэтому для разных видов изображений она разная. Например, для отсканированных документов точность распознавания текстов на русском языке составляет около 80%, для фотографий с надписями — 63,2%, а для скриншотов приближается к 100%. Точность распознавания в среднем составляет свыше 70%, рассказали в «Яндексе». Распознавание изображений — технология для «Яндекса» не новая. Например, «Яндекс» умеет искать похожие изображения в интернете — эта возможность также построена на технологиях распознавания. Ссылка на источник


  • Сообщений: 103416

  • Пол: Не указан
  • Дата рождения: Неизвестно
  • Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.

    Похожие статьи

    ТемаРелевантностьДата
    «Яндекс» научился искать товары по фото23.67Понедельник, 13 декабря 2021
    «Яндекс.Переводчик» научился переводить текст с изображения18.82Четверг, 07 июля 2016
    «Яндекс.Браузер» научился переводить текст на изображении18.82Пятница, 02 апреля 2021
    «Яндекс.Навигатор» научился искать парковки18.45Среда, 26 октября 2016
    "Яндекс" научился искать самые дешевые авиабилеты18.25Понедельник, 02 февраля 2015
    Мобильный «Яндекс.Диск» научился раскладывать фото по датам съёмки15.54Среда, 23 сентября 2015
    Чат-бот Райффайзенбанка научился ещё точнее понимать текст14.88Вторник, 20 октября 2020
    Abbyy TextGrabber для iOS стал бесплатным и научился переводить текст «на лету»14.41Четверг, 07 июня 2018
    Сервис «Домклик» научился искать квартиры рядом с метро14Вторник, 09 апреля 2019
    «Яндекс.Переводчик» переведёт текст с картинки12.35Понедельник, 25 мая 2015

    Мы в соц. сетях