Распознавание по-российски

31 март 2022 02:40 #108830 от ICT
В интервью ComNews Александр Ханин, генеральный директор MTS AI и сооснователь VisionLabs, рассказал про источники данных для машинного обучения, перспективы развития нейросетей, а также причину заинтересованности МТС в ИИ-разработках.\[quote\] Для чего МТС подразделение МТS AI, которое занимается системами компьютерного зрения, распознавания и синтеза речи? Какова синергия для оператора связи?\[/quote\] Компания MTS AI действительно "выросла" из подразделения ПАО МТС в области Искусственного Интеллекта. Сейчас список наших проектов уже перешагнул границы экосистемы, мы стараемся создавать рыночные продукты международного уровня. Перед МТС как и перед многими другими большими корпорациями стоит задача найти как можно больше точек соприкосновения между миром онлайн и офлайн. У МТС, например, есть огромная территориально распределённая физическая инфраструктура, с помощью которой можно запустить много интересных цифровых продуктов в федеральном масштабе. Мы развиваем здесь несколько направлений. Например, омниканальный ассистент, который работает по телефону, в мобильном приложении и через веб-чаты. То есть это такой ИИ-помощник, который сможет общаться с клиентами по любому удобному им каналу связи, в том числе голосом. Всевозможные аналитические системы, улучшающие клиентский опыт, то все то, что связано с системами обработки естественного языка. Федеральная сеть интеллектуального видеонаблюдения. Ещё есть вещи, очень востребованные в части B2B инфраструктуры. Например, в рекламных технологиях, когда ИИ используют для персонализации, рекомендательных систем, таргетирования.\[quote\] Gartner утверждает, что среди технологических трендов 2022 года будет развитие генеративного AI. Согласны ли вы с этим прогнозом? В каких сферах генеративный AI будет применяться в первую очередь?\[/quote\] Одно из наших стратегических направлений – это синтез данных, который представляет собой работу генеративных сетей разного формата. Машинное обучение всегда требовало большого количества качественных данных, для того, чтобы модели получались хорошо проработанными. И основная проблема заключается в доступности размеченных, "не сырых данных". Именно синтез позволяет снизить требования для ряда сфер к сбору информации. Такие направления как беспилотные автомобили или, например, робототехника используют технологию, чтобы собирать дата-сеты для последующего обучения моделей. Также очень популярно направление синтеза видео и аудиоконтента, например, мы используем в своих продуктах синтез голоса, то есть по образцу создаем голос человека. То же самое происходит с видеоконтентом – можно использовать синтез данных для улучшения изображения с точки зрения разрешения или ретуширования. Актуальный кейс – beautification в ТикТоке, когда пользователи могут создать маску с "более привлекательной версией" себя. Также мы используем синтез данных в качестве модуля для NLP-платформы, который генерирует текст.\[quote\] Видите ли вы потенциальные опасности в генеративном AI и, если да, то как можно их митигировать сейчас?\[/quote\] Возьмем в качестве примера генеративную сеть ruDALL-E от Сбера, которая может создавать изображения на основе текстового описания. Во время тестирования этого решения возникали ситуации, когда ruDALL-E генерировала картинки с пометкой 18+. Это произошло, потому что модель обучали на огромном количестве публичных данных, среди которых наверняка был и контент для взрослых. Созданные ruDALL-E изображения могли повергнуть в шок отдельных участников тестирования. MTS AI в свою очередь проводит исследования, направленные на детоксификацию контента, на котором обучается искусственный интеллект. Так, например, наша команда создала ИИ-решение, которое распознает токсичные слова и выражения, а затем удаляет их либо заменяет близкой по смыслу, но не оскорбительной лексикой. Это лишь одно из направлений подобных разработок.\[quote\] Каковы источники данных и дата-сетов для AI-решений МТС? Хватает ли вам данных? Покупает ли МТС данные у других структур и/или готова ли продавать часть своих данных сторонним организациям?\[/quote\] У нас несколько источников получения данных. И все они по-своему хороши. Мы используем деперсонализированные данные группы МТС, которые можно получить в соответствии с законодательством, также собираем информацию из открытых источников, используя инструменты краулинга. Иногда мы покупаем дата-сеты, а в определенных случаях заказываем их создание под конкретные нужды, что важно с точки зрения покрытия разных модальностей. Если бы мы использовали только информацию от ПАО МТС, мы были бы ограничены рамками одного IT-ландшафта. Мы же хотим, чтобы наши решения работали не только для отдельных компаний, но и для всего рынка потенциальных заказчиков. Поэтому для нас крайне важно собирать одни и те же данные, но в разных условиях. Это позволяет значительно увеличить эффективность ИИ. Приведу пример. Классификатор фотографий должен обучаться не только на паспортных снимках людей, но и на других кадрах, иначе он не сможет распознать человека на улице или с другого ракурса, и весь анализ данных будет бесполезным.\[quote\] Поддерживаете ли вы идею создания рынка данных в РФ, включая открытие для бизнеса государственных данных и право человека распоряжаться своими персональными данными?\[/quote\] На рынке есть достаточно большое количество открытых дата-сетов. Основной вопрос всегда заключается в полноте этих данных, а также в релевантности решаемой задачи с помощью этих данных. В целом, больше данных и больше источников - это всегда хорошо, поскольку могут появляться какие-то уникальные дата-сеты. Процесс открытия государственных данных точно не будет быстрым и простым и это точно не панацея от текущих проблем. Инициатива даст возможность бизнесу быстрее обучать ИИ. Безусловно, пользователи имеют право знать, что, пользуясь тем или иным сервисом, они соглашаются с тем, что нейросети собирают информацию о них. Этот вопрос можно отнести к проблематике уровня обычного сбора данных клиентов: сервис обязан уведомить человека и получить его согласие на сбор конфиденциальных данных. Стоит отметить, людям не следует бояться, что искусственный интеллект завладеет персональными данными и использует их в целях, не связанных с работой самого сервиса или приложения. Пользователь находится в полной безопасности, потому что алгоритмы ИИ полностью подчинены конечным разработчикам, а информация тщательно охраняется и защищается. Однако каждый человек вправе сам для себя определять, комфортно ли ему взаимодействовать с технологиями на базе ИИ, а для этого его нужно уведомлять об этом.\[quote\] Когда можно ожидать широкого появления систем сильного AI, с уровнем IQ, в десятки и сотни раз превышающим человеческий?\[/quote\] Все существующие решения (включая чат-ботов и голосовых помощников) подходят под определение "слабый ИИ" – это класс алгоритмов, запрограммированных на решение одной конкретной задачи. Он должен запоминать правильные ответы на большое количество вопросов и выдавать верное решение в нужное время. Общий ИИ должен иметь представление о реальности, уметь планировать, обладать способностью к самообучению, постановке целей и принятию решений. Такой уровень еще не достигнут, и о сроках его создания говорить рано: невозможно предсказать, появится ли он через 10 лет или через 50. Более того, общий ИИ пока что экономически нецелесообразен для компаний, поскольку затраты на его разработку сильно превышают возможную окупаемость в ближайшие годы. Ссылка на источник


  • Сообщений: 103416

  • Пол: Не указан
  • Дата рождения: Неизвестно
  • Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.

    Похожие статьи

    ТемаРелевантностьДата
    Facebook судят за распознавание лиц8.34Среда, 14 августа 2019
    ВИДЕОКОНТРОЛЬ: РАСПОЗНАВАНИЕ НОМЕРОВ АВТОМОБИЛЕЙ8.25Пятница, 12 июля 2019
    Facebook заплатит за незаконное распознавание Face8.16Пятница, 31 января 2020
    Роботы, 3D-печать, распознавание лиц - как Петербург взялся за импортозамещение8.07Понедельник, 07 сентября 2015
    Российский искусственный интеллект получил 11 млн на распознавание рака8.07Среда, 02 августа 2017
    «Уни-Блок» внедрил распознавание документов Smart IDReader8.07Вторник, 23 октября 2018
    «ВКонтакте» тестирует распознавание неприличных жестов в «Клипах»8.07Пятница, 17 июля 2020
    «Почта Банк» автоматизировал распознавание паспортных данных клиентов7.98Четверг, 16 марта 2017
    Smart IDReader ускорит распознавание паспортов РФ в продуктах «Инсайрес»7.98Среда, 17 мая 2017
    Аэрофлот внедрил распознавание карт и документов в мобильные приложения7.98Пятница, 02 февраля 2018

    Мы в соц. сетях