Искусственный интеллект Microsoft стал понимать устную речь лучше человека

22 авг 2017 14:36 #60359 от ICT
Новый рекорд Система Microsoft для распознавания устной человеческой речи научилась делать это лучше, чем специально натренированные люди. Об этом сообщил в блоге компании главный специалист Microsoft в области распознавания речи Сюэдон Хуан (Xuedong Huang). По его словам, доля ошибок, которые допускает система в процессе транскрибирования телефонного разговора, снизилась до 5,1% — столько же ошибок делает команда специально обученных людей. При этом обычные люди, у которых нет специальной подготовки, распознают устную речь с долей ошибок 5,9%. В сентябре 2016 г. система Microsoft допускала 6,3% ошибок, что на тот момент было мировым рекордом точности машинного транскрибирования. Но уже в октябре она снизила количество ошибок до 5,9%, как у среднестатистического человека. Под долей ошибок понимается процент слов, которые неправильно транскрибируются во время прослушивания телефонного разговора. Для проверки системы Microsoft пользуется стандартным тестом на правильность распознавания речи Switchboard, который широко применяется в отрасли, в том числе компаниями IBM и Google. http://filearchive.cnews.ru/img/news/2017/08/08/microsoft650.jpg"> Microsoft установила новый рекорд в распознавании устной человеческой речи Однако пока что система Microsoft может лишь распознать устную речь и адекватно представить ее в письменной форме. Смысл прозвучавших слов компьютер пока не понимает. Кроме того, распознавание проходит хорошо только тогда, когда разговор отчетливо звучит на качественной записи. Если же речь звучит в окружении посторонних шумов, процент ошибок растет. Технические основы распознавания речи в Microsoft Примечательно, что еще 20 лет назад количество неправильно распознанных компьютером слов составляло более 43%. Компании вроде Microsoft и IBM смогли так далеко продвинуться в этой сфере благодаря использованию глубоких нейронных сетей, работа которых напоминает биологические процессы в головном мозге человека. Нейронные сети считаются ключевой технологией в разработке не только распознавания речи, но и компьютерного зрения. Такая сеть состоит из нескольких слоев. Разработчики Microsoft недавно изобрели новый тип связи между разными слоями нейронной сети, что позволило им выиграть конкурс компьютерного зрения ImageNet в 2016 г. Еще одним критически важным компонентом исследования оказался нейросетевой инструментарий Microsoft Cognitive Toolkit 2.1 (CNTK), который позволяет запускать глубинные обучающие алгоритмы. Для улучшенного акустического моделирования используется сверточная нейронная сеть в сочетании с двунаправленной долгой краткосрочной памятью CNN-BLSTM. Шагом вперед также стала параллельная подстройка графических процессоров (GPU). Изначально GPU были созданы для работы с компьютерной графикой, но в последние годы выяснилось, что они хорошо подходят для обработки сложных алгоритмов вроде того, который нужен для распознавания речи. В частности, для более быстрой тренировки системы и тестирования новых идей компания использует облачные Azure GPU.[img]http://filearchive.cnews.ru/img/news/2017/08/08/microsoft650.jpg"> Microsoft установила новый рекорд в распознавании устной человеческой речи
Однако пока что система Microsoft может лишь распознать устную речь и адекватно представить ее в письменной форме. Смысл прозвучавших слов компьютер пока не понимает. Кроме того, распознавание проходит хорошо только тогда, когда разговор отчетливо звучит на качественной записи. Если же речь звучит в окружении посторонних шумов, процент ошибок растет. Технические основы распознавания речи в Microsoft Примечательно, что еще 20 лет назад количество неправильно распознанных компьютером слов составляло более 43%. Компании вроде Microsoft и IBM смогли так далеко продвинуться в этой сфере благодаря использованию глубоких нейронных сетей, работа которых напоминает биологические процессы в головном мозге человека. Нейронные сети считаются ключевой технологией в разработке не только распознавания речи, но и компьютерного зрения. Такая сеть состоит из нескольких слоев. Разработчики Microsoft недавно изобрели новый тип связи между разными слоями нейронной сети, что позволило им выиграть конкурс компьютерного зрения ImageNet в 2016 г. Еще одним критически важным компонентом исследования оказался нейросетевой инструментарий Microsoft Cognitive Toolkit 2.1 (CNTK), который позволяет запускать глубинные обучающие алгоритмы. Для улучшенного акустического моделирования используется сверточная нейронная сеть в сочетании с двунаправленной долгой краткосрочной памятью CNN-BLSTM. Шагом вперед также стала параллельная подстройка графических процессоров (GPU). Изначально GPU были созданы для работы с компьютерной графикой, но в последние годы выяснилось, что они хорошо подходят для обработки сложных алгоритмов вроде того, который нужен для распознавания речи. В частности, для более быстрой тренировки системы и тестирования новых идей компания использует облачные Azure GPU.


  • Сообщений: 103416

  • Пол: Не указан
  • Дата рождения: Неизвестно
  • Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.

    Похожие статьи

    ТемаРелевантностьДата
    Искусственный интеллект Microsoft считает Linux лучше Windows22.32Понедельник, 24 июля 2017
    «Яндекс.Переводчик» научился переводить устную речь18.7Пятница, 27 сентября 2019
    Искусственный интеллект IBM превзошел человека в дебатах18.56Вторник, 19 июня 2018
    Искусственный интеллект поможет маркетплейсам стать лучше18.52Вторник, 05 сентября 2023
    Искусственный интеллект научился распознавать человека за стеной18.36Среда, 13 июня 2018
    Искусственный интеллект превзошел человека в тесте на абстрактное мышление18.16Понедельник, 23 января 2017
    «Ситилинк» обучил свои терминалы понимать речь покупателей через «Яндекс.облако»16.58Среда, 22 мая 2019
    Facebook способен понимать пользователей лучше, чем их родственники15.76Вторник, 13 января 2015
    NVIDIA и Microsoft совместно развивают искусственный интеллект15.62Среда, 16 ноября 2016
    Искусственный интеллект от Microsoft научился распознавать эмоции15.62Четверг, 20 июля 2017

    Мы в соц. сетях