Искусственный интеллект Microsoft стал понимать устную речь лучше человека
22 авг 2017 14:36 #60359
от ICT
Новый рекорд Система Microsoft для распознавания устной человеческой речи научилась делать это лучше, чем специально натренированные люди. Об этом сообщил в блоге компании главный специалист Microsoft в области распознавания речи Сюэдон Хуан (Xuedong Huang). По его словам, доля ошибок, которые допускает система в процессе транскрибирования телефонного разговора, снизилась до 5,1% — столько же ошибок делает команда специально обученных людей. При этом обычные люди, у которых нет специальной подготовки, распознают устную речь с долей ошибок 5,9%. В сентябре 2016 г. система Microsoft
допускала
6,3% ошибок, что на тот момент было мировым рекордом точности машинного транскрибирования. Но уже в октябре она
снизила
количество ошибок до 5,9%, как у среднестатистического человека. Под долей ошибок понимается процент слов, которые неправильно транскрибируются во время прослушивания телефонного разговора. Для проверки системы Microsoft пользуется стандартным тестом на правильность распознавания речи Switchboard, который широко применяется в отрасли, в том числе компаниями IBM и Google. http://filearchive.cnews.ru/img/news/2017/08/08/microsoft650.jpg"> Microsoft установила новый рекорд в распознавании устной человеческой речи
Однако пока что система Microsoft может лишь распознать устную речь и адекватно представить ее в письменной форме. Смысл прозвучавших слов компьютер пока не понимает. Кроме того, распознавание проходит хорошо только тогда, когда разговор отчетливо звучит на качественной записи. Если же речь звучит в окружении посторонних шумов, процент ошибок растет. Технические основы распознавания речи в Microsoft Примечательно, что еще 20 лет назад количество неправильно распознанных компьютером слов составляло более 43%. Компании вроде Microsoft и IBM смогли так далеко продвинуться в этой сфере благодаря использованию глубоких нейронных сетей, работа которых напоминает биологические процессы в головном мозге человека. Нейронные сети считаются ключевой технологией в разработке не только распознавания речи, но и компьютерного зрения. Такая сеть состоит из нескольких слоев. Разработчики Microsoft недавно изобрели новый тип связи между разными слоями нейронной сети, что позволило им выиграть конкурс компьютерного зрения ImageNet в 2016 г. Еще одним критически важным компонентом исследования оказался нейросетевой инструментарий Microsoft Cognitive Toolkit 2.1 (CNTK), который позволяет запускать глубинные обучающие алгоритмы. Для улучшенного акустического моделирования используется сверточная нейронная сеть в сочетании с двунаправленной долгой краткосрочной памятью CNN-BLSTM. Шагом вперед также стала параллельная подстройка графических процессоров (GPU). Изначально GPU были созданы для работы с компьютерной графикой, но в последние годы выяснилось, что они хорошо подходят для обработки сложных алгоритмов вроде того, который нужен для распознавания речи. В частности, для более быстрой тренировки системы и тестирования новых идей компания использует облачные Azure GPU.[img]http://filearchive.cnews.ru/img/news/2017/08/08/microsoft650.jpg"> Microsoft установила новый рекорд в распознавании устной человеческой речи
Однако пока что система Microsoft может лишь распознать устную речь и адекватно представить ее в письменной форме. Смысл прозвучавших слов компьютер пока не понимает. Кроме того, распознавание проходит хорошо только тогда, когда разговор отчетливо звучит на качественной записи. Если же речь звучит в окружении посторонних шумов, процент ошибок растет. Технические основы распознавания речи в Microsoft Примечательно, что еще 20 лет назад количество неправильно распознанных компьютером слов составляло более 43%. Компании вроде Microsoft и IBM смогли так далеко продвинуться в этой сфере благодаря использованию глубоких нейронных сетей, работа которых напоминает биологические процессы в головном мозге человека. Нейронные сети считаются ключевой технологией в разработке не только распознавания речи, но и компьютерного зрения. Такая сеть состоит из нескольких слоев. Разработчики Microsoft недавно изобрели новый тип связи между разными слоями нейронной сети, что позволило им выиграть конкурс компьютерного зрения ImageNet в 2016 г. Еще одним критически важным компонентом исследования оказался нейросетевой инструментарий Microsoft Cognitive Toolkit 2.1 (CNTK), который позволяет запускать глубинные обучающие алгоритмы. Для улучшенного акустического моделирования используется сверточная нейронная сеть в сочетании с двунаправленной долгой краткосрочной памятью CNN-BLSTM. Шагом вперед также стала параллельная подстройка графических процессоров (GPU). Изначально GPU были созданы для работы с компьютерной графикой, но в последние годы выяснилось, что они хорошо подходят для обработки сложных алгоритмов вроде того, который нужен для распознавания речи. В частности, для более быстрой тренировки системы и тестирования новых идей компания использует облачные Azure GPU.
Однако пока что система Microsoft может лишь распознать устную речь и адекватно представить ее в письменной форме. Смысл прозвучавших слов компьютер пока не понимает. Кроме того, распознавание проходит хорошо только тогда, когда разговор отчетливо звучит на качественной записи. Если же речь звучит в окружении посторонних шумов, процент ошибок растет. Технические основы распознавания речи в Microsoft Примечательно, что еще 20 лет назад количество неправильно распознанных компьютером слов составляло более 43%. Компании вроде Microsoft и IBM смогли так далеко продвинуться в этой сфере благодаря использованию глубоких нейронных сетей, работа которых напоминает биологические процессы в головном мозге человека. Нейронные сети считаются ключевой технологией в разработке не только распознавания речи, но и компьютерного зрения. Такая сеть состоит из нескольких слоев. Разработчики Microsoft недавно изобрели новый тип связи между разными слоями нейронной сети, что позволило им выиграть конкурс компьютерного зрения ImageNet в 2016 г. Еще одним критически важным компонентом исследования оказался нейросетевой инструментарий Microsoft Cognitive Toolkit 2.1 (CNTK), который позволяет запускать глубинные обучающие алгоритмы. Для улучшенного акустического моделирования используется сверточная нейронная сеть в сочетании с двунаправленной долгой краткосрочной памятью CNN-BLSTM. Шагом вперед также стала параллельная подстройка графических процессоров (GPU). Изначально GPU были созданы для работы с компьютерной графикой, но в последние годы выяснилось, что они хорошо подходят для обработки сложных алгоритмов вроде того, который нужен для распознавания речи. В частности, для более быстрой тренировки системы и тестирования новых идей компания использует облачные Azure GPU.
Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.
Похожие статьи
Тема | Релевантность | Дата |
---|---|---|
В 2025 г. искусственный интеллект начнет лучше понимать человека | 33.09 | Воскресенье, 15 декабря 2024 |
Искусственный интеллект Microsoft считает Linux лучше Windows | 22.08 | Понедельник, 24 июля 2017 |
"Россети" и Сбер научат искусственный интеллект понимать электроэнергетику | 19.63 | Пятница, 07 июня 2024 |
«Яндекс.Переводчик» научился переводить устную речь | 18.73 | Пятница, 27 сентября 2019 |
Искусственный интеллект поможет маркетплейсам стать лучше | 18.26 | Вторник, 05 сентября 2023 |
Искусственный интеллект IBM превзошел человека в дебатах | 18.24 | Вторник, 19 июня 2018 |
Что скрывают алгоритмы: искусственный интеллект или человека | 18.24 | Воскресенье, 18 августа 2024 |
Что скрывают алгоритмы - искусственный интеллект или человека | 18.24 | Понедельник, 19 августа 2024 |
Искусственный интеллект научился распознавать человека за стеной | 18.05 | Среда, 13 июня 2018 |
Искусственный интеллект превзошел человека в тесте на абстрактное мышление | 17.85 | Понедельник, 23 января 2017 |