
Microsoft улучшила голосовое распознавание в Windows Phone 8
Методика машинного обучения Deep Neural Networks (DNN), созданная Джефри Хинтоном, помогает Microsoft в совершенствовании ее системы голосового распознавания.
Корпорация сообщила, что модель DNN позволила удвоить скорость распознавания голоса в среде Windows Phone и снизить при этом число ошибок в словах на 15%. Теперь поисковая система Bing Voice Search, по заверениям разработчиков, гораздо лучше работает в условиях повышенного шума. Правда, пока эти новшества будут доступны только пользователям Windows Phone на территории США.
Новая акустическая модель и декодер Bing Voice Search for Windows Phone является результатом совместной работы команды Bing Voice с Microsoft Research – корпоративной сетью из 12 исследовательских лабораторий, которая занимается всем: от продления заряда батареи мобильных устройств и машинного обучения до изучения экономики и теории игр. Модель нейронных сетей DNN, как считает Microsoft, помогла исследователям создать более умную акустическую модель для реалистичного голосового воспроизводства языка. Основная идея корпорации заключается в том, чтобы воссоздать схему, как человеческий мозг «слушает» и интерпретирует речь.
Вообще, «глубинные нейронные сети» – это вычислительный фреймворк для автоматического распознавания структур, выстроенный по образу и подобию базовых механизмов работы человеческого мозга. Тщательно проработанные математические формулы в сочетании с высокой вычислительной мощью и большими рядами данных позволяют DNN «обучаться» и «действовать» более приближенно к человеческой способности распознавать изображения и речь, чем это делают традиционные голосовые технологии.
Возможности разработок Хинтона были продемонстрированы еще в прошлом году в Китае: в реальном времени машинный переводчик транслировал речь Рика Рашида, главы Microsoft Research, с английского на китайский язык. Устройство не только обеспечило точный перевод, но также сохранило интонации и акцент говорящего.
Так или иначе, применение DNN в программных системах распознавании речи – не самая простая задача. DNN-модели могут содержать сотни миллионов параметров, отвечающих за различные аспекты человеческого голоса. Но модели можно обучать, что и сделали с успехом ученые Microsoft Research при помощи собственных разработок. Результатом стал удобный интерфейс Bing Voice Search, понятный даже неопытному пользователю.
Страница продуктов компании Microsoft Corporation: http://store.softline.ru/microsoft.
Получить консультацию по покупке и лицензированию вам поможет Евгений Лесных (e-mail: Evgeniy.Lesnykh@softline.ru, тел.: +7(495) 232-0060 доб. 3101), по обучению в Учебном центре Softline – Олег Цветков (e-mail: Oleg.Tsvetkov@softline.ru, тел.: +7 (495) 232-0023 доб. 1296).