Исследователи из Microsoft опубликовали информацию о новой технологии распознавания речи, которая в состоянии расшифровать свободную разговорную речь так же хорошо, как и живой человек. По словам главного исследователя в области систем распознавания речи Хин Дон Хуана, «Мы достигли паритета машины с человеком, что является настоящим историческим достижением».
Частота появления ошибок во время работы на данный момент составляет 5,9%, что, по словам Microsoft, сравнимо с работой профессиональных переводчиков, которым предоставили для перевода тот же материал, что и искусственному интеллекту. Программа использует нейронные модели языковых групп, позволяющие не только вычленять отдельные слова, но и комбинировать их вместе. Компания собирается внедрить технологию в ИИ-хелпер Cortana, а также в модули транскрипции программного обеспечения.
Хотя результаты впечатляют, это еще далеко не эндшпиль в большой «языковой игре» Microsoft. Конечно, программу еще предстоит настроить для работы в более широком диапазоне, включающем разговорные жаргонизмы, особенности диалекта и широкий диапазон распознаваемых голосов. Основная проблема, как и всегда, заключается в том, чтобы научить ИИ не просто механически запоминать слова и подбирать из них наиболее подходящие комбинации, но и учиться понимать то, что говорит человек, чтобы генерировать на основе этого адекватный перевод.