В лаборатории кибернетики и искусственного интеллекта MIT разработали первую систему, которая умеет по аудиозаписи определять ситуацию, в которой запись была сделана. Система будет представлена на конференции по нейронным системам обработки информации, которая пройдет на следующей неделе в Массачусетсе.
Системы автоматического распознавания речи — результат машинного обучения, когда компьютер ищет паттерны по огромной базе ранее загруженных данных. В начале процесса машинного обучения данные нужно вручную «объяснять» компьютеру. Однако для системы, разработанной в MIT, вручную «комментировать» данные, вводимые в компьютер, не пришлось: вместо этого исследователи использовали видеозаписи с вмонтированным звуком.
Сначала система распознавала объекты на видео и интерпретировала ситуацию, а затем выявляла схожие паттерны в сопровождающих видео аудиозаписях, и таким образом училась определять, что происходит, без помощи видео.
Создатели протестировали систему на двух крупных базах аннотированных видео, и она оказалась на 13−15% более точной, чем ее предшественники, и определяла правильно 74% видео там, где люди справляются с 81%. Система способна отличить звук детского праздника, где все говорят по-китайски, от звуков ночного леса, вечеринки в финском клубе или концерта симфонического оркестра, автомобильных гонок и зоопарка.