Как «ВкусВилл» ускорил найм персонала в 1,5 раза с помощью продуктов экосистемы MANGO OFFICE
Техподдержка под ключ: форматы и особенности
Группа компаний «ABC» выбрала решение Guardant для импортозамещения ключей защиты своих программных продуктов
EOSmobile 4.12: полноценный документооборот в вашем мобильном устройстве
Мировой поставщик семян перенес почтовые архивы из иностранного облака в Cloud.ru: кейс ICL Services
ЦБ
°
вторник, 18 июня 2024

Переход на архитектуру Zipformer позволил в 3 раза ускорить распознавание устной речи

Переход на архитектуру Zipformer позволил в 3 раза ускорить распознавание устной речи
Компания BSS значительно улучшила производительность своего модуля автоматического распознавания речи (ASR), используемого в диалоговой платформе Digital2Speech. Новая версия ASR работает более чем в три раза быстрее, сохраняя при этом высокое качество распознавания.

Благодаря недавнему обновлению скорость реакции голосового робота увеличилась более чем в три раза. Это означает, что голосовой ассистент теперь отвечает на запросы пользователей ощутимо быстрее, поэтому взаимодействие с ним стало более плавным и естественным. Несмотря на значительное увеличение скорости, качество распознавания речи не только не пострадало, но и улучшилось. 

Основным фактором, позволившим реализовать эти улучшения и достичь результата, стал переход на новую архитектуру нейросети Zipformer. Эта архитектура существенно ускоряет процесс распознавания и увеличивает его точность за счет уменьшенного количества слоев нейросети, специальных методов сжатия данных и ряда других механик. Ранее компания использовала технологию Conformer.

Новая архитектура позволяет значимо снизить требования к аппаратному обеспечению и экономить на вычислительных мощностях благодаря увеличению эффективности. Оптимизированное решение адаптировано для использования в контуре заказчика. Поэтому обновленный ASR по-прежнему можно запускать как на GPU картах для обеспечения максимальной производительности, так и на более доступных x86 серверах.

«Скорость отклика голосового робота является одной из трех важнейших характеристик, по которым пользователи оценивают "человечность" и "приятность" голосового ассистента. И мы смогли, как минимум, в три раза ускорить распознавание вопроса абонента, сделав взаимодействие с нашим голосовым роботом еще более комфортным. Сегодня Zipformer это новейшая и самая эффективная архитектура для задач распознавания речи, которая появилась только год назад. Я рад, что мы одни из первых смогли представить ее своим клиентам и подготовить надежное решение Enterprise уровня», — прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский.

Тематики: Фиксированная связь, Интеграция

Ключевые слова: BSS

Свежее по теме

!-- Yandex.Metrika counter -->