с GPU ускорителями встретились с проблемой, что одна из важных компонент синтеза на GPU с использованием TensorRT стала работать ощутимо медленнее.
Так происходит из-за того, что наша архитектура нейронной сети рекурентная – нам надо успевать отработать 240 последовательных итераций за 10мс (~42 микросекунды на один вызов). TensorRT не дает сделать полноценный fusion (склевание) большого количества итераций в одну, из-за чего существенно теряет в производительности
Мы взяли низкоуровневый инструмент (CUDA), и написали решение, которое опережает по производительности TensorRT в несколько раз. На встрече 14 декабря поговорим о том, какие особенности архитектуры GPU и решаемой задачи являются определяющими и как мы справились с проблемой, написав низкоуровневое решение
Артём Хорошев Senior C++ developer в группе разработки синтеза речи, поделится деталями разработки решения. Начало в 18:00
https://jazz.sber.ru/3bomfa?psw=OAoTBkQBUUcdGhQQGxVGVBIQCQ
#conf
Есть ли запись?
Обсуждают сегодня