понимают, - это же просто забей для нейронок?
Ну как сказать. Там очень много нюансов. Начиная с того, что нужно под определённый язык и диалект (скажем, шотландский английский отличается от американского), так ещё и качество записи. Возможно какая-то адаптацию автоэнкодера может сработать. Есть же модели для убирания шума на фотографии. Вот так и под речь настроить. Может уже и есть такие вещи, не знаю.
Обсуждают сегодня