nltk, имея аудиокнигу и ее исходный текст https://medium.com/@klintcho/creating-an-open-speech-recognition-dataset-for-almost-any-language-c532fb2bc0cf?source=linkShare-973b58e3a4e6-1539847634
а есть ещё гайды по разметке?
Обсуждают сегодня