с проблемой транскрибации аудио, в которых начало на русском языке, а потом говорят по английски. Виспер в этом случае генерирует белиберду на русском. Наверное, это связано с тем, что классификация языка выполняется на основе первых 30 секунд, а дальше на вход каждому следующем чанку прошлый интервал подается как промпт. Подскажите, пожалуйста, как можно решить эту проблему?
Советую Вам употреблять слово "распознавание" вместо слова "транскрибация".
Обсуждают сегодня