понять, как сейчас обучаются такие модели, какие сейчас лучшие практики для этого?
Можно в виде статей или моделей на hf
Заранее спасибо!
Мне понравилась такая модель: https://huggingface.co/nvidia/speakerverification_en_titanet_large Написано, что для английского, но для русского тоже неплохо справляется
Как обучаются модели: вроде бы для таких задач используется метрика в духе MSE(model(example_for_speaker1),model(another_example_for_speaker1))-(1-MSE(model(example_for_speaker1),model(example_for_speaker2)))^2 и она минимизируется
Обсуждают сегодня