English questions OK here?
Does it make sense to retrain a text embedding model (like nli-distilroberta) to handle typos?
I can obviously generate a corpus of my original query plus versions of the same text with typos added.
But thats obviously an unlimited number of possible permutations - when do I stop?
—
Всем здравствуйте. Я практикующий из Майами, Флорида. Здесь можно задать вопросы на английском?
Имеет ли смысл переобучать модель встраивания текста (например, nli-distilroberta) для обработки опечаток?
Очевидно, я могу сгенерировать корпус моего исходного запроса плюс версии того же текста с добавленными опечатками.
Но это, очевидно, неограниченное количество возможных перестановок - когда мне остановиться?
You stop when your model doesn't get better any more -- measured by your metric.
Обсуждают сегодня