думаю результаты такие же будет) и получилось:
маленькая 0,83
базовая 0,84
большая 0,85
При разнице в размерах почти в 2-3 раза между моделями.
А какой тогда смысл в больших моделях, мне кажется задач где важна разница в сотые доли супер мало?
Во многих областях за эти сотые доли процентов платят огромные деньги)
Ну хорошо - для практических задач которые мы решаем в своих не гуглах? )))
Так это 17 16 и 15 % ошибок )
Все зависит от железа и требований к задаче
Ну для семантического поиска например по моему это вообще ни о чем, там еще реранкер в эластике например перетасует по полнотекстовым совпадениям
Ещё вопрос конечно в обобщающей способности, я например при тестировании стараюсь заранее разделять данные на максимально различные группы (например кластеризация с помощью сторонних моделей/ алгоритмов)
Обсуждают сегодня