добавить?
буду пробовать, но табнет оттюненный не дотягивает до дефолтного кетбуста
а какие есть альтернативы? тема интересная
fully connected, без шуток. иногда даже cnn/rnn, в зависимости от природы данных, но я обычно с fc начинаю, минимум в половине случаев ими и заканчиваю. если данных мало - делаю синтетику
кстати интересная тема про синтетику, можешь чуть рассказать про методы и что это даёт на практике
обычно это творчество сильно под задачу. варианты, которые я пробовал - это CVAE (сложно и опять же данные нужны хотя бы несколько тысяч, и результаты не очень, свой шум там), потом пробовал сохраняя таргет подменять фичи на те что из датасетах, на основе эвристик из просмотра глазами сотни сэмплов, это лучше способ. еще вариант - модельные данные с небольшими шумами, примешивать в датасет (коэффициенты для моделирования можно из байесовских методов доставать, типа pymc3). проблема тут что достаточно мощный мл конечно разгадает формулу, но, зная, модельный сэмпл или нет, заюзав это как фичу, один раз удалось докинуть скора (регрессия). в последний раз надо было у случайного процесса идентифицировать 4 параметра (модель хестона если кто знает). там синтетику получить легко, нагонял на ней сетку, потом уже на реальном процессе извлек параметры. сетка научилась по метрикам плохо... но кривые выдаёт чуть ли не совпадающие.
а в целом в какой момент используешь синтетику, когда данных не хватает? не совсем понимаю просто как именно это помогает решать задачи
а зависимости между фичами тоже моделируются при синтезе?
как повезёт, зависит от метода. если байесом сначала модель подогнать, там можно чудить всякие иерархии, если тот что я выше описывал недобутстрап - там нет конечно... я не сказать что сильно часто так делаю. пытаюсь обычно если данных < 2-3 тысяч
Обсуждают сегодня