170 похожих чатов

Здравствуйте, небольшой вопрос по соотношению классов в датасете Какой датасет лучше

использовать для обучения и почему?
1) датасет с 10к примерами, где классы распределены в точности 50% на 50%
2) датасет с 20к примерами, где классы распределены по 25% и 75% соответственно

4 ответов

6 просмотров
Blen-obema Автор вопроса

Логичное замечание! Суть такова, что в неделю компания парсит 100к статей. Из них отбирается в лучшем случае 300 лучших. То есть в исходных данных изначально много мусорных статей не по теме. То есть, как я понимаю, нужно стараться в датасете соотношение приблизительно равное тому, какое есть в генеральной выборке/продакшине?

Вопрос из похожей серии, только у меня у одного класса 60 примеров, а у самого большого 13 тысяч. Выручит ли простое дублирование данных или лучше использовать другой подход?

Рита Эрлоу
Вопрос из похожей серии, только у меня у одного кл...

Да как первый подход - вполне норм, у меня вообще по некоторым классам по 5-6 примеров было, я их все дублировал до 50 и до 500. Единственное стоит убедиться, что в тренировочной выборке распределение классов остается более или менее похожим на исходный датасет. Но это через стратифай легко достигается

Похожие вопросы

Обсуждают сегодня

читать файл максимально быстро? странный вопрос))
zamtmn
52
всем привет! углубившись в плюсы и начав изучать реверсинг понял, что без асм'а никуда со своими высокоабстрактными представлениями начал изучать механизмы асма, и не совсем п...
9
Привет. Сразу скажу, что на C/C++/Rust я не пишу, но тем не менее возникла потребность дебага C/C++/Rust кода. Суть: есть серверное приложение, которое периодически ведёт себ...
ninekeem 🐳
4
буквально один оставшийся вопрос при выполнении строчки mov eax, 5 операнд "5" будет присутствовать где-либо в памяти (любой), кроме как в памяти блока .code? подвопрос: как...
12
Всем ку. Подскажите, если задекларировал массив так: int arr[10] = {1, 2, 3, 4}, то в arr[4] будет мусор или нуль?
Sasha K
14
я не понимаю mov [r11+8],rcx и прочие. мы записываем значение из rcx, куда?
Bor
15
а зачем этот вопрос для удаления из чата?
Mёdkinson Medvezhkin
63
у меня такой вопрос про память в x86 возник, может кто пояснить?.. у процессора есть (как минимум) 3 типа адресов (названия "п1", "п2", "п3" --- мои, чтобы проще было дальше)...
Toideng
5
А какие расширения активно используются в промышленности? Именно идейные, по типу гадт, а не всякие оверлоадедстрингс
Степан
11
у процессора есть (как минимум) 3 типа адресов (названия "п1", "п2", "п3" --- мои, чтобы проще было дальше): - "п1" --- виртуальный адрес, то есть тот, который ресолвится в "п...
Toideng
3
Карта сайта