Здравствуйте, небольшой вопрос по соотношению классов в датасете Какой датасет лучше

Question

Здравствуйте, небольшой вопрос по соотношению классов в датасете Какой датасет лучше

использовать для обучения и почему?
1) датасет с 10к примерами, где классы распределены в точности 50% на 50%
2) датасет с 20к примерами, где классы распределены по 25% и 75% соответственно

#nlp #programming #russian

0

01.06.2023

4 ответов

44 просмотра

Blen obema Автор вопроса

Логичное замечание! Суть такова, что в неделю компания парсит 100к статей. Из них отбирается в лучшем случае 300 лучших. То есть в исходных данных изначально много мусорных статей не по теме. То есть, как я понимаю, нужно стараться в датасете соотношение приблизительно равное тому, какое есть в генеральной выборке/продакшине?

0

01.06.2023

Ruslan Ishtuganov

Рита Эрлоу
Вопрос из похожей серии, только у меня у одного кл...

Да как первый подход - вполне норм, у меня вообще по некоторым классам по 5-6 примеров было, я их все дублировал до 50 и до 500. Единственное стоит убедиться, что в тренировочной выборке распределение классов остается более или менее похожим на исходный датасет. Но это через стратифай легко достигается

0

02.06.2023

Рита Эрлоу

Ruslan Ishtuganov
Да как первый подход - вполне норм, у меня вообще ...

Спасибо, буду пробовать )

0

02.06.2023

Рита Эрлоу · Accepted Answer

Рита Эрлоу

Вопрос из похожей серии, только у меня у одного класса 60 примеров, а у самого большого 13 тысяч. Выручит ли простое дублирование данных или лучше использовать другой подход?

0

01.06.2023

170 похожих чатов

Здравствуйте, небольшой вопрос по соотношению классов в датасете Какой датасет лучше

4 ответов

Похожие вопросы