Всем привет, хотелось бы спросить, каким способом лучше всего обрабатывать большие файлы .csv (примерно 20гб) не прибегая к средствам обработки больших данных (hive+spark)?
Ребят, такой вопрос. Имеется датасет, задача регрессии. Всего 11 признаков, плюс зависимая переменная. Признаки 1,2,3 коррелируют между собой (с остальными - нет), такая же си...
Ребят, всем привет. Какую метрику лучше всего использовать при мультиклассовой классификации в случае, когда классы несбалансированы?
И по сути, если я пересеку нужное, результат пересечения будет в районе 12 гб, и как вот такое в модель например положить?
Привет всем, хотел бы спросить, как лучше балансировать классы для задачи NLP?