может есть смысл поискать существующие датасеты в интернете? или сообщения специфичны? в любом случае для создания спам фильтра классическим способом на мой взгляд является со...
то есть максимальная длина 40? а количество фич какое. так то 40 как то дофига кажется для градиентного бустинга
не очень понял, а в чем проблема с использованием не спам сообщений?
а как будешь размечать данные? спам - не спам