решение сходу не получилось. У меня сейчас есть датасет пользовательских действий/рейтингов/покупок на 20 гигов и я строю рекомендательную систему на ее основе, да такую, чтобы могла работать при добавлении новых действий почти в реалтайме. В сторону каких библиотек и терминов следует смотреть? Проблема именно в масштабах и реалтайме: сам по себе алгоритм у меня вполне работает, если взять небольшую выборку.
а какой алгоритм используется сейчас на маленькой выборке?
как выглядят эти 20 гигов? может, из них можно 20 мег фич собрать только, а остальное оверхэд
Обсуждают сегодня