матрица итемы х юзеры, где для каждого итема хранятся рейтинги от всех пользователей. Матрица сильно разреженая, поэтому для ее хранения из scipy берется csr_matrix. На основе этой матрицы я делаю рекомендательную систему при помощи kNN, допустим, из scikit-learn. Пока что все по документации, проблем нет. Проблемы дальше начинаются.
Рекомендательную систему нужно обучать при добавлении новых пользовательских рейтингов. Всео рейтингов уже сейчас несколько сотен миллионов (рейтинги являются производными от любых взаимодействий, тут долгая история), и число это будет довольно быстро расти. Есть ли возможность как-то доработать систему, чтобы при приеме нового батча рейтингов не было необходимости полностью переучивать уже существующую модель и лишний раз трогать исходные обучающие данные?
Может группировать итемы? И рейтинги считать по группам. А потом уже применять модель
Обсуждают сегодня