при этом выкидывая сматчившиеся из дальнейшего подбора
пока что я собирался тренировать KNeighborsClassifier с параметром n_neighbors = 1
но по мере реализации все приходит к тому что придется после каждой итерации переучивать модель на оставшихся классах (способа удалить класс из обученной knn модели не нашел)
есть идеи?
А зачем вам классификатор для поиска ближайших юзеров...
не хватает информации, эти пачки фиксированы или живут своей жизнью?
и размеры такие, что нельзя позволить себе предпосчитать N^2 расстояний, так?
примерно 40к*40к
выходит заранее подсчитанные отсортированные индексы займут 6гб
это все прикидки про argmin(pairwise_distances(df, metric)) ?
Да, псевдокод, но есть имплементации в sklearn
Обсуждают сегодня