169 похожих чатов

Всем доброго дня! Думаю думу над такой задачей: есть записи о покупках

клиентов (ClientID), эти покупки собраны в заказы (OrderID), в заказах записи - товары (ProductID)
хотел сделать факторый анализ, но получил от data.table вот такое

data.table::dcast(
data = data_source[, .(OrderID, ProductID, ProductCnt)],
formula = OrderID ~ ProductID,
value.var = "ProductCnt"
)

Ошибка в CJ(1:354851, 1:51083) :
Cross product of elements provided to CJ() would result in 18126853633 rows which exceeds .Machine$integer.max == 2147483647

да, данных много, порядка 10 миллионов записей (1 запись - 1 товар в заказе), уникальных ProductID ~ 50 тыс.

по идее можно сделать saprseMatrix, и сделать факторый анализ по ней, но я таких библиотек не нашел


Как думаете, в каком направлении стоит двигаться???

2 ответов

7 просмотров

MaterialID почему нету в data_source?

Я бы предположил, что Product - это слово, а Order - это документ и использовал бы Latent Dirichle Allocation с разряженной матрицей из пакета text2vec. Он такие объемы легко кушает. Или есть вариант bi-term modelling для коротких "текстов" - https://github.com/bnosac/BTM

Похожие вопросы

Обсуждают сегодня

Всем привет, написал код ниже, но он выдает сегфолт, в чем причина? #include <stdio.h> #include <stdlib.h> #include <string.h> struct product { char *name; float price; };...
buzz базз
75
База данных не поможет. Шифрование не поможет. Какие там ещё варианты? Накидывайте.
КТ315
20
А табстоп это сообщение от окна или от элемента управления?
The Bird of Hermes
18
А как лучше конвертировать физический адрес в виртуальный при маппинге? В случае ядра у меня, например, direct mapping, первые 768МБ я как есть мапплю в higher half, а остальн...
Evg Resh
26
Открыл свой двухкилобайтный экзешник в x32dbg, а тут какая-то хрень. Смущает кнопка "выполнить до пользовательского кода", а что ещё может быть в файле помимо него ?
НѣкъиⰘижєжєиꙁъвьсєсвѣтьноѣсѣтиѥсть•
11
Мне были интересны дишные хаки и я нашёл любопытный способ на форуме через __traits, что-то вроде int delegate(int) fac = (int n) => n == 0 ? 1 : n * __traits(parent, {})(n - ...
Constantin F.
1
Вопрос тем кто смотрит видео и слушает подкасты - как вы потом ищете нужную вам информацию? Вот статью я прочитал, потом могу искать нужную мне часть банальным поиском. Пропус...
Aleksandr Druzhinin
4
Всем привет, подскажите/посоветуйте пожалуйста. Фаердак компоненты, имею одно место где бизнес хочет видеть при открытии формы список всех клиентов, это порядка 30к. Мои дово...
Sasha Sch
14
Ребят, если кто в курсе - скажите, а в загранке такое же засилье маркетплейсов? или там простые сермяжные интернет-магазины живут попроще?
Андрей [aharito] Харитонов
14
Коллеги, доброе утро. Запустил на удаленном хосте приложение (ручками зашел туда по ssh и запустил, не командой удаленно). Создал потом ssh-туннель, и с моей машины приложение...
Δημήτηρ
9
Карта сайта