три столбца в каждом:
1. Категория товара на англ. яз.; сумма прихода; количество транзакций.
2. Категория товара на русс. яз.; количество кликов; потраченная сумма.
Задача осложняется тем, что не все категории совпадают. То есть в таблице расходов (2) могут быть просто "кровати", тогда как в таблице приходов (1) есть "Dvuhyarusnie_krovati_dlya_vzroslih", "Dvuspalnie_krovati", "Odnospalnie_krovati", "Polutorospalnie_krovati". Получается, что при совпадении категорий, приходы и количество транзакций нужно суммировать.
Я создала отдельно что-то типа лукап таблицы.
Как теперь все эти данные свести в одну таблицу, чтобы в итоге получить категорию товара на русс. яз. (из таблицы 2), количество кликов; потраченную сумму; сумму прихода и количество транзакций?
Кое-где будет только расход без приходов, но это меня устраивает.
Или играть в Fuzzy matching при помощи пакета stringdist, если категорий слишком много
Обсуждают сегодня