(все документы или выборочно) и перепроверки? Если поток небольшой, то и ваш способ и argMax должен быстро работать - смотрите партиции и индексы. Если большой, а перепроверка небольшая, то я бы анализ делал NOT in ненужного статуса. А исключения высчитывал через argMax.
Поток в 2-3 млн доков в сутки, в прыжке до 5. Процент перепроверок около 25-30. Это машина делает, и с улучшением модели процент перепроверок может до 80 вырасти
Обсуждают сегодня