изображений из этих 500к. достаточно ли? можно ли как-то измерить качество получившихся центроидов?
а по этому поводу может кто-то подсказать? из основ работы по подготовке тренировочных сетов я знаю, что нужно брать около 20% от общего числа образцов. при этом они должны быть +- равномерно отдалены друг от друга. но batch-ами тренировать, конечно, не получится. нужно что бы все вектора были в памяти одновременно. у меня помещается около 50-80к за раз. если больше, то не хватает памяти. обычный рандом при выборе изображений справится с этой задачей или нужно через какой-то алгоритм делать выборку?
Обсуждают сегодня