конечном итоге занимать около 5000 Гб в .txt - это около 50 000 000 данных для обучения. Дробить файл ? есть ли альтернатива , например через AWS ?
Докупить дисков?
Вообще, за 1.5-2k$ можно купить б/у сервер на оптеронах с 512GB-1TB RAM. SSD 1TB стоит около 200$ — а серверные платы поддерживают диски десятками.
Я бы порезал на куски по несколько гигабайт и читал бы в случайном порядке каждую эпоху Для пайторча придется писать свой ридер этих самых станков Или попробовать обернуть каждый чанк в свой датасет и воспользоваться Concatenated dataset, кажется, такое в торче есть Если используешь TF, то записывая свои данные в tfrecord ты как раз разобъешь на чанки, а TF даже и знать о них ничего не будет
Обсуждают сегодня