на основе их надо сделать word2vec, но когда я начинаю прогонять через цикл, чтобы провести токенизацию, у меня падает kernel. Подскажите пожалуйста как можно сделать частями? Статьи в файле csv.bz2.
если у тебя тупо в оперативу не влезает csv, то можно по чанкам препроцессить https://stackoverflow.com/a/25962187
Обсуждают сегодня