Каким распределением ты строишь этот график? Можно оценить его параметры из исходной выборки и просто построить заново (либо создать выборку нужного размера из нового распреде...
Вот еще на медиуме гайд как самому размечать с помощью nltk, имея аудиокнигу и ее исходный текст https://medium.com/@klintcho/creating-an-open-speech-recognition-dataset-for-a...
А нужно ди переобучать кластеризацию? 4-5кк - довольно большая выборка, а прирост небольшой, почему не зафиксировать центры кластеров один раз и не использовать дальше как кла...
scala.collection.immutable.HashSet.contains имеет сложность О(1)?
А покупать карты из майнинг ферм я так понимаю не стоит, да?)
Хотя не важно. Другой вопрос, а для многомерных временных рядов (сотни или больше компонент) количество фич не станет проблемой бустингу?
А основная форма нужна, чтобы сравнивать с другими словами? Если сам вид основной формы не критичен, то можно погуглить stemming
А это действительно праздник? То есть он периодично происходит от года к году?
Не по отдельным строкам. Такое подходит?
Сети не используете из-за неинтерпретируемости модели?
А временные ряды бустите на чем? На деревьях?
Курс курсеры на русском? Там же субтитры есть
Дисбаланс ведь есть?
А гридсерч по параметрам затратный?
Для скалы api у спарка лучше?