поиске не учитывается регистр (если есть предложение, то полностью пускается в нижнем регистре на вход алгоритма). w2v используется как часть алгоритма. Итак вопрос: перегонять ли корпус в нижний регистр, перед обучением? Как это повлияет на качество обучения для конкретной задачи? А в общем?
Имхо еще и токенизировать надо
Обсуждают сегодня