одного чата.
Сообщений возможно будет порядка 100к-1млн.
Как лучше их сохранить, просто через пробел? Чем таким обучить что-бы оно могло выдвать нормальные предложения (без контекста всякого, просто говорить как участники)
Желательно что-то готовое, я видел разные методы типа char-rnn (не дало внятных результатов) и построения по n-грамам слов, но это сложно и надо что-то свое придумывать.
Есть что-то что нужно мне?
лучше сигнал конца предложения добавить. Типа П => 0 р => 0 и => 0 в => 0 е => 0 т => 0 . => 1
Обсуждают сегодня