Ребят такой вопрос. Есть куча текстовых данных полученных из voice

Question

Ребят такой вопрос. Есть куча текстовых данных полученных из voice

recognition. Далее предлагается делать sentiment analysis, name entity recognion, и разное другое NLP дело. Контролировать voice recognition я не могу, то есть у меня есть только текст без грамматики на выходе. Вопрос такой. Существуют ли алгоритмы которые бы позволили делать разбивку этого текста на предложения (расставлять точки скажем)? И на сколько целесообразное делать такую разбивку, то есть, можно ли ожидать, что это поможет улучшить sentiment analysis, name entity recognion, и т.д.?

#backend #programming #python #russian

0

11.12.2019

1 ответов

38 просмотров

Denis Kalinochkin · Accepted Answer

Denis Kalinochkin

Для NER желательно иметь правильную пунктуацию и капитализацию, ФИО без этого сложнее распознать. SA не так важно, но на качество может влиять. Можно попробовать бертом восстановить пунктуацию

0

11.12.2019

170 похожих чатов

Ребят такой вопрос. Есть куча текстовых данных полученных из voice

1 ответов

Похожие вопросы