клиентов и агентов (уже переведенные в текст). Я пытаюсь найти обещания, которые дал агент клиенту в каждом звонке.
Я уже сделал восстановление пунктуации. Но есть много предложений, которые не имеют никакого смысла (просто набор не связанных слов). Хотелось бы удалить такие предложения. Интересно, какой подход лучше для этой задачи?
Мои идеи:
• tf idf и word2vec для создания векторов из всех предложений. После этого мы можем сделать что-то вроде anomaly detection, то есть искать и удалять векторы, которые сильно отклонены от большинства других векторов.
• Спам-фильтры. Может быть, можно применить спам фильтры для этой задачи?
• Ещё одна идя: cоздать образец речевых тегов, которые должно включать правильное предложение. Например, любое хорошее предложение должно включать существительное + глагол. Или мы можем использовать, например, dependency tokens из spacy.
Был бы рад услышать ваши идеи или коменты к моим!
по третьему пункту - "сделаем!"
Обсуждают сегодня