себя не структурированы, нужно в каждом найти «описание проблемы»
Естественно заголовка по типу «Проблема», а далее ее описания нет. Подскажите, пожалуйста, как вообще можно решать задачи подобного типа, с чего начинать, если кто-то сталкивался?
Из идей, что делать, это опираться на части речи в абзацах
Также есть идея построения графа связей и попытка вопросно-ответной системы
Поделитесь, пожалуйста, релевантным опытом!
Мне кажется самым адекватным подход "в лоб": - Сделать небольшую выборку текстов (несколько десятков), и ручками выделить в них части, описывающие проблему. Для этого удобно использовать labelstud.io или другую платформу для ручной разметки. - Разбить каждый текст на куски размером от абзаца до предложения (смотря насколько крупные описания проблемы вы нашли) - Обучить какую-то модель (можно пробовать и логрег на мешке слов, и трансформеры) на задачу классификации этих кусков: содержит ли в себе этот кусок описание проблемы, или нет. Возможно, что в процессе разметки удастся найти достаточно стабильные ключевые слова, указывающие на наличие проблемы, и тогда обучать вообще ничего не понадобится, достаточно будет написать регулярку с этими словами.
Обсуждают сегодня