на различные технические темы.
- Статьи содержат разного типа содержимое. Схемы, изображения, код, таблицы, файлы.
- Я бы хотел автоматически, полагаю с помощью ML, извлечь смысловые выдержки из всех статей, чтобы их отображать как краткое изложение на странице списка статей. Объёмом в параграф достаточно.
Читаю на данный момент про Abstraction-based summarization. Есть ли еще подходы для такой цели?
сюда не смотрели https://huggingface.co/spaces/mteb/leaderboard вкладка Summarization
На Хагингфэйс ходил, спасибо за конкретную ссылку
А не подскажете как sbert применить к задаче суммаризации? По ссылке, как я понял, там сравнивается близость ответа модели и челвоека в датасете mteb/sumeval, т.е. оценки реферата, а не его создания
https://github.com/UKPLab/sentence-transformers/blob/master/examples/applications/text-summarization/text-summarization.py
https://pypi.org/project/bert-extractive-summarizer/
Обсуждают сегодня