170 похожих чатов

Привет есть размеченный датасет, состоящий из большого текста (до 2048

токенов). Следует в тексте выделить важные части. Условно абзацы или предложение подчеркнуть (highlighting). Так сказать, почистить документ от не важной информации. Я думаю в трех направлениях:
1. Взять Т5 и зафайнтюнить ее. Как суммаризатор.
2. Свести это к задаче QA или token-classification.
3. Классификатор подобен BERT-Sum
Возможно, кто-то сталкивался с таким и может поделиться советами или идеями?

6 ответов

12 просмотров

Я делал суммаризации , что extractive , что abstractive (также есть еще задача text simplification) - у вас по описанию похоже на extractive summarization , поэтому полная t5 где и декодер есть , имхо несильно подойдет , она не будет «подчеркивать» , она будет генерировать текст (возможно это и нужно , я не знаю) , можно действительно использовать модели с подчеркиванием нужных/ненужных спанов аля token classification, если задача стоит на уровне слов или фраз . А если обычная extractive summarization , то я делал просто хороший энкодер предложений и ранжировал предложения (алгоритмов как это сделать на самом деле много, но суть примерно одна , грубо говоря выделить такие top k предложений , относительно которых остальные близки/лежат рядом с ними в кластере )

вот пример из sentence-transformers последнего что я описал, где используется lexrank (connected components) https://github.com/UKPLab/sentence-transformers/blob/master/examples/applications/text-summarization/text-summarization.py

᠌Vladimir Gurevich
вот пример из sentence-transformers последнего что...

или вот , довольно старый пакет. который я признаюсь честно не использовал никогда (в отличие от sentence-transformers) https://github.com/dmmiller612/bert-extractive-summarizer но там как раз также делается , судя по коду

Oleksandr- Автор вопроса
᠌Vladimir Gurevich
Я делал суммаризации , что extractive , что abstra...

да у меня задача extractive summarization. А как можно на таком датасете зафайнтюнить свой энкодер. Возможно уже есть готовые пайплайны?

Oleksandr
да у меня задача extractive summarization. А как ...

ну я думаю можно использовать как раз вариант упомянутого bertsum(либо похожий вариант), а именно натренировать encoder по сути + какой-нибудь classifier layer, который классифицирует релевантность(или не релевантность) конкретного предложения, относительно репрезентации всего текста (которую мы например по предложениям стекаем через тот же encoder) пытался сейчас какой-то готовый pipeline найти для этого, но не нашел. но пожалуй вот здесь можно посмотреть https://github.com/HHousen/TransformerSum/blob/master/src/extractive.py либо можно посмотреть у тех же bertsum - https://github.com/nlpyang/BertSum/blob/master/src/models/model_builder.py#L58 подход с классификацией , но если мне память не изменяет, у меня были траблы на практике с подобных подходом (я давно правда их смотрел, по моему там проблема с ограничением у бертов, там мало предложений можно ему запихнуть)

Oleksandr
да у меня задача extractive summarization. А как ...

я когда-то писал, https://github.com/IlyaGusev/summarus/blob/master/external/hf_scripts/train_extractive.py https://github.com/IlyaGusev/summarus/blob/master/external/hf_scripts/extractive_model.py

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта