товары? Текстов много, больше чем на 8К токенов и они между собой не связаны.
- Пробовала ru-bart, много повторов получается (из серии арбуз очень сладкий, сладкий) и противоречий (сладкий, но немного кислый)
- Пробовала saiga (но у меня только V100 (оч странные результаты, ну как в карточке и написано), а в T4 в колабе не влезает),
- пробовала llama2-13b-orca-8k-3319 - результат получше, но тоже не влезает все в контекстное окно, делала саммари по частям по 8к и потом саммари над несколькими саммари
- про llamaindex читала, но не нашла реализации именно для саммари, все больше поиск по многостраничным документам
TLDR: Подскажите, пожалуйста, как лучше сделать саммари 300-400 отзывов и как такое впихивать в контекстное окно в 8к
попробуйте langchain c map_reduce саммари, правда я для отзывов не знаю как сработает, суть в том, что сначала по каждому тексту делается свое саммари, а потом объединяется в общее
Большое спасибо, попробую
В таком случае может лучше кластеризацию? Нарисовать большой рисунок кластеров и будет наглядно видно какие группы отзывов. Саммари просто в конце концов может свести к одному предложению: или в среднем хорошо или в среднем плохо в зависимости от того, каких больше положительных или отрицательных. Моя гипотеза
У меня для каждого отзыва оценки есть) то есть уже понятно, хорошо или плохо. Задача понять что именно плохо или хорошо. Ключевые слова и нграммы считаю уже, но и саммари нужно
Может саммари по кластерам, а потом их конкатенировать, вместо саммари?) это так просто гипотеза
Там даже по каждому классу( ну то есть по оценкам от 1 до 5) получается по 300 отзывов и саммари просто в лоб (как я писала) не оч хорошее
Обсуждают сегодня