Доброго дня всем! подскажите какую LLM для рерайтинга отзывов ( английские)

Question

Natural Language Processing

Dmitriy

Доброго дня всем! подскажите какую LLM для рерайтинга отзывов ( английские)

использовать в июле 2023?
желательно что бы она GPU 16 -24 Gb входила
и с инференсом в 1-2с
Спасибо

#nlp #programming #russian

0

17.07.2023

15 ответов

49 просмотров

Олег Рубан

Доброго дня) В наше время проще взять будет готовое решение на базе GPT3.5/GPT4 по API или использовать что-то вроде TurboText - там как раз рерайт и генератор отзывов есть. Варианты на Т5 для английского неплохие (на русском ерунда только полная), но сильно уступают по развёрнутости и креативности в сравнении с вышеуказанными вариантами. Если нужны короткие отзывы, то T5 с дообучением подойдёт.

0

17.07.2023

Dmitriy Автор вопроса

Олег Рубан
Доброго дня) В наше время проще взять будет готово...

хотелось бы уйти от API ибо дорого т.к. планируется несколько сотен тысяч нужно локальное решение

0

17.07.2023

Олег Рубан

Там цена 0.002$ за 1000 токенов. Если у вас короткие отзывы (50-300 токенов), то на 1$ вам хватит порядка 5000 отзывов

0

17.07.2023

Rinat Abdullin

Олег Рубан
Там цена 0.002$ за 1000 токенов. Если у вас коротк...

Кстати, а OpenAI API tokens округляет до 1000 или так считает? Цены всегда за 1000

0

17.07.2023

Олег Рубан

Rinat Abdullin
Кстати, а OpenAI API tokens округляет до 1000 или ...

Округляет только в конце месяца, а не за каждую генерацию. В личном кабинете идут потом цены за каждый вызов и в конце месяца, если 540341 токена потрачено, то округлят до 541К

0

17.07.2023

Dmitriy Автор вопроса

Олег Рубан
Округляет только в конце месяца, а не за каждую ге...

порядка 10000 токенов в отзыве (

0

17.07.2023

Олег Рубан

Dmitriy
порядка 10000 токенов в отзыве (

10000 токенов - это около 30000 символов, вы курсовые пишете или отзывы? Даже в 2000 символов отзывы читают менее 1% людей

0

17.07.2023

Олег Рубан

Dmitriy
порядка 10000 токенов в отзыве (

и в 10000 токенов ни одна модель из HF генерировать не будет

0

17.07.2023

datascience xc

Олег Рубан
и в 10000 токенов ни одна модель из HF генерироват...

Будет

0

17.07.2023

Олег Рубан

datascience xc
Будет

покажите хоть одну такую модель, пожалуйста)

0

17.07.2023

datascience xc

Та же mpt storywriter. Можно на Т5 алиби эмбеддинги натянуть

0

17.07.2023

datascience xc

datascience xc
Та же mpt storywriter. Можно на Т5 алиби эмбеддинг...

Long T5 есть

0

17.07.2023

Олег Рубан

datascience xc
Та же mpt storywriter. Можно на Т5 алиби эмбеддинг...

config.max_seq_len = 83968 # (input + output) tokens can now be up to 83968 и посмотрите в конфиг, где указано 4096, т.е. они обрезают по 4096 и потом склеивают их, чтобы обработать эти 83968, модель не принимает всю информацию из 84К токенов сразу, а делает партициями, из-за чего если подавать текст на 84К, где каждые 4К токенов будет разная информация, то модель запутается, потому что она уже не будет знать, что было ранее

0

17.07.2023

Aidar Valeev

datascience xc
Long T5 есть

еще BLOOM и RMT

0

17.07.2023

datascience xc · Accepted Answer

datascience xc

На HF много моделей на T5

0

17.07.2023

170 похожих чатов

Доброго дня всем! подскажите какую LLM для рерайтинга отзывов ( английские)

15 ответов

Похожие вопросы