чел
Но у меня возникла задача взять LLM и обучить с помощью неё классификатор. Я планирую взять какую-нибудь llama, взять у неё embedding-и и их использовать как входные данные в модельку-классификатор. Для начала хотелось бы получить бинарную классификацию — true / false условно, а потом может быть и мультиклассовую
Так вот, наткнулся я на feature extraction pipeline в библиотеке "transformers" от hugging face: https://huggingface.co/tasks/feature-extraction
Но документации по ней мало. Я так понимаю она возвращает эмбеддинги с каждого слоя? Какие тогда лучше брать? Или взять весь тензор для классификации и пофигу? А если хочется ещё с другими модельками поэкспериментировать и сравнить результаты — то как лучше поступить?
Может есть ещё какие-то способы классификатор обучить?
Любые советы приветствуются, спасибо)
так, а как вы пропустили в типах задач название text classification?
Я сразу гуглил про эмбеддинги
Обсуждают сегодня