Всем добрый вечер! Пробовал кто-нибудь обучать DistilBERT на русском языке?

Question

Natural Language Processing

Сергей В К

Всем добрый вечер! Пробовал кто-нибудь обучать DistilBERT на русском языке?

Нужно для чат-бота на русском под Android. Может, есть какие то маленькие модели на русском?

#nlp #programming #russian

0

18.10.2023

14 ответов

17 просмотров

Сергей В К Автор вопроса

David Dalé
Я пробовал, и знаю, что DeepPavlov пробовал тоже: ...

Огромное спасибо! Это и искал 👍

0

18.10.2023

Сергей В К Автор вопроса

David Dalé
Я пробовал, и знаю, что DeepPavlov пробовал тоже: ...

Давид, скажите, пожалуйста, можно ли доучить cointegrated/rubert-tiny2 на моем тексте (задача QA, медицина), используя стандартную процедуру (https://huggingface.co/docs/transformers/tasks/question_answering)?

0

18.10.2023

David Dalé

Сергей В К
Давид, скажите, пожалуйста, можно ли доучить coint...

Однозначно можно. Но я не могу заранее предсказать, насколько качество упадёт по сравнению с использованием более крупной модели (скажем, bert-base с 12 слоями вместо 3 слоёв у tiny). Априори кажется, что для задачи question answering модель должна выполнить довольно много логики: сначала вычленить вопрос, затем вычленить в тексте какие-то ключевые слова, связанные с этим вопросом и подсказывающие что ответ где-то рядом, и только потом выделить начало и конец ответа. Возможно, что трёхслойная модель просто не успеет всю эту логику провернуть. Но, конечно, надо экспериментировать.

0

18.10.2023

Oleg

Сергей В К
Давид, скажите, пожалуйста, можно ли доучить coint...

А почему есть желание дообучать такую архитектуру, а не LLM, например Сайгу или Мистраль — разве для QA они сравнимы по качеству? P.S. Мне для схожих задач удавалось подставлять rubert-tiny2 в примеры с transformers, работало но чтобы обучение пошло, пришлось learning_rate изменить на порядок и эпох вдвое добавить к примеру из на bert из transformers.

0

18.10.2023

Сергей В К Автор вопроса

David Dalé
Однозначно можно. Но я не могу заранее предсказать...

Спасибо, попробую!

0

18.10.2023

Сергей В К Автор вопроса

Oleg
А почему есть желание дообучать такую архитектуру,...

нужна маленькая модель для Android без доступа к сети

0

18.10.2023

Oleg

Сергей В К
нужна маленькая модель для Android без доступа к с...

Тогда ясно, попробуйте еще e5-small и, может быть, если базу ответов можно сделать, то cos sim на них и вопросе, может на моделях squad2 от Sentence-Transformers. И кажется DeepPavlov для QA еще что-то хорошее open sourc’ил.

0

18.10.2023

David Dalé

Сергей В К
нужна маленькая модель для Android без доступа к с...

Кстати, а что сейчас для вас является бОльшим ботлнеком - размер модели или время на её инференс? Мне любопытно, потому что я сам вообще ни разу трансформеры на смартфонах не запускал) Если основная беда в размере, то можно попробовать уменьшить модель, выкинув из словаря эмбеддинги для редко используемых слов, а чтобы повысить качество, добавить ещё несколько трансформерных слоёв. А если проблема в скорости, но не в мегабайтах, то можно наоборот добавить больше токенов в словарь, чтобы уменьшить число токенов на один текст, а значит, и количество вычислений. Ну и разные другие хаки тоже можно применять, чтобы выменивать память на скорость или наоборот.

0

18.10.2023

Sergey Bratchikov

David Dalé
Кстати, а что сейчас для вас является бОльшим ботл...

Насколько кстати хороша практика добавлять / удалять слои, особенно учитывая что они видимо с рандомной инициализацией идут в первом случае?

0

18.10.2023

David Dalé

Sergey Bratchikov
Насколько кстати хороша практика добавлять / удаля...

Эта практика - не очень стандартная. Но если у вас достаточно большой обучающий датасет, то это может сработать. При добавлении новых слоёв у меня хорошо заходило обучать одну эпоху только новые слои с большим learning rate, заморозив все старые, чтобы модель не сломалась. А потом уже размораживать все слои, уменьшать learning rate, и дообучать всю модель целиком.

0

18.10.2023

Сергей В К Автор вопроса

David Dalé
Кстати, а что сейчас для вас является бОльшим ботл...

Важно и то и другое. Делаем что то вроде умного голосового помощника по узкой теме

0

18.10.2023

Sergey Bratchikov

David Dalé
Эта практика - не очень стандартная. Но если у вас...

спасибо

0

18.10.2023

Dmitry

Сергей В К
Важно и то и другое. Делаем что то вроде умного го...

Звучит классно, напиши пожалуйста потом результат, как оно запустилось на смартфоне, с какой скоростью и тд

0

18.10.2023

David Dalé · Accepted Answer

David Dalé

Я пробовал, и знаю, что DeepPavlov пробовал тоже: 1. https://huggingface.co/cointegrated/rubert-tiny2 2. https://huggingface.co/models?sort=trending&search=DeepPavlov%2Fdistilrubert

0

18.10.2023

170 похожих чатов

Всем добрый вечер! Пробовал кто-нибудь обучать DistilBERT на русском языке?

14 ответов

Похожие вопросы