170 похожих чатов

Всем добрый вечер! Пробовал кто-нибудь обучать DistilBERT на русском языке?

Нужно для чат-бота на русском под Android. Может, есть какие то маленькие модели на русском?

14 ответов

13 просмотров

Я пробовал, и знаю, что DeepPavlov пробовал тоже: 1. https://huggingface.co/cointegrated/rubert-tiny2 2. https://huggingface.co/models?sort=trending&search=DeepPavlov%2Fdistilrubert

Сергей В-К Автор вопроса
Сергей В-К Автор вопроса
David Dalé
Я пробовал, и знаю, что DeepPavlov пробовал тоже: ...

Давид, скажите, пожалуйста, можно ли доучить cointegrated/rubert-tiny2 на моем тексте (задача QA, медицина), используя стандартную процедуру (https://huggingface.co/docs/transformers/tasks/question_answering)?

Сергей В К
Давид, скажите, пожалуйста, можно ли доучить coint...

Однозначно можно. Но я не могу заранее предсказать, насколько качество упадёт по сравнению с использованием более крупной модели (скажем, bert-base с 12 слоями вместо 3 слоёв у tiny). Априори кажется, что для задачи question answering модель должна выполнить довольно много логики: сначала вычленить вопрос, затем вычленить в тексте какие-то ключевые слова, связанные с этим вопросом и подсказывающие что ответ где-то рядом, и только потом выделить начало и конец ответа. Возможно, что трёхслойная модель просто не успеет всю эту логику провернуть. Но, конечно, надо экспериментировать.

Сергей В К
Давид, скажите, пожалуйста, можно ли доучить coint...

А почему есть желание дообучать такую архитектуру, а не LLM, например Сайгу или Мистраль — разве для QA они сравнимы по качеству? P.S. Мне для схожих задач удавалось подставлять rubert-tiny2 в примеры с transformers, работало но чтобы обучение пошло, пришлось learning_rate изменить на порядок и эпох вдвое добавить к примеру из на bert из transformers.

Сергей В-К Автор вопроса
Oleg
А почему есть желание дообучать такую архитектуру,...

нужна маленькая модель для Android без доступа к сети

Сергей В К
нужна маленькая модель для Android без доступа к с...

Тогда ясно, попробуйте еще e5-small и, может быть, если базу ответов можно сделать, то cos sim на них и вопросе, может на моделях squad2 от Sentence-Transformers. И кажется DeepPavlov для QA еще что-то хорошее open sourc’ил.

Сергей В К
нужна маленькая модель для Android без доступа к с...

Кстати, а что сейчас для вас является бОльшим ботлнеком - размер модели или время на её инференс? Мне любопытно, потому что я сам вообще ни разу трансформеры на смартфонах не запускал) Если основная беда в размере, то можно попробовать уменьшить модель, выкинув из словаря эмбеддинги для редко используемых слов, а чтобы повысить качество, добавить ещё несколько трансформерных слоёв. А если проблема в скорости, но не в мегабайтах, то можно наоборот добавить больше токенов в словарь, чтобы уменьшить число токенов на один текст, а значит, и количество вычислений. Ну и разные другие хаки тоже можно применять, чтобы выменивать память на скорость или наоборот.

David Dalé
Кстати, а что сейчас для вас является бОльшим ботл...

Насколько кстати хороша практика добавлять / удалять слои, особенно учитывая что они видимо с рандомной инициализацией идут в первом случае?

Sergey Bratchikov
Насколько кстати хороша практика добавлять / удаля...

Эта практика - не очень стандартная. Но если у вас достаточно большой обучающий датасет, то это может сработать. При добавлении новых слоёв у меня хорошо заходило обучать одну эпоху только новые слои с большим learning rate, заморозив все старые, чтобы модель не сломалась. А потом уже размораживать все слои, уменьшать learning rate, и дообучать всю модель целиком.

Сергей В-К Автор вопроса
David Dalé
Кстати, а что сейчас для вас является бОльшим ботл...

Важно и то и другое. Делаем что то вроде умного голосового помощника по узкой теме

Сергей В К
Важно и то и другое. Делаем что то вроде умного го...

Звучит классно, напиши пожалуйста потом результат, как оно запустилось на смартфоне, с какой скоростью и тд

Похожие вопросы

Обсуждают сегодня

а через ESC-код ?
Alexey Kulakov
29
30500 за редактор? )
Владимир
47
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
13
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
6
в JclConsole объявлено так: function CtrlHandler(CtrlType: DWORD): BOOL; stdcall; - где ваше объявление с stdcall? у вас на картинке нет stdcall
Karagy
8
Ребят в СИ можно реализовать ООП?
Николай
33
program test; {$mode delphi} procedure proc(v: int32); overload; begin end; procedure proc(v: int64); overload; begin end; var x: uint64; begin proc(x); end. Уж не знаю...
notme
6
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта