170 похожих чатов

Друзья, у кого-нибудь есть инструкция как обучить FastText? Я хочу делать

sentence similarity of topic names на английском, но их много. Пару десятков миллионов и мне нужен размер конечный, чтобы был tiny не больше 50 Мб.
Что подскажете?

Хотя проще взять all-MiniLM-L6-v2

8 ответов

10 просмотров

Инструкции по обучению fasttext есть на сайте fasttext, или, альтернативно, на сайте gensim. Чтобы он был был маленький, нужно установить размерность вектора небольшую, и небольшой же размер словаря.

Erdeni- Автор вопроса
David Dalé
Инструкции по обучению fasttext есть на сайте fast...

Я вот думал сделать квантование на 8 бит. Но чёт это дело пахнет каким-то олдскулом

Erdeni
Я вот думал сделать квантование на 8 бит. Но чёт э...

Да не, нормально. Но квантование с 32 до 8 бит уменьшает размер в 4 раза, так что стандартный предлбученный FT у тебя ужмется только с 4гб до 1гб условно. Можно еще взять мой пакет compress-fasttext; он делает прунинг и pq-квантизацию, так что ту же модель он может ужать условно до 40мб с небольшой потерей качества и некоторым замедлением инференса

Erdeni- Автор вопроса
David Dalé
Да не, нормально. Но квантование с 32 до 8 бит уме...

Как раз ваша статья на Хабре навеяла на эти мысли. В идеале своя Natasha 25 Мб, но не только новости 2019 г. 😩 На проде не бывает GPU, к сожалению, в большинстве случаев.

Erdeni
Как раз ваша статья на Хабре навеяла на эти мысли....

Ну rubert-tiny вроде на cpu работает довольно быстро, и для прода его можно экспортнуть в TorchScript или onnx

David Dalé
Да не, нормально. Но квантование с 32 до 8 бит уме...

Ещё бы я добавил что есть проблема получения нулевых векторов для коротких слов. Этой проблемы нет у моделей размером с ~200Mb.

Anton
Ещё бы я добавил что есть проблема получения нулев...

Там при прунинге можно указать свои тексты с частотами; тогда у частых слов будет приоритет на сохранение ненулевых векторов.

Похожие вопросы

Обсуждают сегодня

Мужики и девушки, привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных...
Kraszx
14
Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
13
А вот это что за конструкция? Вернее, она тут нафига?
Serjone
10
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
Мужики. привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных элементов...
Kraszx
2
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
я так понимаю, я так подозреваю, что создание такого плагина для человека, кто умеет писать плагины для делфи потребует минут 5-10 времени. но это мое подозрение. хотелось бы ...
Kraszx
7
Всем привет! Кто пользуется DevExpress, подскажите пожалуйста, реализован ли в TcxGrid в новых версиях поиск по датам как в Экселе (ну т.е. не просто список чекбоксов со значе...
A Z
4
Карта сайта