всем доброй ночи. У кого-то есть опыт файнтюна модели, которая возвращает эмбеддинги? конкретно речь идет об этой https://huggingface.co/intfloat/multilingual-e5-base сейчас...
всем привет! есть такой эмбеддер https://huggingface.co/intfloat/multilingual-e5-large там в карточке модели есть два способа ее использовать: через торч и через sentencetran...
друзья, вернемся от ЛЛМ к "классике" немного первый раз классифицирую мало текстов - по 200 на класс, 10 классов (примерно 2к сэмплов всего) подскажите по своему опыту, пожалу...
друзья, вчера спрашивал, но ответа не было посоветуйте НЕ tiny (бошую!) модель руссского берта с ХФ для файнтюна для классификации малых данных ;( диппавлов норм? DeepPavlov/...
всем привет вопрос тем, кто съел собаку на чат-ГПТ есть миллионный диалог (примерно столько сообщений), "размечены" по задающему вопросы и отвечающему (грубо - клиент: операт...
коллеги, вернусь к своим классификационным трагедиям. напомню, тексты от 50 до 5к слов, медиана 750, текстов было 750 сэмплов, F1 0.72 (плохая точность, сносная полнота). Сег...
всем доброе утро вопрос скорее общий, но данные текстовые, решил тут спросить предсказываю 4 класса по очень коротким текстам сейчас рок 0.93, а ф1 взвешенная 0.76, начальник ...
всем привет не уверен, что тут, но недавно обсуждалась тема text2sql интересно ее следующее обобщение: кто знает, можно ли чатГПТ подсунуть в каком-то виду таблицу, например, ...
друзья, каков вообще риск получить критически разную векторизацию с помощью Е5 (large) на ЦПУ и ГПУ? вижу по гуглу, что такое у кого-то бывало. векторизую базу локально на ЦП...
друзья, простите, если не совсем по теме канала вопрос тем, кто съел собаку на всяких чат-бот платформах представьте, что вы запилили какой-то МВП прототип чат-бот-сервиса, ко...
коллеги, всем привет о классификации текстов от абзаца до страницы, медиана 750 слов, текстов мало (750 сэмплов). Бинарная, соотношение целевого класса к прочему 1:2 (примерн...
коллеги, вернусь к кластеризации и снижении размерностей данных "из коробки" получилось 430к фич (ТФидф помог) что кластеринг, что РСА - вылетает кернел как правильно поступит...
удивительная история грид с одной нграммой символов 3..5 и несколькими большими (больше 100) С для логрега вешает мой мак м1 до смертельной перезагрузки. Похоже, мне пора в ко...
коллеги, не совсем по ДС вопрос, но может подскажете есть тест с assert'ом, ассерт сравнивает идеальный словарь с тем, что генерит код. в словаре значения - списки. и иногда ...
друзья, а можно на правах пятницы как всегда "о бане"?( вот я закрепился на работе, не самой лучше, но все же, иногда сеньорю, иногда джуню, но чаще второе. все вокруг NLP, ч...
Коллеги, может у кого-то будут идеи. Извлекаем наименования компаний из текста, который весь в нижнем регистре. Наташей. Увы, из-за нижнего регистра получается плохая полнота....
Товарищи, склоняю имена Арина, Алена с помощью пайморфи, он думает, что это мужские имена Арин и Ален, и соответственно склоняю. Есть у кого-то идеи, как принудить его думать,...
получается, один эксперимент это примерно 5000 строк?
привет, продублирую тут вопрос. есть яндекс спич кит, спич ту текст почему-то выписывает реплики с именами собственными и названиями с маленькой буквы, даже имена людей поулча...
--- В связи с этой же задачей такой вопрос. Я векторизую (с помощью USE) миллион записей, кладу вектора в датафрейм в отдельный столбец. Все отрабатывает отлично (правда за 1...