что почитать ? Что использовать?
дообучить, формат датасета
Если есть доступ и нет ограничения на вывод данных за периметр, то гпт4 и Клод отлично справляются с этой задачей. На контурных свободных ллм надо пробовать
Llama 2 13b в промте просишь составь вопросы к тексту.
Я пробовал gpt3, но тексты специфические, по физике. Вопросы генерятся без проблем все "внешне" правильные, но примерно в 1/3 случаев на эти вопросы невозможно ответить только из текста...
На какой теме или предметной области пробовал? Я пробовал по школьной физике - gpt знает её хреново...
Для улучшения поиска в справочных системах пробовали генерировать запросы к документам с помощью https://huggingface.co/doc2query/msmarco-russian-mt5-base-v1
У меня была нефтянка. Как академические тексты, так и статьи. Работал с Клодом. Загружал документ и просил задать к нему вопросы. Потом эти же вопросы просил связать с конкретными абзацами текста.
Что это gpt сделала, я не сомневаюсь. А несколько хорошо: действительно ли на сгенеренный вопрос можно дать ответ этим текстом и тем более абзацем?
Делали обратный фокус. Давали вопрос и просили ответить используя полный текст, с выделением абзацев, которые вошли в ответ
И что - нефтяники были довольны работой Клода? Я тоже делал обратную задачу с gpt - хрень полная. По физике gpt примерно в 1/3/ случаев не видит, что отвечает не вполне на свой вопрос и не вполне по тексту параграфа учебника... Или у вас цель не строгие научные ответы для потребителя, а помощь экспертам в их экспертизе?
У нас, пока, больше экспертиза. Точные ответы с цитатами будем еще предстоит штурмовать
Понял. Ваших экспертов ждут сюрпризы от gpt, как я уже столкнулся на примере с физикой. П.С. Около 10 лет назад я сотрудничал с нефтянкой в лице ТНК-ВР, - интересные были времена!
Подскажешь, как именно вы интерфейсились с Клодом? Через api или как? Хочу посмотреть, насколько он хорош в физике.
а поиск какой полнотекстовый или семантический?
Через телеграм-бот на "коленке"
Понял ;) Сейчас зашел на официальную страницу Клода, и там нет возможности зарегиться из России. Я москвич, сейчас живу в Крыму, и зарегиться даже как Украина не могу - в перечне Клода указано, что Украина кроме Крыма и ДНР/ЛНР.
Надо под Казахстан косить или Киргизию
А можешь в личку скинуть ссыль на этого бота? Задам Клоду пару-тройку вопросов по физике, в которых тупит chatgpt
Полнотекстовый в elasticsearch
А семантический почему не включить?
Нехватка разработчиков. Я проводила для компании исследование на примере дочерней системы на узбекском языке, предложила двигаться в этом направлении и... задачу взяли на конец следующего квартала.
А большой индекс? Какой объём документов?
Суммарно кажется несколько миллионов статей. От небольших новостей до юридических кодексов. Я там уже не работаю..
How are you doing in Uzbek?
его конечно можно включать и нужно бывает, только это ж doc2query :) в оригинальном doc2query методе так и делают, генерят запросы, и используют их...над bm25(например es) индексом. голый doc2query (из практики) особенно смысла использовать над векторами смысла нет, оно релевантности все попортит (хотя если нужно обычное вхождение в топ и метрика или FRR или MRR, то ок). поэтому потом появились GPL и многие другие методы (в тех же sentence-transformers GPL есть)
как то не очень вопросы после обучения... Text: Нужно ли начислять страховые взносы на ошибочно выплаченное пособие по нетрудоспособности, по беременности и родам и др., если ФСС отказал в возмещении затрат Да, нужно, если удержать ошибочно выплаченные суммы с сотрудника не удалось или по решению руководства взыскивать их не стали. Пособия по социальному страхованию входят в перечень выплат, не облагаемых страховыми взносами (ст. 422 НК, ст. 20.2 Закона от 24.07.1998 № 125-ФЗ). Но если в ходе проверки специалисты ФСС обнаружили, что пособие было выплачено с нарушениями, и потому не приняли его к зачету, то выплата считается начисленной в рамках трудовых отношений. То есть она должна облагаться страховыми взносами на общих основаниях, как это предусмотрено пунктом 1 статьи 420 НК и пунктом 1 статьи 20.1 Закона от 24.07.1998 № 125-ФЗ. Тут еще имеет значение, удалось ли взыскать с сотрудника неправомерно выплаченное пособие. Если да, то начислять взносы не нужно. Ведь деньги были возвращены, и значит, выплаты как таковой в итоге не было. А потому и нет объекта обложения страховыми взносами. При этом неважно, вернул сотрудник деньги добровольно или же учреждение взыскало их с него принудительно. Удержать ошибочно выплаченные суммы с сотрудника не удалось или по решению руководства взыскивать их не стали? Тогда факт выплаты есть. Соответственно, придется начислить страховые Queries: 1: возврат пособия по беременности и родам 2: возврат в фсс заявление на зачет 3: возврат страховых взносов неправомерно 4: на что обратиться при удержанном страховом взносе 5: оплата взносов на детей по больничному можно ли их расширить? даже если ставить вопрос в конце предложения он не понятен (
А это не вопросы, а гипотетические запросы пользователей на сайте. Посмотрите свою историю в гугле - вы ставите знак вопроса в конце, используете вопросительные слова и сложноподчиненные обороты?)) Как раз после дообучения результат генерации стал похож на реальные запросы
ммм... это получается генерация поисковых запросов к тексту у меня немного другая задача генерация вопросов к тексту т.е. есть некая инструкция на производстве нужно сгенериривоать проверочные вопросы к тексту
Ну попробуйте из коробки https://huggingface.co/doc2query/msmarco-russian-mt5-base-v1
придется в настройки генерации лезть
Можно попробовать на этом датасете обучить FRED-T5. Он умнее mt5 будет
😄 ждёт пока мы до неё доберемся похоже ))
Надо замутить сходку нлпишников в Крыму, пока погода позволяет 😁 я от тебя часах в 2-3 езды примерно, Севас вообще на отшибе от цивилизованного Крыма 😀 шучу 🫠
Привет! Глянул твою страничку - МЫ МОЖЕМ ЗАМЕНИТЬ ЛЮДЕЙ НА ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ. При этом, в обоих продуктах не используется OpenAI API (ChatGPT и т. п.) и другие API, пересылающие ваши данные за рубеж. Только отечественные серверы, соответствующие 152-ФЗ. Что за отечественные серверы ИИ, которые могут составить конкуренцию ChatGPT, - расскажешь? Добро пожаловать в Севастополь 👍
«Составить конкуренцию ChatGPT» при наличии бюджетов - вообще не проблема. Проблема как раз таки в наличии бюджетов 😁
…ну просто прикинь, Майкрософт по состоянию на первую половину этого года влила в OpenAI более 10 миллиардов долларов. Это огромные деньги. Огромные. Это любых спецов можно нанять. Любое оборудование. Проблема однако в том, что в РФ на них накупят золотых унитазов и на этом дело закончится 😀 это если совсем кратко.
Это не ответ на вопрос! Лично меня даже качество chatgpt не устраивает: я создаю нейроучителя по физике и таааакого бреда нагенерила мне gpt от опеэйай :)) Вчера поюзал gpt от Сбера - вообще нечего обсуждать: ниже плинтуса. Яндекс ещё не пробовал, но не думаю, что лучше Сбера 😂
Ну вообще у генеративок плохо с математикой
Да не про математику речь... Физические формулы я даже не пытаюсь обсуждать. Речь про ОБОСНОВАННОСТЬ текстовых суждений по физике. Беда №1 - gpt плохо знает дефиниции (это текст). Беда №2 - gpt даже не всегда самостоятельно опирается на дефиниции, если только не начать диалог по вытягиванию этих дефиниций, и только потом по наведению на ответ. Беда №3 - gpt от раза к разу даже на одни и те же вопросы дает разные обоснования...
Вопросы на русском или английском задавали? ChatGPT на русском почти не обучалась.
Конечно, на русском. При переводе на английский нужно иметь эксперта-лингвиста по физике, чтобы отслеживать корректность перевода терминов и типичных для русского языка оборотов.
В сложных областях при мышлении на чужом языке ChatGPT будет галлюцинировать только так. Не обучена. А вот если мыслить на родном ей языке, а потом переводить, то результат будет лучше. Я знаю компанию, которая так нишевые статьи на сайте переводит на дюжину языков. Они в контекст как раз докидывают конспект от специалиста по терминам на данном языке. Экономят ~10кEUR в месяц на переводчиках.
Увы, для нейроучителя это не вариант. Здесь нужно онлайн общение, а не туда-сюда переводы, которые по-любому с английского на русский вернутся не русским, точнее, не русским русским, а английским русским (это неприемлемо для учеников). Предположу, что "экономят ~10кEUR в месяц на переводчиках" не тотально, а на черновых переводах, которые потом все равно дочищаются вручную...
У меня взгляд зацепился за "~10кEUR в месяц" и мне сразу стало интересна эта беседа 😁🤣 - они что, в системный промпт небольшой отраслевой глоссарий помещают, или что?
Почти. Набор инструкций по переводу с указанием ошибок. Если что-то модель изначально умеет правильно, то говорить про это - только контекст забивать. Что прикольно- у них весь текст в markdown. Поэтому оформление, выделение текста, ссылки и иллюстрации модель тоже переносит на другие языки. С живыми переводчиками со ссылками вечно была проблема.
Вот теперь все стало на свои места! Чтобы составить наборЫ инструкций по переводу с указанием ошибок для каждого из дюжины языков, живые переводчики, вероятно, полгода шишки набивали с реальными ответами gpt? Это, по, сути, файнтюнинг или дообучение gpt - как удобнее, так и можно назвать.
А откуда берется список ошибок? 🤨 Как и кто его формирует? Или речь идет о "типичных ошибках"?
Человек сформулировал один раз, под конкретную модель, язык и нишу
Я немного не о том) То есть он выявил именно типичные ошибки и вставил их коррекцию в системный промпт, я правильно понял (я прост оне уверен что понял правильно)?
...ну, повторяющиеся ошибки из раза в раз
Ага. Не столько ошибки, сколько выявил слабые стороны модели и описал, как дествовать в таких случаях. Как если бы обучал новенького на работе.
А, ну, это понимаемом вполне. Я буквально на днях писал для GPT-4 должностную инструкцию по работе со мной))) те самые 1500 символов ))) кстати, на примерах она лучше всего понимает, впрочем, как и я сам)))) мы с ней похожи, за то и люблю))))
Обсуждают сегодня