170 похожих чатов

Всем привет! 📗Есть задача генерации вопросов к тексту Посоветуйте

что почитать ? Что использовать?
дообучить, формат датасета

57 ответов

99 просмотров

Если есть доступ и нет ограничения на вывод данных за периметр, то гпт4 и Клод отлично справляются с этой задачей. На контурных свободных ллм надо пробовать

Llama 2 13b в промте просишь составь вопросы к тексту.

Я пробовал gpt3, но тексты специфические, по физике. Вопросы генерятся без проблем все "внешне" правильные, но примерно в 1/3 случаев на эти вопросы невозможно ответить только из текста...

Konstantin Galagan
Если есть доступ и нет ограничения на вывод данных...

На какой теме или предметной области пробовал? Я пробовал по школьной физике - gpt знает её хреново...

Для улучшения поиска в справочных системах пробовали генерировать запросы к документам с помощью https://huggingface.co/doc2query/msmarco-russian-mt5-base-v1

Игорь
На какой теме или предметной области пробовал? Я п...

У меня была нефтянка. Как академические тексты, так и статьи. Работал с Клодом. Загружал документ и просил задать к нему вопросы. Потом эти же вопросы просил связать с конкретными абзацами текста.

Что это gpt сделала, я не сомневаюсь. А несколько хорошо: действительно ли на сгенеренный вопрос можно дать ответ этим текстом и тем более абзацем?

Игорь
Что это gpt сделала, я не сомневаюсь. А несколько ...

Делали обратный фокус. Давали вопрос и просили ответить используя полный текст, с выделением абзацев, которые вошли в ответ

Konstantin Galagan
Делали обратный фокус. Давали вопрос и просили отв...

И что - нефтяники были довольны работой Клода? Я тоже делал обратную задачу с gpt - хрень полная. По физике gpt примерно в 1/3/ случаев не видит, что отвечает не вполне на свой вопрос и не вполне по тексту параграфа учебника... Или у вас цель не строгие научные ответы для потребителя, а помощь экспертам в их экспертизе?

Игорь
И что - нефтяники были довольны работой Клода? Я ...

У нас, пока, больше экспертиза. Точные ответы с цитатами будем еще предстоит штурмовать

Konstantin Galagan
У нас, пока, больше экспертиза. Точные ответы с ци...

Понял. Ваших экспертов ждут сюрпризы от gpt, как я уже столкнулся на примере с физикой. П.С. Около 10 лет назад я сотрудничал с нефтянкой в лице ТНК-ВР, - интересные были времена!

Konstantin Galagan
У нас, пока, больше экспертиза. Точные ответы с ци...

Подскажешь, как именно вы интерфейсились с Клодом? Через api или как? Хочу посмотреть, насколько он хорош в физике.

а поиск какой полнотекстовый или семантический?

Konstantin Galagan
Через телеграм-бот на "коленке"

Понял ;) Сейчас зашел на официальную страницу Клода, и там нет возможности зарегиться из России. Я москвич, сейчас живу в Крыму, и зарегиться даже как Украина не могу - в перечне Клода указано, что Украина кроме Крыма и ДНР/ЛНР.

Konstantin Galagan
Через телеграм-бот на "коленке"

А можешь в личку скинуть ссыль на этого бота? Задам Клоду пару-тройку вопросов по физике, в которых тупит chatgpt

Kate Sinkova
Полнотекстовый в elasticsearch

А семантический почему не включить?

miteigi nemoto
А семантический почему не включить?

Нехватка разработчиков. Я проводила для компании исследование на примере дочерней системы на узбекском языке, предложила двигаться в этом направлении и... задачу взяли на конец следующего квартала.

Kate Sinkova
Нехватка разработчиков. Я проводила для компании и...

А большой индекс? Какой объём документов?

miteigi nemoto
А большой индекс? Какой объём документов?

Суммарно кажется несколько миллионов статей. От небольших новостей до юридических кодексов. Я там уже не работаю..

miteigi nemoto
А семантический почему не включить?

его конечно можно включать и нужно бывает, только это ж doc2query :) в оригинальном doc2query методе так и делают, генерят запросы, и используют их...над bm25(например es) индексом. голый doc2query (из практики) особенно смысла использовать над векторами смысла нет, оно релевантности все попортит (хотя если нужно обычное вхождение в топ и метрика или FRR или MRR, то ок). поэтому потом появились GPL и многие другие методы (в тех же sentence-transformers GPL есть)

Dmitriy- Автор вопроса
Kate Sinkova
Для улучшения поиска в справочных системах пробова...

как то не очень вопросы после обучения... Text: Нужно ли начислять страховые взносы на ошибочно выплаченное пособие по нетрудоспособности, по беременности и родам и др., если ФСС отказал в возмещении затрат Да, нужно, если удержать ошибочно выплаченные суммы с сотрудника не удалось или по решению руководства взыскивать их не стали. Пособия по социальному страхованию входят в перечень выплат, не облагаемых страховыми взносами (ст. 422 НК, ст. 20.2 Закона от 24.07.1998 № 125-ФЗ). Но если в ходе проверки специалисты ФСС обнаружили, что пособие было выплачено с нарушениями, и потому не приняли его к зачету, то выплата считается начисленной в рамках трудовых отношений. То есть она должна облагаться страховыми взносами на общих основаниях, как это предусмотрено пунктом 1 статьи 420 НК и пунктом 1 статьи 20.1 Закона от 24.07.1998 № 125-ФЗ. Тут еще имеет значение, удалось ли взыскать с сотрудника неправомерно выплаченное пособие. Если да, то начислять взносы не нужно. Ведь деньги были возвращены, и значит, выплаты как таковой в итоге не было. А потому и нет объекта обложения страховыми взносами. При этом неважно, вернул сотрудник деньги добровольно или же учреждение взыскало их с него принудительно. Удержать ошибочно выплаченные суммы с сотрудника не удалось или по решению руководства взыскивать их не стали? Тогда факт выплаты есть. Соответственно, придется начислить страховые Queries: 1: возврат пособия по беременности и родам 2: возврат в фсс заявление на зачет 3: возврат страховых взносов неправомерно 4: на что обратиться при удержанном страховом взносе 5: оплата взносов на детей по больничному можно ли их расширить? даже если ставить вопрос в конце предложения он не понятен (

Dmitriy
как то не очень вопросы после обучения... Text:...

А это не вопросы, а гипотетические запросы пользователей на сайте. Посмотрите свою историю в гугле - вы ставите знак вопроса в конце, используете вопросительные слова и сложноподчиненные обороты?)) Как раз после дообучения результат генерации стал похож на реальные запросы

Dmitriy- Автор вопроса
Kate Sinkova
А это не вопросы, а гипотетические запросы пользов...

ммм... это получается генерация поисковых запросов к тексту у меня немного другая задача генерация вопросов к тексту т.е. есть некая инструкция на производстве нужно сгенериривоать проверочные вопросы к тексту

Dmitriy
ммм... это получается генерация поисковых запрос...

Ну попробуйте из коробки https://huggingface.co/doc2query/msmarco-russian-mt5-base-v1

Dmitriy
пробовал

придется в настройки генерации лезть

Dmitriy
пробовал

Можно попробовать на этом датасете обучить FRED-T5. Он умнее mt5 будет

Kate Sinkova
Нехватка разработчиков. Я проводила для компании и...

😄 ждёт пока мы до неё доберемся похоже ))

Игорь
Понял ;) Сейчас зашел на официальную страницу Кло...

Надо замутить сходку нлпишников в Крыму, пока погода позволяет 😁 я от тебя часах в 2-3 езды примерно, Севас вообще на отшибе от цивилизованного Крыма 😀 шучу 🫠

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
Надо замутить сходку нлпишников в Крыму, пока пого...

Привет! Глянул твою страничку - МЫ МОЖЕМ ЗАМЕНИТЬ ЛЮДЕЙ НА ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ. При этом, в обоих продуктах не используется OpenAI API (ChatGPT и т. п.) и другие API, пересылающие ваши данные за рубеж. Только отечественные серверы, соответствующие 152-ФЗ. Что за отечественные серверы ИИ, которые могут составить конкуренцию ChatGPT, - расскажешь? Добро пожаловать в Севастополь 👍

Игорь
Привет! Глянул твою страничку - МЫ МОЖЕМ ЗАМЕНИТЬ...

«Составить конкуренцию ChatGPT» при наличии бюджетов - вообще не проблема. Проблема как раз таки в наличии бюджетов 😁

Игорь
Привет! Глянул твою страничку - МЫ МОЖЕМ ЗАМЕНИТЬ...

…ну просто прикинь, Майкрософт по состоянию на первую половину этого года влила в OpenAI более 10 миллиардов долларов. Это огромные деньги. Огромные. Это любых спецов можно нанять. Любое оборудование. Проблема однако в том, что в РФ на них накупят золотых унитазов и на этом дело закончится 😀 это если совсем кратко.

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
«Составить конкуренцию ChatGPT» при наличии бюджет...

Это не ответ на вопрос! Лично меня даже качество chatgpt не устраивает: я создаю нейроучителя по физике и таааакого бреда нагенерила мне gpt от опеэйай :)) Вчера поюзал gpt от Сбера - вообще нечего обсуждать: ниже плинтуса. Яндекс ещё не пробовал, но не думаю, что лучше Сбера 😂

Игорь
Это не ответ на вопрос! Лично меня даже качество ...

Ну вообще у генеративок плохо с математикой

datascience xc
Ну вообще у генеративок плохо с математикой

Да не про математику речь... Физические формулы я даже не пытаюсь обсуждать. Речь про ОБОСНОВАННОСТЬ текстовых суждений по физике. Беда №1 - gpt плохо знает дефиниции (это текст). Беда №2 - gpt даже не всегда самостоятельно опирается на дефиниции, если только не начать диалог по вытягиванию этих дефиниций, и только потом по наведению на ответ. Беда №3 - gpt от раза к разу даже на одни и те же вопросы дает разные обоснования...

Игорь
Да не про математику речь... Физические формулы я ...

Вопросы на русском или английском задавали? ChatGPT на русском почти не обучалась.

Rinat Abdullin
Вопросы на русском или английском задавали? ChatG...

Конечно, на русском. При переводе на английский нужно иметь эксперта-лингвиста по физике, чтобы отслеживать корректность перевода терминов и типичных для русского языка оборотов.

Игорь
Конечно, на русском. При переводе на английский н...

В сложных областях при мышлении на чужом языке ChatGPT будет галлюцинировать только так. Не обучена. А вот если мыслить на родном ей языке, а потом переводить, то результат будет лучше. Я знаю компанию, которая так нишевые статьи на сайте переводит на дюжину языков. Они в контекст как раз докидывают конспект от специалиста по терминам на данном языке. Экономят ~10кEUR в месяц на переводчиках.

Rinat Abdullin
В сложных областях при мышлении на чужом языке Cha...

Увы, для нейроучителя это не вариант. Здесь нужно онлайн общение, а не туда-сюда переводы, которые по-любому с английского на русский вернутся не русским, точнее, не русским русским, а английским русским (это неприемлемо для учеников). Предположу, что "экономят ~10кEUR в месяц на переводчиках" не тотально, а на черновых переводах, которые потом все равно дочищаются вручную...

Rinat Abdullin
В сложных областях при мышлении на чужом языке Cha...

У меня взгляд зацепился за "~10кEUR в месяц" и мне сразу стало интересна эта беседа 😁🤣 - они что, в системный промпт небольшой отраслевой глоссарий помещают, или что?

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
У меня взгляд зацепился за "~10кEUR в месяц" и мне...

Почти. Набор инструкций по переводу с указанием ошибок. Если что-то модель изначально умеет правильно, то говорить про это - только контекст забивать. Что прикольно- у них весь текст в markdown. Поэтому оформление, выделение текста, ссылки и иллюстрации модель тоже переносит на другие языки. С живыми переводчиками со ссылками вечно была проблема.

Rinat Abdullin
Почти. Набор инструкций по переводу с указанием ош...

Вот теперь все стало на свои места! Чтобы составить наборЫ инструкций по переводу с указанием ошибок для каждого из дюжины языков, живые переводчики, вероятно, полгода шишки набивали с реальными ответами gpt? Это, по, сути, файнтюнинг или дообучение gpt - как удобнее, так и можно назвать.

Rinat Abdullin
Почти. Набор инструкций по переводу с указанием ош...

А откуда берется список ошибок? 🤨 Как и кто его формирует? Или речь идет о "типичных ошибках"?

Человек сформулировал один раз, под конкретную модель, язык и нишу

Rinat Abdullin
Человек сформулировал один раз, под конкретную мод...

Я немного не о том) То есть он выявил именно типичные ошибки и вставил их коррекцию в системный промпт, я правильно понял (я прост оне уверен что понял правильно)?

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
Я немного не о том) То есть он выявил именно типич...

Ага. Не столько ошибки, сколько выявил слабые стороны модели и описал, как дествовать в таких случаях. Как если бы обучал новенького на работе.

Rinat Abdullin
Ага. Не столько ошибки, сколько выявил слабые стор...

А, ну, это понимаемом вполне. Я буквально на днях писал для GPT-4 должностную инструкцию по работе со мной))) те самые 1500 символов ))) кстати, на примерах она лучше всего понимает, впрочем, как и я сам)))) мы с ней похожи, за то и люблю))))

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта