с вопросом)
есть английские тексты по биологии. и есть большая проблема с предобработкой текста) word2vec и ему подобные не понимают, что заковыристые названия биологических субстанции и их аббревиатуры - это одно и то же.
также большая проблема с тем, что когда есть предложение, а потом идет следом предложение со ссылкой на предыдущее, например: "Молекула ДНК хранит информацию обо всех частях организма. Она..." Так вот это "Она" модель не понимает, что она относится к ДНК, а не к слову "организм", например.
в итоге, надо как-то научиться предобрабатывать текст, чтобы находить в нем синонимы максимально качественно. а также вычленять контекст так, чтобы было понятно, к чему относятся местоимения.
какие есть идеи? fasttext бесполезен как будто? или что еще можно поинтереснее? эта проблема решается предобработкой или надо все-таки разметить данные, создать опорный словарь и уже по нему обучать, чтобы вытаскивать синонимы и акронимы?
также вопрос - как можно вписаться на ваши онлайн тусовки? 🙈
А какую задачу вы решаете? Озвученные проблемы существуют, но неочевидно решение каких поможет самой задаче.
Прикольно. Проверил такой подход на Llama-2 вполне себе рабочий. Причем модель 13B на GPU. Use the following pieces of context to answer the question. If the answer is not contained in the context, please don't share false information. Context: Последний раз Марлена видела Солнечную систему, когда ей было чуть больше года. Конечно, она ее не помнила. Она много читала о ней, но у нее никогда не возникало ощущения, что она является частью того мираили тот мир - частью ее. Question: Определи, в данном контексте к чему относится "ее"? Answer: "ее" относится к Марлене. Другой пример: После выступления были накрыты обеденные столы в местной гостинице, гостям налили водки, Левитан произнес тост за Победу. Горин отмечал: «Он выпил, может, даже две рюмки. Но тут ему предложили еще по рюмке. Он: "Я не возражаю". Левитан снова выпил. И ему стало плохо, очень плохо. Вывели на улицу, усадили в машину, повезли в Октябрьский. Это поселок километрах в двенадцати от нас. Повезла его на нашей колхозной "Волге" секретарь парткома Валентина Павловна Карпенко». Answer: Левитан
Кстати, если ли смысл говорить с моделью вежливо и писать в промпте слова "please" и аналогичные? Или стоит наоборот с ней как с роботом и максимально сухо давать приказы?
есть, на будущее, они все запоминают сейчас, может быть потом убьют не в первую очередь. Я всегда вежливо общаюсь с ЛЛМками ;(
Д - дальновидность
А пока будущего нет и хочется получать максимальный эффект сейчас? Может, были какие-то исследования по этой теме или общепринятые правила
задавался этим вопросом, ничего внятного не нашел по теме, но правда давно
Я пока не понял откуда столько вежливости в примерах на английском) Но из экспериментов выявил, что очень важно подобрать правильный промт сделать. Вот пример начала промта Use the following pieces of context to summary. If the answer is not contained in the context, please don't share false information. Context: ЗДЕСЬ ТЕКСТ НА РУССКОМ Ответ получается на английском языке. Даже если в начале попросить ответить на русском - все равно на английском пишет. Но стоит в конце после контекста добавить Question: Напиши по данному контексту краткое резюме. Он отвечает на русском языке.
Обсуждают сегодня