170 похожих чатов

Привет любителям NLP! Мне сказали, что здесь живую мега-зубры))) я

с вопросом)

есть английские тексты по биологии. и есть большая проблема с предобработкой текста) word2vec и ему подобные не понимают, что заковыристые названия биологических субстанции и их аббревиатуры - это одно и то же.

также большая проблема с тем, что когда есть предложение, а потом идет следом предложение со ссылкой на предыдущее, например: "Молекула ДНК хранит информацию обо всех частях организма. Она..." Так вот это "Она" модель не понимает, что она относится к ДНК, а не к слову "организм", например.

в итоге, надо как-то научиться предобрабатывать текст, чтобы находить в нем синонимы максимально качественно. а также вычленять контекст так, чтобы было понятно, к чему относятся местоимения.

какие есть идеи? fasttext бесполезен как будто? или что еще можно поинтереснее? эта проблема решается предобработкой или надо все-таки разметить данные, создать опорный словарь и уже по нему обучать, чтобы вытаскивать синонимы и акронимы?

также вопрос - как можно вписаться на ваши онлайн тусовки? 🙈

9 ответов

14 просмотров

еще 1 вариант, теперь как бейзлайн 😁

А какую задачу вы решаете? Озвученные проблемы существуют, но неочевидно решение каких поможет самой задаче.

Aigiz K
screenshot еще 1 вариант, теперь как бейзлайн 😁

Прикольно. Проверил такой подход на Llama-2 вполне себе рабочий. Причем модель 13B на GPU. Use the following pieces of context to answer the question. If the answer is not contained in the context, please don't share false information. Context: Последний раз Марлена видела Солнечную систему, когда ей было чуть больше года. Конечно, она ее не помнила. Она много читала о ней, но у нее никогда не возникало ощущения, что она является частью того мираили тот мир - частью ее. Question: Определи, в данном контексте к чему относится "ее"? Answer: "ее" относится к Марлене. Другой пример: После выступления были накрыты обеденные столы в местной гостинице, гостям налили водки, Левитан произнес тост за Победу. Горин отмечал: «Он выпил, может, даже две рюмки. Но тут ему предложили еще по рюмке. Он: "Я не возражаю". Левитан снова выпил. И ему стало плохо, очень плохо. Вывели на улицу, усадили в машину, повезли в Октябрьский. Это поселок километрах в двенадцати от нас. Повезла его на нашей колхозной "Волге" секретарь парткома Валентина Павловна Карпенко». Answer: Левитан

miteigi nemoto
Прикольно. Проверил такой подход на Llama-2 вполне...

Кстати, если ли смысл говорить с моделью вежливо и писать в промпте слова "please" и аналогичные? Или стоит наоборот с ней как с роботом и максимально сухо давать приказы?

Alexander 🎤👑 Diesel
Кстати, если ли смысл говорить с моделью вежливо и...

есть, на будущее, они все запоминают сейчас, может быть потом убьют не в первую очередь. Я всегда вежливо общаюсь с ЛЛМками ;(

Kir L
есть, на будущее, они все запоминают сейчас, может...

А пока будущего нет и хочется получать максимальный эффект сейчас? Может, были какие-то исследования по этой теме или общепринятые правила

Alexander 🎤👑 Diesel
А пока будущего нет и хочется получать максимальны...

задавался этим вопросом, ничего внятного не нашел по теме, но правда давно

Alexander 🎤👑 Diesel
Кстати, если ли смысл говорить с моделью вежливо и...

Я пока не понял откуда столько вежливости в примерах на английском) Но из экспериментов выявил, что очень важно подобрать правильный промт сделать. Вот пример начала промта Use the following pieces of context to summary. If the answer is not contained in the context, please don't share false information. Context: ЗДЕСЬ ТЕКСТ НА РУССКОМ Ответ получается на английском языке. Даже если в начале попросить ответить на русском - все равно на английском пишет. Но стоит в конце после контекста добавить Question: Напиши по данному контексту краткое резюме. Он отвечает на русском языке.

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта