170 похожих чатов

Привет любителям NLP! Мне сказали, что здесь живую мега-зубры))) я

с вопросом)

есть английские тексты по биологии. и есть большая проблема с предобработкой текста) word2vec и ему подобные не понимают, что заковыристые названия биологических субстанции и их аббревиатуры - это одно и то же.

также большая проблема с тем, что когда есть предложение, а потом идет следом предложение со ссылкой на предыдущее, например: "Молекула ДНК хранит информацию обо всех частях организма. Она..." Так вот это "Она" модель не понимает, что она относится к ДНК, а не к слову "организм", например.

в итоге, надо как-то научиться предобрабатывать текст, чтобы находить в нем синонимы максимально качественно. а также вычленять контекст так, чтобы было понятно, к чему относятся местоимения.

какие есть идеи? fasttext бесполезен как будто? или что еще можно поинтереснее? эта проблема решается предобработкой или надо все-таки разметить данные, создать опорный словарь и уже по нему обучать, чтобы вытаскивать синонимы и акронимы?

также вопрос - как можно вписаться на ваши онлайн тусовки? 🙈

9 ответов

11 просмотров

еще 1 вариант, теперь как бейзлайн 😁

А какую задачу вы решаете? Озвученные проблемы существуют, но неочевидно решение каких поможет самой задаче.

Aigiz K
screenshot еще 1 вариант, теперь как бейзлайн 😁

Прикольно. Проверил такой подход на Llama-2 вполне себе рабочий. Причем модель 13B на GPU. Use the following pieces of context to answer the question. If the answer is not contained in the context, please don't share false information. Context: Последний раз Марлена видела Солнечную систему, когда ей было чуть больше года. Конечно, она ее не помнила. Она много читала о ней, но у нее никогда не возникало ощущения, что она является частью того мираили тот мир - частью ее. Question: Определи, в данном контексте к чему относится "ее"? Answer: "ее" относится к Марлене. Другой пример: После выступления были накрыты обеденные столы в местной гостинице, гостям налили водки, Левитан произнес тост за Победу. Горин отмечал: «Он выпил, может, даже две рюмки. Но тут ему предложили еще по рюмке. Он: "Я не возражаю". Левитан снова выпил. И ему стало плохо, очень плохо. Вывели на улицу, усадили в машину, повезли в Октябрьский. Это поселок километрах в двенадцати от нас. Повезла его на нашей колхозной "Волге" секретарь парткома Валентина Павловна Карпенко». Answer: Левитан

miteigi nemoto
Прикольно. Проверил такой подход на Llama-2 вполне...

Кстати, если ли смысл говорить с моделью вежливо и писать в промпте слова "please" и аналогичные? Или стоит наоборот с ней как с роботом и максимально сухо давать приказы?

Alexander 🎤👑 Diesel
Кстати, если ли смысл говорить с моделью вежливо и...

есть, на будущее, они все запоминают сейчас, может быть потом убьют не в первую очередь. Я всегда вежливо общаюсь с ЛЛМками ;(

Kir L
есть, на будущее, они все запоминают сейчас, может...

А пока будущего нет и хочется получать максимальный эффект сейчас? Может, были какие-то исследования по этой теме или общепринятые правила

Alexander 🎤👑 Diesel
А пока будущего нет и хочется получать максимальны...

задавался этим вопросом, ничего внятного не нашел по теме, но правда давно

Alexander 🎤👑 Diesel
Кстати, если ли смысл говорить с моделью вежливо и...

Я пока не понял откуда столько вежливости в примерах на английском) Но из экспериментов выявил, что очень важно подобрать правильный промт сделать. Вот пример начала промта Use the following pieces of context to summary. If the answer is not contained in the context, please don't share false information. Context: ЗДЕСЬ ТЕКСТ НА РУССКОМ Ответ получается на английском языке. Даже если в начале попросить ответить на русском - все равно на английском пишет. Но стоит в конце после контекста добавить Question: Напиши по данному контексту краткое резюме. Он отвечает на русском языке.

Похожие вопросы

Обсуждают сегодня

Какой-то там пердун в 90-х решил, что есть какая-то разная типизация. Кого вообще это волнует?
КТ315
49
void terminal_scroll() { memmove(terminal_buffer, terminal_buffer + VGA_WIDTH, buffer_size - VGA_WIDTH); memset(terminal_buffer + buffer_size - VGA_WIDTH, 0, VGA_WIDTH); ...
Егор
47
Всем привет! Подскажите, пожалуйста, в чем ошибка? Настраиваю подключение к MySQL. Либы лежат рядом с exe. Все как по "учебнику"
Евгений
16
А можете как-то проверить меня по знаниям по ассемблеру?
A A
132
Здравствуйте! У меня появилась возможность купить книгу "Изучай Haskell во имя добра!". Но я где-то слышал, что эта книга устарела. Насколько это правда??
E
22
Здравствуйте! Я вот на stepic решаю задачи на хаскеле https://stepik.org/lesson/8443/step/8?unit=1578 мой код import Data.List (isInfixOf) removing :: String -> [String] ->...
E
10
Камрады, кто тесно работал с vtv, хотел уточнить. Ширина column задаётся жёстко на этапе создания дерева или можно в рантайме ее менять программно (не мышкой)?
Ed Doc
10
да ладно ... что там неочевидного ? глянуть в исх-ки датасета и/или кверика чтобы понять в каком месте и как выполняется обращения к св-вам blablaSQL - минутное дело, даже е...
Сергей
7
Здесь для arm кто-нибудь кодит ?
Nothing
52
Всем привет, у меня есть сервер принимающий входящие HTTP подключения, как проверить, что подключение было через прокси или нет, есть какие то поля в заголовках по которым мо...
DS
8
Карта сайта