170 похожих чатов

Уважаемые профессионалы, дайте совет😜 Задача: предсказывать/подсказывать по вводимому тексту/запросу фильм Имеется: отзывы

вида [ id фильма, список эмбеддингов каждого слова отзыва ]
Вопросы:
1) может ли справиться с задачей классификации какой-либо классификатор, если таких меток (уникальных фильмов) скажем 500? И если да, какой? Или нейронка?
2) Будет ли вообще что-то обучаться, если кидать на вход метку фильма и список эмбеддингов например из word2vec? Нет особо опыта, но по идее добавляем Flatten слой и это обычный набор параметров для полносвязного слоя?

1 ответов

17 просмотров

0. эмбеддинги слов лучше заменить на эмбеддинги всего отзыва, смотрите sbert.net. на худой конец усредните, 1. проще NearestNeighbors использовать из sklearn, 2. Предсказывать (сквозные) id идея так себе. Что-то может и получится, если фильмов << отзывов, но пересечения будут ("фильм плохой"). Составляете базу из эмбеддингов отзывов -> id, ищете ближайшие эмбеддинги к запросу, топN например. в annoy или NearestNeighbors из sklearn можно использовать косинусное расстояние, если эмбеддинги не нормализованы. можно руками просто достроить до классификатора. не просто knn (голосование), потому что просто knn найдёт ближайшие отзывы ("фильм плохой" -> тупо часто будет в кучке), вам можно встроить эвристику при выводе: из найденных K > заданного M из topN отзывов к одному фильму относятся, тогда скорее всего про него (K / N = confidence > M / N = threshold). Можно взвешивать по расстоянию еще взвешивать (это все и KNN может, тут не суть). основное что надо воткнуть в отличие от knn, это topN можно показывать списком, и можно дополнительно измерить расстояние названий фильмов в топN до вектора запроса и взять его как обратный вес. тогда все будет работать как "ногу на ногу перекидывают, что-то там про инстинкты" будет близко к основному инстинкту (по отзывам и названию), а не про природу с Дроздовым или утреннюю зарядку.

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта