на юридическом домене (законы, бухгалтерия, кадры)?
Задача - найти ближайших к источнику (заголовок, аннотация, ключевые слова, текст - всё есть и создано человеком)
Как будто бы для юридических текстов должно работать примерно всё то же самое: LaBSE из коробки, дообучение fasttext'а. Более того, я в жизни видел fasttext классификатор приговоров суда.
👍🏻точно, попробую фасттекст дообучить. Сейчас USE тестирую. В целом неплохо, только не получается им задать бОльший вес для ключевых слов.
Если совсем уже ключевые слова нужны - то может лучше старый добрый TF-IDF, а не эмбеддинги? Там и веса можно подкручивать.
Обсуждают сегодня