Товарищи, прошу помощи несколько месяцев назад была такая новость: неожиданно кто-то

Question

Товарищи, прошу помощи несколько месяцев назад была такая новость: неожиданно кто-то

обнаружил, что какой-то алгоритм сокращения размерности/компрессии (ЕМНИП применяемый в программах-архиваторах) выдает для кластеризации лексикона качество, сравнимое с векторными эмбеддингами слов (ЕМНИП, "старых" и статичных типа word2vec).

точно помню, что даже тут было обсуждение, но в упор не могу найти по ключевым словам или вспомнить название хоть чего-то. не подскажете?🥹🥹🥹

#nlp #programming #russian

0

03.11.2023

6 ответов

16 просмотров

Cyril Автор вопроса

Alexander
Потом все опровергли) Ну, их эффективность

все равно хочу все прочитать сам😅😅😅

0

03.11.2023

Alexander

Cyril
все равно хочу все прочитать сам😅😅😅

https://backdrifting.net/post/068_text_classification_gzip Такое нашел, кажется оно

0

03.11.2023

Cyril Автор вопроса

Alexander
https://backdrifting.net/post/068_text_classificat...

точняк! спасибо огромное!

0

03.11.2023

᠌Vladimir Gurevich

не обнаружили они никакой алгоритм сокращения размерности или компрессии. советую всегда помимо статьи смотреть их код. благо они его выкладывали. в котором явно видно, что делают они пребанальнейшую штуку (по памяти сейчас воспроизвожу) 1. считают distance матрицу на нормализованных (NCD) скорах от компрессии(не их собственной, а обычнейший gzip) 2. делают knn по ней у них как потом это многие опровергающие заметили, сработало ввиду какого-то довольного простого датасета для low resource языков. в обычной жизни это не работает, и про метод компрессии(не самый лучший метод) и как фича и как некое сходство(e.g. https://github.com/chrislit/abydos/tree/master/abydos/compression) , все сто лет уже как знают

0

04.11.2023

Cyril Автор вопроса

᠌Vladimir Gurevich
не обнаружили они никакой алгоритм сокращения разм...

дак вот чтобы посмотреть исходный код и пейпер, я и спрашивал) спасибо за ссыль!

0

04.11.2023

Alexander · Accepted Answer

Alexander

Потом все опровергли) Ну, их эффективность

0

03.11.2023

170 похожих чатов

Товарищи, прошу помощи несколько месяцев назад была такая новость: неожиданно кто-то

6 ответов

Похожие вопросы