обнаружил, что какой-то алгоритм сокращения размерности/компрессии (ЕМНИП применяемый в программах-архиваторах) выдает для кластеризации лексикона качество, сравнимое с векторными эмбеддингами слов (ЕМНИП, "старых" и статичных типа word2vec).
точно помню, что даже тут было обсуждение, но в упор не могу найти по ключевым словам или вспомнить название хоть чего-то. не подскажете?🥹🥹🥹
Потом все опровергли) Ну, их эффективность
все равно хочу все прочитать сам😅😅😅
https://backdrifting.net/post/068_text_classification_gzip Такое нашел, кажется оно
точняк! спасибо огромное!
не обнаружили они никакой алгоритм сокращения размерности или компрессии. советую всегда помимо статьи смотреть их код. благо они его выкладывали. в котором явно видно, что делают они пребанальнейшую штуку (по памяти сейчас воспроизвожу) 1. считают distance матрицу на нормализованных (NCD) скорах от компрессии(не их собственной, а обычнейший gzip) 2. делают knn по ней у них как потом это многие опровергающие заметили, сработало ввиду какого-то довольного простого датасета для low resource языков. в обычной жизни это не работает, и про метод компрессии(не самый лучший метод) и как фича и как некое сходство(e.g. https://github.com/chrislit/abydos/tree/master/abydos/compression) , все сто лет уже как знают
дак вот чтобы посмотреть исходный код и пейпер, я и спрашивал) спасибо за ссыль!
Обсуждают сегодня