методы крутить - по скорости думаю все справятся.
Самое простое - начать с визуального контроля - посмотреть видны ли кластеры на глаз - это можно сделать так:
сделать one-hot encdoding - мы получаем матрицу размера 1мил х 16*4
с этой матрицей можно сделать
1) ПСА, юмап - и посмотреть видны ли кластеры
2) можно попробовать сделать sns.clustermap - но не уверен что это потянет по скорости и картинка будет четкой - тут лучше даунсемплить до 100-1000-... .
PS
Если есть совсем четкие кластеры - юмап их покажет, (и может даже ПСА - но оно хуже видит кластеры) . Как на картинке .https://www.kaggle.com/code/alexandervc/ribonanza-1-eda?scriptVersionId=144787111&cellId=10
Но это редкость чтоб прям так четко было видно
Фига, это круто но не, задача немного другая. Я ожидаю, что среди миллиона сиквенсов у меня отличных последовательностей на самом деле, скажем, тысяча, и они повторяются много-много раз, но часто с ошибками.
чтобы по быстрому проверить эту гипотезу - можешь взять один секвенс и подсчитатать дистансы хемминга или левенстейна ко всем остальным и нарисовать распределение если будет маленький кластер отдельный от большого горба - то веротяно так и есть - есть кучка сиквенсов близких к твоем , и есть все остальное https://www.kaggle.com/code/alexandervc/ribonanza-1-eda?scriptVersionId=144787111&cellId=106
Обсуждают сегодня