(16 нт) последовательностей отличающихся друг от друга не более чем на N замен? Типа как для UMI, но UMI-tools что-то медленновато работает...
CD-hit не подходит ? https://www.kaggle.com/code/alexandervc/cd-hit-sequence-clustering в принципе можно вычислить дистансы, из них граф сделать, граф кластеризовать Лейденом https://www.kaggle.com/code/alexandervc/cafa5-23-groups-and-folds-diamond-igraph но тогда нужен типа даймонда тул - быстро находить сколько-то близких сиквенсов PS ну или может в этом списке что-то есть https://en.wikipedia.org/wiki/Sequence_clustering
спасибо, посмотрю!
а сколько сиквенсов по порядку величины ? 100к ? 1миллион...
ближе к миллиону
Обсуждают сегодня