выравнивания 200к белков на себя же, сгруппировать по query, сортировать по identity внутри группы и внутри каждой группы взять топ-K последовательностей? А так вообще MMseq2 и кластеризовать умеет. Я им не делал такого никогда правда. А так всякие кластеризаторы справятся, думаю. cd-hit тот же или Meshclust2.
- MMseq2 от выравнивания 200к белков на себя же, ну все-таки это ресурсо-затрантей - если нам нужно только К-ближайших обычно есть способы избежать расчета полной матрицы 200 000 х 200 000 . кластеризация - это близкая задача, но все же несколько другая - чем построение К-НН графа
Ну да, может равнять на себя - не очень по ресурсам. Тогда кластеризация наверное. У MMseq2 есть для неё порог по identity последовательностей. Да и не только у MMseq2.
Обсуждают сегодня