А что мешает взять таблицу результатов того же MMseq2 от выравнивания 200к белков на себя же, сгруппировать по query, сортировать по identity внутри группы и внутри каждой гру...