У меня совсем нет опыта в глубоком обучении.
Допустим, есть данные метагеномного секвенирования, в них я хочу найти гомологи какого-то конкретного белка. Назовем его белок Х. BLAST и HMMER я уже использовала, может использование эмбеддингов на том что осталось даст какой-то результат.
Правильно ли я понимаю, что для всех найденных контигов из метагеномных данных мне надо получить их эмбеддинги, и затем по какой-то метрике отобрать те, которые близки белку Х?
Тогда вопросы:
1) Какую метрику лучше использовать? Cosine similarity подойдёт?
2) Какие эмбеддинги лучше использовать? Подойдёт ли ESM-2?
Спасибо
Не надо так делать. Попробуйте hhblits и hhsearch
Обсуждают сегодня