Да, это одно из направлений, которым я занимаюсь) Правда, не на дрозофиле, а на мыши и немножко крысе
а есть какие-то вопросы которые близки к вопросам прояснения функций каких-то белков ? и что ты думаешь о применимости тут методов типа как то о чем эта статья и текущий каггл конкурс - то есть логика типа - есть разметка на каких-то генах, а мы ее хотим перенсти на другие гены - учим мл модель, что получилось то получилось
Предсказание термина GO, на мой взгляд, не самая лучшая задача, потому что само по себе отнесение того или иного гена, например, к "long-term memory" у меня лично вызывает вопросы. Это могут быть гены, экспрессия которых меняется при обучении, либо гены, чей нокдаун влияет на поведение, как в этой статье, не знаю. И опять же в этой статье не было какого-то контроля. Например, взять какие-то гены, которые не относятся к "long-term memory", но из близкой группы, какие-нибудь синаптические белки, и проверить, влияют ли они на обучение.
Предсказание функции у белков, функции которых неизвестны, наверно имеет смысл, но наверно это скорее для организмов, чей геном плохо изучен. Например, у нас коллеги изучают транскриптом нейронов улитки после обучения, и понятно, что там у кучи генов функции неизвестны. Ну и мыши по-прежнему есть гены, чья функция неизвестна, но насколько предсказание функции будет верным для таких белков, тоже непонятно
в этом общая проблема этой задачи - больше 40 000 GO-термов, и про очень многие отнесение белка к той или иной категории или вызывает вопросы (и нет однозначной методики которая говорит да или нет) или очевидно и хорошо известно без всяких моделей... в этом проблема, поэтому я и пытаюсь понять есть ли какие-то биологически осмысленные вопросы на которые можно пытаться отвечать этими моделями в приведенной выше статье авторы кроме лонг терм мемори упоминали какие-то био-фильмы, и мотилити https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1835-8 но не ясно где такие примеры еще брать, насколько они и кому актуальны
Биологический смысл может появиться, если вы сможете извлечь информацию, по каким признакам она сделала это предсказание, особенно если предсказание действительно оказалось хорошим.
по каким признаком то понятно - сивенсы близки - функции близки, просто близость сиквенсов в хитром смысле может быть
Вообще ни разу не очевидно, особенно в контексте GO. Я не видела список "long-term memory" , но вангую, что там находятся гены с очень разным сиквенсом.
это да , я имел ввиду - что ты на мыши определила лонг-терм мемори гены - а дальше - условно - по близости сиквенсов переносим их на другие организмы
Интересно, за счёт чего тогда выигрыш по сравнению с бластом?
За счет профильных выравниваний был до сих пор
А что такое профильные выравнивания? Можно хотя бы ссылкой
"This is because sequence similarity-based methods such as BLAST tend to perform best when transferring basic biochemical annotations such as enzymatic activity. Functions in biological process, such as pathways, may not be as preserved by sequence similarity, hence the poor BLAST performance in BPO."
https://www.ebi.ac.uk/training/online/courses/protein-classification-intro-ebi-resources/what-are-protein-signatures/signature-types/what-are-profiles/
Обсуждают сегодня