Хз, я ж данные не смотрел, да и вряд ли буду :)
ну поможет погруппировать датку на трейне
пишут есть 37к (почти)дублей трейн тест. но разные сигнал-то-нойз
Если это все про задачу с РНК, то нужна сверточная модель, которая хавает матрицу выравнивания, в каждой ячейке которого указан эмбеддинг пары динуклеотидов, потом свернуть 3-4 раза, превратить в линейный слой, дать attention 8-миголовый, а на выходе развертка, которая предсказывает вероятности образования связей. Дальше просто обработать, чтобы на каждый нуклеотид было не больше одной связи и вероятность была больше пороговой. Мы такую модель делали, как выйдет статья, скину, если будет интересно) Мы делали для высокоскоростного предсказания вторичных структур с учетом псевдоузлов
хорошо бы ты это запостил на каггл форум данной соревы https://www.kaggle.com/competitions/stanford-ribonanza-rna-folding/discussion раздел "discussion"
"Матрица выравнивания" это в данном контексте- что ?
Две последовательности AGGCTG ACCGTG Выравниваем по принципу: названия столбцов - нуклеотиды первой последовательности, название строк - нуклеотиды второй последовательности. Напротив пересечения пары нуклеотидов (в ячейке соответствующей первым буквам пары) ставим индекс от 0 до сколько там вариантов, означающий данное взаимодействие. Так получаем матрицу всех возможных димеров
в Каггл задаче последовательности в последоватьльность как это соотносится с "ДВЕ последовательнсти" ?
Это комплексная задача. Я говорю про ту, где проверка на взаимодействие. На генерацию: это отдельная модель должна быть
Обсуждают сегодня