фингерпринтов?
Мы так делали для похожей задачи
А какой алгоритм кластеризации брали? Я в итоге пришел к DBSCAN/OPTICS
смотря для чего - для целей предсказать таргеты - кластеризовать как раз по таргетам - самое оно
А как это поможет? Ну то есть как отнести неизвестное соединение к кластеру по таргетам?
у нас в трейне и тесте соединения одинаковы
такая цепочка: по Simplified molecular-input line-entry system (SMILES) посчитаны circular fingerprints, расстояния - посчитаны по Tanimoto similarity. То есть кластеры отображают схожесть химической структуры получается. @Alexander_V_C таргеты вроде не участвуют же, или ты про другой способ?
Так а результаты на чем проверяют? Я чет запутался, первый компетишен все-таки)
Это да, мне было интересно, как метки кластеров получались из матрицы расстояний, а потом понял, что у вас немного по-другому устроено, я имел в виду вот такое
Таргеты можно подключить, если никто не возьмется, я попробую ближе к выходным проаннотировать соединения – изначально думал, что задача сложнее, а тут оказывается у всех молекул даже названия есть, то есть они как минимум в литературе описаны
а сорри, я думал ты по таргетам , а что за Танимото симилярити - это ты взяла из того паблик ноутбука ?
смотри - у нас две фичи - клеточный тип, драг, по отдельности все представлено в трейне и в тесте вопрос в комбинациях - в трейне - одни комбинации (то есть пары тип+драг), а в тесте другие ) , понятно ? или не очень ?
Для вычисления симилярити используют битовый вектор фиксированной длины – фингерпринт, в котором единицы соответствуют наличию той или иной подструктуре, соответственно, чем меньше расстояние между фингерпринтами, тем выше симилярити
Понятно, то есть новых соединений не появится?
а о каких структурах идет речь ? это специфино для смайлс ?
в этом конкрусе - НЕТ
О любых органических молекулах
по таргетам я как-то по быстрому кластеризовал тут вот https://www.kaggle.com/code/alexandervc/op2-eda-baseline-s?scriptVersionId=143396607&cellId=19
не, это из интернета)
Обсуждают сегодня