Похожие чаты

Ну это все равно не так много — можно любые

методы крутить - по скорости думаю все справятся.

Самое простое - начать с визуального контроля - посмотреть видны ли кластеры на глаз - это можно сделать так:

сделать one-hot encdoding - мы получаем матрицу размера 1мил х 16*4
с этой матрицей можно сделать

1) ПСА, юмап - и посмотреть видны ли кластеры

2) можно попробовать сделать sns.clustermap - но не уверен что это потянет по скорости и картинка будет четкой - тут лучше даунсемплить до 100-1000-... .

PS
Если есть совсем четкие кластеры - юмап их покажет, (и может даже ПСА - но оно хуже видит кластеры) . Как на картинке .https://www.kaggle.com/code/alexandervc/ribonanza-1-eda?scriptVersionId=144787111&cellId=10

Но это редкость чтоб прям так четко было видно

2 ответов

20 просмотров

Фига, это круто но не, задача немного другая. Я ожидаю, что среди миллиона сиквенсов у меня отличных последовательностей на самом деле, скажем, тысяча, и они повторяются много-много раз, но часто с ошибками.

Alexander-C Автор вопроса
Ilya Flyamer
Фига, это круто но не, задача немного другая. Я ож...

чтобы по быстрому проверить эту гипотезу - можешь взять один секвенс и подсчитатать дистансы хемминга или левенстейна ко всем остальным и нарисовать распределение если будет маленький кластер отдельный от большого горба - то веротяно так и есть - есть кучка сиквенсов близких к твоем , и есть все остальное https://www.kaggle.com/code/alexandervc/ribonanza-1-eda?scriptVersionId=144787111&cellId=106

Похожие вопросы

Обсуждают сегодня

а через ESC-код ?
Alexey Kulakov
29
30500 за редактор? )
Владимир
47
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
13
any reference of this implementation?
BitBuddha
29
Ⓐrtto, [4/23/24 7:02 PM] Please explain more fully how it is not working exactly, and what are the steps you are taking, and what error messages come or what happens. Ⓐrtto, ...
Ezza Kezza
2
sounds like people have lost their kaspa on tradeogre... does this mean tradeogre not trustworthy?
Ezza Kezza
15
Страшнейшая правда про списки ЦБ. С первых дней жизни P2P сферы, молодые человеки, начитавшись законодательной базы и "внутренних" документов, решили, что им противостоит сер...
Foxcool
3
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
So much speculation in the last week. So much volatility in price. This is because Hedera has a GC that isn't using the network it's governing. Why aren't people asking why a...
Summit Seeker R
9
Карта сайта