Всем привет :) А кто-то работает с поиском CNV из данных

Question

(sci)Berloga Bioinformatics, Biology, etc. Club

Всем привет :) А кто-то работает с поиском CNV из данных

иллюмины/бги (WES и WGS).
Я хочу использовать несколько тулов, чтоб сравнивать результаты и выдавать консенсунс как результат.
Проблема в том, что коллеры основанные на глубине прочтения (CNVkit/GATK-gCNV,etc) хотят панель нормальных пациентов. В нашем случае это все больные, из нескольких разных лабораторий, с немного разными китами и весьма разными годами секвенирования.
Как можно попробовать отсортировать образцы, чтоб они были +/- в одной группе по уровню тезнических шумов и имели один кит (учитывая огромную кучу мислейблов)?
Просто по названию лабы не получается, потому что разные года = разные машины зачастую и разные покрытия.

Я думал использовать covtobed с покрытием 50, делать пересечения бед-файлов и объединять в группу те, которые сходятся, например на 90% (с потолка цифра) - это будет одна группа и из неё выбирать сколько-то образцов чтоб построить PoN.
Это рабочий метод? Может есть какие-то другие решения?
Спасибо :)

0

13.06.2023

8 ответов

42 просмотра

Andrey

У вас раковые данные или просто экзомы крови?

0

13.06.2023

Georgii Ozhegov Автор вопроса

Andrey
У вас раковые данные или просто экзомы крови?

Просто экзомы и полные геномы

0

13.06.2023

Georgii Ozhegov Автор вопроса

Nikita Kotlov
по моему опыту, в общем случае не получится объеди...

Спасибо :) Я вот как раз думаю как правильней их делить на батчи :)

0

13.06.2023

Elena Sharova

Из алгоритмов вообще нельзя делать консенсус - посмотрите нашу работу по их воспроизводимости в разных диапазонах длин https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8277855/ . Т.е. все тулы про разное, и в зависимости от целей вам подойдут только 1-2-3 конкретных тула. Сейчас Вероника добавила тулы в анализ - свяжитесь с ней

0

13.06.2023

Georgii Ozhegov Автор вопроса

Elena Sharova
Из алгоритмов вообще нельзя делать консенсус - пос...

Спасибо :) Надеюсь там и gatk-gcnv будет в новых тулах :) Наверное да, это разумнее оставить какой-то более подходящий. Ну точнее отдельный для wes, отдельный для wgs, которые могут совпасть)

0

13.06.2023

Andrey

Elena Sharova
Из алгоритмов вообще нельзя делать консенсус - пос...

Посмотрел таблицу, возможно пропустил: неужели ни один тул не использует b allele frequency (процент аллелей в гетерозиготах )? Это же огромный пласт информации дополняющий покрытие. В раковой геномики вообще нельзя без этого.

0

13.06.2023

Mary Sem

Докину ещё статью для вдохновения, где оптимизировали параметры одного из тулов, используя ещё 2 других и сделали из всего этого пайплайн для WES/панелей sensitivity повысилась https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04452-6

0

15.06.2023

Nikita Kotlov · Accepted Answer

по моему опыту, в общем случае не получится объединить разные платформы. Будут дикие перекосы. Что можно сделать - 1) поделить всех на батчи (например взять mosdepth и по покрытию локусов на PCA поделить) 2) сделать для каждой платформы свою "среднюю норму/опухоль" 3) с помощью, например, Ascat посчитать CNA

Похожие чаты

Всем привет :) А кто-то работает с поиском CNV из данных

8 ответов

Похожие вопросы