иллюмины/бги (WES и WGS).
Я хочу использовать несколько тулов, чтоб сравнивать результаты и выдавать консенсунс как результат.
Проблема в том, что коллеры основанные на глубине прочтения (CNVkit/GATK-gCNV,etc) хотят панель нормальных пациентов. В нашем случае это все больные, из нескольких разных лабораторий, с немного разными китами и весьма разными годами секвенирования.
Как можно попробовать отсортировать образцы, чтоб они были +/- в одной группе по уровню тезнических шумов и имели один кит (учитывая огромную кучу мислейблов)?
Просто по названию лабы не получается, потому что разные года = разные машины зачастую и разные покрытия.
Я думал использовать covtobed с покрытием 50, делать пересечения бед-файлов и объединять в группу те, которые сходятся, например на 90% (с потолка цифра) - это будет одна группа и из неё выбирать сколько-то образцов чтоб построить PoN.
Это рабочий метод? Может есть какие-то другие решения?
Спасибо :)
по моему опыту, в общем случае не получится объединить разные платформы. Будут дикие перекосы. Что можно сделать - 1) поделить всех на батчи (например взять mosdepth и по покрытию локусов на PCA поделить) 2) сделать для каждой платформы свою "среднюю норму/опухоль" 3) с помощью, например, Ascat посчитать CNA
У вас раковые данные или просто экзомы крови?
Просто экзомы и полные геномы
Спасибо :) Я вот как раз думаю как правильней их делить на батчи :)
Из алгоритмов вообще нельзя делать консенсус - посмотрите нашу работу по их воспроизводимости в разных диапазонах длин https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8277855/ . Т.е. все тулы про разное, и в зависимости от целей вам подойдут только 1-2-3 конкретных тула. Сейчас Вероника добавила тулы в анализ - свяжитесь с ней
Спасибо :) Надеюсь там и gatk-gcnv будет в новых тулах :) Наверное да, это разумнее оставить какой-то более подходящий. Ну точнее отдельный для wes, отдельный для wgs, которые могут совпасть)
Посмотрел таблицу, возможно пропустил: неужели ни один тул не использует b allele frequency (процент аллелей в гетерозиготах )? Это же огромный пласт информации дополняющий покрытие. В раковой геномики вообще нельзя без этого.
Докину ещё статью для вдохновения, где оптимизировали параметры одного из тулов, используя ещё 2 других и сделали из всего этого пайплайн для WES/панелей sensitivity повысилась https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04452-6
Обсуждают сегодня