поскольку скоро выложим свою multidimensional бд на питоне/hdf (по дефолту хдф, а так можно хоть tiff прикрутить), которая numpy array возвращает - я один из трех ее разработчиков и хотел бы потестить на омиксных данных
Вот в описании вакансии нашел эти бдшки: Gene Expression Omnibus (GEO), Sequence Read Archive (SRA), ENCODE, or ArrayExpress;
Есть по ним какая-нибудь табличка?
Можно просто забить названия в гугле и почитать, а вообще если планируете работать с омиксными данными это надо знать
Это в смысле как инфраструктура или как сутевая база?
зависит от определения и доступа но скорее инфраструктурная, если я правильно понимаю разницу
А как ваш формат/бд отличается от AnnData (https://anndata.readthedocs.io/en/latest/)? Последний хоть и создавался для single cell но вполне подходит к практически любому omics (кроме наверное генетики и то вопрос).
Отличия есть, документация на релизе будет
Ну раз уж сказали А, говорите и Б. Так как оно соотносится и расскажите уже хоть немного про вашу систему. Уж очень интересно. Сам на самом деле разрабатывал нечто подобное (даже есть прототип) но потом начался ковид с локдаунами и времени стало катастрофически не хватать ни на что... А потом обнаружил anndata и понял что велосипед изобретать уже нет смысла.
До релиза осталось совсем немного) Я вообще питонист, но хотел бы через эту бд попробовать вкатиться в биоинформатику потихоньку, перевожусь в алферовский университет пока что
Ну я работаю практически исключительно на питоне. R использую только в крайней необходимости совместимости с другими людьми.
Обсуждают сегодня