для биоинформатики.
Работодатели будут постить позиции на работу или на проекты, возможно с тестовым заданием. А биоинформатики будут постить свои профили, CV и статьи.
У меня уже есть первые клиенты.
Я всё ещё изучаю рынок.
Если вы работодатель:
Были бы вы заинтересованы нанимать людей через мою компанию с 15% fee? Вы сами выбираете людей и зарплату. Какие фичи и функционал вы бы хотели видеть?
Если вы работник:
Были бы вы заинтересованы найти работу через наш сайт? Какие условия работы вам бы понравились?
Из плюсов:
- Минимум бюрократии. Вас могут нанять в 2 клика если вы понравились.
- Работодатель может честно оценить стоимость вашей работы по тестовому заданию.
- Не нужно ждать визу и работать можно из любой точки мира.
а в чем киллер-фича по сравнению с провалившимися аналогичными биржами?
а что за аналогичные биржи ?
а есть инвесторы ? сколько денег есть на создание такого ?
например, ksivalue, которые в итоге сделали пивот в ksitest https://www.linkedin.com/company/ksitest/ и просто теперь фуллтайм занимаются генотипированием сельхоза, имея контракты по всей россии
В том что в моем университете уже есть клиенты, так что даже маленькая прибыль но будет
Инвесторов нет. Компанию пока что пробуем это с первыми клиентами, потом поедем в Калифорнию за инвестициями)
Проблема компаний, что профессорам (в сша) часто не нравятся условия. А на нашей платформе профессора сами будут выставлять условия (в идеале) или по шаблону
а американский универ знает как он будет платить Ване или Тане из Еревана? Последний раз когда я проверял, заключение контракта консультанта - дикая головная боль на несколько месяцев. "из кармана" обычно можно платить только на выделенных маркетплейсах типа амазона или ебея и то с письменным обоснованием каждой покупки. И это мы еще говорим о работе с публичными данными. Как только дело хотя бы отдаленно касается данных пациентов (типа всякой геномики), то там даже внутри универов фиг получишь доступ. и это я еще не говорю о том, что у типичного "фрилансера Вани из Еревана" сейчас на руках будет только макбук - то есть никаких серьезных данных он не обработает. Дать доступным рандомным людям к внутреуниверситетской инфраструктуре - тоже из области фантастики. Соответственно человек должен будет докупить себе процессорочасов на амазоне (не говоря о том, чтобы еще иметь такие скиллы). В общем экономика такой биржи имеет много подводных камней и мне пока неочевидно как вы это решите
Это правда. Поэтому мы можем создавать сервера для клиентов под ключ))
Если я работник, я был бы заинтересован найти работу, мне бы понравилось много денег (от сотки в us) и перманентный или хотя бы нескольколетний контракт
Давайте не Airbnb, а OnlyFans
Биоинформатики конечно востребованы, но планку OF взять...
а мы туда ещё машин лёнеров позовем
выбор тулов за донаты - сидишь такой, пишешь свой питончик, а тут такой садист-извращенец - бах $500: "а теперь сделай все тоже самое, но на R"
Если платят, то почему бы и нет? Хоть на Julia. Только поддержка оплачивается отдельно
Поддержка по ценнику х10 от написания
Сделал бы на расте, чтоб сейфти и перформанс, но за 5000
мне кажется вы не уловили (ну или я плохо донес) суть донатов на оф и, как следствие, суть шутки)
Обычно это наоборот происходит, взять тот же пандас или десек 🌚
У меня студенты в каждом семестре пытаются пдб парсить пандасом😆
а почему это плохая идея?
Потому что это позиционный формат, а не с разделителями
строго говоря, это не проблема - если уметь готовить пандас. но студент и уметь готовить пандас - плохо сочетающиеся штуки. но то, формат очень пермессивный и если ты пытаешься так парсить абстрактный набор пдбшек, без гарантии формата содержимого - верный путь отстрелить себе конечности похлеще, чем в робокопе
Я сама не пробовала, поэтому комментировать не могу, но я не понимаю, нафига там пандас, который для табличных данных
Разговаривал как-то с товарищем из ФЕНИКСа, он сказал, что при поступлении на работу ему сообщили, что уволят любого, замеченного за самостоятельным парсингом ПДБ (имелось в виду, что надо cctbx’овый использовать). Я вспомнил свои первые недели у Гариба Муршудова, который РЕФМАК делает. Спросил его, чем у него в группе ПДБ парсят. Оказалось, что у каждого члена группы парсер свой личный. Догадайтесь, что было при переходе на mmCIF :)))
По жизни парсить пдб не надо, конечно. А для студентов полезно. Так они хотя бы выучат, что у атомов есть координаты
Это верно, полностью согласен. Может даже заселенностью и температурным фактором поинтересуются :)) хотя сейчас более правильно сразу mmCIF давать :)
Он менее нагляден
Так тем лучше для студента, большему научится ;) Пусть учатся сложные структуры данных мастрячить :) Часть с координатами почти такая же, как в ПДБ при этом.
Им бы простые освоить…
Так там проблема больше с тем что даже в самом пдб некоторые файлы с нарушением формата лежат. Не зря его с 14 года где-то считают легаси и форсят ммсиф (осталось объяснить это всем писателям белкового софта:)
>в самом пдб некоторые файлы с нарушением формата лежат в этом я, кстати, сомневаюсь. в том смысле, что внутренний софт того же RCSB скорее сверх чувствителен. если у вас есть такие примеры, буду благодарен, если вы их пришлете. у перехода на mmcif огромное количество причин. некоторые уже всплывали в чатике, часть чуть менее очевидны и становятся понятны только изнутри. но не суть. это реальность - ближайшие лет 5 это точно mmcif и для структурных данных, и для validation reports.
Сейчас уже не пришлю, к сожалению, лет пять назад пытались парсить очень много pdb (все на что были ссылки в cath) и парсер строго по спеке изредка фейлил. Но тут может дело в руках было конечно
Да, как Артур сказал, одна из проблем - это пермиссивность и ПДБ и ммСИФ (у ммСИФ она ещё выше). То есть присутствуют «стандартные практики», справедливые для большинства структур, и есть стандарт, который позволяет бОльшее. При написании парсера часто делаются допущения, рассчитанные на стандартные практики. В результате в ПДБ всегда найдётся парочка структур, для которых эти допущения несправедливы, но формально стандарту они соответствуют.
Ах да, ещё был отдельный источник радости - это пытаться дополнительную информацию из ремарок ПДБ файлов вытащить :)) Так как там по стандарту зачастую просто текст в свободной форме :)
ну вот для этого мы тоже хотим попытаться поработать с ллм и чатгпт, в частности. чтобы наполнять метадату/протоколы напрямую из статей. но, конечно, все с курированием)
Угу, вы с ПДБе на эту тему общаетесь? :)
У меня был прям такой проект, только в сингл-селле 🙂 В целом, многообещающе выглядит, но полностью заменить людей пока не может. Буду рад обсудить, если интересно
нет) пока это во внутренней песочнице rcsb)
обязательно напишу! пока наша цель чуть менее амбициозна - вытаскивать просто названия биофизических методов. мы собрали неплохой датасет из ~3 вручную аннотированных статей. и сейчас пытаемся вот понять, что из этого реально выловить с помощью ChatGPT 4.0. даже вот мини-грант на $10к для продолжения экспериментов получили как приз в хакатоне (помимо прочих плюшек). я вот тут чуть-чуть написал про хакатон https://m.facebook.com/story.php/?id=100009868487442&story_fbid=2107425776263018
Не могу ссылку открыть: пишет «недействительный адрес» :( От моделей OpenAI у меня супер положительное впечатление, только денег стоят. Пробовали лам ещё, они тупые. У нас боттлнек в итоге был не в моделях, а в векторном поиске по предложениям (чтобы отфильтровать вход для ллм) и в сложных кейсах. Кожаные мешки порой ну очень запутанно пишут
а так? поправил ссылку. ага, мы собственно тоже тестируем сейчас разные варианты context retrieval. + используем намеки из тестового датасета - мы попросили аннотаторов не просто пометить есть/нет метод, но и записать контекст, который их триггернул - может быть предложение, а может быть и абзац. надеюсь получится использовать это для эффективной фильтрации контекста.
А Minstral не пробовали? Она поумнее лам.
Нет, только gpt4all ещё
Можно, в принципе, сходу взять MistralOrca вместо Mistral, она вроде немного лучше оригинальной. https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
А, орки тоже пробовали, не работает
Обсуждают сегодня