генов), обученные на корпусе пабмеда, к примеру? И пример, как дотюнить на своем корпусе текстовой информации?
Мы с @Alexander_V_C как-то делали эмбеддинги имен из списка генов на своем корпусе https://www.kaggle.com/code/visualcomments/biology-on-graphs по идее можно то же самое сделать на корпусе аннотаций пабмеда https://www.kaggle.com/datasets/visualcomments/pubmed-abstracts
Да, отличный ноутбук. А можно совсем обнаглеть и спросить, нет ли ноутбука вот к этому? "Для этого блокнота были обучены две word2vec-модели. Первая модель (gl_model) обучена на корпусе из 1097 текстов по запросу "glioblastoma cancer cell brain tumor". Вторая модель (al_model) обучена на корпусе из 1332 текстов по запросу "Alzheimer's disease"." И как долго обучали, на чем? У нас небольшой корпус текстов
мы обучали на word2vec, там как раз очень удобно, что есть фиксированный словарь (мы использовали символы генов, то есть они как раз уместились в одно слово), оригинальный код увы затерялся, но помню что вот отсюда и код и модель использовали https://radimrehurek.com/gensim/models/word2vec.html , а так он вообще быстро работает
Обсуждают сегодня