но мне не принципиально
я хочу попробовать co-training алгоритм на двух view (текст и изображения), но немного не понимаю, как это сделать. Т.е. идея в том, что есть картинка и некое описание к ней
насчёт картинок более менее понятно: мы трансформируем их в матрицы со значениями цветов (или яркостей) и на этих матрицах обучаем модель
а как подготовить текст для обучения? в интернете многие советуют через tokenizer, но подойдёт ли это для классификации связных данных (кортинка+описание)?
char cnn?
Обсуждают сегодня