связаны. Самый важный - третий, но я буду очень рад если вы поможете и с двумя остальными.
1) Если мы решаем задачу генерации объекта, то после того, как мы обучили нашу нейронную сеть и получили обученный генератор и дискриминатор, то верно ли я понимаю, что дискриминатор нам больше не нужен и все что мы будем использать для генерации это генератор?
2) Если посмотреть на генерацию чисел из набора MNIST, то в начале туда подается «шум». Я понимаю зачем он нужен при обучении, но я совсем не понимаю как потом пользоваться генератором для генерации объекта. Шум же не дает сгенерировать нужное число, он рандомный и соответсвенно рандомное число мы получаем на выходе из генератора. Или это так и задумывалось? Что делать если я хочу уметь генерировать КОНКРЕТНУЮ цифру.
3) У меня стоит задача, создать генератор движения губ. То есть нейронную сеть, генерирующую по аудио и первому кадру лица - последующие кадры, где губы уже двигаются (т.е. аудиозапись + фото человека -> видеозапись говорящего человека). Вопрос: что в таком случае мне надо подавать на вход генератору? Аудиозапись, фото и шум? или шум не надо? Или Аудиозапись и шум (вместо фото).
Если интересно, вот статья на которую я ориентируюсь при написании GAN:
https://neurohive.io/ru/osnovy-data-science/gan-rukovodstvo-dlja-novichkov/
1. да, но иногда дискриминаторы нужны для задачи определения фейка 2. либо как предложили ранее conditional gan, либо для каждой цифры отдельная модель. 3. задача поставлена так, как будто ган не нужен. но если хочется прикрутить именно ганы, то нет - шум не нужен. звука и лица вполне достаточно для генерации. шум использьуется когда нет нормального входа, а хочется генерировать разные объекты
> задача поставлена так, как будто ган не нужен Почему ты так думаешь? У нас же стоит задача генерации объекта, генерация лица, губ
смотри, если ты знаешь что точно идет на вход и точно будет на выходе - это обычный supervised learning. в твоем случае у тебя, скорее всего, есть данные, что на вход, допустим, первый кадр из видеопотока и звук, а на выходе все остальные кадры, сопоставленные со звуком. ган в этой задаче, скорее всего, может помочь определять насколько лицо реально и добавить его можно как дополнительную функцию ошибки у модели, но это не выглядит как главная часть архитектуры. я могу быть не прав, если ты подробнее расскажешь как будет выглядеть обучение модели, но на абстрактном уровне просто использование ганов не выглядит рабочим вариантом, поскольку дискриминатор придется переделать на более хитрый
Ну, видимо, да, дискриминатор стоит добавлять только для улучшения четкости и резкости изображения. Я планировал представлять фото как вектор, конкатенировать его с аудиопризнаками и просто подавать получившийся вектор целиком на вход в генератор. На выходе хотел получать вектор (несколько подряд идущих фотографий). В качестве функции потерь я бы взял среднюю абсолютную ошибку. Ты про это спрашивал?)
Обсуждают сегодня