215 похожих чатов

Хорошо) У меня 3 вопроса, они на самом деле между собой

связаны. Самый важный - третий, но я буду очень рад если вы поможете и с двумя остальными.

1) Если мы решаем задачу генерации объекта, то после того, как мы обучили нашу нейронную сеть и получили обученный генератор и дискриминатор, то верно ли я понимаю, что дискриминатор нам больше не нужен и все что мы будем использать для генерации это генератор?

2) Если посмотреть на генерацию чисел из набора MNIST, то в начале туда подается «шум». Я понимаю зачем он нужен при обучении, но я совсем не понимаю как потом пользоваться генератором для генерации объекта. Шум же не дает сгенерировать нужное число, он рандомный и соответсвенно рандомное число мы получаем на выходе из генератора. Или это так и задумывалось? Что делать если я хочу уметь генерировать КОНКРЕТНУЮ цифру.

3) У меня стоит задача, создать генератор движения губ. То есть нейронную сеть, генерирующую по аудио и первому кадру лица - последующие кадры, где губы уже двигаются (т.е. аудиозапись + фото человека -> видеозапись говорящего человека). Вопрос: что в таком случае мне надо подавать на вход генератору? Аудиозапись, фото и шум? или шум не надо? Или Аудиозапись и шум (вместо фото).



Если интересно, вот статья на которую я ориентируюсь при написании GAN:
https://neurohive.io/ru/osnovy-data-science/gan-rukovodstvo-dlja-novichkov/

4 ответов

28 просмотров

1. да, но иногда дискриминаторы нужны для задачи определения фейка 2. либо как предложили ранее conditional gan, либо для каждой цифры отдельная модель. 3. задача поставлена так, как будто ган не нужен. но если хочется прикрутить именно ганы, то нет - шум не нужен. звука и лица вполне достаточно для генерации. шум использьуется когда нет нормального входа, а хочется генерировать разные объекты

Благой-Димитров Автор вопроса
Vlad Sorokin
1. да, но иногда дискриминаторы нужны для задачи о...

> задача поставлена так, как будто ган не нужен Почему ты так думаешь? У нас же стоит задача генерации объекта, генерация лица, губ

смотри, если ты знаешь что точно идет на вход и точно будет на выходе - это обычный supervised learning. в твоем случае у тебя, скорее всего, есть данные, что на вход, допустим, первый кадр из видеопотока и звук, а на выходе все остальные кадры, сопоставленные со звуком. ган в этой задаче, скорее всего, может помочь определять насколько лицо реально и добавить его можно как дополнительную функцию ошибки у модели, но это не выглядит как главная часть архитектуры. я могу быть не прав, если ты подробнее расскажешь как будет выглядеть обучение модели, но на абстрактном уровне просто использование ганов не выглядит рабочим вариантом, поскольку дискриминатор придется переделать на более хитрый

Благой-Димитров Автор вопроса
Vlad Sorokin
смотри, если ты знаешь что точно идет на вход и то...

Ну, видимо, да, дискриминатор стоит добавлять только для улучшения четкости и резкости изображения. Я планировал представлять фото как вектор, конкатенировать его с аудиопризнаками и просто подавать получившийся вектор целиком на вход в генератор. На выходе хотел получать вектор (несколько подряд идущих фотографий). В качестве функции потерь я бы взял среднюю абсолютную ошибку. Ты про это спрашивал?)

Похожие вопросы

Обсуждают сегодня

Всем привет! Имеется функция: function IsValidChar(ch: UTF8Char): Boolean; var i: Integer; ValidChars: AnsiString; begin ValidChars := 'abcdefghijklmnopqrstuvwxyzABCDE...
Евгений
44
Ну вот просто даже давайте вот как. Какой нибудь конкретный кейс, можете в пример привести, где бч работает и приносит прикладную пользу, а не просто что бы было? Не крипту.
Alexander Andreev
22
объясните пожалуйста, почему функция не работает должным образом? вроде должно брать активное окно сравнивать его размер с размером экрана, и если есть совпадение = true прове...
JF
12
Гляньте, че бывает: Сегодня по одному проекту одной вебстудии делал проект небольшой, на их хостинге. На Modx revo. В определенный момент , работая в админке, вдруг перестал р...
Artem
7
лучше скажите, причём тут паскаль?
Alexey Kulakov
36
Но, может, есть уже проверенная? Наши требования такие: 1. Сообщения должны приходить из Инста в CRM оду 2. Должна быть возможность подключить несколько экаунтов Инстаграм. Р...
Alexander Sharoiko MSE / Александр Шаройко
12
> Копаем глубже > Следующий момент был, когда я спросил его, знает ли он JavaScript. Он ответил, что его учили работать с C#. Я тоже в университете писал на C#, но даже там мн...
Oleg Volkov
4
И никого не интересует какие пакеты кто использует. ((% Заходишь на сайт симфони и видишь поддержку Украины - по законам РФ это ж экстремизм. Только никто не отказывается от с...
Am Ambrion
11
Кто нибудь либу Zstandart использовал ? Это либа для сжатия от Цукерберга
Andrey Electron
9
Чтобы перехватить все нажимания буков на форме, надо хук ставить? Пробовал на форме ОнКейДаун, оно ловит клаву если фокус не на компоненте с вводом текста
Serjone
15
Карта сайта