вместо Dense(), если в слой Dense можно также подать предыдущие значения предсказываемой переменной для обучения?
Потому что lstm слой это конкретная архитектура слоя.
Вопрос по бекграунду: что о теории регуляризации слышал? Что про prior distribution рассказать можешь? Какие примеры успешной эксплуатации "локальности" данных встречал?
Обсуждают сегодня