215 похожих чатов

Всем привет, нужна помощь МЛовца. Я написал шашки (пока без GUI),

хочу обучить нейронку:
на вход подавалась бы текущая позиция, а на выходе нейронка выдавала бы лучший ход из возможных.
Проблема в том, что узнать какой ход был хорошим (даже не лучшим) или плохим можно будет только по факту победы или проигрыша одного из игроков, а ещё бывают и ничейные ситуации (то есть продолжительность партии СИЛЬНО вариативна - от 15 ходов и до 100 (примерно))
Я пока сейчас использую numpy....
тензорфлоу и керасы сейчас пока боюсь использовать.
Посоветуйте пожалуйста:
1) какой алгоритм использовать
2) сколько партий нужно будет дать сыграть чтоб нейронка нормально обучилась?
3)Можно ли это сделать на домашнем компе?

4 ответов

10 просмотров
Adib-Aka Автор вопроса

я уже использовал q-learning, в разных вариантах, линейную регрессию, и мне кажется, что я - либо СЛИШКОМ рано заканчиваю обучение, либо стоит побробовать градиентный спуск, но с ним - не понятно как вознаграждать нейронку учитывая при этом количество ходов до победы

Adib-Aka Автор вопроса

ок ребят, вон там 👆помогите пожжалуйста

Adib Aka
ок ребят, вон там 👆помогите пожжалуйста

https://github.com/udacity/deep-reinforcement-learning здесь с вероятностью 99% есть ответ на твой вопрос. берешь алгоритм, пишешь функцию потерь и запускаешь играть саму с собой.

Adib-Aka Автор вопроса
Stanislav Demchenko
https://github.com/udacity/deep-reinforcement-lear...

чёт так много ссылок... и ни одного объяснения... даже не знаю с какой ссылки начать чтоб компмне спалить...

Похожие вопросы

Обсуждают сегодня

Ребят в СИ можно реализовать ООП?
Николай
32
~ 2m21s  nix shell github:nixos/nixpkgs#stack ~  stack ghc -- --version error: … while calling the 'derivationStrict' builtin at /builtin/derivation.nix:...
Rebuild your mind.
6
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем доброго вечера. Разрабатываю 32 раз. приложение в Delphi. Столкнулся с тем, что стандартный  TFilestream  не работает с большим файлом > 2 ГБайт (после вызова функции see...
Vadim Gl
16
У меня задача: написать брокер сообщений. Очереди и потребители. Очереди поддерживают приоритеты. Очередь отдает сообщения, только обработчикам с соответствующими характеристи...
Aleksandr Filippov
2
добрый день. Подскажите, есть сайт на 1.4.7 и я хочу обновиться, особо ничего не меняя. мне выбирать версию 1.4.35 или третью ветку? и можно ли обновлять "как есть", или нужно...
Digital Cat
12
народ, плиз хелп, всю голову сломал себе уже... разве может быть так, что GetProcAddress( GetModuleHandle( "kernel32.dll" ), "SetThreadDescription" ) вернёт ненулевое значение...
Iluha Companets
12
Всем привет! Имеется функция: function IsValidChar(ch: UTF8Char): Boolean; var i: Integer; ValidChars: AnsiString; begin ValidChars := 'abcdefghijklmnopqrstuvwxyzABCDE...
Евгений
44
Всем доброго вечера. Разрабатываю 32 раз. приложение в Delphi. Столкнулся с тем, что стандартный TFilestream не работает с большим файлом > 2 ГБайт (после вызова функции see...
Vadim Gl
8
а плаксы из-под питона умеют только в комфортных условиях что-то выдавить из себя?)
Lencore
9
Карта сайта