от
Я попытался реализовать пользовательскую среду для стабильных базовых уровней openai, однако, в отличие от среды тренажерного зала openai, когда я тренирую PPO2 в среде, я получаю потерю наноструктуры, потерю политики, приблизительно, энтропию политики и т. Д. В настоящее время я использую MlpPolicy и я протестировали его на Breakout-v0 без каких-либо проблем. Я позаботился о том, чтобы нормализовать наблюдения между 0 и 1, и я позаботился о том, чтобы нормализовать награды между -10 и 10. Что может быть причиной получения нанов с помощью MlpPolicy в этом отношении?              

Ваш ответ

Отображаемое имя (по желанию):
Конфиденциальность: Ваш электронный адрес будет использоваться только для отправки уведомлений.
Анти-спам проверка:
Чтобы избежать проверки в будущем, пожалуйста войдите или зарегистрируйтесь.
...