от
Я попытался реализовать пользовательскую среду для стабильных базовых уровней openai, однако, в отличие от среды тренажерного зала openai, когда я тренирую PPO2 в среде, я получаю потерю наноструктуры, потерю политики, приблизительно, энтропию политики и т. Д. В настоящее время я использую MlpPolicy и я протестировали его на Breakout-v0 без каких-либо проблем. Я позаботился о том, чтобы нормализовать наблюдения между 0 и 1, и я позаботился о том, чтобы нормализовать награды между -10 и 10. Что может быть причиной получения нанов с помощью MlpPolicy в этом отношении?              

Пожалуйста, войдите или зарегистрируйтесь для публикации ответа на этот вопрос.

...