…и прочих ностальгических консолях:
https://blog.openai.com/gym-retro/
Пишут интересное:
For games that have a sparse reward or require planning more than a few seconds into the future, existing algorithms have a hard time. Many of the games in the Gym Retro dataset have a sparse reward or require planning, so tackling the full dataset will likely require new techniques that have not been developed yet.
Выясняется, что машинное обучение пасует перед задачами, где нет быстрой связи между правильным действием и «поощрением», или где требуется планировать действия хотя бы на несколько секунд.
Ну это как бы очевидно. Какое обучение, такой и результат. Внесите обработку бОльшего временного лага между кнопкой и бананом и сеть научится планировать хотя бы на несколько секунд.