개요

PPO는 OpenAI가 2017년 공개한 강화학습 알고리즘입니다.

가치기반 + 정책기반을 결합한 형태인 액터-크리틱(Actor-Critic)기반 강화학습 알고리즘입니다.

PPO는 다음의 특징이 있습니다..

1. 확률적 경사상승법을 사용하여  surrogate 목적함수를 최대화하도록 학습하는 것입니다.

2. 지도학습과 같이 데이트를 일정량 수집한 다음, 다수의 Epoch동안 해당데이터의 미니배치 학습을 수행하는 것입니다.

3. PPO알고리즘이 on-policy 강화학습 알고리즘이라는 것입니다. 

off-policy정책 : 행동과 학습의  정책이 같지 않아도 학습이 가능. DQN,DDPG알고리즘들이 대표적이다. 과거시점의 정책을 통해 얻은 많은 데이터를 미리 저장해놨다가 현재정책에 대한 미니배치학습을 수행했습니다.

on-policy정책 : 행동을 선택하는 정책과 학습하는 정책이 같아야 합니다.

2번과 3번의 특징은 상충되어 보이지만 PPO는 분산학습을 적용하여 하나의 정책으로 다수의 데이터를 수집하고 해당 데이터들만을 기반으로 정책 학습을 수행합니다.

4. Trust Region Policy Optimization 알고리즘의 장점을 그대로 가지면서도 여러가지 추가적인 장점을 가진다는 것입니다 .TRPO알고리즘은  PPO이전에 발표된 강화학습 알고리즘으로 안정적이면서도 뛰어난 성능을 보였자만 어렵고 복잡합니다. PPO는 이에 비해 구현이 단순하면 더 낮은 샘플복자도를 가집니다.

 

이론

PPO 알고리즘의 목적함수

https://muni-dev.tistory.com/entry/PPO-Proximal-Policy-Optimization-Algorithms

 

[PPO] Proximal Policy Optimization Algorithms

Abstract프록시말 정책 최적화(Proximal Policy Optimization, PPO)는 강화학습을 위한 새로운 정책 경사 방법입니다. 이 방법은 환경과의 상호작용을 통해 데이터를 샘플링하고, 확률적 경사

muni-dev.tistory.com

https://ai-com.tistory.com/entry/RL-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98-5-PPO

 

[RL] 강화학습 알고리즘: (5) PPO

PPO (Proximal Policy Optimization)는 2017년도 OpenAI에서 공개한 논문으로 이전 TRPO (Trust Region Policy Optimization) 알고리즘을 실용적으로 발전시킨 논문입니다. Policy gradient 계열의 알고리즘으로 성능이 우수

ai-com.tistory.com

 

'강화학습 > ML-Agent Unity' 카테고리의 다른 글

Pytorch설치  (0) 2025.04.29
Dodge 환경설정및 환경빌드  (0) 2025.04.28
Agent Script - Dodge  (0) 2025.04.28
Dodge Ball Script  (0) 2025.04.28
Dodge Scene 스크립트 작성  (0) 2025.04.28

+ Recent posts