PPO 알고리즘에서 action_std

글 목록

action_std

PPO 알고리즘에서 탐색의 정도를 결정하는 파라미터이다. 에이전트가 행동(action)을 결정할 때, 네트워크의 출력 평균값(action_mean)을 중심으로 얼마나 무작위성을 섞을지 결정하는 표준편차.

코드에서 아래처럼 사용 가능하다.

action = action_mean + (noise * action_std)

Pasted_image_20251127091602

약 1시간 40분 학습 결과 action_std_mean 그래프

그래서, retrain을 다시 시작했다.

action_std_max와 action_std_min 값도 체크해야 한다. 이 값들은 에이전트가 모든 액션 차원들의 표준편차의 최대값, 최소값이다.

Pasted_image_20251127092052

Pasted_image_20251127092039

에이전트가 얼마나 고민하고 있는지 보는 지표 = 무작위성

Pasted_image_20251127093952

이건 엔트로피 손실함수 그래프

손실함수는 Loss 최소화해야 하므로, 엔트로피를 최대화해야 한다. (수식은 생략)

특정 한개 부위만 정답을 찾지 못하는 현상으로 볼 수 있을 것 같다.

마치 뜨거운 아이스아메리카노 같은… 뭐지? 뭐가 문제인지 찾아봐야 한다.

특정 액션 부위가 애초에 불가능한 탐색을 던져준걸까?

뷰어로 일단 확인해 보고, 문제가 되는 특정 부위가 어디인지 찾아봐야겠다. 보상함수를 수정하거나 패널티를 다시 주거나…