II. 알려진 환경에서 문제 해결: 모델 기반
최적의 정책을 모르는 우리에게 최적의 가치를 찾기 위해 사용할 수 있는 방법은 정의에서 볼 수 있듯이 현재 가치를 과대 평가하는 정책을 찾는 것입니다. 그러면 우리는 어떤 정책이든 국가의 가치를 평가할 수 있어야 합니다. 정책이 주어진 상태의 값을 얻는 과정을 정책 평가(예측)라고 합니다. 환경에 따라 정책 평가 프로세스가 제한되거나 효율성이 달라질 수 있습니다. 핵심은 정책 평가 … Read more