
7. DQN
·
AI/강화학습
우리는 강화학습을 신경망을 통해 하는 방법에 대하여 학습했다. 신경망으로 옮긴 이유가 엄청나게 큰 스케일에서는 일반적인 테이블로는 학습하기 힘들기 때문에 강화학습을 신경망으로 하게 된것이다. 하지만 이러한 강화학습 신경망은 준수한 성능을 내지 못하는 단점을 나타내었다. 심지어 아래와 같은 간단한 문제를 이용해도 좋은 성능이 나오지 않았다. 이러한 이유는 강화학습 신경망은 수렴을 하지 않고 발산하는 문제를 나타내기 때문이다. 어떤 문제인지 자세히 알아보자 문제로는 2가지인데 1. Correlations between samples (샘플 간의 상관관계) 2. Non-stationary targets (비정상 표적, 흔들리는 타겟 부정확하다는 것이다.) 이 2가지이다. 우리가 알고 있는 알고리즘으로는 1. ..