
RNN과 LSTM
·
AI/딥러닝
LSTM 은 RNN의 문제를 해결하기 위해 나온 방식중 하나이다. RNN 또한 망이 깊어지고 이전의 정보가 멀어질 경우 역전파시에 그래디언트가 줄어들어 학습능력이 저하 되는 것을 피할수 없었다. 이러한 문제를 우리는 gradient vanishing 이라고 했다. 일반적인 RNN의 경우에는 tanh 연산만 진행을 하였다면 RNN의 히든 state에 cell-state를 추가했다고 한다. 이러한 이유로인해 꽤 오랜 시간이 경과된다 하더라도 정확하게 전파를 할수 있는 모델을 만들었다고 한다. LSTM도 RNN과 같은 체인 구조로 되어 있지만, 반복 모듈은 단순한 한 개의 tanh layer가 아닌 4개의 layer가 서로 정보를 주고받는 구조로 되어 있다. LSTM 셀에서는 상태(state)가 크게 두 개의..