코딩공작소
ReLU! 본문
sigmoid 함수를 Activation function이라고 부른다.
네트워크에서는 연결 연결 되어있으므로, 어느값 이상이면 activate되었다고 표현.
2단
3단
tensorboard
복잡해질수록 보드로 보면 편리함
backpropagation의 문제점
: chain rule에 의해 곱하기가 이어질 때, sigmoid를 지나가면 거의 값이 0에 수렴한다. --> 입력이 출력에 영향 X
--> Vanishing gradient라고 부름.
최종단의 경사나 기울기가 전으로 갈수록 사라진다 --> 학습이 어렵다 , 예측이 안된다.
*** non - linearity
Sigmoid를 잘못 사용했다.
ReLU : Rectified Linear Unit
마지막단은 0~1사이의 값이여야 하기 때문에 마지막에만 sigmoid를 사용해준다.
NN에서는 ReLU를 사용해주어야한다.