본문 바로가기

book

밑바닥부터 시작하는 딥러닝.1 (chap6 : 학습관련 기술들)

ㄴㅇㄹ

  • 매개변수 갱신
    • 신경망의 목적 : 손실함수의 값을 가능한 한 낮추는 매개변수를 찾는 것 → 매개변수의 최적값을 찾는 문제 → 최적화
    • 확률적 경사 하강법 (SGD)
      • 기울기를 이용해서 기울어진 방향으로 매개변수 값을 갱신하는 일을 반복해서 최적값을 찾아가는것
    • SGD의 단점
      • x,y 축이 심하게 굽어진 움직임을 가질때
      • 단점 개선 (모멘템, AdaGrad, Adam)
      • 모멘템
        • 운동량을 뜻하는 단어, 물리와 관계가 있다.
        • 기울기의 방향으로 힘을 받아 물체가 가속된다는 원리
      • AdaGrad
        • 신경망 학습에서 학습률 값이 중요함
        • 학습을 진행하면서, 점차 학습률을 줄여가는 방법 (실제 신경망에서 많이 사용됨)
      • Adam
        • 모멘텀 , AdaGrad의 기법을 융햡한것
  • 가중치의 초깃값
    • 신경망에서 특히 중요한것이 초깃값
    • 초기값을 0으로 한다면
      • 가중치 값을 작게 하여 오버피팅이 일어나지 않게 하는것
      • 0으로 하면, 오차역전파법에서 모든 가중치의 값이 똑같이 갱신되어서, 모두 같은 값을 가지게 됨
    • 은닉층의 활성화값 분포
      • 은닉층의 활성화값의 분포를 관찰하면 중요한 정보를 얻을수 있음
  • 배치 정규화
    • 가중치의 초깃값을 적절히 설정하면, 각 층의 활성화값 분포가 적당히 퍼지면서, 학습이 원할이 수행됨
    • 정의 : 각층의 활성화를 적당히 강제적으로 적용하는 개념
      • 학습을 빨리 진행 할수 있다.
      • 초깃값에 크게 의존하지 않는다.
      • 오버피팅을 억제 한다.
  • 바른 학습을 위해
    • 기계학습에 오버피팅이 문제되는 경우가 맣다. 
      • 지나치케 훈련데이터에만 적응이 되어서, 실제 데이타를 잘 식별하지 못한다.
    • 발생 경우
      • 매개변수가 많고, 표현력이 높은 모델
      • 훈련 데이타가 적음
    • 억제 방법
      • 가중치 감소
        • 큰 가중치에 대해서는 그에 상응하는 큰 페널티를 부과하여 적제
      • 드롭아웃
        • 뉴런을 임의로 삭제 하면서, 학습하는 방법