본문 바로가기
AI/인공지능(CNN)

[인공지능] 인공지능 신경망의 핵심 : 비선형 활성화 함수(Activation Function)

by Yoon_estar 2025. 10. 23.
728x90
반응형

인공 신경망이 복잡한 패턴을 인식하고 학습할 수 있는 능력의 비밀은 바로 비선형 활성화 함수에 있습니다. 이 함수는 신경망의 각 뉴런(노드)이 최종 출력을 생성하는 중요한 단계에서 사용됩니다. 

 

활성화 함수란 무엇인가요?

활성화 함수는 뉴런이 입력 신호를 받아 가중합을 계산한 후, 이 값을 비선형 함수에 적용하여 최종 출력을 생성하는 역할을 합니다. 

만약 활성화 함수가 선형 함수라면, 아무리 층을 깊게 쌓아도 전체 신경망은 결국 하나의 선형 변환과 같아져 복잡한 비선형 문제(ex: 이미지 인식, 자연어 처리 등)를 해결할 수 없습니다. 

  • 선형 함수 : 전체 구간에서 기울기가 일정한 직선
  • 비선형 함수 : 전체 구간에서 기울기가 일정하지 않은 함수. 신경망이 복잡한 패턴 인식을 가능하게 하며, 학습 능력과 예측 성능에 큰 영향을 미칩니다. 

활성화 함수를 사용하는 과정은 다음과 같습니다. 

  1. 입력 값 계산 : 각 뉴런에서 입력 값 X 가중치를 모두 합산하고 편향(bias) 값을 더하여 가중합을 계산합니다. 
  2. 활성화 함수 적용 : 계산된 가중합을 비선형 활성화 함수에 입력하여 뉴런의 최종 출력을 계산합니다. 
  3. 출력 값 전달 : 계산된 출력을 다음 층의 뉴런으로 전달합니다. 

대표적인 비선형 함수 3가지

현재 딥러닝에서 주로 사용되는 대표적인 비선형 활성화 함수는 시그모이드(Sigmoid), 하이퍼볼릭 탄젠트(tanh), 렐루(ReLU) 함수가 있습니다. 

1. 시그모이드(sigmoid) 함수

시그모이드 함수는 모든 입력 값을 0과 1 사이로 매핑하는 S자 형태의 함수입니다. 

 

시그모이드 함수는 모든 입력 값을 0과 1 사이로 매핑하는 S자 형태의 함수입니다. 

이전에는 많이 사용했지만, 0과 1 사이로만 매핑을하게 되면 기울기 소실(Vanishing gradient) 문제가 발생할 확률이 높아지기 때문에 현재는 잘 사용하지 않습니다. 

 

장점

  • 출력값이 0과 1 사이에 위치하여 확률 값을 표현하는 데 적합합니다.(주로 이진 분류의 출력층에 사용)

단점

  • 기울기 소실(Vanishing Gradient) 문제 : 출력이 0이나 1에 가까워질수록 기울기가 작아져(포화), 역전파 과정에서 가중치 업데이트가 거의 이루어지지 않아 학습이 느려집니다.
  • 출력의 중심이 0이 아니기 때문에 (Zero-centered 하지 않음) 학습이 비효율적일 수 있습니다.

 

 

2. 하이퍼 볼릭 탄젠트(Tanh) 함수

하이퍼볼릭 탄젠트 함수(Tanh) 역시 시그모이드 함수와 유사한 S자 형태의 함수이지만, 모든 입력 값을 -1과 1 사이로 매핑합니다. 

 

시그모이드와의 차이는 출력 범위가 시그모이드보다 넓고, 출력의 중심이 0에 가깝습니다

 

 

 

장점 

  • 출력 값이 -1 과 1 사이에 위치하여 데이터의 중심을 0으로 맞출 수 있어 시그모이드보다 학습 성능이 더 좋고 학습이 빠릅니다. 

단점

  • 시그모이드와 마찬가지로 -1이나 1에 가까워질수록 기울기가 작아져 기울기 소실 문제가 발생할 수 있습니다. 

 

3. 렐루(ReLU, Rectified Linear Unit 함수)

Rectified (고르게 하다)와 Linear Unit(직선으로 이루어진 단위)이 결합된 렐루 함수는 시그모이드의 한꼐를 극복하기 위해 등장했으며, 현재 딥러닝에서 가장 보편적으로 사용되는 기본 활성화 함수입니다. 

  • 입력(x)이 음수(x<0)이면 0 출력(뉴런 비활성화)
  • 입력(x)이 양수(x≥0)이면 입력 값 그대로 (x) 출력 (뉴런 활성화)

 

장점

  • 계산이 매우 간단하고 빠릅니다. 
  • 양수 영역(x>0)에서 기울기가 1로 일정하게 유지되므로, 기울기 소실 문제를 완화하고 깊은 신경망에서도 효율적인 학습을 가능하게 합니다. 

단점

  • 음수 영역에서 뉴런이 죽는 문제(Dead Neurons) : 입력값이 음수일 때 기울기가 0이 되어 해당 뉴런은 더 이상 학습되지 않습니다. 

 

반응형