본문 바로가기
AI/인공지능(CNN)

[인공지능] 신경망의 필수 요소 : Bias(편향)를 잡을 때와 안 받을 때의 차이

by Yoon_estar 2025. 10. 25.
728x90
반응형

Bias는 단순히 더해지는 숫자가 아니다

신경망 학습에서 Bias(편향, b)는 종종 가중치(W)에 가려져 그 중요성이 간과되곤 합니다. 하지만 Bias는 모델이 데이터를 해석하고 결정 경계를 설정하는 유연성을 부여하는 핵심적인 요소입니다. 특히 XOR이나 make_moons와 같은 비선형 문제를 해결할 때 Bias의 유무는 모델의 성공과 실패를 가르는 결정적인 차이를 만듭니다. 

 

용어 정리 및 Bias의 역할

Bias(b) : 뉴런의 발화 임계점 조절자

구분 개념 IT/ML에서의 역할
Bias(b) 활성화 함수가 적용되기 전의 선형 합산 결과(W, X)에 더해지는 상수 값 활성화 임계점 조절
입력 X가 0일 때도 뉴런이 발화할 수 있게 하거나, 발화하기 위해 필요한 최소 입력값을 조절

결정 경계 팽행 이동
결정 경계가 원점(Origin)에 묶이지 않고 데이터셋에 맞춰 자유롭게 이동할 수 있게 함
활성화 함수  뉴런의 출력을 결정하는 비선형 함수 Bias가 이동시킨 결정 경계에 비선형성을 부여하여 복잡한 곡선 형태를 만들게 함

 

수학적 표현

편향이 있는 경우
편향이 없는 경우

Bias를 사용했을 때의 작동 원리 및 강점

Bias를 사용하는 것이 표준적인 신경망 설계이며, 다음과 같은 결정적인 강점을 제공합니다. 

결정 경계의 자유로운 이동(Shifting the Decision Boundary)

  • 작동 원리 : Bias(b)는 W X의 결과 전체를 양수 또는 음수 방향으로 평행 이동시킵니다. 이는 기하학적으로 결정 경계(Decision Boundary)를 X축과 Y축을 따라 자유롭게 이동시키는 효과를 줍니다. 
  • 강점 : 데이터셋의 분포가 원점 근처에 있지 않거나, 원점을 지나지 않는 최적의 분류 평면이 필요할 때, Bias는 결정 경계를 데이터에 맞춤형으로 위치시킬 수 있게 합니다. 

모델의 표현 능력 극대화

  • 비선형성 구현 : MLP에서 비선형 문제를 해결하는 능력은 비선형 활성화 함수와 편향이 작동할 때 완성됩니다. Bias는 활성화 함수가 최적의 영역에서 작동하도록 입력 신호의 범위를 조정하여, 학습된 가중치와 무관하게 특정 뉴런을 켜거나 끌 수 있는 유연성을 줍니다. 

학습 시작 지점 및 수렴 안정성

  • 초기 가중치와 편향은 무작위로 설정되지만, 편향 자체가 초기화 시점의 기저(Base) 역할을 합니다. 편향이 없다면, W, X의 초기 값이 0 근처에 치우칠 가능성이 높습니다. 
  • 편미분 방정식을 통한 이해 : 손실 함수를 최적화하는 경사 하강법은 일종의 편미분 방정식을 풀어 최저점을 찾아가는 과정입니다. Bias를 사용하면 이 최적화 공간(W와 b로 이루어진)이 훨씬 넓고 유연해져, 모델이 초기 지점에서 안정적으로 최적의 목적지(Global Minimum)로 수렴할 확률이 높아집니다. 

Bias를 안 잡았을 때(사용하지 않았을 때)의 문제점

Bias를 사용하지 않는 것은 use_bias=False 를 명시적으로 설정하는 경우입니다. 

결정 경계의 원점 강제 통과(Origin Constraint)

  • 치명적인 문제 : 편향이 없는 모델의 출력은 Output=𝜎(𝑊𝑋) 입니다. 만약 입력 X가 [0,0]이라면 출력은 항상 𝜎(0)=0.5(Sigmoid의 경우)가 됩니다. 즉 모든 결정 경계는 반드시 원점 (0,0)을 통과해야만 합니다.
  • 분류 실패 예시 : make_moons나 XOR 문제의 최적 결정 경계가 원점을 지나지 않을 경우 Bias가 없는 모델은 절대 이 경계를 만들 수 없어 분류에 실패합니다. 

 학습 안정성 저하 및 낮은 정확도

  • 불안정한 시작 지점 : Bias가 없으면 학습 시작 시 모델의 초기 출력은 순전히 무작위 가중치(W)와 입력(X)에만 의존합니다. 이로 인해 매 학습 시마다 출력의 분포가 매우 불안정해지며, 특정 뉴런들이 초기부터 죽어버리거나(Dead ReLU) 특정 클래스에 과도하게 치우치는 현상이 발생하여 정확도가 떨어집니다. 

유연성 상실과 단순 선형 분류로의 회귀

  • Bias가 없으면 아무리 층을 깊게 쌓고 비선형 활성화 함수 (ReLU)를 사용하더라도, 모델이 표현할 수 있는 함수 공간이 크게 제한되어 복잡한 비선형 패턴을 학습하기 어렵습니다. 사실상 모델의 유연성이 떨어져 선형 분류기와 크게 다르지 않은 성능을 보일 수 있습니다. 

결론

결론적으로 Bias는 신경망이 데이터 분포와 독립적으로 최적의 위치에 결정 경계를 배치할 수 있도록 해주는 위치 조정자 역할을 합니다. 특히 비선형 문제를 다루는 현대의 MLP에서 Bias는 뉴런이 복잡한 패턴을 학습할 수 있는 기본적인 유연성을 제공하는 필수 불가결한 요소입니다. 

 

 

반응형