728x90
반응형
Bias는 단순히 더해지는 숫자가 아니다
신경망 학습에서 Bias(편향, b)는 종종 가중치(W)에 가려져 그 중요성이 간과되곤 합니다. 하지만 Bias는 모델이 데이터를 해석하고 결정 경계를 설정하는 유연성을 부여하는 핵심적인 요소입니다. 특히 XOR이나 make_moons와 같은 비선형 문제를 해결할 때 Bias의 유무는 모델의 성공과 실패를 가르는 결정적인 차이를 만듭니다.
용어 정리 및 Bias의 역할
Bias(b) : 뉴런의 발화 임계점 조절자
| 구분 | 개념 | IT/ML에서의 역할 |
| Bias(b) | 활성화 함수가 적용되기 전의 선형 합산 결과(W, X)에 더해지는 상수 값 | 활성화 임계점 조절 입력 X가 0일 때도 뉴런이 발화할 수 있게 하거나, 발화하기 위해 필요한 최소 입력값을 조절 결정 경계 팽행 이동 결정 경계가 원점(Origin)에 묶이지 않고 데이터셋에 맞춰 자유롭게 이동할 수 있게 함 |
| 활성화 함수 | 뉴런의 출력을 결정하는 비선형 함수 | Bias가 이동시킨 결정 경계에 비선형성을 부여하여 복잡한 곡선 형태를 만들게 함 |
수학적 표현


Bias를 사용했을 때의 작동 원리 및 강점
Bias를 사용하는 것이 표준적인 신경망 설계이며, 다음과 같은 결정적인 강점을 제공합니다.
결정 경계의 자유로운 이동(Shifting the Decision Boundary)
- 작동 원리 : Bias(b)는 W X의 결과 전체를 양수 또는 음수 방향으로 평행 이동시킵니다. 이는 기하학적으로 결정 경계(Decision Boundary)를 X축과 Y축을 따라 자유롭게 이동시키는 효과를 줍니다.
- 강점 : 데이터셋의 분포가 원점 근처에 있지 않거나, 원점을 지나지 않는 최적의 분류 평면이 필요할 때, Bias는 결정 경계를 데이터에 맞춤형으로 위치시킬 수 있게 합니다.
모델의 표현 능력 극대화
- 비선형성 구현 : MLP에서 비선형 문제를 해결하는 능력은 비선형 활성화 함수와 편향이 작동할 때 완성됩니다. Bias는 활성화 함수가 최적의 영역에서 작동하도록 입력 신호의 범위를 조정하여, 학습된 가중치와 무관하게 특정 뉴런을 켜거나 끌 수 있는 유연성을 줍니다.
학습 시작 지점 및 수렴 안정성
- 초기 가중치와 편향은 무작위로 설정되지만, 편향 자체가 초기화 시점의 기저(Base) 역할을 합니다. 편향이 없다면, W, X의 초기 값이 0 근처에 치우칠 가능성이 높습니다.
- 편미분 방정식을 통한 이해 : 손실 함수를 최적화하는 경사 하강법은 일종의 편미분 방정식을 풀어 최저점을 찾아가는 과정입니다. Bias를 사용하면 이 최적화 공간(W와 b로 이루어진)이 훨씬 넓고 유연해져, 모델이 초기 지점에서 안정적으로 최적의 목적지(Global Minimum)로 수렴할 확률이 높아집니다.
Bias를 안 잡았을 때(사용하지 않았을 때)의 문제점
Bias를 사용하지 않는 것은 use_bias=False 를 명시적으로 설정하는 경우입니다.
결정 경계의 원점 강제 통과(Origin Constraint)
- 치명적인 문제 : 편향이 없는 모델의 출력은 Output=𝜎(𝑊⋅𝑋) 입니다. 만약 입력 X가 [0,0]이라면 출력은 항상 𝜎(0)=0.5(Sigmoid의 경우)가 됩니다. 즉 모든 결정 경계는 반드시 원점 (0,0)을 통과해야만 합니다.
- 분류 실패 예시 : make_moons나 XOR 문제의 최적 결정 경계가 원점을 지나지 않을 경우 Bias가 없는 모델은 절대 이 경계를 만들 수 없어 분류에 실패합니다.
학습 안정성 저하 및 낮은 정확도
- 불안정한 시작 지점 : Bias가 없으면 학습 시작 시 모델의 초기 출력은 순전히 무작위 가중치(W)와 입력(X)에만 의존합니다. 이로 인해 매 학습 시마다 출력의 분포가 매우 불안정해지며, 특정 뉴런들이 초기부터 죽어버리거나(Dead ReLU) 특정 클래스에 과도하게 치우치는 현상이 발생하여 정확도가 떨어집니다.
유연성 상실과 단순 선형 분류로의 회귀
- Bias가 없으면 아무리 층을 깊게 쌓고 비선형 활성화 함수 (ReLU)를 사용하더라도, 모델이 표현할 수 있는 함수 공간이 크게 제한되어 복잡한 비선형 패턴을 학습하기 어렵습니다. 사실상 모델의 유연성이 떨어져 선형 분류기와 크게 다르지 않은 성능을 보일 수 있습니다.
결론
결론적으로 Bias는 신경망이 데이터 분포와 독립적으로 최적의 위치에 결정 경계를 배치할 수 있도록 해주는 위치 조정자 역할을 합니다. 특히 비선형 문제를 다루는 현대의 MLP에서 Bias는 뉴런이 복잡한 패턴을 학습할 수 있는 기본적인 유연성을 제공하는 필수 불가결한 요소입니다.
반응형
'AI > 인공지능(CNN)' 카테고리의 다른 글
| [인공지능] 딥러닝 핵심 : CNN(Convolution Neural Network) (0) | 2025.10.28 |
|---|---|
| [인공지능] 인공 신경망(Artificial Neural Network, ANN) (0) | 2025.10.28 |
| [인공지능] XOR 문제를 넘어 : 비선형 데이터 분류를 위한 MLP 설계와 작동 원리 (0) | 2025.10.26 |
| [인공지능] 데이터 준비부터 딥러닝 최적화까지 : 머신 러닝 핵심 개념 흐름 정리 (0) | 2025.10.24 |
| [인공지능] 인공지능 신경망의 핵심 : 비선형 활성화 함수(Activation Function) (0) | 2025.10.23 |