본문 바로가기
Tips

[데이터분석] 정규화 방법들 (normalization)

by bigpicture 2023. 6. 30.
반응형

- 피처들의 스케일 차이가 크면 스케일이 큰 피처의 영향이 커짐. 
- 정규화는 피처의 스케일을 적당한 범위 내로 맞추는 작업을 말함. 
- 크게 네가지 방법이 있음. 

 

1. 십진 스케일링 (Decimal Scaling)

- 최댓값이 0과 1사이에 놓이도록 10의 n제곱으로 전체 데이터를 나눠줌. 
- 예시) {10000,20000,40000,60000,120000} 이 있다고 하면 최댓값인 120000을 0과 1사이에 놓이도록 $10^6$으로 데이터를 나눠줌. 데이터는 {0.01,0.02,0.04,0.06,0.12}

 

2. Z 점수 표준화 (Z-score normalization)

- 아래 수식을 이용하여 표준화함

$Z=\frac{X-\mu_{x}}{\sigma_{x}}$

 

3. 최대-최소 표준화 (Min-Max Normalization)

- 아래 수식을 이용하여 표준화함. upper은 상한, lower은 하한이고 연구자가 정해야함. 

$x'=\frac{x-x_{min}}{x_{max}-x_{min}}\left ( upper-lower \right )+lower$

- 보통 상한과 하한은 1과 0으로 둠. 

x'=\frac{x-x_{min}}{x_{max}-x_{min}}

 

4. 로그 변환

- 데이터가 치우쳐(skewed)있거나 인스턴스들 간의 단위 차이가 큰 경우에 사용함. 
- 자연로그, 밑이 10 또는 2인 로그를 주로 사용함. 
- 양(positive)의 데이터에만 사용 가능. 

 

 

(참고문헌 : Practical machine learning, Fred Nwanganga and Mike Chapple)

반응형

댓글