반응형
- 피처들의 스케일 차이가 크면 스케일이 큰 피처의 영향이 커짐.
- 정규화는 피처의 스케일을 적당한 범위 내로 맞추는 작업을 말함.
- 크게 네가지 방법이 있음.
1. 십진 스케일링 (Decimal Scaling)
- 최댓값이 0과 1사이에 놓이도록 10의 n제곱으로 전체 데이터를 나눠줌.
- 예시) {10000,20000,40000,60000,120000} 이 있다고 하면 최댓값인 120000을 0과 1사이에 놓이도록 $10^6$으로 데이터를 나눠줌. 데이터는 {0.01,0.02,0.04,0.06,0.12}
2. Z 점수 표준화 (Z-score normalization)
- 아래 수식을 이용하여 표준화함
$Z=\frac{X-\mu_{x}}{\sigma_{x}}$
3. 최대-최소 표준화 (Min-Max Normalization)
- 아래 수식을 이용하여 표준화함. upper은 상한, lower은 하한이고 연구자가 정해야함.
$x'=\frac{x-x_{min}}{x_{max}-x_{min}}\left ( upper-lower \right )+lower$
- 보통 상한과 하한은 1과 0으로 둠.
x'=\frac{x-x_{min}}{x_{max}-x_{min}}
4. 로그 변환
- 데이터가 치우쳐(skewed)있거나 인스턴스들 간의 단위 차이가 큰 경우에 사용함.
- 자연로그, 밑이 10 또는 2인 로그를 주로 사용함.
- 양(positive)의 데이터에만 사용 가능.
(참고문헌 : Practical machine learning, Fred Nwanganga and Mike Chapple)
반응형
'Tips' 카테고리의 다른 글
신경망 부르는 방법 (0) | 2023.09.26 |
---|---|
[머신러닝] 민감도와 특이도의 의미를 기억하는 방법 (0) | 2023.09.05 |
[머신러닝] 릿지 회귀모델이란? (0) | 2023.09.04 |
[데이터분석] 스무싱 방법 (데이터 평활법) (0) | 2023.06.30 |
[데이터 분석] 결측치 처리 방법 (0) | 2023.06.29 |
댓글