본문 바로가기
반응형

데이터분석3

[데이터분석] 정규화 방법들 (normalization) - 피처들의 스케일 차이가 크면 스케일이 큰 피처의 영향이 커짐. - 정규화는 피처의 스케일을 적당한 범위 내로 맞추는 작업을 말함. - 크게 네가지 방법이 있음. 1. 십진 스케일링 (Decimal Scaling) - 최댓값이 0과 1사이에 놓이도록 10의 n제곱으로 전체 데이터를 나눠줌. - 예시) {10000,20000,40000,60000,120000} 이 있다고 하면 최댓값인 120000을 0과 1사이에 놓이도록 $10^6$으로 데이터를 나눠줌. 데이터는 {0.01,0.02,0.04,0.06,0.12} 2. Z 점수 표준화 (Z-score normalization) - 아래 수식을 이용하여 표준화함 $Z=\frac{X-\mu_{x}}{\sigma_{x}}$ 3. 최대-최소 표준화 (Min-Max.. 2023. 6. 30.
[데이터분석] 스무싱 방법 (데이터 평활법) - 노이즈가 문제를 발생시키는 경우 노이즈의 영향을 최소화해야함. 노이즈를 줄이는 절차를 스무싱이라고 부름. - 스무싱 방법들을 알아보고자 함. 1. 구간의 평균을 이용한 스무싱 (smoothing with bin means) - 전체를 몇개의 구간으로 나누고, 각 구간의 값들을 각 구간의 평균값으로 대체함. - 예시) {1,3,5,8,9,15,18,21}을 두개의 구간 {1,3,5,8},{9,15,18,21} 으로 나눔. 각 구간의 평균은 4.25와 15.75이므로 이 값으로 대체함. {4.25,4.25,4.25,4.25,15.75,15.75,15.75,15.75} 로 스무싱됨. 2. 구간 경계값을 기주능로 한 스무싱 (smoothing with bin boundaries) - 각 구간의 양 끝값을 유.. 2023. 6. 30.
[데이터 분석] 결측치 처리 방법 데이터의 결측치를 처리하는 방법을 알아봅시다. 인스턴스와 피처라는 용어를 사용할 것입니다. 100명의 키와 몸무게가 아래와 같이 정리되어 있다고 합시다. 사람1 166 44 사람2 172 55 ... 이때 행을 파라미터, 키와 몸무게에 해당되는 열을 피처라고 부릅니다. 1. 단순 제거 - 결측치가 포함된 인스턴스를 단순 제거해도 영향이 적은 경우에 사용 - 다른 제거방법의 적용이 불가능한 경우 사용 2. NA,0,-1 등으로 처리 - 비순서 범주형 자료에 사용 - (-1)로 처리시 연속데이터 통계량을 구할 때 결과가 이상해지므로 주의해야 함 3. 대체하기(Imputation) 1) 임의 대체 (Random imputation) - 말 그대로 임의의 값으로 대체함 - 자료의 경향 반영 불가 2) 대응기반 .. 2023. 6. 29.
반응형