본문 바로가기
Tips

분류 모델 성능 평가 지표 (Accuracy, precision, recall, F1 score)

by bigpicture 2025. 2. 28.
반응형

분류 모델의 성능을 평가할 때 사용하는 표는 아래와 같습니다. 아래 셀의 용어들이 평가지표 정의에 사용됩니다.

  • TP : True Positive (환자를 환자로 진단)
  • FN : False Negative (환자인데 정상으로 진단)
  • FP : False Positive (정상인데 환자로 진단)
  • TN : True Negative (정상을 정상으로 진단)

Positve 와 Negative 를 이해를 돕기 위해 환자와 정상으로 설명한 것입니다. 목적에 따라 Positive와 Negative의 의미가 달라질 수 있습니다.

1. Accuracy (정확도)

정의

  • 전체 예측 중에서 정답을 맞춘 비율
  • 공식

$$Accuracy=\frac{TP+TN}{TP+TN+FP+FN}$$

장점

  • 해석이 직관적임
  • 클래스가 균형잡혀 있으면 유용함

단점

  • 클래스 불균형이 있는 경우 신뢰가 어려움.
  • 예를 들어 100명 중 암환자 1명이 있을 때, 모두를 정상이라고 예측해도 정확도는 99%임.

2. Precision (정밀도, 양성 예측도)

정의

  • 모델이 양성이라고 예측한 것 중에 맞은 비율
  • 공식

$$Precision=\frac{TP}{TP+FP}$$

장점

  • False Positive(FP)를 줄이는 데 초점
  • 정확한 Positive 예측이 중요한 경우 유용 (ex.암진단, 스팸 필터)

단점

  • Recall을 고려하지 않음. False Negative 가 많아도 신경쓰지 않는다는 뜻임.
  • 예를 들어 암을 진단하는 기준을 보수적으로 바꾸면, 정상인을 암으로 분류할 일은 없어지니 FP 가 0이 되서 Precision 은 항상 100%지만, 암 환자를 정상인으로 분류하는 경우가 많아지게 됨.

3. Recall (재현율, 민감도)

정의

  • 실제 양성인 샘플 중에서 모델이 Positive 라고 올바르게 예측한 비율
  • 공식

$$Recall = \frac{TP}{TP+FN}$$

장점

  • True Positive를 높이는데 초점
  • 질병 진단에 유용함

단점

  • False Postivie를 고려하지 않음. 모든 샘플을 positive로 예측하면 Recall 은 100%가 되지만 False Postive가 많아져서 Precision 은 낮아짐

4. F1 Score

정의

  • Precision 과 Recall 의 조화평균
  • 공식
  • $$F1\ Score=2\times\frac{Precision\times Recall}{Precision+Recall}$$

장점

  • Precision 과 Recall 의 균형을 맞춰 평가.
  • 클래스 불균형에서 Accuracy 보다 신뢰할 수 있음.

단점

  • False Positive 와 False Negative 의 상대적 중요도를 조절할 수 없음. Precision 과 Recall 의 상대적 중요도 조절 불가.

조화평균을 사용하는 이유

  • 만약 Precision과 Recall의 평균을 단순히 산술평균(Arithmetic Mean) 으로 계산하면, 한쪽 값이 극단적으로 낮아도 평균 값이 너무 높아질 수 있음.
  • Precision = 1.0, Recall = 0.1 인 경우 산술평균은 아래와 같음.

$$\frac{1.0 + 0.1}{2} = 0.55$$

  • F1 Score (조화평균)은 아래와 같음

$$F1 Score = 2 \times \frac{1.0 \times 0.1}{1.0 + 0.1} = 0.18$$

  • 산술평균을 사용하면 Recall이 낮아도 높은 Precision 덕분에 평균 점수가 높게 나옴. 하지만 F1 Score(조화평균)은 낮은 Recall을 반영하여 적절히 낮아짐. 즉, Precision이 높아도 Recall이 낮으면 좋은 모델이 아니므로 F1 Score가 낮게 나오도록 함.

5. Precision 과 Recall 중 진단에 더 적합한 지표는?

반응형

댓글