반응형
데이터를 train, validation, test 셋으로 나누고 모델을 만들었다고 합시다. 이 모델은 현재 뽑힌 validation 셋에 과적합된 모델일 것입니다. 데이터를 train,validation,test 를 랜덤하게 나누는 작업 자체를 반복해서 수행한다면 이러한 문제를 해결할 수 있습니다. 데이터를 train,validation,test로 처음 나눈 상태를 S1 이라고 놓고, S1에서 모델을 학습하고 성능을 평가합니다. 다시 랜덤하게 나누고 이 상태를 S2라고 놓고 같은 작업을 반복합니다. 이렇게 데이터 나누기를 m번 반복하면 S1부터 Sm까지 m개의 성능이 있을 것입니다. 이 성능들의 평균을 구하여 모델의 성능으로 사용하면 됩니다.
그런데 이 방법에는 문제가 있습니다. 랜덤하게 모델을 나눌 경우 모든 데이터를 학습에 골고루 사용하기가 어려워집니다. 모든 데이터를 학습에 사용하려면 랜덤추출을 아주 많이 해야할 것입니다. 이런 이유 때문에 등장한 방법이 n-folds cross validation 입니다. 이 방법이 무엇인지는 다음 시간에 배워봅시다.
반응형
'기타 강의 > 머신러닝 모델 검증의 이해' 카테고리의 다른 글
[머신러닝 모델 검증의 이해] 3. k-fold cross validation (0) | 2023.11.16 |
---|---|
[머신러닝 모델 검증의 이해] 1. train, validation, test set 은 왜 나뉜걸까 (0) | 2023.09.25 |
댓글