본문 바로가기
기타 강의/머신러닝 모델 검증의 이해

[머신러닝 모델 검증의 이해] 2. train set 은 한번만 뽑으면 되나?

by bigpicture 2023. 10. 10.
반응형

데이터를 train, validation, test 셋으로 나누고 모델을 만들었다고 합시다. 이 모델은 현재 뽑힌 validation 셋에 과적합된 모델일 것입니다. 데이터를 train,validation,test 를 랜덤하게 나누는 작업 자체를 반복해서 수행한다면 이러한 문제를 해결할 수 있습니다. 데이터를 train,validation,test로 처음 나눈 상태를 S1 이라고 놓고, S1에서 모델을 학습하고 성능을 평가합니다. 다시 랜덤하게 나누고 이 상태를 S2라고 놓고 같은 작업을 반복합니다. 이렇게 데이터 나누기를 m번 반복하면 S1부터 Sm까지 m개의 성능이 있을 것입니다. 이 성능들의 평균을 구하여 모델의 성능으로 사용하면 됩니다. 

 

그런데 이 방법에는 문제가 있습니다. 랜덤하게 모델을 나눌 경우 모든 데이터를 학습에 골고루 사용하기가 어려워집니다. 모든 데이터를 학습에 사용하려면 랜덤추출을 아주 많이 해야할 것입니다. 이런 이유 때문에 등장한 방법이 n-folds cross validation 입니다. 이 방법이 무엇인지는 다음 시간에 배워봅시다. 

반응형

댓글